本当に知ってる!?...

94
本当に知ってる!? リアルなデータ分析の世界 ~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~ 祖山 寿雄 株式会社サイカ 2017/03/16 ヒカラボ

Upload: hisao-soyama

Post on 11-Apr-2017

592 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

本当に知ってる!?リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

祖山 寿雄株式会社サイカ

2017/03/16ヒカラボ

Page 2: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/162

自己紹介

● 祖山 寿雄– @who_you_me

● 株式会社サイカ– Statistics Division

● Data Analysis Engineer

● 社会学修士→ネットワークエンジニア→Webエンジニア→DBエンジニア→データ分析エンジニア

Page 3: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

今日の目的

Page 4: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

Before

● データサイエンティスト/AI/ディープラーニング 流行ってるけどなんだかよく分からない

● 自分もやってみたいけど、どこから何に手を付け

Page 5: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

After

● AI/ディープラーニング/機械学習/統計学 これらがどんなものか分かる

● これらの分野の将来像が分かる

Page 6: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/166

今日話さないこと

● 個別の手法の解説– 自分で手を動かして学ばないと身につかないです– 自ら学ぶためのアドバイスはします

● 明日すぐに役立つこと– 明日役に立つことは明後日には役に立たなくなって

るかもしれません

Page 7: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

1.AI/ディープラーニング/機械学習/統計学一体何が違うのか

Page 8: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/168

一般的なイメージ (1/2)

● AI– なんかすごいもの– 人の仕事を奪うもの– いつかはこいつが人類を支配する日が来るらしい

● ディープラーニング– なんかすごいもの– 囲碁で人間に勝った

Page 9: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/169

一般的なイメージ (2/2)

● 機械学習– よくわからない

● 統計学– 昔授業でやったけどぜんぜんわからなかったやつ

Page 10: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1610

実際はこうじゃ

Page 11: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1611

AI (1/2)

● 人工的にコンピュータ上などで人間と同様の知能を実現させようという試み、或いはそのための一連の基礎技術を指す(Wikipedia)

● バズワードとして使われている「AI」は「機械学習」とほぼ同義であり、その中の大半は「ディープラーニング」– 囲碁、将棋– 自動運転 etc...

Page 12: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1612

AI (2/2)

● 「何でもできるすごいやつ」みたいに思われている実際はそんなことない

● 現に大手ベンダーとかが「AI」と称して売っているのは単なる機械学習パッケージ– H社の事例

● http://social-innovation.hitachi/jp/solutions/ai/● https://wirelesswire.jp/2016/11/57683/

Page 13: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1613

ディープラーニング

● 「機械学習」の一手法● パーセプトロン→ニューラルネットワーク→

ディープラーニング と進化してきた– 半ば見捨てられていた手法がムーアの法則により蘇

り世界を席巻するという胸熱展開ではある

Page 14: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1614

再掲

Page 15: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

残ったのは「機械学習」「統計学」じゃあこれらはいったい?

Page 16: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

の前に、説明してない大事な言葉がもうひとつ

Page 17: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

データサイエンス/データサイエンティスト

Page 18: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1618

定義 (1/5)

● 「データサイエンティスト協会」なるものがあるのでここを見れば分かるに違いない– http://www.datascientist.or.jp/

● “実際には新しい職業である「データサイエンティスト」には明確な定義がなく、対応領域も広いことから、さまざまな課題も生まれています”– 定義ないんかーい

Page 19: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1619

定義はどこだ (2/5)

● がんばってPDF漁ったらあった– http://www.datascientist.or.jp/news/2014/pdf/1

210.pdf● 「データサイエンティストとは、データサイエ

ンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」

Page 20: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1620

定義はどこだ (3/5)

● 「データサイエンス」「データエンジニアリング」 is 何

● データサイエンス(力)– 「情報処理、人工知能、統計学などの情報科学系の

知恵を理解し、使う力」

● データエンジニアリング(力)– 「データサイエンスを意味のある形に使えるように

し、実装、運用できるようにする力」

Page 21: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1621

定義を求めて三千里 (4/5)

● よくわからんので、今春開設される滋賀大学データサイエンス学部のサイトも見てみる– https://www.ds.shiga-u.ac.jp/

● “データサイエンスとは社会に溢れているデータから<価値>を引き出す学問です”

Page 22: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1622

やっと定義に出会えた (5/5)

● これは非常に分かりやすいし、皆さんがこの分野に興味を持っているのもここなのでは– データから価値を引き出したいですよね?

● というわけで、やっと「機械学習」と「統計学」の話に戻ります

Page 23: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

機械学習 vs. 統計学 (1/3)

● 結論から言うと「データから価値を引き出す」

Page 24: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1624

機械学習 vs. 統計学 (2/3)

● 機械学習で定評のある入門書『はじめてのパターン認識』で取り上げられている手法

ベイズの識別規則 kNN法 線形識別関数 ロジスティック回帰 パーセプトロン サポートベクトルマシン 主成分分析

部分空間法 k-means法 階層型クラスタリング EMアルゴリズム 決定木 ブースティング ランダムフォレスト

Page 25: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1625

機械学習 vs. 統計学 (3/3)

● 明らかに統計学の手法だったり、そこから派生したものだったりが混じっている

ベイズの識別規則 kNN法 線形識別関数 ロジスティック回帰 パーセプトロン サポートベクトルマシン 主成分分析

部分空間法 k-means法 階層型クラスタリング EMアルゴリズム 決定木 ブースティング ランダムフォレスト

Page 26: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1626

機械学習の定義

● 大量のデータをコンピュータを使って学習し、そこに潜むパターンを見つけ出すこと– SASのサイトから借用して一部アレンジ

● 見つけ出したパターンを未知のデータに適用し、予測すること– メールの文章からスパムかどうか判定する– 明日の天気と気温からビールの売上を予測する

Page 27: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1627

統計学の定義

● 対象の全体または一部を観察し、そこから数量的法則(規則)を発見する– みんな大好き『統計学入門』を要約

● あれっおんなじだ

Page 28: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1628

機械学習 vs. 統計学 再び

● どちらも「データからパターン・法則を見出す」という点であんまり変わらない– 木を切るのに斧を使うのか鉈を使うのかぐらいのノ

リで、「木を切る」という行為に変わりはない

● 若干のニュアンスの違いはある(後述)– とはいえ「データから価値を引き出す」が目的であ

る我々にとっては単なる道具の違いでしかない– 道具を選り好みする奴にろくなのはいない

Page 29: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1629

まとめ (1/2)

● 「AI」は「機械学習」とほぼ同義で使われている

● 「ディープラーニング」は機械学習の一手法● 「機械学習」「統計学」はどちらもデータから

何らかのパターン・法則を見出す手法

Page 30: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1630

まとめ (2/2)

● 我々がやりたいのは「データから価値を引き出す」こと

● この目的に照らすと、機械学習も統計学もあくまで道具であり、取り立てて区別する必要はない

Page 31: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

2.「データ分析」の今とこれから

Page 32: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1632

はじめに

● ここまでは便宜上「統計学や機械学習を駆使してデータから法則を見出す行為」を「データサイエンス」と呼称していましたが、宗教上の理由によりここからは「データ分析」とします– 理由が気になる人は懇親会で聞いてみてください

Page 33: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

問題です

Page 34: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

データ分析の中でも「AI」がすごいブームですが、なんでブームになっているんでしょうか?

Page 35: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

答え

Page 36: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

誰でも簡単にできるようになってきたから

Page 37: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1637

● そもそもデータがない● データがあってもマシンパワーが足りない● 高度な数学の知識がないと扱えない● ナレッジがない

Page 38: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1638

今 (1/2)

● データなら腐るほどある– 人の行動履歴がWebに蓄積されるようになった– オープンデータがいっぱい

● マシンパワーも腐るほどある– ムーアの法則– GPU– クラウド

Page 39: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1639

今 (2/2)

● 大量データと潤沢な計算資源により、高度な数学を駆使しなくても「物理で殴れる」– 総当り(に近いノリ)で試行錯誤が可能に

● ディープラーニングとかまさにそれ

● 情報がいくらでも転がっている– 出版ラッシュ– Webにもいっぱい

Page 40: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ね、簡単でしょう?

Page 41: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ここで第二問

Page 42: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

「誰でも簡単にできること」がただできるだけで競争優位になるでしょうか?

Page 43: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1643

生存戦略としてのデータ分析 (1/5)

● 今流行ってるのは機械学習よりのアプローチ● 機械学習は工学的なアプローチのため、ITエン

ジニアとの親和性が高い– 理論、プロセスより結果重視

● というのもあり、周囲でも優秀なエンジニアがどんどん機械学習を始めている– 優秀なのですぐに成果が上がっている

Page 44: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1644

生存戦略としてのデータ分析 (2/5)

● 端的に言うとエンジニア個人の生存戦略という観点ではこの分野はとっくにレッドオーシャン

● 他の分野で既に優秀な人が、得意分野と機械学習を掛け合わせてなんかやる、みたいなのはまだまだ有望

● むしろある程度使えないとヤバいみたいになることもありえる……?

Page 45: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1645

生存戦略としてのデータ分析 (3/5)

● まだあるよ● 某2016年にもっとも売れた技術書にこんな記述

が– 「ディープラーニングって学習の過程に人が介在し

ないから素晴らしい」(意訳)

● それってもう人いらないじゃん……

Page 46: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1646

生存戦略としてのデータ分析 (4/5)

● マシンパワーを武器に試行錯誤するアプローチは容易に機械で代替可能

● 「データさえ突っ込めば勝手に学習してくれる」ことを謳うプロダクトは既にいっぱいあるし、精度もこれから上がる

Page 47: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1647

生存戦略としてのデータ分析 (5/5)

● こんな時代はもう目の前– 実用上必要なレベルの精度は機械が勝手に出せる– それを越えようとしたらとてつもない専門性が必要

● データ収集や前処理など、とても大事だが地道でつらい作業は当分残りそうではある– そういうのが好きな人はそこに振るのはありそう

Page 48: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1648

小休止

● 「人工知能ブーム」は誰でも簡単にできるようになったから起こった

● 「誰でも簡単にできる」ので、既存の得意分野と組み合わせるとか、みんなやりたがらないことをするとかしないと競争優位にならない– 「これしかできない」データサイエンティストはすぐに仕事がなくなる……

Page 49: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

あれ?あんまり明るい話にならない?

Page 50: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

- - - ここからポジショントーク - - -

Page 51: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1651

このセクションのタイトルは?

● 「データ分析」の今とこれから● ここまで機械学習の話ばっかりだけど統計学は?● そうです

– なので● ここから

– さっきちょっと言った「若干のニュアンスの違い」の話をします

ポジショントーク中

Page 52: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1652

ニュアンスの違い is 何

● キーワードは既に出ている– 「機械学習は工学的なアプローチ」– 「理論、プロセスより結果重視」

● 「結果重視」の結果とは?– 機械学習の定義をおさらい

● 大量のデータをコンピュータを使って学習し、そこに潜むパターンを見つけ出す

● 見つけ出したパターンを未知のデータに適用し、予測する

ポジショントーク中

Page 53: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1653

機械学習

● (主流の)機械学習の目的は「予測」– 予測が当たれば正義

● なので、予測精度が上がるためならなんでもやる– ニューラルネットをものすごい多層にしたり– 複数の学習器で多数決したり

ポジショントーク中

Page 55: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1655

一方の統計学

● 「データからパターンを見出す」という点では同じでは– 同じです

● だが、統計学においては必ずしもパターンを予測に使うことが目的ではない– 「パターンを見出しそれを理解する」ことに力点が置かれる

ポジショントーク中

Page 56: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ポジショントーク中

http://xica.net/magellan/marketing-idea/stats/statistics-words/

Page 57: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

それって何が違うのか (1/2)

● 競馬予測を例に取ってみましょう

ポジショントーク中

Page 58: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1658

それって何が違うのか (2/2)

● 予想屋– 使える情報は全て使って、勝つ馬が予測できればそ

れでいい● 勝つ馬が分かればお金が儲かるから

– 税務署がアップを始めました

● 馬主、調教師– 予測できるだけではあまり意味がない

ポジショントーク中

Page 59: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1659

なぜ意味がない?

● 彼らの仕事は「勝てる馬を育てる」「目の前にいるこの馬を勝たせる」こと– 「強い馬はなぜ強いのか」「今強くない馬を強くす

るにはどうすればいいか」が重要

● なので、生まれてから成長し、強くなるまでのパターン(メカニズム)そのものを理解する必要がある

ポジショントーク中

Page 60: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1660

補足:それって機械学習じゃダメ?

● 機械学習なら予測できるんだから、シミュレーションして一番いい結果が出る方法を採用すればいいんじゃないの?

● あまりよくない– 特徴量がすごい多いので総当りできなそう– 「相関」と「因果」は違う– 「雨の日には絶対勝てます!」じゃあ雨降らせろっ

てか……?

ポジショントーク中

Page 61: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

- - ポジショントークが加速します - -

ポジショントーク中

Page 62: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1662

まとめ (1/5)

● 機械学習の目的は「未来(未知のデータ)を予測すること」– 予測さえできればそれがゴール

● 統計学の目的は「データの背後に潜むメカニズムを理解すること」– ある程度の予測精度はもちろん必要– だが、予測の精度を上げるためには何でもやってい

い訳ではない

ポジショントーク中

Page 63: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1663

まとめ (2/5)

● 「未来を予測する」ことだけが目的なら、人を介さず機械だけで完結する時代は目の前– もちろんそれだけでも価値をたくさん生み出すこと

はできる

● でも、やりたいことって本当にそれだけ?

ポジショントーク中

Page 64: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1664

まとめ (3/5)

● 競馬の話に戻ります● 調教師は目の前にいる馬が「次のレースで負け

る」と予測されれば諦めるのか?– 勝とうともがくよね– 勝つための手段を追求し続けるよね

● 彼/彼女がやりたいのは「未来を変える」こと

ポジショントーク中

Page 65: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1665

まとめ (4/5)

● 「未来を予測する」だけではなく「未来を変える」ことまで求められるフィールドは絶対にある

● 「未来を変える」ためには「人の行動を変える」必要がある

● 人の行動を変えられるのは人だけ– 「なんだかよく分からないけど当たるからそれに従

え」で人は動くか?– それって神のお告げと何も変わらない

ポジショントーク中

Page 66: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1666

まとめ (5/5)

● なぜ人にしかできないのか– 事象の背後に潜むメカニズムを明らかにして、成功

までのストーリーを提示しないと人は動かない– 今のところ(そしてたぶん今後しばらくは)「背後

のメカニズムを理解する分析」は機械だけではできない

● 人や社会の行動に関する深い考察と、それを数式に落としこむ能力が必要

ポジショントーク中

Page 67: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

結論

● こっちはまだまだ明るいぞ

ポジショントーク中

Page 68: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

- - - ポジショントークここまで - - -

Page 69: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

おまけ

● 適当に書いて出した事前のプログラムから漏れ

Page 70: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1670

Googleと同じ土俵で戦ってもGoogleには勝てない● 機械学習(特にディープラーニング)では大量

のデータと潤沢な計算資源で「物理で殴る」のがとっても有効

● 世界で一番データと計算資源を持っているのは誰?– おまけに連中はディープラーニングに最適化された

プロセッサを独自に作ったりとかしてるぞ

Page 71: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1671

「AI」の得意なこと、苦手なこと(1/3)● 実活用の分野では、人間の「ちょっぴり知的だ

けどほぼ単純作業」はかなりの部分が代替可能– 名刺の画像からデータ化– エッチな画像を検出してBAN– ローンの審査– 自動運転もこの範疇かな

Page 72: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1672

「AI」の得意なこと、苦手なこと(2/3)● 「囲碁で勝つ」は「ちょっぴり知的だけどほぼ

単純作業」には当てはまらなそうだが、これも万能ではない– 囲碁で勝つAIは将棋では勝てない

● それどころか将棋を指すことすらできない

– 将棋で勝てるAIも別にあるが、こんな面白い話が● http://www.news-postseven.com/archives/20140424_

252628.html

Page 73: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1673

「AI」の得意なこと、苦手なこと(3/3)● 「ルールが明確に決まっていて今後もそのルー

ルは変わらない」分野では人間を超えられる– この世界のごく一部

● AIは意味を理解することができないので、ルール自体が変わると弱い– 囲碁で勝つことはできても「どうして勝っている

か」は分からない● 人に教えることはできない

Page 74: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

3.未来を変える人になるための道標

Page 75: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1675

さあ一歩踏み出そう

● さっきまでのは一旦忘れましょう– あくまでハートやスタンスの問題であって、技術的

にはやることそんなに変わらない– 機械学習を学ぶと統計にフィードバックがあるし、逆もまた然り

● てなわけで、学ぶ時も好き嫌いせず両方やりましょう

Page 76: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1676

大事な心構え (1/2)

● あなたが簡単に身に付けられるものは、隣の人も簡単に身に付けられる– なのですぐ追い付かれる

● だが、苦労して身に付けたものは簡単には追い付かれない

Page 77: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1677

大事な心構え (2/2)

● 努力しよう● 「大事って分かっているが面倒だから実際には

なかなかできない」ことを地道にやろう– それって具体的に何というのは後述

Page 78: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

で、まずは何から始めればいいの?

Page 79: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1679

これは実は

Page 80: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1680

こうじゃ

Page 81: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1681

数学は科学の女王にして奴隷 (1/3)

● 今日の聴衆はエンジニア想定だからコンピュータサイエンスはそこそこ分かってるとして……

● 当たり前だが数学分からないと無理

Page 82: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1682

数学は科学の女王にして奴隷 (2/3)

● でも安心を– 統計学/機械学習に入門するための数学はそこまで

レベル高くない

● 高校数学+大学入門レベルの微積・線形代数で十分– それすらやりたくない人は諦めましょう

Page 83: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1683

数学は科学の女王にして奴隷 (3/3)

● 高校数学やり直しではこの本が評判いい– 朝倉書店『統計学のための数学入門30講』

● 大学数学はぶっちゃけ学習参考書が実用的で割といい– マセマの『大学数学キャンパス・ゼミシリーズ』– 読んだことないが高校数学もマセマでいいかも

Page 84: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1684

大事な心構え 再び

● 「大事って分かっているが面倒だから実際にはなかなかできない」ことを地道にやろう– 真面目に技術書読む時には「写経」するよね– 数学も全く同じ

● 読むだけじゃ理解したつもりになってるだけ

– 手を動かそう● さあ紙とペンを持って

Page 85: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1685

準備は整った

● ここまでやると、いよいよ統計学/機械学習の入門書がちゃんと読めるようになる

● ここからは独断と偏見で、というか自分が読んでよかったと思う本を紹介– 割と定番書ばかりなので面白みとかはない– いきなり本だと重い人はオンラインコースでもいい

かも● 自分は詳しくないのでググッて

Page 86: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1686

統計学編 (1/2)

● 東大出版会『統計学入門』(通称「赤本」)はやはり外せない……– 初学者には難しいという声もあるが、確率・確率分布は早めに入門しておかないと

– 線形回帰はいろんな手法の基礎だし

● 東大出版会『自然科学の統計学』(通称「青本」)も超いい本だが難しい– 一人で読めたら自信を持っていい

Page 87: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1687

統計学編 (2/2)

● これだけだとベイズ論者から馬鹿にされるのでベイズも– 岩波書店『データ解析のための統計モデリング入

門』だと前2冊からうまく接続できる

● 「因果は相関と違う」と言ったが因果を追求する統計学も実はある– 『岩波データサイエンス vol.3』がすごく分かりやす

Page 88: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1688

機械学習編

● 黄色い悪魔は必ず挫折するのでやめよう● 森北出版『はじめてのパターン認識』(通称

「はじパタ」)はかなりいい– が、結構難しいのでコロナ社『言語処理のための機械学習入門』を先に読んでおくといいかも

● 古い版は誤植多いので注意

Page 89: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1689

大事な心構え 再び

● 「大事って分かっているが面倒だから実際にはなかなかできない」ことを地道にやろう– さあ紙とペンを持って– 数式は全部写して式展開省略してるところは全部自

分で埋めるぐらいの気概は必要● 一人でやるとしんどいので、教えてくれる人や一緒に悩ん

でくれる人を探すのが結構重要かもしれない

Page 90: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

プログラミング編

● まあPythonだよね● インプレス『Python機械学習プログラミング』

Page 91: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

ヒカラボ2017/03/1691

その先は……

● ここまでできたあなたは相当力がついています● 自分の好きな分野のオープンデータを探していろいろやってみましょう

● 割とガチな勉強会に行ってもだいたい話は通じるので、人から刺激を受けましょう

Page 92: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

という訳で

Page 93: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

みんなで「未来を変える分析ができる人」になろう!

Page 94: 本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

以上、ご清聴ありがとうございました