さらば!データサイエンティスト

45
ささささささささささささささ PFI ささささ 2013/08/22 ささささ Preferred Infrastructure ささささささJubatus さささささささ ささ ささ

Upload: shohei-hido

Post on 04-Dec-2014

27.876 views

Category:

Technology


2 download

DESCRIPTION

2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309

TRANSCRIPT

Page 1: さらば!データサイエンティスト

さらば!データサイエンティスト

PFI セミナー 2013/08/22

株式会社 Preferred Infrastructure リサーチャー& Jubatus チームリーダー

比戸 将平

Page 2: さらば!データサイエンティスト

自己紹介

比戸将平( HIDO Shohei) TwitterID: @sla 専門:データマイニング、機械学習 経歴:

2006-2012: IBM東京基礎研究所データ解析グループ 機械学習 (特に異常検知 )のアルゴリズム研究開発 お客様案件でデータ解析プロジェクトに従事

2012-: 株式会社プリファードインフラストラクチャー 大規模オンライン分散機械学習基盤 Jubatusチームリーダー

2013-: Preferred Infrastructure America, Inc. Chief Research Officer

2

Page 3: さらば!データサイエンティスト

IT Leaders様にインタビュー記事掲載:数日間 Google検索のトップにいた(?)

http://it.impressbm.co.jp/e/2013/08/01/5054

Page 4: さらば!データサイエンティスト

データサイエンティスト三部作・完結編「さらば!データサイエンティスト」 つくり方:データサイエンティストグループの構築 つかい方:仕事を依頼する側のリテラシーの話 今回は定義論もあるあるも活用方法も無し

Slideshareにて公開中

Page 5: さらば!データサイエンティスト

続:データサイエンティストブーム

なぜ「さらば」なのか?

具体例

まとめ

作者のあとがき

Agenda

Page 6: さらば!データサイエンティスト

NHKクローズアップ現代で統計ブーム特集

“ 統計学を使いこなす「データサイエンティスト」と呼ばれる専門職は「最もセクシーな(魅力的な)職業」だとして、多くの企業から引く手あまたの状況だ。”

http://www.nhk.or.jp/gendai/yotei/index_yotei_3375.html

Page 7: さらば!データサイエンティスト

Google Trendsによる検索人気度のMAX:第 2回時の 3倍、第 1回時の 15倍

7

Page 8: さらば!データサイエンティスト

データサイエンティスト協会設立→役割の定義と育成へ

http://www.datascientist.or.jp/

Page 9: さらば!データサイエンティスト

各社による育成ビジネス

http://www.albert2005.co.jp/release/archives/201307/29_120043.html

http://www.brainpad.co.jp/news/2013/pdf/0806.pdf

http://japan.emc.com/microsites/bigdata/why-big-data-datascientist.htm

Page 10: さらば!データサイエンティスト

関連本の相次ぐ出版:今年 4月以降だけでこれだけ育成、データ分析、統計推し、事例集、情シスの逆襲

Page 11: さらば!データサイエンティスト

現時点での決定版:データサイエンティスト養成読本(今見た)

広いトピックがコンパクトにかつ初歩には必要十分 データ分析基礎編、データサイエンス、 R、 NumPy、機械学習、 Fluentd、マーケティング分析、 SNS分析、 SQL

インストール方法、サンプルも豊富に載ってる データサイエンティストを目指すなら必読

Page 12: さらば!データサイエンティスト

本日のキーメッセージ

データサイエンティストは…養成できません!!!

(そう簡単には)

Page 13: さらば!データサイエンティスト

続:データサイエンティストブーム

なぜ「さらば」なのか?

具体例

まとめ

作者のあとがき

Agenda

Page 14: さらば!データサイエンティスト

ビッグデータ分析の導入:まだまだこれから

IBMの 2012年調査 24%がまだビッグデータ活用について調査段階 47%がビッグデータ活用方法について検討段階 わずか 6%が導入してビジネス価値を生み出している

導入の困難さと効率化の困難さがやや混同されている

IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013

Page 15: さらば!データサイエンティスト

ビッグデータ解析

データアナリティクス

ビッグデータ

ビッグデータ分析の現状:ブラックボックス?

15

応用

利益最大化

コスト最小化

需要予測

故障予知

営業戦略最適化

パーソナライズ

マーケ最適化

データサイエンティスト

Page 16: さらば!データサイエンティスト

ビッグデータ

ビッグデータ処理系と解析ソフトウェアの組合せ

16

データサイエンティスト

ビッグデータ処理系

応用

利益最大化

コスト最小化

需要予測

故障予知

営業戦略最適化

パーソナライズ

マーケ最適化

大規模 DB

解析ソフトウェア

Page 17: さらば!データサイエンティスト

ビッグデータ分析の導入と効率化における 3つの壁

パターン 1:ビジネスに結びつける組織・体制 パターン 2:データ収集と蓄積の基盤 ☆パターン 3:解析の手法とスキルと効果測定

Page 18: さらば!データサイエンティスト

壁パターン 1:ビジネスに結びつける組織・体制

経営陣による戦略決定、組織横断のチームづくり 関係部門全てに対する負担要請と利害調整 ビッグデータ分析の効果の公平な分配

Page 19: さらば!データサイエンティスト

壁パターン 2:データ収集と蓄積の基盤

データが収集されていない、組織内にはるが出て来ない 蓄積するための統合 ITインフラが用意されていない 部門単位でコストをかけるにはリスクが高すぎる

…そこをなんとか…

機密情報だからなー個人情報保護もあるし。

そんなデータないよ。え?新しく取れ?(面倒だな…)

データサイエンティスト

マネージャー

現場社員

Page 20: さらば!データサイエンティスト

壁パターン 3:解析の手法とスキルと効果測定

統計学が重要というコンセプトレベルでは皆同意 一方でデータサイエンティストへの過度の期待

「うちのビジネスをよく理解してくれて〜」 「コミュニケーション能力と PM力高くて〜」 「統計も機械学習の最新技術も全部わかってて〜」 「 PDCAサイクル回すの手伝ってくれて〜」

あー完璧なデータサイエンティストどっかにいないかな〜

上層部

データサイエンティスト

……………………

Page 21: さらば!データサイエンティスト

スキルの問題:教育によりある程度解決する見込み

真実:完璧なデータサイエンティストは存在しない

CommunicationSkill

BusinessUnderstanding

ProjectManagement

Page 22: さらば!データサイエンティスト

第 3の支え:進化した解析用ソフトウェア今ほとんど触れられることのない部分

ビッグデータ分析

ビッグデータ

ITインフラ

統計学

データ

サイエン

ティスト

進化した

解析用

ソフト

Page 23: さらば!データサイエンティスト

現状使われているソフトウェア群

RDB / NoSQL Hadoop / SQL-like

Analytics

Page 24: さらば!データサイエンティスト

○○○出現以前のビッグデータ分析プロセス[データサイエンティスト w/ Hadoop+R+Weka, 2013]

Page 25: さらば!データサイエンティスト

プログラム言語出現以前のプログラミング[ENIAC, 1946]

出典:wikipedia.org

急募!配線エンジニア 設計書通りに壁の穴から穴へ配線を繋ぐだけの簡単なお仕事 これからのコンピュータ時代に求められるスキルが身につきます!

Page 26: さらば!データサイエンティスト

解析ソフトウェアの進化:あまり考慮されていない今後もこれからのツールがずっと使われるのか? Matlab: 1984- SPSS: 1988- Weka: 1993- GNU R: 1996-

元の S 言語は1984-

Page 27: さらば!データサイエンティスト

統計リテラシーの向上と解析ツールの進歩によりデータサイエンティスト不要のケースが増大

Page 28: さらば!データサイエンティスト

健全なビッグデータ分析を実現するために

ビッグデータという言葉によってデータとミドルウェアだけに注目が集まっている

そこで解決できない課題を人力で何とかしてくれるデータサイエンティストの出現と、その理想像に関する議論が盛んに行われている

組織の意識変革や経営陣・マネジメント層の統計リテラシー向上も重要だが、その他の変化も見失ってはいけない

解析ソフト

組織

データ

ミドルウェア

Page 29: さらば!データサイエンティスト

続:データサイエンティストブーム

なぜ「さらば」なのか?

具体例

まとめ

作者のあとがき

Agenda

Page 30: さらば!データサイエンティスト

解析ソフトウェアの進化とは

何が解析ソフトウェアをどう変えるのか メモリの大容量化→インメモリ処理のスケーラビリティ向上 仮想化技術→面倒なデータ管理をユーザーから隠蔽 ネットワークの高速化→処理結果を瞬時に伝送可能 ブラウザ上 GUIの進化→ブラウザからカンタンにに使える UI クラウド→環境構築と性能増減のコストがほぼゼロに

進化した解析ソフトウェアの特徵 インメモリ動作:解析処理のインタラクティブ性を重視 クラウド、 SaaS 化:データは向こう側に置いて結果だけ得る 使いやすい UIに特化:ユーザーの敷居を出来る限り下げる シンプルな課金体系:無料トライアル+機能x月額料金

Page 31: さらば!データサイエンティスト

紹介する実例

インタラクティブなデータ可視化ツール QlikView Tableau

表形式データ加工ツール Fivetran

カンタンに使える機械学習ツール bigML Bazil

データサイエンティストのお助けツール MLbase maf

Page 32: さらば!データサイエンティスト

インタラクティブなデータ可視化 (1/2)QlikTech - QliKview (1996-) 従来の BI ツールとの違い:セルフサービス型

データをインメモリで保持しビューをその場で変更可能 複数の情報源を透過的に組合せ検索しながら深堀り・絞込み

概要ムービー

Page 33: さらば!データサイエンティスト

インタラクティブなデータ可視化 (2/2)Tableau (2003-) VizQLという独自の可視化クエリ言語に基づいたシステム Amazon EC2で動作可能、クラウドサービスもリリース サンプルデモ

Page 34: さらば!データサイエンティスト

表形式データ加工ツール:Fivetran (2013-) 完全ブラウザベースで表形式データの処理を実行 「 ExcelとMatlabの間」→サンプルデモ

独自の処理クエリを入力すると結果が次の表になる 単なる変換から集計、時系列分析まで機能を拡張中

Page 35: さらば!データサイエンティスト

カンタンに使える機械学習ツール (1/2)bigML (2012-) “Machine Learning for Everyone”

決定木アルゴリズムによる学習&予測フローを固定化 パラメータ調整や結果の表示を重視

動作デモ

Page 36: さらば!データサイエンティスト

分析担当者

テキスト ログ / 履歴

Webブラウザ クラウド予測要因 予測評価

数値データ

カンタンに使える機械学習ツール (2/2)Preferred Infrastructure - Bazil (2013-)

“Machine Learning for Everyone” 決定木アルゴリズムによる学習&予測フローを固定化 パラメータ調整や結果の表示を重視

動作デモ

Page 37: さらば!データサイエンティスト

データサイエンティストのお助けツール (1/2)UC Berkley - MLbase in BDAS(2013-) 機械学習タスクの実行クエリを抽象的に記述 アルゴリズムやパラメータを変更して分散実行

[Kraska+, CIDR2013]

Page 38: さらば!データサイエンティスト

データサイエンティストのお助けツール (2/2)Preferred Infrastructure – maf (2013-) アルゴリズムやパラメータを変更して実行 waf ベース、設定から可視化 (matplotlib)までを

pythonコードとして簡単に記述できる

Page 39: さらば!データサイエンティスト

解析ソフトウェアの変化がもたらすもの:データサイエンティストの負担が減る 今は非力でもソフトウェアの高性能化と抽象化が後押し

不要になる:面倒なデータ管理や前処理の繰り返し 自動化される:実験設定を変更しては再実行の試行錯誤 敷居が下がる:一般ユーザーが Excelのようにこなせる仕事

従来のソフトウェア基盤 新しいソフトウェア基盤

BI

・例: Cognos、 BusinessObjects・ DB 上でのバッチ処理・固定のビュー・ドリルダウン・定型的なレポート中心

・例: QlikView、 Tableau・インメモリで高速処理・自由に変更可能なビュー・インタラクティブな分析

機械学習

・例: R、 MATLAB・任意の解析処理が実現可能・専用スクリプトの記述が必要・結果の解釈は重視されていない

・例: bigML、 Bazil・解析フローは固定、調整可・スクリプト無し、設定のみ・結果の可視化なども統合

Page 40: さらば!データサイエンティスト

続:データサイエンティストブーム

なぜ「さらば」なのか?

具体例

まとめ

作者のあとがき

Agenda

Page 41: さらば!データサイエンティスト

まとめ

ビッグデータ分析を効率化するためのソフトウェアが必ずこれからどんどん市場に出てきます

この解析ソフトウェアの進化は、データインフラの整備、統計リテラシーの向上、組織的ビッグデータ戦略の浸透、データサイエンティストの育成と並行して進みます

重要なスキル、組織の IT 戦略、ソフトウェア、ミドルウェア、ハードウェア、コンピュータアーキテクチャは刷新サイクルはがそれぞれ異なります

それを見極めるのが最先端を逃さないために重要です

Page 42: さらば!データサイエンティスト

続:データサイエンティストブーム

なぜ「さらば」なのか?

具体例

まとめ

作者のあとがき

Agenda

Page 43: さらば!データサイエンティスト

作者のあとがき

良くも悪くも全てはポジショントーク! データサイエンティストとして自分を高く売りたい人 育成ビジネスで儲けたい研修サービス会社 ブームに乗って関連本を売りたい出版社 最終的に IT投資を増やして欲しいベンダー ネットでちょっとウケて目立ちたかった僕

Page 44: さらば!データサイエンティスト

ブームに乗せられるのではなく、乗る

ビッグデータとかデータサイエンティストとかの言葉は滅びるかもしれない

けど以下の事実は不変 収集できるデータの量、品質、種類が増える データ分析を支えるツールの使いやすさと計算能力が上がる 経営陣、マネジメント層にデータ活用の意識が高まる

これまでデータ活用で何かを成し遂げようとしたときに障害となってきたデータ/ソフト/ハード/組織の壁がどんどん低くなりつつある

これらのハードルをギリギリで飛び越えて結果を出した勇者のみがデータサイエンティストを名のれる!!

まぁ観念論はこの辺にして、 Excel作業に戻ろうか…

Page 45: さらば!データサイエンティスト

Have a

happy data scientist life!!

そんじゃーね!