さらば!データサイエンティスト
DESCRIPTION
2013/03/28 PFIセミナー「(道具としての)データサイエンティストのつかい方」資料 Ustreamの録画はこちらです→http://www.ustream.tv/recorded/37645309TRANSCRIPT
さらば!データサイエンティスト
PFI セミナー 2013/08/22
株式会社 Preferred Infrastructure リサーチャー& Jubatus チームリーダー
比戸 将平
自己紹介
比戸将平( HIDO Shohei) TwitterID: @sla 専門:データマイニング、機械学習 経歴:
2006-2012: IBM東京基礎研究所データ解析グループ 機械学習 (特に異常検知 )のアルゴリズム研究開発 お客様案件でデータ解析プロジェクトに従事
2012-: 株式会社プリファードインフラストラクチャー 大規模オンライン分散機械学習基盤 Jubatusチームリーダー
2013-: Preferred Infrastructure America, Inc. Chief Research Officer
2
IT Leaders様にインタビュー記事掲載:数日間 Google検索のトップにいた(?)
http://it.impressbm.co.jp/e/2013/08/01/5054
データサイエンティスト三部作・完結編「さらば!データサイエンティスト」 つくり方:データサイエンティストグループの構築 つかい方:仕事を依頼する側のリテラシーの話 今回は定義論もあるあるも活用方法も無し
Slideshareにて公開中
続:データサイエンティストブーム
なぜ「さらば」なのか?
具体例
まとめ
作者のあとがき
Agenda
NHKクローズアップ現代で統計ブーム特集
“ 統計学を使いこなす「データサイエンティスト」と呼ばれる専門職は「最もセクシーな(魅力的な)職業」だとして、多くの企業から引く手あまたの状況だ。”
http://www.nhk.or.jp/gendai/yotei/index_yotei_3375.html
Google Trendsによる検索人気度のMAX:第 2回時の 3倍、第 1回時の 15倍
7
データサイエンティスト協会設立→役割の定義と育成へ
http://www.datascientist.or.jp/
各社による育成ビジネス
http://www.albert2005.co.jp/release/archives/201307/29_120043.html
http://www.brainpad.co.jp/news/2013/pdf/0806.pdf
http://japan.emc.com/microsites/bigdata/why-big-data-datascientist.htm
関連本の相次ぐ出版:今年 4月以降だけでこれだけ育成、データ分析、統計推し、事例集、情シスの逆襲
現時点での決定版:データサイエンティスト養成読本(今見た)
広いトピックがコンパクトにかつ初歩には必要十分 データ分析基礎編、データサイエンス、 R、 NumPy、機械学習、 Fluentd、マーケティング分析、 SNS分析、 SQL
インストール方法、サンプルも豊富に載ってる データサイエンティストを目指すなら必読
本日のキーメッセージ
データサイエンティストは…養成できません!!!
(そう簡単には)
続:データサイエンティストブーム
なぜ「さらば」なのか?
具体例
まとめ
作者のあとがき
Agenda
ビッグデータ分析の導入:まだまだこれから
IBMの 2012年調査 24%がまだビッグデータ活用について調査段階 47%がビッグデータ活用方法について検討段階 わずか 6%が導入してビジネス価値を生み出している
導入の困難さと効率化の困難さがやや混同されている
IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
ビッグデータ解析
データアナリティクス
ビッグデータ
ビッグデータ分析の現状:ブラックボックス?
15
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
データサイエンティスト
ビッグデータ
ビッグデータ処理系と解析ソフトウェアの組合せ
16
データサイエンティスト
ビッグデータ処理系
応用
利益最大化
コスト最小化
需要予測
故障予知
営業戦略最適化
パーソナライズ
マーケ最適化
大規模 DB
解析ソフトウェア
ビッグデータ分析の導入と効率化における 3つの壁
パターン 1:ビジネスに結びつける組織・体制 パターン 2:データ収集と蓄積の基盤 ☆パターン 3:解析の手法とスキルと効果測定
壁パターン 1:ビジネスに結びつける組織・体制
経営陣による戦略決定、組織横断のチームづくり 関係部門全てに対する負担要請と利害調整 ビッグデータ分析の効果の公平な分配
壁パターン 2:データ収集と蓄積の基盤
データが収集されていない、組織内にはるが出て来ない 蓄積するための統合 ITインフラが用意されていない 部門単位でコストをかけるにはリスクが高すぎる
…そこをなんとか…
機密情報だからなー個人情報保護もあるし。
そんなデータないよ。え?新しく取れ?(面倒だな…)
データサイエンティスト
マネージャー
現場社員
壁パターン 3:解析の手法とスキルと効果測定
統計学が重要というコンセプトレベルでは皆同意 一方でデータサイエンティストへの過度の期待
「うちのビジネスをよく理解してくれて〜」 「コミュニケーション能力と PM力高くて〜」 「統計も機械学習の最新技術も全部わかってて〜」 「 PDCAサイクル回すの手伝ってくれて〜」
あー完璧なデータサイエンティストどっかにいないかな〜
上層部
データサイエンティスト
……………………
スキルの問題:教育によりある程度解決する見込み
真実:完璧なデータサイエンティストは存在しない
CommunicationSkill
BusinessUnderstanding
ProjectManagement
第 3の支え:進化した解析用ソフトウェア今ほとんど触れられることのない部分
ビッグデータ分析
ビッグデータ
ITインフラ
統計学
データ
サイエン
ティスト
進化した
解析用
ソフト
現状使われているソフトウェア群
RDB / NoSQL Hadoop / SQL-like
Analytics
○○○出現以前のビッグデータ分析プロセス[データサイエンティスト w/ Hadoop+R+Weka, 2013]
プログラム言語出現以前のプログラミング[ENIAC, 1946]
出典:wikipedia.org
急募!配線エンジニア 設計書通りに壁の穴から穴へ配線を繋ぐだけの簡単なお仕事 これからのコンピュータ時代に求められるスキルが身につきます!
解析ソフトウェアの進化:あまり考慮されていない今後もこれからのツールがずっと使われるのか? Matlab: 1984- SPSS: 1988- Weka: 1993- GNU R: 1996-
元の S 言語は1984-
統計リテラシーの向上と解析ツールの進歩によりデータサイエンティスト不要のケースが増大
健全なビッグデータ分析を実現するために
ビッグデータという言葉によってデータとミドルウェアだけに注目が集まっている
そこで解決できない課題を人力で何とかしてくれるデータサイエンティストの出現と、その理想像に関する議論が盛んに行われている
組織の意識変革や経営陣・マネジメント層の統計リテラシー向上も重要だが、その他の変化も見失ってはいけない
解析ソフト
人
組織
データ
ミドルウェア
続:データサイエンティストブーム
なぜ「さらば」なのか?
具体例
まとめ
作者のあとがき
Agenda
解析ソフトウェアの進化とは
何が解析ソフトウェアをどう変えるのか メモリの大容量化→インメモリ処理のスケーラビリティ向上 仮想化技術→面倒なデータ管理をユーザーから隠蔽 ネットワークの高速化→処理結果を瞬時に伝送可能 ブラウザ上 GUIの進化→ブラウザからカンタンにに使える UI クラウド→環境構築と性能増減のコストがほぼゼロに
進化した解析ソフトウェアの特徵 インメモリ動作:解析処理のインタラクティブ性を重視 クラウド、 SaaS 化:データは向こう側に置いて結果だけ得る 使いやすい UIに特化:ユーザーの敷居を出来る限り下げる シンプルな課金体系:無料トライアル+機能x月額料金
紹介する実例
インタラクティブなデータ可視化ツール QlikView Tableau
表形式データ加工ツール Fivetran
カンタンに使える機械学習ツール bigML Bazil
データサイエンティストのお助けツール MLbase maf
インタラクティブなデータ可視化 (1/2)QlikTech - QliKview (1996-) 従来の BI ツールとの違い:セルフサービス型
データをインメモリで保持しビューをその場で変更可能 複数の情報源を透過的に組合せ検索しながら深堀り・絞込み
概要ムービー
インタラクティブなデータ可視化 (2/2)Tableau (2003-) VizQLという独自の可視化クエリ言語に基づいたシステム Amazon EC2で動作可能、クラウドサービスもリリース サンプルデモ
表形式データ加工ツール:Fivetran (2013-) 完全ブラウザベースで表形式データの処理を実行 「 ExcelとMatlabの間」→サンプルデモ
独自の処理クエリを入力すると結果が次の表になる 単なる変換から集計、時系列分析まで機能を拡張中
カンタンに使える機械学習ツール (1/2)bigML (2012-) “Machine Learning for Everyone”
決定木アルゴリズムによる学習&予測フローを固定化 パラメータ調整や結果の表示を重視
動作デモ
分析担当者
テキスト ログ / 履歴
Webブラウザ クラウド予測要因 予測評価
数値データ
カンタンに使える機械学習ツール (2/2)Preferred Infrastructure - Bazil (2013-)
“Machine Learning for Everyone” 決定木アルゴリズムによる学習&予測フローを固定化 パラメータ調整や結果の表示を重視
動作デモ
データサイエンティストのお助けツール (1/2)UC Berkley - MLbase in BDAS(2013-) 機械学習タスクの実行クエリを抽象的に記述 アルゴリズムやパラメータを変更して分散実行
[Kraska+, CIDR2013]
データサイエンティストのお助けツール (2/2)Preferred Infrastructure – maf (2013-) アルゴリズムやパラメータを変更して実行 waf ベース、設定から可視化 (matplotlib)までを
pythonコードとして簡単に記述できる
解析ソフトウェアの変化がもたらすもの:データサイエンティストの負担が減る 今は非力でもソフトウェアの高性能化と抽象化が後押し
不要になる:面倒なデータ管理や前処理の繰り返し 自動化される:実験設定を変更しては再実行の試行錯誤 敷居が下がる:一般ユーザーが Excelのようにこなせる仕事
従来のソフトウェア基盤 新しいソフトウェア基盤
BI
・例: Cognos、 BusinessObjects・ DB 上でのバッチ処理・固定のビュー・ドリルダウン・定型的なレポート中心
・例: QlikView、 Tableau・インメモリで高速処理・自由に変更可能なビュー・インタラクティブな分析
機械学習
・例: R、 MATLAB・任意の解析処理が実現可能・専用スクリプトの記述が必要・結果の解釈は重視されていない
・例: bigML、 Bazil・解析フローは固定、調整可・スクリプト無し、設定のみ・結果の可視化なども統合
続:データサイエンティストブーム
なぜ「さらば」なのか?
具体例
まとめ
作者のあとがき
Agenda
まとめ
ビッグデータ分析を効率化するためのソフトウェアが必ずこれからどんどん市場に出てきます
この解析ソフトウェアの進化は、データインフラの整備、統計リテラシーの向上、組織的ビッグデータ戦略の浸透、データサイエンティストの育成と並行して進みます
重要なスキル、組織の IT 戦略、ソフトウェア、ミドルウェア、ハードウェア、コンピュータアーキテクチャは刷新サイクルはがそれぞれ異なります
それを見極めるのが最先端を逃さないために重要です
続:データサイエンティストブーム
なぜ「さらば」なのか?
具体例
まとめ
作者のあとがき
Agenda
作者のあとがき
良くも悪くも全てはポジショントーク! データサイエンティストとして自分を高く売りたい人 育成ビジネスで儲けたい研修サービス会社 ブームに乗って関連本を売りたい出版社 最終的に IT投資を増やして欲しいベンダー ネットでちょっとウケて目立ちたかった僕
ブームに乗せられるのではなく、乗る
ビッグデータとかデータサイエンティストとかの言葉は滅びるかもしれない
けど以下の事実は不変 収集できるデータの量、品質、種類が増える データ分析を支えるツールの使いやすさと計算能力が上がる 経営陣、マネジメント層にデータ活用の意識が高まる
これまでデータ活用で何かを成し遂げようとしたときに障害となってきたデータ/ソフト/ハード/組織の壁がどんどん低くなりつつある
これらのハードルをギリギリで飛び越えて結果を出した勇者のみがデータサイエンティストを名のれる!!
まぁ観念論はこの辺にして、 Excel作業に戻ろうか…
Have a
happy data scientist life!!
そんじゃーね!