さらば！データサイエンティスト

さらば！データサイエンティスト

PFI セミナー 2013/08/22

株式会社 Preferred Infrastructure リサーチャー＆ Jubatus チームリーダー

比戸将平

自己紹介

比戸将平（ HIDO Shohei） TwitterID: @sla 専門：データマイニング、機械学習経歴：

2006-2012: IBM東京基礎研究所データ解析グループ機械学習 (特に異常検知 )のアルゴリズム研究開発お客様案件でデータ解析プロジェクトに従事

2012-: 株式会社プリファードインフラストラクチャー大規模オンライン分散機械学習基盤 Jubatusチームリーダー

2013-: Preferred Infrastructure America, Inc. Chief Research Officer

2

IT Leaders様にインタビュー記事掲載：数日間 Google検索のトップにいた（？）

http://it.impressbm.co.jp/e/2013/08/01/5054

データサイエンティスト三部作・完結編「さらば！データサイエンティスト」つくり方：データサイエンティストグループの構築つかい方：仕事を依頼する側のリテラシーの話今回は定義論もあるあるも活用方法も無し

Slideshareにて公開中

続：データサイエンティストブーム

なぜ「さらば」なのか？

具体例

まとめ

作者のあとがき

Agenda

NHKクローズアップ現代で統計ブーム特集

“ 統計学を使いこなす「データサイエンティスト」と呼ばれる専門職は「最もセクシーな（魅力的な）職業」だとして、多くの企業から引く手あまたの状況だ。”

http://www.nhk.or.jp/gendai/yotei/index_yotei_3375.html

Google Trendsによる検索人気度のMAX：第 2回時の 3倍、第 1回時の 15倍

7

データサイエンティスト協会設立→役割の定義と育成へ

http://www.datascientist.or.jp/

各社による育成ビジネス

http://www.albert2005.co.jp/release/archives/201307/29_120043.html

http://www.brainpad.co.jp/news/2013/pdf/0806.pdf

http://japan.emc.com/microsites/bigdata/why-big-data-datascientist.htm

関連本の相次ぐ出版：今年 4月以降だけでこれだけ育成、データ分析、統計推し、事例集、情シスの逆襲

現時点での決定版：データサイエンティスト養成読本（今見た）

広いトピックがコンパクトにかつ初歩には必要十分データ分析基礎編、データサイエンス、 R、 NumPy、機械学習、 Fluentd、マーケティング分析、 SNS分析、 SQL

インストール方法、サンプルも豊富に載ってるデータサイエンティストを目指すなら必読

本日のキーメッセージ

データサイエンティストは…養成できません！！！

（そう簡単には）



具体例

まとめ


Agenda

ビッグデータ分析の導入：まだまだこれから

IBMの 2012年調査 24%がまだビッグデータ活用について調査段階 47%がビッグデータ活用方法について検討段階わずか 6%が導入してビジネス価値を生み出している

導入の困難さと効率化の困難さがやや混同されている

IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013

ビッグデータ解析

データアナリティクス

ビッグデータ

ビッグデータ分析の現状：ブラックボックス？

15

応用

利益最大化

コスト最小化

需要予測

故障予知

営業戦略最適化

パーソナライズ

マーケ最適化

データサイエンティスト

ビッグデータ

ビッグデータ処理系と解析ソフトウェアの組合せ

16


ビッグデータ処理系

応用

利益最大化

コスト最小化

需要予測

故障予知

営業戦略最適化

パーソナライズ

マーケ最適化

大規模 DB

解析ソフトウェア

ビッグデータ分析の導入と効率化における 3つの壁

パターン 1：ビジネスに結びつける組織・体制パターン 2：データ収集と蓄積の基盤 ☆パターン 3：解析の手法とスキルと効果測定

壁パターン 1：ビジネスに結びつける組織・体制

経営陣による戦略決定、組織横断のチームづくり関係部門全てに対する負担要請と利害調整ビッグデータ分析の効果の公平な分配

壁パターン 2：データ収集と蓄積の基盤

データが収集されていない、組織内にはるが出て来ない蓄積するための統合 ITインフラが用意されていない部門単位でコストをかけるにはリスクが高すぎる

…そこをなんとか…

機密情報だからなー個人情報保護もあるし。

そんなデータないよ。え？新しく取れ？（面倒だな…）


マネージャー

現場社員

壁パターン 3：解析の手法とスキルと効果測定

統計学が重要というコンセプトレベルでは皆同意一方でデータサイエンティストへの過度の期待

「うちのビジネスをよく理解してくれて〜」「コミュニケーション能力と PM力高くて〜」「統計も機械学習の最新技術も全部わかってて〜」「 PDCAサイクル回すの手伝ってくれて〜」

あー完璧なデータサイエンティストどっかにいないかな〜

上層部


……………………

スキルの問題：教育によりある程度解決する見込み

真実：完璧なデータサイエンティストは存在しない

CommunicationSkill

BusinessUnderstanding

ProjectManagement

第 3の支え：進化した解析用ソフトウェア今ほとんど触れられることのない部分

ビッグデータ分析

ビッグデータ

ITインフラ

統計学

データ

サイエン

ティスト

進化した

解析用

ソフト

現状使われているソフトウェア群

RDB / NoSQL Hadoop / SQL-like

Analytics

○○○出現以前のビッグデータ分析プロセス[データサイエンティスト w/ Hadoop+R+Weka, 2013]

プログラム言語出現以前のプログラミング[ENIAC, 1946]

出典：wikipedia.org

急募！配線エンジニア設計書通りに壁の穴から穴へ配線を繋ぐだけの簡単なお仕事これからのコンピュータ時代に求められるスキルが身につきます！

解析ソフトウェアの進化：あまり考慮されていない今後もこれからのツールがずっと使われるのか？ Matlab: 1984- SPSS: 1988- Weka: 1993- GNU R: 1996-

元の S 言語は1984-

統計リテラシーの向上と解析ツールの進歩によりデータサイエンティスト不要のケースが増大

健全なビッグデータ分析を実現するために

ビッグデータという言葉によってデータとミドルウェアだけに注目が集まっている

そこで解決できない課題を人力で何とかしてくれるデータサイエンティストの出現と、その理想像に関する議論が盛んに行われている

組織の意識変革や経営陣・マネジメント層の統計リテラシー向上も重要だが、その他の変化も見失ってはいけない

解析ソフト

人

組織

データ

ミドルウェア



具体例

まとめ


Agenda

解析ソフトウェアの進化とは

何が解析ソフトウェアをどう変えるのかメモリの大容量化→インメモリ処理のスケーラビリティ向上仮想化技術→面倒なデータ管理をユーザーから隠蔽ネットワークの高速化→処理結果を瞬時に伝送可能ブラウザ上 GUIの進化→ブラウザからカンタンにに使える UI クラウド→環境構築と性能増減のコストがほぼゼロに

進化した解析ソフトウェアの特徵インメモリ動作：解析処理のインタラクティブ性を重視クラウド、 SaaS 化：データは向こう側に置いて結果だけ得る使いやすい UIに特化：ユーザーの敷居を出来る限り下げるシンプルな課金体系：無料トライアル＋機能ｘ月額料金

紹介する実例

インタラクティブなデータ可視化ツール QlikView Tableau

表形式データ加工ツール Fivetran

カンタンに使える機械学習ツール bigML Bazil

データサイエンティストのお助けツール MLbase maf

インタラクティブなデータ可視化 (1/2)QlikTech - QliKview (1996-) 従来の BI ツールとの違い：セルフサービス型

データをインメモリで保持しビューをその場で変更可能複数の情報源を透過的に組合せ検索しながら深堀り・絞込み

概要ムービー

http://www.youtube.com/watch?feature=player_detailpage&v=sqILcEwlHSI%23t=44s

インタラクティブなデータ可視化 (2/2)Tableau (2003-) VizQLという独自の可視化クエリ言語に基づいたシステム Amazon EC2で動作可能、クラウドサービスもリリースサンプルデモ

http://www.tableausoftware.com/trial/tableau-software

表形式データ加工ツール：Fivetran (2013-) 完全ブラウザベースで表形式データの処理を実行「 ExcelとMatlabの間」→サンプルデモ

独自の処理クエリを入力すると結果が次の表になる単なる変換から集計、時系列分析まで機能を拡張中

https://www.fivetran.com/daisaku/walkthrough3

カンタンに使える機械学習ツール (1/2)bigML (2012-) “Machine Learning for Everyone”

決定木アルゴリズムによる学習＆予測フローを固定化パラメータ調整や結果の表示を重視

動作デモ

https://bigml.com/user/czuriaga/gallery/model/519f9bed925ded36f300019c

分析担当者

テキストログ / 履歴

Webブラウザクラウド予測要因予測評価

数値データ

カンタンに使える機械学習ツール (2/2)Preferred Infrastructure - Bazil (2013-)

“Machine Learning for Everyone” 決定木アルゴリズムによる学習＆予測フローを固定化パラメータ調整や結果の表示を重視

動作デモ

https://asp-bazil.preferred.jp/models/78/configs/87/training_data

データサイエンティストのお助けツール (1/2)UC Berkley - MLbase in BDAS(2013-) 機械学習タスクの実行クエリを抽象的に記述アルゴリズムやパラメータを変更して分散実行

[Kraska+, CIDR2013]

データサイエンティストのお助けツール (2/2)Preferred Infrastructure – maf (2013-) アルゴリズムやパラメータを変更して実行 waf ベース、設定から可視化 (matplotlib)までを

pythonコードとして簡単に記述できる

解析ソフトウェアの変化がもたらすもの：データサイエンティストの負担が減る今は非力でもソフトウェアの高性能化と抽象化が後押し

不要になる：面倒なデータ管理や前処理の繰り返し自動化される：実験設定を変更しては再実行の試行錯誤敷居が下がる：一般ユーザーが Excelのようにこなせる仕事

従来のソフトウェア基盤新しいソフトウェア基盤

BI

・例： Cognos、 BusinessObjects・ DB 上でのバッチ処理・固定のビュー・ドリルダウン・定型的なレポート中心

・例： QlikView、 Tableau・インメモリで高速処理・自由に変更可能なビュー・インタラクティブな分析

機械学習

・例： R、 MATLAB・任意の解析処理が実現可能・専用スクリプトの記述が必要・結果の解釈は重視されていない

・例： bigML、 Bazil・解析フローは固定、調整可・スクリプト無し、設定のみ・結果の可視化なども統合



具体例

まとめ


Agenda

まとめ

ビッグデータ分析を効率化するためのソフトウェアが必ずこれからどんどん市場に出てきます

この解析ソフトウェアの進化は、データインフラの整備、統計リテラシーの向上、組織的ビッグデータ戦略の浸透、データサイエンティストの育成と並行して進みます

重要なスキル、組織の IT 戦略、ソフトウェア、ミドルウェア、ハードウェア、コンピュータアーキテクチャは刷新サイクルはがそれぞれ異なります

それを見極めるのが最先端を逃さないために重要です



具体例

まとめ


Agenda


良くも悪くも全てはポジショントーク！データサイエンティストとして自分を高く売りたい人育成ビジネスで儲けたい研修サービス会社ブームに乗って関連本を売りたい出版社最終的に IT投資を増やして欲しいベンダーネットでちょっとウケて目立ちたかった僕

ブームに乗せられるのではなく、乗る

ビッグデータとかデータサイエンティストとかの言葉は滅びるかもしれない

けど以下の事実は不変収集できるデータの量、品質、種類が増えるデータ分析を支えるツールの使いやすさと計算能力が上がる経営陣、マネジメント層にデータ活用の意識が高まる

これまでデータ活用で何かを成し遂げようとしたときに障害となってきたデータ／ソフト／ハード／組織の壁がどんどん低くなりつつある

これらのハードルをギリギリで飛び越えて結果を出した勇者のみがデータサイエンティストを名のれる！！

まぁ観念論はこの辺にして、 Excel作業に戻ろうか…

Have a

happy data scientist life!!

そんじゃーね！

さらば！データサイエンティスト

Technology