20150421 日経ビッグデータカンファレンス

24
Copyright 2014 Shiroyagi Corporation. All rights reserved. シバタアキラ, Ph.D. 世界最大級分析モデルコンペ 「Kaggle」の最新動向 白ヤギコーポレーション 堅田洋資 白ヤギコーポレーション 田中秀樹 PyData.Tokyo

Upload: akira-shibata

Post on 23-Jul-2015

329 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Copyright 2014 Shiroyagi Corporation. All rights reserved.

シバタアキラ, Ph.D.

世界最大級分析モデルコンペ「Kaggle」の最新動向

白ヤギコーポレーション

堅田洋資白ヤギコーポレーション

田中秀樹PyData.Tokyo

Copyright 2015 Shiroyagi Corporation. All rights reserved. 2

PyData.Tokyoかなり盛り上がってます

シバタアキラ, Ph.D. @madyagi • 2013 -:CEO @白ヤギコーポレーション • カメリオ : 人工知能型キュレーションニュースアプリ • カメリオ API: コンテンツレコメンデーション API

• 2010 - 2013: 戦略コンサルティング @BCG • 2007 - 2010: データサイエンティスト @NYU • ヒッグス粒子の発見のためのデータ解析 @LHC, CERN

• 2004 - 2007: Ph.D. 高エネルギー物理学 @London大学

Copyright 2014 Shiroyagi Corporation. All rights reserved. 3

ビッグデータ

データ 機械学習

ディープラーニング

KPI

人工知能

Hadoop

AWS統計モデリング

IoTオープンデータ

予測モデルデータサイエンティスト自然言語処理Apache Spark 統計学

ニューラルネットワーク

ニューラルネットワーク

ログ解析

Python

グロースハック

Copyright 2015 Shiroyagi Corporation. All rights reserved. 4

PyData.Tokyo: データサイエンティストのためのコミュニティー

Copyright 2015 Shiroyagi Corporation. All rights reserved. 5

これまでの活動

30人の座席にに毎回百人近い応募 • ディープラーニング • 分散型機械学習 • データ解析インフラ などの旬なテーマを扱い、毎回その分野で活躍するデータサイエンティストにご登壇いただいています。

実際に現場で活躍するデータサイエンティストによる「濃い」議論が毎回繰り広げられます。

Copyright 2015 Shiroyagi Corporation. All rights reserved. 6

イベントは渋谷のデンソーアイティーラボラトリにて開催

PyData.Tokyoチュートリアルの様子

Copyright 2015 Shiroyagi Corporation. All rights reserved. 7

タイタニックの生存者予測

Copyright 2015 Shiroyagi Corporation. All rights reserved. 8

イベント詳細は連載中

Copyright 2015 Shiroyagi Corporation. All rights reserved. 9

Kaggleとは(kaggle.com)

企業とデータサイエンティストとをつなぐ新しい仕組み

Copyright 2015 Shiroyagi Corporation. All rights reserved. 10

Kaggleのコンペの種類(一部)

Featured: 企業がデータを公開し、参加者は予測モデルの精度を競う。チームでの参加も可能で、上位参加者には賞金。

Research: 科学的なデータの分析コンペ。入賞者は、賞金に加え学会へ招待されることも。

Masters: 総合ランキング上位のデータサイエンティストが招待参加。ほぼ全員に報酬が支払われる。

Recruiting: 企業が採用目的で行うコンペ。参加者は匿名的にエントリーすることができる。

Copyright 2015 Shiroyagi Corporation. All rights reserved. 11

現在のアクティブコンペ

Featured

Recruiting

Research

Copyright 2015 Shiroyagi Corporation. All rights reserved. 12

データサイエンティスト @白ヤギコーポレーション

その他 15コンペに参加

• Kaggle歴: 2年 • University of San FranciscoのMS in Analyticsに留学

• 大学ではデータサイエンス専攻

堅田 洋資

Copyright 2015 Shiroyagi Corporation. All rights reserved. 13

田中 秀樹 上位0.1%

Copyright 2015 Shiroyagi Corporation. All rights reserved. 14

たった137店舗のデータで100,000店舗の売上を予測 賞金:$30,000 (約360万円) 参加者:1,714チーム(4/17時点)

ファストフードレストランの売上予測

Copyright 2015 Shiroyagi Corporation. All rights reserved. 15

・・・

丁寧な異常値除去で現在97位/1714位

Copyright 2015 Shiroyagi Corporation. All rights reserved. 16

ヒッグス機械学習チャレンジ

Copyright 2015 Shiroyagi Corporation. All rights reserved. 17

ヒッグス機械学習チャレンジ

Copyright 2015 Shiroyagi Corporation. All rights reserved. 18

犬 vs 猫

Copyright 2015 Shiroyagi Corporation. All rights reserved. 19

Training Test

: 25,000 images : 12,500 images

Copyright 2015 Shiroyagi Corporation. All rights reserved. 20

Deep Learningの研究者@NYU

GPUのエンジニア@NVIDIA

Deep Learningの研究者

Deep Learningで圧倒的な成果

Copyright 2015 Shiroyagi Corporation. All rights reserved. 21

Walmartの商品の売上予測過去の実績と天気から 店舗別・日別・アイテム別で販売個数を予測する

賞品:ウォルマートでのデータサイエンティスト職(※インタビュー後) 参加者:194チーム(4/17時点)

Copyright 2015 Shiroyagi Corporation. All rights reserved. 22

Skills  required:    • Knowledge  of  applied  statistics,  including  regression  models.    • Knowledge  of  SQL  and  Python.    • Knowledge  of  data  analysis  with  Python  or  R.    • Knowledge  of  Java.    • Experience  in  Hadoop  or  other  MapReduce  paradigms  and  

associated  languages  such  as  Hive  or  Pig.

ウォルマート(US) Data scientistに求めるスキル

Kaggleを採用活動に使うメリット

ツールが使える人材は増えてきた 結果が出せる人材はどこにいるか?

Copyright 2015 Shiroyagi Corporation. All rights reserved. 23

Job Board

Copyright 2015 Shiroyagi Corporation. All rights reserved. 24

@

一緒にプレイしてくれる データサイエンティストを募集中!