機械学習ビジネス研究会(未踏研究会)

16
機機機機機機機機機機機 機機機機機機機 機機機機機機機 @tokoroten 未未未未未 # 3 2016/06/28

Upload: shinta-nakayama

Post on 08-Jan-2017

6.363 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: 機械学習ビジネス研究会(未踏研究会)

機械学習ビジネス研究会開催のお知らせ

中山ところてん@tokoroten

未踏研究会#32016/06/28

Page 2: 機械学習ビジネス研究会(未踏研究会)

機械学習系の勉強会

Page 3: 機械学習ビジネス研究会(未踏研究会)
Page 4: 機械学習ビジネス研究会(未踏研究会)

データサイエンティスト協会 データサイエンティストのスキルセットhttp://www.datascientist.or.jp/news/2014/pdf/1210.pdf

Page 5: 機械学習ビジネス研究会(未踏研究会)

データサイエンティスト協会 データサイエンティストのスキルセットhttp://www.datascientist.or.jp/news/2014/pdf/1210.pdf

これまでの勉強会の領域

Page 6: 機械学習ビジネス研究会(未踏研究会)

何をやるのか

• 機械学習を利用したビジネス事例を、英語の原典を当たって調べる• すでに動いているビジネスにおける機械学習

• 日本語の読み物系の書籍、記事から気になったビジネス事例を探す• 書籍に内容を軽く解説する• どのようなアルゴリズムを使ったのか• どのようなデータを使ったのか• データのクレンジングは?評価方法は?

• 原典を探す、原典と記事との相違を話す• 何が書籍では割愛されたのか• どのようなテクニックが使われたのか

Page 7: 機械学習ビジネス研究会(未踏研究会)

何をやらないのか

• 機械学習のアルゴリズム解説• 「人工知能」• 「脳科学」• 「シンギラリティ」• 未来の社会がどうのこうの• サービス・製品・企業の説明• ポエム• オカルト• ぼくの考えたさいきょうのぷろだくつ

ソフトバンクグループ株式会社 第36回定時株主総会事業戦略説明資料http://www.softbank.jp/corp/set/data/irinfo/investor/shareholders/pdf/36/softbank_meeting36_008.pdf

NG 過ぎる例

Page 8: 機械学習ビジネス研究会(未踏研究会)

実際のプロセス

Page 9: 機械学習ビジネス研究会(未踏研究会)

銀行の事例(書籍の中の説明)

• 北米の銀行の Chase の事例( 2005 年発表、実施は 90 年代後半)

• 住宅ローンには「返済不能」「早期返済」という二つのリスクがある• 返済不能:焦げ付き、わかりやすいリスク• 早期返済:本来得られるはずだった利息が得られなくなる

• 背景には、家の買い替え、他社でのローンの組みなおし等がある

• 銀行は「債権を保持」「債権を他社に売却」の選択肢がある• リスクのある債権を他社に押し付ければ幸せになれる!• 他社が予測モデルを持っていなければ、リスクは過小評価される

• 予測モデルの良し悪しがアビトラージを生む• (余談)日本だとスルガ銀行がアビトラージを攻めまくっていて面白い

• http://www.surugabank.co.jp/d-bank/services/subcul/

利息は銀行の収入源!!

Page 10: 機械学習ビジネス研究会(未踏研究会)

銀行の事例(書籍の中の説明)

• 利用したアルゴリズムは CART• CART は決定木の派生、過学習しにくい• 決定木を育てていくと精度が上がっていくよ

(決定木の解説が長々と)

プロジェクトを実施した年には 6 億ドルの増収

Page 11: 機械学習ビジネス研究会(未踏研究会)

巻末の索引から原典を探す

http://docs.salford-systems.com/MoazamiLi.pdf

Page 12: 機械学習ビジネス研究会(未踏研究会)

原典を読む・違いを探す

• 3 つの決定木を活用• 債権は「満期返済」「早期返済」「返済不能」の三状態を教師データ

として持つ• Tree1 「満期返済」 vs 「早期返済」• Tree2 「満期返済」 vs 「返済不能」• Tree3 「早期返済」 vs 「返済不能」• 上記三つのツリーから、「満期返済確率」「早期返済確率」「返済不

能確率」を算出する

• メモ• ここら辺飛躍があるので、何やってるんだろう?• Train と Test の分け方がよくわからない、 G1G2 って何?• 「早期返済」 vs 「返済不能」のツリーはどう使うのか?

Page 13: 機械学習ビジネス研究会(未踏研究会)

• 予測モデルによって早期返済リスクが高いと判定された顧客の上位 10%の早期返済率は 44% (全体の早期返済率は 22% )

早期返済予測モデル

早期返済リスクの高い顧客順に並べて、 50% 目の顧客まで集計すると、 72% の早期返済顧客を含んでいる

訳せなかった、助けて

Page 14: 機械学習ビジネス研究会(未踏研究会)

返済不能予測モデル

• 返済不能リスクが高いトップ 5% に、全体の 81% の返済不能が含まれる• Equifax(信用情報会社 ) のスコアでは、 70%• でも、本当にヤバイ顧客は、信用情報会社のほうが信頼できる

• 他社が信用情報会社のスコアしか使わないのであれば、この差はアビトラージになる• 80%が返済不能になる債権を、

70% が返済不能になる債権の価格で他社に買い取らせられる

Page 15: 機械学習ビジネス研究会(未踏研究会)

原典を当たってみた感想

英語力が足りない!!

Page 16: 機械学習ビジネス研究会(未踏研究会)

第一回、機械学習ビジネス研究会

• 内容は今回みたいな、書籍解説+原典解説でゆるく•一人 20 分くらい• 10 人~ 15 人くらいの少人数、みんな発表• ビジネス相談したい人は、事例発表したうえで懇親会で

• 2016 年 8月中くらいにやりたい• メンツと会場を募集中

• この後の懇親会で声をかけてください。