5分でわかる 怖くない機械学習

28
5 分分分分分 分分分分分分分分 分分分分分分分分分分分分分 LT

Upload: johnsmith

Post on 03-Aug-2015

822 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: 5分でわかる 怖くない機械学習

5 分でわかる怖くない機械学習

プログラミング生放送勉強会 LT

Page 2: 5分でわかる 怖くない機械学習

自己紹介じょんすみす ( ひらがな ) これ→

@__john_smith__

※ フォローしないこと推奨

どこにでもいる普通のアル中

願望北海道帰りたい彼女欲しい

彼女欲しい

Page 3: 5分でわかる 怖くない機械学習

データ分析系の勉強会じゃないので緩めの話をします

Page 4: 5分でわかる 怖くない機械学習

何だかよくわからなくてとりあえず使ってみよう

※ ほんとはダメです

「やりたい!」って言ってる人は難しそうだとなんどと言ってやらないエンジニアはとりあえず動いてるもの見た方が理解しやすいのです

ちゃんとやりたい人はいい結果が出せるようにちゃんと勉強してください

Page 5: 5分でわかる 怖くない機械学習

機械学習って単語を聞いたことがある人

機械学習をやったことがある人※ 手を挙げた人は寝ててください

Page 6: 5分でわかる 怖くない機械学習

機械学習ってなんなの?

関連商品のレコメンド ( オススメ )広告のクリック率予測・表示するかの判定検索結果のランキング

などなど、もはやみんな呼吸するのと同じくらいナチュラルに使ってる

Page 7: 5分でわかる 怖くない機械学習

機械学習ってなんなの?

簡単なもの

Page 8: 5分でわかる 怖くない機械学習

機械学習ってなんなの?

簡単なもの

Page 9: 5分でわかる 怖くない機械学習

機械学習ってなんなの?

簡単なもの

この線を引きたい

Page 10: 5分でわかる 怖くない機械学習

機械学習ってなんなの?

簡単なもの

男性

女性

Page 11: 5分でわかる 怖くない機械学習

機械学習ってなんなの?

魔法じゃない 全てを完璧に予想することはできません データが持っている情報に依存します結果はデータに依存 この入力ならこの出力見たいのが予想しづらい だから単体テストみたいなのもしづらい

Page 12: 5分でわかる 怖くない機械学習

機械学習ってなんなの?

予測するのが目的 答えがわかってるデータからパターンを発見する 答えがわかってないデータの答えを予測データの数が大事 データが少ないなら人間に任せた方がいい データが大量な時に機械の方が優れる

Page 13: 5分でわかる 怖くない機械学習

凛ちゃん分類

http://www.lovelive-anime.jp/member/member05.htmlhttp://www.mbga.jp/_game_intro?game_id=12008305http://www.fate-sn.com/chara/http://iwatobi-sc.com/#x-character

星空凛 渋谷凛 遠坂凛 松岡凛

この 4 人のうち誰の、話題なのかを予想するプログラムを作ってみる

Page 14: 5分でわかる 怖くない機械学習

凛ちゃん情報2ch の各凛ちゃんについて語られているスレ

作品自体のスレ、複数キャラや凛ちゃん同士の比較スレは使わない

1000 まで行ったものを 2 スレッド分使用凛ちゃんごと 2000 件のデータ

URL やアンカーは削除その結果何も残らなかったものはそれ自体削除7600 件くらいまで減った

AA はあえて残してみる

学習に 6000 件、残りはテスト用

Page 15: 5分でわかる 怖くない機械学習

ぶんるい!Jubatus :機械学習のフレームワーク

機械学習する上での面倒な部分が省略できる割と簡単に使えるhttp://jubat.us/ja/

形態素解析プロ生ちゃんまじ天使をプロ生ちゃん / まじ / 天使 のように分解

分解した各要素の出現回数とどの凛ちゃんの話題かの情報を Jubatus に渡すだけ

Page 16: 5分でわかる 怖くない機械学習

ぶんるい!簡単 Jubatus

json で設定ほぼ example のコピペ

Page 17: 5分でわかる 怖くない機械学習

ぶんるい!簡単 Jubatus

Page 18: 5分でわかる 怖くない機械学習

ぶんるい!簡単 Jubatus

学習

スコアが一番高い凛ちゃんを予測値として取得

各レスごとに単語と出現回数を Hash で持たせたら…{“ プロ生ちゃん” => 1, “ まじ” => 1, “ 天使” => 1}

Hashどの凛ちゃんの話題か

Page 19: 5分でわかる 怖くない機械学習

ぶんるい!

Page 20: 5分でわかる 怖くない機械学習

ぶんるい!

↓これが正解

→ こう予想した

Page 21: 5分でわかる 怖くない機械学習

ぶんるい!

完璧じゃない!

Page 22: 5分でわかる 怖くない機械学習

ぶんるい!

Page 23: 5分でわかる 怖くない機械学習

ぶんるい!

なんか頑張って 2次元に落とし込んだらそれっぽい情報が確認できる

Page 24: 5分でわかる 怖くない機械学習

ぶんるい!

Page 25: 5分でわかる 怖くない機械学習

ぶんるい!

データは多い方がいい多すぎると集めるコストがつらい

Page 26: 5分でわかる 怖くない機械学習

ぶんるい!

ちなみにこの形からわかることもあります

Page 27: 5分でわかる 怖くない機械学習

けつろん!とりあえずやってみるといいよ

勉強しだすときりがない動いてるとこから確かめるとイメージしやすいただし、実用レベルならいろいろ知らないとダメ

賢いかわいいエリーチカ

ソースhttps://github.com/john-smith/jubatus_rin_chan

ぜひ、実際に動かしてみてください

「 Jubatusハンズオン」とかでググってみるともっと詳しくわかります

Page 28: 5分でわかる 怖くない機械学習

ぶんけん!入門機械学習

数式なし使用言語: R

戦略的データサイエンス入門機械学習自体について詳しく扱ってる訳ではないモデルの出力結果の見方、解釈の仕方などの参考に

オンライン機械学習 (MLPシリーズ )数式でてくるが、疑似コードありJubatus の中の人が書いてる

言語処理のための機械学習入門数式使って理論知りたい人向け高校レベルの数学がわかってれば読める