kuzu

14
26R勉強会@東京 #TokyoR 自分のツイートクズいかどうかを 調べてみた @gepuro

Upload: atsushi-hayakawa

Post on 05-Jul-2015

415 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Kuzu

第26回R勉強会@東京 #TokyoR

自分のツイートがクズいかどうかを調べてみた

@gepuro

Page 2: Kuzu

自己紹介

➔早川 敦士➔電気通信大学B4➔はてダとかtwitter➔@gepuro➔データサイエンティスト

Page 3: Kuzu

興味テキストマイニング

データマイニング信頼性工学

統計学

Page 4: Kuzu

欲求クズが集まる

twitterで自分はどれほどクズいのか

知りたい

Page 5: Kuzu

機械学習を使って、自分のツイートがどれだけクズいのか確かめてみよう

Page 6: Kuzu

#クズ,#いろいろなクズといったツイートを

使って、クズ判定をするモデルを作った

Page 7: Kuzu

道具R RMeCab

Random Forest

Twitter API

Python

Page 8: Kuzu

使ったデータ

訓練データは:5000ツイート

テストデータ:1000ツイート

自分のツイート:300ツイート

Page 9: Kuzu

クズタグ無し

クズタグ有り

FALSE 226 106

TRUE 183 485

予測値との直交表

正答率:71.1%チューニングしてないから、精度が微妙だけど、まあいいや。

予測値

真値

Page 10: Kuzu

自分のツイートで予測してみて、どんなツイートが

クズと出ただろうか?

Page 11: Kuzu

クズ判定と出たやつ(一例)

● ろくろ、回してる● ハッピハッピガー● いろいろと、やることが遅れてる。これは、まずい・・・。● フル単でした。めでたしめでたし。

Page 12: Kuzu

クズでないと出たやつ(一例)

● そういえば、久しぶりにすがきやに行った。● 花火屋さんから、お手紙届いた。

● 最近、おぺにゃんが"にゃんにゃん"言ってるので、新歓でネコミミをつけるフラグだと思ってる。

● あっ、昨日の別刷りをもらいそこねてた。これは、痛恨のミス!

Page 13: Kuzu

自分のツイートで

FALSE TRUE160 140

クズ率:約46%

自称クズついったらーと比較して、検討する必要あり!

果てして、自分のツイートはクズいのだろうか?

Page 14: Kuzu

ご清聴ありがとうございました!