kuzu
TRANSCRIPT
第26回R勉強会@東京 #TokyoR
自分のツイートがクズいかどうかを調べてみた
@gepuro
自己紹介
➔早川 敦士➔電気通信大学B4➔はてダとかtwitter➔@gepuro➔データサイエンティスト
興味テキストマイニング
データマイニング信頼性工学
統計学
欲求クズが集まる
twitterで自分はどれほどクズいのか
知りたい
機械学習を使って、自分のツイートがどれだけクズいのか確かめてみよう
#クズ,#いろいろなクズといったツイートを
使って、クズ判定をするモデルを作った
道具R RMeCab
Random Forest
Twitter API
Python
使ったデータ
訓練データは:5000ツイート
テストデータ:1000ツイート
自分のツイート:300ツイート
クズタグ無し
クズタグ有り
FALSE 226 106
TRUE 183 485
予測値との直交表
正答率:71.1%チューニングしてないから、精度が微妙だけど、まあいいや。
予測値
真値
自分のツイートで予測してみて、どんなツイートが
クズと出ただろうか?
クズ判定と出たやつ(一例)
● ろくろ、回してる● ハッピハッピガー● いろいろと、やることが遅れてる。これは、まずい・・・。● フル単でした。めでたしめでたし。
クズでないと出たやつ(一例)
● そういえば、久しぶりにすがきやに行った。● 花火屋さんから、お手紙届いた。
● 最近、おぺにゃんが"にゃんにゃん"言ってるので、新歓でネコミミをつけるフラグだと思ってる。
● あっ、昨日の別刷りをもらいそこねてた。これは、痛恨のミス!
自分のツイートで
FALSE TRUE160 140
クズ率:約46%
自称クズついったらーと比較して、検討する必要あり!
果てして、自分のツイートはクズいのだろうか?
ご清聴ありがとうございました!