あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

～俺のツイートがこんなにウケないはずがない～あんちべのすべらない話

Upload: antibayesian-s

Post on 16-Nov-2014

13.219 views

Category:

Technology

1 download

Report

Download

Embed Size (px):

DESCRIPTION

Rを用いたtwitterテキストマイニング

TRANSCRIPT

～俺のツイートがこんなにウケないはずがない～

あんちべのすべらない話

目的

Page 3: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

twitter渾身のネタがスルーされたり何気ない呟きがめっちゃウケたり

Page 4: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

滑ったときの恥ずかしさマジパネェ

Page 5: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

tweetする前にウケルかどうか予測できれば！

Page 6: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

それ、Rなら簡単ですよ！

Page 7: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

発表の目的

Rで自分のtweetがウケるかどうか予測をしよう！

Page 8: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

自己紹介

● ID:AntiBayesian● あんちべ！とお呼び下さい

● 専門：テキストマイニング、自然言語処理

● 職業：某ATMが○○な銀行で金融工学研究員とかいう胡散臭い素敵なことしてる

● 自然言語処理職大絶賛募集中！！！！

● [email protected]

Page 9: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

なんで急にLTすることに？？？

↑今日の0時くらいの話です

Page 10: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

分析手順

1.訓練データ（正例、負例）を用意する

2.訓練データから予測モデルを立てる

3.自分のtweetを予測モデルに放り込んで判定

Page 11: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

訓練データを集めよう

● 正例：favstarから人気tweetを取得● 負例：twitter Streaming APIから適当にサンプリング

● 6月中のtweetを各々約1500件ずつチョイス● 正例にはfav、負例にはnonタグを付ける※Tweetを取得するツール作ったよ！http://d.hatena.ne.jp/AntiBayesian/20110702

Page 12: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

Page 13: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

さくさくツイートマイニング

こんな感じ→

Page 14: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

訓練データの加工ttmの紹介

● TinyTextMiner● テキストを形態素解析に掛け、さらに分析ツールに投げやすいよう整形してくれるフリーソフト

● ここからＤＬ　http://mtmr.jp/ttm/※MeCabもインストールしてね

Page 15: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

加工済みデータ

● 1行目が各単語。2行目以降は、各文章から表頭の単語が何回出現したか

● 右端のTAG列がクラス。fav=正例、non=負例、test=検証するtweet。

● 要するに、testテキストがfav、nonどちらに分類されるか知りたい

Page 16: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

予測モデルを立てよう

● RandomForestを使おう！● 精度高いし汚いデータにも強い！Googleも利用！● 詳細は下記ブログを参考に

http://d.hatena.ne.jp/hamadakoichi/20110130/

Page 17: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

Rのコード

twit <- read.csv(file="twit.csv")library(randomForest)train.data <- twit[1:2877,]#訓練データが2877あるtest.data <- twit[2878:2911,]#テストデータは33rf.model <- randomForest(TAG~., data=train.data, na.a="na.omit", ntree=10)

Page 18: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

精度はどう？？？

rf.predict <- predict(rf.model, train.data)(result <- table(train.data$TAG, rf.predict))● 緑色のセル＝正しく分類● 行：予測● 列：実際

2*result[2,2] / (2*result[2,2]+result[1,2]+result[2,1])● F値：0.9019064※訓練データで高精度は当たり前。ただの目安

Page 19: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

学習結果

rf.predict <- predict(rf.model, test.data)

● 2878行目のデータはfav、2879行目はnonと予測● favと予測されたtweetはウケルのでは？？？

Page 20: あんちべのすべらない話～俺のツイートがこんなにウケないはずがない～

まとめ

● 人気tweetを収集し、人気tweetを判別するモデルを作る

● 自分のtweetをモデルで評価して、ウケル内容だけtweetする

● これで広瀬香美や孫正義を超える人気ついったったーになれる！

球面すべり支承 NS-SSB · 2020. 1. 16. · NS-SSBにおいて、すべり材とすべり板とは接合していないため、引張強度の基準値を 0N/mm2 としています。

· Web view2016/12/13 · わんやしるわんをて手にもってた食べる。た食べていると途ちゅう中でた立ってある歩かない。きたないはなし話をしない。くち口にた食べもの物をい入れたまま

文部科学省ホームページ · Web view2016/12/13 · わんやしるわんをて手にもってた食べる。た食べていると途ちゅう中でた立ってある歩かない。きたないはなし話をしない。くち口にた食べもの物をい入れたまま

（b）いかなる理由があっても，約束は守るべきだ · 44 （b）いかなる理由があっても，約束は守るべきだ（c）困っている人を見たら，頼まれなくても助けてあげるべきだ

T SUBISHI · 2017. 3. 31. · 2 3 なべトッププレートうず電流磁力発生用コイル磁力線 1 2 3 左ヒーターラジエントヒーターなので、今お使いのなべ

いろいろなMachineLearning を比べてみよう

美乳とPHP7 on Docker - てきとうなさいと。べぇたばん

食べものに、もったいないを、もういちど。 - 2HJ食べものに、もったいないを、もういちど。平成26年10月食料産業局バイオマス循環資源課

食べられなくなった認知症患者との向きあい方...食べられなくなった認知症患者との向きあい方明石医療センター総合内科作成：鷹津

動物遺伝学遺伝子を調べるといろいろなことがわか …genetics/images/Animal...動物遺伝学：遺伝子を調べるといろいろなことがわかります！

効率的なセキュリティ対策実現のポイント ... · ThreatARMORでインターネットを縮小したとしても、分析すべきトラフィックは決して少ないとはいえない。よ

めとべや東京 #6「WP7は死んだ！もういない！」

『彩と武蔵の学習帳...3 わかる wakaru わからない wakaranai ( (entendo) (não entendo) 3．べんりなことば Benrina kotoba (Palavras úteis) はい hai sim) いいえ

Simple Writing Sytem - Amazon S3...5 ジョンが明かしている秘密を学べば、競合であなたと肩を並べられる人はいなくなるはずだ故ゲイリー・ハルバート

Fresh Smile ゴールデンウィークビッグセール!!ja-kisyuu.or.jp/wp/wp-content/uploads/0f9c1af0ef8c3f5b...ゴールデンウィークビッグセール!! Title 'いなみみなべ_0429_B3_4C

食べられなくなった認知症患者との向きあい方 - …hospi.sakura.ne.jp/wp/wp-content/themes/generalist/img/...食べられなくなった認知症患者との向きあい方

梅システムカレンダー2020 六曜なし版下...みなべ・田辺の梅システム江戸時代から続いてきて、今もなお大切に守られている。「みなべ・田辺の梅システム」はそんな農業の仕組みなんです。時代や風景が変化する中で、梅づくりの物語は続いています。「みなべ・田辺の梅システム」についてくわしくは…

IHクッキングヒーター3 警告取り扱い油調理中底が変形していない平らな鉄製のなべを使う底に凹凸やそりのあるなべを使うと油温調節機能が働

美しい amazing 驚くべき、すばらしい great すばらしい wonderful すばらしい、見事な breathtaking 息をのむような magniﬁcent 壮大な、雄大な

ごいインデックス Liste de vocabulaire...あべ／あべさんあべ￣／あべさん￣ Abe / Madame Abe 16 あまいあまい￣、あま￢い sucré(e) / doux(-ce) 4

みんなが調べないJS調べてみた JSオジサン#2

あいべ福島 Canpan

ここでしか　学べないものがある。

第2次いなべ市総合計画なべ市総合計画第 2 次い …...第 2 次いなべ市総合計画平成 2 8 年度～平成 3 7 年度 3 本市では、平成18年3月に「第1次いなべ市総合計画」を策定し、将来像であ

共生時代を担う子どもたちを育てるために...学校ではしゃべらない ――カオリはそんなに日本語が上手なのに「学校ではあまりしゃべらない」

文部科学省ホームページ · Web view2016/12/13 · す好ききらいしないで食べよういいえはいいいえはいいいえいいえはいはいきらいなものの中にも大切なえい栄よう養分があります。少しずつでも食べられるようにがんばりましょう。いいえ

11．データベース構築体制の整備...• SIPの枠組みを活用して早期に対処していくべきではないか。• 画像データにおけるプライバシー対策など、データ毎に配慮すべき課題も検討していくべきではないか。•

カルボプラチン・パクリタキセル療法の治療を受ける患者さんへ · なるべく人ごみを避けましょう。風邪をひいている人になるべく近づかないようにしましょう。

まえがき - WordPress.com · はならない必要不可欠なモノ、「衣」「食」「住」や「医療」などが欠けている状態を指します。食べ物がない、住む家がない、簡単な医療すら受けら

A Study on High Dynamic Range Image Generation …...対応していなければならない．つまり，合成に利用するすべての画像が同じシーンを捕らえていなければならない．そのため

元気なまちいなべ健康増進と介護予防 · 2016-12-27 · 元気づくりシステムは健康づくりを通して、体も心も元気なまちいなべに貢献しています。

第15回バナナ・果物...バナナを食べることが多いタイミング朝食に食べるもの 4 Q. あなたはバナナをいつ食べることが多いですか。（食べることが多い順に5位まで）（各単一回答）

採らない！食べない！　売らない！人にあげない！ ◎家庭菜園や畑などで、野菜と観賞植物を一緒に栽培するのはやめましょう。

No.26 わくわくフェスタ - blog.canpan.info€¦ · いなべの里山を守る会いのちの言葉プロジェクト npo法人いなべこども活動支援センター