第二回ニコニコ学会βデータ分析研究会

43
三三三三三三三三三三 三三三三三三三三三三三 ~~ @toritorix 三三三三三三三三三 β 三三三三三三 三三三三三三三三三 三三三三三三三三三三三 2013 三 7 三 27 三

Upload: fujio-toriumi

Post on 04-Jun-2015

994 views

Category:

Documents


1 download

DESCRIPTION

三種のツイートデータ ~しょぼい分析を添えて~

TRANSCRIPT

Page 1: 第二回ニコニコ学会βデータ分析研究会

三種のツイートデータ~しょぼい分析を添えて~

@toritorix

第二回ニコニコ学会 β データ研究会@ドワンゴ新オフィスデータセット作ってみた

2013年 7月 27日

Page 2: 第二回ニコニコ学会βデータ分析研究会

自己紹介• @toritorix• 自称エセデータサイエンティスト• 主な仕事

– データ収集– 震災時のツイートの分析とか

• 装備– 武器:ネットワーク分析・統計処理– 防具:虎の威– 特技: Java

• 本も出てるけど,絶版になったので宣伝しない

Page 3: 第二回ニコニコ学会βデータ分析研究会

3種のデータセット

• 東日本大震災発生時の Tweet– 4億 0756万 2159

• 国内 GEOタグ付き Tweet– 5027万 1986

• 選挙関連 Tweet– 1026万 5004(衆議院選挙 2012)– 1142万 0443(参議院選挙 2013)

Page 4: 第二回ニコニコ学会βデータ分析研究会

震災後 Twitterデータ基本情報

• データ取得日– 2011年 3月 7日~ 23日

• ツイート数– 4億 0756万 2159(網羅率 80%くらい )

• ユーザ数– 272万 7247人

• 共同収集– @PENGUINANA_

Page 5: 第二回ニコニコ学会βデータ分析研究会

データ仕様• 中身

– TweetID– ScreenName(ツイート当時の物 )– Contents(本文 )– Source(ツイート元・WEBかアプリか )– Time(ツイート時間 )– In_reply_to(Reply機能を使ったときのリプライ先

TweetID)– In_reply_to_sc(Replyを受けた人の ScreenName)

• 形式– TSV, UTF-8

Page 6: 第二回ニコニコ学会βデータ分析研究会

付加データ

• 抽出済みデータ–ハッシュタグ– Mention/Reply/Retweet– Mecabによる形態素全解析結果

• 名詞・動詞・形容詞・地名– Mentionによるネットワーク

Page 7: 第二回ニコニコ学会βデータ分析研究会

震災前後のネットワーク

7震災前のネットワーク 震災後のネットワーク

Page 8: 第二回ニコニコ学会βデータ分析研究会

ツイッタらーさんまじ

デマッター

Page 9: 第二回ニコニコ学会βデータ分析研究会

ツイッターさんが広めた輝かしいデマの数々

• 地震は日本崩壊を企む裏社会によるレーザー水爆によるもので、それに必要な電気を集めるため節電してるから、騙されずに電気を使って阻止しよう

• 地震が起きた時、社内サーバールームにいたのだが、ラックが倒壊した。腹部を潰され、血が流れている。痛い、誰か助けてくれ。

• 今日、ポケモンクリエイターの田尻智氏が日本の津波でなくなりました• 千葉市近辺に在住の方! コスモ石油の爆発により有害物質が雲などに付着し、雨などといっしょに降るので外出の際は傘かカッパなどを持ち歩き、身体が雨に接触しないよ

うにして下さい!!!• 震災時における女性に対する暴行事件の増加は、阪神淡路大震災でも証明されていますので、気をつけてください。

• 漫画ワンピース作者の尾田栄一郎さんが被災地へ 15億円寄付したそうです。彼こそが正にルフィーになってる。素晴らしいですね!

• 日本では物資の空中投下が認められていないんだそう!とっくに自衛隊が孤立被災者に実施してると思ってた。これでは本当に孤立者が死んでしまう。• 只今、近畿のプレートが小さくなっている模様。次は近畿に大きな地震が起きる可能性が非常に大きいので明日、明後日は注意してください。

• 東日本大震災にアメリカの地震兵器『 HAARP』が関与している疑いが浮上

• 甲状腺に問題がない人なら、イソジンをコップ一杯の水に3滴入れて飲んでおく。チェルノブイリで甲状腺ガンが多発していたのを踏まえ、甲状腺を保護するための備え。それを3日間。

• チェルノブイリに2回行ってきた俺から【原発事故に備えるアドバイス】だ。イソジン3滴入れた水を今すぐ飲め。甲状腺に発がん性物質が貯まるのを先回りして防ぐためだ。これは放射能が拡散してからじゃ遅い!もし爆発した場合は地下に逃げて!

• 精液が放射線に効くことが判明。効果はヨウ素の 15倍以上とも (WHO調べ )• 鳩山元首相が、原発から半径 200キロは怖くて住めないって言ったとか。• 「千葉県の犬吠埼の沖合に風車をいっぱい建てたら東京電力の 2005年の年間電力販売量にほぼ等しかった」• 辻元が神戸で何をしたか覚えてないのか!こいつは土井たかこと被災地に来て「自衛隊は違憲です。自衛隊から食糧を受け取らないで」と書かれたビラを配っていたんだぞ。

神戸の人たちは一生忘れへん• ヨウ素剤が手に入れられないならイソジンで代用を。コップ一杯に3滴 /日。ないよりまし。放出が始まりました!出ていますが放射性物資は微量だと NHKに出てきた専門家

の言。フィルターで除去すると。• ポケモンの生みの親である田尻智やハローキティのデザイナーである山口裕子が地震により死亡した• 「東電が東大に委託して、犬吠埼に風力発電を建てたらどれだけ発電するかを調べたら出てきたデータが「東電がまかなっている電気が全部作れます」というものだった。東

電は「そのデータは公表しないで」と言った」• 民主党の仙谷良人前・官房長官が東北大地震を「ラッキー」と表現。11日午後仙谷氏は地元徳島での後援会挨拶の中で「参院開催中に大震災が発生。菅さんはとてもラッキー

な人」と述べた。• 市原市のコスモ石油千葉製油所 LPGタンクの爆発により、千葉県、近隣圏に在住の方に有害物質が雨などと一緒に飛散するという虚偽のチェーンメールが送られています。千

葉県消防地震防災課に確認したところ、そのようなことはないと確認できました。• ヨウ素 131は高揮発性のため、水中のヨウ素 131は煮沸で幾分取り除くことが可能。気体となったヨウ素はすぐ拡散し、呼吸によって取り込んでも、経口摂取するよりは被ば

く線量を低くすることが可。• 堀江貴文氏は寄付金の一部を手数料と称して着服している• 今回の地震はプレートのずれの可能性があるため関東の方は深夜に地震が起きる可能性があるそうです 充分注意してください ほんとにいつあるかわからないから気をつけ。 。

て ニュースでも発令されたから。 。• トルコ、日本に100億支援。 さすが親日国。これを見て被災者が勇気が少しでも出る様、祈っています。

Page 10: 第二回ニコニコ学会βデータ分析研究会

ツイッターさんが広めた輝かしいデマの数々

• 仙台市三条中学校避難所で中国人やりたい放題。ストーブ前で暖をとる高齢者を足で払い中国人同士で独占。• 国家的危機にもお役所仕事「国内に 3台しかない強力放水ポンプ車の提供を東電が拒否」• 韓国で『日本の大震災記念 Tシャツ』が販売される• 蓮舫発案のコンビニの深夜営業禁止より、節電の為全国パチンコ店 1 週間の営業規制を政府に訴えよう。• 築地市場では入荷が順調なものの、生鮮物を中心に計画停電によるキャンセルや消費者の買い控えにより、魚の相場が下がっているう状況。漁師の皆さんにがんばって出荷し

てもらったのに申し訳ない。ぜひ、消費者として、生モノから消費し、日持ちする加工品は東北へまわしましょう。宜しくお願いします。• 仙南中央病院SOS ( ヤフー掲示板に )生理食塩水 500ml10000本、ラクテック 500ml10000本大至急。認知症患者脱水で餓死寸前。県とメディアに見捨てられてます。お願い

します。• 「買い占めはやめて下さい」の与党が大量買い占め。民主党議員控え室に運び込まれる大量のカップ麺。「被災地へのルートを確保してませんので送れません」では支援物資

なら、なぜ国会議事堂へ?正直に「これは私たちの食料です」と言って欲しい。

• 【西日本の人たちができること】関西、中部電力圏のみなさん、なるべく電気を節約してください。中部電力では関東地方に送電を始めています。リツイートお願いします!

• 前期の東大で合格した親戚が宮城で被災。入学に必要な書類の提出期限は 14日の消印。状況が状況なだけに延期してもらえないかと電話しても「規則だからダメ。入学資格取り消しです。」の一点張り。避難所に居る合格生や郵便局が機能していない地域の人はどうすればいいんだ

• 関西電力が東京方面への電力の供給を開始したとの情報が入りました!と言う事は、関西での節電が災害の協力になります!まだまだ夜半には冷え込みも厳しく 18時〜 19時の時間帯で 300万 KWの電力が不足するとの東京電力の需要予想です!

• 行方不明の東電傘下のプラントエンジニア。この 2名、なんと津波後原発の冷却装置を誤って操作したままさっさと逃げたという。しかも、そのまま郡山市内に逃げて酒を飲んでいた。その名は小久保和彦・寺島祥希

• 福島第一原発、半径 2キロ以内に避難命令 特別ルートからの情報をお伝えする。本情報は政府を飛び越えて当サイトで書いているものだ。近くにいる奴はすぐ逃げろ。ここ4日間が勝負だ。イソジン液を買って、数滴水に入れて飲んでおけ。何でかは自分で調べろ

• 枝野官房長官 105時間ぶりに就寝• 現在米国に滞在している元祖韓流スターの BoA( ボア )は日本大地震発生当日の去る 11日午後、ツイッターに「日本で大地震が発生しました。たくさん死んでる。笑えます」

として「すべての日本人が被災すればいいのに」という内容の文を残した。• 菅は相変わらず毎晩高級料理屋を回り豪華な食事をしてるみたいだよ。伸子も一緒に。• 仙谷氏、 15日から訪韓• 今、私の元に来ている情報によれば御殿場演習場の上で異様な噴煙が目撃されています。富士山がここで新しい噴火を起こす可能性があると考えています。もちろん東海地震

の危険も。18~20日満月警戒してください

• ACの『ぽぽぽぽーん』を歌っているのは矢野顕子 .

Page 11: 第二回ニコニコ学会βデータ分析研究会

でも,あんまりTL上ではデマを

見かけない

Page 12: 第二回ニコニコ学会βデータ分析研究会

俺の友達がこんなに情強なわけがない

Page 13: 第二回ニコニコ学会βデータ分析研究会

調べてみた

Page 14: 第二回ニコニコ学会βデータ分析研究会

マイニングによるデマの抽出

• マイニング対象– 期間: 2011年 3月 11日~ 17日– RTが 1000以上のツイート

• 広まらなかったデマは無視していいでしょう–計: 1983ツイート–あきらかなデマ・誤報を抽出

• 目的–「俺の周りは情強が多いのか」の確認

Page 15: 第二回ニコニコ学会βデータ分析研究会

手法

Page 16: 第二回ニコニコ学会βデータ分析研究会

根性マイニング

Page 17: 第二回ニコニコ学会βデータ分析研究会

根性マイニングとは

• 俺がひたすら目で見てデマかどうかを見ていく手法である

• 必要な技術– 根性

• 精度–高い

• 速度–遅い

1983ツイート全部見るの案外辛いです

vs

Page 18: 第二回ニコニコ学会βデータ分析研究会

見つかったデマ・誤報

• 2011-03-16 00:51:34 m*****• なんと驚いた情報です!日本では物資の空中投下が認められていないんだそう!とっくに自衛隊が孤立被災者に実施してると思ってた。これでは本当に孤立者が死んでしまう。救出前にヘリで食糧を落として何が悪いんだろう。わたしは今これを知り怒りで全身が震えてます。みなさんリツイートをお願い!

• 7386RT

Page 19: 第二回ニコニコ学会βデータ分析研究会

見つかったデマ・誤報

• 2011-03-15 03:22:24 j********• 枝野さんがやっと就寝されたそうで。実に 105時間ぶりだとか。 105時間といえば、 4日間以上。「 24」にすれば 4シーズン分。つまりジャックバウアー 4人分です。ありがとう!日本のジャックバウアー!! #edano_nero

• 6213RT

Page 20: 第二回ニコニコ学会βデータ分析研究会

見つかったデマ・誤報

• 2011-03-11 21:28:15 f******• RT @otancoyasu: お願いします 【転

載】千葉市近辺に在住の方! コスモ石油の爆発により有害物質が雲などに付着し、雨などといっしょに降るので外出の際は傘かカッパなどを持ち歩き、身体が雨に接触しないようにして下さい!!! コピペとかして皆さんに知らせてください!!

• 1357RT

Page 21: 第二回ニコニコ学会βデータ分析研究会

見つかったデマ・誤報

• 2011-03-11 17:04:55 o*****• 千葉製鉄所爆発しました…

http://twitpic.com/48edb1• 1222RT

Page 22: 第二回ニコニコ学会βデータ分析研究会

見つけたデマ12件

Page 23: 第二回ニコニコ学会βデータ分析研究会

ツイッターユーザ意外と情強

Page 24: 第二回ニコニコ学会βデータ分析研究会

震災時のデマ

• 2000件確認してわずか 12件– 類似情報をまとめると 8種類–何らかの形で被害が発生しそうなデマはうち

4件• 実はデマは RTされづらい

–チリ地震の時もデマは広まりづらかったと報告あり M. Mendoza, B. Poblete, and C. Castillo.

Twitter under crisis: can we trust what we RT? In Proceedings of the First Workshop on Social Media Analytics - SOMA '10,

pages 7179. ACM Press (2010)

Page 25: 第二回ニコニコ学会βデータ分析研究会

その他分析例• 三浦 大樹,諏訪 博彦,鳥海 不二夫,鬼塚 真 : ソーシャルサーチのための効率的な検索アルゴリズムの提案 情報

処理学会論文誌 データベース( TOD ) 6(3),29-39 (2013)• 小出 明弘 , 斉藤 和巳 , 風間 一洋 , 鳥海 不二夫 : ネットワーク分析による Twitterユーザのフォロー形成に関す

る一考察 情報処理学会論文誌 数理モデル化と応用 (TOM) (2013) • Takeshi Sakaki, Fujio Toriumi, Kosuke Shinoda, Kazuhiro Kazama, Satoshi Kurihara, and Itsuki Noda Regional

Analysis of User Interactions on Social Media in Times of Disaster WWW2013 Poster Session, WWW 2013 Companion Publication pp.235-236 (05/2013)

• Fujio Toriumi, Takeshi Sakaki, Kosuke Shinoda, Kazuhiro Kazama, Satoshi Kurihara, and Itsuki Noda Information Sharing on Twitter During the 2011 Catastrophic Earthquake 2nd International Workshop on Social Web for Disaster Management (swdm2013) WWW 2013 Companion Publication pp.1025-1028 (05/2013)

• Satoshi Kurihara, Yoshiyuki Okada, Takeshi Sakaki, Fujio Toriumi, Kosuke Shinoda, Kazuhiro Kazama, Itsuki Noda and Masayuki Numao SIR-Extended Information Diffusion Model of False Rumor and its Prevention Strategy for Twitter The Fifth International Workshop on Emergent Intelligence on Networked Agents (WEIN2013)(05/2013)

• 篠田 孝祐 , 榊 剛史 , 鳥海 不二夫 , 風間 一洋 , 栗原 聡 , 野田 五十樹 , 松尾 豊 : 東日本大震災時における Twitter の活用状況とコミュニケーション構造の分析 知能と情報 Vol.25 No.1 pp.598-608(02/2013)

• 小出 明弘 , 斉藤 和巳 , 風間 一洋 , 鳥海 不二夫 : コリンク構造に着目した多重グラフの特性分析 日本データベース学会論文誌 , Vol.11, No.2, pp.13-18, (10/2012)

• 鳥海不二夫,篠田孝祐 , 兼山元太 : ソーシャルメディアを用いたデマ判定システムの判定精度評価 情報処理学会デジタルプラクティス Vol.3 No.3 pp.201-208 (07/2012)

• Takeru Inoue,Fujio Toriumi,Yasuyuki Shirai,Shin-ichi Minato Great East Japan Earthquake Viewed from a URL shortener ACM CoNEXT 2011 Special Workshop on the Internet and Disasters(12/2011)

• Takeshi Sakaki,Fujio Toriumi,Yutaka Matsuo Tweet Trend Analysis in an Emergency Situation ACM CoNEXT 2011 Special Workshop on the Internet and Disasters(12/2011)

Page 26: 第二回ニコニコ学会βデータ分析研究会

GEOタグ付き Tweet

• データセット–データ取得日

• 2010-02-26~ 2013-02-20

–ツイート数• 5027万 1986

–現在も継続して取得中–共同収集

• @yashichi

• 収集方法– StreamingAPIで日本周辺を指定

Page 27: 第二回ニコニコ学会βデータ分析研究会

データ仕様• TweetID• ScreenName(ツイート当時の物 )• Contents(本文 )• Time(ツイート時間 )• 緯度・経度

Page 28: 第二回ニコニコ学会βデータ分析研究会

日本全国での Tweet

Page 29: 第二回ニコニコ学会βデータ分析研究会

都内のツイート

Page 30: 第二回ニコニコ学会βデータ分析研究会

分析例

Page 31: 第二回ニコニコ学会βデータ分析研究会

日本 3大がっかりはどこだ

Page 32: 第二回ニコニコ学会βデータ分析研究会

日本三大がっかり

• 真の日本三大がっかりが知りたい–三大がっかりには色々な説がある

• 分析手法–「がっかり」とつぶやく割合の高い場所を特

定–全ツイート数に対する「がっかり」の含有率上位 3カ所を取得• 数にすると東京は超がっかりポイントなお,これから紹介する 3大がっかりポイントについてがっかりすることを保証するものではありません.

ジョークとしてお楽しみください

Page 33: 第二回ニコニコ学会βデータ分析研究会

がっかりポイントその 1

札幌時計台

Page 34: 第二回ニコニコ学会βデータ分析研究会

がっかりポイントその 2

はりまや橋

Page 35: 第二回ニコニコ学会βデータ分析研究会

がっかりポイントその 3

守礼門

Page 36: 第二回ニコニコ学会βデータ分析研究会
Page 37: 第二回ニコニコ学会βデータ分析研究会

楽しいがっかりポイント• 札幌時計台

– 個人的には好き• 高知はりまや橋

– 何回も行ってそのたびに「がっかり」とつぶやく人がいる

• 沖縄守礼門– 首里城いいよ,首里城

さあ,みんなツイッターを持ってがっかりしに行こう!

Page 38: 第二回ニコニコ学会βデータ分析研究会

選挙関連ツイートデータ

• 衆議院選挙 2012–データ取得日

• 2012年 11月 16日~ 12月 27日–ツイート数

• 1026万 5004

• 参議院選挙 2013–データ取得日

• 2013年 6月 11日~ 6月 22日–ツイート数

• 1142万 0443

Page 39: 第二回ニコニコ学会βデータ分析研究会

収集方法

• 選挙に関係ありそうな単語で検索–一分ごとに検索–ため込むため込む・・・・

• 単語の選別–某大学の美人教授に言われるがまま

Page 40: 第二回ニコニコ学会βデータ分析研究会

分析中

Page 41: 第二回ニコニコ学会βデータ分析研究会

得票数と Tweet数の関係

東京都の場合

Page 42: 第二回ニコニコ学会βデータ分析研究会

3種のデータセット

• 東日本大震災発生時の Tweet– 4億 0756万 2159

• 国内 GEOタグ付き Tweet– 5027万 1986

• 選挙関連 Tweet– 1026万 5004(衆議院選挙 2012)– 1142万 0443(参議院選挙 2013)

Page 43: 第二回ニコニコ学会βデータ分析研究会

連絡先

• Twitter: @toritorix