「人工知能」の表紙に関するtweetの分析・続報

44
人人人人人人人人人人人人 「」 Tweet 人人 人人 人人 人人人 人 人人 人人 人人 人人人人 人人人人 2014/05/24-25 Web Intelligence and Interaction @ 人人

Upload: fujio-toriumi

Post on 16-Apr-2017

2.225 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 「人工知能」の表紙に関するTweetの分析・続報

「人工知能」の表紙に関する Tweet の分析・続報

鳥海 不二夫,榊 剛史,岡崎 直観東京大学・東北大学

2014/05/24-25Web Intelligence and Interaction

@ 隠岐

Page 2: 「人工知能」の表紙に関するTweetの分析・続報

人工知能学会・学会誌「人工知能」• 人工知能学会が学会誌の表紙を変更• 女性型掃除機• Twitter 上で「女性差別的である」との批判• Twitter 上で議論• 会員激増• 編集長歓喜←イマココ

Page 3: 「人工知能」の表紙に関するTweetの分析・続報

事の経緯• 2013 年 12 月 25 日– 人工知能学会 WEB ページ– 「学会誌名の変更と新しい表紙デザインのお知らせ」

• 同日 20 時 40 分– ネットニュースサイトである ITmedia の記事を掲載– 「人工知能学会誌、表紙が“萌え”化」– その後好意的なツイートが多く投稿される

Page 4: 「人工知能」の表紙に関するTweetの分析・続報

事の経緯 2

• 2013 年 12 月 26 日 0 時 57 分– 初の批判的ツイート

• 同日 15 時 21 分– 批判ツイートが Follower3 万人以上のユーザによって Retweet される– さらに批判的ツイート– 炎上のきっかけとなる

Page 5: 「人工知能」の表紙に関するTweetの分析・続報

炎上のきっかけとなったツイート

Page 6: 「人工知能」の表紙に関するTweetの分析・続報

事の経緯 3

• 同日 18 時頃– まとめサイト togetter にまとめができる– 3000 回以上の Tweet– 「人工知能学会の表紙は女性蔑視?」

• 2013 年 12 月 27 日 10 時 24 分– 2ちゃんねるにスレが立つ

• 同日 16 時ごろ– 痛いニュースに掲載– 「『家事をする女性ロボット。気持ち悪い、男の妄想』 人工知能学会の表紙に批判殺到」

Page 7: 「人工知能」の表紙に関するTweetの分析・続報

「人工知能」の表紙に関する Tweet の分析• 人工知能 Vol29No.2• 小特集:「「人工知能」表紙問題における議論と論点の整理」• http://bit.ly/1mkHwFc

Page 8: 「人工知能」の表紙に関するTweetの分析・続報

本研究の目的• 「人工知能」表紙問題: WEB 上での扱い– どの程度問題だと認知されていたのか– どのような人がどのような形で興味を持っていたのか

• 仮定: WEB 上の重要な情報は Twitter 上で扱われる– Twitter に現れた URL から WEB 上の情報を獲得– 誰がどのような話題に興味があったのか

Page 9: 「人工知能」の表紙に関するTweetの分析・続報

今日の結論• 人工知能の表紙問題はたいした問題では無かった– ほとんどの人がネタとして消費– 真面目な議論は少ない

• コミュニティごとの「見方」を解析– ボカロファン,プログラマコミュニティ:ネタ– 政治的コミュニティ:社会問題

Page 10: 「人工知能」の表紙に関するTweetの分析・続報

データ詳細• 収集期間– 2013 年 12 月 16 日~ 2014 年 01 月 08 日

• 検索ワード– 「人工知能」

• ユーザ数・ツイート数– ユーザ数: 42,369– ツイート数: 89,262

• URL データ– 全ツイートの中に含まれた URL : 3,895 種類– 出現数: 50,621 回

Page 11: 「人工知能」の表紙に関するTweetの分析・続報

データのクレンジング• ボットの排除• 明らかなボットアカウントを抽出• 3,977 ツイートをボットによる投稿として排除

•短縮 URL の展開• 短縮 URL を元の URL に展開• Queryやラベルの削除

• 拡散しなかった情報の排除• 50 ツイート未満の URL を排除

•99 種類 41,292 ツイート

Page 12: 「人工知能」の表紙に関するTweetの分析・続報

主なイベントとツイート数

Page 13: 「人工知能」の表紙に関するTweetの分析・続報

情報の整理• 大量の URL が Twitter 上には存在– すべてを見ることは困難→情報整理

• 得られた URL を分類– ツイート: 140文字以内という制限→自然言語による分類は困難– WEB ページ:画像も含まれ困難

• 内容に依存しないクラスタリング手法の提案– 人の行動に基づいたクラスタリング

Page 14: 「人工知能」の表紙に関するTweetの分析・続報

二部グラフを用いたクラスタリング• 必要としているユーザに基づくクラスタリング– 立場ごとに必要としている情報が異なる– 仮定:同じ人によってツイートされた URL は類似した情報である– ツイートユーザの類似度で URL をクラスタリング

A B C D

Page 15: 「人工知能」の表紙に関するTweetの分析・続報

情報源の類似性• ユーザ重複率: Jaccard係数– ある二つの URL をツイートしたユーザがどの程度重複しているか

• Jaccard係数によるネットワークの構築– となる URL 同士をリンク接続• ここでは, =0.05

– 得られたネットワークからクラスタを抽出

Page 16: 「人工知能」の表紙に関するTweetの分析・続報

URL ネットワーク

• ネットワークからのクラスタ抽出

Page 17: 「人工知能」の表紙に関するTweetの分析・続報

Modurality によるコミュニティ抽出• Modularity– ネットワークをもっとも「よく」分割するための指標–内部リンクが多く,外部リンクが少ないようにクラスタを作成する– Newman法を利用 𝐶𝑖 𝐶 𝑗

Page 18: 「人工知能」の表紙に関するTweetの分析・続報

抽出された主なクラスタNo. Name URL数 総ツイート

数1学会表紙ネタ系 9 15796

2浅い議論系 3 61463深い議論系 13 1968

4Togetter まとめ 3 284

• 全 55 クラスタを抽出– 45 クラスタが 1 つの URL からなるクラスタ–主なクラスタ: URL 数 3 以上のクラスタ

Page 19: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 1 に含まれる WEB サイト• 「人工知能」表紙のおかげで「情報処理」表紙がかすんでしまった

pic.twitter.com/y7ntjX9WVP• 「人工知能」の女の子 pic.twitter.com/PBMOdKxxwG• 人工知能学会誌の新表紙良いと思います  http://www.ai-gakkai.or.jp/?p=4923   

pic.twitter.com/pF685QJdW6• 人工知能学会誌の表紙が話題になっていますが、ここで日本大腸肛門病学会のポスターを見てみましょう。 http://www2.convention.co.jp/68jscp/

pic.twitter.com/fW8kda3Lzv• 人工知能学会誌の表紙が話題になっていますが、ここで精密工学会のポスターを見てみましょう。 (2012 年 ver) pic.twitter.com/BRiS7UvFEV• 日本大腸肛門病学会• 学会誌名の変更と新しい表紙デザインのお知らせ | 人工知能学会 (The Japanese

Society for Artificial Intelligence)• 人工知能学会誌の表紙が話題になっていますが、ここで精密工学会のポスターを見てみましょう。 pic.twitter.com/61SVhsSwZ5• 人工知能学会表紙コスの人が来た! pic.twitter.com/NTM5bXoPBb

Page 20: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 1

• 含まれるサイトの特徴–他の学会紙の表紙–各種学会の表紙や関連する小ネタ– 表紙に描かれた女性の画像など

• 派生したネタをツイートしたものが中心– 直接表紙については言及せず– ネタを楽しんでいるクラスタ

Page 21: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 2 に含まれる WEB サイト• 人工知能学会誌の表紙、女性イラストレーターが描いていた• 人工知能学会の表紙のメイドロボットを考察したら深すぎた | ドウデモイイコト。• 人工知能学会の表紙は女性蔑視? -

Togetter まとめ

Page 22: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 2

• 含まれるサイトの特徴– 表紙に関して議論を行っているサイト• ニュースサイト• まとめサイト• ブログ

• 表紙に関する情報を扱う– ジェンダー問題などには踏み込まない–非専門家が意見表明が中心

Page 23: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 3 に含まれる WEB サイト• 人工知能学会の表紙について、会員として調べた/考えたこと• 児童労働かと思ったら人工知能学会の学会誌の表紙だった件 : 天漢日乗• はてなブックマーク - 人工知能学会の表紙は女性蔑視? - Togetter まとめ• はてなブックマーク - Thinking Spot: 人工知能学会の表紙について、会員として調べた/考えたこと• 人工知能学会の表紙について、会員として調べた/考えたこと• 人工知能学会表紙批判への反論、を片っ端から論破していく• 人工知能学会関係者の皆様へ - researchmap• 人工知能学会表紙批判への反論、を片っ端から論破していく• 人工知能学会の表紙の件 - 児童小銃• 「人工知能学会の表紙は女性蔑視だ!」に思うこと - ぐるりみち。• 人工知能学会誌の表紙のこと - 紙屋研究所• 暇だから人工知能について垂れ流してみる• 人工知能学会誌の表紙を通して、批判と攻撃との差をみる

Page 24: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 3

• 含まれるサイトの特徴– 表紙が持つ問題点に関する議論– ジェンダー論をはじめとして人工知能の表紙そのものに関して考察したブログ– 表紙の件を「真面目に」捉えたサイトのクラスタ– 表紙に肯定的な意見,批判的な意見双方を含む

Page 25: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 4 に含まれる WEB サイト• 人工知能学会誌の新しい表紙デザインのイラストへの反応 - Togetter まとめ• 人工知能学会の表紙は男の娘!!という斬新な意見が出てきてるwww - Togetterまとめ• 【激励】人工知能学会誌の表紙絵を描いた方へ - Togetter まとめ

Page 26: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 4

• 含まれるサイトの特徴– Twitter のまとめサイトである togetter– Twitter の情報が見やすい形で再編集された情報– 表紙が持つ問題点については深い議論は無い– どちらかといえばネタとして消費

Page 27: 「人工知能」の表紙に関するTweetの分析・続報

各クラスタのツイート時期とツイートの盛り上がり

Page 28: 「人工知能」の表紙に関するTweetの分析・続報

ユーザコミュニティと WEB サイト• 誰が何をツイートしたのか?– コミュニティ単位での情報拡散の分析– どのように情報が伝播したかを解明

• 個々のユーザでは無くユーザ群に着目– ユーザコミュニティの抽出–各クラスタが「いつ」「どのコミュニティで」出現したか– コミュニティ間の伝播を分析

Page 29: 「人工知能」の表紙に関するTweetの分析・続報

コミュニティの抽出• 相互 Reply ネットワークからコミュニティを構築–互いのスクリーンネームを含むツイート行ったユーザ→リンクで接続

• 利用データ– 時期: 2012 年 1 月~ 2013 年 4 月– ユーザごとに直近 1000 件の投稿(当該期間の投稿数が 1000 件以下のユーザは全投稿)–当該ツイート群から相互メンション関係を抽出

Page 30: 「人工知能」の表紙に関するTweetの分析・続報

コミュニティの抽出• ユーザネットワーク–ノード数 42,369–リンク数 83,140

• ネットワークをコミュニティに分割– コミュニティ分割手法: Louvain 法

• 抽出結果– 20,971 のコミュニティ

Page 31: 「人工知能」の表紙に関するTweetの分析・続報

代表的なコミュニティの特徴語コミュニティ ID

ユーザ数 特徴語 9094 215MoE 高専 TRPG ポケモン アイマス プレイ9205 1936原発 放射線 福島 政策 経済 放射5018 807工作 マイコンキット ロボコン電子 組み込み5947 642UTAU ミク MMD 初音 mylist ボーカロ

イド5260 1468Haskell Python coins インフラ github Emacs

951 1525軍事 WoT 大洗 共産 ニコマス模型2383 971アニメー

ター ロケット宇宙 戦艦 SF コミックス

Page 32: 「人工知能」の表紙に関するTweetの分析・続報

コミュニティ特徴語の抽出• コミュニティを理解するため特徴語を抽出– ユーザを表す特徴語の文書集合を作成• ツイッタープロフィールに含まれる自己紹介文の結合

–文書集合の出現語の tf-idf 値を算出• コミュニティ特徴語 =tf-idf値の上位 20語– ユーザの自己紹介における特徴語

Page 33: 「人工知能」の表紙に関するTweetの分析・続報

クラスタごとの拡散分析• 各クラスタに含まれる URL がどのコミュニティでいつ Tweet されたかを分析– どのようなコミュニティにいつ広がっていったのかを分析

• クラスタの特徴分析– どういう内容がどういう拡散を見せるのか

• コミュニティの分析– どのようなコミュニティがどう拡散させるのか

Page 34: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 1: 学会表紙ネタ系

Page 35: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 2:浅い議論系

Page 36: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 3:深い議論系

Page 37: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 4:Togetter まとめ系

Page 38: 「人工知能」の表紙に関するTweetの分析・続報

クラスタごとの持続時間と拡散性

持続時間

拡散性 クラスタ 1:学会表紙ネタ系クラスタ 2:浅い議論系 クラスタ 3:深い議論系 クラスタ 4:

Togetter まとめ系

Page 39: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 1 , 2

• クラスタ 1 :学会表紙ネタ系• クラスタ 2 :浅い議論系

コミュニティ ID

ユーザ数 特徴語 9094 215MoE 高専 TRPG ポケモン アイマス プレイ5018 807工作 マイコンキット ロボコン電子 組み込み5947 642UTAU ミク MMD 初音 mylist ボーカロ

イド5260 1468Haskell Python coins インフラ github Emacs

Page 40: 「人工知能」の表紙に関するTweetの分析・続報

クラスタ 3 , 4

• 3 :深い議論系• 4 : Togetter まとめ

コミュニティ ID

ユーザ数 特徴語 9205 1936原発 放射線 福島 政策 経済 放射

951 1525軍事 WoT 大洗 共産 ニコマス模型

Page 41: 「人工知能」の表紙に関するTweetの分析・続報

クラスタによるユーザの違い• クラスタ 1 , 2 は軽い話題– クラスタ 1 は完全に小ネタ– クラスタ 2 は浅い議論系–幅広いユーザによって Tweet される

• クラスタ 3 は深い議論,クラスタ 4 はまとめ記事– 社会問題に興味があるコミュニティによる Tweet• 問題そのものに興味がある人々• 議論好き?

– さらなる分析が必要

Page 42: 「人工知能」の表紙に関するTweetの分析・続報

まとめ• 人工知能学会表紙問題における Tweet の分析

( 続報 )• ユーザに基づくクラスタリング手法を提案– 関連する WEB サイトをクラスタに分類– ユーザコミュニティでの情報拡散の可視化

• 表紙問題における議論の傾向を分析– ボカロファン,プログラマコミュニティ:ネタ– 政治的コミュニティ:社会問題

Page 43: 「人工知能」の表紙に関するTweetの分析・続報

今後の課題• 二部グラフによるクラスタリングの応用– 二部グラフを用いたリツイートの分類

• 情報拡散とコミュニティの分析– 同一事象の多角的視点の分析– 炎上対策などにも応用

• より多くの情報拡散の事例分析– 情報拡散のパターン分類– その原因の解明

Page 44: 「人工知能」の表紙に関するTweetの分析・続報

おまけ

今後の展開に乞うご期待