3章 知識構造の可視化のためのテキストマイニング ·...

12
3 知識構造の可視化のためのテキストマイニング 1 3-1 はじめに するために エンジン っている。 されている えている ( 3-1)。「概 グラフ」 れる する 、それを した Mindex(マインデックス) システム ある。ユーザーが するキーワードを して める ころま エンジン じだが、Mindex まれる する。さらに、それら づき し、 グラフ して する。 、概 グラフ 、多 から える 、そして インパクトを する。 WWW(World Wide Web) ページが大 にあり、そ NEWSレシピ、 ある。また、CGM(Consumer Generated Media) により、 WWW する さく り、WWW けるこ される。 ように、WWW する いえ、ある たす WWW する きわめて い、しかし、 がただ するだけ 々が って閲 するこ けれ ある。また、そ するこ ある。 よう WWW ったこ く、学 あるい から えつづけている。こ よう いこ すために、 ツー っている。 々に えるが、 にキーワード をキーワード するこ され、 する する為 キーワー ドを えだすこ ある いう 題がある。あるい えるキーワード 体を するこ 体が より がある ある。 における 、あるい 、ある における い、 しあう キー ワード ってきている。 、これら (シソーラス ) 、それぞれ エキスパートが をかけて し、 々が閲 する するこ けしてくれる。シソー ラス ある した あり、 れを ぐため ため キーワード されている。しかし、 によるシソーラス がかかり、 てがシソーラスに されているわけ い。 また、 しい に対してすぐに いう ある。 えつづけるドキュメントを に活 するか って ある。つまり、 より えられる。 じて して よいが、 、あるい 体を するこ が、 るこ される。そこ されている が、テキストマイニング ある。 による概 グラフ し、 える 」により を対 よく する す。 1 大学 センター  25

Upload: others

Post on 04-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第3章 知識構造の可視化のためのテキストマイニング

廣川佐千男1

3-1 はじめに大量の文書を利用するために検索エンジンは必須となっている。筆者は検索の次に必要とされているのは分析と考えている (図 3-1)。「概念グラフ」は、文書群に現れる特徴語の概念的な上下関係を表す可視化する理論で、それを実装したのがMindex(マインデックス)システムである。ユーザーが入力するキーワードを含む文書群を検索結果として求めるところまでは通常の検索エンジンと同じだが、Mindexでは検索結果の文書群に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、グラフとして可視化する。本稿では、概念グラフの考え方と応用事例を述べ、多量の文書群からの知識構造の「見える化」の可能性、そして実社会へのインパクトを考察する。現在、WWW(World Wide Web)上には閲覧可能なページが大量にあり、その内容も科学技術論文、NEWS、料理のレシピ、個人の日記など多種多様である。また、CGM(Consumer Generated Media) の登場により、WWW上に個人が情報を発信する障壁は小さくなり、WWW上の情報が今後も増え続けることが予想される。このように、WWWは大量の情報が存在する情報の宝庫といえ、ある特定の要求を満たす情報がWWW上に存在する可能性はきわめて高い、しかし、情報がただ存在するだけで我々が実際に手に取って閲覧することができなければ無意味である。また、その内容を理解することも重要である。このような情報爆発はWWWに限ったことではなく、学術論文や企業あるいは官公庁からの報告書などの出版量も増えつづけている。このような膨大な量の文書群を使いこなすために、現代社会では検索は必須のツールとなっている。情報検索は我々に情報閲覧の機会を与えるが、情報検索、特にキーワード型検索には利用者が自らの情報要求をキーワードで表現することが要求され、情報要求と適合する文書を検索する為のキーワードを利用者が考えだすことが困難であるという問題がある。あるいは、検索や分析の観点を与えるキーワード自体を発見すること自体が検索結果の文書そのもよりも価値がある場合もある。社会における新な問題や動向、あるいは、ある分野における研究の発展にともない、関連しあう新なキーワード群の認識が重要となってきている。従来、これらの概念辞書(シソーラス関連語辞書)は、それぞれの分野のエキスパートが時間をかけて構築し、我々が閲覧する文書を理解することを手助けしてくれる。シソーラスはある単語の同義語、類義語、上位語、下位語、同位語を掲載した辞書であり、検索漏れを防ぐためや絞り込みのための検索キーワードの提案などに応用されている。しかし、人手によるシソーラスの構築と更新には手間がかかり、既存の言葉全てがシソーラスに登録されているわけではない。また、新しい表現に対してすぐに適用できないという問題もある。爆発的に増えつづけるドキュメントをどう分析に活用するかは、知識社会の存続にとって重要な課題である。つまり、単純な検索よりも必要性が高まるのが分析と考えられる。目的に応じて検索結果として数十件の文書で済めばよいが、数百件、あるいは数万件の文書群全体を解釈することの方が、今後の知識社会では重用となることは自明に想定される。そこで期待されているのが、テキストマイニングの技術である。本稿では、筆者による概念グラフの技術を紹介し、知識構造の「見える化」により様々な仮説を対話的に効率よく構築する可能性を示す。

1九州大学情報基盤研究開発センター 教授

25

Page 2: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-1: 検索エンジンから分析エンジンへ

3-2 単語の共起関係による概念構造の抽出概念グラフには、2つの大きな特徴がある。まず第1に、ある文書集合においてユーザーの与えるクエリに対し、文書集合中での特徴語の上位下位関係を抽出する。ある単語 wを、ユーザーの与えるクエリ qによって決まる文書集合D(q)での特徴量 s(w,D(w))を式 (3.1)で定義する。

s(w,D(q)) = ∂ f (w,D(q))/∂ f (w,U) (3.1)

この式は、単語 wを含む文書集合 D(w)と D(q)の交わりの文書集合 D(w)での割合を表している。また、D(w)と D(q)の交わりの D(q)での割合を wのもうひとつの特徴量と考える。

s2(w,D(q)) = ∂ f (w,D(q))/|D(q)| (3.2)

s(w,D(q))かつ ∂ f (w,U) < |D(q)|となる単語 wを D(q)の下位の特徴語、s2(w,D(q))かつ ∂ f (w,U) > |D(q)|となる単語 wをD(q)の上位の特徴語と呼ぶ。特徴語間の関連抽出には、二つの特徴語 u,vの (q)での共起頻度 ∂ f (u × v,D(q))を用いて、vからみた uの関連度 r(v,u)として定義する。

r(u, v) = ∂ f (u × v,D(q))/∂ f (v,D(q)) (3.3)

図 3-2: 特徴語と上位下位関係

∂ f (u,D(q)) > ∂ f (v,D(q))、r(u, v) > 0.5であるような、すなわち vよりも一般的でかつ関連度が 0.5を越すような uを vの上位語と呼び、uは vの上位であると言う。特徴語と同様に特徴語間の上位下位関係も着目する文書集合によって変化する。全ての特徴語対の間の上位下位の関連を計算し、下位の語から上位の語へパスを引いた有向グラフを概念グラフと定義する。これにより、全文書集合中における単語の特徴度とユーザーの

知識社会研究会 2008 年度報告書 26

Page 3: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

与えたクエリによって決まった文書集合における単語の特徴度が明確となり、その関係も有向なグラフとして明示されることになる。本技術を特許情報に応用することにより、膨大な量の文書群から切り出される膨大な量の用語において、上位・下位の関連を見ることが可能となる。例えば、分析対象として特許明細書を考えると、一般的な技術用語の関連を可視化したグラフが得られる。実は、このような技術用語だけではなく、企業名(出願人名)、研究者名(発明者名)、特許分類記号も同様に扱うことができるので、得られる関連図が分析対象とする企業の実状を表すとも考えられる。

図 3-3: 概念グラフシステム概略図

3-3 概念グラフ応用事例図 3-4は新聞記事のデータに対する検索結果の概念グラフである。検索語としては「携帯 or音楽」を入力している。現在ではどんな携帯電話であっても音楽をダウンロードするのは当り前のことになっているが、この概念グラフを作成した当時の新聞記事では、アップルが特徴語として現れている。また、携帯、電話、配信、音楽のように(当時)自明ではない繋がりがあらわれている。また、携帯でのコンテンツ配信に力を入れていたインデックス社の記事が多く現れている。しかし、インデックス社は音楽との繋がりはないことが分る。このように、新な繋がりを発見したり、繋がりがないことを確認することができる。このように分析のための仮説設定とその検証のサイクルへの利用が期待できる。

図 3-4: 「携帯 or音楽」に関する概念グラフ

図 3-5は、科学技術振興機構 (JST)が提供するサイエンスポータル(http://scienceportal.jp/)の科学技術関連ニュースについての概念グラフである。2009年 5月 29日の「土壌中のカドミウム吸収する植物開発」の記事から特徴語を抽出し、それらの単語の間の関連と、関連記事へのリンクを表示している。文書群からの単語抽出ができれば、概念グラフは言語に依存せずに応用できる。図 3-6は、医学関連文献データベースMedlineの論文概要に対する概念グラフの例である。Gene、DNAという検索語に対して関連語が提示されている。このように、検索結果の概観を可視化することで、単なる文献検索では得られないあらたな関連の発見が期待できる。

知識社会研究会 2008 年度報告書 27

Page 4: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-5: 科学技術関連ニュースについての概念グラフ(土壌、浄化)

図 3-6: 医学文献情報に対する概念グラフ

知識社会研究会 2008 年度報告書 28

Page 5: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-7は、九州大学・研究シーズ検索(http://kyudaiseeds.lafla.imaq.kyushu-u.ac.jp/)への概念グラフの導入事例である。九州大学知財本部 (IMAQ)が提供している、大学の研究実績 (研究シーズ)を検索するシステムで、入力した検索ワードに対して、MINDEXにより関係の深い言葉のつながりを表示し、MINDEX上に現れた言葉をクリックしていくことで、より調べたい目的の研究シーズを探索できる。また、検索ワードに不完全な言葉を入力しても「もしかして」に続いて、該当する言葉を提示する機能も併せて実現している。

図 3-7: 大学研究シーズ集の概念グラフ

図 3-8は、 身近な商品・サービスに対する高齢者・障害者へのアンケート結果を分析したものである。図3-8は、高齢女性をキーワードに概念グラフシステムから得られた結果である。高齢女性の下位概念として愛着や靴に関することが多く出現していることが分かる。また、高齢女性の下位概念として斜めがけという単語があるが、これは高齢女性に対するポジティブなキーワードに出現している。概念グラフは文書に共起する単語の上位下位関係を可視化するものであるため、人名を単語と考えると人と人の関連も分析できる。技術情報記載がされている特許明細書の発明者情報や分類といった項目の違う情報についても特徴語として同時に処理し、表示・可視化することができる。発明者(出願人)間で切り出された用語との関係を示す特許マップもあるが、個別の用語と特定の発明者(出願人)ごとの関係の違いが明確になる一方で、用語間の関係は明示されないため、技術としての把握をすることはできない。概念グラフを特許情報のうちの発明者情報と明細書から切り出される技術用語について用いることにより、企業の研究開発体制の分析を試みた。具体的には、化粧品関連の企業を対象として、研究者間の関連を概念グラフとして表し、日本企業と外国企業の間で研究組織の構造の違いが発見できた。図 3-9は花王(左)とロレアル(右)の研究者群についての概念グラフである。花王は全体がつながった一つのグラフとなっているが、ロレアルは多数に分かれ

知識社会研究会 2008 年度報告書 29

Page 6: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-8: アンケート分析

た小グループからなる。

図 3-9: 発明者群の概念グラフ 花王(左)、ロレアル(右)

本手法は、分野を特定した学術論文集からその分野の概念辞書構築にも利用できる。一方、非常に一般的な文書群、たとえば英語辞書やWikiPediaからも関連語グラフを構築できる。図 3-10は、ある英和辞典について「ワイン」を検索語として概念グラフを構築した例である。単に関連単語の一覧が表示されるのではなく、赤ワインの話題は少く、白ワインについてであり多くの話題が掲載されていることが分る。

知識社会研究会 2008 年度報告書 30

Page 7: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-10: 英和辞書からの概念グラフ生成(ワイン)

知識社会研究会 2008 年度報告書 31

Page 8: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

3-4 施政方針演説の分析前節までは様々な文書群に対する概念グラフを利用したテキストマイニングの可能性を示した。本節では知識社会のためのより具体的な試行として、1950年 1月 1日~2008年 10月 7日までの施政方針演説の分析を試みる。なお分析対象とするデータは、東京大学東洋文化研究所田中明彦研究室データベース「世界と日本」帝国議会・国会内の総理大臣演説を利用させていただいた。前処理として、施政方針演説を段落ごとに分割し、一段落を一文書として単語の共起解析を行った。

図 3-11: 施政方針演説サイズ変化

図 3-11はそれぞれの施政方針演説ごとの段落数を表している。昔の演説は短く簡潔であったのに比べ、長くなっていることが分る。表 3-1は、出現回数上位 100の単語の一覧である。

表 3-1: 施政方針演説の高出現頻度語

順位 頻度 語句 順位 頻度 語句 順位 頻度 語句 順位 頻度 語句 順位 頻度 語句1 993 国民 21 375 図る 41 250 施策 61 206 繁栄 81 186 期待2 830 経済 22 339 行う 42 249 技術 62 205 年度 82 186 引き続き3 829 社会 23 339 基本 43 246 充実 63 205 計画 83 185 相互4 693 国際 24 337 環境 44 243 国家 64 204 目指す 84 185 支援5 601 努力 25 337 確保 45 242 保障 65 202 目指 85 185 確立6 565 問題 26 332 取り組む 46 240 理解 66 202 地方 86 184 国際社会7 523 関係 27 331 地域 47 240 諸国 67 201 対応 87 182 文化8 514 協力 28 312 努める 48 237 昨年 68 199 総合 88 180 構造9 489 我が国 29 311 思う 49 235 持つ 69 199 維持 89 179 主義

10 485 平和 30 305 強化 50 233 新た 70 198 信頼 90 177 貢献11 473 推進 31 296 対策 51 227 自由 71 196 拡大 91 176 所存12 470 進める 32 281 課題 52 219 分野 72 195 外交 92 175 強い13 461 改革 33 276 安全 53 219 向上 73 194 改善 93 172 振興14 459 安定 34 275 特に 54 216 教育 74 193 豊か 94 172 活動15 442 考える 35 268 一層 55 214 立つ 75 192 促進 95 169 民主16 410 実現 36 265 解決 56 213 方針 76 192 基盤 96 168 考え17 408 日本 37 262 国会 57 212 時代 77 191 見る 97 167 大きな18 404 発展 38 258 向ける 58 211 企業 78 191 決意 98 165 措置19 380 必要 39 257 開発 59 209 産業 79 190 初め 99 161 予算20 377 重要 40 250 新しい 60 207 実施 80 188 アジア 100 159 十分

上位5位の「努力」について、関連度 0.5で描いた概念グラフが図 3-12であり、0.2の概念グラフが図 3-13である。

0.5というきつい関連度だとどの単語も検索語の「努力」以外には繋がっていないが、関連度を下げると、「平和外交、軍縮に努力を傾ける」という特徴的なものが見える (図 3-13)。そこで引続き、「軍縮」という検索語で突込んだ分析を続けることができる (図 3-14)。本稿ではこれ以上の詳細な分析は行わないが、具体的な文面と合せて見ることで、仮説の発見と検証を対話的におこなう支援になると期待できる。

知識社会研究会 2008 年度報告書 32

Page 9: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-12: 「努力」に関する概念グラフ(関連度 0.5)

知識社会研究会 2008 年度報告書 33

Page 10: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-13: 「努力」に関する概念グラフ(関連度 0.2)

図 3-14: 「軍縮」についての詳細分析

知識社会研究会 2008 年度報告書 34

Page 11: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

図 3-15は「技術」を検索語として求めた概念グラフである。右上の部分に科学技術、立国、産学、遺伝子などの単語が深く延びており、科学技術政策の方向性をみることができる。図 3-16は関連度を 0.2に下げたものである。

図 3-15: 「技術」に関する概念グラフ(関連度 0.5)

図 3-16: 「技術」に関する概念グラフ(関連度 0.2)

3-5 まとめと今後の課題膨大な文書群から知識構造を抽出するテキストマイニングの技術として、概念グラフのシステムを紹介した。様々な文書群について検索インターフェースをもつ文書分析システムとして、仮説の発見と対話的検証作業に利用できる。知識社会のための分析事例として、歴代施政方針演説の分析を試みた。このような分析システムは完全な回答を与えるものではないが、与た検索条件から得られる関連語の可視化画面から、利用者が新たな仮説を見出しさらに詳細な分析をおこなうためのツールとして有効と考えられる。

知識社会研究会 2008 年度報告書 35

Page 12: 3章 知識構造の可視化のためのテキストマイニング · に含まれる特徴語を抽出する。さらに、それら特徴語の間の概念的な上下関係を出現頻度にもとづき抽出し、

第 3章知識構造の可視化のためのテキストマイニング

内閣府経済社会総合研究所委託事業「イノベーション政策及び政策分析手法に関する国際共同研究」

参考文献T. Seki, T. Wada, Y. Yamada, N. Ytow and S. Hirokawa, Multiple Viewed Search Engine for e-Journal — a

Case Study on Zoological Science, Proc. of the 12th International Conference on Human-ComputerInteraction, Lecture Notes in Computer Science, Vol. 4553/2007, pp. 989-998, July 2007.

Yurie Iino, Yasuhiro Yamada, Sachio Hirokawa, Structural Analysis of R&D Division from Patent Doc-uments, Proc. of the 2008 IEEE International Conference on e-Business Engineering, pp. 423-428,2008.

Y. Yamada, K. Katoh and S. Hirokawa, Multiple Analysis of Remarks of Elderly and Disabled People byText Mining, Proc. (CD-ROM) of the International Conference on Kansei Engineering and EmotionResearch 2007, October 2007.

飯野由里江, 山田泰寛, 廣川佐千男, 特許情報における発明者群の解析, 第 22回人工知能学会全国大会, 2008年 6月.

山田泰寛,加藤完治,廣川佐千男,テキストマイニングによる高齢者・障害者評価言語の多面的な分析,第9回日本感性工学会大会・総会, 2007年 8月.

知識社会研究会 2008 年度報告書 36