qaa

37
さくさくテキストマイニング勉強会 #5 あなたの質問応えてみた。 ー疑問に対する応答ー

Upload: atsushi-hayakawa

Post on 05-Jul-2015

1.545 views

Category:

Technology


8 download

TRANSCRIPT

Page 1: QaA

さくさくテキストマイニング勉強会 #5

あなたの質問に応えてみた。ー疑問に対する応答ー

Page 2: QaA

自己紹介

Page 3: QaA

自己紹介早川 敦士

電気通信大学システム工学科三年

Page 4: QaA

興味

テキストマイニングデータマイニング統計解析品質管理

Page 5: QaA

自己紹介

ブログhttp://d.hatena.ne.jp/gepuro/

Twitter @gepuro

Page 6: QaA

花火打ち上げた♪

Page 7: QaA

富士山登った〜

Page 8: QaA

やってみたこと

Page 9: QaA

やってみたこと

Webから拾ってきた

テキストに対して、

質問を投げかけて、

何か応えてもらう。

Page 10: QaA

どうやって?

Page 11: QaA

一般的?には

データから互いに関連の強い実体(単語等)を探してきて、特定の関係がなりたつようにテキストデータから情報を抽出する。

Page 12: QaA

建造物 地名

電気通信大学西5号館

東京都調布市

東京タワー 東京都港区

名古屋城 愛知県名古屋市

愛・地球博記念公園

愛知県愛知郡

EXAMPLE

Page 13: QaA

一般的?には

抽出した情報のデータベースに対して、特定の質問の回答を見つけることができる。

Page 14: QaA

今回は・・・

Page 15: QaA

どうやって?

形態素解析と

係り受け解析を

使いました。それだけ・・・

Page 16: QaA

準備その1

Page 17: QaA

wikipediaから、イカ娘に関する記事

を入手した。

Page 18: QaA

CaboChaを利用して、

係り受け解析を行う。

Page 19: QaA

係り受け解析は、一行ずつ行いましょう。コーパスは「。」で改行されている必要が

ある。

Page 20: QaA

解析後のファイルをそのままでXML

として利用できない。ひと手間加える必要がある。

Page 21: QaA

CaboChaによってXMLで出力された

ファイルをパースするhttp://d.hatena.ne.jp/gepuro/20111014

Page 22: QaA

準備その2

Page 23: QaA

準備質問文を考える

Page 24: QaA

準備質問文に対しても、CaboChaを用いて係り受け解析を行う

Page 25: QaA

準備疑問詞を質問文から探しだして、これに係るチャンクを求める。

Page 26: QaA

応えを探せ

Page 27: QaA

応えを探せ

疑問詞かかるチャンクに含まれるトークンを

取り出し、イカ娘の記事に含まれる

同じチャンクに係るチャンクを求める。

Page 28: QaA

分かりにくいので、具体例を・・・

Page 29: QaA

質問文(何の)→(予定だったか?)

イカ娘の記事(短期集中連載という)→

(予定だったが)

Page 30: QaA

これだけでは、応えの候補が多くなってしまう場合があるので・・・

Page 31: QaA

質問文から、応えのありそうな文

を搾り出そう

Page 32: QaA

質問文「侵略イカ娘という作品は、

初めは何の予定だったか?」

質問に含まれる名詞がある文中に応えになりそうな文が

あるのでは?

Page 33: QaA

記事全体から、複数の文に絞り込む

Page 34: QaA

結果は?

当初は

短期集中連載という

Page 35: QaA

文を絞り込む事によって、取り除いた応え

●判明。●本来は●『週間少年チャンピオン』誌上及び、●公開する

Page 36: QaA

課題

●応えありきで質問文を考えてしまっている。●質問文によっては、応えが大量に出てしまう。例:「何のために」 (何の)→(ために)

Page 37: QaA

ご清聴、ありがとうございました