qaa
TRANSCRIPT
さくさくテキストマイニング勉強会 #5
あなたの質問に応えてみた。ー疑問に対する応答ー
自己紹介
自己紹介早川 敦士
電気通信大学システム工学科三年
興味
テキストマイニングデータマイニング統計解析品質管理
花火打ち上げた♪
富士山登った〜
やってみたこと
やってみたこと
Webから拾ってきた
テキストに対して、
質問を投げかけて、
何か応えてもらう。
どうやって?
一般的?には
データから互いに関連の強い実体(単語等)を探してきて、特定の関係がなりたつようにテキストデータから情報を抽出する。
建造物 地名
電気通信大学西5号館
東京都調布市
東京タワー 東京都港区
名古屋城 愛知県名古屋市
愛・地球博記念公園
愛知県愛知郡
EXAMPLE
一般的?には
抽出した情報のデータベースに対して、特定の質問の回答を見つけることができる。
今回は・・・
どうやって?
形態素解析と
係り受け解析を
使いました。それだけ・・・
準備その1
wikipediaから、イカ娘に関する記事
を入手した。
CaboChaを利用して、
係り受け解析を行う。
係り受け解析は、一行ずつ行いましょう。コーパスは「。」で改行されている必要が
ある。
解析後のファイルをそのままでXML
として利用できない。ひと手間加える必要がある。
CaboChaによってXMLで出力された
ファイルをパースするhttp://d.hatena.ne.jp/gepuro/20111014
準備その2
準備質問文を考える
準備質問文に対しても、CaboChaを用いて係り受け解析を行う
準備疑問詞を質問文から探しだして、これに係るチャンクを求める。
応えを探せ
応えを探せ
疑問詞かかるチャンクに含まれるトークンを
取り出し、イカ娘の記事に含まれる
同じチャンクに係るチャンクを求める。
分かりにくいので、具体例を・・・
質問文(何の)→(予定だったか?)
イカ娘の記事(短期集中連載という)→
(予定だったが)
これだけでは、応えの候補が多くなってしまう場合があるので・・・
質問文から、応えのありそうな文
を搾り出そう
質問文「侵略イカ娘という作品は、
初めは何の予定だったか?」
質問に含まれる名詞がある文中に応えになりそうな文が
あるのでは?
記事全体から、複数の文に絞り込む
結果は?
当初は
短期集中連載という
文を絞り込む事によって、取り除いた応え
●判明。●本来は●『週間少年チャンピオン』誌上及び、●公開する
課題
●応えありきで質問文を考えてしまっている。●質問文によっては、応えが大量に出てしまう。例:「何のために」 (何の)→(ために)
ご清聴、ありがとうございました