横浜国立大学大学院環境情報学府 情報メディア環境学専攻...

40
横浜国立大学 大学院 環境情報学府 情報メディア環境学専攻(前期) 言語情報処理原論(11) 辰則 [email protected] 1

Upload: others

Post on 05-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

横浜国立大学 大学院 環境情報学府情報メディア環境学専攻(前期)

言語情報処理原論(11)

森 辰則

[email protected]

1

Page 2: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

2

Page 3: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

3

Page 4: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

4

Page 5: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

概要

• 新聞記事やWeb文書等テキスト情報は,重要な情報編纂の対象の一つである.

• 複数のテキストを編纂し,利用者が望む情報を創出するために,情報検索,情報抽出,自動要約等,テキストを対象とした情報アクセス技術が研究されている.

5

Page 6: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

目次

• 今回– 情報編纂とテキスト処理– 想定される処理– 情報検索(文書検索)

• 次回以降– Webに特化した情報検索– 情報抽出– 自動(文書)要約– 文書分類

※いずれも入門的な事項を中心に紹介

6

Page 7: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報編纂とテキスト処理

• 情報爆発時代の要の技術の一つ

– 多量のテキストから、

– 利用者が注目するであろう情報を抽出し、

– コンパクトに纏め上げて、提示

7

Page 8: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

WWWコンテンツ統計調査報告書 [総務省 07]

8

Page 9: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

想定される処理

対象となる文書集合

関連のある文書集合

何らかの視点で抽出された文書断片

纏め上げられた文書

情報検索

情報抽出

自動要約等の纏め上げ

以降で、各技術について概観する

情報抽出

可視化

9

Page 10: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

文書検索(Information Retrieval)• 処理のスキーム

– 「情報要求」⇒「文書群」

• 情報要求(Information need)– 利用者がどのような要求をだせるか– 以下の各点により決まる

• 取り出す文書をどのように定義するか• 索引に含める情報の選別• クエリ言語の仕様

• 文書集合– 手元にある文書– 他組織が提供する文書 (e.g. WWW)

• 教科書– C. Manning et al. Introduction to Information Retrieval. Cambridge

University Press (2008)• Web上で本文、関連スライド等がよめる• http://nlp.stanford.edu/IR-book/information-retrieval-book.html

10

Page 11: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

文書検索の仕組み

索引情報(Index)

インデクサ(Indexer)

クエリパーザ(Query parser)

検索エンジン(Search engine)

検索対象文書集合

検索された文書集合

クローラ(Crawler)

クエリ(Query)

ネットワーク等

11

Page 12: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

12

Page 13: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

13

Page 14: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索システム(1)

• いくつかのサブプログラム・ライブラリの複合体– (クローラ(Crawler))– インデクサ (Indexer)

• 索引を作る。転置ファイル形式のものが多い。

– クエリパーザ (Query parser)• 利用者が入力する検索要求を解析し、所定の検索式に変換する

– 検索エンジン (Search engine)• 索引と検索式に基づき文書を検索する

14

Page 15: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索システム(2)• ベクトル空間法

– 文書とクエリを同一空間上のベクトルとして表現

• 特徴量をある次元(の値)とするベクトル

– ベクトル間の類似度により、クエリと文書の間の関連度を定義し、順位付け

– 典型的な場合• 各単語を各次元に対応付け、値をその語の重み(重要度)とする

• 類似度は、ベクトルのなす角のcosine値

QDQDQDsim QD

== )cos(),( ,θ

58.0),2(

94.0),1(

99.0),3(

=

=

=

QDsim

QDsim

QDsim

15

Page 16: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索システム(3)

• tf-idf法– 語の重みを計算する一手法

– 考慮される値• tf(t,D) : 語tの文書D内での頻度 (Term frequency)• df(t) : 文書集合における、語tの文書頻度(tが現れる文書数。Document frequency)

• idf : df(t)の逆数 (Inverse document frequency)– 文書Dにおける語tの重要度w(t,D)

• ベクトル空間法の各次元(=語)の値。Nは全文書数。

.))(

log(*))),(log(1(),(

))(

log(*),(),(

etctdf

NDttfDtw

tdfNDttfDtw

+=

=

方式2

方式1

16

Page 17: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索システム(4)

• 転置ファイル(Inverted file)による索引

– Index file + Posting file

17

Page 18: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

18

ベクトルの各次元 (宇宙,ロケット,自動車,鉄道)

頻度のベクトル TFIDF値のベクトル

文書1 (0,1,1,1) (?,?,?,?)文書2 (1,2,0,0) (?,?,?,?)文書3 (0,0,1,1) (?,?,?,?)文書4 (1,1,0,0) (?,?,?,?)

方法1で

Page 19: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

19

Page 20: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

20

Page 21: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

21

Page 22: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

22

Page 23: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

23

Page 24: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

24

Page 25: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索システムの例

• 無償で利用できる代表的な情報検索システム (手元にインデクスを置くもの)– Lucene– Indri

• 無償で利用できるWWW用検索エンジンAPI (Application Program Interface)– Yahoo! デベロッパーネットワーク

• http://developer.yahoo.co.jp/• REST形式のAPI

– REST(Representational State Transfer)– HTTPによるやり取り。アプリケーション側からみると、HTTPリクエストで要求し、XML形式の結

果をもらう。

– Google AJAX Search API• http://code.google.com/intl/ja/apis/ajaxsearch/• JavaScriptにより検索機能が利用可能• 独自のシステムを作りたいといったときの用途にはあまり向かない。

– 検索エンジン基盤TSUBAKIのAPI• http://tsubaki.ixnlp.nii.ac.jp/• 自然言語文を検索質問として受け付けることができる。

• 「標準フォーマット」とよばれる、形態素解析、係り受け解析済みのテキストを受け取れる。

• REST形式のAPI25

Page 26: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

Lucene

• るしーん

• http://lucene.apache.org/• Apacheによる検索エンジン開発プロジェクトの成果

• ベクトル空間法に基づく検索手法

– Space Optimizations for Total Ranking [Cutting 97]• http://lucene.sf.net/papers/riao97.ps

開発者Douglas Cuttingの奥さんのミドルネームで、奥さんの母方のおばあちゃんのファーストネーム

http://wiki.apache.org/lucene-java/LuceneFAQ

26

Page 27: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

Indri

• いんどり

• http://www.lemurproject.org/indri/• マサチューセッツ大とCMUが開発

• Lemur (れむーる)プロジェクトの検索エンジン

• ベイジアン推論ネットワークと言語モデルに基づく検索手法

Indri lemurインドリキツネザル

27

Page 28: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

検索エンジン基盤TSUBAKI• つばき• http://tsubaki.ixnlp.nii.ac.

jp/• 京都大学が科研「情報爆

発」プロジェクトの一環として開発

• 自然言語文を検索質問として受け付けることができる。

• 通常の索引情報に加えて以下の言語的な情報が利用される。– 係り受け関係– 同義関係

http://tsubaki.ixnlp.nii.ac.jp/tutorial.html より引用

28

Page 29: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

Application Program Interfaceの例検索エンジン基盤TSUBAKIの場合

• TSUBAKI API: 典型的なREST形式のAPI• リクエストURLでHTTPを用いて検索要求を行う。

– http://tsubaki.ixnlp.nii.ac.jp/api.cgi?query=検索クエリ&パラメタ=値&パラメタ=値...

– 検索クエリ: utf-8で記述された検索クエリをURLエンコードしたもの

– パラメタと値: 次ページの表

• 結果はHTTPレスポンスとして、XML形式で得られる。– 例は、次々ページ

29

Page 30: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

TSUBAKI APIのパラメタの例パラメタ 値 説明

start integer 取得したい検索結果の先頭位置.

results integer 取得したい検索結果の数.デフォルトは10.

logical_operator AND/OR 検索時の論理条件.デフォルトはAND.

only_hitcount 0/1 ヒット件数だけを得たい場合は1,検索結果を得たい場合は0.デフォルトは0.

force_dpnd 0/1 クエリ中の係り受け関係を全て含む文書を得たい場合は1,そうでない場合は0.デフォルトは0.

snippets 0/1 スニペッツが必要な場合は1,スニペッツが不要な場合は0.デフォルトは0.

near integerクエリ中の単語と単語が n 語以内に出現するという条件のもと検索を実行する(近接検索).クエリ中の単語の出現順序は考慮される.

format html/xmlオリジナルのウェブ文書,または標準フォーマット形式のウェブ文書のどちらを取得するかを指定.idを指定した際は必須. 30

Page 31: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

TSUBAKI APIの出力例<ResultSet time="2007-02-21 13:43:58" query="京都の観光名所" totalResultsAvailable="19586" totalResults

<Result Id="24411919" Score="68.67424"><Title>関西探索</Title><Url>http://www.kansaitansaku.com/</Url><Snippet>このホームページは、京都を中心とした観光名所におとずれ、その感想を述べていくホームページです

</Snippet><Cache>

<Url>http://tsubaki.ixnlp.nii.ac.jp/index.cgi?URL=INDEX_NTCIR2/24/h2441/24411919.html&KEYS=%B5%FE%

</Url><Size>619</Size>

</Cache></Result><Result Id="06832429" Score="64.16455">

<Title>京都観光タクシー 京都の名園1</Title>

...中略...

</Result></ResultSet> 31

Page 32: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

TSUBAKI APIでキャッシュを利用する

• リクエストURL– http://tsubaki.ixnlp.nii.ac.jp/api.cgi?format=フォーマット名&id=文書ID

• パラメタ– format

• html : クロールされた元のHTML文書の形式• xml : 標準フォーマット(形態素解析、係り受け解析済み)

– id• TSUBAKI APIが返す検索結果のうちの、Result要素のID属性の値

• 結果はHTTPレスポンスとして、HTML形式もしくはXML形式で得られる。

32

Page 33: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索と情報編纂

• キーワード等で検索するだけで文書を絞り込むことができる場合– 検索システムが提供する索引作成手法で十分

• 特別な情報で文書を絞りこみたい場合– 情報編纂のために検索を使用する場合– 何らかの情報抽出結果で検索したい

• 例: 日時、場所、特定の統計量、etc.– フィールドの利用

• 文書=複数のフィールドの複合体

– 文書の内容を保存するフィールド以外に、抽出結果を保存するフィールドを作成

– 検索時には、クエリにフィールド名の指定を追加する。– ファセットサーチ(後述)の実現

フィールド=フィールド名+文字列

33

Page 34: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索の主要な技術

• 関連性フィードバック(適合性フィードバック)(Relevance feedback)– 疑似関連性フィードバック(Pseudo relevance

feedback)• 質問拡張 (Query expansion)

情報編纂と関連して

• ファセットサーチ (Faceted search)– 探索的検索(Exploratory search)の一種

• 閲覧(Browse)と検索( Search)

34

Page 35: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

関連性フィードバック

• Rocchioの手法

• 適合文書、非適合文書がいくつか既知である必要

• 疑似関連性フィードバック

– 検索結果の上位数件を適合文書だと仮定してフィードバック手法を適用

元のクエリベクトル

既知の適合

文書集合

既知の非適合文書集合

更新されたクエリベクトル

Q0

×

×

Qm

適合文書

非適合文書

∑∑∈∈

−+=ND

nRD

rmnr

DN

DR

QQ 110 γβα

35

Page 36: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

質問拡張

• 比較– 関連性フィードバック: 「文書」に関する追加情報を与え、クエリを改訂– 質問拡張: 「語」や「句」に関する追加情報を与え、クエリを改訂

• 例– Q=本⇒ Q=本 or ほん or 書籍 or ブック– Web検索エンジンの「示唆」機能

• Googleサジェスト

• 方法– 人手作成のシソーラス– 大域的解析(静的、文書集合全体)

• 自動抽出したシソーラス: 統計的共起情報• クエリログマイニング

– 局所的解析(動的)• 検索結果文書集合の解析

36

Page 37: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

ファセットサーチ

• ファセット: 「側面」– 文書が複数の「側面」を持つと考え、それぞれの側面で絞り込みを行う。

– それぞれの側面は、独立した体系をもつ。

• 情報検索に情報抽出結果を融合する一つの手法(森の私見)– 抽出された情報に基づく探索的検索を実現

• Flamenco Search: ファセットサーチの例– UC Berkelyのプロジェクト

– http://flamenco.berkeley.edu/

37

Page 38: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

Flamenco searchのデモ「ノーベル賞受賞者」の例

38

Page 39: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

情報検索過程の評価

• 順位が無い検索結果の評価– 適合率(Precision, P)

• 検索された適合文書数/検索文書数

– 再現率(Recall, R)• 検索された適合文書数/全適合文書数

– F値(F-measure): β=1がよく用いられる

• 順位のある検索結果の評価– 平均適合率(Mean average precision: MAP)

• 11点平均適合率– 再現率が0.0~1.0の間で0.1刻みに適合率を求め平均– 補間適合率(interpolated precision)を用いる

– MRR (Mean reciprocal rank)• 最上位の適合文書の順位の逆数を得点とし、その得点の平均値

RPPR

RP

F+

+=

−+= 2

2 )1(1)1(1

1ββ

αα

適合文書非適合

文書

検索結果

P=3/4, R=3/5

39

Page 40: 横浜国立大学大学院環境情報学府 情報メディア環境学専攻 前期mori/MExperiment/2011/FNLP-2010-11-20100706-1.pdf横浜国立大学大学院環境情報学府

再現率-適合率曲線と補間適合率

0.0

0.2

0.4

0.6

0.8

1.0

0.0 0.2 0.4 0.6 0.8 1.0Recall

Pre

cisi

on

http://nlp.stanford.edu/IR-book/newslides.html より引用

補間適合率観測された適合率 順位 文書 適合?

1 D3 ○2 D10 ×3 D2 ○4 D5 ○5 D6 ×6 D7 ×:総適合文書数 5

3位まで考慮するとR=2/5, P=2/3

4位まで考慮するとR=3/5, P=3/4

観測された適合率

補間適合率

40