日本語書き言葉を対象とした 参照表現の自動省略 -...

34
日日日日日日日日日日日日日 日日日日日日日日日 - 日日日日日日日日日日日日日日日 - 日日日 日日日日 (2012/5/11)

Upload: bian

Post on 24-Feb-2016

54 views

Category:

Documents


0 download

DESCRIPTION

日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -. 飯田龍 ,徳永健伸 (2012 /5/11 ). 研究対象 : 参照表現の自動生成. 課題:照応関係にある照応詞を文脈に応じて適切な表現で生成する 応用 : 機械翻訳・自動要約の後処理,教育・推敲支援の部分問題. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

日本語書き言葉を対象とした参照表現の自動省略- 人間と機械処理の省略傾向の比較 -

飯田龍,徳永健伸 (2012/5/11)

Page 2: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

2

研究対象 : 参照表現の自動生成 課題:照応関係にある照応詞を文脈に応じて適切な表現で生成する

応用 : 機械翻訳・自動要約の後処理,教育・推敲支援の部分問題

大蔵省の篠沢恭助事務次官が二十九日、突如辞任した。これを発表した武村正義蔵相によれば、最近の大蔵省をめぐる問題について、(φガ ) この際省全体のけじめをつける、というのが篠沢次官の辞任理由という。任期半年余りで「官僚の中の最高のポスト」といわれる大蔵事務次官が辞任すること自体、 (φガ ) 異例といえよう。しかも武村蔵相の辞任発表記者会見に、辞任した本人である篠沢氏自身 1が姿を見せなかった。これもおかしい。篠沢氏が (φガ ) 堂々と自らの口で辞任の理由を述べ、国民の理解を (φニ ) 求めるべきであった。

Page 3: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

3

タスク すべての参照表現の可能性を一度に考えるのは難しいので参照表現を「省略する」「省略しない」の 2 値分類を考える

述語のガ格,ヲ格,ニ格のみを対象に解く

Page 4: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

4

省略生成の具体例 あ

高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を < 知事ガ > 撤廃する方針を明らかにした。< 高知県ノ > 現在の一般事務職の採用は日本国籍が要件。国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を <国ガ > 禁じる規定はない。< 知事ガ > 「地方行政の運営上、国籍条項の必要性は < 知事ガ >感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として < 知事ガ > 排斥する理由はない。戦後五十年を契機に< 知事ガ >< 方針ヲ > 実現させたい」と話している。

高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を (φ ガ )撤廃する方針を明らかにした。高知県の現在の一般事務職の採用は日本国籍が要件。国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を (φガ ) 禁じる規定はない。橋本知事は「地方行政の運営上、国籍条項の必要性は (φ ガ ) 感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として (φ ガ ) 排斥する理由はない。戦後五十年を契機に (φ ガ )(φ ヲ )実現させたい」と話している。

Page 5: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

5

関連研究 英語の場合は代名詞化の問題に対応 規則ベースの手法 (Dale 1990, Kibble ら 2000,

Fujiwara ら 2001, Krahmer ら 2002, Roh ら 2004) センタリング理論 (Grosz ら 1995) の談話要素の遷移の良さを利用 最もつながりが良いとされる Continue 遷移の場合に省略 or 代名詞化 ; それ以外の場合は明示的に表記する センタリングの適用範囲は隣接する談話単位間 ( 文間 )に限定され,最も顕現性の高い談話要素のみしか扱えない

Page 6: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

6

関連研究 (Cont’d) 吉見ら (2001): 機械翻訳システムが出力する不適切な代名詞や指示連体詞を「そのまま残す」「省略する」「置き換える」の 3 値分類 代名詞の表記や従属節の接続形などを素性とし,決定木学習で分類

機械翻訳システムの出力結果にアノテーションを行い,評価用データを作成 代名詞を省略すべきか否かの 2 値分類 : 精度

79.9% 問題が機械翻訳システムの出力に依存

Page 7: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

7

研究のねらい 背景 : 照応・共参照関係がアノテーションされたコーパスの整備

京都大学テキストコーパス (河原ら 2002) , NAISTテキストコーパス ( 飯田ら 2010) , etc.翻訳結果などに依存せず,文章中の照応・共参 照の現象を網羅的に分析できる 既存研究で利用されている言語的な手がかりを利用して省略生成の問題を解き,どの程度正しく分類できるのか,何が問題となるのかを明らかにする

Page 8: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

8

評価用データ NAISTテキストコーパス 1.4β(修正版 ) ( 飯田ら , 2009)

タグ付与対象 : ゼロ照応ガ / ヲ / ニ格 + 名詞句共参照 ゼロ照応はガ / ヲ / ニ格にしか付与されていないのに対し,名詞句共参照は制限がない

そのまま使うと名詞句の場合のみさまざまな格で出現することを許すことになる 名詞句側も解析対象を述語のガ / ヲ / ニ格に限定

他の格で出現している場合は解析の対象外とする 格の交替はそのままでアノテーション

述語の出現形にアノテーションされている e.g. 「設計する」ではなく「設計される」のガ / ヲ / ニ格

Page 9: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

9

が解析対象 あ

高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を < 知事ガ > 撤廃する方針を明らかにした。< 高知県ノ > 現在の一般事務職の採用は日本国籍が要件。国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を <国ガ > 禁じる規定はない。< 知事ガ > 「地方行政の運営上、国籍条項の必要性は < 知事ガ >感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として < 知事ガ > 排斥する理由はない。戦後五十年を契機に< 知事ガ >< 方針ヲ > 実現させたい」と話している。

高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を (φ ガ )撤廃する方針を明らかにした。高知県の現在の一般事務職の採用は日本国籍が要件。国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を (φガ ) 禁じる規定はない。橋本知事は「地方行政の運営上、国籍条項の必要性は (φ ガ ) 感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として (φ ガ ) 排斥する理由はない。戦後五十年を契機に (φ ガ )(φ ヲ )実現させたい」と話している。

Page 10: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

10

2種類のモデル1. 人間の内省に基づいた規則に基づいて省略生成を行うモデル2. 1 の規則に加え,他の談話的な特徴も加えた

2 値分類モデル

Page 11: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

11

Salience reference list (SRL; Nariyama, 2002) センタリング理論の前向き中心の拡張

は が に を その他

規則ベースの解析モデル

高知県の橋本大二郎知事は三十一日、都道府県で初めて一般事務職の採用資格から国籍条項を (φ ガ )撤廃する方針を明らかにした。高知県の現在の一般事務職の採用は日本国籍が要件。国は「公権力の行使や公の意思形成に携わる公務員は日本国籍が必要」との姿勢だが、地方公務員法では日本国籍がない人の任用を (φガ ) 禁じる規定はない。橋本知事は「地方行政の運営上、国籍条項の必要性は (φ ガ ) 感じない。少なくとも日本に生まれ育った在日韓国・朝鮮人を地方公務員として (φ ガ ) 排斥する理由はない。戦後五十年を契機に (φ ガ )(φ ヲ )実現させたい」と話している。

は が に を その他橋本大二郎知事

Null Null 国籍条項

採用資格

SRL

は が に を その他規定 日本

国籍意思形成

任用 人生成の規則 :SRL で候補が最上位にある場合に「省略する」それ以外の場合は「省略しない」

Page 12: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

12

2 値分類モデル: 訓練事例の作成 訓橋本大二郎知事

φ

φ

橋本知事φ

φ

「省略しない」「省略する」

「省略する」「省略する」「省略する」

: 最初の表現は必ず名詞句分類対象

Page 13: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

13

素性 (1/2) 対象となる談話要素 Xi が

最初の文に出現 / 最後の文に出現 最初の段落に出現

X1 の主辞の文字列 固有名の場合は < 人名 ><組織名 > などに

X1 の固有名ラベル X1 の格助詞 Xi が引用の中に出現 Xi と Xi-1 が異なる段落に出現 Xi が共参照連鎖の最後の要素 (Xn) である

X1

Xn

Xi-1

Xi

Page 14: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

14

素性 (2/2) X1〜 Xi-1 のいずれかが SRL の ( 上位 )N番目に出現している Xi の係り先の述語の文字列 Xi の係り先の述語が受動態を伴う Xi から文末までの係り受けのパス中の機能語の品詞 / 文字列 Xi の深層格 ( ガ / ヲ / ニ格 )

X1

Xn

Xi-1

Xi

Page 15: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

15

評価実験 評価データ NAISTテキストコーパス 1.4β

実験設定 文章中の共参照連鎖は正しく与えられているものとする SRL の作成には前方文脈で参照表現がどのように生成されているかという情報が必要

対象とする問題より前の文脈では正しく解析できていると仮定 2 値分類の学習 : 最大エントロピーモデル 「省略しない」を当てる問題として再現率,精度, F 値を求める

記事数 省略しない 省略する訓練事例 1,753 3,687 (16.8%) 18,278 (83.2%)

評価事例 696 1,645 (17.2%) 7,918 (82.8%)

Page 16: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

16

評価結果再現率 精度 F値

SRL に基づく規則ベースの手法

0.953 0.172 0.291

2 値分類モデル 0.464 0.678 0.550 規則ベースの手法より 2 値分類モデルの結果が良い

誤りを見てみると新聞記事のスタイルを反映しているため,必ずしも顕現性の高い表現が省略されるとは限らない 記事を短くするために過剰に省略する,など

そもそも人間の判断がどのくらい一致するのか ?

Page 17: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

17

実験 2: 人による省略判定 新聞記事にアノテーションされた関係を参考に人間にどう生成すべきかを判断してもらう問題

述語のガ / ヲ / ニ格のみ 人手のラベル (3種類 )

主題化する (t) / 主題化しない (o) / 省略する (x) コーパスには談話要素が省略された場合の出現位置はアノテーションされていないため,人手で出現位置を復元 作業者 : 自然言語処理研究者 3 人

Page 18: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

18

問題例

Page 19: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

19

作業結果 それぞれのタグをどのくらい付けたか

t ( は / に

は )

o( が / を / に )

x( 省略 )

保留

作業者 A 145 234 1048 15

作業者 B 219 210 1011 2

作業者 C 195 140 1107 0

Page 20: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

20

作業の一致率 新聞との一致率も見てみる

一致率 (strict): o と t を区別して計算 一致率 (lenient): o と t を区別せず計算

Page 21: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

21

50 記事を対象に 2 値分類モデルを適用 人の判断 / 新聞に付いたタグの両方を比較

R P F

50 記事全体 0.460 0.641 0.536

3 者一致のみ ( 人の判断 ) 0.482 0.684 0.565

3 者一致のみ (新聞タグ ) 0.507 0.690 0.585

3者一致以外 (新聞タグ )

0.337 0.491 0.400

Page 22: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

22

人手分析 3 人の作業結果が一致した箇所を人手で調査

1. t の場合 ( 明示的に表記され主題化される ) は / には

2. o の場合 ( 明示的に表記され主題化されない ) が / を / に

3. x の場合 ( 省略される )

以降でそれぞれの特徴を調査・分類 1 つの事例が複数の分類項目として数えられることを許す

Page 23: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

23

1. t の場合

Page 24: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

24

t が一致した具体例 顕現性が高いが言い直す

主題は最初から最後までクリントン米大統領 クリントン米大統領は十三日、クリーブランドで開かれた中欧通商投資会議でロシアのチェチェン紛争について演説、「武力衝突を即時終結し、和平に向かうべきだ」としながらも「チェチェンはロシア連邦の一部であり、連邦の領土保全を支持する」とエリツィン政権支持の姿勢を改めて明らかにした。 ... 「ロシアを含む旧ソ連圏の民主化は一朝にして実現できない。紛争のように悲劇や波乱に満ちているのは避けられない」と指摘、 ... 長期的視野に立って支援する必要性を訴えた。同大統領は「我々はロシアの安定と民主化の成功に大きな期待をかけており、忍耐と責任ある民主化支持政策から米国が逸脱することはあり得ない」と、エリツィン政権の民主化路線を今後も一貫して支持する姿勢を明示した。 ... (ID:4, 1_15)

Page 25: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

25

t が一致した具体例 言い直さなければつながりが悪い ( 話題の転換などで )

「議会の反対も ... 」の文が挿入されている ベルルスコーニ首相辞任で表面化したイタリアの政治危機解決のため、スカルファロ大統領 4 は十三日午後、大統領府にディーニ国庫相を呼び、暫定政権の首相就任を要請し、これを受諾した。 ... ディーニ国庫相はイタリア中央銀行の副総裁から、ベルルスコーニ政権の国庫相になった無党派のテクノクラート。議会の反対も少なく、来週には戦後イタリア五十四代目のディーニ政権が発足する見通しだ。ディーニ氏はフィレンツェ出身で、国際通貨基金イタリア代表の後、中央銀行副総裁など重要な経済・金融ポストを歴任。 ...

Page 26: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

26

2. o の場合

Page 27: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

27

o が一致した具体例主題とそれ以外の対比 経営が破たんした東京協和、安全の両信用組合を救済する新銀行が十三日、発足した。行名は「東京共同銀行」、資本金は二百十五億円で、頭取には両信組の理事長を兼ねる野口寿康氏が内定した。同銀行が実際に業務を開始するのは、営業譲渡したあとの三月二十日の見通しで、日銀・大蔵省が「不良債権処理の集大成」と意気込む。 (ID:2, 4-2) 現職の党首は脱落し、羽田孜副党首と小沢一郎幹事長による事実上の一騎打ちに——。新進党の党首公選から目が離せなくなってきた。今回の党首選挙は、新進党が昨年十二月十日に結成されて以来、初めての公選である。1文 1主題の特徴を捉えることで生成の品質が向上する見込 がある

Page 28: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

28

3. x の場合 : ガ格 数が多いのでシステムが間違ったものだけ分析

Page 29: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

29

x: ガ格が一致した具体例 大域的な主題は省略されやすい

大域的な主題 : 党首選挙 現職の党首は脱落し、羽田孜副党首と小沢一郎幹事長による事実上の一騎打ちに——。新進党の党首公選から目が離せなくなってきた。今回の党首選挙は、新進党が昨年十二月十日に結成されて以来、初めての公選である。千円さえ払えばだれでも投票できるという公開方式で行われる。不正投票をどう防ぐかなどの問題点を抱えていることもあり、公選に対する国民の関心もいまひとつだった。しかし、羽田、小沢両氏の激突になれば、関心も盛り上がるのではないか。当初は、 (党首選挙ガ )再選を狙う海部俊樹氏と一年前、国会議員による党首選で敗北した羽田氏の二人の対決になるのではと見られていた。

Page 30: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

31

3. x の場合 : ヲ格 / ニ格 数が多いのでシステムが間違ったものだけ分析

...そして、唐突に、擦り切れた革ジャンのポケットからリボンで結ばれた小さな包みを取り出し、汚れた皿の積み上げられたカウンターに (小さな包みヲ )置きます。ヲ格・ニ格の省略こそ構文的なパタンを捉える必要あり

Page 31: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

32

人手分析のまとめ t (は /には )の生成

顕現性が高いにもかかわらず,「は」で生成談話の移り変わりなど文章の構成を捉えた生成を考える 省略され続けた要素の言い直しの箇所や局所的な言い 回し (経歴などの過去の情報の述べるなど ) を捉える問題 o (が /を /に )の生成

同一文中に主題は基本的に 1 つだけ存在1 文 1主題の制約を満たすような最適化問題を考える ( 「主題化する」「主題化しない」の 2 値分類問題も )

x (省略 )の生成 ガ格 : 大域的な主題を捉える機構を考える ヲ格 / ニ格 : 構文的な出現パタンを捉える

Page 32: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

33

まとめと今後の課題 まとめ

文章中の談話要素を「省略する」「省略しない」の 2 値分類問題として解くゼロ照応・共参照関係がアノテーションされた新聞記事を対象に評価を行い, F 値で 0.550

人手作業結果との差分とその分析結果を報告 今後の課題

前述の個別の問題 人手判断が一致しなかった事例を調査 応用に利用する際,共参照の連鎖が必ずしも正しく解析できるとは限らないので,誤りを含む場合にも頑健に生成できるような仕組みを考える

Page 33: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

34

Page 34: 日本語書き言葉を対象とした 参照表現の自動省略 - 人間と機械処理の省略傾向の比較 -

推敲の具体例1: 本稿では,文の構造情報を利用した照応解析 2 の手法を提案する.2: 照応関係 1 とは文章中の表現がある表現を指す関係をいう.3: 本研究では照応解析 2 の問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて考える.4:(φ1 の )指し元側の表現を照応詞, (φ1 の )指し先側の表現を先行詞という.5: 照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほとんど着目されていなかった.6: 機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.2: 照応関係とは文章中の表現がある表現を指す関係をいう.4: このうち,指し元側の表現を照応詞,指し先側の表現を先行詞という.6: これまでの機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.5: 照応解析 2 の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほとんど着目されていなかった.3:そこで,本研究 3 では (φ2 の ) 問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて考え,1:前者の問題については, (φ3 では ) 文の構造情報を利用した照応解析 2 の手法を提案する

修正前

修正後