acl読み会2014@pfi "two knives cut better than one: chinese word segmentation with dual...

23
“Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition” Mengqiu Wang, Rob Voigt, Christopher D. Manning ACL 読読読 2014@PFI 読読読読 Preferred Infrastructure 読読 読 (@eiichiroi) 2014 読 7 読 12 読 ※ 読読読読読読読 読読読読読読読読読読読読読読読

Upload: preferred-infrastructure-preferred-networks

Post on 16-Dec-2014

2.544 views

Category:

Data & Analytics


1 download

DESCRIPTION

ACL2014読み会@PFIで発表した資料です。 "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"の解説です。

TRANSCRIPT

Page 1: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

“Two Knives Cut Better Than One:Chinese Word Segmentation with

Dual Decomposition”Mengqiu Wang, Rob Voigt, Christopher D. Manning

ACL 読み会 2014@PFI

株式会社 Preferred Infrastructure 岩田 英一郎 (@eiichiroi)

2014 年 7 月 12 日

※ スライド中の図・表は上記の論文から引用しました

Page 2: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

自己紹介

岩田 英一郎 (@eiichiroi)– 元さいたまの競技プログラマー ( 引退済み )

経歴– 2009 年 PFI でアルバイト開始

– 2010 年 埼玉大学 大学院 修了

– 2010 年 PFI 入社 仕事

– ソフトウェアエンジニア

検索エンジンや自然言語処理ツールの開発・保守 ( 主に繋ぎ込み担当 )

研究開発の成果を製品へ取り込む 自然言語処理初心者 ( 重要! )

– 単語分割の論文を読み始めて一週間…

2

Page 3: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

3

論文の要旨

( 中国語の ) 単語分割を双対分解で解くと良いよ

既存の手法– 文字ベースのモデル

– 単語ベースのモデル

– 文字ベース / 単語ベースの手法を組み合わせたモデル 提案手法

– 文字ベース / 単語ベースの手法を組み合わせて双対分解で解く 提案手法の利点

– 実装が簡単

– SIGHAN 2003, 2005 のデータセットの 6/7 で最高精度を達成

– 文字ベース / 単語ベースのモデルをそのまま使える ( 再学習不要 )

Page 4: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

4

単語分割とは

単語分割とは、単語の区切りを求める処理– 素敵な例文が欲しいです。

– 素敵_な_例文_が_欲しい_です_。

日本語や中国語、タイ語では単語の区切りに空白を入れない– 分かち書きしない言語では重要な処理

Page 5: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

5

単語分割の意義

後続の処理に大きな影響を与える重要なタスク– 品詞タグ付け

– 構文解析

– 機械翻訳

高い精度で切れないと困る– うまく切れていない例 →

新しい技術を創りだす

エンジニアカンパニー

最新の研究成果の性能は高い– F 値は 0.95 前後

※ 会社 HP のリニューアル直後の Facebook のサムネール

Page 6: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

6

既存手法の概要

1. 文字ベースのモデル– 文字単位で単語の区切りかどうかを判別する

– ◯ 未知語 × 広い文脈

2. 単語ベースのモデル– 辞書を元に単語の分割方法を探索する

– ◯ 広い文脈 × 未知語

3. 文字ベース / 単語ベースの組み合わせのモデル– ◯ 未知語、広い文脈 × 複雑、計算コストが高い

まだ課題は残っている

Page 7: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

7

既存手法 (1) - 文字ベースのモデル

系列ラベリングとして定式化 [Xue, 2003]– 各文字に対して、単語の境界かどうかのラベルを付ける

– CRF が state-of-the-art [Lafferty et al., 2001] [Tseng et al., 2005]

動的計画法で y を求められる ◯ 未知語に強い

– 周辺文字の n-gram

– 形態論的な接尾辞・接頭辞 × 広い文脈を捉えにくい

– マルコフ性の仮定

x: 文字列y: ラベル列 (0 or 1 の列 )θ: パラメータ ( 素性関数の重み ) のベクトルf: 素性関数のベクトルZ: 確率分布にするための係数 ( 定数 )

0 1 2 3 4 5 6 7 8 9

x 私 の 名 前 は 中 野 で す 。y 1 1 0 1 1 0 1 0 1 1

Page 8: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

8

既存手法 (2) - 単語ベースのモデル

スコア関数を使って単語分割の候補 ( リスト ) を探索– 辞書を使った最大マッチング [Chen and Liu, 1992]

– 線形モデル (average perceptron) [Collins, 2002] [Zhang and Clark,

2007]

探索空間 GEN(x) は広い– Beam Search で探索

各ステップで上位 k件以外は枝刈り

– 1 文字読んだら、単語分割の各候補に対して ([“私の” ], [“私” , “ の” ]) + “名”

最後の単語にくっ付ける [“私の名” ], [“私” , “ の名” ]

その文字から新しい単語を始める [“私の” , “名” ], [“私” , “ の” ,

“名” ]

– ※ 最後の単語が辞書に含まれるものだけ

– 一番長い範囲を扱う素性は単語 bigram( 動的計画法だと解の空間が広すぎる )

x: 文字列y: ラベル列 (0 or 1 の列 )F(y|x): ラベル列 y で分割したときのスコアGEN(x): 文字列 x のラベル列の候補α: パラメータベクトルΦ: 素性ベクトル

Page 9: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

9

既存手法 (3) - 文字ベース / 単語ベースの組み合わせのモデル モデルが複雑な手法 [Sun et al., 2009]

– 学習に時間がかかる 特徴の bagging(?) [Wang et al., 2006], [Sun, 2010]

– 最適な分割を求めるのに時間がかかる

双対分解によるモデルの組み合わせの様々な問題への適用– 係り受け解析

– 対訳系列タグ付け

– 単語のアライメント

単語分割に双対分解を適用してみよう

Page 10: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

10

提案手法 (1/4) - モデルを組み合わせる 基本的なアイデア

– 文字ベース / 単語ベースの両方のモデルが合意できる単語分割を見つける

目的関数

yc: 文字ベースの CRF で求めた単語分割 yw: 単語ベースのパーセプトロンで求めた単語分割

制約付きの凸最適化問題を解くには…?– ラグランジュの未定乗数法!

Page 11: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

11

提案手法 (2/4) - ラグランジュ緩和後の双対問題を考える 元の目的関数

ラグランジュ緩和– ui: 位置 i の乗数

– 位置 i での分割が異なっているときのペナルティ

ラグランジュ緩和した後の目的関数– 等式の制約を外せる

双対問題を考える– 主問題と双対問題の最適解は同じ

Page 12: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

12

提案手法 (3/4) - ラグランジュ緩和後の双対問題を考える 双対問題を考える

– 主問題と双対問題の最適解は同じ

主問題が最大化なら

双対問題は最小化 max を含んでいるので微分できない

– 劣勾配は計算できる

劣勾配を計算して u を更新する– 分割が一致するか、一定回数更新するまで

Page 13: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

13

提案手法 (4/4) - 双対分解で一番良い分割を求めるアルゴリズム

Page 14: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

14

実験

モデルの組み合わせとハイパーパラメーター– 文字ベースのモデル

Stanford CRF segmenter [Tseng et al., 2005]

L2正則化項の λ は 3

– 単語ベースのモデル

Perceptron segmenter [Zhang and Clark, 2007]

学習はビームサイズ 200 で 10 イテレーション

– 双対分解

最大イテレーションは T = 100

ステップ幅は 0.1

データセット– SIGHAN 2003, 2005

Page 15: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

15

結果 (1/3) – ベースのモデルとの性能比較

P: 精度 R: 再現率 F1: F 値 Roov: 未知語に対する再現率 C: 分割の一貫性 (※低い方が良い )

• 4種類のドメインに対してロバスト• 未知語に対するブレが少ない

• -> ROOV

• 分割の一貫性が高い• 後段の精度向上に繋がる• -> C

Page 16: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

16

結果 (2/3) – 他の手法との性能比較

6/7 のデータセットで– F 値が最高精度を達成

Page 17: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

17

結果 (3/3) – モデル間で分割が一致するまでの時間 100 イテレーションで

– 99.1% のデータで分割が一致

最初のイテレーションで– 77.4% のデータで分割が一致

Page 18: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

18

エラー分析 (1/2)

ベースモデル両方が異なる分割方法で間違えても正解できるケース

– CRF: 分割がたりない

– PCRT: 分割しすぎ

同じ文字からなる名前の分割– 日本語で言うと「仲里依紗」?

仲 / 里依紗 ( なか / りいさ )※ 仲里依紗の画像は削除されました

Page 19: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

19

エラー分析 (2/2)

ベースモデル両方が同じ分割方法で間違えても正解できるケース– CRF: 分割がたりない

– PCRT: 分割がたりない

“一点点”– “A little bit”

なぜか?– 分割方法を決めるときに情報を共有できるから

他にも、双対分解で正解できる 400以上の例があった ただし、手法上、ベースモデルの間違いは再現しやすい

– 上記の例は大丈夫だけど、ダメなケースもあるのではないか?

– 詳細は書かれていなかった

Page 20: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

20

まとめ ( 論文の要旨の再掲 )

( 中国語の ) 単語分割を双対分解で解くと良いよ

既存の手法– 文字ベースのモデル

– 単語ベースのモデル

– 文字ベース / 単語ベースの手法を組み合わせたモデル 提案手法

– 文字ベース / 単語ベースの手法を組み合わせて双対分解で解く 提案手法の利点

– 実装が簡単

– SIGHAN 2003, 2005 のデータセットの 6/7 で最高精度を達成

– 文字ベース / 単語ベースのモデルをそのまま使える ( 再学習不要 )

Page 21: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

21

参考文献 (1/2) – 論文

Mangqiu Wang, Rob Voigt, Christopher D. Manning. “Two

Knives Cut Better Than One: Chinese Word Segmentation

with Dual Decomposition”. ACL 2014– 本論文

References の論文で特に参考にしたもの– Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky,

Christopher Manning. “A Conditional Random Field Segmenter for

Sighan Bakeoff 2005”. 4-th SIGHAN workshop on Chinese language

Processing

文字ベースの中国語の単語分割器。ベースに使用したモデル

– Yue Zhang, Stephen Clark. “Chinese Segmentation with a Word-Based

Perceptron Algorithm”. ACL 2007

単語ベースの中国語の単語分割器。ベースに使用したモデル

Page 22: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

22

参考文献 (2/2) – ブログ

双対分解による構造学習– http://research.preferred.jp/2010/11/dual-decomposition/

– 弊社の岡野原による双対分解の解説

– とても詳しく書かれており、参考にしました

劣微分を用いた最適化手法について (1)〜 (4) 、 (完 )– http://research.preferred.jp/2010/11/subgradient-optimization-1/

– 弊社の徳永による劣微分の解説

– 論文では劣微分の値を使って最適化しているので、劣微分について理解するた

めに参考にしました

Page 23: ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition"

Copyright © 2006-2014

Preferred Infrastructure All Right Reserved.