Xiaohua Liu, Ming Zhou, Furu Wei, Zhongyang Fu, Xiangyang Zhou
ACL2012
Joint Inference of Named Entity Recognition and Normalization for Tweets
id:skozawa
論文輪読会
2014/06/18
Named Entity Recognition (NER)
● 固有表現抽出 (NER)○ テキストから固有表現(人名、地名など)を抽出
I wanna see Anneke Gronloh.→ PERSON
I live in New York → LOCATION
Named Entity Normalization (NEN)
● 固有表現の正規化 (NEN)○ 固有表現を曖昧性のない標準的な表現に変換○ Anneke Gronlohは他に Mw.,Gronloh, Anneke Kronloh,
Mevrouw G. などとも表される
I wanna see Anneke Gronloh.I wanna see Anneke Kronloh.
→ Anneke Grouloh● NENの性能
○ User generated Contentに対しては性能が低下
○ Wikipediaに基づくNENシステム
■ ニュース:94%■ User Generated Content: 77%
Purpose
● ツイートに対してNERとNENを適用
● 提案点○ 複数のツイートに対してNERとNENを同時に解く
■ 教師あり学習■ ツイートの冗長性を利用
○ ベースラインより高い性能を発揮
Problem of Cascaded Approach
● NERとNENは別タスク
● NER → NENの順序で適用
○ NERのoutputがNENのinput
● 問題点
○ NERのエラーがNENに伝播
■ NENのエラーの多くはNERのエラー
○ NENからNERへのフィードバックがない
Joint Inference
● 複数のツイートに対してNERとNENを同時に解く
● NERの性能向上はNENの性能を向上させる
● NENからのフィードバック
·· she knew Burger King when he was a Prince! ···· I’m craving all sorts of food: mcdonalds, burger king, pizza, chinese ··.
○ 2つのツイートの内容は異なるので、
NENではBurger Kingとburger kingをマッピングしない
○ NERが異なるラベルタイプを付与することを補助
Redundancy in Tweets
● 複数のツイートを同時に考慮することで
ツイートの冗長性を利用できる
·· Bobby Shaw you don’t invite the wind ···· I own yah ! Loool bobby shaw ··
● 1文目のBobby ShawはPERSON○ 大文字 + you
● 2文目のbobby shawがPERSONだと判定する補助
Task Definition
対象:ピリオドを含むかあるクエリに関連したツイート集合
1. 各ツイートに対して固有表現とそのタイプを抽出 (NER)○ PERSON, ORGANIZATION, PRODUCT, LOCATION
2. 各固有表現を代表的な表現にする (NEN)○ 固有表現のペアが与えられ、同じ実体かどうかを決定○ 同じ固有表現を全て関連付け、代表的な表現を取得
·· Gaga’s Christmas dinner with her family. Awwwwn ···· Lady Gaaaaga with her family on Christmas ···· Buying a magazine just because Lady Gaga’s on the cover ··
代表的な表現: Lady Gaga
Method Overview
● 系列ラベリング○ 観測列xに対してラベル列y, zを付与
■ NERのためのラベルy ■ NENのためのラベルz
○ linear chain CRF
Label for NER
● 各ツイートに対してBILOUラベルを付与: yim
○ B: Begining○ I: Inside○ L: Last○ O: Outside○ U: Unit-length
·· without you is like an iphone without apps; O O O O O U-PRODUCT O O
Lady gaga without her telephone ··B-PERSON L-PERSON O O O
Label for NEN
● 2値変数 zijmn
○ 同じ単語の tim と tj
n のペア
○ 同じ実体を表す固有表現かどうか zijmn = 1 or -1
·· Gaga’s Christmas dinner with her family. Awwwwn ···· Lady Gaaaaga with her family on Christmas ···· Buying a magazine just because Lady Gaga’s on the cover ··
z1113 = 1 ( Gaga1
1 = Gaga13 )
z1123 = 1 ( Lady1
2 = Lady13 )
her, with などはストップワード
Recognize Same Entity
固有表現のタイプと正規化ラベルを利用して同じ実体を表す固有表現かどうかを以下の3点で判定1. 同じ固有表現タイプである2. 部分文字列3. zij
mn = 1 が存在
·· Gaga’s Christmas dinner with her family. Awwwwn ···· Lady Gaaaaga with her family on Christmas ···· Buying a magazine just because Lady Gaga’s on the cover ··
Recognize Same Entity
固有表現のタイプと正規化ラベルを利用して同じ固有表現かどうかを以下の3点で判定1. 同じ固有表現タイプである2. 部分文字列3. zij
mn = 1 が存在
·· Gaga’s Christmas dinner with her family. Awwwwn ···· Lady Gaaaaga with her family on Christmas ···· Buying a magazine just because Lady Gaga’s on the cover ··
Gaga11 = Lady Gaga1
3 = PERSONz11
13 = 1
Recognize Same Entity
固有表現のタイプと正規化ラベルを利用して同じ固有表現かどうかを以下の3点で判定1. 同じ固有表現タイプである2. 部分文字列3. zij
mn = 1 が存在
·· Gaga’s Christmas dinner with her family. Awwwwn ···· Lady Gaaaaga with her family on Christmas ···· Buying a magazine just because Lady Gaga’s on the cover ··
Lady12 Gaaaaga = Lady1
3 Gaga = PERSONz11
23 = 1
Recognize Same Entity
固有表現のタイプと正規化ラベルを利用して同じ固有表現かどうかを以下の3点で判定1. 同じ固有表現タイプである2. 部分文字列3. zij
mn = 1 が存在
·· Gaga’s Christmas dinner with her family. Awwwwn ···· Lady Gaaaaga with her family on Christmas ···· Buying a magazine just because Lady Gaga’s on the cover ··
canonical form は単語数の長いもの (同数の場合はWikipediaのエントリにあるもの)
Lady Gaga13
Factor Graph
● yim: m番目のツイートのi番目の単語 ti
m のNERラベル● fi
m : 素性関数 (yi-1m, yi
m)● zij
mn: tim とtj
n のNENラベル● fij
mn : 素性関数 (yi-1m と yi
m と zijmn)
Model
tweets: T = {tm}Nm=1
graph: g = (Y, Z, F, E)Y: y-serials, Z: z-serialsF: factor vertices, E: edges
δijmn = 1:
timとtj
nが同じ単語
Φ(1)k, Φ
(2)k : features
λ(1)k , λ
(2)k : weight
Training
Θ = {λ(1)k}
K1K=1 U {λ(2)
k}K2
K=1 の学習
最急勾配法Θnew = Θold + Δ
λで微分
Inference
学習したΘ*を利用してY, Zを求める
Features for NER
● 表層素性○ 大文字かどうか○ 英数字からなる、または、スラッシュを含むかどうか○ ストップワードかどうか○ 単語の接頭辞、接尾辞
● 語彙素性○ 前後1単語の語彙、品詞○ 辞書に含まれているかどうか○ ハッシュタグ、リンク、ユーザ名かどうか
● 外部辞書(Gazetteer)素性○ 含まれているか○ ラベル
Features for NER
● 表層素性○ 大文字かどうか○ 英数字からなる、または、スラッシュを含むかどうか○ ストップワードかどうか○ 単語の接頭辞、接尾辞
● 語彙素性○ 前後1単語の語彙、品詞○ 辞書に含まれているかどうか○ ハッシュタグ、リンク、ユーザ名かどうか
● 外部辞書(Gazetteer)素性○ 含まれているか○ ラベル
Features for NER
● 表層素性○ 大文字かどうか○ 英数字からなる、または、スラッシュを含むかどうか○ ストップワードかどうか○ 単語の接頭辞、接尾辞
● 語彙素性○ 前後1単語の語彙、品詞○ 辞書に含まれているかどうか○ ハッシュタグ、リンク、ユーザ名かどうか
● 外部辞書(Gazetteer)素性○ 含まれているか○ ラベル
·· Buying a magazine just because Lady Gaga’s on the cover ··
Lady Gaga on名詞 名詞 前置詞00
110-, ‘s
1People
Features for NEN
● 表層素性○ 大文字かどうか ( ti
m / tjn )
○ 英数字またはスラッシュを含むかどうか ( tim / tj
n )○ 単語の接頭辞、接尾辞 ( ti
m )● 語彙素性
○ 語彙 ( tim )
○ 辞書に含まれているかどうか ( tim )
○ 前後1単語が全て同じ品詞かどうか (ti-1m ti
m ti+1m / tj-1
n tjn t
j+1n)
○ 同じラベルタイプかどうか ( yim / yj
n )● 外部辞書(Gazetteer)素性
○ 含まれているか(前後1単語) (Yi-1m∧Yj-1
n, Yim∧Yj
n,Yi+1
m∧Yj+1n)
○ 同じラベルかどうか ( Yim / Yj
n )
Experiments Setting
● データ○ 人手で正解を付与した12,245ツイート
● ベースライン○ NER → NEN の順序で適用した手法
■ NER: Liu et al. (2011)■ NEN: ルールベース Jijkoun et al. (2008)
Experimental Results
·· Goldman sees massive upside risk in oil prices ··
NER Result F-measure
ベースライン 80.2
提案手法 83.6
NER Result PERSON PRODUCT LOCATION ORGNIZATION
ベースライン 83.9 78.7 81.3 79.8
提案手法 84.2 80.5 82.1 85.2
NEN Result Accuracy
ベースライン 79.4
提案手法 82.6
ベースライン: PERSON (Albert Goldman)提案手法 : ORGANIZATION (Goldman Sachs)
Effect of Features
辞書素性が性能に大きく貢献
Features NER NEN
表層 59.2 61.3
表層+語彙 65.8 68.7
表層+辞書 80.1 77.2
表層+語彙+辞書 83.6 82.6
Discussion
● 約半分のエラーはスラングか省略○ 異なる単語には z 要素を作成してない
·· And Now, He Lives All The Way In California ···· i love Cali so much ··
·· I, bobby shaw, am gonna put BS on everything ··
● 解決案○ 同じ単語ではなく、共通の接頭辞を持つ単語に拡張○ スラングや省略を正規化する手法を構築
正しくLOCATIONと判定
誤ってPERSONと判定
NERで失敗
Conclusion
● ツイートに対してNERとNENを適用○ NERとNENを同時に解く○ NER、NENと順番に適用するも性能が向上
● 感想○ 人名と組織名や地名の区別は難しいのでNENの知見を取り
入れてうまくできてるのはよさそう■ 評価実験はベースラインとは別に提案手法を
NERとNENに分けたものも欲しい