evaluation methods for unsupervised word embeddings emnlp2015 読み会

Evaluation Methods for Unsupervised Word

EmbeddingsTobias Schnabel, Igor Labutov,

David Mimno, Thorsten Joachims

EMNLP2015 読み会野沢健人

自己紹介

野沢健人（@nozawa0301)

- 来年から筑波大学でマスタ（予定）

- 教師なし機械学習とかグラフ

2

概要

● Word Embeddingsの評価手法に関するサーベイ論文

○ 既存のデータセットの結果とクラウドソーシングの結果が類似

● 単語の頻度に注目した実験も実施

※グラフや表は論文から引用

3

Word Embeddings概略

単語をD次元のベクトル空間の1点に対応づける

類似度計算： cos(man, king)

加算減算： king - man + woman

4

使用モデル

予測型モデル

● CBoW（word2vec）● C&W

共起行列を用いたモデル

● Hellinger PCA● GloVe● TSCCA● Sparse Random Projections

5

学習データとパラメータ

● Wikipediaの記事データで学習

○ C&Wは2007年○ 残りは2008年

● モデルごとに語彙が異なるので，共通する103,647語を使用

● 評価手法に関する論文なので，パラメータの最適化はしない

6

評価手法の分類

1. Intrinsic evaluation：意味や文法の関係性を評価

a. Relatednessi. 絶対評価

ii. 相対評価

b. Coherence2. Extrinsic evaluation：実タスクの素性として評価

7




ii. 相対評価


8

絶対評価

あらかじめ用意されたデータセットを用いた評価

● Relatedness● Analogy● Categorization● Selectional preference

9

絶対評価のRelatedness

● 2単語と人手でつけた関連度からなるデータセットを使用

● cos類似度との順位相関係数で評価

10

word1 word2 score

television radio 6.77

media radio 7.42

Analogy

● 4単語(a,x,b,y)からなるデータセットを使用

● xに対してa:bに対応する単語を求めて正解率で評価

11

a x b y

best good heaviest heavy

baghdad iraq tokyo japan

Categorization

● ベクトル空間上の単語のまとまり度合いに注目

● 名詞とその名詞の属するクラス名からなるデータセットを使用

● 分散表現を nクラスタに分割し，purity で評価

12

Selectional preference

● 名詞と動詞とそれらの関連度からなるデータセットを使用

● コーパスから動詞の主語か目的語で関連づいた上位20名詞を選択

● 20名詞の平均ベクトルとデータセットの名詞のcos類似度を計算

● cos類似度と関連度の順位相関係数で評価

13

絶対評価による評価結果

14

絶対評価の欠点

● 分散表現用のデータセットではないものがある

● 頻度，品詞，抽象的か具体的，を考慮すべき

● 順位相関係数による評価は適切か

○ 「犬と猫」，「バナナとりんご」の類似度の大小を決める必要がある

15




ii. 相対評価


16

相対評価

● 相関係数ではなく，ユーザに適切な単語を選ばせたい

○ amazon Mechanical Trukになげる

● 頻度・品詞・具体的か抽象的かを考慮したい

○ WordNetの45分類のうち10分類選択し，そこから10単語採用■ 動詞40個■ 名詞40個■ 副詞10個■ 形容詞10個

○ 各分類のうち3単語を低頻度語彙から選択■ コーパスで頻度が2500以下の単語を低頻度

○ 合計で100単語をそれぞれクエリと呼ぶ

17

相対評価のタスクと評価

● 各クエリのcos類似度の第k∊{1,5,50}位を求め，タスクを300個生成

● クエリに最も近い単語を選ばせる

● 各タスクにつきユーザに選ばれたモデルの割合の平均で評価

18

絶対評価の結果と同じ傾向

19




ii. 相対評価


20

Coherence

● 類似度の高い単語に注目した評価

● 仲間はずれを探させるタスクをクラウドソーシングになげる

● 平均正解率で評価

● 以下のタスクをモデルごとにつくる

1. 絶対評価の各クエリを使用

2. cos類似度の高い上位2単語を抽出

3. 3つの平均頻度と±500以内で1. の類似度の順で100位以上の単語を

1つ選択

21

Coherenceの結果

● 予測型は低頻度語の正解率が下がらない

● TSCCAがトップに

● 下位3つは変動なし

22




ii. 相対評価


23

Extrisic evaluation

実タスクの特徴量として優れているかどうかで評価

具体的なタスク向けの評価手法

● Noun phrase chunking○ CRFの入力に単語ベクトルを使う

● Sentiment classification○ 映画のレビューを使って2値分類

詳細は略します

24

議論

ほとんどの手法で単語の頻度の影響を緩和するパラメータが存在

以下を確かめるため実験

● 頻度の小さい大多数の単語は関連した語と集まって分布

● 頻度の大きい単語は均一に分布

25

頻度で2値分類できるか

閾値を設けて，単語の頻度が閾値より高いか低いかの2値分類

高頻度語はパラメータで緩和されてるため下がると推測

26

cos類似度と頻度の関係性

● Relatednessの単語を使用

● C&Wでcos類似度の上位1000単語を抽出

● 抽出単語における類似度の順位と頻度の平均順位をプロット

Power lawの関係 => もっといい類似度計算法があるかも 27

所感

頻度とcos類似度の関係の話はanalogyで似た報告がある

PPMIは高頻度語を出力して間違えやすいことがある

28

Linguistic regularities in sparse and explicit word representations から

参考文献

● Tobias Schnabel, Igor Labutov, David Mimno and Thorsten Joachims. Evaluation Methods for Unsupervised Word Embeddings. In Proceedings of EMNLP, 2015.

Extrinsic evaluationの詳細● Joseph Turian, Lev Ratinov, and Yoshua Bengio. Word representations: A simple and general

method for semi-supervised learning. In Proceedings of ACL, pages 384–394, 2010.● Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher

Potts. Learning word vectors for sentiment analysis. In Proceedings of HLT, pages 142–150, 2011.

analogyのエラー分析と3CosMul● Omer Levy and Yoav Goldberg. Linguistic regularities in sparse and explicit word representations. In

Proceedings of CoNLL, pages 171–180, 2014.

29

evaluation methods for unsupervised word embeddings emnlp2015 読み会

Engineering