learning better embeddings for rare words using distributional representations

Learning Better Embeddings for Rare Words Using Distributional Representations

by YIrina Sergienya, Hinrich Schuze

担当： @Quasi_quant2010

EMNLP2015読み会1

【EMNLP2015読み会】

概要- SGとCBOWを混合させたレアワード分散表現 -

EMNLP2015読み会2

Skip-Gram Negative Sampling(SGNS)は主に頻出語に関する分散表現を構築していた

SGNSがshifted PMIを用いた行列分解であることが分かってきており、次元圧縮により単語の潜在ベクトルを計算

→レアワードは主な計算対象になっていない

本報告は、レアワードに関する分散表現を得る為どの様なモデルを考えればよいかを考察している

Skip-GramとCBOWを混合して表現するほうがよい

先行研究- 単語だけでなく、他ソースを用いた分散表現 -

レアワードは単語のコンテキスト情報が不十分なので、その他情報を用いて、過不足を補っている

形態素：[COLING14] S.Qiu, etc

句構造：[CVSC15] K.Hashimoto, etc

レアワードに関する分散表現を構築する際、先行研究ではCBOWも用いられている

Skip-GramとCBOWは言語現象の近似に、向き不向きがあるらしい

SGとCBOWはどんな現象を近似するのか

EMNLP2015読み会3

SGとCBOWはどんな現象を近似するのか- 例) 頻出語:パンツ、レアワード:デニム

EMNLP2015読み会4

パンツ

パンツメンズパンツレディース

パンツメンズコーディネートパンツレディースコーディネート

パンツメンズコーディネートデニムパンツレディースコーディネートデニム

パンツメンズコーディネートデニムファッションパンツレディースコーディネートジャケットチェック

パンツは多くのコンテキストを持つがデニムは少ない

→ パンツは多くのコンテキストを持つがデニムは少ない

→ パンツは多くの分岐を持つがデニムは少ない

注) dmenuのクエリサジェストから抜粋

SGとCBOWはどんな現象を近似するのか- 例) 頻出語:パンツ、レアワード:デニム

パンツがrootノードで、デニムは最下層に位置する

EMNLP2015読み会5

パンツ

メンズレディ－ス

コーディネート


サイズデニムサイズデニム

→ コンテキストリッチな単語はSG、レアはCBOWかも

再考 : SGとCBOWはどんな現象を近似するのか- コンテキストリッチな単語はSG、レアはCBOW? -

EMNLP2015読み会6

注) word2vec Parameter Learning

Explainedから抜粋

パンツ

デニム

サイズ


パンツ

デニム

メンズ


モデル- Binary設定でのSGC・BOW混合 -

SeparateはSGとCBOWが完全に独立

頻出語の閾値はΘで制御(freq.words≧Θ)

MixはSGとCBOWを混合

CBOWのコンテキストckはターゲットviと10回以上共起

ck = 1 if (vi, ck) ≧ 10 (otherwise ck = 0)EMNLP2015読み会7

SG

CBOW CBOW

SG

CBOWのインプットベクトルに頻出語を含むか否か

①:Separate ②:Mix

実験設定- レアワード表現獲得のため、コーパスはDownSampling -

コーパス(ukWac, WaCkypedia)

2.4billion tokens, 6million vocabulary

評価データ

有名どころを6つ

Stanford Rare Wordが本報告の目的にあっている

評価値

スピアマン順位相関(人間評価と計算結果)

パラメータ

頻出語・レアワードの表現行列

頻出語の閾値はΘで制御(freq.words≧Θ)

Binary表現以外に、[0,1]でスケーリングしたPMIも計算

1-of-K表現よりスムージングさせる狙い?EMNLP2015読み会8

結果(Binary)- Skip-Gram vs Skip-Gram+CBOW -

Θ(頻出語の閾値)が20以下の場合、概ね SG < SG+CBOW Separate (SGCS) < SG+CBOW Mix(SGCM)

SG < SGCS

レアワードのCBOWを独立に混合した効果

SGCS < SGCM

レアワードのコンテキストに頻出語を含めた効果

EMNLP2015読み会9

注)Table1より抜粋。何れも、5回実験

した平均値

結果(PMI∈[0,1])- Skip-Gram vs Skip-Gram+CBOW -

概ね SG < SG+CBOW Separate (SGCS) < SG+CBOW Mix(SGCM)

SGCM(Binary) < SGCM(PMI)

おそらく1-of-K表現する際、BinaryでなくPMIでスムージングした効果が性能向上に寄与している

Θ∈{10,20,50,100}

レアワード分散表現を計算する場合、頻出語閾値は20が良いEMNLP2015読み会10

注)Table1より抜粋。何れも、5回実験

した平均値

感想- コンテキストリッチな単語はSG、レアはCBOW -

レアワードは単語のコンテキスト情報が不十分なので、良い分散表現を作るため、ターゲットワードと共起するワードを追加することで、コンテキスト情報をリッチにした。

不十分なコンテキスト情報を追加情報で補う流れは共通手法

基礎・追加コンテキストを同時にモデル化するためSG・CBOWを混合

レアワードに関する分散表現構築というより、SG・CBOWがどの様に現象を近似するかという考察をしてみたくなった

EMNLP2015読み会11

参考文献 [S.Qiu] Co-learning of Word Representations and Morpheme

Representations. COLING14

[N.Djuric] Hierarchical Neural Language Models for Joint Representation of Streaming Documents and their Content. WWW15

[K.Hashimoto] Learning Embeddings for Transitive Verb Disambiguation by Implicit Tensor Factorization. CVSC15

[X.Rong] word2vec Parameter Learning Explained. arXiv14

[O.Levy] Improving Distributional Similarity with Lessons Learned from Word Embedding. TACL15

[O.Levy] Neural Word Embedding as Implicit Matrix Factorization. NIPS14

[Y.Li] Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective. IJCAI15

EMNLP2015読み会12

learning better embeddings for rare words using distributional representations

Science