minimally supervised classification to semantic categories using automatically acquired symmetric...
Post on 05-Aug-2015
75 Views
Preview:
TRANSCRIPT
Minimally Supervised Classification to Semantic Categories using Automatically Acquired Symmetric
Patterns
小町研究室 B 4 堺澤 勇也
COLING 2014 読み会
※ このスライド中のすべての図はこの論文中のものです
対象パターン ( e.g., “X and Y” ) と I-k-NN を使用して、名詞の意味分類をする
先行研究とは違い、事前に対象パターンを定義せず、生のテキストから教師なし手法でパターンを自動で抽出する
実験結果から、対象パターンは word embedding 手法と比較して分類素性として良い素性だった
簡単な kNN アルゴリズムで最新の異なる手法の実験結果を上回る結果になった
この論文の主張
この論文のタスクは名詞の意味カテゴリの分類である Semantic Categorization of Concrete Nouns :
名詞カテゴリに相当する具体的な“もの”に着目 名詞の文脈に依存しない性質は異なりレベルの分類に適
してしる Dataset :
CSLB property norms dataset を使用 被験者30人が638個の具体的な名詞に対してカテゴ
リを付けてもらったもの
タスク定義
CSLB 内の2725個のカテゴリから以下の二つを満たすものが欲しい
(1) 単一の名詞カテゴリ (2) 顕著な意味カテゴリ
そのために以下のような操作をする 1つの名詞にのみアノテーションされてるもの (名詞
の5%である35の名詞に現れるもののみ) 低頻度のカテゴリを消去 各意味カテゴリ c に対して、 c のカテゴリだとアノ
テーションされた名詞全体の各名詞のこの名詞はカテゴリ c であるとアノテーションした人数が10人以上のもの
最後に、色やサイズなどなど具体的なものに相当しないカテゴリを除く
これにより残ったカテゴリは以下の4つとなった Animacy (animals), edibiliy (food items) Is_a_tool (tools), is_worn (clothes)
Category Selection
Patterns : 構造的なフレーズ表現から提供される、単語とワイ
ルドカードの組み合わせから構成される 例 → “ X such as Y”, “X is a country”
Symmetric Patterns : 交換可能な二つのワイルドカードを含むパターンを
指す 例 → “ X and Y”, “X or Y”, “X as well as Y”
先行研究では、このパターンは意味的に似ている単語ペアを見つけることが出来ている
対象パターン
Flexible Patterns : 完全な教師なし手法で生のテキストから抽出される 以下の二つの構成要素がキーアイディアとなる
high frequency words (HFW), content words (CW) コーパス内の単語の出現回数を基に、言語内の各単
語はどちらかに定義される HFW はほとんど機能語、 CW はほとんど内容語とな
る この二つは、生のテキストからパターンを抽出する
のに有用である
自動獲得の為に使用するパターン
CWs と HFWs による単語の分類を基に、大きなコーパスを詳しく読み込むことで抽出される
抽出されたパターンは、 CW ワイルドカードと HFWsにとって変わる実際の単語で構成される
(例) “The boy is happy and joyful” は内容語が CW となり、 → “ The CW is CW and CW” となる。
上記の表現から、与えられた長さの制限(この論文では最大5)の単語の系列を抽出し、 Flexible patterns としてそれを示す。
上記の文章から、長さの制限を5とすると、“ The CW is CW and” と “ CW is CW and CW” が Flexible patternsとなる
Flexible Patterns の獲得
最初に二つの CW を含む Flexible patterns を抽出する そして、それらの CW を入れ替えることが可能なパターン
を選択 つまり、 CW1 と CW2 を含むパターンを抽出し、それら
を入れ替えたパターンがコーパス中 (今回は google books 5-gram を使用)に出現するならばそれらは対象パターンである
例 “cats and dogs”, “dogs and cats ” がある
→ “ CW and CW” は対象パターン “countries such as France” はあるが“ France such as
countries” はない → “ CW such as CW” は対象パターンではない
対象パターンの自動抽出
グラフの構築 ノードが単語、エッジが単語間の関係に相当する すべての対象パターン P に関与する単語ペアを取り、そ
の単語ペアが現れる頻度が α を超えた場合、それらの単語のノードをエッジで結ぶ
重みは単語ペアのパターンの頻度の相乗平均で決まる ラベル伝搬
iterative variant of the k-Nearest Neighbors algorithm (I-k-NN) を使用してラベルを伝搬させる
シードの拡張 新たなシードを獲得するために、グラフ上強いエッジ
(頻度が β 以上)にノード v を与え、それがラベル l がついたノード γ とつくか、ラベル l がついたノードの隣接 δl につくかまで繰り返す
Model :重み付き無向グラフ
シード拡張の例
+1
-1-1
+1
ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)
シード拡張の例
+1
-1-1
+1
ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)
ノード間で同じ対象パターンがコーパス中β (この論文では50) 以上現れるときそれらのノードを結ぶ
シード拡張の例
+1
+1
-1-1
+1
+1
ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)
ノード間で同じ対象パターンがコーパス中β (この論文では50) 以上現れるときそれらのノードを結ぶ
ノード間で l とラベル付けされているノードとつながったノードはラベル l としてラベル付けされる(これをつながっているすべてのノードがラベル付けされるまで繰り返す)
グラフ構築の例
+1
+1
-1-1
+1
-1
ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)
グラフ構築の例
+1
+1
-1-1
+1
-1
ノードは単語を指すエッジは単語間の関係を指す(ノード内の数字は人手でアノテーション)
ノード間で同じ対象パターンがコーパス中に α (この論文では3) 以上現れるときそれらのノードを結ぶ
重みはその対象パターン相乗平均とする
ラベル伝搬の例 : I-k-NN
+1
+1
-1-1
+1
-1
緑のノードに対するラベル伝搬を考える
ラベル伝搬の例 : I-k-NN
+1
+1
-1-1
+1
-1
緑のノードに対するラベル伝搬を考える
左の緑ノードは +1 とラベル付けされたノードが2つ、 -1 とラベル付けされたノードが3つくっついているのでそれらの比は、 max(2,3) / 5 = 3 / 5右の緑ノードは、 -1 とラベル付けされたノードが一つだけくっついているので比は、 1 / 1 = 1
ラベル伝搬の例 : I-k-NN
+1
+1
-1
-1
-1
+1
-1
緑のノードに対するラベル伝搬を考える
左の緑ノードは +1 とラベル付けされたノードが2つ、 -1 とラベル付けされたノードが3つくっついているのでそれらの比は、 max(2,3) / 5 = 3 / 5右の緑ノードは、 -1 とラベル付けされたノードが一つだけくっついているので比は、 1 / 1 = 1
求めた比の最大値をとるものだけを採用するこれを、すべてのノードにラベルがつくまで繰り返す
ここでは、対象パターンの素性としての役割と I-k-NN のラベル伝搬手法としての有用性を示すために二つのタイプのベースラインと比較している
分類素性ベースライン
ラベル伝搬ベースライン
実験
分類素性ベースライン SENNA
Word embedding 手法をベースとするディープネットワーク
今回の比較では単語の類似性測定として二つの word embedding 間の cos 類似度を使用
Brown Brown アルゴリズムによって示される単語クラスタリング
手法 グラフを構築する為に、単語の類似性として、バイナリツ
リー (単語は葉ノードに対応)の距離を使用 ラベル伝搬ベースライン
N-Cut 正規化したグラフカットアルゴリズム
MAD (Modified Adsorption) 確率的なグラフベースのラベル伝搬アルゴリズム
各ベースライン
実験結果
ほとんどの手法で SP ( symmetric patterns ) がよい精度を出していることが確認出来る
また I-k-NN は単純なアルゴリズムながら他の手法と同等かそれを上回る精度を出している
ラベルシードセットサイズの分析
( a ) : 異なった分類素性の比較
( b ) : 異なったラベル伝搬アルゴリズムの比較
( c ) : トップ4つの性能モデル
どれも提案手法が一番高い F値を示していることがわかる
top related