20150527 text classification using wordnet hypernyms
TRANSCRIPT
文献紹介(2015/5/27)Text Classification Using
WordNet HypernymsSam Scott, Stan Matwin, 1998, COLING/ACL Workshop
in Usage of WordNet on NLP Systems, pp.45–52
長岡技術科学大学 電気電子情報工学専攻自然言語処理研究室 高橋寛治
概要概要
● ルールベースの機械学習を用いたテキスト分類
● 単語とWordNetに基づいた素性
● 新聞文書に有効だが、歌詞などは向かない
はじめにはじめに
● テキスト分類システム– Eメール
– ニュースのフィルタリング– 情報検索
など様々な領域で用いられる
関連研究関連研究
● 典型的な手法 bag-of-words– コーパスの語を特徴ベクトルとして表現– 単語の出現頻度を何らかの尺度で表現
元テキストは処理されていない
関連研究関連研究
● ニューラルネットワークを用いて分類[Rodríguezら97]– Reuters-21578コーパスを利用
● 見出しが協力な素性
– WordNetを学習アルゴリズムの精度向上へ利用
– 語義曖昧性は手動で解消
● 同じく元テキストは処理されていない
仮説仮説
● テキストに言語知識を加えることにより、分類精度が向上する
● 言語知識– 品詞付与
– WordNetを用いた同義・上位語の関係
● bag-of-wordsと上位概念密度の比較
予備実験予備実験
● コーパス– Reuters-21578
● ニュース記事
– USENET● ニュース掲示板
– Digital Tradition● 6500曲のフォークソングの歌詞
それぞれ特性の違うコーパス
予備実験予備実験
● 機械学習アルゴリズム「Ripper」– ルールベースの機械学習
– Bag-of-wordsを扱うために開発
● 分類実験
予備実験予備実験
● SONG1, SONG2のErrorに着目– 人手付与の場合はどうか?
● 人手だとSONG1:1%, SONG2:4%– 知識付与の効果を期待
上位語密度上位語密度(Hypernym density)(Hypernym density)
● 1.品詞付与を行う
● 2.名詞と動詞を対象に、WordNetでのsynsetと上位語のsynsetを取得
● 3.密度を計算し、特徴ベクトルとする– 密度=ドキュメントの単語数÷synsetの出現回数
一般化の制御一般化の制御
● 一般化の高さを制御 h– 上位語にさかのぼる高さを制御
– h=0 synset内の語数をカウント
– h>0 あるsynsetからh階上位まであがるsynsetの語数をカウント
– h=max 全ての上位語のsynsetをカウント
● 適切な値を与える必要がある
実験実験
● bag-of-wordsと上位語密度で比較– 名詞と動詞のみを使用– 密度ベクトルを正規化
結果結果
● SONG1とUNENET1でエラー率の減少
– 上位語が寄与
– SONG2:宗教用語は過剰に一般化
– USENET2:WordNet未収録の専門用語が多い
● 一般化パラメータhはタスクにより異なる
まとめまとめ
● テキスト分類にWordNetの上位語を利用● 別の用語を利用する複数の著者が書いた文を判
別可能● 過剰に一般化するものがある
● 他ジャンルのシソーラスを使うことにより分類精度が向上すると期待