20150527 text classification using wordnet hypernyms

文献紹介(2015/5/27)Text Classification Using

WordNet HypernymsSam Scott, Stan Matwin, 1998, COLING/ACL Workshop

in Usage of WordNet on NLP Systems, pp.45–52

長岡技術科学大学　電気電子情報工学専攻自然言語処理研究室　高橋寛治

概要概要

● ルールベースの機械学習を用いたテキスト分類

● 単語とWordNetに基づいた素性

● 新聞文書に有効だが、歌詞などは向かない

はじめにはじめに

● テキスト分類システム– Eメール

– ニュースのフィルタリング– 情報検索

など様々な領域で用いられる

関連研究関連研究

● 典型的な手法　bag-of-words– コーパスの語を特徴ベクトルとして表現– 単語の出現頻度を何らかの尺度で表現

元テキストは処理されていない

関連研究関連研究

● ニューラルネットワークを用いて分類[Rodríguezら97]– Reuters-21578コーパスを利用

● 見出しが協力な素性

– WordNetを学習アルゴリズムの精度向上へ利用

– 語義曖昧性は手動で解消

● 同じく元テキストは処理されていない

仮説仮説

● テキストに言語知識を加えることにより、分類精度が向上する

● 言語知識– 品詞付与

– WordNetを用いた同義・上位語の関係

● bag-of-wordsと上位概念密度の比較

予備実験予備実験

● コーパス– Reuters-21578

● ニュース記事

– USENET● ニュース掲示板

– Digital Tradition● 6500曲のフォークソングの歌詞

それぞれ特性の違うコーパス


● 機械学習アルゴリズム「Ripper」– ルールベースの機械学習

– Bag-of-wordsを扱うために開発

● 分類実験


● SONG1, SONG2のErrorに着目– 人手付与の場合はどうか？

● 人手だとSONG1:1%, SONG2:4%– 知識付与の効果を期待

上位語密度上位語密度(Hypernym density)(Hypernym density)

● １．品詞付与を行う

● ２．名詞と動詞を対象に、WordNetでのsynsetと上位語のsynsetを取得

● ３．密度を計算し、特徴ベクトルとする– 密度＝ドキュメントの単語数÷synsetの出現回数

一般化の制御一般化の制御

● 一般化の高さを制御 h– 上位語にさかのぼる高さを制御

– h=0 synset内の語数をカウント

– h>0 あるsynsetからh階上位まであがるsynsetの語数をカウント

– h=max 全ての上位語のsynsetをカウント

● 適切な値を与える必要がある

実験実験

● bag-of-wordsと上位語密度で比較– 名詞と動詞のみを使用– 密度ベクトルを正規化

結果結果

● SONG1とUNENET1でエラー率の減少

– 上位語が寄与

– SONG2:宗教用語は過剰に一般化

– USENET2:WordNet未収録の専門用語が多い

● 一般化パラメータhはタスクにより異なる

まとめまとめ

● テキスト分類にWordNetの上位語を利用● 別の用語を利用する複数の著者が書いた文を判

別可能● 過剰に一般化するものがある

● 他ジャンルのシソーラスを使うことにより分類精度が向上すると期待

20150527 text classification using wordnet hypernyms

Education