20150527 text classification using wordnet hypernyms

14

Click here to load reader

Upload: takahashi-kanji

Post on 22-Jul-2015

59 views

Category:

Education


2 download

TRANSCRIPT

Page 1: 20150527 Text Classification Using WordNet Hypernyms

文献紹介(2015/5/27)Text Classification Using

WordNet HypernymsSam Scott, Stan Matwin, 1998, COLING/ACL Workshop

in Usage of WordNet on NLP Systems, pp.45–52

長岡技術科学大学 電気電子情報工学専攻自然言語処理研究室 高橋寛治

Page 2: 20150527 Text Classification Using WordNet Hypernyms

概要概要

● ルールベースの機械学習を用いたテキスト分類

● 単語とWordNetに基づいた素性

● 新聞文書に有効だが、歌詞などは向かない

Page 3: 20150527 Text Classification Using WordNet Hypernyms

はじめにはじめに

● テキスト分類システム– Eメール

– ニュースのフィルタリング– 情報検索

など様々な領域で用いられる

Page 4: 20150527 Text Classification Using WordNet Hypernyms

関連研究関連研究

● 典型的な手法 bag-of-words– コーパスの語を特徴ベクトルとして表現– 単語の出現頻度を何らかの尺度で表現

元テキストは処理されていない

Page 5: 20150527 Text Classification Using WordNet Hypernyms

関連研究関連研究

● ニューラルネットワークを用いて分類[Rodríguezら97]– Reuters-21578コーパスを利用

● 見出しが協力な素性

– WordNetを学習アルゴリズムの精度向上へ利用

– 語義曖昧性は手動で解消

● 同じく元テキストは処理されていない

Page 6: 20150527 Text Classification Using WordNet Hypernyms

仮説仮説

● テキストに言語知識を加えることにより、分類精度が向上する

● 言語知識– 品詞付与

– WordNetを用いた同義・上位語の関係

● bag-of-wordsと上位概念密度の比較

Page 7: 20150527 Text Classification Using WordNet Hypernyms

予備実験予備実験

● コーパス– Reuters-21578

● ニュース記事

– USENET● ニュース掲示板

– Digital Tradition● 6500曲のフォークソングの歌詞

それぞれ特性の違うコーパス

Page 8: 20150527 Text Classification Using WordNet Hypernyms

予備実験予備実験

● 機械学習アルゴリズム「Ripper」– ルールベースの機械学習

– Bag-of-wordsを扱うために開発

● 分類実験

Page 9: 20150527 Text Classification Using WordNet Hypernyms

予備実験予備実験

● SONG1, SONG2のErrorに着目– 人手付与の場合はどうか?

● 人手だとSONG1:1%, SONG2:4%– 知識付与の効果を期待

Page 10: 20150527 Text Classification Using WordNet Hypernyms

上位語密度上位語密度(Hypernym density)(Hypernym density)

● 1.品詞付与を行う

● 2.名詞と動詞を対象に、WordNetでのsynsetと上位語のsynsetを取得

● 3.密度を計算し、特徴ベクトルとする– 密度=ドキュメントの単語数÷synsetの出現回数

Page 11: 20150527 Text Classification Using WordNet Hypernyms

一般化の制御一般化の制御

● 一般化の高さを制御 h– 上位語にさかのぼる高さを制御

– h=0 synset内の語数をカウント

– h>0 あるsynsetからh階上位まであがるsynsetの語数をカウント

– h=max 全ての上位語のsynsetをカウント

● 適切な値を与える必要がある

Page 12: 20150527 Text Classification Using WordNet Hypernyms

実験実験

● bag-of-wordsと上位語密度で比較– 名詞と動詞のみを使用– 密度ベクトルを正規化

Page 13: 20150527 Text Classification Using WordNet Hypernyms

結果結果

● SONG1とUNENET1でエラー率の減少

– 上位語が寄与

– SONG2:宗教用語は過剰に一般化

– USENET2:WordNet未収録の専門用語が多い

● 一般化パラメータhはタスクにより異なる

Page 14: 20150527 Text Classification Using WordNet Hypernyms

まとめまとめ

● テキスト分類にWordNetの上位語を利用● 別の用語を利用する複数の著者が書いた文を判

別可能● 過剰に一般化するものがある

● 他ジャンルのシソーラスを使うことにより分類精度が向上すると期待