読解支援@2015 08-10-1
TRANSCRIPT
概要
• 現在の日本語オントロジー – 日本語語彙体系.etc
• 人手で構築された大規模オントロジー
• 提案すること – オントロジーの自動生成
• 辞書定義文を用いて上位語を抽出
v オントロジー : 単語の意味的関連性を表す
2015/08/10 2
辞書からの上位語情報抽出
• 上位語情報:ここでは、上位語と相関のある数値情報
• 再帰的語義展開 – 見出し語の定義文を見出し語の集合とみなして、
展開することで、複数の定義文を獲得を繰り返す • 得られた定義文を拡張定義文とする • 単語が拡張定義文に現れるほど、頻度が高くなる
– 確率にして、正規化 • 展開されるたびに影響が小さくなる
2015/08/10 3
実行例 (通信)
• 扱う単語:一般名詞、サ変名詞 – 43,915語の見出し語 – 語義曖昧性を無考慮
• 定義文:語義文と例文
• 拡張定義文 – 単語種類数増加 – 通信が突出していない – 確率頻度が異なる
• 順位付け可能 – 一般的な単語がでやすい
2015/08/10 4
�" %� �" ��%�
#� , #� ('(+(*1.
� ) � ('(*--),
�� ('()/1-+
� ) � ('(),,+)
�� ) �� ('())/+-
�� ) �� ('())-()
�63 ) �63 ('())+)+
�� ) �� ('()))/)
�2 ) �2 ('()(.*.
�� ) �� ('()(-/-
) ('((1-*)
�� ) �� ('((0,//
�� ) �� ('((0,((
�4 ('((//+)
978: ) 978: ('((/.*+
$� ) $� ('((/-+*
�5��� � ���
!=<&;?<"!;>"
上位語情報としての評価
• 仮説:見出し語の拡張定義文中に上位語がある →重要な単語であるゆえ、確率頻度が高い • 日本語語彙体系を正解データとして検証 – 43,915語中表記が一致した39,982語を対象
• 予備実験:オントロジーの性質の調査 – 直接上位カテゴリ, or 同一カテゴリを正解とすることに 図1 図2
2015/08/10 5
オントロジーにおける単語の意味
• C の意味は、上位語A,B, および、C自身によって 特徴づけられる
• 拡張定義文において、 Cは様々な単語から 成り立っている この場合、A,B,Cのみを考慮 2015/08/10 8
オントロジーの自動生成
1. 見出し語を1つ選ぶ 2. 上位語候補を100個選ぶ 3. 各候補の見出し語に対する再現度を求め、最
大となる上位語を求める 4. オントロジーの存在する確率が増加すれば上
位語を置換する
• この手順を、全見出し語に対して行い、 変化がなくなるまで繰り返す
2015/08/10 9