mori b
TRANSCRIPT
新聞記事における本文と見出しに現れる特徴語の調査
Characteristics of Specialized Vocabulary among Titles in Newspaper
複雑系工学講座調和系工学研究室
4年 森翔平
背景
新聞や雑誌などの紙媒体
ブログのタイトル モバイル端末でのインターネットニュース
見出しの重要性
・人間が一から見出しを考えるのは大変・見出しの適正評価・自動生成を行うことは困難
テキストマイニング分野における取り組み
記事の要約を生成
諸岡祐平,江嵜誠,高木一幸,尾関和彦,“重要文抽出と文簡約を併用した新聞記事の自動要約”, 言語処理学会第10回年次大会発表論文集 pp.436-439, 3月 2004
見出しに含まれている特徴語が含まれている文を抽出
どのような特徴語が見出しに用いられているのかといった内容を対象にした研究はなされていない
「米中間選挙,全米で開票進む」「輸入牛肉,未申告部位が混入」「北海道で竜巻,8人死亡」「中田はフル出場も得点なし」
:
見出しの長さ,形式を分析
佐藤理史, “13文字で何が伝えられるか:ウェブニュースボックス見出しの分析”, 言語処理学会第14回年次大会発表論文集 pp.508-511, 3月 2008
本研究の目的とアプローチ
見出しに使われる特徴語はどういったものか調査をする
見出し
本文
見出しがどのような品詞で構成されているのか
見出しの特徴的な語と本文の特徴的な語の関係
見出しに含まれる特徴語が本文でどれぐらい出現するか
新聞の記事
北海道新聞 朝刊・夕刊3カ月分(2010年10月-12月)の記事データ数:4万件
見出し
本文
特徴語:名詞,動詞,形容詞,副詞の単語
検証手法
見出しがどのような品詞で構成されているのか
見出しの特徴語と本文の特徴語の関係
見出しに含まれる特徴語が本文でどれぐらい出現するか
見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査
見出しと本文両方に出現するtf・idf値で傾向を調査
見出しの特徴語が本文で使われる比率
検証1 検証2 検証3
検証手法
見出しがどのような品詞で構成されているのか
見出しに含まれる特徴語が本文でどれぐらい出現するか
見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査
見出しと本文両方に出現するtf・idf値で傾向を調査
見出しの特徴語が本文で使われる比率
検証1 検証2 検証3
見出しの特徴語と本文の特徴語の関係
検証1:見出しと本文の品詞の構成
名詞が大半を占める
約半分程度の品詞が動詞
検証手法
見出しがどのような品詞で構成されているのか
見出しに含まれる特徴語が本文でどれぐらい出現するか
見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査
見出しと本文両方に出現するtf・idf値で傾向を調査
見出しの特徴語が本文で使われる比率
検証1 検証2 検証3
見出しの特徴語と本文の特徴語の関係
検証2:見出しの特徴的な語と本文の特徴的な語の関係
見出しにおける特徴語のtf・idf値
本文における特徴語のtf・idf値
tf・idf値の計算式
j
j
k
ik
ij
ij
df
Nidf
w
wtf
log
相関係数
0.189 プロット点が単語一つに相当
検証2:見出しの特徴的な語と本文の特徴的な語の関係
見出しにおける特徴語のtf・idf値のランク
本文における特徴語のtf・idf値のランク
tf・idf値の計算式
j
j
k
ik
ij
ij
df
Nidf
w
wtf
log
相関係数
0.573
検証手法
見出しがどのような品詞で構成されているのか
見出しに含まれる特徴語が本文でどれぐらい出現するか
見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査
見出しと本文両方に出現するtf・idf値で傾向を調査
見出しの特徴語が本文で使われる比率
検証1 検証2 検証3
見出しの特徴語と本文の特徴語の関係
検証3:見出しに含まれる特徴語が本文での出現頻度
横軸: の階級値t
bt
n
nに現れる特徴語:見出しと本文の両方
見出しに現れる特徴語
bt
t
n
n :
階級
累積確率
頻度(記事数)
結論
• 本文で使われている単語やその表現と見出しの単語は相違が見られる.
• 3つの側面(品詞的側面/tf・idfによる特徴量の側面/出現頻度による側面)で調査を行った.
• 品詞的側面
– 本文と見出しを構成する単語の品詞は異なる.
– 見出しには名詞が含まれることを示した.
• tf・idfによる特徴量
– 本文と見出しで強い相関は見られなかった.
– 「本文での珍しさが高い」->「見出しが珍しい」というわけではない.
– 本文において珍しさが高い値が見出しに来るとは限らない.
• 出現頻度
– 見出しで現れている単語は本文でも現れやすい.
– 2割くらいの記事では本文で現れていない見出しが出現し,「日ハム」「北大」など単語の圧縮が行われているケースがあった.
※ 本研究で使用した新聞記事は株式会社北海道新聞社から提供して頂きました.