mori b

13
新聞記事における本文と見出しに現れる 特徴語の調査 Characteristics of Specialized Vocabulary among Titles in Newspaper 複雑系工学講座 調和系工学研究室 4年 森翔平

Upload: harmonylab

Post on 15-Jun-2015

66 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Mori b

新聞記事における本文と見出しに現れる特徴語の調査

Characteristics of Specialized Vocabulary among Titles in Newspaper

複雑系工学講座調和系工学研究室

4年 森翔平

Page 2: Mori b

背景

新聞や雑誌などの紙媒体

ブログのタイトル モバイル端末でのインターネットニュース

見出しの重要性

・人間が一から見出しを考えるのは大変・見出しの適正評価・自動生成を行うことは困難

Page 3: Mori b

テキストマイニング分野における取り組み

記事の要約を生成

諸岡祐平,江嵜誠,高木一幸,尾関和彦,“重要文抽出と文簡約を併用した新聞記事の自動要約”, 言語処理学会第10回年次大会発表論文集 pp.436-439, 3月 2004

見出しに含まれている特徴語が含まれている文を抽出

どのような特徴語が見出しに用いられているのかといった内容を対象にした研究はなされていない

「米中間選挙,全米で開票進む」「輸入牛肉,未申告部位が混入」「北海道で竜巻,8人死亡」「中田はフル出場も得点なし」

見出しの長さ,形式を分析

佐藤理史, “13文字で何が伝えられるか:ウェブニュースボックス見出しの分析”, 言語処理学会第14回年次大会発表論文集 pp.508-511, 3月 2008

Page 4: Mori b

本研究の目的とアプローチ

見出しに使われる特徴語はどういったものか調査をする

見出し

本文

見出しがどのような品詞で構成されているのか

見出しの特徴的な語と本文の特徴的な語の関係

見出しに含まれる特徴語が本文でどれぐらい出現するか

新聞の記事

北海道新聞 朝刊・夕刊3カ月分(2010年10月-12月)の記事データ数:4万件

見出し

本文

特徴語:名詞,動詞,形容詞,副詞の単語

Page 5: Mori b

検証手法

見出しがどのような品詞で構成されているのか

見出しの特徴語と本文の特徴語の関係

見出しに含まれる特徴語が本文でどれぐらい出現するか

見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査

見出しと本文両方に出現するtf・idf値で傾向を調査

見出しの特徴語が本文で使われる比率

検証1 検証2 検証3

Page 6: Mori b

検証手法

見出しがどのような品詞で構成されているのか

見出しに含まれる特徴語が本文でどれぐらい出現するか

見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査

見出しと本文両方に出現するtf・idf値で傾向を調査

見出しの特徴語が本文で使われる比率

検証1 検証2 検証3

見出しの特徴語と本文の特徴語の関係

Page 7: Mori b

検証1:見出しと本文の品詞の構成

名詞が大半を占める

約半分程度の品詞が動詞

Page 8: Mori b

検証手法

見出しがどのような品詞で構成されているのか

見出しに含まれる特徴語が本文でどれぐらい出現するか

見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査

見出しと本文両方に出現するtf・idf値で傾向を調査

見出しの特徴語が本文で使われる比率

検証1 検証2 検証3

見出しの特徴語と本文の特徴語の関係

Page 9: Mori b

検証2:見出しの特徴的な語と本文の特徴的な語の関係

見出しにおける特徴語のtf・idf値

本文における特徴語のtf・idf値

tf・idf値の計算式

j

j

k

ik

ij

ij

df

Nidf

w

wtf

log

相関係数

0.189 プロット点が単語一つに相当

Page 10: Mori b

検証2:見出しの特徴的な語と本文の特徴的な語の関係

見出しにおける特徴語のtf・idf値のランク

本文における特徴語のtf・idf値のランク

tf・idf値の計算式

j

j

k

ik

ij

ij

df

Nidf

w

wtf

log

相関係数

0.573

Page 11: Mori b

検証手法

見出しがどのような品詞で構成されているのか

見出しに含まれる特徴語が本文でどれぐらい出現するか

見出しにしか使われなかった品詞と本文全般の品詞の出現割合を調査

見出しと本文両方に出現するtf・idf値で傾向を調査

見出しの特徴語が本文で使われる比率

検証1 検証2 検証3

見出しの特徴語と本文の特徴語の関係

Page 12: Mori b

検証3:見出しに含まれる特徴語が本文での出現頻度

横軸: の階級値t

bt

n

nに現れる特徴語:見出しと本文の両方

見出しに現れる特徴語

bt

t

n

n :

階級

累積確率

頻度(記事数)

Page 13: Mori b

結論

• 本文で使われている単語やその表現と見出しの単語は相違が見られる.

• 3つの側面(品詞的側面/tf・idfによる特徴量の側面/出現頻度による側面)で調査を行った.

• 品詞的側面

– 本文と見出しを構成する単語の品詞は異なる.

– 見出しには名詞が含まれることを示した.

• tf・idfによる特徴量

– 本文と見出しで強い相関は見られなかった.

– 「本文での珍しさが高い」->「見出しが珍しい」というわけではない.

– 本文において珍しさが高い値が見出しに来るとは限らない.

• 出現頻度

– 見出しで現れている単語は本文でも現れやすい.

– 2割くらいの記事では本文で現れていない見出しが出現し,「日ハム」「北大」など単語の圧縮が行われているケースがあった.

※ 本研究で使用した新聞記事は株式会社北海道新聞社から提供して頂きました.