jaccard係数の計算式と特徴(1)

9
Jaccard係数の計算式(1KH Coder では Jaccard 係数を多用しています。たと えば語A と語B の共起の程度をJaccard 係数で測る計 算式は以下のようになります。 「語Aを含み」なおかつ「語Bを含む」文書の数 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数 図解にするとより分かりやすく

Upload: khcoder

Post on 23-Jan-2018

8.976 views

Category:

Science


1 download

TRANSCRIPT

Page 1: Jaccard係数の計算式と特徴(1)

Jaccard係数の計算式(1)

KH CoderではJaccard係数を多用しています。たとえば語Aと語Bの共起の程度をJaccard係数で測る計算式は以下のようになります。

「語Aを含み」なおかつ「語Bを含む」文書の数

「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数

図解にするとより分かりやすく→

Page 2: Jaccard係数の計算式と特徴(1)

語Aを含む文書 語Bを含む文書

Page 3: Jaccard係数の計算式と特徴(1)

(a) 「語Aを含み」なおかつ「語Bを含む」文書

語Aを含む文書 語Bを含む文書

Page 4: Jaccard係数の計算式と特徴(1)

(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書

(a) 「語Aを含み」なおかつ「語Bを含む」文書

語Aを含む文書 語Bを含む文書

Page 5: Jaccard係数の計算式と特徴(1)

(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書

(a) 「語Aを含み」なおかつ「語Bを含む」文書

語Aを含む文書 語Bを含む文書

(b)の中での(a)の割合 = (a)÷(b) がJaccard係数!

Page 6: Jaccard係数の計算式と特徴(1)

もし単純に数をかぞえると?

語Cを含む文書

• 単純に共起する数をかぞえると、語Aの有無に関係なくどこにでも多く出現する語Cが上位に。

• Jaccard係数では割合を見るので、語Cは下位になり、語Aがある時に特によく出てくる共起語が上位に

語Aを含む文書

Page 7: Jaccard係数の計算式と特徴(1)

それでも、ある程度は数も必要

語Dを含む文書

• 語Dはほぼすべて語Aと共起しているが、数が少ないので「語Aが出てくるときには語Dもよく出てくる」とは言えない

• Jaccard係数では割合を見るので語Dも下位に→ 語CやDを取り除きつつ共起語を探すのがJaccard係数

語Aを含む文書

Page 8: Jaccard係数の計算式と特徴(1)

どちらも含まない文書は無視

• 一部の係数は、(c) 語Aも語Bも含まない文書がたくさんあると、語Aと語Bの類似度が高いと見なす

• 計量テキスト分析では、(c)の文書は常に大量に存在するので、(c)を無視するJaccard係数を採用

語Aを含む文書 語Bを含む文書

すべての文書

(c) 語Aも語Bも含まない文書

Page 9: Jaccard係数の計算式と特徴(1)

ところで「文書」ってなに?

• 設定を変えなければ(デフォルトでは)– Excel・CSVデータの場合は、1つのセルが1つの「文書」– テキストデータの場合は、1つの段落(改行で区切れられた部分)が1つの「文書」

• 分析時に「集計単位」の設定を「文」に変更すれば、1つの文を1つの「文書」と見なせる

• KH CoderではH1からH5による見出しを加えることで、節・章・部など様々な単位での分析が可能