Download - Jaccard係数の計算式と特徴（2）

Jaccard係数の計算式（2）仮に1950年代～2000年代までの文書をデータとして扱うとします。この場合に、どの程度、語Aが80年代に特徴的なのかを計算するJaccard係数の式は、次のようになります。

「80年代」でなおかつ「語Aを含む」文書の数

「80年代」か「語Aを含む」か1方でも当てはまる文書の数

図解にするとより分かりやすく→

80年代の文書語Aを含む文書

(a) 「80年代」でなおかつ「語Aを含む」文書


(ｂ) 「80年代」か「語Aを含む」か1方でも当てはまる文書



(b)の中での(a)の割合＝ (a)÷(b) がJaccard係数！



(ｂ) 「80年代」か「語Aを含む」か1方でも当てはまる文書

もし単純に数をかぞえると？

語Cを含む文書

• 単純に80年代の語をかぞえると、80年代だけでなく、どの年代にも多く出てくる語Cが上位に。

• Jaccard係数では、割合を見るので語Cは下位になり、「80年代ならでは」の語が上位に

80年代の文書

それでも、ある程度は数も必要

語Dを含む文書

• 語Dはほぼ80年代にだけ登場するが、数が少なく「80年代を代表する／80年代の特徴」とは言えない

• Jaccard係数では割合を見るので語Dも下位に→ 語CやDを取り除きつつ共起語を探すのがJaccard係数

80年代の文書

どちらにも合致しない文書は無視

• 一部の係数は、(c) どちらにも合致しない文書がたくさんあると、係数が大きくなる

• 計量テキスト分析では、(c)の文書は常に大量に存在するので、(c)を無視するJaccard係数を採用

80年代の文書語Bを含む文書

すべての文書

(c) 80年代でもなく語Bも含まない文書

ところで「文書」ってなに？

• 設定を変えなければ（デフォルトでは）– Excel・CSVデータの場合は、1つのセルが1つの「文書」– テキストデータの場合は、1つの段落（改行で区切れられた部分）が1つの「文書」

• 分析時に「集計単位」の設定を「文」に変更すれば、1つの文を1つの「文書」と見なせる

• KH CoderではH1からH5による見出しを加えることで、節・章・部など様々な単位での分析が可能

Download - Jaccard係数の計算式と特徴（2）

Top Related