jaccard係数の計算式と特徴（1）

9

Jaccard係数の計算式（1） KH Coder では Jaccard 係数を多用しています。たとえば語A と語B の共起の程度をJaccard 係数で測る計算式は以下のようになります。「語Aを含み」なおかつ「語Bを含む」文書の数「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数図解にするとより分かりやすく→

Upload: khcoder

Post on 23-Jan-2018

8.976 views

Category:

Science

1 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Jaccard係数の計算式と特徴（1）

Jaccard係数の計算式（1）

KH CoderではJaccard係数を多用しています。たとえば語Aと語Bの共起の程度をJaccard係数で測る計算式は以下のようになります。

「語Aを含み」なおかつ「語Bを含む」文書の数

「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数

図解にするとより分かりやすく→

Page 2: Jaccard係数の計算式と特徴（1）

語Aを含む文書語Bを含む文書

Page 3: Jaccard係数の計算式と特徴（1）

(a) 「語Aを含み」なおかつ「語Bを含む」文書

語Aを含む文書語Bを含む文書

Page 4: Jaccard係数の計算式と特徴（1）

(ｂ) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書

(a) 「語Aを含み」なおかつ「語Bを含む」文書

語Aを含む文書語Bを含む文書

Page 5: Jaccard係数の計算式と特徴（1）

(ｂ) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書

(a) 「語Aを含み」なおかつ「語Bを含む」文書

語Aを含む文書語Bを含む文書

(b)の中での(a)の割合＝ (a)÷(b) がJaccard係数！

Page 6: Jaccard係数の計算式と特徴（1）

もし単純に数をかぞえると？

語Cを含む文書

• 単純に共起する数をかぞえると、語Aの有無に関係なくどこにでも多く出現する語Cが上位に。

• Jaccard係数では割合を見るので、語Cは下位になり、語Aがある時に特によく出てくる共起語が上位に

語Aを含む文書

Page 7: Jaccard係数の計算式と特徴（1）

それでも、ある程度は数も必要

語Dを含む文書

• 語Dはほぼすべて語Aと共起しているが、数が少ないので「語Aが出てくるときには語Dもよく出てくる」とは言えない

• Jaccard係数では割合を見るので語Dも下位に→ 語CやDを取り除きつつ共起語を探すのがJaccard係数

語Aを含む文書

Page 8: Jaccard係数の計算式と特徴（1）

どちらも含まない文書は無視

• 一部の係数は、(c) 語Aも語Bも含まない文書がたくさんあると、語Aと語Bの類似度が高いと見なす

• 計量テキスト分析では、(c)の文書は常に大量に存在するので、(c)を無視するJaccard係数を採用

語Aを含む文書語Bを含む文書

すべての文書

(c) 語Aも語Bも含まない文書

Page 9: Jaccard係数の計算式と特徴（1）

ところで「文書」ってなに？

• 設定を変えなければ（デフォルトでは）– Excel・CSVデータの場合は、1つのセルが1つの「文書」– テキストデータの場合は、1つの段落（改行で区切れられた部分）が1つの「文書」

• 分析時に「集計単位」の設定を「文」に変更すれば、1つの文を1つの「文書」と見なせる

• KH CoderではH1からH5による見出しを加えることで、節・章・部など様々な単位での分析が可能

CURRICULUM VITAE MARK JACCARDrem-main.rem.sfu.ca/papers/jaccard/Jaccard_CV.pdf · CURRICULUM VITAE MARK JACCARD January, 2017 Energy and Materials Research Group [email protected] School

Combining Mahalanobis and Jaccard Distance to Overcome

FORNOS A ARCO SUBMERSO – PARÂMETROS ELÉTRICOS ÓTIMOS Autor : Luis Ricardo Jaccard

En m uvEmEnt - Acj-suisse.ch · 2017-10-13 · Pierre JACCARD, Co-Président pierre. [email protected] 079 202 36 34 Fabien VOLERY, Co-Président [email protected] 079 512 22 63

音声音響信号処理のための確率モデルと学習アルゴ …声道特徴量：音韻性や声質に関係声帯特徴量：声の高さや声のかすれに関係応用例

日本語ゼロ照応関係に対する特徴分類とそのアノテーション飯田龍，笹野遼平 ( 東工大 )

OPERACIÓN DEL HORNO ELÉCTRICO DE ARCO – CON EJEMPLOS Autor: Luis Ricardo Jaccard [email protected]

三葉虫の複眼デザイン：形態的特徴と光学特性の対 … Ono FP.pdfFossils 化石 89，1-2，2011 The Palaeontological Society of Japan － 1 －三葉虫の複眼デザイン：形態的特徴と光学特性の対応関係

06 Vacunas Dr Jaccard

2．関西を特徴づける「本物」のブランド化に向け …2．関西を特徴づける「本物」のブランド化に向けた調査 31 2.1.1 各種ブランド形成に係る推進戦略

Herramientas para Mineria de Datos Masivos(Big Data)castle.uprm.edu/stdomingo.pdf · Ejemplos de medidas de similaridad:correlacion,medida de Jaccard-Tanimoto,etc

（3）市町村民税の特別徴収義務者に関する調（単位：人、 …...（3）市町村民税の特別徴収義務者に関する調（ロ）年金特徴に係る分

CAP - ClassNK環境関係機関関係運航関係保守関係 CAP 船体関係船舶の状態評価サービス主な特徴 PrimeShip-CAP（Condition Assessment Program）は、

Sistem Temu-Kembali Informasi · Persoalan Penskoran di Jaccard •Skor kecocokan menurun seiring bertambahnya panjang dokumen •Perlu normalisasi yang lebih canggih terhadap

› golfclubs › binarydata... · 2013-09-03 · 27. 28. Brut Nom, Prénom Jaccard, Philippe Jaccard, Philippe Chlapowski, Roland Salom, Jack Chlapowski-Gauthier, Jacqueline Niklas,

特徴 - toa-tone.jp

Deep inspectionの特徴

Strahlenfolter Stalking - TI - Britta Leia Jaccard - Psychotronfolter.wordpress.com

Ⅲ 本県産業の特徴と課題 Ⅲ 本県産業の特徴と課題 - Tochigi ...Ⅲ 本県産業の特徴と課題 1 本県の立地環境・地域資源の特徴と課題特徴

ConsultaPreviaaPueblos! Indígenas!sobre!lacreaciónde ... · Equipo!de!investigación:MaitedeCea,ClaudioFuentes,CamilaPeralta,NataliaCaniguan,Diego! Valdivieso,!Rocío!Yon!y!Danko!Jaccard!!!!!

HORNOS DE ARCO SUMERGIDO – PARÁMETROS ELÉCTRICOS ÓPTIMOS Autor : Luis Ricardo Jaccard

Automatización de respuestas en canales digitales para ...e-spacio.uned.es/...ETSInformatica-IAA-Alatorre/... · Tabla 8- Diferencias en distancia Jaccard interclase y intraclase

徴収関係 · 2020. 1. 29. · （1）滞納繰越額分析表 ① 一般税全体 30年度 29年度件数金額件数金額徴収率徴収率 26,486,027 26,285,359

repository.maranatha.edu. Metode Pemilihan Ruang... · Deteksi Plagiasi pada Dokumen Teks dengan Metode Jaccard Measure Ratih Ayuninghemi#l, Hendra Y. Riskiawan ... Sistem Informasi

Utilisation de la réminiscence par l’infirmière : quels ...doc.rero.ch/record/278131/files/HESAV_TB_Pattschull_2016.pdfPellegrini, & Jaccard Ruedin, 2007). Elle est induite par

nidwaldnerzeitung 241116 - Christina Jaccard · liess «ln A Sentimental Mood» und «Caravan» wie neu erstehen. Dann zog die Schweizerin Christina Jaccard mit ihrer samt-rauen Stimme

ガイガーカウンターキット・GC10 製作＆操作マ …ガイガーカウンターキット・GC10 製作＆操作マニュアル Revised on 11/1 2012 特徴特特徴徴特徴

Amazon Relational Database Service (Amazon RDS) · • Amazon RDS の特徴 • 各DBエンジンの特徴 • 料金モデル • 新機能 • まとめ. Amazon RDS の特徴 •

PERBANDINGAN METODE COSINE SIMILARITY JACCARD …

労働保険適用徴収システムに係るハードウェア･ソ …...労働保険適用徴収システムに係るハードウェア･ソフトウェアの賃貸借及び保守一式（拠点機器その1）

退職所得に係る道府県民税・市町村民税の特別徴収 …退職所得に係る道府県民税・市町村民税の特別徴収税額早見表（平成25年1月1日以降適用）

A study on keypoint matching with light ﬁeld informationide/res/paper/J17... · 特徴点と特徴量ライトフィールドを用いた特徴点候補と特徴量の算出につい

看護師─医師関係における会話の特徴と協働関係形 …janap.umin.ac.jp/mokuji/J1201/10000004.pdf日看管会誌 Vol 12, No 1, 2008 37 The Journal of the Japan Academy

汗っかき・非汗っかきの特徴について～体水分量と体温調節反応の関係性から～

3 · Web viewOrígenes y estructura del comportamiento: El concepto de comportamiento en la investigación de actitudes (Jaccard y Blanton) como lo presentan James Jaccard y Hart