語の出現の偏りに基づく新たな隠語の発見

20
語の出現の偏りに基づく新たな隠語の発見 March 5, 2013 1 / 14

Upload: saireya-

Post on 18-Jul-2015

2.709 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: 語の出現の偏りに基づく新たな隠語の発見

語の出現の偏りに基づく新たな隠語の発見

March 5, 2013

1 / 14

Page 2: 語の出現の偏りに基づく新たな隠語の発見

Background

ネット上のコミュニケーションを足がかりとした犯罪が増加

ネット上の犯罪に関わる情報は隠語が用いられることが多い

(ex. 「アイス」→ 覚醒剤, 「サポ」→ 援助交際, 「バツ」→ MDMA)情報を隠蔽するため、日々新たな隠語が生まれている

∴ 犯罪や非合法な事柄に関する新たな隠語を発見することが必要

Def. in 日本大百科全書隠語 (jargon)とは、

特定の職業や身分に属する限られた人々の間で、

主として秘密を守ったり、

あからさまにいうのを避けたりするために用いる

特別のことば

2 / 14

Page 3: 語の出現の偏りに基づく新たな隠語の発見

Related work

Related work(1)新たな隠語は新語や同義語・関連語の一種とみなせる

⇨ 新語の発見手法 ([那, 2012]など)や関連語の発見手法 ([山本ら, 2002]など)に加え、「語の隠語判定」を行う手法が必要

Related work(2)情報フィルタリングの観点からは、SVMなどの機械学習手法を用いて有害な投稿を判定する研究 ([松葉ら, 2009])がある

⇨ 未知の有害語しか含まない投稿にどう対応するかは課題

Related work(3)周辺語を用いて隠語判定を行う研究 [橋本ら, 2010]も存在(既知の隠語に対し与えられた文が語を隠語として用いているか判定)学習用に語を隠語として用いた文例を予め収集する必要がある

3 / 14

Page 4: 語の出現の偏りに基づく新たな隠語の発見

Approach

隠語の発見元としてアンダーグラウンド (UG)系 BBSに着目利用者間の交流があり、仲間意識が強い

⇨ 新語が生まれやすい

投稿が公開されるため売人にとって危険性が高い

⇨ 秘密保持を目的に隠語が用いられやすい

∴ Web全体のうちで新たな隠語は UG系 BBSに偏って存在

Web Underground BBSUnderground BBS×

××× ×

× ×

× ×

×

× ×: 隠語●: 非隠語

●●

●●●

● ×

●●

×

××

4 / 14

Page 5: 語の出現の偏りに基づく新たな隠語の発見

Approach

BBSの投稿からの隠語の発見1 投稿中の語 j とその周辺語をクエリとしてWeb検索し、結果を取得2 検索結果の各ページに元の投稿を加えて clustering

(j の用法別にクラスタを生成)3 元の投稿を含むクラスタ C が次を満たせば、j を隠語とみなす

C が BBSを含むC の UG-score(アンダーグラウンド度を表す指標、後述)が高い

氷 手押し 検索!G●●q1e

氷 押し掲示板xxx.com/yyy◆都内手押し! ◆ P1本サービス氷塔攻略BBSyyy.jp/zzz...

氷ポケモン一押し!- ポケモン攻略 ...ttt.net/zzz

闇BBSvvv.orz/ccc神奈川 氷 手押し or 全 郵 可 局留 OK

312: キメてる名無しさん 2013/03/05 11:18

大阪で氷の手押しします。02=10000 05=20000 1=33000

cluster 1

薬物関係

cluster 2

ゲーム関係

cluster1にBBSが存在? → 「氷 押し掲示板」 はBBS!cluster1のUG-scoreは? → 十分高い!⇨ 「氷」は隠語!!

(1) Web search:

(2) Clustering:

(3) Checking:

5 / 14

Page 6: 語の出現の偏りに基づく新たな隠語の発見

Approach

隠語や UG系 BBSは流行り廃りが激しい(ex. 「アンパン」(→ シンナー)や「ポン」(→ 覚醒剤)のような古い隠語はもはや使われないので、新たな隠語を発見する役に立たない)(ex. 2ちゃんねる「薬・違法板」は強制捜査以降に著しく衰退)

⇨ 新たな隠語の発見には活発な UG系 BBSの発見が必要⇨ 活発な UG系 BBSの発見には新たな隠語の発見が必要∴ 隠語と UG系 BBSを交互に発見

0 t:時間

UG系BBS の発見:

新たな隠語 の発見:

BBS1 BBS2 jargon1 BBS3

jargon2 jargon3

BBS4 BBS5

6 / 14

Page 7: 語の出現の偏りに基づく新たな隠語の発見

Approach

隠語 j1, j2を含む UG系 BBSの発見1 「BBS j1 j2」で検索2 検索結果の各ページ bの UG-scoreが高いか調べる3 bに日付表現の反復構造が含まれるか検出し BBSか判定 [南野ら, 2004]

4 適合フィードバックの更新式を用いて j1, j2の UG-scoreを更新 [Rocchio,

1965]

⇨ 語の影響力を修正することで、長期的な精度改善を図る

7 / 14

Page 8: 語の出現の偏りに基づく新たな隠語の発見

Approach

UG-score文書 d のアンダーグラウンド度合いを表す尺度。次の重み付き和:

隠語 DB DJargonの語のうち文書に含まれる語の割合

トピック抽出と組み合わせて学習させた SVMの出力値wj : 隠語 j の UG-score

ud ∶= 𝛼∑j∈d∩DJargon

wj

∑j∈DJargonwj⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟⏟

DJargonの語を

d が含む割合

+ (1 − 𝛼) 𝜃d⏟SVMでのd のスコア

(𝛼 ∈ [0, 1])

文書の集合 C の UG-score: 各文書の UG-scoreの平均(UC ∶= 1

#C ∑d∈C ud)

8 / 14

Page 9: 語の出現の偏りに基づく新たな隠語の発見

Experiment

交互に動く 2つのシステムそれぞれの評価を実施隠語の発見精度

システムを動作させて隠語と判定された語が妥当か調査

UG系 BBSの発見精度検索結果のページが UG系 BBSかの判定が妥当か調査

※ 「薬物系」と「出会い系」の 2つのジャンルについて実験※ 初期の隠語 DBに Jetrunテクノロジ株式会社の「隠語・誘導語データベース」を利用

9 / 14

Page 10: 語の出現の偏りに基づく新たな隠語の発見

Experiment

隠語の発見精度 (薬物系)適合率 37.5%、(判定した語中での)再現率 75%(F値 0.5)を達成(ハイライトしたアイテムは、正しく隠語判定できた語)

判定対象の語 判定 隠語でない場合の理由 / 隠語の意味ドラ ○ 「ドラッグ」の略

ドラちゃん ○ 「ドラッグ」の意味

ガンギマリ ○ 「薬物がガンガンにキマって (効いて)いる」の意味鶴見済 ○

人格改造マニュアル ○KDDI-TS3N UP.Browser ○

2ちゃんねる ○ペーハ × クラスタの UG-scoreが 𝜇Cluster 以下

半減期 × クラスタに.go.jpドメインのページが存在ドパミン × クラスタに BBSがない (誤判定)覚せい剤 × クラスタに BBSがない

アンフェタミン × クラスタに BBSがないメタンフェタミン × クラスタに BBSがない

耳かき × クラスタに BBSがない耳かき 1杯 × クラスタに BBSがない

10 / 14

Page 11: 語の出現の偏りに基づく新たな隠語の発見

Experiment

隠語の発見精度 (出会い系)適合率 37.5%、(判定した語中での)再現率 75%(F値 0.5)を達成

判定対象の語 判定 隠語でない場合の理由 / 隠語の意味円光女 ○ 「援助交際をする女性」の意味

マクソ ○ 出会い系サイト「PCMAX」の意味ハピメ ○ 出会い系サイト「ハッピーメール」の意味

風俗嬢 ○ポイント ○外人 ○美人 ○日本語 × クラスタに.go.jpドメインのページが存在一見 × クラスタの UG-scoreが 𝜇Cluster 以下

マグロ × クラスタに BBSがない (誤判定)風俗 × クラスタに BBSがない時点 × クラスタに BBSがない勝ち組 × クラスタに BBSがない中国人 × クラスタに BBSがない性病 × クラスタに BBSがない

11 / 14

Page 12: 語の出現の偏りに基づく新たな隠語の発見

Experiment

UG系 BBSの発見 (薬物系)UG性判定で適合率 45%、UG系 BBS判定で適合率 73%を達成BBS発見精度が高い隠語と低い隠語に二極化

クエリ UGと判定 UG系 BBSと判定j1 j2 総数 誤判定 適合率 総数 誤判定 適合率

詳細データのネット上での公開は諸事情により割愛させていただきます。

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮合計 96 53 0.45 22 6 0.73

12 / 14

Page 13: 語の出現の偏りに基づく新たな隠語の発見

Experiment

UG系 BBSの発見 (出会い系)UG性判定で適合率 58%、UG系 BBS判定で適合率 74%を達成

クエリ UGと判定 UG系 BBSと判定j1 j2 総数 誤判定 適合率 総数 誤判定 適合率

詳細データのネット上での公開は諸事情により割愛させていただきます。

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮合計 119 51 0.58 38 10 0.74

13 / 14

Page 14: 語の出現の偏りに基づく新たな隠語の発見

Conclusion

犯罪抑止のため、隠語を早期に発見することは喫緊の課題

新たな隠語が UG系 BBSに偏って存在していることに着目UG系 BBSの発見部と、新たな隠語の発見部が交互に動作「薬物系」「出会い系」の両ジャンルで未知の隠語の発見に成功

今後の課題

長期間のシステムの稼働による精度への影響の調査

UG-score計算に用いる SVMの高速化より実用に近い巨大な隠語 DBを初期 DBとして用いた実験

14 / 14

Page 15: 語の出現の偏りに基づく新たな隠語の発見

Approach

PreprocessSVMを用いた教師あり学習を BBSの過去ログで行う

1 2ch「薬・違法板」や pinkbbs「お水出会い系板」のログからtf(term-frequency)行列を作成

2 tf行列に潜在 Dirichlet配分法 (LDA)を適用しトピック抽出3 隠語を含む投稿が属するトピックに対してスコアを与えて学習

※ トピック抽出を利用し、未知の隠語しか含まない文書に対しても適切な

UG性判定を行う

15 / 14

Page 16: 語の出現の偏りに基づく新たな隠語の発見

Approach

UG系 BBSの発見1 隠語 DBから隠語 j1, j2を選ぶ2 「BBS j1 j2」で検索3 検索結果のページ bの UG-score ubが高いか調べる

4 bに日付表現の反復構造が含まれるか検出し BBSか判定 [南野ら, 2004]

5 bをDBBSに登録

6 j1, j2の UG-scoreを更新 [Rocchio, 1965]

(𝛼, 𝛽, 𝛾: Const.)

wj ∶= 𝛼wj + 𝛽UD+ − 𝛾(1 − UD−)

google “BBS j1 j

2”

b is UG-BBS(DB+=b)

no!

no!b is not BBS

yes!

b has dates?

ub is high?

yes!

no!b is not UG-page

choose j1 j

2 from D

J

b in DB?

yes!b is already known

rescore j1 j

2

b in results

j1,j

2 in D

J

16 / 14

Page 17: 語の出現の偏りに基づく新たな隠語の発見

Approach

隠語の発見

1 BBS bの新着投稿を取得2 UG-scoreが高い投稿 aに含まれる語 jとその周辺語をクエリとしてWeb検索し、結果を取得

3 検索結果の各ページに元の投稿を加

えて clustering(j の用法別にクラスタを生成)

4 元の投稿を含むクラスタ C のUG-score UC が高く、かつ C が BBSを含むなら、j を隠語とみなす

5 (j, UC )を隠語 DBに登録

j in DJ?

google “j + 周辺語”

clustering the result

UC is high?

j is jargon(DJ += j)

no!

yes!

no!

yes!

C is not UG-cluster

j is already known

get post a from DB

ua is high?

yes!

no!reject article

j in article a

a in DB

BBS in UC?

yes!

j is not slant in Webno!

17 / 14

Page 18: 語の出現の偏りに基づく新たな隠語の発見

Experiment

Optimization高速化と精度向上のため、隠語発見の際に、対象となっている語を含む投稿

を含む cluster C に対し次の最適化を実施C に.go.jp, .ed.jp, .ad.jpなどのドメインが含まれていないか?C に含まれるページのタイムスタンプが古すぎないか?C に BBSがあるかの確認を UG-score算出より前に行う(UG-scoreの算出に時間を要するため)処理対象にする語の絞り込みに Yahoo! Japanのキーフレーズ抽出 APIを使用

18 / 14

Page 19: 語の出現の偏りに基づく新たな隠語の発見

Experiment

隠語の発見精度 (隠語「ドラ」の発見)ページの題名

1 イリーガル系ドラッグの解説

ブリトニー・スピアーズの元マネージャーがドラッグ疑惑を暴露 ...2 覚醒剤 - Wikipedia

メチレンジオキシメタンフェタミン - Wikipediaドラッグ用語集

医薬品一覧 - Wikipedia合法ハーブ研究所~合法ドラッグの歴史~

ドラッグとは - はてなキーワード3 パラクロロアンフェタミンの英語・英訳 - 英和辞典・和英辞典 Weblio 辞書

モーマス、フィル・ウィルソン、ビル・ドラモンド、ベイビー・アンフェタミン ...覚醒剤は素晴らしい

4 アンフェタミンによりゾンビ化してしまったような、瞳孔を見開く中毒女性の ...5 覚せい剤は実は非常に安全な薬です(研究報告)

覚醒剤アンフェタミンの原材料、8 割が中国からの密輸品―米国 (Record ...釣られたお? 【Drugs-forum より】(メス) アンフェタミン等使用後の回復法 ...『ボイド・イズ・マイ・アンフェタミン』 笹川 作

エクスタシー、XTC と呼ばれる MDMA - STOP the DRUGドラッグ

Cannabis Study House - ドラッグ・テスト | ドラッグ・テストの種類と問題点覚せい剤は実は非常に安全な薬です(研究報告)

(「ドラ」を含む元の投稿)

19 / 14

Page 20: 語の出現の偏りに基づく新たな隠語の発見

Experiment

隠語の発見精度 (隠語「ドラ」の発見)ページの題名 UG-score 値 第 1 項 第 2 項覚せい剤は実は非常に安全な薬です(研究報告) 0.02175 0.01197 0.05107覚醒剤アンフェタミンの原材料、8 割が中国からの密輸品―米国 (Record ...

0.00204 0.0 0.00818

釣られたお? 【Drugs-forum より】(メス) アンフェタミン等使用後の回復法 ...

0.01784 0.00998 0.04144

『ボイド・イズ・マイ・アンフェタミン』 笹川 作 0.03659 0.03393 0.04457エクスタシー、XTC と呼ばれる MDMA - STOP theDRUG

0.01054 0.0 0.04218

ドラッグ 0.01371 0.0 0.05484Cannabis Study House - ドラッグ・テスト | ドラッグ・テストの種類と問題点

0.01204 0.0 0.04819

覚せい剤は実は非常に安全な薬です(研究報告) 0.02084 0.01197 0.04747(「ドラ」を含む元の投稿) 0.01134 0.0 0.04538合計 0.17138平均 (クラスター 5 の UG-score) 0.01904

20 / 14