圧縮率による著者推定法の ニンジャスレイヤーへの応用

7
圧縮率による著者推定法の ニンジャスレイヤーへの応用 Applications of Authorship Attribution Using Data Compression Program for “Ninja Slayer” NJRecalls開発チーム @NJRecalls

Upload: -

Post on 17-Jan-2017

367 views

Category:

Science


0 download

TRANSCRIPT

Page 1: 圧縮率による著者推定法の ニンジャスレイヤーへの応用

圧縮率による著者推定法の ニンジャスレイヤーへの応用

Applications of Authorship Attribution Using Data Compression Program for “Ninja Slayer”

NJRecalls開発チーム @NJRecalls

Page 2: 圧縮率による著者推定法の ニンジャスレイヤーへの応用

2011

2012

2013

2014

2015

2016

NJRecalls開発チームについて・ニンジャスレイヤー  Twitter連載開始

・ニンジャヘッズ化

・NJRecallsリリース

・博士(生命科学)

・奈良県民になる・Ninja Maskerリリース

日本分子生物学会 ショウジョウバエ研究会

・NJCollectorリリース

ニンジャ学会

・フラれるマキモノ

戯画化された ウサギ

Page 3: 圧縮率による著者推定法の ニンジャスレイヤーへの応用

圧縮率による著者推定法「バカな……行き止まりとは……!」ニンジャスレイヤーが

「バカな……行き止まりとは……!」蛇矛を構えたスパルト

「バカな……行き止まりとは……!」蛇矛を構えたスパルト

「バカな……行き止まりとは……!」ニンジャスレイヤーが

100→60

100→50

200→90

圧縮プログラムはデータ内の繰り返し部分を一つにまとめることで圧縮を行います。このため、似ていいる文章を二つ繋げてから圧縮すると、単体で圧縮したものより圧縮率が向上します(安形 輝. 2005)。

Page 4: 圧縮率による著者推定法の ニンジャスレイヤーへの応用

圧縮改善係数を基にしたクラスタリング12_B_BtFoS.txt

06_B_MNR.txt

18_B_DARD.txt

08_B_CHBtE.txt

29_B_tMWCtStR.txt

09_B_WfMN.txt

16_B_TDNB.txt

22_B_GwF.txt

17_M_CoEKotSoDNS.txt

24_M_RR.txt

28_M_TVA.txt

03_M_RDA.txt

07_M_GKSaH.txt

10_M_DfAS.txt

13_M_TMLC.txt

15_M_NEN.txt

0 2 4 6 8タイトル クライアント コメント

ビヨンド・ザ・フスマ・オブ・サイレンス Tweetlogix ボンド

モータル・ニンジャ・レジスター Tweetlogix ボンドディフュージョン・アキュミュレイション・リボーン・ディストラクション Tweetlogix ボンド

クライ・ハヴォック・ベンド・ジ・エンド Tweetbot for iOS ボンド

ザ・マン・フー・カムズ・トゥ・スラム・ザ・リジグネイション TweetList Pro ボンド

ウェイティング・フォー・マイ・ニンジャ Tweetlogix ボンド

スリー・ダーティー・ニンジャボンド Tweetlogix ボンド

ガントレット・ウィズ・フューリー TweetList Pro ボンドカース・オブ・エンシェント・カンジ、オア・ザ・シークレット・オブ・ダークニン Saezuri モーゼズ

リブート、レイヴン Saezuri モーゼズ

トビゲリ・ヴァーサス・アムニジア Saezuri モーゼズ

リキシャー・ディセント・アルゴリズム Saezuri モーゼズゲイシャ・カラテ・シンカンセン・アンド・ヘル Saezuri モーゼズ

デス・フロム・アバブ・セキバハラ Saezuri モーゼズ

チューブド・マグロ・ライフサイクル Saezuri モーゼズ

ナイト・エニグマティック・ナイト Saezuri モーゼズ

ボンド(担当チーム)

モーゼズ(担当チーム)

詳しくは論文で

Page 5: 圧縮率による著者推定法の ニンジャスレイヤーへの応用

論文の内容まとめ今回の結果 • ある程度の長さの文字列を与えることで、ボンドとモーゼズ(担当ユニット)を区別できた

• ニンジャスレイヤーとシャーロックホームズを区別できた

• 第一部、第二部、第三部を通じてボンドとモーゼズ(担当ユニット)を区別できた

• 翻訳チームの二次創作やオリジナル作品をどちらのユニットが書いているかも区別できた

• 上記結果は先行研究とも整合性がある

Page 6: 圧縮率による著者推定法の ニンジャスレイヤーへの応用

課題手法的限界 • クラスタリングを使用するため、サンプルのうち多

数派に「引きずられる」 • ある程度の文字数を要するため、初期短編やアナウ

ンス等に適用できない

挑むべき謎 • Tantouの正体 • 翻訳チームの正体

Page 7: 圧縮率による著者推定法の ニンジャスレイヤーへの応用

ご清聴ありがとうございました

論文で使用した アプリも公開中です

ニンジャが見えてくる アプリも公開中です

NJCollector (for Mac)

Ninja Masker (for iPhone)