13.12.07 cikm2013読み会

16
FIRE: Interactive Visual Support for Parameter Space-Driven Rule Mining 2013.12.07( 土 ) 土土土土 CIKM2013 土土土土土 Abhishek Mukherji, Xika Lin, Jason Whitehouse, Christopher R. Botaish, Elke A. Rundensteiner and Matthew O. Ward

Upload: ntt-communications

Post on 31-May-2015

109 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 13.12.07 CIKM2013読み会

FIRE: Interactive Visual Support for Parameter Space-Driven

Rule Mining

2013.12.07( 土 )   大木基至

CIKM2013  論文読み会

Abhishek Mukherji, Xika Lin, Jason Whitehouse, Christopher R. Botaish,

Elke A. Rundensteiner and Matthew O. Ward

Page 2: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

01. 自己紹介

・名前:大木基至(25歳)・所属:通信会社のデータプラットホームチーム・マイブーム:人狼、ボドゲ、ジム・スキル:マイニングが好き・ 2 年前くらいからマーケティングへのマイニン

グの応用を勝手にやってます• 2012 年度 VMStudio & TMStudio 学生研究“優秀賞”:ア

ンケート調査と Twitter の解析に基づく就職活動支援策の提案

• 2012 年度 S-PLUS 学生研究“佳作賞”:数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析(詳細)

• 2011 年度 VMStudio & TMStudio 学生研究“佳作賞”:多変量解析を用いた大学生のためのニュースサイトの構築

・今年も 1 件出して、現在1件取り組み中・予測モデル系コンペもやってみたいけど、やる

こ と多すぎてフリーズ中

シリコンバレーGoogle 本社にて

2 / 15

Page 3: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

・大学時代にルールマイニング系の研究をしていた  - 1.ルールの可視化システムの開発

  - 3 次元ネットワーク図で表現するみたいなやつ

  - 2.ルールの評価指標の研究    - ルールの頑健性を定義し、有用性を検証・というわけで、ルールマイニング系を発表します・でも、今日は時間なかったので、応用系に逃げました・ 10 時から読んで作ったので、詳細は 知りません(ごめんなさい)

02. モチベーション

3 / 15

Page 4: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

03. 概要

•効率的にルールを発見すること重要!•一方、マイニングシステムのユーザビリティが遅れてる•ルール間の関係を対話的に探索したい•その際、ルールマイニングのパラメータも多くて大変• FIRE ( Framework for Interactive Rule Exploration )を提案し、ユーザビリティを向上させる•ルールの分布を表示するビジュアルにこだわる•パラメータ選択やユーザの理解を助ける• 22 人でユーザビリティ実験•対話的マイニング、知識発見、ビジュアル分析に重要な貢献を果たせた

4 / 15

Page 5: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

04. Introduction

•ルールマイニングと言えば、バスケット分析的な(?)•有名なアルゴリズムと言えば、 Agrawal のアプリオリアルゴリズム• いわゆる支持度に基づく抽出• 単純だけど、よく使われる

•抽出までのパフォーマンス(質と速さ)は割とやってる•マイニングシステムのためのユーザビリティにもそろそろ力いれよう•けど、いろいろユーザビリティ向上には課題が…

5 / 15

Page 6: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

04. Introduction

課題•パラメータチューニング• データに応じて、パラメータ(閾値とか)調整必要• 閾値の高すぎるパラメータだとルールを絞りすぎて

•ルール間の関係可視化• お互いをカバーしてるルールとかあったりで関係ってのはある• 大量のルールの中でもう少しグルーピングとかしたい

•パレート最適• 一般に1つの評価指標でルールは評価しない• 2 つ以上の評価指標を使って最適なルールを見つけましょう

…などなど

6 / 15

Page 7: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

04. Introduction

とりあえずやってること• FIRE• PSpace View :全体的なパラメータスペースビュー• RSpace View :詳細なルールスペースビュー

• Support と confidence の値で 2 次元にマッピングする• A→B のルールで、 Support = |A ⋂ B| 、 Confidence = |A ⋂ B |/| A|

•ルールを抽出して、各ルールをマッピング•これらのビューで課題を解決する•最後にユーザ使ってシステム評価もする•うーむ、怪しい

7 / 15

Page 8: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

05. Interactive Rule Mining Model

•これが FIRE !(うーん、なんだコレ)

PSpace View

RSpaceView

8 / 15

Page 9: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

06. FIRE Interactive Visualization

• X軸が support値• Y軸が confidence値•色の濃さでルールの頻度を表現•領域は各閾値を満たすルールセット

9 / 15

Page 10: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

06. FIRE Interactive Visualization

冗長なルールを取り除いて描画

各領域でユニークなルールのみを描画

10 / 15

Page 11: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

06. FIRE Interactive Visualization

•トップ100のルールが欲しいってなったときに境界を描画•例は Confidence で

11 / 15

Page 12: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

06. FIRE Interactive Visualization

領域をクリックしたら、詳細でるよ

12 / 15

Page 13: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

06. FIRE Interactive Visualization

二つの領域の比較もお手軽に!(そうか?)

13 / 15

Page 14: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

07. Evaluation

•ユーザに使ってもらって評価実験をした•以下の手順• 1.ルールマイニングを説明• 2. FIRE の使い方説明• 3. 30 分~ 50 分で分析

•比較は WEKA のような CRM っていう既存のソフトで•探索の時間で効率性を、良いルールをどれだけ選べるかで精度を評価する•データセットはおなじみ UCI• 5種類のタスクをしてる• 時間がないため、詳細は口頭で

14 / 15

Page 15: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

07. Evaluation

ほぼ圧勝!!15 / 15

Page 16: 13.12.07 CIKM2013読み会

2013.12.07  発表資料

08. おまけ

•これが良いかどうかはともかく、ビジュアライジングの一例として使っていただければ…•濃淡と領域表現は参考になった•ちなみに、 CIKM2013 には他に、定量的な属性しかないテーブルから定量ルールを抽出する方法がありました•ルールマイニングのトレンド• Interestingness Measure の研究• ルールセットの評価• ルール抽出してた人らが、ルール抽出しないでクラス分類をする

方法を提案し出した( Lazy Classification )• 速度が速くて、精度が高い

•仕事だとルールマイニングは結構好かれると個人的に思う(某コンサル会社は決定木を一番使うらしい)

16 / 15