データマイニング・機械学習関連 の国際会議計算論的学習理論...

19
データマイニング・機械学習関連 の国際会議 神嶌 敏弘(産業技術総合研究所) http://www.kamishima.net/ グリッド協議会 第45回ワークショップ『国際会議における技術動向報告』 国立情報学研究所,2015.2.6 1 開始

Upload: others

Post on 22-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

データマイニング・機械学習関連の国際会議

神嶌 敏弘(産業技術総合研究所)http://www.kamishima.net/

グリッド協議会 第45回ワークショップ『国際会議における技術動向報告』国立情報学研究所,2015.2.6

1開始

Page 2: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

目次

機械学習・データマイニング関連の国際会議の概要機械学習,データマイニング,および人工知能などと,これらに関連する分野を俯瞰した後,ML/DM分野についておおまかに紹介する

近年のデータ分析技術ここ10年にわたって機械学習・データマイニング分野の進展についての私なりの考えを述べる

2014年の国際会議報告昨年度私が参加してきた KDD, ECMLPKDD, RecSys, NIPS について報告する

2

Page 3: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

機械学習・データマイニング関連の国際会議の概要

3

Page 4: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

ICML

NIPS

UAI

BigData

KDD

SIGMOD

IJCAIDS

ALT

ICDM

ECMLPKDD

ICDEVLDB

COLT

AAAI

SIGIR

PAKDD

ACML

SDM

WWWWSDM

RecSys

SIGCHIIUI

AAMAS

ICANNIJCNN

STOCFOCS

ICPR

ICCV

ICASSPInterSpeech

CVPR

ACLCoNLLNAACLEMNLP

ICLR

PRICAIECAI ICWSM

CIKM

HCOMP

CSCW

AISTATS

WI

ILP

ISWC

SODA

IAT PRIMA

EDBT

PODS

STACSICALP ESA

IAAI

ECCV ACCV

TREC

GECCOCEC

IJCNLPCOLING EACL

ECIR

Data Mining

TheoreticalComputer Science

Machine Learning

ComputationalLearning Theory

Neural Network

Agent

EvolutionaryComputation

Artificial Intelligence

InformationRetrieval

WorldWideWeb

HumanComputerInteraction

Natural LanguageProcessing

Speech SignalProcessing

ComputerVison

Database

MathematicsStatistics

Network

Cognitive Science

SocialScience

Brain Science

Robotics

Linguistics

ComputerSystem

High-PerformanceComputing

ComputerGraphics

BioinformaticsCheminformatics

MathematicalLogic

ML,DM,& AI に関連する国際会議

4

Page 5: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

俯瞰図のコメント

おおまかには,上の方が抽象的,下の方が具体的な問題を対象にこの中では機械学習・データマイニングの分野には,計算論的学習理論,機械学習,ニューラルネット,データマイニングが相当その他の分野人工知能:いろいろな分野を包括するような分野CV:画像の認識や合成音声処理:音声の認識・合成自然言語処理:自然言語の理解・合成情報検索:利用者に適切な情報を提供HCI:人間とコンピュータの連携WWW:Webの情報の分析とシステムの構築

5

Page 6: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

データ分析・機械学習

機械学習とは『明示的にプログラミングすることなく,コンピュータに行動させるようにする科学』by A.Ng ( https://www.coursera.org/course/ml )もう少し個別にいうと予測:データを集め,これから起こることを予測する例:温度や湿度のデータから,明日は雨が降るかどうかを予測

探索:集めたデータの中から,何か目立つ特徴を見つける例:電車の乗降客のデータでは朝と夕方の時間帯に乗客が増える

検定・記述:データの中のいろいろな要素の関係を調べる例:この観測データから,偶然に左右される影響を排除すると,ヒッグス粒子が存在することが確かに確認できた

6

Page 7: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

計算論的学習理論

目的:データから学習できるか? できるとすればその条件は? といったことを数理的に記述して厳密に議論する

他分野との関係:機械学習アルゴリズムを実行すれば,確かに予測できたりしていることは,この分野の理論に基づいて保証される

コミュニティの指向:公理や他の定理に基づいて,定理の形で証明できる結果を重視

7

計算論的学習理論 (Computational Learning Theory)

Page 8: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

機械学習

目的:学習理論の保証に基づいて,データマイニングなどで使われる要素技術をを提供する要素技術は,新しい情報を取り扱えるようにしたり,より高速に計算できるようにしたりするもの

他分野との関係:データマイニング分野より,より広範囲に適用できる,抽象的なレベルでの技術が対象

コミュニティの指向:解いている問題や,提案している要素技術が自明でない新規の問題であることは重要

8

機械学習 (Machine Learning)

Page 9: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

データマイニング

目的:機械学習分野で作られた要素技術を基本に,必要であれば追加の要素技術を開発し,それらを組み合わせて実世界の問題に対処

他分野との関係:機械学習分野のように広範囲に適用できなくても,ある事例に対して有効な要素技術であれば研究対象となる

コミュニティの指向:実世界の事例について,提案する手法が必然であるか,非常に有効であるということが重視される

9

データマイニング (Data Mining)

Page 10: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

近年のデータ分析技術

10

Page 11: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

最近のML/DM技術の進展

11

2000年以降のデータ分析技術の進展でどう変わったのか?

The issue is not just size, the issue is granularity単に大規模なことが問題なのではない,分析の詳細さこそが重要

Michael I. Jordan

[Panel on Big Data @ KDD2012]

Signal + Noise Signal + Weaker Signal + Noise信号 外乱 信号 外乱弱い信号

Christos Faloutsos

今まで不明瞭だった情報も取り出せるようになった

Page 12: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

弱い信号をとらえるために

12

問題点の認識:強い信号を捉える手法では,不都合な問題点があることに気づく手がかりの探索:不都合を解消するために,分析に役立つ先験的な知識を探し出す解決法の開発:手がかりを活用できる分析手法を開発し,利用できる

データ分析の過程で

分析結果を見るときに

分析の前提を把握した上で,結果を読み解く

問題に応じたテーラーメイドの分析

Page 13: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

検索データからの経済指標の予測

問題点の認識:単純な関連性の指標で調べると,検索語も経済指標も多種多様なので,本当は無関係だが偶然に似てしまう場合がある例:検索語 “インド料理店”とUSの自動車販売台数

手がかりの探索:全体のトレンドや季節的な影響などの要素に分解してみて,それでも関連があれば,本当に関連があるのではないか?

解決法の開発:要素ごとに分解する手法を考案して,ミシガン大消費者信頼感指数などの予測を行った

使うときの注意:要素に分解しても偶然に関連することは完全になくなるのではなく,その可能性が減少するだけという前提

13

[KDD2013 Invited Talk by Hal R. Varian, http://videolectures.net/kdd2013_varian_search_engine/]

Google の検索語の傾向から経済指標を予測する

Page 14: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

Webカムで車の台数を数える

問題点の認識:ぼけていたり,車が重なって写っていて既存の画像処理技術では数えることができない手がかりの探索:車の台数は自然数で,それら大きさはほぼ同じくらい解決法の開発:予測台数が自然数になるという情報を生かした予測手法を開発使うときの注意:車の大きさにばらつきがある場合などには数え間違いをすることもある

14

[T. Katasuki, T. Morimura, T. Idé, "Bayesian Unsupervised Vehicle Counting," Tech. Rep. of IBM Research, RT0951, 2013]

交通インフラが整備されていない地域で交通量を把握するため,安価なWebカムで車の台数を数える

Page 15: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

2014年の国際会議報告

15

Page 16: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

KDD2014この会議についてデータマイニング分野では最も重要とされる会議で,例年8月北米で開催されてきたが,2009年から3年ごとに他の地域で開催Research と Industrial の二つのトラックがある

今年の基本情報今年は20回目で,場所はニューヨーク,Researchの採択率14.2%Bloombergが大スポンサーになっていた参加者数 約1200⇒約2400,米 1506,中 86,日 57全体では55%は企業系参加者,日本は企業系参加者の割合が多い

今年の内容Bengio 先生のトークはあったが,深層学習はそれほどないソーシャルネットは,近年の傾向どおり多かったヘルスケア系が増えてた(オバマ大統領の方針の影響?)

16

Page 17: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

ECMLPKDD2014この会議について機械学習のECMLとDMのPKDDが合併した会議で,例年9~10月ヨーロッパの会議で,知り合いを招待するような感じのアットホームさがある採録されるテーマの多様性は他の会議より高いと感じる

今年の基本情報ECMLとしては25回目,PKDDとしては18回目フランスのナンシーで開催参加者数 548,仏 101,独 64,米 49 アカデミアの割合が多い日本からの非研究系の企業参加者はお見かけしなかった

今年の内容伝統にそって理論系の話は手厚い深層学習は2セッションぐらいあって,去年より増えた

17

Page 18: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

RecSys2014この会議について推薦システムの専門会議,基本は米と欧の交互開催,例年9~10月ヒューマンコンピュータインタラクションと情報検索に加えて,ML/DMの人達が推薦システムをキーワードに集まった感じ研究系の発表と,企業系の招待トラックとがある

今年の基本情報今年で8回目,シリコンバレーで開催参加者数は500を超えた,企業・アカデミアは半々米50%,中5%,日4%と割合的には3位だが,アカデミアは少ない

今年の内容HCI系の研究が減って,ML/DM系の研究が増えた印象大企業はLinedInのA/BテストインフラXLNTなどどんどん高度化農家にセンサーを配るClimate,服飾の主観評価に人間計算を使うStitchFixなどの新興企業

18

Page 19: データマイニング・機械学習関連 の国際会議計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? とい ったことを数理的に記述して厳密に議論する

NIPS2014

この会議について機械学習系でICMLと双璧である会議,例年12月オーラルは選ばれた20件ほどと,他は多数のポスター発表がある.ポスターの前で何時間にわたって楽しそうに議論している

今年の基本情報今年で28回目,カナダのモントリオールで開催参加者数2400ほど,日本から企業・アカデミアの両方から参加

今年の内容深層学習は非常に盛り上がってる一方で,他の分野も我が道を行く深層学習のワークショップの人数は異様だった個人的には公正配慮型DMのワークショップがあるので始めて参加

19