特別チュートリアル「パターン認識とメディア理解のフロンティア」...

15
© 2014 NTT DOCOMO, INC. All rights reserved. モデレータ: 栄藤 @mickbean ハッシュタグ #MIRU2014 https://sites.google.com/site/miru2014okayama/online-question-form 特別チュートリアル 「パターン認識とメディア理解のフロンティア」 1

Upload: ntt-docomo

Post on 15-Jan-2015

2.008 views

Category:

Technology


0 download

DESCRIPTION

特別チュートリアル「パターン認識とメディア理解のフロンティア」 特別チュートリアルのねらい 工学は自然科学の知見に基礎を置きながら、産業、社会への具体的貢献を持って実証される学問である。それゆえに基礎技術に集中すればするほど、 その実証分野は周辺分野への展開が重要となる。その実例を示そう。 MIRU長尾賞は長尾眞先生の功績を記念して授与される 本会議における最優秀論文賞であるが、長尾先生の功績は画像処理だけでなく 機械翻訳を含む自然言語処理にもあることはよく知られている。 とにかく先生ご自身が『面白い』、と思う事に取り組まれた結果は単純ではなく 、功績の深さだけでなくその幅にもある。 今回、3人の講師を招へいした。パターン認識の実利用の状況、 データベースとの融合、自然言語処理との差異、音声・楽音処理の諸問題を説明していただく。 パネルディスカッションでは、他分野での応用の広がりを総括した上で、 メディア理解技術の有効性を実証する上での課題を議論したい。 さらに画像以外のメディアを扱う研究者が議論することで、 AI-Complete(AI完全)問題へのアナロジーから画像に限らず取り組むべき問題の本質が掴めれば幸いである。 特別チュートリアルオーガナイザ: 栄藤 稔 開催要領 日時 2014年7月28日(月) 午後3時15分~午後6時15分 会場 MIRUメイン会場(岡山コンベンションセンター・コンベンションホール)

TRANSCRIPT

Page 1: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

モデレータ: 栄藤 @mickbeanハッシュタグ #MIRU2014 https://sites.google.com/site/miru2014okayama/online-question-form

特別チュートリアル 「パターン認識とメディア理解のフロンティア」

1

Page 2: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.2

15:15-16:00 【ゲスト講演】

「自然言語処理の現在と画像処理」徳永拓之(PFI)

16:00-16:45 【ゲスト講演】

「音楽理解技術の魅力」後藤真孝(産総研)

(休憩)

17:00-17:45 【ゲスト講演】「E-Commerceにおける機械学習・パターン認識・画像解析技術の活用の実際」森正弥(楽天技術研究所)

17:45-18:15 【パネルディスカッション】

「画像以外もこんなに面白い。」

Page 3: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

ハッシュタグ #MIRU2014 https://sites.google.com/site/miru2014okayama/online-question-form

画像以外も面白い.広い視野を->学生の皆さんへ 境界分野を新たな研究フロンティアへ

3

モデレータ: 栄藤 @mickbean

Page 4: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2013 NTT DOCOMO, INC. All rights reserved.

1985 私の経験:隣の芝はまぶしい• 画像符号化の仕事を始めた時,画像の符号化レートにデジタル処理が追いつかず,できたのは適応サブサンプリングくらい.同僚の殆どはアナログ人間.

• 隣の音声処理グループ: 離散コサイン変換,FFTでの波形整形,窓関数,サブバンド符号化(ウェーブレット)くらいはやっていた..

• 音声認識で使われる言語モデル(生成モデル)を用いた制約解法も早かった.モデルベースのノイズリダクションもそう

!

• 他分野で先行して利用され,画像分野で花開いたものに以下がある.(井尻)

boosting, random forests, graph cut, level set, MRF, structured learning (CRF),

4

Page 5: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2013 NTT DOCOMO, INC. All rights reserved.

2007 私の経験:画像やっててよかった.• ドコモでデータマイニング,NLPの開発に従事

しゃべってコンシェルで多用している技術はSVM,CRF.

• 企業の技術経営者としてデータ処理分野には以下の見解.

1.パターン認識,機械学習に関する知識を教えるのは時間がかかる→大学で教育されていると助かる。基礎は重要.音声系・NLP系の学生は少ない.MIRU系の学生は多く,人材源としては最高.現実の問題をモデル化して解くという訓練を受けている.

2.特徴抽出:ドメインに関する前処理。センスが要る。

ビックデータのマイニングでもクレンジングでのセンスがかなり必要。 5

Page 6: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

1. 画像特有の本質的な技術は何であって、

2. 音声・自然言語等他のメディア認識・理解と基本を共有する汎用的な技術?

6

Thanks to 仙田さん,田中さん,井尻さん

黄瀬先生,嶋田先生,大山先生

Page 7: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.7

1. メディアに固有な技術

信号入力から特徴抽出まで.セグメンテーション,初期視覚,センシング

2. 汎用な技術

 それ以降、信号を記号に置き換えるまで。

技術の手法自体が、対象メディアに依存しなくなり

つつある.

Page 8: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

結局,何が言いたい?• 画像理解は良い教育の場である.どうして? →

ドメイン固有技術と汎用技術の切り分けを意識すれば,汎用技術部分をいろんなメディアに適用できる.

• ドメイン固有を馬鹿にする事なかれ.各ドメインの攻め方は似ていると思う:現実の事象をモデル化する方法論を腕に仕込む. (←このマインドセットは大事.以下の3人のプレゼンに関連する)

• 画像に限定しないメディア理解の統合を考えてみよう.

• 特徴抽出を含めた一般的な認識技術を目指そう8

Page 9: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.9

1.画像特有の本質的な技術

信号処理の観点:

・二次元もしくは三次元の空間的に相関を持つ信号の処理。時間を含めた四次元方向に、相関を持っても良い。

 ・デノイジング、フィルタ等は、相関構造を直接利用。

 ・特徴抽出は、時空間の相関構造を抽出する手段(エッジ・領域など)

 ・パノラマ等は相関をベースに合成処理

  ・レーダ信号処理等における合成開口処理に類似だが、合成開口自体が画像処理と考えても良い。

・複数のセンサ利用した際には、幾何的情報を持った信号の処理

 ・相関構造抽出+幾何情報抽出(ステレオなど)

センシングの観点:

・基本的には電磁波のセンシング:

 ・波長が特有(狭義には可視光領域)、この波長帯に特有の回折、屈折、反射現象を持つ。

 ・多くの場合、3チャンネルの二次元信号を一組として利用

 ・可視光領域の波長の信号(光線)の、方位、時間、波長変化、偏光等に関するセンシング、モデリングつまり、opticsや、computer graphicsなど

2.音声・自然言語等他のメディア認識・理解と基本を共有する汎用的な技術

・数理モデリング(IsingModel, Graphical Model, State Space Model, GMM,... )

・最適化(非線形最適化(Newton, GaussNewton, etc)LevelSet, GraphCut,

L0/1最適化(ADMM, etc)、最短経路探索(DP, Dijkstra, A*, etc))

・機械学習(SVM, RVM, Boosting, RandomForests, DeepXXX, XXX-learning,Clustering, ...)

・確率、統計(MRF, CRF, ...)

・信号処理(種々のフィルタ(FIT, IIT, Kalman, Particle, ... ), DCT, FFT,Wavelet, ... )

・センシング原理(Time of Flight, ... )

技術分類(井尻さん)

Page 10: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.10

画像特有

2D/3D object detection and recognition 3D shape recovery Biological image and signal analysis Biologically motivated vision Coding,compression and super-resolution Cognitive and embodied vision Computational photography Content based image retrieval and data mining Display Hardware Early vision Face recognition Facial expression recognition Fingerprint recognition Forensic biometrics and its applications Gait recognition Gesture and Behavior Analysis Graphics Recognition Illumination and reflectance modeling Image and video analysis and understanding Image based modeling Image guidance and robot guidance of interventions Industrial image analysis Inpainting and Superimposing Iris recognition Low-level vision Medical image and signal analysis  Mixed and Augmented Reality Modeling, simulation andvisualization Motion, tracking and video analysis Occlusion and shadow detection Physics-based vision Reconstruction and camera motion estimation Representation and analysis in pixel/voxel images Scene understanding Segmentation, features and descriptors Shape modeling and encoding Signal, image and video processing Stereo and multiple view geometry Texture and color analysis Vision for graphics Vision for robotics !メディア共通・横断

Active and ensemble learning Affective computing Artificial neural networks Biometric systems and applications Classification and clustering Computer-aided detection and diagnosis Deep learning Dimensionality reduction and manifold learning Character and Text Recognition Document Understanding Enhancement, restoration and filtering Handwriting Recognition Human body motion and gesture based interaction Human Computer Interaction Machine learning and data mining Model selection Multi-biometrics Multimedia analysis, indexing and retrieval Other applications Other Biometric applications Perceptual organization Performance Evaluation Semi-supervised learning and spectral methods Statistical, syntactic and structural pattern recognition Support vector machines and kernel methods Symbolic learning Transfer learning 他メディア特有

Audio and acoustic processing and analysis Automatic speech and speaker recognition Pattern Recognition for Art, Cultural Heritage and Entertainment Pattern Recognition for Bioinformatics Pattern Recognition for Search, Retrieval and Visualization Pattern Recognition for Surveillance and Security Security issues Sensor array & multichannel signal processing Signal Processing for Astronomy Soft biometrics Speaker recognition Speech and natural language based interaction Spoken language processing

ICPR2014 Keywordsの分類(大山先生)

Page 11: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

徳永さんのプレゼン• word2vec でできるようになったという

king - man + woman -> queen     画像でもできるかな・・

• Paragraph Vector面白そう.

• Zero-Shot Learning by Convex Combination of Semantic Embeddings (Norouzi et al., 2014)の話は,実は凄い狙い.言語側ではtiger, lion, liger(tigerとlionの子)というデータがある.普通に分類を行い、 P(tiger) = 0.5, P(lion) = 0.5 という確率値を得る. tigerとlionの分散表現をその割合で混ぜ合わせる.得られた分散表現で最近傍探索を行い、ligerが得られたら…嬉しい.ただし. ligerは学習データに入っていないものとする.

• 統計的機械翻訳のコーパスに画像と説明文を使う.→最初はICCV10の cs.cmu.edu/~afarhadi/pape… で、その後 EMNLP11 dl.acm.org/citation.cfm?i… や牛久くんのACMMM11があり。

• 一般物体認識は記号接地(Symbol Grounding)問題の特殊な場合.(気づいてもらいたい,栄藤)

• Deep NNはほとんど2層以下.画像や音声とは問題の性質が違う.11

Page 12: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

後藤さんのプレゼン• 音楽認識はなぜ面白いか.「複数の音が相互に関係し合いながら時間的な構造を形成して内容を伝える信号」の理解.

• 画像のオクルージョンは、音声だとマスキング効果に例えられるような気がするんだけど、人間の知覚とは違う音声認識や音楽理解では関係ないんだろうか…

• 混合音と単音を「同じ音階」と認知するのって、考えてみると意味不明ですね。色彩もおなじですが。音源分離も考えると、余計分からなくなります、

• オーケストラを聞いて各楽器のパートに分解できる人はオーケストラを編曲もできるだけの知識がある。機械学習で数種類の楽器を分離できるだけで、素人の能力はすでに超えてるね

• 音源分離とBSSは同じ問題と考えて良いのかな?音楽特有の技術もありそうですが。。

• songleは作曲の教育にも使えそうですね。

• 音楽に対する自動コメント.映像と自然言語の融合分野?

• アイマスMADについ苦笑して反応してしまった。負けた気がする。 12

Page 13: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

森さんのプレゼン• 楽天スーパーDB, TERADATA

• Amazonの売り上げの30%はリコメンデーションから生み出されている.楽天も同じ感覚か.

• 氷川きよしのCD売り上げは出来る.AKB48はプロモーションが非定常的なので無理.

• 日本はロングテール:じゃばらは食べられないが,じゃばらドリンクは売れた.

• 何も高度な技術を適用していない。何(データ・ログ)を対象とするか。どう適用するか。データ・ログ収集・基礎集計の戦略。変数に入れるためのデータの加工の仕方。データ・ログの標準化・統一化。あるいはそもそもの仮説の立て方。それらこそが重要。(激しく同意)

• 「機械学習」の知識に加え、大量データ処理の技術、分散プログラミングの技術もあわせて必要。

• 代表画像の表示はGoogleへのSEO対策として良い.

• ディープラーニングはディープな画像に使っている.

• アマゾン,ファイアフォンの『ファイアフライ』機能についてどう思いますか?13

Page 14: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

質問1:•自然言語,音声・楽音理解,画像理解の融合分野で面白そうな研究テーマはあるでしょうか?あるとすればどのようなアプローチがありますか?

14

Page 15: 特別チュートリアル「パターン認識とメディア理解のフロンティア」 ディスカッションペーパー

© 2014 NTT DOCOMO, INC. All rights reserved.

質問2:•画像理解の研究コミュニティが他分野に期待すること,v.v.

15