特別チュートリアル「パターン認識とメディア理解のフロンティア」...

© 2014 NTT DOCOMO, INC. All rights reserved.

モデレータ：　栄藤　＠mickbeanハッシュタグ　#MIRU2014 https://sites.google.com/site/miru2014okayama/online-question-form

特別チュートリアル「パターン認識とメディア理解のフロンティア」

1

https://sites.google.com/site/miru2014okayama/online-question-form

© 2014 NTT DOCOMO, INC. All rights reserved.2

15:15-16:00 【ゲスト講演】

「自然言語処理の現在と画像処理」徳永拓之（PFI）

16:00-16:45 【ゲスト講演】

「音楽理解技術の魅力」後藤真孝（産総研）

（休憩）

17:00-17:45 【ゲスト講演】「E-Commerceにおける機械学習・パターン認識・画像解析技術の活用の実際」森正弥（楽天技術研究所）

17:45-18:15 【パネルディスカッション】

「画像以外もこんなに面白い。」


ハッシュタグ　#MIRU2014 https://sites.google.com/site/miru2014okayama/online-question-form

画像以外も面白い．広い視野を->学生の皆さんへ境界分野を新たな研究フロンティアへ

3

モデレータ：　栄藤　＠mickbean

https://sites.google.com/site/miru2014okayama/online-question-form


1985　私の経験：隣の芝はまぶしい• 画像符号化の仕事を始めた時，画像の符号化レートにデジタル処理が追いつかず，できたのは適応サブサンプリングくらい．同僚の殆どはアナログ人間．

• 隣の音声処理グループ：　離散コサイン変換，FFTでの波形整形，窓関数，サブバンド符号化（ウェーブレット）くらいはやっていた．．

• 音声認識で使われる言語モデル（生成モデル）を用いた制約解法も早かった．モデルベースのノイズリダクションもそう

!

• 他分野で先行して利用され，画像分野で花開いたものに以下がある．（井尻）

boosting, random forests, graph cut, level set, MRF, structured　learning (CRF),

4


2007　私の経験：画像やっててよかった．• ドコモでデータマイニング，NLPの開発に従事

しゃべってコンシェルで多用している技術はSVM，CRF．

• 企業の技術経営者としてデータ処理分野には以下の見解．

１．パターン認識，機械学習に関する知識を教えるのは時間がかかる→大学で教育されていると助かる。基礎は重要．音声系・NLP系の学生は少ない．MIRU系の学生は多く，人材源としては最高．現実の問題をモデル化して解くという訓練を受けている．

２．特徴抽出：ドメインに関する前処理。センスが要る。

ビックデータのマイニングでもクレンジングでのセンスがかなり必要。 5


1. 画像特有の本質的な技術は何であって、

2. 音声・自然言語等他のメディア認識・理解と基本を共有する汎用的な技術？

6

Thanks to 仙田さん，田中さん，井尻さん

黄瀬先生，嶋田先生，大山先生


1. メディアに固有な技術

信号入力から特徴抽出まで．セグメンテーション，初期視覚，センシング

2. 汎用な技術

　それ以降、信号を記号に置き換えるまで。

技術の手法自体が、対象メディアに依存しなくなり

つつある．


結局，何が言いたい？• 画像理解は良い教育の場である．どうして？　→

ドメイン固有技術と汎用技術の切り分けを意識すれば，汎用技術部分をいろんなメディアに適用できる．

• ドメイン固有を馬鹿にする事なかれ．各ドメインの攻め方は似ていると思う：現実の事象をモデル化する方法論を腕に仕込む.　(←このマインドセットは大事．以下の３人のプレゼンに関連する）

• 画像に限定しないメディア理解の統合を考えてみよう．

• 特徴抽出を含めた一般的な認識技術を目指そう8


１．画像特有の本質的な技術

信号処理の観点：

・二次元もしくは三次元の空間的に相関を持つ信号の処理。時間を含めた四次元方向に、相関を持っても良い。

　・デノイジング、フィルタ等は、相関構造を直接利用。

　・特徴抽出は、時空間の相関構造を抽出する手段（エッジ・領域など）

　・パノラマ等は相関をベースに合成処理

　　・レーダ信号処理等における合成開口処理に類似だが、合成開口自体が画像処理と考えても良い。

・複数のセンサ利用した際には、幾何的情報を持った信号の処理

　・相関構造抽出＋幾何情報抽出（ステレオなど）

センシングの観点：

・基本的には電磁波のセンシング：

　・波長が特有（狭義には可視光領域）、この波長帯に特有の回折、屈折、反射現象を持つ。

　・多くの場合、3チャンネルの二次元信号を一組として利用

　・可視光領域の波長の信号(光線)の、方位、時間、波長変化、偏光等に関するセンシング、モデリングつまり、opticsや、computer graphicsなど

２．音声・自然言語等他のメディア認識・理解と基本を共有する汎用的な技術

・数理モデリング（IsingModel, Graphical Model, State Space Model, GMM,... ）

・最適化（非線形最適化（Newton, GaussNewton, etc）LevelSet, GraphCut,

L0/1最適化（ADMM, etc）、最短経路探索（DP, Dijkstra, A*, etc））

・機械学習（SVM, RVM, Boosting, RandomForests, DeepXXX, XXX-learning,Clustering, ...）

・確率、統計（MRF, CRF, ...）

・信号処理（種々のフィルタ(FIT, IIT, Kalman, Particle, ... ), DCT, FFT,Wavelet, ... ）

・センシング原理（Time of Flight, ... ）

技術分類（井尻さん）


画像特有

2D/3D object detection and recognition 3D shape recovery Biological　image and signal analysis Biologically motivated vision Coding,compression and super-resolution Cognitive and embodied vision　Computational photography Content based image retrieval and data mining　Display Hardware Early vision Face recognition Facial expression　recognition Fingerprint recognition Forensic biometrics and its　applications Gait recognition Gesture and Behavior Analysis Graphics　Recognition Illumination and reflectance modeling Image and video　analysis and understanding Image based modeling Image guidance and robot　guidance of interventions Industrial image analysis Inpainting and　Superimposing Iris recognition Low-level vision Medical image and　signal analysis 　Mixed and Augmented Reality Modeling, simulation andvisualization Motion, tracking and video analysis Occlusion and shadow　detection Physics-based vision Reconstruction and camera motion　estimation Representation and analysis in pixel/voxel images Scene　understanding Segmentation, features and descriptors Shape modeling　and encoding Signal, image and video processing Stereo and multiple　view geometry Texture and color analysis Vision for graphics Vision for　robotics !メディア共通・横断

Active and ensemble learning Affective computing Artificial neural　networks Biometric systems and applications Classification and　clustering Computer-aided detection and diagnosis Deep learning　Dimensionality reduction and manifold learning Character and Text　Recognition Document Understanding Enhancement, restoration and　filtering Handwriting Recognition Human body motion and gesture based　interaction Human Computer Interaction Machine learning and data mining　Model selection Multi-biometrics Multimedia analysis, indexing and　retrieval Other applications Other Biometric applications Perceptual　organization Performance Evaluation Semi-supervised learning and　spectral methods Statistical, syntactic and structural pattern　recognition Support vector machines and kernel methods Symbolic　learning Transfer learning 他メディア特有

Audio and acoustic processing and analysis Automatic speech and　speaker recognition Pattern Recognition for Art, Cultural Heritage and　Entertainment Pattern Recognition for Bioinformatics Pattern Recognition　for Search, Retrieval and Visualization Pattern Recognition for　Surveillance and Security Security issues Sensor array & multichannel　signal processing Signal Processing for Astronomy Soft biometrics　Speaker recognition Speech and natural language based interaction Spoken　language processing

ICPR2014 Keywordsの分類（大山先生）


徳永さんのプレゼン• word2vec でできるようになったという

king - man + woman -> queen 　　　　画像でもできるかな・・

• Paragraph Vector面白そう．

• Zero-Shot Learning by Convex Combination of Semantic Embeddings (Norouzi et al., 2014)の話は，実は凄い狙い．言語側ではtiger, lion, liger(tigerとlionの子）というデータがある．普通に分類を行い、 P(tiger) = 0.5, P(lion) = 0.5 という確率値を得る. tigerとlionの分散表現をその割合で混ぜ合わせる．得られた分散表現で最近傍探索を行い、ligerが得られたら…嬉しい．ただし. ligerは学習データに入っていないものとする．

• 統計的機械翻訳のコーパスに画像と説明文を使う．→最初はICCV10の cs.cmu.edu/~afarhadi/pape… で、その後 EMNLP11 dl.acm.org/citation.cfm?i… や牛久くんのACMMM11があり。

• 一般物体認識は記号接地（Symbol Grounding)問題の特殊な場合．（気づいてもらいたい，栄藤）

• Deep NNはほとんど２層以下．画像や音声とは問題の性質が違う．11


後藤さんのプレゼン• 音楽認識はなぜ面白いか．「複数の音が相互に関係し合いながら時間的な構造を形成して内容を伝える信号」の理解．

• 画像のオクルージョンは、音声だとマスキング効果に例えられるような気がするんだけど、人間の知覚とは違う音声認識や音楽理解では関係ないんだろうか…

• 混合音と単音を「同じ音階」と認知するのって、考えてみると意味不明ですね。色彩もおなじですが。音源分離も考えると、余計分からなくなります、

• オーケストラを聞いて各楽器のパートに分解できる人はオーケストラを編曲もできるだけの知識がある。機械学習で数種類の楽器を分離できるだけで、素人の能力はすでに超えてるね

• 音源分離とBSSは同じ問題と考えて良いのかな？音楽特有の技術もありそうですが。。

• songleは作曲の教育にも使えそうですね。

• 音楽に対する自動コメント．映像と自然言語の融合分野？

• アイマスMADについ苦笑して反応してしまった。負けた気がする。 12


森さんのプレゼン• 楽天スーパーDB, TERADATA

• Amazonの売り上げの３０％はリコメンデーションから生み出されている．楽天も同じ感覚か．

• 氷川きよしのCD売り上げは出来る．AKB48はプロモーションが非定常的なので無理．

• 日本はロングテール：じゃばらは食べられないが，じゃばらドリンクは売れた．

• 何も高度な技術を適用していない。何(データ・ログ）を対象とするか。どう適用するか。データ・ログ収集・基礎集計の戦略。変数に入れるためのデータの加工の仕方。データ・ログの標準化・統一化。あるいはそもそもの仮説の立て方。それらこそが重要。（激しく同意）

• 「機械学習」の知識に加え、大量データ処理の技術、分散プログラミングの技術もあわせて必要。

• 代表画像の表示はGoogleへのSEO対策として良い．

• ディープラーニングはディープな画像に使っている．

• アマゾン，ファイアフォンの『ファイアフライ』機能についてどう思いますか？13


質問１：•自然言語，音声・楽音理解，画像理解の融合分野で面白そうな研究テーマはあるでしょうか？あるとすればどのようなアプローチがありますか？

14


質問２：•画像理解の研究コミュニティが他分野に期待すること，v.v.

15

特別チュートリアル「パターン認識とメディア理解のフロンティア」...

Technology