prmu gc第二期 無形概念認識
TRANSCRIPT
無形概念認識の実現に向けてとんな技術か求められるのか ? 2016/12/16
PRMU12 月研究会 @ 鳥取大学京都大学教育学研究科・助教美濃研究室研究協力橋本敦史
PRMU グランドチャレンジ(第二期)
発表の概要■GC 第 1 期で,究極のチャレンジとして「画像に関するあらゆる意味の記述」が挙げられた■GC 第 2 期の案内文で「上記の究極のチャレンジすら,
CNN と RNN による ... 解かれつつある」とある■本当にそうだろうか??
発表の概要■GC 第 1 期で,究極のチャレンジとして「画像に関するあらゆる意味の記述」が挙げられた■GC 第 2 期の案内文で「上記の究極のチャレンジすら,
CNN と RNN による ... 解かれつつある」とある■本当にそうだろうか??– 物体や動作なとに偏っているのではないか?
冬,寒い?
この女性は旅行者で,道がわからない.ただし,焦っている様子はない
地元の人?
より抽象度の高い概念の認識も重要では?Photo Credit: faungg’s photo | Flickr
画像認識における課題の変化 - Wagstaff の指摘 @ ICML2012(1 から考える -
■ベンチマークデータセットと現実の問題に乖離がないか?– アヤメやマッシュルームの DS での評価に偏り過ぎていないか?– 精度向上が何%だったかではなく,現実の問題への寄与で評価するべき.■賛否両論ある.– 特定のベンチマーク DS にチューニングされたような手法はそもそも評価されない– アルゴリズムや手法の精度向上に注力するコミュニティも認めるべき■根幹は「基礎研究」と「応用研究」の乖離に対する指摘1) K. Wagstaff, “Machine learning that matters,” ICML2012.
深層学習の Impact は何だったのか?- 識別精度以外に焦点を当てて -■Fine-tuningの存在 (+github)– 基礎研究の精度向上や新手法が,数ヶ月後にはローンチされる?→ ImageNet などの DS はもはやアヤメの DS とは質的に異なる.■2012年の議論(基礎と応用の乖離)はもはや過去のもの.
( ただし,精度向上 (%) ではなく,現実の問題での寄与での評価が大事,という指摘は忘れては行けない)■ただし ...
何が出来ていて,何が未だなのか? - 深層学習時代のコールドスタート問題 ? -
■深層学習の恩恵に預かるには,良い教師データが必要– クラウドソーシング全盛?ただしマイクロワーカーはインド人?(インド人の認識が世界基準に???)– 複雑な教師データの作成コストは馬鹿にならない.– サービスの中で(明示的・暗黙的に)教師データを収集→ユーザ体験とのトレードオフ
■そもそも,良い教師データか作れない識別問題も存在するのでは?
これからのパターン認識の課題 - 有形概念認識から無形概念認識へ -
■従来の認識対象 : 物体,動作(物理的な動きで定義可能なもの)■そもそも正解が曖昧な概念の認識 ( 無形概念認識?)
–見えない =客観的な合意形成が難しい =主観によるばらつきが大きい形容詞,オノマトペ,心理状態, (抽象度の高い動作)–例 : 「大きい」 , 「寒い」 , 「サラサラ」 , 「よちよち」 , 「困っている」 ,「疲れている」 ...
→ 文脈や使用言語にも大きく影響を受ける.
自然言語と概念■言語・所属コミュニティによって概念の範囲が違う
– 疲れた ≠ müde (独)– 辛い しょっぱい≒ ???
■テキスト内の文脈によってもおそらく異なる– 「大きな」雪の結晶はかなり小さい - 川がサラサラ, 布がサラサラ
無形概念は使用者集団や文脈の中で意味か確定する
かわいい?
自然言語と画像 /映像の対応付け■Image Captioning, Image-Sentence
Alignment – 言語表現と画像中の要素の対応付け(物体,動作,物体間の位置など)自然言語表現から自動で教師ラベルを抽出→将来的には無形概念の取扱いも可能ではないか?
Pascal Sentence Dataset(2
■Pascal Dataset に Amazon MTurk で説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,” NAACL HLT 2010 Workshop
A bike painted pink sitting on a sidewalk outside a building.An old bicycle painted almost completely pink standing against a city building.A pink bicycle is in front of a buildingA pink bicycle is parked next to a brick and concrete building.A pink bicycle with matching tires.
Pascal Sentence Dataset(2
■Pascal Dataset に Amazon MTurk で説明文を付与
2)Cyrus Rashtchian et. al., “Collecting Image Annotations Using Amazon's Mechanical Turk,” NAACL HLT 2010 Workshop
A bike painted pink sitting on a sidewalk outside a building.An old bicycle painted almost completely pink standing against a city building.A pink bicycle is in front of a buildingA pink bicycle is parked next to a brick and concrete building.A pink bicycle with matching tires.
現状の技術で扱うのがかなり難しい部類
ほぼ有形な概念
物体同士の位置関係(次スライド)
Grounded Language Learning (3
3) Haonan Yu et. al., “Grounded Language Learning from Video Described with Sentences,” ACL2013
Unlike prior computer-vision approaches that learn from videos with verb labels or images with noun labels,our labels are sentences containing nouns, verbs, prepositions, adjectives, and adverbs物体 / 動作特徴は Hand-crafted.
Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,” CVPR2015
CNN+RNN による画像説明文の生成個々の単語の尤度も出力可能(左図)
Deep visual-semantic alignment(4
4)A. Karpathy and L. Fei-Fei, “Deep visual-semantic alignments for generating image descriptions,” CVPR2015
CNN+RNN による画像説明文の生成個々の単語の尤度も出力可能(左図)
”Visible” に近い形容詞,前置詞などしか扱えていない
何故” Visible” な概念しか扱えないのか■そもそも,教師データとなる文が Visibleな概念を説明する文になってしまっている– 画像そのものを説明させても,無形概念の記述は得られにくい?→ MTurk による正解データ作成の限界
冬,寒い?
こちらの女性は旅行者で,道がわからない.ただし,焦っている様子はない
地元の人?
我々の研究事例紹介 : 調理過程の食材認識 (5(詳細は 2017年 1 月研究会 オーガナイズドセッション 1「食」にて . )■クックパッドのレシピテキスト + 画像 で学習– 画像と文の対応は非常にゆるい■まだ (混合 )食材の種類の学習のみ– より無形な概念(食材の状態)も扱いたい
図.調理過程で現れる人参の識別器の自動学習例5)藤野他, “調理過程画像からの食材認識 ,” CVIM/PRMU/MVE 2017 1 月研究会
無形概念認識に向けて重要になると思う技術■より多様な「文と画像の組」による学習
– 表層的な説明文 → 深い概念的理解に基づく文– User Generated Contents などの活用 (cold start への一つの解 )
>レシピ,個人のブログ,ニュース ,... を教師とした学習■概念の自己組織化
– 「大きな雪の結晶」は「雪の結晶(有形概念)」の一形態→有形概念の「状態」として学習→テキストと対応付けるためには,画像のみでの区別が必要> 深層学習モデルの特徴量を教師無しで解析する技術の開発
まとめ■有形概念の認識は CNN+RNN で確かに出来てきた.■明確な形がない概念の認識はまだまだではないか?
– 学習データの問題■ラベルは明確でなければ → 形がないと客観的合意形成不可☓■自然言語の記述は既に大量に存在,無形の概念を記述可能
– 自然言語を教師データとする学習■現在 : 画像そのものの説明文で学習→有形概念ばかりになる■画像と共にある任意の記述での学習が必要
→文集合 コミュニティが違えば,異なる結果≒ =主観?
Q&A + コメント(その場で上手く答えられなかったので勝手にここでまとめてみる.)■見えている物体などと合わせて,その状態などの形容詞的な部分を認識する手法は既にある.そういうものもサーベイしてみては?– そういうものはもちろんあると思う.画像のみで形容詞やオノマトペを認識する限り,そこからは逃れられない.画像の外の知識や推論まで入れ始めると木村さんの発表のようになるかなと思っている.
■概念の程度問題,というのを考えたときには,一対比較のようなものでデータを作るのが妥当では?– GC ということで,無形概念というくくりで考えて一網打尽にする手法の作成,みたいなものを念頭においている.各論的な研究はもちろん大事だけれど,それだと CNN に多くの研究が駆逐されたのと似た状態になるのでは?と危惧している.駆逐される前にこちらから,無形概念を一網打尽にできるような手法を作ることがチャレンジだと思う.– むしろ,一対比較のようなものは,むしろ正解データとして利用するのはありかもしれないと思う.
Q&A + コメント(その場で上手く答えられなかったので勝手にここでまとめてみる.)
■ 「サラサラ」は単語が一緒でも,もう一つ上の概念などで異なる意味かもしれない.例えば,川がサラサラは音が関係している.音との共起性なども考えても面白いかもしれない.– 確かに,同じ言葉で違う意味かもしれないが,特にオノマトペの場合,音素には言語の違いに依らない共通の印象などがあることが知られている.そういう共通の部分と違う部分をパターン認識的に明確に数値化できると面白いと思う.もちろん, PRMU は画像よりの人が多いけれど,マルチモーダルな展開も十分にありえると思うし,やるべきだと思う.– 一方で,この提案の一つは,データセットを新たに作らなくても良い世界にする,ということでもある.そういう意味では,各論的なデータ作成は趣旨と外れるかもしれない.
Q&A + コメント(その場で上手く答えられなかったので勝手にここでまとめてみる.)
Q&A + コメント(その場で上手く答えられなかったので勝手にここでまとめてみる.)■正解がある,という風に囚われすぎているのではないか?– 正解,という言葉を使っているのは確かにミスリーディングかも知れない.寧ろ,個人的には「正解」は主観によっていくらでも変わりうる,と考えている.主観を定量化するにあたって,コミュニティのような集団を考えるのは一つのアプローチではないか?ということが主張.もちろん強烈な個性を持つ,他に類を見ない主観を持つ人は扱えないが,多くの人の主観は帰属コミュニティの影響を受けていて,そのコミュニティ毎にはある種の正解(客観的合意)が形成されていなければ,そもそもコミュニケーションというものそのものが成り立たないのではないかと思う.
Q&A + コメント(その場で上手く答えられなかったので勝手にここでまとめてみる.)■もっと具体的に何の役に立つかを考えた方が良いのではないか?– GC ということで,個別の研究の話ではないので,明確で具体的な案は不要と思い,敢えてそういう話はしなかったが,人と機械のコミュニケーションを伴う全てのことに非常に大きなインパクトを与えると思う.一方で,東ロボなどの GC を見るに, (有用かはさておき)もっとキャッチーな応用に問題を着地させておいても良かったかも知れない.例えば「空気を読む認識」のようなもの?