pfiセミナー2015/05/28 食とit
TRANSCRIPT
自己紹介• 加賀谷北斗 (Hokuto KAGAYA)• 東大工学部電子情報卒,現在学際情報学府修士 2 年• コンピュータビジョン・機械学習に興味• 今日は専門の話メインでします
• 2014 年度サマーインターン• テーマ:映像解析 / 監視カメラ上の人物の頭部位置検出と方向推
定
• 現在は PFN にてアルバイト中
• 初めてなのでお手柔らかにお願いします
食事画像専用 SNS 等の登場
http://miil.me/ http://pecolly.jp/http://www.uniqlo.com/jp/lifetools/recipe/
1. 食と IT 概観
ワインラベル認識• App Store 上では未だに人気アプリ
1. 食と IT 概観
http://k-tai.impress.co.jp/docs/news/20140522_649700.html
AR/VR 系の研究• 「 A のときに人間は B する」という心理学の知見
• さまざまなハードウェア,ソフトウェアを用いてこれを仮想的,重畳的に引き起こす• 元々の知見に基づいた行動変容が期待できる
味覚センサ・ディスプレイ• 高分子膜により生体膜を模倣した味覚センサの登場[Toko 98]
• 砂糖を利用した「食べられる」モデルを出力する 3D プリンタ (The CandyFab Project, 2006)
http://candyfab.org
2. AR/VR
MetaCookie[Narumi+ 2011 など ]
• 人間が感じる「味」は化学物質と舌との反応だけで決まるものではなく,その食べ物を食べている時の他の感覚に左右されて変わる• これを風味と呼ぶ
• 特に「嗅覚」「視覚」は味覚に非常に大きな影響を与えるとされている• ex. かき氷のシロップ
• どうせ一緒なら
2. AR/VR
俺はスイで。
MetaCookie• https://www.youtube.com/watch?v=3GnQE9cCf84
• クッキーを画像で認識,視覚情報および嗅覚情報を重畳する
2. AR/VR
拡張満腹感[Narumi+ 2012] など
• 人間が「満腹」を感じるのは・・• 食事をする際の環境,食事自体の環境がそれぞれ大きく影響• ex. 誰と食べるか,どこで食べるか,サイズ感,食器
• その中で,食品自体のサイズ感に注目• 比較的容易に処理可能
• サイズを画像処理的に変化させることで満腹感を人工的に操作する
2. AR/VR
拡張満腹感
https://www.youtube.com/watch?v=KzFNWLL0l-o
2. AR/VR
rigid MLS method という手法
食事画像認識
ご飯189 kcal
たくわん23 kcal
キャベツのサラダ90 kcal
スンドゥブ456 kcal
* Displayed calories are just examples.
30 3. 認識
• For health, for life-log, for entertainment• FoodLog App by our lab. and foo.log Inc. [1]
• Food record with smartphone
食事画像認識31
[1] http://app.foodlog.jp/
3. 認識
Problem Definition•Detection
•Classification
•Estimation
32
Where is a food region?
What is this food?
What amount is this food?What calorie does this food have?
3. 認識
食事認識研究の事例TADA Project (パデュー大学 )
スマートフォン等のデバイス上で動作することを想定した包括的な食事記録・評価のフレームワークを提案
食事領域推定/食事分類/量推定などにも取り組む1. 食事品目の分類に有効な特徴量は何か? [Bosch+ 2011]→色(とか局所特徴量)がやっぱり大事!
2. 食事の量の自動推定 [Chae+ 2011]→食事ごとに別のテンプレートを使う
33 3. 認識
食事認識研究の事例柳井研究室 ( 電気通信大学 )
精力的に「食事画像」をテーマとした研究を行う1. Multi Kernel Learning を用いて複数の特徴を結合して食事認識を行う [Joutou+ 2009]
2. 共起情報の利用 [Matsuda+ 2012]3. スマートフォン上で利用できる食事認識[Kawano+ 2014]識別器の重み圧縮を行うことで省メモリかつ高速なモバイル上での動作を実現
34 3. 認識
食事認識研究の事例[Yang+ 2011] (CVPR!)
アメリカのファストフードがデータセット画素レベルでのソフトラベリングが前処理画素中の 2点の関係を特徴量にして学習して分類
要するに独自の新たな特徴量を考案28% の精度
35 3. 認識
食事認識研究の事例Platemate [Noronha+ 2011]
画像をアップロードすると裏で管理栄養士さんが写真からカロリーを教えてくれる!手軽にクラウドソーシング!
実は同様の仕組みのアプリがすでにけっこうある (ex. 撮って栄養,カロナビ)
36
http://imd.jp/app/km.html
3. 認識
食事認識研究の事例最近まであまりデファクトのデータセットがなかった (cf. Caltech Bird)
(PFID [Chen+ 2009])Food-101 [Bossard+ 2014]UEC Food-256 [Kawano+ 2014](FoodLog Dataset [Kagaya+ 2014])
37 3. 認識
FoodLog App個人の記録に特化した食事認識
スマートフォンを用い,領域と量の指定はインタラクティブに行う
現在アプリでは空間情報を用いたカラーヒストグラムを特徴として過去の食事から画像検索
領域 /量推定の不確定さを解消されるただし手間は増える
「検索」なのでわかりやすいしかし,個人のログを外れるような食事には対応できない
38 3. 認識
Convolutional Neural Networks (CNN)
深層学習アルゴリズムのひとついわゆる Deep Learning/多層 NN
主に畳み込み層とプーリング層で構成
物体認識のコンテストで優勝するなど広く応用される画像からの特徴抽出が自動で行える
けっきょくとってくる特徴がとても大事だ食事分類に適した特徴を抽出できる(のではないか?)
42 3. 認識
CNN による認識FoodLog App に実際にユーザが登録した画像を用いてデータセットを作成
画像登録数上位 10種に限定この 10種から 900枚ずつ抽出合計 9000枚を 6 分割し, 4 つを学習, 1 つを検証, 1 つをテストに用いる
43 3. 認識
CNN による認識結果(他手法との比較)
Bosch の結果,杉山の結果 [Sugiyama 修士論文 ]色, GIST(大域特徴量), SIFT(局所特徴量)などと SVM の組み合わせが有効との結果
空間情報を利用した色特徴量+ SVM , GIST+ SVM , ScSPM[7]
44
層数 特徴マップ 特徴マップのサイズ 正規化 データセット 正解率
2層 32-32 5-51回,
LRN(across map)6-fold cross validation 73.70%
手法 データセット 正解率
SPM + Color + SVM 6-fold cross validation 54.63%
GIST + SVM 6-fold cross validation 52.63%
ScSPM 6-fold cross validation 60.47%
3. 認識
Yet Another Approach (1)電子レンジの漏れ電流を用いた食事認識
[Nakamata+ 2014]
•電子レンジを利用中はマイクロ波が漏れる•そのマイクロ波の時間変化は,食品によって異なるため,機械学習を適用して食品を認識
47 3. 認識
Yet Another Approach (2)FoodBoard: 食事認識用まな板 [Cuong+, 2013]
まな板で調理中にナマの食材たちを認識するプライバシー問題への対処,特別なカメラなどを用意するためにキッチンの
ものの配置等を動かす必要がない
光ファイバーが敷き詰められたまな板を使う
49 3. 認識
Problem一般食事画像認識を考えると・・
問題点は何か?1. number of categories is supermassive• FoodLog に登録されている (ユニーク )料理数 : 68,566• Cookpad投稿数 : 200万超 (11/19 現在)
2. intra-class variance is very high
3. inter-class variance is low
3. 認識
これはつまりFine-Grained Visual Categorization という分野に属
する(あるいは近い)犬や鳥の場合と少し違うのは,料理に階層構造が n(>2)層以上存
在すること,ほぼ同一の内容を示す異名のオブジェクトが存在してしまうことなど
1 の解決策:名寄せ?「カレー」「カレーライス」「ライスカレー」「ポークカレー」
2 の解決策:個人性の利用同一人物は同じようなそれをよく食べるという仮定
3 の解決策:メタデータ,画像以外の情報の利用
3. 認識
まとめ• 食事に関連する最近の研究・サービスを主に CV ・ML ・ AR/VR 関係のことについて紹介した
• 食事は人間が生きる以上かならず必要なので,それに係る研究は非常に重要
• 食事認識はいくつかとても難しいポイントがあり,まだ解決できていない部分も多い• しかしデファクトのデータセットの登場など進歩も見られる
参考文献• [Narumi+ 2011] Takuji Narumi, Shinya Nishizaka, Takashi Kajinami, Tomohiro Tanikawa
and Michitaka Hirose, "MetaCookie+", IEEE VR 2011 Research Demo, pp.265-266, Mar. 2011.
• [Narumi+ 2012] Takji Narumi, Yuki Ban,Takashi Kajinami, Tomohiro Tanikawa and Michitaka Hirose, “Augmented Perception of Satiety: Controlling Food Consumption by Changing Apparent Size of Food with Augmented Reality”, CHI 2012 Proceedings of the 2012 ACM annual conference on Human Factors in Computing Systems, pp.109-118, Austin Teaxs, USA, May 5-10, (2012)
• [Joutou+ 09] Taichi Joutou and Keiji Yanai: A Food Image Recognition System with Multiple Kernel Learning, International Conference on Image Processing (ICIP), (2009).
• [Matsuda+ 2012] Yuji Matsuda and Keiji Yanai: Multiple-Food Recognition Considering Co-occurrence Employing Manifold Ranking, IAPR International Conference on Pattern Recognition (ICPR), (2012)
• [Bosch+ 2011] M. Bosch, F. Zhu, N. Khanna, C.J. Boushey, and E.J. Delp, "Combining Global and Local Features for Food Identification and Dietary Assessment," Proceedings of the International Conference on Image Processing,pp. 1789-1792, September 2011, Brussels, Belgium. DOI: 10.1109/ICIP.2011.6115809
• [Branson+ 2010] S. Branson et al., “Visual Recognition with Human in the Loop”, ECCV 2010
• [Nakamata+ 2014] Nakamata, A., Asami, T., Wei, W., & Kawahara, Y. (2014, September). Feature optimization for recognizing food using power leakage from microwave oven. In Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing: Adjunct Publication (pp. 537-546). ACM.
参考文献• [Cuong+ 2013] Cuong, P., SCHOENING, J., Tom, B., Thomas, P., & Patrick, O. (2013).
FoodBoard: Surface Contact Imaging for Food Recognition.• [Chen+ 2009] Chen, M., Dhingra, K., Wu, W., Yang, L., Sukthankar, R., & Yang, J. (2009,
November). PFID: Pittsburgh fast-food image dataset. In Image Processing (ICIP), 2009 16th IEEE International Conference on (pp. 289-292). IEEE.
• [Bossard+ 2014] Bossard, L., Guillaumin, M., & Van Gool, L. (2014). Food-101–Mining Discriminative Components with Random Forests. In Computer Vision–ECCV 2014 (pp. 446-461). Springer International Publishing.
• [Kawano+ 2014] Kawano, Y., & Yanai, K. (2014, November). FoodCam-256: A Large-scale Real-time Mobile Food RecognitionSystem employing High-Dimensional Features and Compression of Classifier Weights. In Proceedings of the ACM International Conference on Multimedia (pp. 761-762). ACM.
• [Kagaya+ 2014] Kagaya, H., Aizawa, K., & Ogawa, M. (2014, November). Food Detection and Recognition Using Convolutional Neural Network. In Proceedings of the ACM International Conference on Multimedia (pp. 1085-1088). ACM.
• [Chae+ 2011] J. Chae, I. Woo, S. Kim, R. Maciejewski, F. Zhu, E.J. Delp, C.J. Boushey, and D.S. Ebert, "Volume Estimation Using Food Specific Shape Templates in Mobile Image-Based Dietary Assessment," Proceedings of the IS&T/SPIE Conference on Computational Imaging IX, Vol. 7873, pp. 1-8, January 2011
• [Noronha+ 2011] Jon Noronha, Eric Hysen, Haoqi Zhang, and Krzysztof Z. Gajos. Platemate: Crowdsourcing nutrition analysis from food photographs. In Proceedings of the 24th annual ACM symposium on User interface software and technology, UIST ’11, pp. 1–12. ACM, 2011.
参考文献• [Toko 98] Toko, K. (1998). RETRACTED: Electronic tongue. Biosensors and
Bioelectronics, 13(6), 701-709.• [Liu+ 2013] Liu, S., Feng, J., Song, Z., Zhang, T., Lu, H., Xu, C., & Yan, S. (2012,
October). Hi, magic closet, tell me what to wear!. In Proceedings of the 20th ACM international conference on Multimedia (pp. 619-628). ACM.
• [ 永田ら 2014] 永田ら , スマートフォンによる短時間睡眠支援に向けた入眠時刻の推定 , 情報処理学会研究報告高度交通システムとスマートコミュニティ , 2014