sushi is 何
TRANSCRIPT
寿司 is 何Image Classification Problem
by 3100
寿司とは何かWhat is Sushi?
人は寿司をどう認識するのか
* 視覚 * 嗅覚 * 触覚 * 味覚
人は寿司をどう認識するのか
* 視覚 ← * 嗅覚 * 触覚 * 味覚
常に100%正しい認識とは 限らない
が、まぁまぁ 上手くいっている
コンピュータの場合I’m sorry Dave, I’m afraid I can’t do that.
コンピュータは識別は得意
* 同じ画像ファイルかどうかは判断可能
* トリミングや回転をすると難しくなる
コンピュータは認識は苦手
* 似たような画像を探すのはまだ研究途上
* 形状や色、パターンなどを手がかりにする方法は制限のある環境でしか良い結果が出にくい
コンピュータでの画像認識
* SIFT、HOGなどといった手法を用いて、画像から特徴量を算出する * 得られた特徴量からkNNなどの機械学習によって似た特徴量で画像を分類する * 良い分類が得られるまでパラメータを調整する
SIFT
* 画像中の特徴的な点を128次元の特徴量として算出する * 回転、縮小に強く、雑多な画像の中でも検出可能
* パノラマ写真の合成などで活用
HOG
(http://www.di.ens.fr/willow/teaching/recvis09/final_project/)
HOG
* 画像を区分分けし、各輝度の勾配方向を算出する * 画像の中から似た形状を探すのに強い
* 自動運転車の車載カメラで人間の識別など
そして突然のブレイクスルーBig brother is watching you.
Deep Learning• 大規模ニューラルネットワークを使った画像分類が2012年の大規模画像認識コンテスト(ILSVRC)で優勝
• ニューラルネットワークを多層構造にすることで、人間が獲得している認識と同じ仕組みを目指す
• 2013年以降、ネットワーク巨大化合戦
‘コンピューターは猫がどういうものであるか人間に教えられること無く、自力で理解した。’
(Google、脳のシミュレーションで成果……猫を認識 | RBB TODAY http://www.rbbtoday.com/article/2012/06/27/90985.html )
寿司を認識するI’m addicted to Negi-toro.
Deep Learning
-> Caffeというツールで体験できる
-> 理論的枠組の知識が足らずよくわからない
-> 専用GPUマシンないと時間かかるらしい
-> パス
HOG
-> 寿司を検出するのは得意そう
-> 寿司フォーカス写真を作りたいわけではない
(顔フォーカスにHOG使えそう)
-> 寿司の種類を分類できるか不明
-> パス
SIFT
-> 割りと基本(古典的)ぽい
-> golang実装はなかったが、python実装を見つけた
-> caltech101(101カテゴリ画像)の分類は精度が良いみたい
-> 君に決めた!
デモ My demo was terrible. I was so young.
実装
* python with scipy, numpy, vlfeat * flask (for web demo) * flickrpy (for images)
制限など
* 今回は身近な16種類の分類
* 各ネタごとに50枚の画像を用意(100枚は時間的に無理でした)
* それでもモデル生成に約半日かかった
* 認識精度は約40%。。。
改善点
* 学習用画像数を増やす
* SIFTは色情報を使わない?のだがRGBごとにSIFTを算出する方法があるらしい
* nginx使うとかでデモサイトを利用しやすく
画像分類の限界
“It’s 甘エビ!”, she says.YOU CAN (NOT) REDO.
(今回の)画像分類の限界
* 先に定義されていないものについては語り得ない * 現実問題として、全世界の事象を認識させるには、時間も空間も足りない
今後の展望May the Force be with you!
やはりDeep Learningか
* Caffeに再挑戦したい
* その前にきちんと勉強する必要がありそう
* 全然仕事に関係ないぞ、これ。
最近読み始めた本
– Fin
輪読メンバー絶賛募集してます。
参考資料• 3日で作る高速特定物体認識システム (2) SIFT
特徴量の抽出 - 人工知能に関する断創録
• Caffeで手軽に画像分類 - Yahoo! JAPAN Tech
Blog
• ねこと画像処理 part 1 – 素材集め « Rest Term