静止画像分類の指文字認識への応用1 関西大学システム理工学部...
TRANSCRIPT
研究背景 手によるジェスチャは,ヒューマン・コンピュータ・インタラクション
(HCI)として魅力的である.
ソフトウェアによる実装
HCI としてはリアルタイム処理が不可欠 ↓
現行のジェスチャーシステムは数GHzのCPUを用いるため, コストや消費電力などの課題を抱えており、民生用応用に対応でき
る新たなソリューションが求められる
従来技術
新技術の特徴・従来技術との比較
ハードウェア化に適した画像認識アルゴリズムの提案 ↓
画像に含まれる画像認識技術を利用した 指文字認識を行う,認識チップの開発
↓ 低消費電力・小型,リアルタイム認識が可能なシステム
↓ 認識機能を「部品」として提供
高速CPUを使用できない機器にも簡単に リアルタイム画像認識機能を追加できる。
Input image P × Q, RGB color format
Binary quantization
Horizontal Histogram
Vertical Histogram
DFT DFT
Classifier Network
),( yxI
)(yPV)(xPH
)(nFH )(nFV
)),(),,(),,(( yxByxGyxR
Normalization Normalization
静止画認識アルゴリズム
<<分類ネットワーク>> 階層型ネットワーク ・ 自己組織化マップ(SOM) ・ヘブ学習による単層
ニューラルネットワーク
<<前処理>> 特徴ベクトルの抽出
<<入力画像>> RGB カラーフォーマット
Input image P × Q, RGB color format
Binary quantization
Horizontal Histogram
Vertical Histogram
DFT DFT
Classifier Network
),( yxI
)(yPV)(xPH
)(nFH )(nFV
)),(),,(),,(( yxByxGyxR
Normalization Normalization
指部分のみが赤い手袋を着用
R(x,y) > G(x,y) + B(x,y) AND
R(x,y) > ρ
前処理 / 2値化処理
手の指部分のみを抽出
前処理/水平・垂直ヒストグラムとDFT Input image P × Q, RGB color format
Binary quantization
Horizontal Histogram
Vertical Histogram
DFT DFT
Classifier Network
),( yxI
)(yPV)(xPH
)(nFH )(nFV
)),(),,(),,(( yxByxGyxR
Normalization Normalization
2値画像の垂直・水平方向の 1の数をカウント
ヒストグラム波形に含まれる 周波数成分
8
位置の変化にロバストな特徴ベクトル 場所が異なる,同一画像
得られたスペクトルは同じ
水平・垂直ヒストグラムの振幅スペクトルを使うことで, 位置変化に頑健な認識ができる
水平ヒストグラム +DFT
垂直ヒストグラム +DFT
分類ネットワーク(1)
クラス
SOM: 入力ベクトルのクラスタリング ヘブ学習ネットワーク: 入力ベクトルが属するクラスタからのクラス判定
特徴ベクトル
同一クラスのベクトルはいくつかのクラスタに属する
重みベクトル
SOMの学習
分類ネットワーク(2) SOM:入力ベクトルが属するクラスタに対応して,1つのニューロンが活性化される. Hebb ネットワーク:活性化したニューロン(クラスタ)とクラスの関係を検出して, ネットワークを構成する.
学習ベクトル 教師
データ
活性化されたニューロン(勝ちニューロン)
強い相関があると,そのニューロンと出力ノードの接続が確定される
画像の回転も含めた学習を行うことで対応
学習データセット
•CW ・・・ 時計回りに20°回転させた画像のデータセット •CCW ・・・ 反時計回りに20°回転させた画像のデータセット •MIX ・・・ -20°から20°の範囲で5°毎に 回転させた画像を混ぜたデータセット
テストデータセット -20°から20°の範囲で5°毎に回転させた画像のデータセット
画像回転に対する認識率 (1)
回転角度だけが異なるデータセットを用意
100枚/クラス,50枚を学習用,残り50枚をテストに使用 学習用データとテストデータは,同一被験者の異なる場所で 撮影されたデータを用いる
4種類のデータセット
認識実験 (1)
データセット 被験者 撮影場所 A1 学生 A Room 1 A2 学生 A Room 2 Y1 学生 Y Room 1 Y2 学生 Y Room 2
100枚/クラス
[1] Jianjie Zhang, Mingguo Zhao, “A Vision-based Gesture Recognition System for Human-Robot Interaction,” in Proc. IEEE Int’l Conf. on Robotics and Biomimetics (ROBIO), 2009, pp. 2096-2101, Dec. 2009. [2] Cao Chuqing, Li Ruifeng, “Real-Time Hand Posture Recognition Using Haar-Like and Topological Feature,” in Proc. Int’l Conf. on Machine Vision and Human-machine Interface, 2010, pp. 683-687, 2010. [3] Nasser H. Dardas, Nicolas D. Georganas, “Real-Time Hand Gesture Detection and Recognition Using Bag-of-Features and Support Vector Machine Techniques,” in IEEE Trans. on Instrumentation and Measurement, Vol. 60, No. 11,Nov. 2011.
認識実験 (2)
認識システム 認識文字数 認識率 提案手法(C=4096) 24 98.4% 提案手法(C=1024) 24 96.3%
[1] 20 95.0% [2] 8 95.4% [3] 10 96.2%
DFT処理の並列度と回路規模の関係
Number of Units
Num
ber
of o
ccup
ied
Slic
es
1443
755
Simplified DFT Simplified DFT with
CORDIC
論理合成結果(回路規模)
実用化に向けた課題
認識ネットワークとその学習機能の実装
特徴ベクトル抽出にくらべ,認識ネットワークの処理はそれほど重い処理ではないので,マイクロプロセッサによる処理が有効と考える.FPGAを使った実装であれば,MicroBlaze などのソフトプロセッサを使用すれば,システム全体をワンチップに収めることができる.
手袋不要の認識システム
肌色抽出による手の抽出手法により解決できると考える.