静止画像分類の指文字認識への応用1 関西大学システム理工学部...

1

関西大学システム理工学部

電気電子情報工学科

肥川宏臣

静止画像分類の指文字認識への応用

研究背景手によるジェスチャは，ヒューマン・コンピュータ・インタラクション

（ＨＣＩ)として魅力的である．

ソフトウェアによる実装

ＨＣＩとしてはリアルタイム処理が不可欠 ↓

現行のジェスチャーシステムは数ＧＨｚのＣＰＵを用いるため，コストや消費電力などの課題を抱えており、民生用応用に対応でき

る新たなソリューションが求められる

従来技術

新技術の特徴・従来技術との比較

ハードウェア化に適した画像認識アルゴリズムの提案 ↓

画像に含まれる画像認識技術を利用した指文字認識を行う，認識チップの開発

↓ 低消費電力・小型，リアルタイム認識が可能なシステム

↓ 認識機能を「部品」として提供

高速ＣＰＵを使用できない機器にも簡単にリアルタイム画像認識機能を追加できる。

ＡＳＬアルファベット指文字 (American Sign Language)

提案認識手法を２４個のアルファベット指文字認識へ応用

`z’ はダイナミック

ジェスチャなので対象としない

Input image P × Q, RGB color format

Binary quantization

Horizontal Histogram

Vertical Histogram

DFT DFT

Classifier Network

),( yxI

)(yPV)(xPH

)(nFH )(nFV

)),(),,(),,(( yxByxGyxR

Normalization Normalization

静止画認識アルゴリズム

<<分類ネットワーク>> 階層型ネットワーク・自己組織化マップ（ＳＯＭ）・ヘブ学習による単層

ニューラルネットワーク

<<前処理>> 特徴ベクトルの抽出

<<入力画像>> ＲＧＢカラーフォーマット

Input image P × Q, RGB color format

Binary quantization


Vertical Histogram

DFT DFT

Classifier Network

),( yxI

)(yPV)(xPH

)(nFH )(nFV

)),(),,(),,(( yxByxGyxR


指部分のみが赤い手袋を着用

R(x,y) > G(x,y) + B(x,y) AND

R(x,y) > ρ

前処理／２値化処理

手の指部分のみを抽出

前処理／水平・垂直ヒストグラムとＤＦＴ Input image P × Q, RGB color format

Binary quantization


Vertical Histogram

DFT DFT

Classifier Network

),( yxI

)(yPV)(xPH

)(nFH )(nFV

)),(),,(),,(( yxByxGyxR


２値画像の垂直・水平方向の１の数をカウント

ヒストグラム波形に含まれる周波数成分

8

位置の変化にロバストな特徴ベクトル場所が異なる，同一画像

得られたスペクトルは同じ

水平・垂直ヒストグラムの振幅スペクトルを使うことで，位置変化に頑健な認識ができる

水平ヒストグラム＋ＤＦＴ

垂直ヒストグラム＋ＤＦＴ

面積 S

面積 S/2

ヒストグラム（水平）

DFT

DFT 1/2倍

2 倍

(A)

(B) 倍 21

面積1/2倍

大きさ補正（１）

ステップ1 : 振幅方向の正規化

C1 : 正規化定数 n : 周波数番号

正規化前正規化後

倍

大きさ補正（２）

ステップ2 : 周波数方向の正規化

大きさ補正（３）

周波数番号（ｋ２・ｎ）が非整数

分類ネットワーク（１）

クラス

ＳＯＭ：入力ベクトルのクラスタリングヘブ学習ネットワーク：入力ベクトルが属するクラスタからのクラス判定

特徴ベクトル

同一クラスのベクトルはいくつかのクラスタに属する

重みベクトル

ＳＯＭの学習

分類ネットワーク（２）ＳＯＭ：入力ベクトルが属するクラスタに対応して，１つのニューロンが活性化される．Ｈｅｂｂネットワーク：活性化したニューロン（クラスタ）とクラスの関係を検出して，ネットワークを構成する．

学習ベクトル教師

データ

活性化されたニューロン（勝ちニューロン）

強い相関があると，そのニューロンと出力ノードの接続が確定される

手の大きさだけが異なるデータセットを用意 30%

70%

100%

130%

170%

大きさ変化に対する認識率

学習データのサイズ

ニューロン数：８×８

画像の回転も含めた学習を行うことで対応

学習データセット

•CW ・・・時計回りに20°回転させた画像のデータセット •CCW ・・・反時計回りに20°回転させた画像のデータセット •MIX ・・・－20°から20°の範囲で5°毎に回転させた画像を混ぜたデータセット

テストデータセット－20°から20°の範囲で5°毎に回転させた画像のデータセット

画像回転に対する認識率（１）

回転角度だけが異なるデータセットを用意

正規化定数C=1024，特徴ベクトルの次元数 : 22 次元

画像回転に対する認識率（２）

１００枚／クラス，５０枚を学習用，残り５０枚をテストに使用学習用データとテストデータは，同一被験者の異なる場所で撮影されたデータを用いる

4種類のデータセット

認識実験（１）

データセット被験者撮影場所Ａ１学生ＡＲｏｏｍ 1 Ａ２学生ＡＲｏｏｍ 2 Ｙ１学生ＹＲｏｏｍ 1 Ｙ２学生ＹＲｏｏｍ 2

１００枚／クラス

[1] Jianjie Zhang, Mingguo Zhao, “A Vision-based Gesture Recognition System for Human-Robot Interaction,” in Proc. IEEE Int’l Conf. on Robotics and Biomimetics (ROBIO), 2009, pp. 2096-2101, Dec. 2009. [2] Cao Chuqing, Li Ruifeng, “Real-Time Hand Posture Recognition Using Haar-Like and Topological Feature,” in Proc. Int’l Conf. on Machine Vision and Human-machine Interface, 2010, pp. 683-687, 2010. [3] Nasser H. Dardas, Nicolas D. Georganas, “Real-Time Hand Gesture Detection and Recognition Using Bag-of-Features and Support Vector Machine Techniques,” in IEEE Trans. on Instrumentation and Measurement, Vol. 60, No. 11,Nov. 2011.

認識実験（２）

認識システム認識文字数認識率提案手法（C=4096) 24 98.4% 提案手法（C=1024) 24 96.3%

[1] 20 95.0% [2] 8 95.4% [3] 10 96.2%

ソフトウェアによるリアルタイム認識システム入力画像

特徴ベクトル

認識結果

２値画像

Intel Core2 Duo CPU, 3GHz clock PC 61.6 ms / frame

水平/垂直ヒストグラム計算

DFT回路二値化回路

特徴抽出回路 DFT回路

⇒ＦＰＧＡ実装

入力：画像の座標（ｘ，ｙ）とそのＲＧＢ値

ＤＦＴ処理の並列度と回路規模の関係

Number of Units

Num

ber

of o

ccup

ied

Slic

es

1443

755

Simplified DFT Simplified DFT with

CORDIC

論理合成結果（回路規模）

設計回路の動作確認

実装実験

実用化に向けた課題

認識ネットワークとその学習機能の実装

特徴ベクトル抽出にくらべ，認識ネットワークの処理はそれほど重い処理ではないので，マイクロプロセッサによる処理が有効と考える．ＦＰＧAを使った実装であれば，MicroBlaze などのソフトプロセッサを使用すれば，システム全体をワンチップに収めることができる．

手袋不要の認識システム

肌色抽出による手の抽出手法により解決できると考える．

関西大学

先端科学技術推進機構コーディネーター

上田勝彦

ＴＥＬ０６－６３６８－１２４５

ＦＡＸ０６－６３６８－１２４７

e-mail syakairenkei＠ml.kandai.jp

お問い合わせ先

静止画像分類の指文字認識への応用1 関西大学システム理工学部...

Documents