リアルタイム単語認識技術を利用したカメラベース情報取得システム

リアルタイム単語認識技術を利用したカメラベース情報取得システム

辻智彦　岩村雅一　黄瀬浩一

大阪府立大学大学院工学研究科

発表の流れ背景文字認識手法の概要単語認識の提案手法実験まとめ

提案システム

“University” ・大学

文書

カメラ

ノート PC

認識結果翻訳

画像

音声

関連情報リアルタイムで動作

環境中文字列のリンクアンカー化インタラクティブデモ 16:15 ～（本発表のすぐあと）

関連情報取得システム

有望な応用例視覚障害者への音声案内

タンブラー新デザイン発

表 !!

『押ボタン信号があります』

単語の認識が必要多フォント対応・レイアウトフリー

単語の認識

既存手法 (Myers 2004)

認識対象

提案手法

平行な文字行行を成さない

行ごとに認識

1 文字ごとに認識

問題設定同一平面上の紙面白紙に黒色の文字連結成分を容易に切り出すことが出来る単語間がスペースで区切られる左から右に記される文字行を成さない

認識の流れ

① １文字ごとに文字認識② 文字を連結して単語を推定

S c h o o l

どこにどんな文字があるか

“School”

どんな単語があるか

本発表の主題概説

岩村雅一 , 辻智彦 , 黄瀬浩一 :“ カメラ撮影文字の事例に基づく実時間認識”

テーマセッション 4 19 日 11:45 予定

文字認識の特徴

レイアウトフリー

射影歪みに頑健

実時間処理が可能

多種フォント登録可能

クラスレベルの識別

データベース

0o

ANz O

クラス 1 クラス 2 クラス 3キャプチャ画像

類似

Z

認識結果

互いにアフィン変換の関係にある文字群は　識別できない１つのクラスに統合

Aキャプチャ画像テンプレート画像

姿勢推定認識時にアフィン変換パラメータが計算可能

アフィン変換

パラメータ

独立変倍シアー回転拡大・縮小

単語推定で利用

紙面の姿勢文字の姿勢

歪みを取り除く

単語領域の推定画像をぼかして隣接文字を結合させるぼかし画像の連結成分を単語領域とする

単語領域 1単語領域 2

文字間距離・連結成分面積によって逐次的にぼかし強度を決定

14

構成する文字の決定単語領域内に含まれる文字を調べる

単語領域 1単語領域 2

① ② ③④⑤

各文字の字種は一意に決定していない

d or p ?M or W ?クラスレベルの

識別結果

文字の並び順の推定

仮定読む方向が急激に変化したり文字を飛ばして読んだりするデザインは存在しない

① ②③

④⑤

これを“①②⑤④③”の順で読むワケがない !!

文字の並び順の推定全ての文字を最短で通る経路を求める

① ②③

④⑤

① ②③

④⑤

長短

最短は“①②③④⑤”および“⑤④③②①”

“Media” か “ Media” か分からない

Media

単語候補の生成各文字のクラスが属する　字種を組み合わせる

M

We

p

di a

① ②③

④⑤

① ② ③ ④ ⑤文字番号

単語候補 Media Wepia aideM … etc.

単語候補の中から尤もらしい単語を推定する

文字の向きを利用した単語推定

一部だけ 180度回転しているのはオカシイ !!

“Wepia” の場合 “aideM” の場合

左向きには読まないと言ってたのに !!

文字の向きに関するペナルティを設ける

ペナルティの計算①

文字の向きに関するペナルティ「急激に変化しない」という仮定を利用

“Media” “Wepia”

隣接文字間の角度差小大

ペナルティ①

ペナルティの計算②

単語の読む方向に関するペナルティ「右向きに読む」という仮定を利用

“Media” “aideM”

右上

右上

仮定した上方向と文字の上方向との

角度差

小大

ペナルティ②

単語の推定候補をペナルティの昇順にソート

“Media”“aideM”“aideW”“Wedia”“Mepia”“aipeM”“aipeW”“Wepia”

17185359361365533707709

高

低

尤度

実験対象英字が書かれた文書を３方向から撮影

144 文字

0 度 30度 45度

30 単語

データベース

文書

実験条件登録フォント数を増やし，　認識性能を評価

認識認識

最大 10 フォント

使用した計算機CPU Opteron 2.8GHz

メモリ 16GB

実験条件単語認識率

“Media”“aideM”“aideW”“Wedia”“Mepia”

…

17185359361365…

小

大

ペナルティ

上位１単語または

上位 10 単語の中に正解の単語が含まれるかどうか

単語認識率

上位10 単語

上位 1 単語

認識率

(%

)

フォント数

単語認識の失敗例クラスレベルでの認識失敗　⇒後で検証単語領域取得の失敗

分離している

１単語あたりの単語認識時間処

理時

間 (

ms)

フォント数

１クラス内の字種増加

同一クラスに統合された字種 Arial の場合

0 O o 6 9 7 L C c

E m I l N Z z S s

b qV v W w d p

n u

検証 - １文字あたりのクラス識別率

フォント数

認識率

(%

)

文字認識の失敗例誤認識連結成分取得の失敗

結合している

実用性に関する性能評価

1秒あたり 42 単語の認識が可能

10 フォント登録，正面から撮影の場合

単語認識率 ( 上位 10個を見た場合 )

１文字あたりの文字認識時間

１単語あたりの単語認識時間

92.3%

3.44ms

6.14ms

メモリ使用量 397MB

メモリ削減が課題

3.44ms × 5

6.14ms

100 フォントの場合約 4GB ( 実測値 )

まとめ

提案手法リンクアンカー化システムに有効な単語認識

文字の向きを用いた単語認識

今後の課題文字領域・単語領域の抽出法の改良メモリ削減

リアルタイム単語認識技術を利用したカメラベース情報取得システム

辻智彦　岩村雅一　黄瀬浩一

大阪府立大学大学院工学研究科

リアルタイム単語認識技術を利用した カメラベース情報取得システム

Documents

リアルタイム単語認識技術を利用したカメラベース情報取得システム