リアルタイム単語認識技術を利用した カメラベース情報取得システム

35
リリリリリリリリリリリリリリリリリ リリリリリリリリリリリリリリ リ リリ リリ リ リリ リ リリリリリリリリリリリリリリ

Upload: hayden

Post on 06-Jan-2016

26 views

Category:

Documents


0 download

DESCRIPTION

リアルタイム単語認識技術を利用した カメラベース情報取得システム. 辻 智彦 岩村 雅一 黄瀬 浩一 大阪府立大学大学院工学研究科. 発表の流れ. 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ. 提案システム. リアルタイムで動作. 認識結果. 関連情報. カメラ. “University”. 翻訳. ・大学. 画像. 文書. ノート PC. 音声. 環境中文字列のリンクアンカー化. インタラクティブデモ 16:15 ~(本発表のすぐあと). 有望な応用例. 視覚障害者への音声案内. 関連情報取得システム. タンブラー - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: リアルタイム単語認識技術を利用した カメラベース情報取得システム

リアルタイム単語認識技術を利用したカメラベース情報取得システム

辻 智彦 岩村 雅一 黄瀬 浩一

大阪府立大学大学院工学研究科

Page 2: リアルタイム単語認識技術を利用した カメラベース情報取得システム

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

Page 3: リアルタイム単語認識技術を利用した カメラベース情報取得システム

提案システム

“University” ・大学

文書

カメラ

ノート PC

認識結果翻訳

画像

音声

関連情報リアルタイムで動作

環境中文字列のリンクアンカー化インタラクティブデモ 16:15 ~(本発表のすぐあと)

Page 4: リアルタイム単語認識技術を利用した カメラベース情報取得システム

関連情報取得システム

有望な応用例視覚障害者への音声案内

タンブラー新デザイン発

表 !!

『押ボタン信号があります』

単語の認識が必要多フォント対応・レイアウトフリー

Page 5: リアルタイム単語認識技術を利用した カメラベース情報取得システム

単語の認識

既存手法 (Myers 2004)

認識対象

提案手法

平行な文字行 行を成さない

行ごとに認識

1 文字ごとに認識

Page 6: リアルタイム単語認識技術を利用した カメラベース情報取得システム

問題設定 同一平面上の紙面 白紙に黒色の文字 連結成分を容易に切り出すことが出来る 単語間がスペースで区切られる 左から右に記される 文字行を成さない

Page 7: リアルタイム単語認識技術を利用した カメラベース情報取得システム

認識の流れ

① 1文字ごとに文字認識② 文字を連結して単語を推定

S c h o o l

どこにどんな文字があるか

“School”

どんな単語があるか

本発表の主題概説

岩村 雅一 , 辻 智彦 , 黄瀬 浩一 :“ カメラ撮影文字の事例に基づく実時間認識”

テーマセッション 4 19 日 11:45 予定

Page 8: リアルタイム単語認識技術を利用した カメラベース情報取得システム

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

Page 9: リアルタイム単語認識技術を利用した カメラベース情報取得システム

文字認識の特徴

レイアウトフリー

射影歪みに頑健

実時間処理が可能

多種フォント登録可能

Page 10: リアルタイム単語認識技術を利用した カメラベース情報取得システム

クラスレベルの識別

データベース

0o

ANz O

クラス 1 クラス 2 クラス 3キャプチャ画像

類似

Z

認識結果

互いにアフィン変換の関係にある文字群は 識別できない 1つのクラスに統合

Page 11: リアルタイム単語認識技術を利用した カメラベース情報取得システム

Aキャプチャ画像 テンプレート画像

姿勢推定 認識時にアフィン変換パラメータが計算可能

アフィン変換

パラメータ

独立変倍 シアー 回転 拡大・縮小

単語推定で利用

紙面の姿勢 文字の姿勢

歪みを取り除く

Page 12: リアルタイム単語認識技術を利用した カメラベース情報取得システム

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

Page 13: リアルタイム単語認識技術を利用した カメラベース情報取得システム

単語領域の推定 画像をぼかして隣接文字を結合させる ぼかし画像の連結成分を単語領域とする

単語領域 1単語領域 2

文字間距離・連結成分面積によって逐次的にぼかし強度を決定

Page 14: リアルタイム単語認識技術を利用した カメラベース情報取得システム

14

構成する文字の決定 単語領域内に含まれる文字を調べる

単語領域 1単語領域 2

① ② ③④⑤

各文字の字種は一意に決定していない

d or p ?M or W ?クラスレベルの

識別結果

Page 15: リアルタイム単語認識技術を利用した カメラベース情報取得システム

文字の並び順の推定

仮定読む方向が急激に変化したり文字を飛ばして読んだりするデザインは存在しない

① ②③

④⑤

これを“①②⑤④③”の順で読むワケがない !!

Page 16: リアルタイム単語認識技術を利用した カメラベース情報取得システム

文字の並び順の推定 全ての文字を最短で通る経路を求める

① ②③

④⑤

① ②③

④⑤

長 短

最短は“①②③④⑤”および“⑤④③②①”

“Media” か “ Media” か分からない

Media

Page 17: リアルタイム単語認識技術を利用した カメラベース情報取得システム

単語候補の生成 各文字のクラスが属する 字種を組み合わせる

M

We

p

di a

① ②③

④⑤

① ② ③ ④ ⑤文字番号

単語候補 Media Wepia aideM … etc.

単語候補の中から尤もらしい単語を推定する

Page 18: リアルタイム単語認識技術を利用した カメラベース情報取得システム

文字の向きを利用した単語推定

一部だけ 180度回転しているのはオカシイ !!

“Wepia” の場合 “aideM” の場合

左向きには読まないと言ってたのに !!

文字の向きに関するペナルティを設ける

Page 19: リアルタイム単語認識技術を利用した カメラベース情報取得システム

ペナルティの計算①

文字の向きに関するペナルティ 「急激に変化しない」という仮定を利用

“Media” “Wepia”

隣接文字間の角度差 小 大

ペナルティ①

Page 20: リアルタイム単語認識技術を利用した カメラベース情報取得システム

ペナルティの計算②

単語の読む方向に関するペナルティ 「右向きに読む」という仮定を利用

“Media” “aideM”

右上

右 上

仮定した上方向と文字の上方向との

角度差

小 大

ペナルティ②

Page 21: リアルタイム単語認識技術を利用した カメラベース情報取得システム

単語の推定 候補をペナルティの昇順にソート

“Media”“aideM”“aideW”“Wedia”“Mepia”“aipeM”“aipeW”“Wepia”

17185359361365533707709

尤度

Page 22: リアルタイム単語認識技術を利用した カメラベース情報取得システム

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

Page 23: リアルタイム単語認識技術を利用した カメラベース情報取得システム

実験対象 英字が書かれた文書を3方向から撮影

144 文字

0 度 30度 45度

30 単語

Page 24: リアルタイム単語認識技術を利用した カメラベース情報取得システム

データベース

文書

実験条件 登録フォント数を増やし, 認識性能を評価

認識 認識

最大 10 フォント

使用した計算機CPU Opteron 2.8GHz

メモリ 16GB

Page 25: リアルタイム単語認識技術を利用した カメラベース情報取得システム

実験条件 単語認識率

“Media”“aideM”“aideW”“Wedia”“Mepia”

17185359361365…

ペナルティ

上位1単語または

上位 10 単語の中に正解の単語が含まれるかどうか

Page 26: リアルタイム単語認識技術を利用した カメラベース情報取得システム

単語認識率

上位10 単語

上位 1 単語

認識率

(%

)

フォント数

Page 27: リアルタイム単語認識技術を利用した カメラベース情報取得システム

単語認識の失敗例 クラスレベルでの認識失敗 ⇒後で検証 単語領域取得の失敗

分離している

Page 28: リアルタイム単語認識技術を利用した カメラベース情報取得システム

1単語あたりの単語認識時間処

理時

間 (

ms)

フォント数

1クラス内の字種増加

Page 29: リアルタイム単語認識技術を利用した カメラベース情報取得システム

同一クラスに統合された字種 Arial の場合

0 O o 6 9 7 L C c

E m I l N Z z S s

b qV v W w d p

n u

Page 30: リアルタイム単語認識技術を利用した カメラベース情報取得システム

検証 - 1文字あたりのクラス識別率

フォント数

認識率

(%

)

Page 31: リアルタイム単語認識技術を利用した カメラベース情報取得システム

文字認識の失敗例 誤認識 連結成分取得の失敗

結合している

Page 32: リアルタイム単語認識技術を利用した カメラベース情報取得システム

実用性に関する性能評価

1秒あたり 42 単語の認識が可能

10 フォント登録,正面から撮影の場合

単語認識率 ( 上位 10個を見た場合 )

1文字あたりの文字認識時間

1単語あたりの単語認識時間

92.3%

3.44ms

6.14ms

メモリ使用量 397MB

メモリ削減が課題

3.44ms × 5

6.14ms

100 フォントの場合約 4GB ( 実測値 )

Page 33: リアルタイム単語認識技術を利用した カメラベース情報取得システム

発表の流れ 背景 文字認識手法の概要 単語認識の提案手法 実験 まとめ

Page 34: リアルタイム単語認識技術を利用した カメラベース情報取得システム

まとめ

提案手法 リンクアンカー化システムに有効な単語認識

文字の向きを用いた単語認識

今後の課題 文字領域・単語領域の抽出法の改良 メモリ削減

Page 35: リアルタイム単語認識技術を利用した カメラベース情報取得システム

リアルタイム単語認識技術を利用したカメラベース情報取得システム

辻 智彦 岩村 雅一 黄瀬 浩一

大阪府立大学大学院工学研究科