コンビニ向け商品情報提示サービスを実現する 画像認識型透かし … ·...

6
NTT技術ジャーナル 2017.6 10 corevo ® が切り拓く新たなサービス創造 画像から情報を検索する技術 スマートフォンやタブレットと呼ば れる携帯端末の普及と高性能化は, 日々爆発的な勢いで進行しています. それに伴って,携帯端末上で動作する さまざまなサービスが公開され,注目 を浴びています.中でも近年,特に多 くのユーザの関心を集めているのが “Mobile Visual Search” と呼ばれる サービスです.Mobile Visual Search とは,携帯端末に内蔵されたカメラで 撮影された画像から物を認識し,それ に関連するさまざまな情報を検索 ・ 提 示するサービスや技術を指していま す.認識対象は,絵画,建築物,書籍, DVDなどが代表的です.また,検索 ・ 提示対象としては,関連するWebペー ジや被写体の名称 ・ 位置,類似物の画 像などが挙げられます.物の名前が分 からなくて調べたいときや,ガイダン ス ・ 口コミなど関連する情報を調べた いときに,携帯端末を対象にかざすだ けで検索できるようになるため,これ までの単語ベースの検索とはレベルの 異なる,極めて利便性の高いサービス が展開できると考えられます.このよ うなサービスはNTT研究所において も「SightX」 (1) ,「 お も て な しUI/UX (User Interface/User Experience)」 (2) といった名称で,複数研究所間の連携 により積極的に検討されています. 本稿では,まずMobile Visual Search の処理概要を示し,次に実現のための キーテクノロジとなる電子透かし技 術,アングルフリー物体検索技術,お よびそれらの融合技術である画像認識 型透かし埋め込み ・ 検出技術について 紹介します.その後,2016年11月よ りスタートしたセブン&アイ ・ ホール ディングスとの共同実験について概説 します. Mobile Visual Search Mobile Visual Searchの処理の流れ 図1 に示します.携帯端末のカメラ で撮影されたクエリ画像(検索のキー となる画像)から対象に付加されてい るバーコードなどのIDを読み取って サーバに送るか,またはクエリ画像そ のものをサーバに送付します.サーバ 側では,受け取ったIDに紐付けられ た関連情報のURLを携帯端末に返送 するか,受け取ったクエリ画像から撮 像対象が何であるかを画像認識などの 手法で識別し,その識別結果に基づく 関連情報のURLを携帯端末に返送し ます. ここで,撮像対象が何であるかを識 別する手段にはさまざまなものが考え られますが,大きくは 2 種類のカテゴ リに分類できます. 1 つは,バーコー ドや 2 次元コードのような,濃淡パ 電子透かし アングルフリー物体検索 インバウンド向けサービス 携帯端末 サーバ 参照画像, またはID-URL 変換テーブル 認識結果 (URLなど) クエリ画像, またはIDコード データベース 図 1  Mobile Visual Search コンビニ向け商品情報提示サービスを実現する 画像認識型透かし埋め込み ・ 検出技術 画像認識型透かし埋め込み・検出技術は,商品パッケージなど に目立たぬように印刷して埋め込まれたID情報を携帯端末のカメ ラをかざすだけで高精度に検出できる技術です.本稿では技術の 概要と,2016年11月よりスタートしたセブン&アイ・ホールディ ングスとの共同実験に関して紹介します. あんどう /五 十嵐 いさむ /杵 きねぶち なかむら /並 なみかわ /山 やました りょう やすひろ /草 よしのり /武 のぶかつ NTTメディアインテリジェンス研究所 †1 NTTサービスエボリューション研究所 †2 NTT研究企画部門 †3 †1 †1 †1 †2 †2 †2 †1 †1 †3

Upload: others

Post on 15-Nov-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

NTT技術ジャーナル 2017.610

corevo®が切り拓く新たなサービス創造

画像から情報を検索する技術

スマートフォンやタブレットと呼ばれる携帯端末の普及と高性能化は,日々爆発的な勢いで進行しています.それに伴って,携帯端末上で動作するさまざまなサービスが公開され,注目を浴びています.中でも近年,特に多くのユーザの関心を集めているのが“Mobile Visual Search” と呼ばれるサービスです.Mobile Visual Searchとは,携帯端末に内蔵されたカメラで撮影された画像から物を認識し,それに関連するさまざまな情報を検索 ・ 提示するサービスや技術を指しています.認識対象は,絵画,建築物,書籍,DVDなどが代表的です.また,検索 ・提示対象としては,関連するWebページや被写体の名称 ・ 位置,類似物の画像などが挙げられます.物の名前が分からなくて調べたいときや,ガイダンス ・ 口コミなど関連する情報を調べたいときに,携帯端末を対象にかざすだけで検索できるようになるため,これまでの単語ベースの検索とはレベルの異なる,極めて利便性の高いサービスが展開できると考えられます.このよ

うなサービスはNTT研究所においても「SightX」(1),「おもてなしUI/UX

(User Interface/User Experience)」(2)

といった名称で,複数研究所間の連携により積極的に検討されています.

本稿では,まずMobile Visual Searchの処理概要を示し,次に実現のためのキーテクノロジとなる電子透かし技術,アングルフリー物体検索技術,およびそれらの融合技術である画像認識型透かし埋め込み ・ 検出技術について紹介します.その後,2016年11月よりスタートしたセブン&アイ ・ ホールディングスとの共同実験について概説します.

Mobile Visual Search

Mobile Visual Searchの処理の流れ

を図 1 に示します.携帯端末のカメラで撮影されたクエリ画像(検索のキーとなる画像)から対象に付加されているバーコードなどのIDを読み取ってサーバに送るか,またはクエリ画像そのものをサーバに送付します.サーバ側では,受け取ったIDに紐付けられた関連情報のURLを携帯端末に返送するか,受け取ったクエリ画像から撮像対象が何であるかを画像認識などの手法で識別し,その識別結果に基づく関連情報のURLを携帯端末に返送します.

ここで,撮像対象が何であるかを識別する手段にはさまざまなものが考えられますが,大きくは 2 種類のカテゴリに分類できます. 1 つは,バーコードや 2 次元コードのような,濃淡パ

電子透かし アングルフリー物体検索 インバウンド向けサービス

携帯端末 サーバ

参照画像, またはID-URL変換テーブル

認識結果(URLなど)

クエリ画像, またはIDコード

データベース

図 1  Mobile Visual Search

コンビニ向け商品情報提示サービスを実現する画像認識型透かし埋め込み ・ 検出技術

画像認識型透かし埋め込み・検出技術は,商品パッケージなどに目立たぬように印刷して埋め込まれたID情報を携帯端末のカメラをかざすだけで高精度に検出できる技術です.本稿では技術の概要と,2016年11月よりスタートしたセブン&アイ・ホールディングスとの共同実験に関して紹介します.

安あんどう

藤 慎し ん ご

吾 /五い が ら し

十嵐 勇いさむ

/杵きねぶち

渕 哲て つ や

中なかむら

村 泰た い じ

治 /並なみかわ

河 大だ い ち

地 /山やました

下  遼りょう

八や

尾お

泰やすひろ

洋 /草く さ ち

地 良よしのり

規 /武た け い

井 伸のぶかつ

NTTメディアインテリジェンス研究所†1

NTTサービスエボリューション研究所†2

NTT研究企画部門†3

† 1 † 1 † 1

† 2 † 2 † 2

† 1 † 1 † 3

NTT技術ジャーナル 2017.6 11

特集

ターンに基づいて表現されたコードをIDとして読み取って対象を識別する手段です.後述する電子透かし技術もこのカテゴリに分類できます.この場合,対象となる物にあらかじめコードパターンを付加しておく必要がありますが,さまざまなデータ符号化技術により,非常に高い精度で識別することが可能となります.もう 1 つは,画像認識と呼ばれる手段です.これは,対象を撮影した画像から抽出される特徴量(フィンガープリントなどと呼ばれることもあります)をあらかじめデータベースに登録しておき,クエリ画像から抽出される特徴量との照合により,クエリ画像に写った物が何であるかを識別する手段です.後述するアングルフリー物体検索技術もこのカテゴリに分類できます.この場合,対象となる物にあらかじめ何かを付加する必要はありませんが,類似した物が存在する場合,それらの識別が困難になる場合があります.このように, 2 つの手段は互いに補完関係があるので,目的に応じて使い分けたり,あるいは組み合わせたりして使うことになり ます.

電子透かし技術

NTTメディアインテリジェンス研究所では,古くから電子透かしに関する研究を精力的に行ってきており(3)~(5),独自開発されたアルゴリズムは高い読み取り精度と高速動作を誇っています.主にメディア間同期手段としての

利用を想定しており,透かしを埋め込んだ静止画,印刷物,動画像に対し,検出アプリケーションを起動した携帯端末のカメラをかざすだけで,高速に透かしIDを検出し,関連する情報にアクセスすることが可能です.

印刷物に適用可能な電子透かし技術(3)

では,まず四辺形の高速追跡手法STA(Side Trace Algorithm)(6)を用いてカメラ撮影画像から透かし埋め込み領域を検出し(あらかじめ透かし埋め込み領域の 4 辺に細い枠を付加します),次に検出された領域が所定のサイズの正方形になるよう射影変換歪みを補正します.そして,補正後の画像から電子透かしパターンを抽出し,透かしIDを読み取ります.あらかじめ埋め込まれた電子透かしパターンは簡単な画像処理演算で抽出可能なため,携帯端末のような非力なデバイスにおいても非常に高速に処理することが可能です.電子透かしの性質上,対象となる印刷物の見栄えに変更を加えることになりますが,画質の劣化はわずかであり,通常の利用で気付かれることはほとんどありません.さらに,前述の射影変換歪み補正処理のため,斜め方向からの撮影でも非常に安定して透かしIDを読み取ることができるのが特長です.

アングルフリー物体検索技術

アングルフリー物体検索技術(7)は,3 次元の物体をどのような方向から撮影しても,高精度に立体物を認識 ・

検索し,関連情報を提示できるNTTメディアインテリジェンス研究所の技術です.携帯端末のカメラを通じて,周囲の建物 ・ 史跡や看板,電子機器などを高精度に認識し,観光コンテンツやルート案内情報,操作マニュアルなどを提示できます.

アングルフリー物体検索技術は,NTTが従来から培ってきた音 ・ 映像の高速探索技術であるロバストメディア探索(RMS)や物体識別技術を進化させた,「ロバストオブジェクト探索技術(RMS-object)」(8)を基に実現しました.まず,射影幾何学から導かれる同一立体物上での拘束条件を用いた独自の対応付け処理により,入力画像と参照画像の間で画像特徴の対応関係を正確に特定しています.その際,事前に用意する参照画像数は従来の10分の 1 程度で十分です.また,画像特徴の重要度をその出現頻度に基づき統計的に推定し,その重要度を加味して照合処理を行うため,非常に高い精度での識別が可能です.さらに,画像特徴データベースは,特徴空間内での分布を考慮した独自の方法により短い符号(ハッシュ)に変換しインデクシングしています.これにより画像特徴データベースから,入力画像に合致する画像特徴群を従来に比べて約 2倍の速度で照合できます.

画像認識型透かし埋め込み ・ 検出技術

前述のように,電子透かし技術やアングルフリー物体検索技術を用いれ

NTT技術ジャーナル 2017.612

corevo®が切り拓く新たなサービス創造

ば,かなり広いユースケースに適用できると考えられます.しかし,それら単体ではうまくいかないユースケースも存在します.例えば,コンビニ店舗で販売されているおにぎりなどの商品は,観光に訪れた外国人のお客さまがそれを見てもどのような中身かを理解するのが困難です.そこで,これらの商品にカメラをかざすだけで,原材料やアレルギー情報などを母国語表示するサービスがあれば非常に有用であるといえます(図 ₂ ).商品には通常バーコードが付加されているのでそれを利用する手段も考えられますが,バーコードは一般に商品の裏側など目立たない場所にあることが多く,カメラでかざすにはまず商品を手に取らなくてはなりません.しかし,食品等を手に取ることは商品が潰れてしまうなどの懸念があるため,店舗サイドにとって

商品管理上好ましくないとされています.そこで,商品を手に取ることなく,棚に陳列された商品をカメラで撮影するだけで認識し検索できる方式が求められています.

アングルフリー物体検索技術に代表される画像認識は,近年非常に精度が高い手法になっているとはいえ,類似した商品を完璧に識別できるものにはまだなっていません.したがって,アレルギー表示などのハイリスクな情報提示サービスには不向きと考えられます.一方,NTT研究所の電子透かし技術を利用すればほとんど100%の精度で識別可能になるのですが,前述したとおり,透かし埋め込み領域に明示的な枠を付加する必要があります.これは商品のデザインを大きく変更することになるため,やはり不向きと考えられます.

そこで,アングルフリー物体検索技術と電子透かし技術を融合した新しい技術「画像認識型透かし埋め込み ・ 検出技術」が開発されました.この技術では,PB(Private Brand)商品のロゴマークなどあらかじめ決められたパターンの上に透かしを埋め込み,そのパターンを手掛かりとしてカメラ撮影画像から透かし埋め込み領域を推定し,それに基づいて透かしIDを読み取る手法になります.

画像認識型透かし埋め込み ・ 検出技術の処理概要を図 ₃ に示します.撮影画像からのパターン検出にはアングルフリー物体検索技術を用います.アングルフリー物体検索技術はパターンを検出するだけでなく,パターンから得られる複数の特徴点位置も高精度に同定できるため,その情報を用いれば,四辺形の枠をSTAで検出するのと同

陳列棚に置かれた商品

サーバ

携帯アプリ

画像 URLインターネット

商品を置いたままカメラで撮影 バーコードは

裏側にあるためNG

商品情報(母国語標記)・商品の中身,説明・アレルギー・その他関連情報

商品を識別し,関連情報を表示

ブラウザ

図 ₂  コンビニ向け商品情報提示サービス

NTT技術ジャーナル 2017.6 13

特集

訪日外国人のお客さまにも「便利」をNTTコミュニケーションズ 第四営業本部 湯ノ谷 雅一/村本 博子

NTTコミュニケーションズでは,セブン&アイ ・ホールディングス様(7& i 様)とともに,最先端のICT技術を活用し,コンビニエンスストア等での新たな「便利」の創造に向け,NTTグループ一体となり,グループ連携の取り組みを進めています.7& i 様では,2020年に向けてますます増加が予想される外国人のお客さまにとって,「近くて便利」なお店づくりの検討をされています.ご検討の中で,おにぎりやサンドイッチなどの原材料やアレルギー情報等,商品の情報を外国人のお客さまに母国語でお伝えしたくても,包装紙の狭いスペースには表示しきれないなどの悩みをお持ちでした.そのような折,グループ連携の取り組みの一環として,7& i 様にNTT武蔵野研究開発センタへお越しいただき,最新技術を見学いただきました.見学される中で,スマートフォンでさまざまな方向から撮影しても,3次元の物体を高精度に認識できる「アングルフリー物体検索技術」を活用し,お客さまの課題解決が図れないかという話となり,「スマホによる商品情報案内」の検討が始まりました.7& i 様からのご要望は,お客さまが「商品を手にとることなく」情報を得られること,しかも,商品ラベルなどの「デザインを全く変更しない」ということでした.その理由は,商品を手にとってしまうと形が崩れてしまい,衛生管理上も好ましくありません.また,バーコードやQRコードを表面ラベルに印刷すれば商品との紐付けができますが,商品のデザインに影響を与え美観を損ねてしまいます.また,もっとも重要な要求条件は,「商品を誤認識せず」正確に識別することです.誤った商品情報をお客さまに提供してしまったら,それこそ大変な問題になってしまいます.これらコンビニエンスストアならではの課題に対し,NTT研究所が検討を行い,「アングルフリー物体検索技術」と「電子透かし技術」を組み合わせた世界初の方式を考案しご提案しました.その結果,7& i 様から高い評価をいただき,実際の店舗において共同実験をすることになりました.共同実験は,商品ラベルの印刷会社様にもご協力いただく実オペレーションを考慮した本格的なものです.すでに,読み取り精度などの技術的な側面,使い勝手などのユーザビリティの側面でも,良好な評価が得られており,7& i 様も事業化に向けて大きな期待を込められています.NTTコミュニケーションズでは,両グループ連携の第一弾として,「スマホによる商品情報案内」の事業化に向け,今後7& i 様とともに検討を加速していきます.また,本テーマ以外にもさまざまなご提案を積極的に行い,コンビニエンスストアでの新たな「便利」の創造に向けて取り組んでいきます.

コ ラ ム

参照画像 クエリ画像

商品ID

①ロゴ検出と特徴点の対応付け

③特定された埋め込み領域からの透かし読み取り

②逆射影変換による画像補正(ロバスト推定に基づく手法)

図 ₃  画像認識型透かし埋め込み・検出技術の概要

NTT技術ジャーナル 2017.614

corevo®が切り拓く新たなサービス創造

等の射影変換歪み補正が実現できます.具体的には,RANSAC(RANdom SAmple Consensus)と呼ばれるロバスト推定手法を用いることで,対応付けられた特徴点どうしの位置関係から射影変換行列を自動的に導き出し,それを基に,検出された領域が所定のサイズの正方形になるよう射影変換歪みを補正します.そこから先の処理は前述の電子透かし技術と同じです.

本手法のもっとも大きな特長は,明示的な枠やマーカーを用いずに透かしを埋め込めるため,識別のためのID情報を完全に秘匿できる点にありますが,それに加え,45度程度の斜め方向からでも安定して透かし読み取りが可能な点や,約 1 センチ四方程度の極小エリアにも透かしを埋め込めるため,おにぎりなど非常に小さいパッケージにも適用可能な点なども挙げられます.これらは他社ではなかなか真似できないアドバンテージであるため,本手法を選択することの大きなメリットとなり得ます.

実店舗における実証実験

■実験室環境での予備実験まず,実験室環境での簡単な予備実

験結果から説明します.おにぎりなどのラベルに付加されているセブン&アイ ・ ホールディングスのロゴパターンをアングルフリー物体検索の参照パターンとして用い,透かしIDをランダムに定めた透かしパターンをロゴパターンに埋め込んで印刷しました.そ

して,市販スマートフォンの内蔵カメラを利用して撮影したクエリ画像数百サンプルを基に識別率を求めました.クエリ画像は,対象となる商品から15 cm前後の距離から,商品自体も360度回転させながら,さまざまな角度(正面から最大45度の傾きまで)で撮影して取得しました.結果として,正しく識別できた割合は98.4%,誤って識別した割合は 0 %,透かしIDを読み取れなかった割合(この場合,アプリはユーザに再撮影を促します)は1.6%となりました.また,サーバ上でのトータル処理時間はクエリ画像 1 枚当り平均約1.5秒でした.さらに,計算機シミュレーションにより約10億サンプルの人工データで別途検証した結果,誤識別率はおよそ1000万分の 1オーダとなり,バーコードの規格で定められている誤読率300万分の 1 以下をクリアすることも確かめられました.■実店舗での実証実験

次に,セブンイレブンの実店舗で行った実証実験の結果について説明します.実験場所はセブンイレブン千代田二番町店,実験時期は2016年11月になります.実験内容としては,店舗内の商品棚に配置した商品サンプルのロゴを実験用端末で撮影し,ロゴに埋め込まれた透かしIDを正しく認識できるかどうかを検証したものになります.対象となる透かし入り商品は,実際の商品パッケージを印刷している業者へ依頼し,本物の商品と全く同様に印刷してパッケージングしました.商

品種類は,「手巻おにぎり 旨味熟成紅しゃけ」(紙ラベル),「直巻おむすび とり五目」(透明フィルム),「ミックスサンドイッチ」(透明フィルム)の3 点でした.また今回は,携帯端末にインストールする専用アプリも用意しました.撮影時のプレビュー画面には特別のターゲットスコープが重畳され,一般のユーザが撮影を戸惑わないようさまざまなインストラクションが行われる工夫が施されていました(図4 ).特に重要なこととして,透かしIDの読み取り精度に影響が大きいとされる「白とび」や「ピンボケ」をアプリが自動検知し,サーバ送信する前にユーザに警告を与えるような仕組みを導入しました.さらに,透かしIDを読み取った後にはその商品の詳細情報をWebブラウザで表示するだけでなく,携帯端末のOSの言語設定情報から自動的にユーザ母国語の情報を選択し表示するようにしました(図 5 ).結果として,実験室環境と同様の誤読率 0 %を記録し,高いお客さま満足度を達成することができました.

共同実験は2017年 4 月現在も継続して実施しており,今後より多くのお客さまを被験者としたユーザビリティ検証を進めていく予定です.

今後の展開

NTTメディアインテリジェンス研究所が取り組んでいる画像認識型透かし埋め込み ・ 検出技術について,技術の概要と,セブン&アイ ・ ホールディ

NTT技術ジャーナル 2017.6 15

特集

ングスとの共同実験について紹介しました.

今後は共同実験で抽出された課題を解決すべく,商用品質の透かし検出ソフトウェア開発を進めていき,より便利なサービスを創造していくことをめざします.

■参考文献(1) 並河 ・ 南 ・ 片岡 ・ 巻口 ・ 下村:“カメラを向

けることで,その場面で必要な情報が取得でき る「SightX」,” NTT技 術 ジ ャ ー ナ ル,Vol.25,No.5,pp.25-28,2013.

(2) 市 川 ・ 中 村 ・ 中 村 ・ 手 塚 ・ 瀬 下 ・ 深 田 ・ 三井:“2020 Airport/Station ──訪日外国人向け 空 港 ~ 駅 で の お も て な し,” NTT技 術ジャーナル,Vol.28,No.10,pp.25-28,2016.

(3) 中村 ・ 片山 ・ 山室 ・ 曽根原:“カメラ付携帯電話機を用いたアナログ画像からの高速電子透かし検出方式,” 信学論D-II, Vol.J87-D-II, No.12, pp.2145-2155, 2004.

(4) 安藤 ・ 山本 ・ 筒口 ・ 片山 ・ 谷口:“地上デジタル放送における映像向けモバイル電子透かしの実証実験,” 映情学技報,Vol.37,No.38,pp.57-62,2013.

(5) S. Ando, S. Yamamoto, H. Tanaka, K. Tsutsuguchi, A. Katayama, and Y. Taniguchi:

“Visual SyncAR: Video Synchronized AR based on Mobile Video Watermark,” IIEEJ trans. image electronics and visual computing, Vol.4,No.2,pp.114-123,2016.

(6) 片山 ・ 中村 ・ 山室 ・ 曽根原:“電子透かし読取りのためのiアプリ高速コーナ検出アルゴリズ ム,” 信 学 論 D-II,Vol.J88-D-II,No.6,pp.1035-1046,2005.

(7) J. Shimamura, T. Yoshida, and Y. Taniguchi:“View-Directional Consistency Constraints for Robust 3D Object Recognition,” IIEEJ trans. image electronics and visual computing,Vol.3,No.2,pp.164-173,2015.

(8) 柏野:“膨大なメディアデータの探索と活用~ビッグメディア時代のボトルネック解消に向けて~,” NTT技術ジャーナル, Vol.26,No.4,pp.31-34,2014.

(上段左から) 安藤 慎吾/ 五十嵐 勇/ 杵渕 哲也/ 中村 泰治

(下段左から) 並河 大地/ 山下  遼/ 八尾 泰洋/ 草地 良規/ 武井 伸勝

NTTメディアインテリジェンス研究所は,より利便性の高いサービスを多くのお客さまに提供すべく,カメラによる物体認識技術の研究とそのアプリケーション ・ソフトウェア開発に日々取り組んでいます.

◆問い合わせ先NTTメディアインテリジェンス研究所 画像メディアプロジェクト

TEL ₀₄₆-₈₅₉-₂₄₂₆FAX ₀₄₆-₈₅₉-₂₈₂₉E-mail wmaf lab.ntt.co.jp

図 ₅  商品識別結果表示画面

図 ₄  共同実験用携帯アプリの撮影画面