画像を説明する多言語音声データを利用したクロスモーダル探索 ·...

Copyright©2019 NTT corp. All Rights Reserved.

NTT コミュニケーション科学基礎研究所メディア情報研究部

大石康智，木村昭悟，川西隆仁，柏野邦夫

画像を説明する多言語音声データを利用したクロスモーダル探索

Spoken Language Systems Group,MIT Computer Science and Artificial Intelligence Laboratory

David Harwath, James Glass

2Copyright©2019 NTT corp. All Rights Reserved.

はじめに

画像と多言語音声キャプションペアを利用した知識獲得

① 教師なしで画像領域と音声区間を対応づける（視聴覚知識獲得）

画像

日本語音声キャプション

英語音声キャプション

（少し雲のある青空の下，緑の木々に囲まれた屋外に，年代物の蒸気機関車が止まっている）

（In this picture, we can see multiple steam engines and railroad tracks can also see lush green trees behind them with the clear blue skies overhead）

② 教師なしで音声区間を対応づける（翻訳知識獲得）

①視聴覚知識

② 翻訳知識

（ラベル無し）

（書き起こし無し）

（書き起こし無し）


目指す未来

TV放送など世の中に多く存在するメディアデータを計算機に与えるだけで，映像と音声の共起から知識獲得

映像

音声

NTT CC建設

共起を手がかりに教師なしで画像領域と音声区間を対応づける

奄美大島 NTT AA製薬 CC建設 HH投信 XXダイヤ YYフライパン伊勢の里

場所企業ロゴ商品パッケージ個人名

・モダリティを横断する（クロスモーダル）認識，検索，変換，生成・超大規模アーカイブ検索や自動アノテーションへの応用

HH投信AA製薬


自然言語と音声言語

少し雲のある青空の下，緑の木々に囲まれた屋外に，年代物の蒸気機関車が止まっている

自然言語による画像説明文生成，質問応答の先行研究は多いが，音声言語を利用した研究は少ない [Harwath+2016]

自然言語

音声言語

・音声言語はより連続的でセグメンテーションが難しく，話者性や発話様式などを含むため，自然言語とは異なる難しさを持つ

・将来的に，少数言語で文字をもたない言語へ対象を広げるためにも音声言語に着目する


本発表内容

日本語音声キャプションを収録し，言語を増やして学習された画像と音声の共有潜在空間の基礎調査

英語

ヒンディ語

日本語

既存研究

約10万件収録

約40万件収録

約10万件収録

本研究（新規収録）

① 画像から音声検索

画像と音声の共有潜在空間学習

[Harwath+2018]

② 音声から画像検索

③ 音声から音声検索

④ 翻訳知識獲得

画像・音声ペアが近くに配置されるように埋込ベクトルを学習する

[Harwath+2018]

ヒンディ語

英語

画像日本語

別英語キャプション

評価


本発表内容


英語

ヒンディ語

日本語

既存研究

約10万件収録

約40万件収録

約10万件収録




[Harwath+2018]





[Harwath+2018]

ヒンディ語

英語

画像日本語


評価


音声キャプションの収録

英語・ヒンディ語と日本語の収録方法の違い

英語・ヒンディ語日本語

画像データ Places205画像データセット(※1)1枚の画像に対して1つの音声キャプションを収録

収録被験者Amazon

Mechanical Turk音声収録経験者からなる

クラウドソーシング

収録方法 PC収録 PC or スマートフォン収録

発話形態画像に写るモノや情景を2～3文程度で自由発話

収録音声の採用判断基準

8単語以上，音声認識されること

検聴作業を実施長さが短かったり，画像に無関係なこと

を発話していたら再収録

(※1) 205クラスのシーン（場所）からなる約2.5Mの画像集合


音声キャプション収録の結果

英語ヒンディ語日本語

音声キャプション数 403,384件 114,771件 98,555件

収録被験者数 2,683名 112名 303名

平均音声長 9.5秒 11.4秒 19.7秒

平均単語数(※1) 19.3語 20.4語 44.6語

・日本語は発話長の長い音声が収録された

・同じ画像を説明する異なる言語の音声キャプションの内容は必ずしも対訳にならない

(※1) 平均単語数は音声キャプションを音声認識して書き起こされた単語を数え上げた


本発表内容


英語

ヒンディ語

日本語

既存研究

約10万件収録

約40万件収録

約10万件収録




[Harwath+2018]





[Harwath+2018]

ヒンディ語

英語

画像日本語


評価方法


画像と音声の共有潜在空間の学習

英語

ヒンディ語

日本語

4つ組以外の音声

画像CNN （Pre-trained VGG16）

英語CNN

ヒンディ語CNN

日本語CNN

画像と音声の

共有潜在空間

meanpooling

4つ組以外の

音声/画像

幅：14高：14

時間：128 (10秒)

時間：128 (10秒)

時間：128 (10秒)

チャネル

：10

24チャネル：

1024

チャネル

：10

24チャネル

：10

24 meanpooling

meanpooling

meanpooling

1024

1024

1024

1024

後半の可視化で利用する


共有潜在空間の学習の損失関数

損失関数: Margin ranking criterion

: 基点となる埋込ベクトル (Anchor) : マージン（ハイパーパラメータ）

「ペアの埋め込みベクトル間の類似度はペアでない埋め込みベクトル間の類似度よりも少なくともマージン分大きくなるように」

類似度は「内積」とする

: Anchorとペアになる埋込ベクトル (Positive)

: Anchorとペアにならない埋込ベクトル (Negative)

: ミニバッチサイズ（）

※Negativeはミニバッチの中からランダムに選択


本発表内容


英語

ヒンディ語

日本語

既存研究

約10万件収録

約40万件収録

約10万件収録




[Harwath+2018]





[Harwath+2018]

ヒンディ語

英語

画像日本語


評価


評価実験

評価方法

使用データ

・学習データ：97,555件の画像，英語・ヒンディ語・日本語音声キャプション

・評価データ：1,000件の画像，英語・ヒンディ語・日本語音声キャプション

①クロスモーダル探索：以下の3点をRecall@10による評価

②画像に対応づく音声区間の可視化

③異なる言語の翻訳知識の可視化

・画像から音声検索（image2speech）

・音声から画像検索（speech2image）

・音声から別言語の音声検索（English2Japanese 等）

画像埋め込みベクトルと，音声埋め込みベクトルの時系列の内積を図示

異なる言語でペアとなる音声埋込ベクトルの時系列間の内積（類似度行列）を図示

14Copyright©2019 NTT corp. All Rights Reserved.英語ヒンディ語日本語

Image2speech，Speech2imageの結果

10秒の音声キャプションの利用（長ければ削除，短ければ0埋め）

・日本語の結果が他言語よりも良い⇒ 収録データの品質に依存する

・ 3言語をまとめて学習すると良い⇒ 言語の増加による空間の充実化

Monolingual Trilingual Monolingual Trilingual Monolingual Trilingual

Monolingual：単一言語で学習，Trilingual：3言語まとめて学習

16Copyright©2019 NTT corp. All Rights Reserved.英語/日本語日本語/ヒンディ語ヒンディ語/英語

条件1 条件2 条件3 条件1 条件2 条件3 条件1 条件2 条件3

Speech2speechの結果

・画像-音声検索に比べてRecallが低下する⇒ 異言語の音声キャプションが必ずしも対訳になっていないため。それでも画像がアンカー（中間言語）として，音声同士を対応付ける

3つの条件を評価（条件1：画像を使わない学習，条件2：異なる言語の音声を近づけない学習，条件3：画像かつ異なる言語の音声間近づける学習）


画像に対応づく音声区間の可視化 1/2

空港の様子です。天井がアーチ状になった空港を中から写しています。床面は銀色をし

ています。所々に黄色い色をした看板が立っていて、沢山の人が空港を利用しています。

屋内のスケート施設の様子で、スケートをしている人が何人もいます。手前には男の人と女の人が手をつないで男の人がリードしているように見えます。手前には子供がいます。

空港の入り口。外は暗くなっており、街灯がともっている。中にはまばらに人がいるようだ。

探索結果1位（正解）

[sec.]

探索結果2位

探索結果3位

内積

内積

内積


画像に対応づく音声区間の可視化 2/2

男性がいます。髪の毛は短いです。歯を見せて笑っています。男性はスーツを着ています。

黒いネクタイをしています。男性は足を組んでいます。

男性がいます。男性は、黒い野球帽子をかぶっています。

右手にグローブをつけています。男性は野球ボールを左手に持ち振りかぶっています。

男の人が絵を描いている。絵はカラフル。男の人は半そでにチェックのグレーの服を着ている。

探索結果1位

[sec.]

探索結果2位

探索結果3位（正解）

内積

内積

内積


獲得した翻訳知識の可視化 1/2A

man

and

a w

oman

dre

ssed

up

dan

cing

on th

e ru

g

男性と女性が社交ダンスを踊っている。女性は男性の肩に手を置き、男性は女性の背中に手をまわしている。女性は黒いひざ丈のワンピースに黒いストッキングをはいている。男性は黒いシャツに黒いパンツをはいている。

・異なる言語でペアとなる音声キャプションの埋込ベクトルの時系列間の内積（類似度行列）を算出

・言語間の対応関係（色の濃い部分）


獲得した翻訳知識の可視化 2/2S

tairs

lead

ing

up to

dou

ble

woo

den

door

s in

a b

rick

build

ing

手前に階段が写っていて、階段を上ると、えー、一つの大きな木でできたドアが、えー、写っている。家は、えー、赤いレンガでできていて落書きのようなものも少し見られる。

・異なる言語でペアとなる音声キャプションの埋込ベクトルの時系列間の内積（類似度行列）を算出

・言語間の対応関係（色の濃い部分）


まとめ

画像を説明する多言語音声データを利用したクロスモーダル探索

① 画像の内容を説明する音声のペアデータを収集

③ 画像と音声の相互探索（クロスモーダル探索）による評価と知識獲得の可視化

・クラウドソーシングを利用して新たに日本語音声キャプションを収録

② 画像領域と音声言語の対応関係を学習

・ Margin ranking criterionを利用して，4つ組（画像，英語・ヒンディ語・日本語

音声キャプション）のペアを近づけるように，音声と画像の潜在空間を学習

・収録品質が探索性能に影響すること（日本語の性能が高い）

・ 3言語で潜在空間を学習することの有効性

・音声キャプションに頻出する単語と画像が対応づけられる．

より詳細な「状態」や「程度」に関する画像と音声の関連付けは今後の課題

画像を説明する多言語音声データを利用した クロスモーダル探索 ·...

Documents

画像を説明する多言語音声データを利用したクロスモーダル探索 ·...