crossmodal search using visually grounded multilingual speech … · 2019-04-26 · 98,555...

6
社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE. 画像を説明する多言語音声データを利用したクロスモーダル探索 大石 康智 木村 昭悟 川西 隆仁 柏野 邦夫 David Harwath †† James Glass †† 日本電信電話株式会社 コミュニケーション科学基礎研究所 243–0198 神奈川県厚木市森の里若宮 3–1 †† Spoken Language Systems Group, MIT Computer Science and Artificial Intelligence Laboratory, 32 Vassar Street Cambridge, MA 02139 USA E-mail: [email protected] あらまし 画像とその内容を説明する音声キャプションを対応付けるためのニューラルネットワークモデルをクロス モーダル探索の観点で評価する.英語やヒンディ語に加えて,新たに収録した日本語音声キャプションからなる 3 か国 語で学習したモデルは 1 か国語だけで学習したモデルよりも精度が高いことを確認した.この 3 か国語モデルは,画 像を基点として,異なる言語における音声単語を教師なしで対応付け,単語レベルの翻訳知識を獲得することを示す. キーワード 視覚と音声言語,共有潜在空間,クロスモーダル探索,畳み込みニューラルネットワーク Crossmodal Search using Visually Grounded Multilingual Speech Signal Yasunori OHISHI , Akisato KIMURA , Takahito KAWANISHI , Kunio KASHINO , David HARWATH †† , and James GLASS †† NTT Communication Science Laboratories, NTT Corporation 3–1, Morinosato Wakamiya, Atsugi, Kanagawa, 243–0198, Japan †† Spoken Language Systems Group, MIT Computer Science and Artificial Intelligence Laboratory, 32 Vassar Street Cambridge, MA 02139 USA E-mail: [email protected] Abstract We evaluate a deep neural network model capable of learning to associate images and audio captions describing the content of those images on crossmodal search (image and speech retrieval). We show that training a trilingual model simultaneously on English, Hindi, and newly recorded Japanese audio caption data offers im- proved performance over the monolingual models. Further, we demonstrate the trilingual model implicitly learns meaningful word-level translations based on images. Key words Vision and spoken language, shared latent space, crossmodal search, convolutional neural network 1. はじめに 画像認識技術の発展によって,画像に写る多様な物体を高い 精度で特定できるようになり,言わば計算機が視覚能力を持つ ようになった.視覚的に特定できる対象の情報を音声言語でや り取りするためには,対象となる物体の名称やその状態,程度 などの言語的な情報を視覚情報と対応付ける必要がある.現在 の画像認識の出力は画像に紐づけられたラベルに過ぎず,計算 機の視覚能力が必ずしも日常コミュニケーションで使われる多 様な言語表現と対応付けられているとは言えない.例えば,認 識対象のラベルが「飛行機」であったとしても,我々はそれを 「航空機」や「旅客機」,実際の機体名で呼んだり,「色鮮やかな 航空機」や「速そうな飛行機」のようにその状態や程度を説明 しようとする.本研究では,このような視覚情報と音声言語表 現の対応付けを,人間が教えるのではなく,データから獲得す ることを考える.画像は言語非依存であるため,様々な言語に おいて同じ対象の音声言語表現を獲得すれば,翻訳知識として, 多言語音声翻訳や検索に応用できるだろう.将来的には TV 送のような世の中に多く存在するメディアデータを与えるだけ で,計算機が音と映像の共起から物事の概念を学び賢くなる未 来を目指す.モダリティを自在に横断する超大規模アーカイブ 検索や自動アノテーションなどへの産業応用を見据えている. 画像説明文生成 [1], [2] や画像質問応答 [3], [4],テキストによ る画像生成 [5] のように,画像と自然言語を対応付ける研究は —1—

Upload: others

Post on 20-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Crossmodal Search using Visually Grounded Multilingual Speech … · 2019-04-26 · 98,555 件の音声キャプションを収録できた(画像重複等の問題 により1,445

社団法人 電子情報通信学会THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS

信学技報TECHNICAL REPORT OF IEICE.

画像を説明する多言語音声データを利用したクロスモーダル探索

大石 康智† 木村 昭悟† 川西 隆仁†

柏野 邦夫† David Harwath†† James Glass††

† 日本電信電話株式会社 コミュニケーション科学基礎研究所 〒243–0198 神奈川県厚木市森の里若宮 3–1†† Spoken Language Systems Group, MIT Computer Science and Artificial Intelligence Laboratory,

32 Vassar Street Cambridge, MA 02139 USAE-mail: †[email protected]

あらまし 画像とその内容を説明する音声キャプションを対応付けるためのニューラルネットワークモデルをクロス

モーダル探索の観点で評価する.英語やヒンディ語に加えて,新たに収録した日本語音声キャプションからなる 3か国語で学習したモデルは 1か国語だけで学習したモデルよりも精度が高いことを確認した.この 3か国語モデルは,画像を基点として,異なる言語における音声単語を教師なしで対応付け,単語レベルの翻訳知識を獲得することを示す.

キーワード 視覚と音声言語,共有潜在空間,クロスモーダル探索,畳み込みニューラルネットワーク

Crossmodal Search using Visually Grounded Multilingual Speech SignalYasunori OHISHI†, Akisato KIMURA†, Takahito KAWANISHI†,

Kunio KASHINO†, David HARWATH††, and James GLASS††

† NTT Communication Science Laboratories, NTT Corporation 3–1, Morinosato Wakamiya, Atsugi,Kanagawa, 243–0198, Japan

†† Spoken Language Systems Group, MIT Computer Science and Artificial Intelligence Laboratory,32 Vassar Street Cambridge, MA 02139 USA

E-mail: †[email protected]

Abstract We evaluate a deep neural network model capable of learning to associate images and audio captionsdescribing the content of those images on crossmodal search (image and speech retrieval). We show that traininga trilingual model simultaneously on English, Hindi, and newly recorded Japanese audio caption data offers im-proved performance over the monolingual models. Further, we demonstrate the trilingual model implicitly learnsmeaningful word-level translations based on images.Key words Vision and spoken language, shared latent space, crossmodal search, convolutional neural network

1. は じ め に

画像認識技術の発展によって,画像に写る多様な物体を高い

精度で特定できるようになり,言わば計算機が視覚能力を持つ

ようになった.視覚的に特定できる対象の情報を音声言語でや

り取りするためには,対象となる物体の名称やその状態,程度

などの言語的な情報を視覚情報と対応付ける必要がある.現在

の画像認識の出力は画像に紐づけられたラベルに過ぎず,計算

機の視覚能力が必ずしも日常コミュニケーションで使われる多

様な言語表現と対応付けられているとは言えない.例えば,認

識対象のラベルが「飛行機」であったとしても,我々はそれを

「航空機」や「旅客機」,実際の機体名で呼んだり,「色鮮やかな

航空機」や「速そうな飛行機」のようにその状態や程度を説明

しようとする.本研究では,このような視覚情報と音声言語表

現の対応付けを,人間が教えるのではなく,データから獲得す

ることを考える.画像は言語非依存であるため,様々な言語に

おいて同じ対象の音声言語表現を獲得すれば,翻訳知識として,

多言語音声翻訳や検索に応用できるだろう.将来的には TV放送のような世の中に多く存在するメディアデータを与えるだけ

で,計算機が音と映像の共起から物事の概念を学び賢くなる未

来を目指す.モダリティを自在に横断する超大規模アーカイブ

検索や自動アノテーションなどへの産業応用を見据えている.

画像説明文生成 [1], [2]や画像質問応答 [3], [4],テキストによる画像生成 [5]のように,画像と自然言語を対応付ける研究は

— 1 —

Page 2: Crossmodal Search using Visually Grounded Multilingual Speech … · 2019-04-26 · 98,555 件の音声キャプションを収録できた(画像重複等の問題 により1,445

盛んであり,深層学習技術により,精度が高まっている.最近

では那須川らが,画像に紐づくテキストと画像認識器を利用し

て,画像認識された対象の名称を獲得することに取り組んでい

る [6].認識された画像ラベルと関連性の高い語彙をテキストから抽出し,その語彙から検索された画像をさらに画像認識し

て得られた画像ラベルが,そもそもの画像ラベルと一致すれば,

その語彙を名称の候補とする面白いアプローチである.自然言

語を対象とするこれらの研究に対し,本研究は音声言語を対象

とする.その理由は,個人の言語獲得において音声言語が文字

の読み書きに先行すること,日常コミュニケーションにおいて

我々が音声言語に依存することがはるかに多いことである.将

来的に,少数言語で,しかも文字をもたない言語へ対象を広げ

るためにも音声言語に着目する.ただし,音声言語は連続的で

区切りがなく,雑音や非言語的な要素を含むことから,テキス

ト処理とはまた違った難しさをもつ [7].Harwathらは画像に対する英語音声キャプションを収集し,画像に写る物体と音声言語を対応付ける共有潜在空間を学習し

て,画像による音声キャプションの探索と音声キャプションに

よる画像探索からなるクロスモーダル探索や視聴覚の概念獲

得を検討した [7]~[10].さらに彼らは,同じ画像に対するヒンディ語音声キャプションを収集し,共有潜在空間が異なる言語

の音声単語を意味的に対応付ける可能性を示した [11].他にも,音声言語の時間的性質をモデル化した潜在空間学習 [12]や,手書き数字と数字発話の関連付け [13],画像を基点としたワードスポッティング [14],画像による音声キャプション生成 [15],[16]など,視覚情報と音声言語を対応付ける研究も増えている.本稿では,既存手法 [11] によって,新たに収録した日本語音声キャプションにおける音声言語が従来の英語やヒンディ語

と同じように視覚情報と対応付けられること,画像と 3か国語の音声キャプションをまとめて学習することの有用性をクロス

モーダル探索の観点で評価する.また,画像を基点とした英語

と日本語音声キャプションからも,単語レベルの翻訳知識が教

師なしで獲得されることを可視化して考察する.

2. 日本語音声キャプションデータの収録

画像に写る物体や情景を日本語で説明する音声キャプション

データを収録した.画像は 205クラスのシーン(場所)に分類される約 2.5百万枚の画像集合からなる Places205データセット[17]を利用した.例えば Aquariumや Food Court,Stadiumなど,様々な場所で撮影された画像を含む.Harwathらは,各クラスに属する画像枚数が均一になるように抽出された,約 40万枚の画像に対する英語音声キャプション [7] と,約 10 万枚の画像に対するヒンディ語音声キャプション [11]を収録した.我々は両言語の音声キャプションを同時に持つ 10万枚の画像を対象に,彼らの収録方法に倣って日本語音声を収録した.

収録被験者 日本語母語話者が標準語で発話できることを条件

とし,クラウドソーシングを利用して被験者を募集した.

収録方法 Web ブラウザ経由でアクセス可能な音声収録専用サイトを構築した.録音部分は html5/Web Audio APIを利用し,図 1に示すように PCとスマートフォンのどちらの環境で

表 1 異なる言語による音声キャプションの比較

Table 1 Comparison of audio captions in different languages

収録被験者数 平均音声長 平均単語数

英語 [7] 2,683 名 9.5 秒 19.3 語ヒンディ語 [11] 112 名 11.4 秒 20.4 語

日本語 303 名 19.7 秒 44.6 語

図 1 音声収録用Web アプリケーションFig. 1 Web-based audio recording application

も動作するようにした.専用サイトにアップロードされた音声

はサンプリング周波数 16kHz,量子化 16ビットに変換された.録音形態 被験者所有の PCもしくはスマートフォンと付属のマイクを利用して,Webブラウザ経由で音声を収録した.比較的静かな場所(他者の音声や屋外音,TVの音が混入しない環境)で収録するように指示した.

発話形態 ランダムに提示された画像に何が写っているか,2~3文程度で自由に説明し,フィラーや言い淀みを含めて良いこととした.先行研究 [7], [11]と同じく,1枚の画像に対して 1つの音声キャプションを収録した(1枚の画像に対して複数被験者による音声キャプションの収録は現時点では行っていない).

検聴作業 先行研究 [7], [11]では音声認識結果に基づいて収録音声の採用/不採用を自動判定したが,本収録では人手による検聴作業を行った.音声を聴取して,画像説明以外の発言やネッ

トワーク起因によるデータ欠損,ノイズを含む音声,極端に短

い音声は不採用として,当該画像を再度収録対象とした.

約 3か月間で合計 303名(女性:182名,男性:121名)による98,555件の音声キャプションを収録できた(画像重複等の問題により 1,445件は除外した).被験者は平均 32.8歳であり,18歳から 68歳までの幅広い年齢層からなる.専用サイト側で検出できる接続元のデバイスの OSを調査したところ,Windowsが一番多く,次いで iOS,macOS,Androidであり,様々なデバイスで音声収録されたことが分かった.表 1は言語ごとに,被験者数,音声キャプションの平均音声長,平均単語数を比較

する.NTTの音声認識エンジン VoiceRexを利用して,日本語全ての音声キャプションを書き起こし,平均単語数を計算した.

検聴作業の効果もあって,日本語は他の 2言語に比べて音声長が長く,単語を多く含んでいる.各言語の音声キャプションを

聞き比べると,完全な対訳にはなっていない.なぜなら被験者

各々が独自の視点で画像を説明しているためである.ただし,

単語レベルで見れば,意味の共通する単語が各言語の音声キャ

プションに含まれていた.この日本語音声キャプションデータ

セットは,学術研究目的に限定して今後公開する予定である.

— 2 —

Page 3: Crossmodal Search using Visually Grounded Multilingual Speech … · 2019-04-26 · 98,555 件の音声キャプションを収録できた(画像重複等の問題 により1,445

3. 視覚情報と音声言語情報の共有潜在空間

既存手法 [11] に基づき,画像の内容を説明する 3 つの言語による音声キャプションを利用して,視覚情報と音声言語情

報を対応付ける共有潜在空間を構築する.Ii を i番目の画像,

AEi , AH

i , AJi をそれぞれ,画像 Ii に対する英語/ヒンディ語/日

本語音声キャプションとし,これらを 4つ組 (Ii, AEi , AH

i , AJi )

で表す.この 4つ組のそれぞれを d次元ベクトルにマッピング

する関数 F (Ii, AEi , AH

i , AJi ) 7→ (vI

i , vEi , vH

i , vJi )によって共有

潜在空間が構成される.この空間では画像から得られる視覚情

報と音声キャプションから得られる音声言語情報がそれぞれ,d

次元のベクトルで特徴表現され(埋め込みベクトルと呼ぶ),そ

れらの意味的な対応関係がベクトル間の類似度で規定される.

例えば,「イヌ」が写る画像から抽出された埋め込みベクトルと

「イヌ」と発声する音声から抽出された埋め込みベクトルの類似

度は大きく,「イヌ」という同じ概念を表すように特徴表現され

ることを期待する.ただし,画像の領域や音声の区間といった

セグメンテーションの教師ラベルは一切使わない.本稿では,

既存手法 [11]による畳み込みニューラルネットワーク (CNN)を利用して,この写像関数を表現する.図 2のように,画像を入力する画像 CNNと各言語の音声キャプションを入力する音声 CNNで構成される.画像CNNは学習済VGG16[18]の,Conv5までの全ての層を

利用した.このネットワークに 224 × 224画素数の RGB画像を入力すると,14 × 14のサイズにダウンサンプリングされ,各要素が 512個のチャネルによって特徴表現されたテンソルが出力される.その後,サイズが 3 × 3の d個のフィルタからなる

畳込み層を適用し,gobal mean-poolingすることで,d次元ベ

クトル vIi が得られる.前処理として,Places205の 256 × 256

画素数にリサイズされた画像に対し,学習では 224 × 224画素数をランダムな位置から切り出して入力画像とした.一方,評

価では中央部分から 224 × 224画素数を切り出して入力画像とした.また入力画像は ImageNet[19]から計算された VGG用の画素の平均値,分散値にしたがって正規化された.

音声 CNNの入力は対数メルフィルタバンク出力からなるスペクトログラムである.まず,高域強調された音声波形に対し,

25msのハミング窓からなるフレームを 10msずつずらしながら短時間フーリエ変換することで,振幅スペクトログラムを得

る.これを二乗したパワースペクトログラムに,メル周波数軸

上に均等に配置された 40個のフィルタを掛け合わせて対数値を計算することで,40 次元のフィルタバンク出力からなるスペクトログラムを得る.長さの異なる音声キャプションをミニ

バッチ処理するために,スペクトログラムの時間フレーム数を

T に揃えた.T よりも長い場合は T 以降を切り捨て,T よりも

短い場合であれば 0埋めをした.CNNの構成は既存手法 [11]と同じとし,前段で入力をバッチ正規化すること,最初の畳込

みで 40 × T × 1であった入力を 1 × T × 128に変換すること,それ以降は時間方向だけの畳込みを行うことがポイントである.

最終畳込み層の出力は,入力の時間フレーム数が 1/8まで圧縮された,1 × (T/8) × dのテンソルである.時間フレーム方向に

図 2 視覚情報と音声言語情報の共有潜在空間

Fig. 2 Shared latent space for vision and spoken languages

global mean-poolingすることで,d次元ベクトル v∗i が得られ

る(∗は E, H, J のいずれか).入力が T よりも短い場合は,0埋め部分を含めずに実際の長さに基づいて poolingした.図 2の右側のように,4つ組 (Ii, AE

i , AHi , AJ

i )をそれぞれ表現する埋め込みベクトルは共有潜在空間にて近くに配置され,

それら以外の画像や音声キャプションは遠くに配置されるよう

に,CNNのパラメータを学習したい.そのために順位 (rank)に基づく計量学習 [7], [9], [10], [20] を利用した.この計量学習では,aを基点とするベクトル(以降,anchorと呼ぶ),pを

anchorとペアになるベクトル(以降,positiveと呼ぶ),nを

anchorとペアにならないベクトル(以降,negativeと呼ぶ)とすると,以下の損失関数の最小化を考える.

rank(a, p, n) = max(0, η − s(a, p) + s(a, n)) (1)

ここで,s() はベクトル間の類似度を計算し,η はマージンを

表す.マージンとは,anchor と positive の類似度が,anchorと negative の類似度よりも少なくともマージン分だけ大きくなるように制約するためのハイパーパラメータである.本稿

では s(x, y) = xTy の内積を類似度とし,η = 1 に固定した.a, p, nは画像/音声 CNNから出力される埋め込みベクトルに相当し,式 (1)を最小化するように,CNNのパラメータを学習する.例えば,4つ組のうち画像と英語音声キャプションに着目すると,i番目の画像を表現する vI

j とそのペアとなる英語音

声キャプションを表現する vEj は潜在空間において互いに近く

に配置され,ペアではない画像や英語音声キャプションからは

遠くに配置されたい.このとき,損失関数は以下となる.

LossI,E =B∑

j=1

(rank(vI

j , vEj , vE

k ) + rank(vEj , vI

j , vIl )

)(2)

B はミニバッチサイズ,k, l は k ̸= j, l ̸= j となるように,ミ

ニバッチの中からランダムに選択された画像や英語音声キャプ

ションを指すインデックスである.4つ組における全てのペアの組合せを考慮すると全体の損失関数は以下となる.

— 3 —

Page 4: Crossmodal Search using Visually Grounded Multilingual Speech … · 2019-04-26 · 98,555 件の音声キャプションを収録できた(画像重複等の問題 により1,445

図 3 音声キャプションの長さ T に対するクロスモーダル探索結果

(1 か国語の音声だけで共有潜在空間を学習した場合)Fig. 3 Crossmodal search results for audio signal length T

図 4 共有潜在空間の次元数 d に対するクロスモーダル探索結果

(1 か国語の音声だけで共有潜在空間を学習した場合)Fig. 4 Crossmodal search results for embedding size d

LossI,E,H,J =B∑

j=1

(rank(vI

j , vEj , vE

k1 ) + rank(vEj , vI

j , vIl1 )

+rank(vIj , vH

j , vHk2 ) + rank(vH

j , vIj , vI

l2 )

+rank(vIj , vJ

j , vJk3 ) + rank(vJ

j , vIj , vI

l3 )

+rank(vEj , vH

j , vHk4 ) + rank(vH

j , vEj , vE

l4 )

+rank(vHj , vJ

j , vJk5 ) + rank(vJ

j , vHj , vH

l5 )

+rank(vJj , vE

j , vEk6 ) + rank(vE

j , vJj , vJ

l6 ))

(3)

式 (2)と同様に,k1, . . . , k6, l1, . . . , l6 はミニバッチの中からラ

ンダムに選択された,j番目以外の画像,音声キャプションのイ

ンデックスを表す.今回は単純な和であるが,各項の重要度を

重みで制御することは今後の課題とする.また,この損失関数

の構成では音声キャプションの言語の増加に伴って項が増えて

しまう.損失関数の構成方法自体を見直すことも必要である.

4. 評 価 実 験

画像と音声キャプションから学習された共有潜在空間の有用

性をクロスモーダル探索の観点で評価する.本稿ではクロス

モーダル探索として,画像からペアとなる音声キャプションを

探索すること,音声キャプションからペアとなる画像を探索す

ること,ある言語の音声キャプションから画像を通じてペアと

図 5 音声キャプションの長さ T に対するクロスモーダル探索結果

(3 か国語の音声をまとめて共有潜在空間を学習した場合)Fig. 5 Crossmodal search results for audio signal length T

図 6 共有潜在空間の次元数 d に対するクロスモーダル探索結果

(3 か国語の音声をまとめて共有潜在空間を学習した場合)Fig. 6 Crossmodal search results for embedding size d

なる別言語の音声キャプションを探索すること,の 3点を考える.98,555枚の画像とそれらに紐づく各言語の音声キャプションのうち,97,555件を学習データとし,1,000件を評価データとした.バッチサイズ B を 50とし,確率的勾配法を使って,損失関数を最小化した.慣性項(Momentum)のパラメータを0.9,重み減衰(Weight Decay)のパラメータを 5 × 10−7 に固

定した.学習率は初期値を 0.001 として,40 エポックごとに1/10ずつ減衰するようにスケジューリングした.評価尺度として Recall@10を利用した.例えば,ある画像ク

エリの埋め込みベクトル q から,ペアとなる音声キャプション

を 1,000件の評価データから探索する場合,音声キャプションの埋め込みベクトル t1, t2, . . . , t1000 それぞれとの内積 qT tk を

計算して順位付けし,上位 10 件を決定する.q とペアになる

音声キャプションの埋め込みベクトルがこの 10件に含まれていれば探索成功とする.評価データ 1,000件の画像に対して同様のことを行い,ペアとある音声キャプションが 10位以内に含まれる割合が Recall@10である(以降,再現率と呼ぶ).最初に,1か国語の音声キャプションだけで学習した共有潜在空間を利用して,クロスモーダル探索の再現率を言語ごと

に比較した.例えば,画像と英語音声キャプションを対象とす

る場合,式 (3)から第 1項と第 2項を抜粋した式 (2)を損失関数とする.図 3は音声キャプションの長さ T を 1,024(約 10

— 4 —

Page 5: Crossmodal Search using Visually Grounded Multilingual Speech … · 2019-04-26 · 98,555 件の音声キャプションを収録できた(画像重複等の問題 により1,445

図 7 異なる言語間の音声キャプションの探索結果

Fig. 7 Crosslingual speech-to-speech retrieval results

秒),2,048(約 20秒)に変化させたときの探索結果である.共有潜在空間の次元数 dは 1,024に固定した.一方で,図 4は d

を 512, 1,024, 2,048に変化させたときの探索結果である.T は

2,048に固定した.“image2audio”は画像から音声キャプションの探索,“audio2image”は音声キャプションから画像の探索を指す.日本語音声キャプションの結果は,英語やヒンディ語

の結果と比べて同等以上であった.これは日本語収録被験者が

指示通りに発話してくれたこと,後段で検聴作業を行ったこと

が大きく起因すると考えられる.様々なデバイスで収録された

日本語音声キャプションであっても,クロスモーダル探索が従

来通り,動作することを確認できた.また,どの言語にも一貫

して,音声キャプションが長いほど,かつ潜在空間の次元数が

d = 1, 024のときに最も高い再現率であった.どの言語にも一貫して,audio2image が image2audio の再現率を上回ることは,画像 CNNは事前学習された VGG16をファインチューニングし,音声 CNNはゼロから学習していることに起因すると考えられるが,これには詳細な分析が必要である.

次に,式 (3)の損失関数を利用して,3か国語の音声をまとめて学習した共有潜在空間を評価した.図 5は,dを 2,048に固定して,長さ T を変化させたときの探索結果である.一方で,

図 6は,T を 2,048に固定して,dを変化させたときの探索結

果である.ヒンディ語の一部を除いて音声キャプションは長い

方が,次元数は多い方が再現率は高かった.学習する言語の増

加に伴って,潜在空間の次元数を増やすことに効果がありそう

である.図 3,4よりも,全体的に再現率が向上したことは興味深い.音声キャプションが言語間で対訳になっていないもの

の,各言語の音声キャプションが互いに補完する,特に品質の

高い日本語が他の言語を補助するように空間が学習された効果

であることを期待するが,これも詳細な分析が必要である.

図 7は,画像を通じて紐づく音声キャプション間の探索結果を示す.3つの条件で潜在空間を学習した場合を比較する.条件 1は画像を利用せずに潜在空間を学習した場合である.すなわち,式 (3)から第 7~12項を抜粋した損失関数を最小化した.条件 2は同じ画像を説明する異なる言語の音声キャプションを潜在空間で近づけることをしなかった場合である.すなわち,

図 8 ある画像から探索された音声キャプションの例

Fig. 8 An example of spoken captions retrieved from an imagealong with the time-dependent similarity profiles

図 9 ある画像から探索された音声キャプションの例

Fig. 9 An example of spoken captions retrieved from an imagealong with the time-dependent similarity profiles

式 (3)から第 1~6項を抜粋した損失関数を最小化した.条件 3は,式 (3)の損失関数そのものを最小化した.色付けされた棒グラフの,例えば “English2Japanese”は英語から画像を通じてペアとなる日本語音声キャプションを探した再現率を指す.

図 7より,画像を利用すること,そして 4つ組 (Ii, AEi , AH

i , AJi )

を互いに近づけるように学習することが再現率に大きく影響す

ることが分かった.ちなみに,事前学習されていない VGG16を画像 CNNに利用した場合,条件 1と同程度の再現率であった.このことから,事前学習された画像 CNNの役割は大きく,画像が複数の言語を結び付ける中間言語として働いていると推

測される.また完全な対訳ではないものの,画像を通じてペア

となる音声キャプションを潜在空間で近づけるように学習する

ことも探索の観点では有用であることが分かった.

図 8,9は画像から探索された音声キャプションの上位 3件を示す.図 8は探索結果 1位が,図 9は探索結果 3位が正解となる.画像の埋め込みベクトルと,音声キャプションの埋め

— 5 —

Page 6: Crossmodal Search using Visually Grounded Multilingual Speech … · 2019-04-26 · 98,555 件の音声キャプションを収録できた(画像重複等の問題 により1,445

図 10 同じ画像を説明する英語と日本語音声キャプションの埋め込み

ベクトルから計算される類似度行列の例Fig. 10 An example of similarity matrix between unpooled em-

beddings of English and Japanese spoken captions

込みベクトルの時系列(mean-pooling する前のもの)との内積の値からなる軌跡と,音声キャプションの書き起こしを記載

する.内積の値が大きい時刻に一致する単語(書き起こしの青

太字)を見ると,いずれも画像内容に紐づく名称であった.た

だし,「床面は銀色をしている」や「男の人が絵を描いている」

のような,名称の状態や程度は現状の潜在空間ではとらえきれ

ていないと推測される.静止画から認識することに限界はある

が,このような状態や程度を特徴抽出すべく,画像 CNNと音声 CNN,およびそれら出力を対応付ける損失関数の改良が課題となる.

図 10,11 は同じ画像を説明する英語と日本語音声キャプションの埋め込みベクトルの時系列から各々の時刻で内積を計

算した類似度行列である.“man”と “男性”,“woman”と “女性”,“dancing”と “踊っている”,“stairs”と “階段”,“woodendoors”と “木でできたドア”,“brick”と “レンガ”の部分で行列の値が大きい.特に,図 10で “男性”と “女性”という単語が繰り返し出現しても,それらが英語と対応づくところが面白

い.画像を中間言語とすることで,セグメンテーションされて

いない英語と日本語の音声キャプションから単語の対応関係で

ある翻訳知識を教師なしで獲得できる可能性を示すことができ

た.音声キャプションにラベル付けして正解データを整備し,

対応関係を定量的に評価することが今後の課題である.

5. まとめと今後の課題

画像を日本語で説明する音声キャプションデータの収録と既

存手法に基づいて,視覚情報と音声言語情報を対応付ける共有

潜在空間を学習し,クロスモーダル探索の観点でこの空間の有

用性を評価した.1か国語の音声よりも,3か国語の音声キャプションをまとめて学習する方が,視覚と音声言語がより良く対

応付けられることが分かった.特に,事前学習された画像 CNNの役割は大きく,画像が基点となって,異なる言語の音声キャ

プションにおける単語を意味的に対応付けることを確認した.

評価データをラベル付けし,画像領域と音声言語の対応付けを

定量的に評価する必要がある.また,対象言語の増加を想定し

た損失関数の改良,認識対象の状態や程度をとらえるべく音声

キャプションの時間構造のモデリングを検討する予定である.

図 11 同じ画像を説明する英語と日本語音声キャプションの埋め込み

ベクトルから計算される類似度行列の例Fig. 11 An example of similarity matrix between unpooled em-

beddings of English and Japanese spoken captions

文 献[1] K. Xu et al., “Show, attend and tell: Neural image caption

generation with visual attention,” in Proc. ICML, 2015.[2] J. Johnson et al., “Densecap: Fully convolutional localiza-

tion networks for dense captioning,” in Proc. CVPR, 2016.[3] S. Antol et al., “VQA: Visual question answering,” in Proc.

ICCV, 2015.[4] H. Gao et al., “Are you talking to a machine? dataset

and methods for multilingual image question answering,”in Proc. NIPS, 2015.

[5] S. Reed et al., “Generative adversarial text to image syn-thesis,” in Proc. ICML, 2016.

[6] 那須川哲哉, 村岡雅康, “画像認識器の物体ラベルを活用した単語の特徴表現,” 言語処理学会 第 25 回年次大会, D3-3, pp.268–271, 2019.

[7] D. Harwath et al., “Jointly Discovering Visual Objects andSpoken words from raw sensory input,” in Proc. ECCV,2018.

[8] D. Harwath and J. Glass, “Deep multimodal semantic em-beddings for speech and images,” in Proc. ASRU, 2015.

[9] D. Harwath et al., “Unsupervised learning of spoken lan-guage with visual context,” in Proc. NIPS, 2016.

[10] D. Harwath and J. Glass, “Learning word-like units fromjoint audio-visual analysis,” in Proc. ACL, 2017.

[11] D. Harwath et al., “Vision as an interlingua: Learning mul-tilingual semantic embeddings of untranscribed speech,” inProc. ICASSP, 2018.

[12] G. Chrupala et al., “Representations of language in a modelof visually grounded speech signal,” in Proc. ACL, 2017.

[13] K. Leidal et al., “Learning Modality-Invariant Representa-tions for Speech and Images,” in Proc. ASRU, 2017.

[14] H. Kamper et al., “Visually grounded learning of keywordprediction from untranscribed speech,” in Proc. Interspeech,2017.

[15] M. Hasegawa-Johnson et al., “Image2speech: Automati-cally generating audio descriptions of images,” in Proc. IC-NLSSP, 2017.

[16] O. Scharenborg et al., “Linguistic unit discovery frommulti-modal inputs in unwritten languages: Summary ofthe Speaking Rosetta JSALT 2017 Workshop,” in Proc.ICASSP, 2018.

[17] B. Zhou et al., “Learning deep features for scene recognitionusing places database,” in Proc. NIPS, 2014.

[18] K. Simonyan et al., “Very deep convolutional networks forlarge-scale image recognition,” in Proc. ICLR, 2015.

[19] J. Deng et al., “Imagenet: A large scale hierarchical imagedatabase” in Proc. CVPR, 2009.

[20] A. Karpathy et al., “Deep fragment embeddings for bidirec-tional image sentence mapping,” in Proc. NIPS, 2014.

— 6 —