音声に含まれる言語的情報と非言語的情報を分離する手法の提案...

19
音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声情報処理の実現に向けた一検討~ 峯松 信明 a) 櫻庭 京子 †† b) 西村多寿子 ††† c) d) 朝川 †††† e) 齋藤 大輔 ††††† f) 鈴木 雅之 ††††† g) Proposal of a method for acoustic separation of the linguistic information and the extra-linguistic information conveyed in a single speech stream — An examination toward realizing human-like speech processing on machines — Nobuaki MINEMATSU a) , Kyoko SAKURABA ††b) , Tazuko NISHIMURA †††c) , Yu QIAO d) , Satoshi ASAKAWA ††††e) , Daisuke SAITO †††††f) , and Masayuki SUZUKI †††††g) あらまし 近年の計算機性能の飛躍的な向上により,大規模語彙を対象とした音声認識は実用段階を迎えてい る。音声合成においても話者性を制御できる合成方式や出力音声の言語を制御できる合成方式など,種々の応用 場面を念頭においた技術開発が行われている。その一方で,音声工学研究の目的を「人間に匹敵するような」音 声言語情報処理能力の計算機実装と考えた場合,人間と機械との間には,今なお,大きな溝があることも指摘さ れている。本研究ではまず,現在の音声認識・音声合成相当の情報処理を行う人間が存在した場合,その人間の挙 動は,音声言語の獲得に困難を示す重度自閉症者の挙動と類似するであろうことを指摘する。その上で,人間ら しい音声情報処理の実現に向けて,現在の音声技術に欠けている基礎技術は何であるのかを幅広い視点から考え, その問いに対する現時点での我々の解答である「音声に含まれる言語的情報と非言語的情報を分離する手法の欠 損」について説明する。と当時に,その実現に向けて一つの技術的提案を行い,幾つかの実験結果を報告する。 キーワード 音響モデリング,情報分離,音声模倣,自閉症,知覚の恒常性,変換不変量,音声の構造的表象 東京大学大学院情報理工学系研究科 113–0033 東京都文京区本郷 7-3-1 Grad. School of Info. Sci. and Tech., The Univ. of Tokyo, 7-3-1, Hongo, Bunkyo-ku, Tokyo, 113–0033 Japan †† 獨協医科大学越谷病院 343–8555 埼玉県越谷市南越谷 2-1-50 Koshigaya Hospital, Dokkyo Medical University, 2-1-50, Minami-Koshigaya, Koshigaya-shi, Saitama, 343– 8555 Japan ††† 東京大学大学院医学系研究科 113–0033 東京都文京区本郷 7-3-1 Grad. School of Medicine, The Univ. of Tokyo, 7-3-1, Hongo, Bunkyo-ku, Tokyo, 113–0033 Japan †††† 東京大学大学院新領域創成科学研究科 277-8561 千葉県柏市柏の葉 5-1-5 Grad. School of Frontier Sciences, The Univ. of Tokyo, 5-1-5 Kashiwano-ha, Kashiwa-shi, Chiba, 277–8561 Japan ††††† 東京大学大学院工学系研究科 113–0033 東京都文京区本郷 7-3-1 Grad. School of Engineering, The Univ. of Tokyo, 7-3-1, Hongo, Bunkyo-ku, Tokyo, 113–0033 Japan a) E-mail: [email protected] b) E-mail: [email protected] c) E-mail: [email protected] 1. まえがき 近年の計算機性能の飛躍的な向上により,大規模語 彙を対象とした音声認識は実用段階を迎え,最近で は携帯端末を用いた音声認識が常識となるに至ってい [1], [2].一方,音声合成においても場面に応じて感 情や発話スタイルを制御できる合成方式 [3], [4],話者 性を制御できる合成方式 [5], [6],更には出力音声の言 語までをも制御する合成方式 [7], [8] など,種々の応用 場面を念頭においた技術開発が行われている。これら 音声技術の中核の一つは,「音声の音響的側面のどこを どのように表現・表象すべきか」という問いに対する技 術的解答とも言える,音響モデリング技術である。隠 d) E-mail: [email protected] e) E-mail: [email protected] f) E-mail: dsk [email protected] g) E-mail: [email protected] 電子情報通信学会論文誌 X Vol. Jxx–X No. xx pp. 1–18 c (社)電子情報通信学会 xxxx 1

Upload: others

Post on 27-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論 文

音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

峯松 信明†a) 櫻庭 京子††b) 西村多寿子†††c) 喬 宇†d)

朝川 智††††e) 齋藤 大輔†††††f) 鈴木 雅之†††††g)

Proposal of a method for acoustic separation of the linguistic information and the

extra-linguistic information conveyed in a single speech stream

— An examination toward realizing human-like speech processing on machines —

Nobuaki MINEMATSU†a), Kyoko SAKURABA††b), Tazuko NISHIMURA†††c), YuQIAO†d), Satoshi ASAKAWA††††e), Daisuke SAITO†††††f), and Masayuki SUZUKI†††††g)

あらまし 近年の計算機性能の飛躍的な向上により,大規模語彙を対象とした音声認識は実用段階を迎えている。音声合成においても話者性を制御できる合成方式や出力音声の言語を制御できる合成方式など,種々の応用場面を念頭においた技術開発が行われている。その一方で,音声工学研究の目的を「人間に匹敵するような」音声言語情報処理能力の計算機実装と考えた場合,人間と機械との間には,今なお,大きな溝があることも指摘されている。本研究ではまず,現在の音声認識・音声合成相当の情報処理を行う人間が存在した場合,その人間の挙動は,音声言語の獲得に困難を示す重度自閉症者の挙動と類似するであろうことを指摘する。その上で,人間らしい音声情報処理の実現に向けて,現在の音声技術に欠けている基礎技術は何であるのかを幅広い視点から考え,その問いに対する現時点での我々の解答である「音声に含まれる言語的情報と非言語的情報を分離する手法の欠損」について説明する。と当時に,その実現に向けて一つの技術的提案を行い,幾つかの実験結果を報告する。キーワード 音響モデリング,情報分離,音声模倣,自閉症,知覚の恒常性,変換不変量,音声の構造的表象

†東京大学大学院情報理工学系研究科〒 113–0033 東京都文京区本郷 7-3-1

Grad. School of Info. Sci. and Tech., The Univ. of Tokyo,

7-3-1, Hongo, Bunkyo-ku, Tokyo, 113–0033 Japan††獨協医科大学越谷病院〒 343–8555 埼玉県越谷市南越谷 2-1-50

Koshigaya Hospital, Dokkyo Medical University,

2-1-50, Minami-Koshigaya, Koshigaya-shi, Saitama, 343–

8555 Japan†††東京大学大学院医学系研究科〒 113–0033 東京都文京区本郷 7-3-1

Grad. School of Medicine, The Univ. of Tokyo,

7-3-1, Hongo, Bunkyo-ku, Tokyo, 113–0033 Japan††††東京大学大学院新領域創成科学研究科

〒 277-8561 千葉県柏市柏の葉 5-1-5

Grad. School of Frontier Sciences, The Univ. of Tokyo,

5-1-5 Kashiwano-ha, Kashiwa-shi, Chiba, 277–8561 Japan†††††東京大学大学院工学系研究科

〒 113–0033 東京都文京区本郷 7-3-1

Grad. School of Engineering, The Univ. of Tokyo,

7-3-1, Hongo, Bunkyo-ku, Tokyo, 113–0033 Japan

a) E-mail: [email protected]

b) E-mail: [email protected]

c) E-mail: [email protected]

1. ま え が き

近年の計算機性能の飛躍的な向上により,大規模語彙を対象とした音声認識は実用段階を迎え,最近では携帯端末を用いた音声認識が常識となるに至っている [1], [2].一方,音声合成においても場面に応じて感情や発話スタイルを制御できる合成方式 [3], [4],話者性を制御できる合成方式 [5], [6],更には出力音声の言語までをも制御する合成方式 [7], [8]など,種々の応用場面を念頭においた技術開発が行われている。これら音声技術の中核の一つは,「音声の音響的側面のどこをどのように表現・表象すべきか」という問いに対する技術的解答とも言える,音響モデリング技術である。隠

d) E-mail: [email protected]

e) E-mail: [email protected]

f) E-mail: dsk [email protected]

g) E-mail: [email protected]

電子情報通信学会論文誌 X Vol. Jxx–X No. xx pp. 1–18 c⃝(社)電子情報通信学会 xxxx 1

Page 2: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

れマルコフモデル(Hidden Markov Model, HMM)が音声認識に導入されて以来,尤度最大化基準に基づくパラメータ推定(最尤推定)[9],事後確率最大化基準に基づくパラメータ推定 [10],識別学習 [11] など,数理統計的な機械学習に基づく,より精度の高い,識別力の高いモデル学習方法が構築されてきた。統計的音響モデリングの枠組みは音声合成にも導入され [12],音声認識における話者適応,感情適応,他言語適応は,音声合成では,話者変換,感情変換,他言語変換と言葉を換え,種々の技術構築が行われてきた。「音声言語を操れる機械を構築する場合に,人間が採択しているアルゴリズムを真似る必要は必ずしもない」という言葉は頻繁に聞かれる言葉である [13]。しかし,採択されている方法論がどうであれ,音声工学研究の究極の目的が「人間に匹敵するような音声言語情報処理を計算機に実装すること」であることは多くの研究者からの同意が得られるものと考える。それを裏付けるように,人間と機械による音声言語運用能力・性能の差異に対して,これまで様々な報告が行われてきた [14]~[16]。いずれの報告においても共通していることは「両者の間に大きな溝があることは否めない」という事実である。最近では半世紀以上に渡る音声認識研究史を踏まえた上で「何かが足りない」という言葉を残した古井による講演が記憶に新しい [16], [17].現在の音声工学の技術体系の中に,基礎技術として何が足りないのだろうか?音声は,時間も振幅も連続的な値を有する1次元信号(波形)として観測される。それを標本化・量子化することで整数値列とし,計算機上で各種の処理が行われる。計算機にとって音声とは単なる数値列でしかない。しかし,この数値列の中に様々な情報が埋め込まれて(符号化されて)いる。そして人間はその情報をいとも簡単に解読して(復号化して)しまう。多様な情報を適切に反映しつつ数値列を導出するのが音声合成技術であり,その数値列から多様な情報を的確に抽出するのが音声認識・理解技術である。これら技術を構築する場合,数値列から定義可能なありとあらゆる音響特徴量を対象とする必要はなく,数値列のある側面を切り落とし,処理の効率化を図っている。例えば人間の聴覚は音声信号の位相成分には鈍感であるとの知見から,特徴量抽出を行う場合,パワースペクトルのみが対象となることが多い(注1)。更に,音声生成のメカニズムを「声帯によ

(注1):その結果,元の数値列には復元できなくなる。

る音源生成」と「声道による共鳴」との二段階に分け(ソース・フィルタモデル),両者による音響特性を関数の積で表現することで,後者による音響効果のみに着眼することも頻繁に行われている。現在の音声認識が好例であり,音源の音響特性を切り落としたスペクトル包絡特性を基本的な音響特徴量として用いている。二段階の切り落としの結果得られる包絡特性であるが,尚,様々な情報源がこの音響量を変形させる。音声に含まれる情報は大きく言語情報,非言語情報に分類される(言語情報は文字面情報だけに限定した言語情報と,文字面では表現できないパラ言語情報とに細分化される)。スペクトル包絡(共鳴特性)は声道の形状を直接反映した音響量である。「おはよう」と「こんにちは」を発声するときの声道形状の変化パターンは異なる。喜んで言う「おはよう」と悲しんで言う「おはよう」も同様,声道形状の変化パターンは異なる。更に異なる話者間では声道形状は当然異なるため,Aさんの「おはよう」とBさんの「おはよう」も声道形状の変化パターンは異なる。つまり,スペクトル包絡特性は,言語情報,パラ言語情報,非言語情報の何れによっても容易に変形を被る音響特徴量である。単語同定,感情同定,話者同定,いずれの技術を構築する場合でも,ある情報カテゴリと共起する包絡特性を多数集め,統計的にモデル化することが常套手段となっている。例えば単語同定を目的とする場合,各単語の音声資料を多数話者から集め,各単語の包絡特性を統計的にモデル化する。つまり,話者による音響量の違いを「ばらつき」として捉え,HMMやガウス混合モデル(Gaussian Mixture Model, GMM)などを用いて統計的にモデル化する。話者同定を目的とする場合,各話者毎に音声資料を集め,各話者の包絡特性を統計的にモデル化する。つまり,単語による音響量の違いを「ばらつき」として捉え,HMMや GMM

などを用いて統計的にモデル化する。言語情報と非言語情報は独立した情報である。にも拘わらず,その情報を運ぶ音響的対象物をモデル化する場合には,同一の音響量に対して,類似した操作が行われる。音声工学の分野では既に常套手段となって確立された技術ではあるが,例えば,機械学習を専門とし,音声認識,話者認識は機械学習の応用として捉えている研究者には,不思議な技術体系と映っているようである [18]。現在の音声工学の技術体系の中に,基礎技術として何が足りないのだろうか?より人間に近い情報処理を計算機上に実装させるためには,基礎技術として何が

2

Page 3: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

欠けているのだろうか?本論文は,この問いに対する筆者らの現在の解答として「音声に含まれる言語的情報と非言語的情報を分離する手法の欠損」を主張し,これを可能にする一つの技術的提案を行う。上記の主張に至るまでには,幅広い言語研究,人間研究の知見を踏まえた上で現在の技術体系を見直す必要があるが,本論文の主目的は,本主張に至までの経緯を読者に提示することにある。論文後半にて,上記主張に対応する技術構築について概説するが,その詳細については筆者らの他論文を別途参照して戴きたい。以下,何故この欠損への着目が重要であるのか,の説明から始める。「人間に匹敵するような音声言語情報処理を計算機に実装する」場合,どのような技術体系を構築することが要求されるのだろうか?そもそも「ある情報処理体が音声言語が無い状態から,有る状態へと遷移する」ということは,どのような情報処理体系を獲得することが必要条件となるのだろうか?この問いに対する正解を導くことは困難であるが,例えば,何らかの先天的欠損により音声言語の獲得に困難を呈する障害者と健常者との音情報処理の差異(発達的時間軸で考察する音声言語),動物と人間との音情報処理の差異(進化的時間軸で考察する音声言語)を検討することで,現在の音響モデリング技術の欠損部分が明確になってくると考える。

2. 発達的・進化的時間軸から考察する音響モデリングの技術的欠損

2. 1 発達的時間軸から考察する技術的欠損幼児の言語獲得は「音声模倣・学習」を基本とする [19], [20]。親の発声を積極的に模倣する行為である。ここで注意すべきは,彼らの模倣行為の音響的対象物である。幼児の音声模倣は,親の声の音真似・声帯模写をする訳では無い。音声の音響的模倣はしない。「おはよう」と話しかける話者が誰であれ,彼ら自身の声色で「おはよう」と返す。個体サイズを超えた模倣をしてくる。彼らの模倣行為の音響的対象物は何なのか?「親の声をシンボル(音韻,平仮名)列に落として,その後,個々のシンボルを自らの口で生成する」という説明は甚だ不適切である。彼らは音韻意識が未熟であり,「しり取り」も困難な状況にある [22](注2)。発達心理学の文献を調査すると,種々の用語でこの模倣対

(注2):例えばスウェーデン語には単母音が 17 種類ある。スウェーデン語を母語とする幼児の音声模倣は,これら母音カテゴリを全て習得した後に始まる訳では無い。シンボル列を読み上げる訳ではない。

象を説明していることが分かる。[23] では「幼児は単語全体の語形・音形を獲得し,その後,個々の分節音を獲得する」と説明し,[21]では「語形の全体ゲシュタルトを認知する」と述べ,[24]では「related spectral

pattern」という呼び名を用いている。これらは全て同一の現象・対象に対して異なる名称を用いていると解釈されるため,本論文では以下,統一して「語ゲシュタルト」という名称を用いることにする。語ゲシュタルトに話者の情報が含まれていれば,幼児は声帯模写を試みることになり,実際の現象とは合致しない。つまり,この語ゲシュタルトは音声から話者情報(非言語情報の一つ)が切り離された音響パターンということになる。筆頭著者は国内外の発達心理学研究者に,この「語ゲシュタルト」の物理的定義の提示を促したが,明確な解答は得られなかった。さて「幼児の聞く声の大半は母親,父親の声である」という事実は誰もが認める事実であろう。更に「自らが話せるようになると,その子の聞く声の約半分は(大人になっても)自らの声である」という事実も然りである。そもそも発声時に自らの声を常時モニターしないと,調音器官の制御が正常に行われない [25]。このように,人が聴取する音声の話者性は極めて偏りが大きい。そして,この話者的に極端に偏った音声の聴取を通して,人は頑健な情報処理を獲得する。上記したように,話者情報を切り落とした音響パターン(注3)を抽出する能力があれば,当然の現象である。その一方,話者情報を切り落とす技術が確立していない現在の音声認識技術において,不特定話者音響モデルを構築する場合に求められる音声データは,通常,年齢,性別などの話者バランスがとれた大規模音声データである。かつて IBM社が自社製の音声認識エンジンの宣伝に用いた「集めた話者数」は 35万人であった。人間による音声模倣行為が声帯模写的になる(切り落としが困難となる)場合があるのだろうか?そのような事例は重度自閉症者に見られる。七色の声を持つと呼ばれる声優の中村メイ子の多様な声をそっくり真似る例 [26],相手そっくりの声を模倣した例 [27]~[30],声だけに限らず,車のエンジン音,プリンタ音,ドア音など,様々な音響音を声帯模写する例 [29], [30]

は,自閉症関連図書には頻出する記述である。刺激音をそのまま記憶し,そのまま再生しようとする情報処理が主体となった場合,音声言語の獲得に支障を来す

(注3):但し,これは音韻列,平仮名列などのシンボル列ではない。

3

Page 4: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

のだろうか?少なくとも重度自閉症者の場合,音声言語の獲得・音声コミュニケーションは困難となる。中には,母親の音声は正しく認識・理解できるが,母親以外の音声への対応が難しい例もある [31]。母親の音声であっても電話越しであれば難しくなるようである。ある話者の音声を学習データとして音声合成システムを構築した場合,当然,出力されるのはその話者の声である。学習者の声色がそのまま再生されるため,話者認証システムの偽証可能性が議論されている [32]。成人話者を多数集めて構築した音響モデルで子供の音声を自動認識した場合,認識率は当然低くなる。そのため,子供音声用に音響モデルパラメータを修正することになる。これらは不特定話者音響モデルと言えども,学習話者の話者性を消し去ることが出来ない事実を示している。音声合成にしろ,音声認識にしろ,言語情報と非言語情報が同居したままスペクトル包絡特性の統計モデルを構築する点では同じである。つまり,音そのものを統計モデルの対象としている。その意味において,現在の音声認識・合成システムの挙動と重度自閉症者の挙動とは類似していると考察できる。発達的時間軸から考察を行ったが,健常者の音声模倣行為と,音声言語の獲得に困難を示す重度自閉症者の音声模倣行為の差異を考えれば,「ある情報処理体を音声言語が無い状態から有る状態へと遷移させる際に必要となる音情報処理」として考えられる解答の一つは「言語情報と非言語情報の分離」であると考える。

2. 2 進化的時間軸から考察する技術的欠損動物を対象とした場合,音声模倣は非常に稀な行為と位置づけられている。例えば,霊長類で考えた場合,人のみが行う行為であると考えられている [33]。動物種の範囲を広げた場合,音声模倣を行う動物種は鳥,クジラ,イルカなどが確認された例として挙げられる [34]。しかし,動物が行う音声模倣は物理的・音響的な模倣が基本となっている。つまり,音そのものを真似ようとする [34]。また,人以外の霊長類に対して「あるメロディーとそれを移調したメロディーの同一性を感覚できるか否か」という問いを立て,実験的に検討した進化人類学的研究がある [35]~[37]。これらの検討が示しているのは「人以外の霊長類は相対音感が非常に乏しく,移調前後のメロディーの同一性判定は困難である」という事実である(注4)。人以外の霊長類は極端な絶対音感を有している(注5)。

(注4):但し,1オクターブずらすと同一性が分かるとのことである。(注5):但し,彼らがメロディーを音名で記述できたり,採譜できたり

自閉症(アスペルガー症候群)者として世界で初めて書籍を出版した [28] グランディンは動物学の教授であるが,彼女は,自閉症者と動物の情報処理における類似性を指摘している [38]。いずれも,入力刺激の詳細な様子をそのまま記憶・保持する様子が報告されている。入力された情報を無意識的に取捨選択できず,汎化能力に乏しく,情報過多の渦に巻き込まれる様子は多くの自閉症関連図書に散見する記述である [30], [39]~[41](注6)。なお,重度自閉症者のモデルとしてサルを用いた応用行動分析研究例もある [43]。自閉症者の多くは絶対音感保有者である [44]。以上,人間と動物の音情報処理の差異に関して筆者らの文献調査の結果を述べた。音を用いた情報伝達を行う場合,情報の同一性を保証するために,音響的同一性が必要とされるのか否か,が問うべき焦点であると考える。必要であれば,音響的に同一の音を自らが生成したり,他者に要求することになる。重度自閉症者や動物の音声模倣,更には,動物における移調前後の同一性の欠損などはその良い例である。

HMM による統計的音響モデルが導入される以前,音声認識の主流は動的計画法(Dynamic Program-

ing, Dynamic Time Warping)であった。DPを用いた音声認識とは,基本的には,ある発声と別の発声の言̇語̇的̇な̇同一性検証を,音̇響̇的̇な̇同一性検証を通して行う技術である。言い換えれば,言語的同一性と音響的同一性を「置換可能」なものと仮定して,初めて成立する技術である。この仮定は正しいのだろうか?身長が 2.5m近い世界一の巨人と 1mに満たない世界一の小人が難なく会話する例が TV番組で報道されることがある。世界一の声色・音色の音響的差異を持つ両者は,その差を全く気にせず会話を楽しむのである。

DPの拡張版として,標準テンプレートに分散共分散行列を持たせた Stochastic DPがある [45]。HMMの尤度計算はこの Stochastic DP と同一であり,HMM

を用いた最尤スコア計算と DPによる最適パス探索は機能的に同じである。即ち,HMMを用いたとしても,言̇語̇的̇な̇同一性検証を,音̇響̇的̇な̇同一性検証を通して行う枠組みであることには変わりない。進化的時間軸からの考察を行ったが,筆者らは言語的同一性と音響的同一性は「置換可能」なものではな

出来る訳では無い。違う音は違う音,と認識しているだけである。(注6):ある当事者は,自閉症とは「情報の便秘」である,と述べている [30]。同様に,自閉症を(人工知能の世界で言う)「フレーム問題」が解けない症状として説明する書籍もある [41] [42]。

4

Page 5: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

いと考える。情報の同一性を保証する場合に,音響的同一性を必要としなくなったのが人間である。一連の考察より,本節においても「ある情報処理体を音声言語が無い状態から有る状態へと遷移させる際に必要となる音情報処理」に対する解答の一つは「非言語情報の分離によって得られる音響パターンを通して情報の同一性を検証する技術」の構築であると考える。では,非言語情報の分離によって得られる音響パターン,発達心理学的用語を用いれば「語ゲシュタルト」はどのように物理的・数学的に定義されるべきなのだろうか?本論文では,この「語ゲシュタルト」の数学的導出を述べるが,その前に,どのような形で導出すべきか,に関して検討を行う。求めるべきは,年齢,性別,体格といった話者特性,更には収録や伝送に用いた機器の音響特性に不変・独立な音響パターンであるが,このような刺激の多様性に対する認知の不変性は,心理学の世界では広く「知覚の恒常性」として知られる現象である。筆者らは音声を他の物理メディアに対して特別視すべきではないと考えており(注7),ここでは,色やメロディーの「知覚の恒常性」と対比しながら音声の「知覚の恒常性」を考え,その後に,「語ゲシュタルト」の数学的導出を述べる。

3. 刺激の物理的多様性とその認知的不変性

3. 1 色,メロディーに見る知覚の恒常性物理的に同一の刺激であっても,環境要因により,しばしば異なった様態をもって感覚器に入力される。ある犬を見る。その犬を異なる角度から見る。当然網膜像は異なるが,我々は同一性を容易に認知する。朝日の下の花と,夕焼け空の同一の花は,色みは異なるが,同一の花(色パターン)として認知する。男性歌手によるハミングと,女性歌手による同一メロディーのハミングは基本周波数は異なるが,同一メロディーとして認識する。男性の「おはよう」と子供の「おはよう」は,その音色が大きく異なるが,我々は言語的同一性を容易に発見する。これら刺激の物理的多様性は,何れも「静的バイアスによる刺激変形と,変形に不変な認知様式」と解釈できる。近年の心理学研究によれば,この同一性認知は,類似した情報処理が関与していることが示唆されている [46]~[48]。図 1は,同一のルービックキューブを黄眼鏡,青眼鏡で覗いた場合の「見え」を表現している。両者にお

(注7):より「自然な」アルゴリズムを構築したい,という意図である。

図 1 異なる色眼鏡を通して見たルービックキューブ [49]

Fig. 1 Rubik’s cube seen through differently colored

glasses [49]

図 2 コンテキストを隠した場合の色知覚 [49]

Fig. 2 Perception of color without context [49]

図 3 ハ長調(上)とト長調(下)の同一メロディーFig. 3 The same melody with different majors: C

major (upper) and G major (lower)

いて対応する部位は,観測者の網膜に異なる波長を届けるが,我々は両者に同一の色シンボルを振り,最終的に両キューブが同一であることを認知する。通常,左キューブ上面には 4つの青部位を,右キューブ上面には 7 つの黄部位を認める。しかしこれら部位のコンテキスト情報を消失させ,対象部位を単独で観察すれば,同一色であることが分かる(図 2 参照)。我々は,異なる色を同一と判断し,同一色を異なると判断する(注8)。我々の認知が,個々の要素刺激の物理特性のみで行われていないことを示す好例である。同様の認知は,音高においても観測される。図 3に示す二つの音系列は,同一メロディーのハ長調(上)とト長調(下)であるが(女性のハミングと男性の同一メロディーのハミングに対応),両者の同一性認知は,通常容易である。両メロディーをドレミで書き起こすことを要求した場合,絶対音感者であれば,個々

(注8):冊子が白黒であれば,下記で確認することを勧める。http://www.lottolab.org/illusiondemos/Demo%2012.html

5

Page 6: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xxl o g ( F 0 ) l o g ( 2 F 0 )w w w w ws sD o R e M i F a S o L a T i D o w = w h o l e t o n es = s e m i t o n e図 4 長調におけるオクターブ内の音配置

Fig. 4 Tone arrangement of a major key

の音を,その物理特性に基づいて書き起こすため,前者は「ソミソド・・」となり後者は「レシレソ・・」となる。彼らにとってドレミとは音名である。その一方,聴取者が相対音感者であれば,個々の音を,そのメロディー・音階における機̇能̇に基づいて書き起こすため,前者も後者も等しく「ソミソド・・」となる。提示されたメロディーの調に不変・独立にメロディーを書き起こす(注9)。彼らにとってドレミとは階名である。ここで,上曲の最初の音と,下曲の最初の音の基本周波数は異なるにも拘らず,彼らは同じ音(ソ)と判断する。更に,上曲の最初の音と,下曲の四番目の音の基本周波数は同一であるにも拘らず,彼らは異なる音(ソとド)と主張する。色の知覚と同様,異なる音高を同一と判断し,同一音高を異なると判断する。なお,コンテキスト情報を消失させ孤立音として提示すれば,機能を知覚できず,ドレミ書き起こしが出来なくなる。これらも,我々の認知が,個々の要素刺激の物理特性のみで行われていないことを示す好例である。心理学研究によれば,これら認知の不変性(恒常性)は,刺激群のコントラスト(インターバル情報)を用いた情報処理が大きく寄与していると考えられている [46]~[48]。各要素刺激の物理量は容易に変形するが,対象刺激と周辺の刺激群との関係性は不変である。図 4 に長調のオクターブ内音配置を示す。「全全半全全全半」という音配置は調に対して不変・独立であり,メロディー中の二音(時間的に離れていてもよい)が三全音の音高差を持つ場合,それらは「ファとシ」あるいは「シとファ」のいずれかとなる [50]。このような調に不変な関係性を制約条件として,相対音感者はメロディーをドレミで書き起こしてくる。さて,静的バイアスに不変な認知様式は,進化的にどこまで遡れるのだろうか?色の不変的認知は,蝶や蜂などの昆虫にも見られ [51],進化的には非常に古い。朝日の下の花と夕焼け空の花の同一性が認知困難であれば,蝶や蜂は,蜂蜜には辿り着けないのかもしれない(注10)。一方,第 2. 2節で示したように,異なる調の

(注9):なお,ドレミ書き起こしが困難な相対音感者もいる。(注10):興味深いことに,蟻にはこの能力は無いようである。

図 5 長身(上)と短身(下)の話者による/あいうえお/

Fig. 5 /aiueo/ utterances of a tall speaker (upper)

and a short one (lower)

同一メロディーに対する同一性認知は,人間以外の霊長類には極めて難しいことが示されている。即ち,音高の相対音感は進化的には非常に新しい。

3. 2 音声における知覚の恒常性色,メロディー同様に,音声も静的バイアスによって様々に変化する。図 3 を女性と男性のハミングだとすれば,このバイアスは声帯の長さ・重さの性差・個人差に由来する。一方,声道の長さ・形状の性差・個人差に起因するバイアスは,音声の音色(スペクトル包絡)を変形する(図 5参照)。この音色バイアスに対する人間の不変的認知は,どのような情報処理を基盤としているのだろうか?色の不変的認知に対して「蝶は数̇千̇の̇色̇眼̇鏡̇の試着を通して各色の統計モデルを個別に構築する」と主張する仮説を少なくとも筆者らは知らない。そもそも,各色にシンボルを振るという作業すら,花やキューブの色パターンにおける同一性認知には必要無い。しかし従来の音声認識研究では,図 5に示す音ストリームを「あいうえお」というシンボル列を通して眺め,各音シンボルに対応する音響量を数̇千̇の̇喉̇形̇状̇を通して観測し,得られた観測量を統計的に,かつ,個別にモデル化する方法論(音韻の統計的音響モデル)が業界標準の基盤技術となっている。生態学的,進化論的,発達心理学的に考えた場合,この方法論は非常に不自然である。前節で論じた色や音高の知覚を参考にすれば,ある発声と別発声の言語的同一性は,各音とそのコンテキストが形成する関係性に基盤を置くべきであると考える。しかし,音声の場合メロディーとは異なり,孤立音の同定は容易である。例えば,孤立母音刺激を同定させるタスクは容易である。しかし母音数が多い英語の場合,孤立母音同定率は 57%という報告もある [52]。また第 2. 1節で述べたように,母音カテゴリを獲得する前の幼児であればこのタスクは困難であるが,幼児

6

Page 7: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~l o g ( F 0 ) l o g ( 2 F 0 )PDM L IAA RD=Dorian, P=Phrygian, L=Lydian, M=Mixolydian

A=Aeolian(短調), I=Ionian(長調), AR=Arabic

図 6 六種類の古典的教会音階とアラビア音階Fig. 6 Six scales of Medieval church music and Ara-

bic scale

の様に音韻意識が未発達なまま成人となる例は海外では広く観測されている [53]。音韻性Dyslexiaと呼ばれる症状を示すことになるが,この場合,音韻操作・文字言語使用に困難を呈することになる(注11)。その場合でも,音声言語の使用には困難を示さない。そもそも音声を音韻(シンボル)列として表象・表現したり,それを操作する能力は文字言語使用には不可欠であるが,音声言語使用には必ずしも必要ではない [54]~[57]

なお,日本語であっても巨人や小人による発声を技術的に模擬した音声の場合,孤立母音の同定が難しくなる様子が報告されている [58]。しかし,無意味モーラ列として連続提示すれば,母音同定率は有意に向上する [59]。意味や統語の情報が無くても,前後の音声コンテキストが存在すれば同定率は向上する。筆者らはこの現象を,メロディーの階名書き起こしと類似した情報処理の結果であると解釈している。即ち,音声の場合も色や音高と同様に,各音がそのコンテキストとの間にもつ関係性に基づいた情報処理を技術的に実装することにより,各種の静的バイアスに極めて頑健なシステムが構築可能であると考える。次節で音群の間に存在する不変な関係性に基づく「語ゲシュタルト」の数式的な定義を述べるが,その前に,これまでの議論を簡単な思考実験を通して総括する。

4. 思考実験を通して考察する情報の分離

4. 1 音高の配置パターンと音色の配置パターン図 4に長調における音階の音配置を図示した。仮にこの配置が等間隔であれば,制約条件として機能しないため階名書き起こしは困難になる(注12)が,このような配置は人工的な実験音楽以外では存在しない [48]。

(注11):アルファベット教育を受ける機会が無いまま成人となった場合に,音韻操作が困難となる例についても報告がある [54], [55]。(注12):何れの音も主音・ドとなり得ることになる。

1ST FORMANT [kHz]

2ND

FO

RM

AN

T [k

Hz]

Maleaverage

Femaleaverage

図 7 日本語五母音の第一,二フォルマント周波数 [60]

Fig. 7 The first and second formant frequencies of

five Japanese vowels [60]

逆に,非等間隔となる音配置は民族・文化に依存する形で多様な配置パターンが存在する。一例として中世の教会音楽で使用された各種の配置パターンとアラビア音階を図 6に示す。D∼Iが教会音階であり,ARがアラビア音階である。D∼Iは一オクターブを五全音+二半音として区分する点は共通だが,全音と半音の配置様式が異なる。Iと Aが現代音楽で言う長調と短調である。一方アラビア音階は半音以外の位置にも音を配置しており,西洋音楽には存在しない音程が存在する。アラビア音階を用いて西洋音楽の曲を演奏することは可能ではあるが,そのような演奏を聞くと,通常,調律のずれたピアノ(つまり壊れたピアノ)で演奏された曲のように聞こえる(注13)。しかしこれをアラブ人に聴取させると「馴染みのあるメロディー」として受け止める。つまり,アラブ人にとってはこの音配置が本来の配置であり,この配置パターンを音楽経験を通して獲得する。個々の音の基本周波数ではなく,音の配置パターンを獲得することは言うまでもない。日本語における五母音の音色の配置を図 7 に示す。各母音の第一,第二フォルマント周波数の(多人数話者における)分布の様子と,成人男性,成人女性の平均値が示されている。音楽の場合,音階の各音の基本周波数の値は,移調によって,等しい値だけ上下することになるが,音声の場合,例えば性差によってフォルマント周波数は図 7のように移動することになる。メロディーの階名同定と音声の音素同定とを類似した情報処理として考えるということは,前者が音高に対

(注13):「子犬のワルツ」をアラビア音階で演奏した MIDI を下記にアップロードしている。一度聴取することを強く勧める。http://www.gavo.t.u-tokyo.ac.jp/˜mine/material/western.wav

http://www.gavo.t.u-tokyo.ac.jp/˜mine/material/arabic.wav

7

Page 8: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

Williamsport, PA

A

E

I

Ann Arbor, MI

Q

I

E √

ç

A

Rochester, NY

Q

I

E

図 8 米国方言における母音配置(但し一部)の差異 [64]

Fig. 8 Vowel arrangement (in part) of several Amer-

ican English dialects [64]

する相対音感を基盤とした情報処理であるように,後者を,音色に対する相対音感を基盤とした情報処理として考える,ということに相当する。個々の音の物理特性ではなく,他音との関係性に基づいて(例えば)母音同定のメカニズムを検討することは,音声学や音声科学の分野では古くから議論されている [61]~[63]

さて,性差や話者差によって凡そ不変な母音配置を,図 6にあるように多様に変形させるような要因はあるのだろうか?方言がそれに相当する。日本語の場合,方言差はアクセントやイントネーションの変形を指すことが多いが,外国語の場合,韻律的な変形と同様に母音の音色が変形することを意味する。図 8に米語方言の幾つかを示す。声道長正規化後の幾つかの単母音を第一,二フォルマント周波数平面上にプロットしている [64]。当然のことであるが,各地方で生まれ育った場合,この母音配置を言語経験を通して獲得する。以上の事実を踏まえた上で,思考実験を行う。

4. 2 思考実験を通して考察する言語情報と非言語情報の分離

「出産直後に両親が離婚した一卵性双生児」について思考実験を行う。離婚後,父親,母親が一人ずつを別々に育てた場合に,10年後,彼らがどのような発音を獲得することになるのかを考える。父親の音声を模倣して言語を獲得した場合,より太い声を出し,母親の音声を模倣して言語を獲得した場合,より細い声を出すようになることはない。人間の音声模倣は音響的な模倣ではないからである。そもそも,声道の長さ・形状は遺伝子が決定するため,二人の双生児は 10 年後,非常に似た声色を有することになる。しかし,父親,母親が異なる方言話者であった場合(図 8参照),両者の発音は全く異なったものとなる。性差(声道の長さ・形状における差)に起因する音声の音響的差異はスペクトル包絡の差異である。同様に,方言差に起因する音声の音響的差異もスペクトル包絡の差異である。しかし本思考実験より明らかなように,人間が音声言語を獲得する場合,前者は影響せ

ず,後者は直接的に影響を与える。つまり,与えられた音声資料から非言語的情報を分離し,言語的情報のみを抽出し獲得する。より音響的に考察すれば,提示音声中の各音の物理特性を獲得するのではなく,音群が形成する配置パターンを獲得する,ということになる。そして,この配置パターンは図 7に示したように,非言語的な要因に凡そ不変である。父親の地方訛りの英語を学習データとした音声合成システムは,父親の地方訛りの英語を話すようになる。一見言葉を話しているように見えるシステムであるが,筆者らはこのようなシステムと人間の音声情報処理との間には,これまで見てきたように,大きな隔たりがあると考えている。九官鳥やオウムは音響的な声帯模写を行うが [65],音声合成システム構築の例えとしては,人間の言語獲得よりも,彼ら(及び重度自閉症者の)声帯模写の方が適切であろう(注14)。両者は,異なる情報処理基盤の上で動作している。音をそのまま獲得・学習するのか,それとも,音の中に潜む体系を獲得・学習するのか,の違いである。人間らしい音声情報処理の実現には,音声に含まれる非言語的情報を切り落とし,音の体系として言語情報を抽出し,獲得・学習する技術が必要不可欠であると筆者らは考える。

4. 3 体系として捉える言語音と古典的音韻論音の体系として言語音群を捉える方法論は音韻論では古典的な議論である。研究者が音声を波形やスペクトルとして観測できるようになる以前の時代から,体系としての音声言語が議論されてきた。近代言語学の祖と呼ばれるソシュールは,“Language is a system of

only conceptual differences and phonic differences.”

“What defines a linguistic element, conceptual or

phonic, is the relation in which it stands to the

other elements in the linguistic system.” “The im-

portant thing in the word is not the sound alone

but the phonic differences that make it possible to

distinguish this word from the others.” と述べている [66]。また,ソシュールに啓蒙されたヤコブソンは関係的・体系的不変性に基づいて,言語音群を記述している [67]。図 9は,仏語の母音・準母音に対して彼が示した母音体系である [68]。著者らが現在の音声音響モデリング技術の欠損を議論し始めた当初は,これら古典的音韻論での議論を既知とするものではなかっ

(注14):ここでは,構築されたシステムの実用的価値を議論しているのではなく,「提示音声のどの音響的側面を獲得・学習して動作している情報処理体であるのか」という観点からの考察である。

8

Page 9: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

図 9 ヤコブソンによる仏語母音・準母音の体系 [67]

Fig. 9 Jakobson’s system of French vowels and semi-

vowels [67]

た。しかし,最終的に,類似した議論を重ねていたことは,筆者らにとっては,非常に興味深い一致である。次節にて語ゲシュタルトの数式的な定義を述べ,その後,これまでの議論の技術的妥当性を示す意味で,幾つかの実験的結果を示す。なお第 1.節 に述べたように,本論文の主目的は現在の音声音響モデリング技術の本質的な技術的欠損を指摘するために筆者らが行ってきた一連の調査・検討を読者に提示することであり,次節以降の記述は若干粒度が粗くなる。必要に応じて適宜参考文献を参照して戴きたい。

5. 音声の構造的表象

5. 1 可逆な変換に対する完全変換不変性入力音声の言語的情報を変えずに,話者情報だけを変える技術を話者変換技術と呼ぶ(注15)が,そこでは話者の変換を空間写像として捉えている。話者Aの声空間Aと話者Bの声空間Bとの間に写像を張り(推定し),話者Aの発声(空間Aにおける軌跡として観測される)が与えられると,それに対応する空間Bにおける軌跡が得られ,それを波形として生成する。同様に,収録機器特性や伝送特性などの音響特性も空間写像としてモデル化できるため,非言語的要因による音声の変形は全て空間写像として考えることができる。即ち,非言語的情報に対して不変・独立な形式で言語情報を表象する技術は,音声を変換・写像不変な音響量のみを用いて表象することによって得られる。従来,話者の違いを周波数 f の線形変換(f̂=αf)と仮定し,変換不変量を検討した先行研究がある [69]~[72]。しかし,話者変換システムにおける写像関数とし

(注15):但し,言語情報を非言語情報から切り離して表現・表象する技術に基づいている訳では無い。

x

y

u

v

A

Bp 1 p 2 P 1 P 2( x , y ) ( u , v ) d i vd i v図 10 連続かつ可逆な変形に対して不変な f-divergence

Fig. 10 f-divergence is invariant with any kind of dif-

ferentiable and invertible transform.

c1

c3c2

c1

c3c2

c4

cD

c4

cD

図 11 f-divergence に基づく一発声の構造化Fig. 11 Structuralization of a single utterance using

f-divergences

ては,通常,より複雑な写像関数が用いられる。更に,周波数 f の線形変換は,声道長の均一な伸縮のみを表現しており,これでは,約 65 億人の話者の違いを表現するのは困難である。より一般的な変換(f̂=β(f))に対する不変量を求める必要がある。しかも,音と音との距離を不変的に表象する必要がある。筆者らは,微分可能かつ可逆な如何なる変換に対して,f -divergence が不変であること(十分性)を証明した(図 10参照)[73], [74]。更に,微分可能かつ可逆な如何なる変換に対しても不変となる事象間距離はf -div.しか無いこと(必要性)も証明した [74]。f -div.

は t>0にて凸な関数 g(t)に対して下式で定義される。

fdiv(p1, p2) =

I

p2(x)g

p1(x)

p2(x)

«

dx

ここで,pi(x)は i番目の事象である。事象は点ではなく,確率密度分布として表象される。g(t)を換えることで様々な f -div.が定義可能であるが,g(t)=t log(t)

とすれば,f -div. は KL-div. となり,g(t)=√

t とすれば,− log(f -div.)はバタチャリヤ距離になる。つまり,これらの分布間距離尺度は変換不変量である。

5. 2 一発声の構造化に基づく音声の構造的表象音響特徴空間の軌跡として与えられる一発声を分布系列化し,任意の二分布間の距離を(時間的に離れた事象間を含め)f -div. で計測し,距離行列を求める [75], [76]。一般に N×N の距離行列は N 個の事象によって構成されるN 角形の形状を規定するため,この距離行列を,与えられた発声に対する(幾何学的な)構造表象と呼んでいる。図 11にその様子を図示する。

9

Page 10: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

P1

P2

P3P4

P5

Q1Q2

Q3Q4

Q5

O

1

2

34

5

図 12 回転及びシフトによる構造の重ね合わせFig. 12 Overlapping two structures through rotation

and shift

当然,この構造表象は変換不変である。また筆者らは,軌跡の分布系列化を尤度最大化基準で行えば,分布系列化も変換不変となることも証明している [77]。一旦発声を構造表象化し,その後は構造表象のみを用いた処理を行うとすれば,発声中の個々の音の音響特性は全て捨象することとなる。音群の関係性のみを抽象し,個々の音がどのようなスペクトル包絡特性を持つのかは,一切参照しない情報処理となる。二発声から各々計算された,等事象数の音声構造

(距離行列)に対して,行列をベクトルとして見なして(構造ベクトルと呼ぶ)計算されるユークリッド距離は,話者適応技術を用いて二話者を近づけた後に計算される音響照合距離と,比例関係にあることが実験的に示されている [78], [79]。これは,構造表象(距離行列)だけを用いて,話者適応・環境適応を施した後の音響照合距離を推定することが可能であること意味している。適応処理を明示的に行わずに,適応処理を行った後のスコア計算を推定する,言わば,アルゴリズム的なショートカットである。図 12はこれを図示している。二つの構造をシフト及び回転して重ねた後に算出する(対応する)二点間距離の総和の最小値は,構造ベクトル間のユークリッド距離に,近似的に比例する。なお次節で述べるが,シフトは音響機器特性の違い,回転は声道長の違いを相殺する演算に対応する。

5. 3 部分空間を用いた不変性の制御第 5. 1節で示したように,音声の構造的表象は一切の空間写像に不変となる。また,第 1.節で述べたようにスペクトル包絡特性は言語情報,パラ言語情報,非言語情報全てと関連する。スペクトル空間の任意写像に不変ということは,言語情報の差異,パラ言語情報の差異に対しても不変ということになる。即ち,異なる二話者に不変な表象は,異なる二単語に不変に,異なる二感情に不変に,更には異なる二方言に不変な表象になる可能性がある。何も区別できない表象になる可能性がある。幼児の音声模倣を考えれば分かるよう

c1

cc = ( ), ,1 c2 c3

c = ( ),c2b c3

c = ( ),c1a c2

c3c2

図 13 部分空間を用いた不変性の制御Fig. 13 Control of invariance using sub-spaces

に,彼らの模倣行為は,言語情報,パラ言語情報の違いには敏感である。非言語情報の違いのみを無視して模倣を行う。つまり,不変性を制限する必要がある。例えば,ケプストラム空間における一次変換 c′=Ac

を考える。ここで,任意の行列 Aに対する不変性ではなく,次式に示す帯行列の形式を持つ行列のみに不変性を有する構造表象の計算法を考える。

c′

1

c′

2

.

.

.

c′

n

=

c1

c2

.

.

.

cn

0

0

この場合,上式より明らかなように,変換後の成分 c′i

は変換前の自成分及びその近隣の成分 ci−d,..,ci,..,ci+d

とのみ関係する。言い換えれば,変換前後で,離れた次元間では成分は独立性を持つ。この特性を考慮し,連続した w 次元の幅のみを用いて部分空間を構成し,各々の部分空間で構造を構成し,図 12に示した構造照合を行う。w を大きくとれば,不変性は増すが識別力が劣化し,w を小さくとれば不変性は減少するが識別力は増加する。図 13は三次元空間 (c1, c2, c3)を二つの二次元空間 (c1, c2),(c2, c3)に分割し,各々で構造を求める様子を示している。部分空間構成についての詳細は [80], [81]を参照して戴きたい。

5. 4 声道長変換行列の幾何学的意味音声認識・話者変換研究において,声道長の正規化・変換を一次の全域通過ディジタルフィルター( z−1−α

1−αz−1)の周波数変換特性で近似することが広く行われている [82]~[84]。この変換はケプストラム空間では,下記の行列 B を用いた一次変換 c′=Bcとなる [83]。ここで,αは |α|<1.0を満たす定数である。

10

Page 11: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

B=

0

B

B

B

B

B

B

@

1−α2 2α−2α3 · · · · · ·−α+α3 1−4α2+3α4 · · · · · ·

......

......

......

......

1

C

C

C

C

C

C

A

Bij =1

(j − 1)!

jX

m=m0

j

m

!

(m + i − 1)!

(m + i − j)!(−1)mα(2m+i−j),

但し m0=max(0, j − i)である。この行列が凡そ帯行列となることは明らかである。筆者らは行列 B が多次元回転行列で近似できることを数式的に導いている [85], [86]。また,音声資料をBを用いて大人から子供まで(あるいはその逆)声道長伸縮させると,変換前後で軌跡の方向が約 90度回転する様子も実験的に示している。収録機器,伝送機器の音響特性は伝達関数を掛ける演算であり,ケプストラム空間では定ベクトルを足す演算となる。以上より,図 12に示したように,シフトによって音響特性の差異が,回転によって声道長の差異が相殺される。声道長伸縮の回転性についての詳細は,[85], [86]を参照して戴きたい。声道長の違いが回転性の変形を生じさせる事実は,音声の不変表象とメロディーの不変表象と違いを生じさせる。歌声や発話で観測される基本周波数(F0)パターンから話者性を消失させる常套手段として,平均F0 を定値とするよう正規化したり,速度成分(デルタ F0)の算出が行われる。これに相当する処理をケプストラム空間で行っても(ケプストラム平均正規化(CMS)やデルタケプストラムの算出)不変とはならない。ケプストラム空間は多次元空間であり,軌跡方向が声道長に依存して回転・変化するため,図 11では,スカラー量のみで音声表象を形成している。

6. 音声の構造的表象の応用と情報分離

6. 1 孤立単語音声認識実験提案する音声表象手法が持つ非言語的情報の違いに対する高い頑健性を実験的に検証した。ここでは,日本語五母音を並び替えて定義される語彙数 120の単語セット,及び,子音を含む音素バランスのとれた語彙数 212 の単語セット [87] を用いた孤立単語認識実験を行った [81], [88]。認識実験の枠組みを図 14に示す。図が煩雑となるため,部分空間化は省いてある。また,パラメータ次元数を抑えるため線形判別分析も導入している。実験の詳細は [81], [88]を参照して戴きたい。母音単語の場合,各単語を 20 個の分布系列へ,バラ

Speech signal

Cepstrum vector sequence

Cepstrum distributionsequence (HMM)

Inter-distribution distances(f-divergence)

Structure (distance matrix)

Statistical structure model

Word 1

Word 2

Word N

00

00

0

s = (s1, s2, ... )structure vector

図 14 構造表象を用いた孤立単語音声認識の基本的枠組みFig. 14 Basic framework of structure-based spoken

word recognition

ンス単語の場合は 25 個の分布系列へ変換し構造化を行っている。この構造化は各発声から HMMをMAP

推定により学習することで行っている(図 14参照)。学習データは母音単語の場合,成人男女四名ずつが五回ずつ発声したデータを用い(各単語 40発声),バランス単語の場合,成人男女 15 名ずつが一回ずつ発声したデータを用いた(各単語 30 発声)。これらより,構造ベクトルのガウス分布として統計構造モデルを学習した。評価データは同規模の他話者発声であるが,第 5. 4節で示した変換行列を用いて,声道長が大きく異なる(巨人化,小人化)音声も評価データに含めた。比較実験として,同一学習データより構築した単語

HMMを用いた孤立単語認識実験も行った。なお,音声対話技術コンソーシアムより配布されている 4,130

人の話者より構築されたトライフォンモデルを用いた孤立単語認識システムによる実験も一部行った。結果を図 15,16に示す。変換行列の α の負(正)は,声道長を長く(短く)することに対応し,|α|=0.4

で約倍,半分になる。また,HMMとは単語 HMMの性能であり,matchedとは,αの各値に対応した学習データを用いて単語認識システムを構築し,学習・評価間において条件の不一致を解消した場合の性能である。w は部分空間化における次元幅である。母音単語の場合,HMMに対して提案手法は適切な

wを設定することで,極めて高い頑健性を示しており,その精度は matched を一部越えている。matched を越える性能に関しては線形判別分析の導入による精度向上であると考えられる。なお,トライフォンの性能より分かるように,話者数を単に集めるだけでは対処できないような学習・評価条件の不一致にも提案手法は

11

Page 12: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

0

10

20

30

40

50

60

70

80

90

100

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4Warping parameter (α)

Recogniti

on r

ate

[%

]

5-vowel words

(PP=120)

w=1w=4w=7

w=10

w=13

w=16

HMM

matched

4130-speakertriphone HMMs

図 15 五母音単語セットに対する認識率Fig. 15 Recognition rates with 120 words of five

Japanese vowels

0

10

20

30

40

50

60

70

80

90

100

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4Warping parameter (α)

Recogniti

on r

ate

[%

] w=1w=4w=7

w=10

w=13

w=16

HMM

matched

Phoneme-balanced

words (PP=212)

図 16 バランス単語セットに対する認識率Fig. 16 Recognition rates with 212 words of balanced

phonemes

十分に対応できている。バランス単語においても高い頑健性は示されているが(w=10, 13など),matched

条件には及んでいない。これは一部の子音は話者による差異が母音に比べて非常に小さいため,音と音の相対的な関係だけを捉える提案手法のみでは十分に対応できていないことを示している。既に従来の手法と提案手法とを融合する枠組みも理論的,実験的に検討しており [89],興味のある読者は参照して戴きたい。

6. 2 外国語発音評定実験提案手法が持つ高い頑健性,及び,言語情報・非言語情報の分離を実験的に検証するため,学習者による外国語発音の評定実験を,ERJ(English Read by

Japanese)データベース [90]を用いて行った [91]。英語教師による発音習熟度が正解ラベルとして付与された 26名の日本人英語学習者の音声資料(約 60文)に対して,その習熟度を推定する。従来手法としては,母語話者音声より学習した不特定話者音素HMMを用いて計算されるGOP(Goodness Of Pronunciation)

Distributions(states)

Utterances

Feature vector sequences

Distributions(states)

Utterances

Feature vector sequences

Sub-structure Sub-structure

This was easy for us,,, This was easy for us,,,

Structure Structure

Normalization

A teacher A student

Selection of state pairs

図 17 選択された状態対を用いた発音構造比較Fig. 17 Pronunciation structure comparison using

selected state pairs

スコアを採択した [92]。読み上げ音声を対象としており,学習者が意図したテキスト(即ち音韻列)を既知として,習熟度推定時に用いることができる。この意図した音韻列に対する事後確率がGOPスコアである。

GOP (o1, ..., oT , p1, ..., pN )

= log(P (p1, ..., pN |o1, ..., oT ))

≈ 1

N

NX

i=1

1

Dpi

log

(

P (opi |pi)P

q∈Q P (opi |q)

)

≈ 1

N

NX

i=1

1

Dpi

log

P (opi |pi)

maxq∈Q P (opi |q)

ff

ここで,T は観測フレーム長であり,N は意図された音素数である。opi は強制アライメントによって得られた音素 pi に対応する音声区間であり,Dpi はその区間長である。{op1 ...opN }と {o1...oT }は同一のフレーム系列を表現しており,Qは全音素集合である。提案手法である音声の構造表象を用いて発音習熟度を推定する場合,一発声を構造化するのではなく,音素 HMM(3 状態)を約 60 文の音声データより学習者毎に学習し,状態単位での構造を構成した。この発音構造と特定教師 1名の発音構造とのユークリッド距離を求める(図 12参照)。この時,評価用の 26名以外の学習者音声を用いて,構造間差異と習熟度との相関が最大化するよう,不要な状態対を準貪欲探索により削除し,選択された状態対のみで構造間差異を定義した。一連の手順を図示したものを図 17に示す。発音評定実験の詳細は [91]を参照して戴きたい。図 18に結果を示す。横軸は図 15,16同様,評価データの巨人化,小人化の度合いである。縦軸が教師

12

Page 13: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

2

4

6

8Ac

cumu

late

d Di

stor

tion

HHHOOOIIIRRRAAAPPPEEEVVVXXXMMMFFFKKKUUUQQQTTTNNNLLLWWWYYYBBBCCCSSSJJJZZZDDDGGG

図 19 発音構造間差異に基づく 78 名の学習者分類結果Fig. 19 Learner classification based on structure-based pronunciation comparison

EKACDIOUGMSXBNQRYWJZLPFVHTAOUCEKDGIMSXBRVNQYFHTJZLPWACEKDIOGMSXUVBFQRHTJZLNPWY

1

2

3

4

5

Accu

mula

ted

Dist

orti

on

図 20 学習者の音素 HMM 間距離に基づく 78 名の学習者分類結果Fig. 20 Learner classification based on spectrum-based pronunciation comparison

-0.2

0

0.2

0.4

0.6

0.8

1

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4

Co

rre

latio

n c

oe

ffic

ien

ts

®

A single teacher’s structure

20 teachers’ HMMs (GOP)

Warping parameter

図 18 学習者音声を用いた習熟度推定結果Fig. 18 Results of proficiency estimation of learners

による手動評定値と計算機による自動評定値との相関である。GOPと比較して発音構造による自動評定は,極めて高い頑健性を有していることが分かる。GOP

計算時に用いた不特定話者 HMM を,巨人・小人話者用に適応して用いれば,同様の性能は導出可能であるが,そもそも,HMMを学習者の声色に合わせて適宜修正するということは,発音の評定をする技術と言うよりも,声帯模写の評定をする技術と言うべきである。第 2. 2節で述べたように,HMMによる音響照合は音響的同一性を通して情報の同一性を検証する技術である。音響的同一性を通して発音の同一性を評定するのであれば,それは声帯模写の評定をする技術であ

る。この技術を発音評定に応用する場合は,当然,学習者の声色に合わせて逐一モデルを修正する必要が生じる。しかし提案手法は教師一人のみを用いた結果であり,学習者の体格に合わせて修正する必要はない。図 18は教師 1名と各学習者との発音構造間差異であるが,任意の学習者間の構造間差異も同様に求めることができ,26 名全体で行えば,学習者間距離行列が得られる。この距離行列に対してボトムアップクラスタリングを行えば,学習者の樹形図が得られる。ここでは巨人化(α=−0.3),小人化(α=0.3)した音声も含め,合計 78名の学習者の樹形図を求めた。Ward

法による結果を図 19に示す。図でアルファベットが学習者 IDであり,Xは巨人化した学習者 Xを,Xは小人化したそれを表す。字体の違いは性別である。図より明らかなように,身長差が全く捨象され,26名の学習者の発音の分類になっている様子が分かる。これに対して,学習者 i と学習者 j の学習者間距離を,i

の HMMと j の HMMの対応する状態間距離(バタチャリヤ距離)の和でもって計算した場合の樹形図を図 20 に示す。こちらは原身長,小人,巨人でまず分かれ,各々のサブツリーでは,まず性別で分類されている。即ち,体格,性別に基づいた話者分類が行われている。言い換えれば,図 19は言語情報のみに着目した分類であり,図 20は非言語情報のみに基づいた分類である。両情報の分離が綺麗に実現されている。

13

Page 14: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

- = Gestalt

図 19 音声 − 声道の長さ・形状 = 語ゲシュタルトFig. 19 Speech − length and shape of the vocal tract

= word gestalt

+ =図 20 音声の構造的表象 + 声道の長さ・形状 = 音声Fig. 20 Speech structure + length and shape of the

vocal tract = speech

6. 3 構造からの音声合成実験音声認識と発音評定では,多様な非言語情報を分離し,話者不変の表象とすることが有効に寄与する応用であった。本節では,話者不変表象に対して非言語情報を再度加味することで,多様性を生成する応用を考える。図 19に示すように,「語ゲシュタルト」は音声からその話者の声道の長さ・形状を消失させた情報表象である。これに対して図 20に示すように,音声の構造的表象に別話者の声道(話者の身体特性)を戻すことで,声を再生することを検討する。言うなれば,幼児の音声模倣のシミュレーションに相当する [93]~[95]。音声の構造的表象は図 11 に示したように,音声の動的側面を話者不変に抽出した情報表象であるので,図 20は「音声の動きの情報(構造)に基づいて声道を動的に調音させる」と解釈することもできる。本来であれば,構造表象に対し,与えられた声道形状特性から音声を生成すべきである。しかし,声道から直接音響パラメータを導出するのは困難であるため,ここでは,その声道形状を持つ話者の幾つかの音を初期条件とし,構造表象を制約条件と解釈し,解を探索する問題として音声合成プロセスを定式化した。図 21

にその様子を図示する。既に四つの事象が具体的に音響空間に定位済みの状態であり,この四事象と構造制約とにより,次の事象を空間内に定位する。幼児の音声模倣を例に考えれば,親の発声から得られた構造表象に対し,幼児の声断片を初期条件として,親の発声と構造的に同一の音声を次々と生成することになる。より具体的には次のプロセスを経る。既に n個の事象が定位済みであるとし,ei(i=1, .., n)とする。ei と次に定位すべき新事象との間の n 個の距離(di とする)が制約条件として与えられた場合,新事象は,ei

1 2 3 4

1

3

2

4

new

図 21 構造的制約に基づく次事象探索Fig. 21 Space search for target using structural con-

straints

25242322212019181716151413121110987654321

5001000150020002500300035004000450050005500600065007000

Hz

0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75time

(a)

25242322212019181716151413121110987654321

5001000150020002500300035004000450050005500600065007000

Hz

0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80time

(b)

25242322212019181716151413121110987654321

5001000150020002500300035004000450050005500600065007000

Hz

0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80time

(c)

図 22 (a) 制約条件として与えた音声(分析再合成),(b) 初期条件として与えた音声(分析再合成),(c) (a) と (b) から探索された合成音声

Fig. 22 (a) utterance given as structural constraints,

(b) utterance given as initial conditions,

(c) synthesized utterances from (a) + (b)

を中心とし,半径 di となる n個の超球の交点として求まる。実際には,距離としてはバタチャリヤ距離を用いているので,超球ではなく,超楕円の交点を求めることになる。[93] にて,この問題を解くアルゴリズムを提案し,[94], [95] にて各種の高速化,高精度化を図っている。ここでは幾つかの合成例のみを示すに止める。図 22 に,(a) 構造的制約条件として与えた音声(親),(b)初期条件として与えた音声(幼児),(c)

提案手法による解探索に基づき合成した音声を示す。初期条件としては,(b)中の枠で囲んである五事象を与えている。聴取実験の結果,(c)の音声には,(a)の言語情報と (c)の話者情報(非言語情報)を十分に認めることができたことを確認している。

14

Page 15: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

7. まとめと考察

本論文では前半にて,「人間に匹敵するような音声言語情報処理を計算機に実装すること」を音声工学研究の究極の目的と位置づけた場合に,現行の音声技術に根本的に欠けている基礎技術として「音声に含まれる言語情報と非言語情報を分離する手法の欠損」があることを指摘し,その理由を発達的な時間軸,及び進化的な時間軸における音情報処理を考察することで説明した。そして,どのような着眼点に基づいてその欠損を補うべきか,について音声以外のメディア情報の知覚の恒常性や幼児の音声模倣における思考実験を通して考察した。論文後半では,前半の議論の技術的妥当性を示すために,種々の理論的考察,実験的検討を概観した。まず,完全変換不変量の導出を行い,それに基づいて,従来のスペクトル包絡系列として音声を表象する手法とは全く異なる,音声の構造的表象を導いた。更に,不変性の制御,声道長差異の幾何学的解釈に至る理論的考察を行った。その後,音声認識,発音評定,音声合成という応用タスクに対して,構造表象に基づく処理系を構築し,その性能を実験的に検討した。その結果,音声認識,発音評定に関しては従来手法と比較して極めて高い頑健性を示すことができた。また,発音評定,音声合成において,言語情報と非言語情報が適切に分離されていることを確認した。提案する音声の構造表象は,どの応用においても実システムを即座に組めるほど既存技術との連携がとれておらず,また,構造表象自身に解くべき問題点も多い [81], [88], [89], [91], [95]。しかしながら,本論文の題目に掲げた言語情報と非言語情報の分離という観点においては,十分な実験的裏付けを示すことができたと考えている。これを受け本節では情報の分離に対して,再度考察を行い,本論文をまとめる。第 1.節にて述べたように,従来より音声の技術構築においては,数値列としての音声信号に対して,種々の知見に基づき,情報を適宜捨象する形で特徴抽出,音響モデリングを試みてきた。位相スペクトルの切り落とし,調波構造の切り落としがそれに相当する。しかし,人の聴覚が位相スペクトルに鈍感なように,人は言語を獲得するときに,親の音声の非言語的情報には鈍感である。確かに,人は音声の非言語的情報を認知し,それに基づいた行動をとることができる。その意味では敏感である。しかし,言語獲得(音声模倣)というプロセスにおいては,自らの音声言語にその情

報を反映しようとしない。その意味で鈍感である。本論文ではこの鈍感さに着目し,言語情報と非言語情報との分離を検討した。脳科学では,感覚器から入力された情報が分離される情報処理モデルが広く受け入れられている。視覚情報の場合は,第一次視覚野からの情報が腹側経路と背側経路とに分かれ,各々が,what

の情報,where(あるいは how)の情報を表象するモデルである [96]。聴覚情報の場合でもこのモデルに倣い,言語情報,非言語情報の分離モデルを検討している研究もある [97], [98]。これらの研究動向から見ても,実装方式の是非は問えないが,情報を分離する技術を構築することは,より人間らしい情報処理を実装することに近づいていると筆者らは考えている。積極的な分離を行わない場合,言語的同一性と音響的同一性とを等価なものと考えたり,発音学習を声帯模写学習として扱うことになる。更には,単語同定・話者同定の例にあったように,全く独立した情報の抽出を行うシステムを構築する時に,音響的に同一の現象に対して類似したモデリング技術を使用してシステム構築するなど,第三者的には不思議な技術体系を構成することになる。確かに情報分離を行わなくても,着目する情報カテゴリと共起する特徴量を莫大な学習データから集め,着目しない情報に起因する特徴量変動を「ばらつき」と解釈し,統計的な機械学習にかければ,ある程度動作する機械は構成できる。しかしその場合,人間の情報処理性能との比較を行った際に,「何かが足りない」という言葉を延々と繰り返すことになるのではないか,と筆者らは考えている。

文 献[1] S. Ishikawa, K. Yamabana, R. Isotani, A. Okumura,

“Parallel LVCSR algorithm for callphone-oriented

multicore processors,” Proc. ICASSP, 177–180, 2006

[2] I.L. Hetherington, “PocketSUMMIT: small-footprint

continuous speech recognition,” Proc. ICASSP,

1465–1468, 2007

[3] K. Ochi, K. Hirose, N. Minematsu, “Realization of

prosodic focuses in corpus-based generation of funda-

mental frequency contours of Japanaese based on the

generation process model,” Proc. Int. Conf. Speech

Prosody, 2010 (to appear)

[4] T. Nose, J. Yamagishi, T. Kobayashi, “A style con-

trol technique for speech synthesis using multiple

regression HSMM,” Proc. INTERSPEECH, 1324–

1327, 2006

[5] Y. Stylianou, O. Cappe, E. Moulines, “Continuous

probabilistic transform for voice conversion,” IEEE

Trans. SAP, 6, 2, 131–142, 1998

15

Page 16: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

[6] 戸田智基,“任意の話者を対象とする統計的声質変換・制御法”,信学技報 SP2008-138,73–78, 2009

[7] K. Oura, K. Tokuda, J. Yamagishi, S. King,

“Unsupervised cross-lingual speaker adaptation for

HMM-based speech synthesis,” Proc. ICASSP, 4594–

4597, 2010

[8] 服部信彦,戸田智基,河井恒,猿渡洋,鹿野清宏,“音声翻訳システムのための一対多固有声変換に基づく声質制御”,日本音響学会春季講演論文集,1-7-19,321–322,2010

[9] L.R. Rabiner, B.-H. Juang, “An introduction to hid-

den Markov models,” IEEE ASSP Mag., 3, 4–16,

1986

[10] H.K.J. Kuo and Y. Gao, “Maximum entropy direct

models for speech recognition,” IEEE Trans. ASLP,

14, 873–881, 2006

[11] E. McDermott, T. Hazen, J.L. Roux, A. Naka-

mura, G. Katagiri, “Discriminative training for large-

vocabulary speech recognition using minimum classi-

fication error,” IEEE Trans. SAP, 12, 37–46, 2007

[12] K. Tokuda, H. Zen, “Fundamentals and recent ad-

vances in HMM-based speech synthesis,” Tutorial of

INTERSPEECH, 2009

[13] M.J.F. Gales, “Acoustic modelling for speech recog-

nition: Hidden Markov Models and beyond?” Proc.

IEEE Workshop on Automatic Speech Recognition

& Understanding, 44, 2009

[14] R. Lippmann, “Speech recognition by machines and

humans”, J. Speech Communication, 22, 1–15, 1997

[15] R.K. Moore, “A comparison of the data requirements

of automatic speech recognition systems and human

listeners,” Proc. EUROSPEECH, 2581–2584, 2003

[16] 古井貞熙,“何かが欠けている音声認識研究”,信学技報SP2009-80,49–54, 2009

[17] S. Furui, “Generalization problem in ASR acoustic

model training and adaptation,” Proc. IEEE Work-

shop on Automatic Speech Recognition & Under-

standing, 1–10, 2009

[18] N.D. Lawrence and J. Barker, “Dealing with high di-

mensional data with dimensionality reduction,” Tu-

torial of INTERSPEECH, 2009

[19] P. W. Jusczyk, The discovery of spoken language,

The MIT Press, 2000

[20] P. K. Kuhl, “Early language acquisition: Cracking

the speech code,” Nature Reviews Neuroscience, 5,

831–843, 2004

[21] 早川勝廣,“言語獲得と育児語”,月刊言語,35,9,62–67,

2006

[22] 原恵子,“子どもの音韻障害と音韻意識”,コミュニケーション障害学, 20, 2, 98–102, 2003

[23] 加藤正子, “特集「音韻発達とその障害」にあたって” コミュニケーション障害学, 20, 2, 84–85, 2003

[24] P. Lieberman, “On the development of vowel pro-

duction in young children,” Child Phonology vol.1,

edited by G. H. Yeni-Komshian, J. F. Kavanagh, and

C. A. Ferguson, Academic Press, 1980

[25] B.S. Lee, “Effects of delayed speech feedback,” J.

Acoust. Soc. Am. 22, 824–826, 1950

[26] 深見憲,ひろしくんの本 (V),中川書店,2006

[27] R. Martin,自閉症児イアンの物語~脳と言葉と心の世界,草思社,2001

[28] T. Grandin,我, 自閉症に生まれて,学研,1994

[29] L.H. Willey,アスペルガー的人生,東京書籍,2002

[30] ニキリンコ,スルーできない脳~自閉は情報の便秘です~,生活書院,2008

[31] 東田直樹,東田美紀,この地球にすんでいる僕の仲間たちへ,エスコアール,2005

[32] T. Masuko, K. Tokuda, T. Kobayashi, “Imposture

using synthetic speech against speaker verification

based on spectrum and pitch,” Proc. ICSLP, 302–

305, 2000

[33] W. Gruhn, “The audio-vocal system in sound percep-

tion and learning of language and music,” In: Proc.

Int. Conf. on language and music as cognitive sys-

tems, 2006

[34] 岡ノ谷一夫,“小鳥の歌と言語:共通する進化メカニズム”,音響学会春季講演論文集,1-7-15,1555–1556,2008(質疑応答含む)

[35] M.R. D’Amato, “A search for tonal pattern percep-

tion in cebus monkeys: why monkeys can’t hum a

tune,” Music Perception, 5, 453–480, 1988

[36] A.A. Write, J.J. Rivera, S.H. Hulse, M. Shyan, J.J.

Neiworth, “Music perception and octave generaliza-

tion in rhesus monkeys,” J. Exp. Psychol. Gen. 129,

291–307, 2000

[37] M.D. Hauser and J. McDermott, “The evolution of

the music faculty: a comparative perspective,” Na-

ture neurosciences, 6, 663–668, 2003

[38] T. Grandin,動物感覚~アニマル・マインドを読み解く,日本放送出版協会,2006

[39] 綾屋紗月,熊谷晋一郎,発達障害当事者研究,医学書院,2008

[40] 泉流星,僕の妻はエイリアン,新潮社,2005

[41] 藤井学,神谷栄治,自閉症,新曜社,2007

[42] 渡部信一,鉄腕アトムと晋平君,ミネルヴァ書房,1998

[43] 北澤茂,“自閉症治療に挑む心理学と神経科学”,自閉症スペクトラム研究,社会技術研究開発事業「脳科学と社会」研究開発領域,領域架橋型シンポジウム,2008

[44] U. Frith,“自閉症の謎を解き明かす”,東京書籍,1991

[45] 中川聖一,“ストキャスティック DP法および統計的手法による不特定話者の英語子音の認識”,通信学会論文誌 (D),J70-D,1,155–163, 1987

[46] R.B. Lotto, D. Purves, “An empirical explanation of

color contrast,” Proc. the National Academy of Sci-

ence USA, 97, 12834–12839, 2000

[47] R.B. Lotto, D. Purves, “The effects of color on bright-

ness,” Nature neuroscience, 2, 11, 1010–1014, 1999

[48] 谷口高士,音は心の中で音楽になる,北大路書房,2003

[49] http://www.lottolab.org/illusiondemos/Demo%2012.html

[50] 東川清一,読譜力-「移動ド」教育システムに学ぶ,春秋社,2005

16

Page 17: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

論文/音声に含まれる言語的情報と非言語的情報を分離する手法の提案~人間らしい音声情報処理の実現に向けた一検討~

[51] A.D. Briscoe, L. Chittka “The evolution of color vi-

sion in insects,” Annual review of entomology, 46,

471–510, 2001

[52] W. Strange, R. Verbrugge, D. Shankweiler, T. Ed-

man, “Consonant environment specifies vowel iden-

tity,” J. Acoust. Soc. Am. 60, 213–224, 1976

[53] S. Shaywitz, 読み書き障害(ディスレクシア)のすべて~頭はいいのに本が読めない~, PHP 研究所, 2006

[54] J. Morais, L. Cary, J. Alegria, P. Bertelson, “Does

awareness of speech as a sequence of phones arise

spontaneously?” Cognition, 7, 323–331, 1979

[55] C. Read, Y. Zhang, H. Nie, B. Ding, “The ability

to manipulate speech sounds depends on knowing al-

phabetic writing,” Cognition, 24, 31–44, 1986

[56] R. Port, “How are words stored in memory? Beyond

phones and phonemes,” New Ideas in Psychology,

25, 143–170, 2007

[57] R. Port, “Phones and phonemes are the ghosts of let-

ters,” Proc. Speech Prosody, 7–13, 2008

[58] 青木美和,入野俊夫,R. D. Patterson,河原英紀,“スケール変形した日本語5母音の知覚特性”,日本音響学会秋季講演論文集,2-P-6,373–374,2004

[59] 林芳恵,入野俊夫,R. D. Patterson,河原英紀,“話者の寸法を変化させた時の母音と単語の知覚特性の比較”,日本音響学会春季講演論文集,2-Q-27,473–474,2007

[60] R.K. Potter, J.C. Steinberg, “Toward the specifica-

tion of speech,” J. Acoust. Soc. Am. 22, 6, 807, 1950

[61] L. Gerstman, “Classification of self-normalized vow-

els,” IEEE Trans. Audio Electroacoust. AU-16, 78–

80, 1968

[62] P. Ladefoged and D. Broadbent, “Information con-

veyed by vowels,” J. Acoust. Soc. Am. 29, 98–104,

1957

[63] W. Ainsworth, “Intrinsic and extrinsic factors in

vowel judgments,” in Auditory Analysis and Percep-

tion of Speech, edited by G. Fant and M. Tatham,

103–113, Academic, London, 1975

[64] W. Labov, S. Ash, C. Boberg, Atlas of North Amer-

ican English, Mouton and Gruyter, 2005

[65] 宮本健作,音を作る・音を見る,森北出版,1995

[66] F.D. Saussure,一般言語学講義,岩波書店,1940

[67] R. Jakobson, L. Waugh, 言語音形論,岩波書店,1986

[68] R. Jakobson, J. Lutz, Notes on the French phonemic

pattern, Hunter, N.Y. 1949

[69] S. Umes, L. Cohen, N. Marinovic, D.J. Nelson, “Scale

transform in speech analysis,” IEEE Trans. Speech

and Audio Processing, 7, 1, 40–45, 1999

[70] T. Irino, R. D. Patterson, “Segregating information

about the size and shape of the vocal tract using a

time-domain auditory model: the stabilised wavelet-

Mellin transform,” Speech Communication, 36, 181–

203, 2002

[71] A. Mertins, J. Rademacher, “Vocal tract length in-

variant features for automatic speech recognition,”

Proc. IEEE Workshop on Automatic Speech Recog-

nition & Understanding, 308–312, 2005

[72] 益子, 秋音講論, 3-7-2, 105–106, 2005

[73] 峯松信明,朝川智,広瀬啓吉,“線形・非線形変換不変の構造的情報表象とそれに基づく音声の音響モデリングに関する理論的考察”,日本音響学会春季講演論文集,1-P-12,147–148, 2007

[74] Y. Qiao, N. Minematsu, “A study on invariance of f-

divergence and its application to speech recognition,”

IEEE Transactions on Signal Processing, 58, 2010

(to appear).

[75] N. Minematsu, “Mathematical evidence of the acous-

tic universal structure in speech,” Proc. ICASSP,

889–892, 2005

[76] N. Minematsu, T. Nishimura, K. Nishinari, K.

Sakuraba, “Theorem of the invariant structure and

its derivation of speech Gestalt,” Proc. Int. Work-

shop on Speech Recognition and Intrinsic Variations,

47–52, 2006

[77] Y. Qiao, S. Asakawa, N. Minematsu, K. Hirose,

“On invariant structural representation for speech

recognition: theoretical validation and experimental

improvement,” Proc. INTERSPEECH, 3055–3058,

2009

[78] 峯松信明,“音声の音響的普遍構造の歪みに着眼した外国語発音の自動評定”,信学技報,SP2003-180,31–36,2004

[79] 峯松信明,志甫淳,村上隆夫,丸山和孝,広瀬啓吉,“音声の構造的表象とその距離尺度”,信学技報,SP2005-13,9–12,2005

[80] S. Asakawa, N. Minematsu, K. Hirose, “Multi-stream

parameterization for structural speech recognition,”

Proc. ICASSP, 4097–4100, 2008

[81] 朝川智,“音声の構造的表象に基づく単語音声認識に関する研究”,東京大学大学院新領域創成科学研究科博士論文,2008

[82] 江森正,篠田浩一,“音声認識のための高速最ゆう推定を用いた声道長正規化”,電子情報通信学会論文誌 D-II,J83-DII,11,2108–2117,2000

[83] M. Pitz, H. Ney”, “Vocal tract normalization

equals linear transformation in cepstral space,” IEEE

Trans. SAP, 13, 5, 930–944, 2005.

[84] L. Saheer, P.N. Garner, J. Dines, H. Liang, “VTLN

adaptation for statistical speech synthesis,” Proc.

ICASSP, 4838–4841, 2010

[85] D. Saito, R. Matsuura, S. Asakawa, N. Minematsu,

K. Hirose, “Directional dependency of cepstrum on

vocal tract length,” Proc. ICASSP, 4485–4488, 2008

[86] D. Saito, N. Minematsu, and K. Hirose, “Decomposition

of rotational distortion caused by VTL difference us-

ing eigenvalues of its transofmation matrix,” Proc.

INTERSPEECH, 1361–1364, 2008

[87] Tohoku university – Matsushita isolated Word

database (TMW),

http://research.nii.ac.jp/src/eng/list/detail.html#TMW

[88] N. Minematsu, S. Asakawa, Y. Qiao, D. Saito, T.

Nishimura, “Implementation of robust speech recog-

17

Page 18: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

電子情報通信学会論文誌 xxxx/xx Vol. Jxx–X No. xx

nition by simulating infants’ speech perception based

on the invariant sound shape embedded in utter-

ances,” Proc. Speech and Computer, 35–40, 2009

[89] Y. Qiao, M. Suzuki, and N. Minematsu, “A study of

Hidden Structure Model and its application of label-

ing sequences,” Proc. IEEE Workshop on Automatic

Speech Recognition & Understanding, 118–123, 2009

[90] 峯松信明,富山義弘,吉本啓,清水克正,中川聖一,壇辻正剛,牧野正三,“英語 CALL 構築を目的とした日本人及び米国人による読み上げ英語音声データベースの構築”,日本教育工学会論文誌,27,3,259-272,2004

[91] M. Suzuki, N. Minematsu, D. Luo, K. Hirose, “Sub-

structure-based estimation of pronunciation profi-

ciency and classification of learners,” Proc. Int.

Workshop on Automatic Speech Recognition and

Understanding, 574–579, 2009

[92] S.M. Witt, S.J. Young, “Phone-level pronunciation

scoring and assessment for interactive language learn-

ing,” J. Speech Communication, 30, 95–108, 2000

[93] D. Saito, S. Asakawa, N. Minematsu, K. Hirose,

“Structure to speech – speech generation based

on infant-like vocal imitation –,” Proc. INTER-

SPEECH, 1837–1840, 2008

[94] D. Saito, Y. Qiao, N. Minematsu, K. Hirose,

“Improvement of structure to speech conversion using

iterative optimization,” Proc. Speech and Computer,

174–179, 2009

[95] D. Saito, Y. Qiao, N. Minematsu, K. Hirose,

“Optimal event search using a structural cost func-

tion – improvement of structure to speech conversion

–,” Proc. INTERSPEECH, 2047–2050, 2009

[96] L. G. Ungerleider, “Two cortical visual systems,” in

Analysis of Visual Behavior (edited by David J. In-

gle), 549–586, MIT Press (1982)

[97] S.K. Scott, I.S. Johnsrude, “The neuroanatomical

and functional organization of speech perception,”

Trends in Neurosciences, 26, 2, 100–107, 2003

[98] P. Belin, R.J. Zatorre, “‘What’, ‘where’ and ‘how’ in

auditory cortex,” Nature neuroscience, 3, 10, 965–

966, 2000

(平成 xx 年 xx 月 xx 日受付)

峯松 信明 (正員)

1999 ABC卒

櫻庭 京子1999 ABC卒

西村多寿子1999 ABC卒

喬 宇 (正員)

1999 ABC卒

朝川 智 (正員)

1999 ABC卒

齋藤 大輔 (正員)

1999 ABC卒

鈴木 雅之 (正員)

1999 ABC卒

18

Page 19: 音声に含まれる言語的情報と非言語的情報を分離する手法の提案 ~人間らしい音声 …mine/newpapers/submission/paper_small.pdf · 性を制御できる合成方式[5],[6],更には出力音声の言

Abstract With the help of recent performance improvement of computation, large-vocabulary speech

recognition systems are running as real world application. In the case of speech synthesis, various functional

improvement is being done such as control of speaker identity and output language. However, when we

recognize that the ultimate goal of speech engineering is to develop a machine that can talk and listen as

well as humans do, we still easily notice that their is a big gap between machines and humans. In this

study, at first, we point out that, if a real human performs exactly like a current speech machine, then,

his/her behaviors are found to be remarkably similar to those of severely impaired autistics, who have

a great difficulty in acquiring spoken language normally. After that, from various viewpoints, we deeply

consider what kind of fundamental technique is still missing in the current speech technology in order to

develop a human-like speech machine. To fill that big gap, we show our answer that the missing technology

is a method to separate the linguistic information and the extra-linguistic information conveyed in a single

speech stream. In the second part of this paper, we propose a technique for information separation with

some experimental results for verification.

Key words Acoustic modeling, separation of information, vocal imitation, autism, perceptual con-

stancy, transform-invariance, structural representation of speech