日本語音声・テキストコーパス情報処理に基づくオンライン...

本日 15時まで，右からダウンロードできます。　

日本音声学会「アジアにおけるコーパスを利用したデータ駆動型音声研究」特集号招待論文

日本語音声・テキストコーパス情報処理に基づくオンライン韻律教育インフラの構築

Development of an online infrastructure for teaching Japanese

prosody based on information processing of speech and text corpora

(Private Edition)

峯松信明（東京大学大学院工学系研究科，教授）

Nobuaki MINEMATSU

(Professor, Graduate School of Engineering, The University of Tokyo)

英語要旨This paper describes how speech and text corpora were used in developing OJAD (Online Japanese

Accent Dictionary), an online Japanese prosody teaching/learning system. Current problems related

to teaching Japanese prosody are summarized, and the relationship between these problems and

system development is explained. A corpus of spoken verbs along with their conjugations was used to

build a module to conduct verb accent search. A text corpus of sentences with both accentual phrase

boundaries and accent nuclei labeled was used to train a boundary detector and an accent nucleus

detector. These detectors were used to construct a prosodic reading tutor. Subjective assessment was

done by 80 teachers of Japanese to both verb accent search module and prosodic reading tutor. All

the teachers assessed the search module as “very effective” or “effective to some degree”. The reading

tutor was evaluated by 73 teachers as “very effective” or “effective to some degree”. These results

indicate high effectiveness of the two systems. Through the development of OJAD, the author has

become aware that there are still gaps to be bridged in communication between Japanese teachers

and speech engineers pertaining to the needs of the former and the technology being made available

by the latter. These gaps are pointed out in the future directions.

日本語キーワード日本語教育，音声・韻律教育，Online Japanese Accent Dictionary，音声合成技術，音声コーパス，テキストコーパス，OJAD 講習会

1 はじめに日本語学習者の数は年々増加の一途を辿っており，日本国際交流基金の最新の統計（交流基金 2013）

によれば，総計約 400万人となっている。外国語を学ぶ場合対象言語が何であれ，学習者は「相手が聞き取りやすい発音を身に付けたい」と願う。国際語である英語の場合（Jenkins 2009），聞き手が母語話者ではないことが多いため，必ずしも英語発音や米語発音が，聞き手にとって聞き取りやすいとは限らない（Pinet 2010）。一方日本語の場合聞き手は殆ど日本人であり，より聞き取りやすい発音は自ずと「母語話者のような発音」と考えられる。また，海外の日本語学習者の多くはビジネスでの日本語利用を考えており，public speaking 能力が要求される。周知のように日本人は，地方出身者であっても，公の場では共通語（東京方言）を使って話す。日本語は方言性が単語アクセントに出現することが多く，その結果，音声指導，特に韻律指導を受けたいと願う学習者は少なくない（平野 2014）。しかしながら現実問題として，音声教育・韻律教育に割く時間は限られている（轟木・山下 2009）。本研究ではこのような教育事情を鑑み，日本語アクセント・イントネーションの教育・学習のための

オンライン・インフラを構築した（峯松他 2013, OJAD 2015a）。まずアクセント教育に関しては，用言の活用に伴うアクセント変形は比較的規則的であるため，教科書 16冊から全ての用言を取り上げ，それらを活用させ（12種類の基本活用），男女一名ずつの声優に読み上げさせた音声コーパス（発声数約８万）を構築した。そして教室における効果的活用を狙い，様々な目的に対応でき，容易に本コーパスを検索できるブラウザを開発した。次にイントネーション教育に関しては，public speaking での授業を念頭に置き，学習者が作成した任

意の文章に対して，共通語として適切なイントネーションパターン，及び，アクセント結合後のアクセント核位置を視覚的に示し，その通りに読み上げる，韻律読み上げチュータを開発した。本システムの開発には，アクセント結合によるアクセント核移動を高精度に自動予測する推定器が必要になる。そこで，約六千の文セットに，アクセント句境界位置，アクセント核位置を付与したテキストコーパスを構築し，これに対して機械学習を適用し，アクセント核位置推定器を構築した。アクセント検索ブラウザ及び韻律読み上げチュータの二種類の機能に加えて，用言に接続される多種

多様な後続表現のアクセントを呈示する機能，任意の入力テキストから用言を自動抽出して基本活用のアクセントを呈示する機能を実装し，Online Japanese Accent Dictionary (OJAD)という名称で 2012

年 8月より公開している（峯松他 2013, OJAD 2015a）。2015年 4月の時点で 11ヶ国語に翻訳され，初級者でも利用可能な教育インフラとなっており，最近の半年間で（2014年 11月～2015年 4月），約 16

万のアクセスを得ている。また，2012年 11月から 2015年 4月の間に，国内外の 63都市で OJAD 講習会を行なってきた（OJAD 2015b）。本論文ではまず，これらの講習会を通して筆者が学んだ日本語韻律教育の諸側面・問題について整理する。次にそれらを踏まえた上で，OJAD 開発やその普及活動の様子を述べる。なお，構築あるいは利用した個々の要素技術については既に峯松他（2013）で発表しているので，本論文では，音声・テキストコーパスの構築・利用方法について詳説する。最後に，音声言語技術・自然言語技術と日本語教育との接点について，OJAD の開発・普及を通して意識するようになった筆者の考えを述べる。

2 日本語韻律教育の諸側面とシステム開発指針2.1 アクセント教育が有する諸側面

外国語を教える場合，その効率から文字言語（読み／書き）に基づく教示をすることが多く，発音に十分な時間を割くことが難しくなる。日本語発音を指導する場合，従来，単音や特殊拍に焦点が当てられ，韻律的側面は見落とされがちであった（轟木・山下 2009）。その結果，国内の大学で（生活用語として）日本語を学ぶ場合，単語アクセントがピッチアクセントであることを知らない学生は，珍しくない（阿・林 2010）。一方，海外で日本語を学ぶ学生は，ビジネスでの利用を目的とすることが多い。周知のように，日本

人は公の場で話す場合，共通語（東京方言）を頻繁に使う。日本語は方言性がアクセントに出現しやすい事実を考えれば「共通語のアクセントを教えることは当然」と考えられるが，必ずしもそうなっていない。中国で販売されている，声調言語である中国語を母語とする学習者向けの日本語教科書には，新出語にアクセント核の位置が明記されている（平野 2014）。しかし日本国内で販売される教科書ではそうなっていない。何故，このような状況が起こるのだろうか？筆者は日本語教育の専門家ではないが，OJAD 開発やその普及活動を通して認識するようになった，アクセント教育の様々な現状・問題について以下に列挙し，筆者の見解も示す。筆者の誤解に基づく記述があれば，是非とも指摘して戴きたい。

• 「アクセントは間違えても伝わる」

アクセントを間違えても意志疎通が妨げられることはあまりない。だから教える必要はない，と考える教師は少なくない。その一方で，地方出身の日本人が公の場で話した場合に，アクセントの違いを指摘されると修正しようとする。時として母語話者でも求める情報を，学習者に提供できない，しない状況は改善されるべきであると考える。

• 「東京方言話者ではないので，共通語アクセントを聞かれても困る」

日本語が母語であっても，東京方言話者でない教師にとって，共通語アクセントを教えることは，外国語を教えることに相当し，それが難しい。「教師なら共通語アクセントを習得すべき」という意見もあるだろう。しかし現実解は，東京方言話者でなくても（非母語話者教師であっても），アクセントを教える，あるいは，学習者と共に学べる教育インフラを構築することであろう。

• 「単語アクセントは文脈によって変わるので教えにくい」

日本語の単語アクセントは文脈によって頻繁に変わる。およその傾向は示せても，詳細な規則化は，教えるのも学ぶのも大変である。NHKアクセント辞典（NHK 1998）でも，基本的に孤立発声の単語を対象としており，任意文脈におけるアクセントを把握するのは非常に煩雑である。アクセント教育インフラには，煩雑なアクセント変形を効率的に学べるインタフェースが必要である。

• 「日本語を母語とする教師だが，アクセントのHigh/Lowの同定が難しい」

日本語を母語とする教師でも，聴取した文音声に対して，各モーラが High(H)/Low(L)のいずれであるのかを聞き分けることが知覚的に難しい教師もいる。当然，流暢な日本語を話すが，H/L

の制御はほぼ無意識的に行なわれるため，逆に，これを意識化するのが困難となる。教師に対して知覚訓練を求めることも可能であるが，ここでも望まれるのは，モーラ単位でのH/L同定が難しい教師でも使える，教育インフラの構築である。

• 「東京方言だけが日本語ではない」

「共通語アクセントを教えれば，東京方言こそが正しい日本語であるかのような誤解を与える」と考え，アクセント教育を敬遠する教師は少なくない1。しかし学習者は「どの方言が正しいのか」を知りたいのではなく，例えば，ビジネスにおいて日本語で語る能力を習得したいだけである。アクセント教育インフラ整備と同時に，教師側の意識も少なからず修正する必要があるだろう。

• 「そもそも韻律教育など受けていない」

非母語話者教師の中には，韻律教育を明示的に受けないまま，教師になった者も多い。この場合，韻律教育として何を教えればよいのかに戸惑うことになる。そのような教師であっても，教える（と同時に共に学ぶ）ことができる教材が求められている。

以上は主として，教師の見地から考えたアクセント教育の諸側面であるが，学習者の立場から考えると，次のような側面を指摘することができる。

• 「先生よりピッチに敏感です」

声調言語を母語とする学習者は多く，この場合，母語において，音節を単位としたピッチ制御を行なう。中国人の場合，個々の音節が何声なのかを意識的に把握する（シンボル化する）ことを小学校で学ぶ。これは日本語で言えば国語の授業で単語内のどのモーラが H/L なのかを「おにぎり」として常に意識付けることに相当する。このような国語教育改革が起これば「H/Lの意識化や同定が難しい」という問題は解決するだろうが，現状では，教師よりも学習者の方がピッチ制御に敏感である場合もある。声調言語を母語とする学習者は，各モーラが何声なのかを意識しながら日本語を聞いている。彼らはアクセントを知りたがるが，教育インフラが整っていない。

• 「スピーチ・コンテストではアクセントが出来た方が，発音が上手だと言われる」

アクセントについて教えない教育現場が多い一方で，スピーチ・コンテストではアクセントを間違える話者より，間違えない話者を「発音が上手」と評価する。筆者の知る限り「アクセントの間違いは無視して評価します」と明言しているコンテストはない。

様々な観点からアクセント教育の諸側面を概観した。筆者は，アクセント教育が必要か不必要かは，最終的には，学習者が判断すべきことであると考える。教師がすべきことは，アクセント習得のコストと実益とのバランスを，各学習者が置かれた文脈においてアドバイスすることであろう。しかしながら，アクセント学習を勧められた場合であっても，「任意の文章を共通語として適切なアクセントで読む」ための教育インフラが提供されなければ，その学習者は，必ず路頭に迷うことになる。

2.2 イントネーション教育が有する諸側面

単語アクセントは，既に指摘したように「間違えても伝わる」ものであり，ビジネス目的ではなく，生活言語として日本語を学びたい場合は，学ぶ必要はないのかもしれない。しかし，イントネーションはそれとは異なる。例えば，中国人初級者は各モーラに四声を付与する傾向があり，また，単語や文節単位での発声となる傾向がある。その結果，文イントネーションに必要以上に起伏が生じたり（平野他 2009）

1日本の単語アクセントに関する知識の蓄積は，各地・各時代の日本語を研究対象とした方言学者によって行なわれてきた経緯があり，ある特定の地域・時代の方言だけを優先的に扱うことに対する抵抗感があるのかもしれない，と教えて戴いたこともある。

，不要なポーズが挿入されやすい2。これに対して，適切なイントネーション指導やポーズ指導を受けた後の学習者の音声サンプルを聞くと，（母語話者にとっての）「聞き取りやすさ」が格段に向上することに驚かされる（中川・許・中村 2009）3。逆に言えば，適切な制御を学ばないと「聞き取りにくい日本語」となってしまう。仕事で使う場合は当然であるが，生活言語として日本語を学ぶ場合も，これは必須の学習項目であろう。教師を対象とした音声指導の講習会においても，聞き取りやすい発声を短期間で定着させる指導法として，イントネーションに基づく指導法が提唱されている（笈川 2014, 磯村 2014）。またイントネーションは単語アクセントとは異なり，発話意図と密接に関係する。そのため，不適切

なイントネーション制御が行なわれると，聞き取りにくくなるだけでなく，例えば，無礼な日本語，生意気な日本語として母語話者が受け止める場合がある。当然，学習者本人にはそのような意図は全くない。よく耳にする例としては「バイト先の上司に嫌われた」という事例である。このように聞き取りやすい，かつ，意図が誤解されない発声とするためにイントネーション教育は不

可欠であるが，イントネーションもアクセントもいずれもピッチ制御であるため，両者を同時に教育する場合，学習者のレベルに応じた工夫も必要である。中川・許・中村（2009）では，図 1に示すように，1)文の意味を考えてフレーズ境界を定め，2)境界のみにポーズを置き，3)各フレーズを「へ」の字を描くようなイントネーションにする，という指導を行なっている。より自然な日本語にするためには，アクセント（核）の付与が必要である。しかし，全ての単語（アクセント句）にアクセント付与を求めることは，学習者のレベルによっては負担が大きい。実践的な折衷案として，中川・許・中村（2009）では「フレーズに最初に現れるアクセント核のみに注意を払い，その後の核は無視してよい」という指導戦略で臨んでいる。これは，アクセント句長をできるだけ長くし（イントネーション句を一つのアクセント句として発声し），核数を減らす戦略である。

2.3 どのようなアクセント・イントネーション教育インフラが必要なのか？

日本語の初級教科書では漢字に読み（平仮名）が振られているが，第 2.1節，第 2.2節で指摘した問題を一言で言えば，「平仮名列化された日本語文は，まだ読みになっていない。それを適切に音声化するには，多くの不可欠な情報が欠落している」という指摘となる。平仮名化してあれば「読める」と感覚するとすれば，それは母語話者故の勘違いであり，例えば，1)どの母音が無声化するのか，2)「えい」はいつ「えー」となり，いつ「えい」となるのか，3)「らりるれろ」の子音部分の音声は，どの音として実現すべきか，4)イントネーションはどのようなパターンになるのか，5)文中のどのモーラがアクセント核になるのか，など，テキストの裏に隠れた情報が，一切，明示化されていない。この隠れた情報を，無意識的に制御して読んでしまうのが母語話者であり，逆に彼らは「何を無意識的に制御しているのか」を意識化するのに困難を覚える。一方学習者は，この情報を意識的に学ぼうとし，それらの制御を無意識的に行なえるよう，反復練習する。しかし，隠された情報が明示的に示されず，それを推測することを学習者に強いる環境にあるとすれば，それは単に，教育インフラの欠如である。さて音声合成研究者は，上記の問題は既に，およそ解決済みの問題として認識しているはずである。

漢字仮名混じり文を平仮名化し，それに対して，様々な情報を自動推定して付与し，最終的に音声波形化するのがテキスト音声合成だからである。「平仮名化されたテキストを音声化する際に，必要な情報を自動的に付加する」技術は，テキスト音声合成の前処理として，長年の蓄積がある。例えば，ある漢

2ポーズ挿入は，学習者の母語には非依存であろう。3訓練前後の学習者音声は，中川・許・中村（2009）の付録CDで確認できる。なお，OJADを国際会議 INTERSPEECH2013

のデモセッションに展示した際に，学会側から要請されてビデオクリップ（OJAD 2015c）を作成したが，上記サンプル音声を用いている。URLを参考文献欄に示しているので，そちらで確認できる。実際には約 15分の自習による効果である。

字仮名混じり文を JEITA (Japan Electronics and Information Technology Industries Association)が規定する IT-4006（JEITA2010）に基づいて変換した例を図 2に示す。アクセント句境界位置，アクセント核位置，母音無声化，母音長音化，ポーズ位置などが明示的にシンボルとして表示されている（各記号の意味は表を参照）4。音声合成の前処理であるテキスト解析部を用いれば，任意の漢字仮名交じり文を JEITA フォーマットに変換できる。これを理解しやすいインタフェースを通して視覚的に呈示し，更には合成音声を（聴覚的に）提示すれば「平仮名列で書かれた日本語文は，まだ読みになっていない」という問題の多くは解決するはずである。ここで，計算機に日本語を読み上げる能力を授ける日本語音声合成研究を，日本語教育の観点から考

察してみる。日本語を母語としない人間に対して，日本語の「読・書・話・聞」能力を授けるのが日本語教育であり，「話」の一部は発音教育となる。一方，機械に「話」能力（特に読み上げる能力）を授ける試みが音声合成研究である。前者の場合，発音に多少の難があっても「外国人だから」と許してもらえるのだろうが，例えば後者の場合アクセントが頻繁に間違えば「お宅の合成器，訛ってますよ」と買ってもらえない。日本語発音教育は，「母語話者のように喋る外国人」を育てることを目的とはしていないと考えるが，日本語音声合成研究は「母語話者のように喋る機械」を育てないと収益に繋がらない。その意味で日本語音声合成研究は，非常にシビアなスパルタ式日本語発音教育であると言える。

3 単語を指定してアクセントを検索するシステムの開発3.1 用言を単位とした音声コーパスの構築

用言の活用におけるアクセントの文脈依存性（アクセント結合）は，比較的規則的であるため，まず，任意の用言（動詞，い形容詞，な形容詞）をクエリとし，基本活用（12種類）に伴うアクセント変形を呈示する検索システムを構築した。代表的な教科書を 16種類選定し，出現する全ての用言を，その教科書で初めて出現する課情報とともに抽出し，各用言に読みを振り，基本活用時のアクセント型を求めた。対象となった用言は約 3,500種類であり，約 42,000の活用に対してアクセントを振ることになるが，実際には以下の作業を通してアクセントを求めた。まず，活用後の用言（「歩いて」など）をアクセント句一つと解釈し，アクセント核位置を自動推定した（鈴木他 2013, 橋本・峯松・廣瀬 2014）。当然誤りが含まれるため，全ての推定結果を検査するwebシステムを構築し，日本語教師三名に合計三回検査させた。なお，アクセント自動推定器は仕様として一通りのアクセント型しか出力しないが，アクセントには揺れが存在する。揺れが許容される場合は，許容されるアクセント型を日本語教師に併記させた。最終的な呈示情報に誤りが含まれないよう，細心の注意を払った。次に，全ての項目を男女二名の声優に遮音室で読み上げさせ，収録した。まず声優・ナレータープロダ

クションに「日本語教育，特にアクセント教育のモデル発声ができる話者」を複数選定させた。男女合わせて五名が選定され，日本語教師三名による主観的な判断により，最終的に男女一名ずつを選定した。彼らに約 42,000全ての（活用後の）用言を発声させた。収録の際，12活用/用言を発声・収録単位として手動でファイル化し，これに対して，音声パワーに基づく音声区間検出を行ない，用言頭，用言尾を自動検出し，前後に 200msecのポーズを付けて各用言発声を切り出した。各発声は一度ヘッドホン聴取し，切り出し誤りは手動で修正した。以上のようにして，大規模な用言活用音声コーパスを構築した。

4JEITA フォーマットでは音声記号は使われていないが，音声合成システムでは通常，片仮名で記された各モーラの子音，母音の音素は，前後の音素文脈，アクセント文脈，イントネーション文脈などに依存して定義されている（コンテキスト依存の音素定義）。その結果各音素は，数十から数百の音テンプレートとして，システム内の音素片（波形素片やスペクトル素片）データベースに保持されている。音声学的に解釈すれば，一つの音素の異音が数十から数百用意されていることに相当する。

各用言に対して，二種類の難易度ラベルを付与した。一つは旧日本語能力試験に基づく難易度表を用いたものであり，他方は砂川（2015）で開発されている難易度表を使ったものである。これらは「初級で学ぶ基本的な用言を対象として」単語アクセントを呈示する，などの利用が想定されるからである。

3.2 用言を単位としたアクセント検索システムの構築

上記コーパスを用いて，用言活用に伴うアクセント情報を，用言をクエリとして検索するwebシステムを構築した。データベース検索にはMySQL v5.1.63を，web構築にはCakePHP v2.1.3を使用した。図 3に検索・表示条件を示す。検索対象とする用言は個別指定もできるが（「単語の検索」窓に入力），用言の属性を用い，様々な条件で検索できるようにした。属性としては 1)教科書とその課，2)品詞，3)

（孤立発声時の）アクセント型，3)（孤立発声時の）単語長，4)二種類の難易度である。また，項目群の表示順序についても様々な条件で表示できるようにした。アクセント型（平板，頭高，中高，尾高），アクセント核位置，単語長，難易度，五十音順のいずれを優先して表示するのかを変更できる。更にはオプションとして，アクセントの揺れ表示，ピッチパターンの視覚表示のON/OFFも指定できる。自由度の高い検索及び表示が可能となっている。例えば，『みんなの日本語』の 18～19課に出てくる動詞を全て取り上げるが，「なかった形」「ば形」「使役形」「受身形」「命令形」「可能形」「う形」は未習なので見せない。また，活用の順番は「ます形」「辞書形」「て形」「た形」「ない形」の順に並べ，視覚的理解を助けるようピッチパターンも併記する，といったことが容易に可能である。図 4にその結果を示す。PCやタブレット画面上ではカラーで表示されるが，教室で配布資料とする場合は，グレースケールの方が都合が良い場合も多い。印刷用画面として図 4をグレースケール化した画面も別途用意している。音声再生は，個々の項目単位，活用形単位（ある活用形の（そのページ内の）全用言，縦読み），用言

単位（ある用言の全活用形，横読み）で再生させるなど（図 4参照），種々の再生モードを用意し，便宜を図った。これら音声ファイル（MP3）はダウンロードもできる。

3.3 システムの評価

世界中の日本語教師に協力を呼びかけ，計 80名の日本語教師（約 2/3が海外在住の日本語教師である）を対象とし，本システムの使用方法を説明した上で，アンケート調査を行なった。既に（峯松他 2013）で発表したデータであるが，その一部を表 2に示す。なお，80名の教師が教える学習者の母語分布は表 1の通りである。韻律教育は日本語教育全体の中の一部門であることを考えると，本システムの実用性は十分に認めてもらえたものと考えている。

4 任意のテキストに対してイントネーション・アクセントを自動付与して読み上げるシステムの開発

4.1 コーパスの構築とそれを用いたアクセント核位置推定

テキスト音声合成を目的とした文中のアクセント核位置の推定は，各種単語属性，音韻属性を用いて規則により推定する手法が古くから知られている（匂坂・佐藤 1983）。しかし，規則による推定は例外処理を多く含むこととなり，規則の管理が煩雑になる。アクセント核位置推定の目的が，アクセント結合のメカニズムの解明や理論化ではなく，与えられたテキスト中のアクセント核位置を特定することだけであれば，アクセント核位置がラベル付けされたテキストコーパスと，各単語の孤立発声時のアクセ

にほんごのべんきょうは / むずかしいですが / だいすきです

（あはアクセント核）

図 1: フレージングとポージングに基づく韻律指導

2006年の調査によると，日本全国で，約 33%の家庭がペットを買っているそうです。ニセ’ン/ロク’ネンノ/チョ’ーサニヨルトニホンゼ’ンコクデヤ’ク%/サ’ンジュー/サンパーセ’ントノ/カテーガ/ペ’ットオカッ.テイルソ’ーデス%.グッズの専門店もでき，お洒落な服を着た犬も，よく見かけます。グ’ッズノ/センモ’ンテンモ/デ’キオシャ’レナ/フ%ク’オ/キ%タイヌモヨ’ク/ミカケマ’ス%.

’:アクセント核，/:アクセント句境界， :ポーズ，%:母音の無声化

図 2: 漢字仮名混じり文から JEITAフォーマットへの変換例

図 3: 検索・表示条件

図 4: 単語検索結果の例

ント型を用い，適切な機械学習アルゴリズムを使うことで，核位置推定器は構成できる5。筆者は鈴木他（2013），橋本・峯松・廣瀬（2014）において，大規模コーパスとCRF (Conditional Random Fields) を用いたアクセント句境界推定器，及び，アクセント核位置推定器を構築している。以下，構築したコーパスについて説明する（黒岩他 2007）。新聞記事読み上げ音声コーパス（Japanese News Article Sentences, JNAS）（音声資源 2015）で使

用されている文を用いた。これらは新聞記事，及び音素バランス文である。この文集合に対し，自然な話速で読み上げた場合のアクセント句境界とアクセント核をラベリングする訳だが，アクセント感覚には個人差があるため，特定の一人のラベラーに全作業を依頼した。また，このラベラーの作業結果を検査する検査者も一人選定した。東京生まれ・育ちであり，合唱部に所属する比較的音感の鋭い大学生 6名に対して，日本語アクセントに対する教育を施した上で，アクセントに関する試験を行って選抜し，最終的にラベラ 1名，検査者 1名を選定した。アクセント句境界及びアクセント核の定義は以下の通りである。

アクセント句境界約 7モーラ/秒で読んだ場合を想定し，ピッチの句頭上昇が見られる箇所をアクセント句境界とする。休止が入った場合も，通常は境界が生じる。アクセント核アクセント句内で，ピッチが急激に下降する直前のモーラ。意識的に当該箇所のみで急激にピッチを下げ，それ以外では下降がないように読んだ場合に違和感を感じなければ，その下降箇所をアクセント核とした。なお，副次核を認めている。副次核を用いてアクセント句内に複数の核を付けるべきか，あるいは，複数のアクセント句に分けるべきかを判断する基準としては，句頭の音高上昇があるべきか否かを用いた。ただし，一形態素の中には，アクセント核は高々一つであるとした。最終的にラベリング及び検査が終了した文は 6,334文である。機械学習を適用する場合，これらの文集

合に対して形態素解析を行う必要がある。解析後，一部の誤りは手修正を行い，最終的に，6,109文を用いて，アクセント句境界位置推定，及び，アクセント核位置推定を検討した。技術的な詳細は鈴木他（2013），橋本・峯松・廣瀬（2014）に譲るが，形態素解析結果より様々な素性を導出し，CRF(CRF++v0.57) による識別モデルを用いて，二種類の推定器を構築した。評価実験の結果，形態素解析誤りを除外した文セットに対し，句境界推定では F値 94.1%であり，アクセント句内のアクセント核位置推定では F値96.7%であった。なおこのコーパスは，アクセント結合予測モジュールと共に，TASET (Tokyo Accent

Sandhi Estimation Toolkit) （鈴木・峯松 2013）という名称で公開している。

4.2 アクセント結合予測における二種類のモードとその実装

第 3節で構築したシステムは対象を用言に限定しており，これだけでは，文を適切に読み上げることはできない。アクセントの問題は用言だけではないからである。文中アクセントの問題は，アクセント句境界位置推定モジュール，アクセント核位置推定モジュールを利用することで解決できるが，日本語教育という応用場面を考えると，第 2.2節で示した事情を考慮する必要がある。もちろん，文を対象としているため，アクセント以外にイントネーションも適切に情報呈示する必要がある。結局，任意テキストに対してイントネーション・アクセントを自動付与して読み上げるシステムが必

要となるが，本研究では，少ない訓練で効果的に「発声の分かりやすさ」を向上させる，フレージング＆ポージングに基づく発声訓練法（中川・許・中村 2009）に準拠してシステム設計した。中川・許・中村（2009）におけるフレーズは，およそ，「意味の区切り，呼気の区切りなどによって形成される一息で発

5なお実際の運用に際しては，幾つかの例外処理を規則処理として導入している。

声される単語系列」と定義できる。本システムでは，このフレーズ区切り（記号 “/”）位置はユーザーが与えるものとし，これらが振られたテキストに対して，各フレーズ内のアクセント核位置を必̇要̇な̇個̇数̇，必̇要̇な̇箇̇所̇に呈示する，という方針をとった。なお，文中に含まれる句読点（及びそれに準ずる記号）及び改行は，自動的にフレーズ区切りと解釈した。フレーズを単位として形態素解析を行ない，アクセント句境界検出を行なうと，通常，フレーズは複数

個のアクセント句として解析される。つまりフレーズの中には，アクセント句頭のL→Hというピッチ上昇，及び，アクセント核によるH→Lというピッチ下降が複数個，系列として観測されることになる。しかし，これら局所的なピッチ制御をフレーズ中で何度も初級学習者に強いるのは負担が大きい。そこで上級者モードと初級者モードの二種類のモードを用意することとした。上級者モードでは全てのアクセント句をそのまま表示し，初級者モードではアクセント句を繋げ，フレーズ全体を一つのアクセント句として表示することとした。但し，頭高型アクセントに対する知覚的敏感性（Minematsu and Hirose 1995）を考慮し，3モーラ以上の頭高型アクセント句に関しては，初級者モードでも残すこととした。図 5に「日本の漫画は面白いし，アニメも大好きです。」と入力した場合の処理を示している。形態素

解析，アクセント句境界推定，アクセント核位置推定が行なわれ，上級者には，これらの結果に従ってピッチパターンが視覚的に表示される。初級者用の表示は，上級者用の複数のアクセント句を以下の接続規則を使って一つにまとめあげる。二つのアクセント句A，Bを接続する場合，(A,B)=(有核,有核)，(有核,無核)，(無核,有核)，(無核,無核)の四種類のパターンのいずれかとなる。Aが有核の場合，アクセント核による H→Lの後はそのまま Lを続けさせ，Bの各モーラは全て Lとなる。Aが無核の場合，Bの先頭モーラはHとなり，Bが有核であればそこでH→Lとなってその後は Lが続く。A, B共に無核であれば，Bは先頭モーラ以降全てのモーラはHとなる。図 6に実際の出力の様子を示す。初級者モードの場合，局所的なピッチ変動が抑制されている。詳細な説明は省くが，形態素解析結果より得られる読みの情報から，無声化すべきモーラを規則により求めている。図中の網かけ部がそれに相当する。ピッチパターンの描画に関しては，音声分析・合成の分野で実績のある基本周波数（ピッチ）パター

ン生成過程モデル（藤崎・須藤 1971）を用いた。推定されたアクセント核位置を本モデルのパラメータ値に翻訳し，それらを用いて滑らかなピッチパターンを描画している。このモデルでは，ピッチパターンをフレーズ成分（大局的な変化パターン）とアクセント成分（アクセントに伴う局所的な変化パターン）の足し合わせとして捉え，両成分を少数のパラメータで制御する。アクセント成分に対応する制御パラメータは，アクセント核位置と対応がとれるため都合が良い。実際の音声波形では，無声区間には周期構造が見られないため，そこには基本周波数は存在しない。しかし本モデルでは無声区間にも滑らかなピッチパターンを描画できるので，教育的に，非常に都合が良い。最終的に教師のイメージに沿ったパターンニングとなるよう，教師と協議しつつ各種パラメータの値を設定した。即ち本システムにおけるピッチパターンとは，実際の音声に物理的に観測される基本周波数値列を意味するのではなく，教師が学習者に示したいピッチパターンイメージを意図している。

4.3 読み上げ機能の実装

第 4.1節，第 4.2節で構築したモジュールを用いると，フレーズ区切り（記号 “/”）が付与された任意テキストに対して，1)イントネーション句境界，2)アクセント句境界，3)アクセント核位置，4)無声化モーラなど，様々な付加情報を付与し，最終的に，JEITA フォーマットに変換できる。具体的な例は図 2に示した通りである。OJAD では，これを（株）KDDI研究所が提供する音声合成ソフトウェアN2

（KDDI 2015）に入力することで，音声波形を得ている。2015年 4月現在，N2は男性話者五名，女性話

表 1: 学習者の母語分布（%）北京語 21.7 フランス語 4.5英語 11.1 ドイツ語 4.5広東語 9.6 台湾語 3.5スペイン語 8.6 タイ語 2.0ベトナム語 8.1 ポルトガル語 1.0様々 7.6 オランダ語 0.5韓国語 7.6 イタリア語 0.5ロシア語 5.6 その他 3.5

表 2: 単語検索システムに対する教師の評価（%）a)学習者に役立つと思いますか？非常に役立つ 71.0少し役立つ 29.0あまり役立たない 0.0全く役立たない 0.0

b)授業で使いますか？是非使いたい 38.7必要があれば使いたい 59.7自分の授業には必要ない 1.6

「日本の漫画は面白いし，アニメも大好きです。」

形態素解析

アクセント句境界推定

アクセント核位置推定

（上級者用モーラ別Ｈ／Ｌ値）

基本周波数パターン生成過程モデル

上級者用ピッチパターン

アクセント句接続規則

（初級者用モーラ別Ｈ／Ｌ値）

基本周波数パターン生成過程モデル

初級者用ピッチパターン

にほんの　まんがは　おもしろいし

あにめも　だいすきです

ＬＨＨＨ　ＬＨＨＨ　ＬＨＨＨＬＬ

ＨＬＬＬ　ＨＬＬＬＬＬ

ＬＨＨＨ　ＨＨＨＨ　ＨＨＨＨＬＬ

ＨＬＬＬ　ＨＬＬＬＬＬ

図 5: 上級者用（左）・初級者用（右）のピッチパターン生成方法

図 6: 視覚呈示された上級者用（上）・初級者用（下）ピッチパターン例（グレーの曲線はフレーズ成分）

者五名を提供しているが，その中から日本語音声教育に利用しうる品質を有する男女二名ずつを採択した。なお，ピッチパターン表示は，JEITA 化されたテキストと基本周波数パターン生成過程モデルを用いて描画しているため，図 6のようなピッチパターンが，どの話者でも共通に表示される。しかし各話者は話者固有の発声の癖を有するため，合成音声に観測される実際の基本周波数値列は，話者によって若干異なる。話速に関しては，Fast, Normal, Slow の三種類のモードを用意しており，各モードにおける発声モーラ数／秒は，話者によって変わらないよう，制御している。

4.4 システムの評価

第 3.3節同様，計 80名の日本語教師に，本システムの使用方法を説明した上でアンケート調査を行なった。既に（峯松他 2013）で発表したデータであるが，その一部を表 3に示す。なおこの評価は，読み上げ（音声合成）機能をOJADに実装する前に行なった調査である。Public speaking の授業では，学習者は原稿を用意し，それを読む形で練習する。この時，正しいアクセントで読みたい学習者は，アクセント感覚に優れた母語話者教師を探してアクセント位置を書き込んでもらう。そのような教師がいない環境では，正しいアクセント（即ち共通語）で原稿を読むことは極めて難しい。こういう現状を鑑み本調査は，任意テキストを対象とした，イントネーション・アクセントパターン視覚呈示システムの評価として行なわれた。なお音声合成機能そのものは，各社が web で無償提供している「テキスト音声変換機能」を紹介しており，OJAD 以外の web を用いることで，テキストの音声化は可能な状況での調査となっている。表 3より，本システムの実用性は十分に認めてもらえたものと考えているが，第 3.3節と異なり，学

習者に「あまり役立たない」と答えている教師も 8.5%いる。自由記述欄を見ると，1)呈示されたパターンに従った音声出力機能，2)学習者音声の採点・評価機能，を要望する意見が見受けられた。前者については既に解決済みであるが，学習者音声の韻律評価モジュールの開発は今後の課題となっている。なお，後者を要望する教師からは，「呈示されたパターン通りに学習者が発声できているかどうか，教師自身が適切に指摘できるかどうかが不明」との意見が寄せられていた。

5 システムの運用と OJAD 講習会5.1 システムの運用実績

OJAD は 2012年 8月より一般公開しており，現在下記の四機能がある。本論文では第一及び第四の機能について主に論じている。

• 代表的な教科書を対象に，用言の基本活用時のアクセント（変形）や名詞のアクセントを検索できる。用言に関しては全活用の音声が聴取可能。

• 基本活用以外の様々な動詞の後続語表現に対して，そのアクセントを検索できる。

• 任意テキスト（漢字仮名混じり文）から用言を自動抽出し，抽出された用言に対して，基本活用時のアクセント変形の様子を視覚的に呈示。

• 任意テキストに対して，適切なアクセント，イントネーション，更には無声化モーラを視覚表示して，その通りに読み上げる。

2012年 8月の公開より Google Analytics を使ったアクセス解析を行っているが，2015年 4月現在，総計，約 38万のアクセスを得ている。アクセスは単調増加の傾向を示しており，この半年で約 16万に達している。図 7に公開後の週単位でのアクセス数を示す。約半数が海外からのアクセスだが，台湾，中国，タイなど，声調言語を母語とする地域からが特に多い。既に日本語以外に 11ヶ国語に翻訳され，初学者でも利用可能になっている。利用者から様々なフィードバックを得ている。例えば，10年の日本語学習歴を有する北米の日本語学習者（うち 4年は北米の大学での日本語学習，それ以外に 2年間日本で勤務）から，「橋／端，雨／飴などピッチにより区別される単語が幾つかあることは知ってますが，全ての単語に固有のピッチアクセントがあることを初めて知りました。何故自分の発声が母語話者と違うのか，母語訛りの謎が一つ解けました。」という連絡を受けた。筆者は日本語教育を専門とする者ではないため，この学習者が置かれた環境がどの程度一般的なものかは分からないが，情報インフラの欠如に起因する一つの実例として，受け止めている。

5.2 OJAD講習会

2012年 11月より，3～4時間に渡る OJAD 講習会を世界各地で開催し，以下の情報提供を行なっている。2015年 4月の時点で国内外の 63都市を訪問した（OJAD 2015b）。参加者の多くは日本語教師であるが，時には，学習者の方が多い環境で行なうこともある。

• 日本語アクセント，イントネーションに関する基礎知識。特にアクセント結合，アクセント句など日本語特有の韻律制御について。

• アクセントやイントネーションが不適切な発声を，母語話者はどのように聞いているのか，に関する調査結果。

• OJAD四機能について，演習形式でのワークショップ。

• 日本語クラスにおけるOJADの実践的活用について，実例を踏まえた紹介。

どの地でも，本システムの提供を歓迎してくれる。ある日本語教師からは「日本語教育の中で，ぽっかりと空いていた大きな穴が，ようやく埋まろうとしている。」と評価して戴いたこともある。また，社会人や日本語教師となった多くの非母語話者から「学生の時にこれがあれば・・・」と，溜め息混じりで呟かれたことも多い。第 2.3節にて指摘したように，音声合成研究では「アクセント制御が正しく行なわれないと売れない」という背景から，任意テキストに対して適切にイントネーションやアクセントを振る技術開発が行なわれてきた。その精度に多少なりとも目をつむれば，OJAD が提供するアクセント核位置の自動付与機能は，匂坂・佐藤（1983）にあるように，30年前でも実現可能だったはずである。筆者が思うに音声合成技術者は，テキストを声にすることばかりに（合成音声を売ることばかりに）執着し，音声化の前処理プロセス・情報処理結果の呈示を求めているユーザがいることに気付いていなかったのかもしれない。一方日本語教育者は，駅，空港，電車，公園でのアナウンス，CALL サービスなど，様々な場でテキストが音声化されている事実，そしてテキストを音声化する各種要素技術に対してあまりにも無関心だったのかもしれない。そしてその結果が，OJAD 講習会では，（かつての学習者から）大きな溜め息として聞かれることになる。音声言語技術・自然言語技術に携わる者，語学教育に携わる者が歩み寄る場は他にもあるものと思われる。現在の学習者が将来，大きな溜め息をつかぬよう，両者の対話を継続する必要性を強く感じている。

なお，OJAD講習会には学習者も参加しているが，アクセント学習を必須のものとして彼らに要求しているものではない。講習会では，単語アクセントは地方性，方言性と関連することが多く，話し手のアクセントが聞き手の母語方言と異なる場合，聞き手は「出身地はどこかしら？」と感じることなどを紹介し，決して，聞き取りが困難となるものではないことを強調している。それでも東京方言（共通語）のアクセントを学びたい学習者には OJAD を勧めている。中には「漫才を学びたいので，大阪弁OJAD

は作れないのか？」と聞いてくる海外の日本語学習者もいる。関東出身の役者がドラマで大阪弁を話した時に，不自然なアクセント6を嫌う大阪の視聴者は多い。海外の日本語学習者が「漫才を学びたい」と意思表示した時に，「アクセントはやらなくてよい」と言えるだろうか？最多の日本語学習者を有する国は中国であり，彼らに日本語の単語アクセントがピッチアクセントであることや，句を単位としたアクセント制御があることを教えると，非常に興味を持つ（平野 2014）。彼らの学習意欲をより満たし，より効率良く学べるインフラとなるよう，OJAD を改良して行きたい。

6 まとめ本論文ではまず，筆者が考える日本語韻律教育の現状や問題点について整理し，それらと関連づける

形で，日本語韻律教育インフラである OJAD (Online Japanese Accent Dictionary)の開発について述べた。特に，音声・テキストコーパスの利用形態について詳説し，OJAD の評価，運用実績，講習会の様子についてもまとめた。OJADの構築と普及が，日本語音声教育，特に韻律教育の底上げや効率化に，少なからず貢献できていれば幸いである。Project OJAD ではユーザからのフィードバックを随時受け付けている。OJAD（2015a）に掲載されている連絡先まで問い合わせて戴きたい。また，facebook にOJAD ページを用意しており，各種の最新情報（新規機能の説明を含む）をこちらに掲載している。これもOJAD（2015a）から辿ることができる。なお筆者は日本語教育を専門とする者ではないため，本論文中に不適切な記述が散見されている可能性がある。その場合は是非ともご指摘願いたい。

参考文献[阿・林 2010] 阿栄娜，林良子 (2010) 「シャドーイング練習による日本語発音の変化～モンゴル語・中

国語母語話者を対象に～」『電子情報通信学会音声研究会』SP2009-151，19–24.

[磯村 2014] 磯村一弘 (2014) 「日本語教師のための音声指導入門」音声学入門講座，日本音声学会

[NHK 1998] NHK(1998) 『NHK日本語発音アクセント辞典新版』，NHK出版.

[笈川 2014] 笈川幸司 (2014)「中国人学習者を対象とした効果的な音声指導の実践」日本語教育セミナー，Project OJAD

http://youtu.be/aQv8XSXP7DQ

http://youtu.be/IJCiBDitQ_g (2015年 4月 29日最終参照)

[音声資源 2015] 音声資源コンソーシアム (2015) “Japanese News Article Sentences (JNAS)”,

http://research.nii.ac.jp/src/JNAS.html (2015年 4月 29日最終参照)

[KDDI 2015] 株式会社KDDI研究所 (2015) 「音声合成ソフトウェア「N2」TTSライブラリDSK」http://www.kddilabs.jp/products/audio/n2tts/product.html (2015年 4月 29日最終参照)

6当然関東出身の視聴者には，どこがどう不自然なのか分からないことが多い。

[黒岩他 2007] 黒岩龍，峯松信明，伝康晴，広瀬啓吉 (2007) 「単独ラベラによる大規模アクセントデータベースの構築およびそれを用いた統計的アクセント結合処理の検討」『電子情報通信学会音声研究会』SP2006-174，31–36.

[匂坂・佐藤 1983] 匂坂芳典，佐藤大和 (1983)「日本語単語連鎖のアクセント規則」『電子情報通信学会論文誌』J66-D(7)，849–856.

[鈴木他 2013] 鈴木雅之，黒岩龍，印南佳祐，小林俊平，清水信哉，峯松信明，広瀬啓吉 (2013)「条件付き確率場を用いた日本語東京方言のアクセント結合自動推定」『電子情報通信学会論文誌』J96-D(3)，644–654.

[鈴木・峯松 2013] 鈴木雅之，峯松信明 (2013) “Tokyo Accent Sandhi Estimation Toolkit (TASET)”,

https://sites.google.com/site/suzukimasayuki/accent (2015年 4月 29日最終参照)

[砂川 2015] 砂川有里子 (2015) 基盤研究 (A)「汎用的日本語学習辞書開発データベース構築とその基盤形成のための研究」http://jisho.jpn.org (2015年 4月 29日最終参照)

[JEITA2010] 電子情報技術産業協会規格 (2010)，JEITA IT-4006，「日本語テキスト音声合成用記号」http://www.jeita-speech.org (2015年 4月 29日最終参照)

[轟木・山下 2009] 轟木靖子，山下直子 (2009)「日本語学習者に対する音声教育についての考え方–教師への質問紙調査より」『香川大学教育実践総合研究』18，45–51.

[中川・許・中村 2009] 中川千恵子，許舜貞, 中村則子 (2009)『さらに進んだスピーチ・プレゼンのための日本語発音練習帳』ひつじ書房.

[交流基金 2013] 日本国際交流基金 (2013) 「海外日本語教育機関調査・速報値発表」http://www.jpf.go.jp/j/about/press/dl/0927.pdf (2015年 4月 29日最終参照)

[橋本・峯松・廣瀬 2014] 橋本浩弥，峯松信明，広瀬啓吉 (2014)「CRFによる日本語東京方言アクセント変化推定の改善」『日本音響学会春季講演論文集』1-R5-28，443–444.

[平野他 2009] 平野宏子，広瀬啓吉，河合剛，峯松信明 (2009) 「母語話者と中国語話者の日本語朗読音声の基本周波数パターンの比較」『日本音響学会誌』65(2)，69–80.

[平野 2014] 平野宏子 (2014) 「総合日本語の授業で行うゼロ初級からの音声教育の実践 –アクセント,

イントネーションの自然性を重視した視覚化補助教材の使用–」『国立国語研所論集』7，45–71.

[藤崎・須藤 1971] 藤崎博也，須藤寛 (1971) 「日本語単語アクセントの基本周波数パターンとその生成機構のモデル」『日本音響学会論文誌』27(9)，445–453.

[OJAD 2015a] Project OJAD(2015) “Online Japanese Accent Dictionary”,

http://www.gavo.t.u-tokyo.ac.jp/ojad/ (2015年 4月 29日最終参照)

[OJAD 2015b] Project OJAD(2015) 「OJAD講習会」http://www.gavo.t.u-tokyo.ac.jp/ojad/pages/workshop (2015年 4月 29日最終参照)

[OJAD 2015c] Project OJAD(2015) “OJAD プロモーションビデオ”

http://youtu.be/kPJifu2aBXg (2015年 4月 29日最終参照)

[峯松他 2013] 峯松信明，中村新芽，鈴木雅之，平野宏子，中川千恵子，中村則子，田川恭識，広瀬啓吉，橋本浩弥 (2013)「日本語アクセント・イントネーションの教育・学習を支援するオンラインインフラストラクチャの構築とその評価」『電子情報通信学会論文誌』J96-D(10)，2496–2508.

[Jenkins 2009] Jenkins, J. (2009) World Englishes: a resource book for students, Routledge.

[Minematsu and Hirose 1995] N. Minematsu and K. Hirose(1995) “Role of prosodic features in the

human process of perceiving spoken words and sentences in Japanese,” J. Acoust. Soc. Japan(E),

16(5), 311–320.

[Pinet 2010] Pinet, M., P. Iverson and M. Huckvale(2010) “Second-language experience and speech-

in-noise recognition: the role of L2 experience in the talker-listener accent interaction,” Proc.

SLaTE (CD-ROM).

表 3: イントネーション・アクセント呈示システムに対する教師の評価（%）a)学習者に役立つと思いますか？非常に役立つ 62.7少し役立つ 28.8あまり役立たない 8.5全く役立たない 0.0

b)授業で使いますか？是非使いたい 42.6必要があれば使いたい 50.0自分の授業には必要ない 7.4

図 7: 2012年 8月に公開後，2015年 4月までの週単位でのアクセス数の変化

日本語音声・テキストコーパス情報処理に 基づくオンライン...

Documents

日本語音声・テキストコーパス情報処理に基づくオンライン...