母音の違いを視覚化するproj24-13/dl/pos2.pdf母音の違いを視覚化する メンバー...

4
母音の違いを視覚化する ○メンバー 代表者 久保田 聡 樋浦 諒 土田 裕也 担当教員 佐藤 創 先生 ○テーマの背景と目的 ・人と会話ができるロボットがいる ・音声を読み取るスマホアプリがある ・音声合成ソフト ( ボーカロイドなど ) 音の違いってどうなってるの? それを分かり易くしましょう! ○音声サンプルの抽出 自分たちの解析方法がいかに正しいか、音声判別の資料として 男性 24名 女性18名 に協力して声を録音させていただきました。 録音した人間の声をmathematicaというソフトを用いて自分たちなりに解析しました。 何を要素として機械は音声を判別しているのか、その解析方法を知り

Upload: others

Post on 23-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 母音の違いを視覚化するproj24-13/dl/pos2.pdf母音の違いを視覚化する メンバー 代表者 久保田 聡 樋浦 諒 土田 裕也 担当教員 佐藤 創 先生

母音の違いを視覚化する

○メンバー代表者 久保田 聡樋浦 諒土田 裕也担当教員 佐藤 創 先生

○テーマの背景と目的

・人と会話ができるロボットがいる

・音声を読み取るスマホアプリがある

・音声合成ソフト ( ボーカロイドなど )

  音の違いってどうなってるの?

           それを分かり易くしましょう!

○音声サンプルの抽出

自分たちの解析方法がいかに正しいか、音声判別の資料として 男性 24名 女性18名 に協力して声を録音させていただきました。

録音した人間の声をmathematicaというソフトを用いて自分たちなりに解析しました。何を要素として機械は音声を判別しているのか、その解析方法を知り

Page 2: 母音の違いを視覚化するproj24-13/dl/pos2.pdf母音の違いを視覚化する メンバー 代表者 久保田 聡 樋浦 諒 土田 裕也 担当教員 佐藤 創 先生

 アの音を一部分だけ抜き取ります。そしてこの音をフーリエ変換すると「パワースペクトル」という周波数特性が出てきます。

音声フーリエ変換

音声⇒スペクトラム化

⇒ケプストラム化⇒欲しい音を抽出

⇒音の特徴を表現する

周波数特性

ケプストラムフォルマントリフタリング+逆フーリエ

○解析方法

フィルタリング+フーリエ変換

1000 2000 3000 4000

-0.01

0.01

0.02

5000 10000 15000

0.005

0.010

0.015

0.020

0.025

0.030フーリエ変換① ②

パワースペクトルの左側部分を拡大した結果です。周波数の主要なピークがいくつかあるの

が見てわかります。この様に、人間の声は複数の周波数の波で構成され、一つの波として表

現されているのです。

Page 3: 母音の違いを視覚化するproj24-13/dl/pos2.pdf母音の違いを視覚化する メンバー 代表者 久保田 聡 樋浦 諒 土田 裕也 担当教員 佐藤 創 先生

 今回はケプストラムより、「なだらかな振動をする波」の部分を抽出します。そのため、両端から適当な数だけデータを抽出しその抽出されたデータだけを逆フーリエ変換することによって解析した音の主な周波数成分がわかります。

 こうして出てきた波のピークのことを「フォルマント」といいます。これらは周波数の低いほうから 「第一フォルマント」「第二フォルマント」という呼び方をします。

 

1000 2000 3000 4000

-4.5

-3.5

-3.0

-2.5

 しかし、これだけでは各音の特徴が見づらいです。今度は各音の特徴を強調するために、パワースペクトルを加工します。 こうして出来上がった特徴を強調した波を、さらにフーリエ変換にかけると「ケプストラム」といった波が出来上がります。

 今回のこの変換により「細かく激しい振動をする波」と「なだらかな振動をする波」の二つに分離することができます。

5000 10000 15000

-5

-4

-3

-2

5000 10000 15000

-10

-5

5

10

フーリエ変換③ ④

Page 4: 母音の違いを視覚化するproj24-13/dl/pos2.pdf母音の違いを視覚化する メンバー 代表者 久保田 聡 樋浦 諒 土田 裕也 担当教員 佐藤 創 先生

女性と初音ミクの母音のスペクトルの比較(母音 あ、お)

○違いと共通点・「あ」と「お」は発音のする時の口の形が似ているが、スペクトルを見る

と女性のものはさほど似ていない。

・スペクトルの数は初音ミクのものが最も少なく、声を表現するのにたった

これだけのスペクトルしか用いていないことになる。

あ お

女性

初音ミク

 ・男女のデータを統一して平面上に、第一・第二フォルマントをプロットしてみた  ところ、各母音は男女ともに似た位置に分布していることがわかる。

・これらは第一・第二フォルマントを抽出しただけの結果であり 他にも第三・第四フォルマントと、抽出するピーク数を増やせば 母音を識別する精度がより上がります。

0

500

1000

1500

2000

2500

3000

3500

4000

4500

0 200 400 600 800 1000 1200 1400 1600

第二フォルマント

第一フォルマント

各母音のフォルマント分布図

男性「あ」

男性「い」

男性「う」

男性「え」

男性「お」

女性「あ」

女性「い」

女性「う」

女性「え」

女性「お」