mathematicaを使った母音の識別 -...
TRANSCRIPT
-
Mathematica を使った母音の識別
○メンバー代表者 久保田 聡・樋浦 諒・土田 裕也
担当教員 佐藤 創 先生
○企画の具体案音を視覚化して母音の判別方法を説明できるようになる。
音声の判別ってどうやるの?
それを学びましょう!
○予測される成果物・音の判別を PCにさせる
・音を合成して母音を再現する
○テーマの背景と目的・人と会話ができるロボットがいる
・音声を読み取るスマホアプリがある
・バウリンガル ( 犬の鳴き声から感情を日本語に翻訳 )
・音楽のボーカルだけを消す
・音声合成ソフト ( ボーカロイドなど ) ♪
-
音声フーリエ変換
音声⇒スペクトラム化
⇒ケプストラム化⇒欲しい音を抽出
⇒音の特徴を表現する
周波数特性
ケプストラムフォルマントリフタリング+逆フーリエ
○現在の達成状況
200 400 600 800 1000
-0.01
0.01
0.02
「ア」の音
フーリエ変換
50 100 150 200
0.0020.004
0.006
0.008
0.0100.012
フィルタリング+フーリエ変換
ある波形をフーリエ変換すると、その波形の中に何Hz の波が含まれているか
を説明してくれます。要するに、フーリエ変換とは、その波形がどんな波により
どれくらいの割合で構成されているかを教えてくれる処理です。
5000 10000 15000
-0.01
0.01
0.02
抜き取った音を綺麗に周期の整数倍分だけ抜き出すのは難しいので
両端の振幅を 0に近づけるようにして無音部分を作り出し
フーリエ変換した時の解析精度があがるように波を加工しました。
1000 2000 3000 4000
-0.01
0.01
0.02
1000 2000 3000 4000
0.2
0.4
0.6
0.8
1.0
1000 2000 3000 4000
-0.01
0.01
0.02
-
5000 10000 15000
-10
-5
5
10
この特徴的な部分を強調し終わった波を
さらにフーリエ変換にかけると「ケプストラム」
というものに変換できます。
今回のフーリエ変換では音声内にある
「細かく激しい振動をする波」と「なだらかな振動をする波」
の二つの成分に分離させることができます。
今回はこの「なだらかな振動をする波」の部分を抽出します。
そのため、両端から 128 個ずつデータを抽出し
計 256 個のデータを逆フーリエ変換することによって
解析した音の主な周波数成分がわかります。
出てきた波のピークのことを
「フォルマント」といいます。
これらは周波数の低いほうから
「第一フォルマント」「第二フォルマント」
という呼び方をします。
このフォルマントが音を特徴づけるものです。
これらの特徴周波数の違いを私たちは普段から
耳で判別し音を認識しています。
この加工し終わった波をフーリエ変換すると
「パワースペクトル」という周波数特性が現れます。
この周波数の特徴的な成分だけを強調していくために
出てきた値に絶対値をつけ、さらにその値の対数をとります。
1000 2000 3000 4000
-4.5
-3.5
-3.0
-2.5
1000 2000 3000 4000
-4.5
-3.5
-3.0
-2.5
5000 10000 15000
-5
-4
-3
-2
5000 10000 15000
0.005
0.010
0.015
0.020
0.025
0.030
-
○改善点・録音環境を変える
・母音を発音してもらうときに、サンプルを取りやすくするために一つ一つの
母音を伸ばして発音してもらう
○今後の見通し8 月:前期で学んだことを応用して、後期に何をするかを絞って決める
9月:プログラムを組むために勉強
10月 : プログラムの組み立て開始
11月:プログラムのベータ版完成
12月:最終チェック
0
1000
2000
3000
4000
5000
6000
0 1,000 2,000 3,000 4,000
第二フォルマント
第一フォルマント
フォルマント分布図(男性)
a
i
u
e
o
0
1000
2000
3000
4000
5000
6000
0 500 1000 1500 2000 2500 3000 3500 4000
第二フォルマント
第一フォルマント
フォルマント分布図(女性)
a
i
u
e
o
A1-1_2.pdfA1-2_2A1-3_2A1-4_2