time scale modification (時長調整)
DESCRIPTION
指導教授 : 陳福坤 學生 : 張育豪 南台科技大學 資訊工程系 2008/11/27. Time Scale Modification (時長調整). Outline. Introduction TSM( Time Scale Modification) OLA( Over-Lap Add ) SOLA( Synchronized Over-Lap Add) WSOLA( Waveform Similarity Over-Lap Add) Conclusion. Introduction. - PowerPoint PPT PresentationTRANSCRIPT
1
指導教授 : 陳福坤 學生 : 張育豪南台科技大學 資訊工程系2008/11/27
Time Scale Modification(時長調整)
2
Outline
Introduction TSM( Time Scale Modification) OLA( Over-Lap Add ) SOLA( Synchronized Over-Lap Add) WSOLA( Waveform Similarity Over-Lap Add) Conclusion
3
Introduction
時長調整 (TSM) 演算法是希望調整聲音撥放速度時,能夠保有原始語者的音調 Pitch 。
在時長調整演算法的發展過程中,第一次使用是在類比訊號的錄音帶上。 快速播放:聲音的時長縮短,相對聲音的音
調也跟著變高。 慢速播放:聲音的時長變長,其聲音的音調
也跟著變的很低沈。
4
TSM
TSM( Time Scale Modification) 時長調整演算法。
當聲音長度被縮短時,有一些片段將會被捨棄掉,而當聲音長度被拉長時,則有些片段將會被重覆使用。
這些都會造成音框與音框之間的不連續,所以在此使用一些技術來處理此類的問題。
5
OLA( Over-Lap Add)
OLA 是一個基本的 TSM 演算法。 在 OLA 中,輸入訊號 X 被分成許多片段訊號
來處理。 鄰近的兩個音框將會重疊,重疊的區域作適當
的淡出淡入加權處理。
Y
X
1,
10,
0,
11
0
Ln
Ln
n
L
nnw
6
OLA(Cont.)
1. 首先將 X[n] 第一組輸入訊號,傳給 Y 當作第一個輸出訊號。
2. 將輸入訊號 X[n] 以每 Sa 距離取長度 N 的訊號。 Sa=N/2~N/3
Sa
N
7
OLA(Cont.)
3. Ss=alpha( 時長調整因子 )*Sa ,得到相對於合成音框的合成時間位置,疊合於 Y 的目前 Ss位置上。
4. 因為會有互相疊合的訊號,所以須做淡出淡入加權處理。
X
Y
N
Sa
Ss
Y
X
8
OLA(Cont.)
5. 若訊號重疊的區域長度為 L ,則最後將第 k 個新進音框融入之前合成訊號的方式為下:
10
1-NnL
**1
*]*[
LnnSakXnwnSskYnw
nSakXnSskY
1,
10,
0,
11
0
Ln
Ln
n
L
nnw
9
OLA(Cont.) OLA 是使用最基本的疊加法來作時長調整,其時長
調整因子是固定的,如此一來會造成合成出來的訊號部分 Pitch 失真,使得聲音不自然。
10
SOLA(Synchronized OLA)
為了彌補 OLA 演算法所造成的 Pitch 失真問題,而發展出來的 SOLA 演算法。
SOLA 演算法基本上與 OLA 類似,唯一不同的地方是合成訊號 Y ,疊加的位置 Ss 並不固定在 alpha*Sa 時間位置上,而是在Ss=alpha*Sa+km 。
11
SOLA(Cont.) km 的搜尋位置是在 Y 的 Ss 位置左右,在
Ss+Smin<Ss<Ss+Smax 內搜尋出最佳的 km ,使得重疊部分訊號關聯性最大。
12
SOLA(Cont.)
1. 首先將 X[n] 第一組輸入訊號,傳給 Y 當作第一個輸出訊號。
2. 將輸入訊號 X[n] 以每 Sa 距離取長度 N 的訊號。N
SaSa N N
X[n]
Y
13
SOLA(Cont.)
3. 從分析音框 X[n] 的 Sa 時間位置與合成音框 Y的 Ss+km, 範圍為 [Smin,Smax] ,找出最大相關位置。
X
Y
N
Sa
Ss+km
14
SOLA(Cont.)
4. 將 X[n] 合成音框移到 Y 的 Ss+km 的時間位置。5. 將重疊的區域做淡出淡入的加權處理,再做相
加。
15
SOLA(Cont.)
SOLA時長 0.5倍波形圖
SOLA原時長波形圖
16
SOLA(Cont.)
SOLA時長兩倍波形圖
SOLA原時長波形圖
17
SOLA(Cont.)
優點: 將 OLA 演算法的 Pitch 失真,降到最低。缺點: 由於需計算最大交相關位置 km ,來決定
重疊位置的長度,且每個音框的 km 位置不同,所需的計算量也不同,因此計算量非常大。
18
WSOLA(Waveform Similarity OLA)
為了優化 SOLA 演算法,隨之發展出WSOLA 演算法。
在作法上,與 SOLA 演算法類似,也是使用最大交相關來做運算。
與 SOLA 不同之處是利用輸出訊號 Y 與輸入訊號 X 來做交相關來決定出輸入訊號 X 的位置。
19
WSOLA(Cont.)
1. 首先將輸入訊號 X 取 Ss 長度複製至 Y ,當作是輸出訊號。
2.if1 是目前合成訊號 Y 的末端的時間位置,新進音框須疊合於合成音框 Y 的 O1 位置上, O1 位置的決定是以 if1 往左 Sover=Ss/2 的位置上。
X
Y
Sover
Ss
if1O1S1
20
WSOLA(Cont.)3. 相對以合成訊號時間位置 O1 ,對應於原始聲
音訊號時間位置應為 S1=1/alpha*O1 。4. 當 S1 位置決定後,對應到原始訊號 S1 的位置
作上記號並以 S1 往前或往後 Sover 長度及為新進音框訊號。
X
Y
Sover
Ss
if1O1S1
X
Y
Sover
Ss
if1O1S1
21
WSOLA(Cont.)
5. 再對已定的新進音框附近,搜尋出最佳新進音框訊號 X[n] ,再與合成訊號 Y 重疊部分 (O1到 if1) ,作淡出淡入加權處理。
X
Y
Ss
if1O1S1
22
WSOLA(Cont.)
SOLA時長 0.5倍波形圖
SOLA原時長波形圖
23
WSOLA(Cont.)
SOLA時長兩倍波形圖
SOLA原時長波形圖
24
Conclusion
計算量:OLA<WSOLA<SOLA
計算量 a=1 a>1 a<1
OLA 321 321 321
SOLA 4622400 2311200 6933600
WSOLA 811440 405720 1217160
25
研究方向 減少其運算量以及保持原語音品質 運用在低運算量的裝置上,如: PDA 上面。
26
THANK YOU