time scale modification （時長調整）

1

指導教授 : 陳福坤學生 : 張育豪南台科技大學資訊工程系2008/11/27

Time Scale Modification（時長調整）

2

Outline

Introduction TSM( Time Scale Modification) OLA( Over-Lap Add ) SOLA( Synchronized Over-Lap Add) WSOLA( Waveform Similarity Over-Lap Add) Conclusion

3

Introduction

時長調整 (TSM) 演算法是希望調整聲音撥放速度時，能夠保有原始語者的音調 Pitch 。

在時長調整演算法的發展過程中，第一次使用是在類比訊號的錄音帶上。快速播放：聲音的時長縮短，相對聲音的音

調也跟著變高。慢速播放：聲音的時長變長，其聲音的音調

也跟著變的很低沈。

4

TSM

TSM( Time Scale Modification) 時長調整演算法。

當聲音長度被縮短時，有一些片段將會被捨棄掉，而當聲音長度被拉長時，則有些片段將會被重覆使用。

這些都會造成音框與音框之間的不連續，所以在此使用一些技術來處理此類的問題。

5

OLA( Over-Lap Add)

OLA 是一個基本的 TSM 演算法。在 OLA 中，輸入訊號 X 被分成許多片段訊號

來處理。鄰近的兩個音框將會重疊，重疊的區域作適當

的淡出淡入加權處理。

Y

X

1,

10,

0,

11

0

Ln

Ln

n

L

nnw

6

OLA(Cont.)

1. 首先將 X[n] 第一組輸入訊號，傳給 Y 當作第一個輸出訊號。

2. 將輸入訊號 X[n] 以每 Sa 距離取長度 N 的訊號。 Sa=N/2~N/3

Sa

N

7

OLA(Cont.)

3. Ss=alpha( 時長調整因子 )*Sa ，得到相對於合成音框的合成時間位置，疊合於 Y 的目前 Ss位置上。

4. 因為會有互相疊合的訊號，所以須做淡出淡入加權處理。

X

Y

N

Sa

Ss

Y

X

8

OLA(Cont.)

5. 若訊號重疊的區域長度為 L ，則最後將第 k 個新進音框融入之前合成訊號的方式為下：

10

1-NnL

**1

*]*[

LnnSakXnwnSskYnw

nSakXnSskY

1,

10,

0,

11

0

Ln

Ln

n

L

nnw

9

OLA(Cont.) OLA 是使用最基本的疊加法來作時長調整，其時長

調整因子是固定的，如此一來會造成合成出來的訊號部分 Pitch 失真，使得聲音不自然。

10

SOLA(Synchronized OLA)

為了彌補 OLA 演算法所造成的 Pitch 失真問題，而發展出來的 SOLA 演算法。

SOLA 演算法基本上與 OLA 類似，唯一不同的地方是合成訊號 Y ，疊加的位置 Ss 並不固定在 alpha*Sa 時間位置上，而是在Ss=alpha*Sa+km 。

11

SOLA(Cont.) km 的搜尋位置是在 Y 的 Ss 位置左右，在

Ss+Smin<Ss<Ss+Smax 內搜尋出最佳的 km ，使得重疊部分訊號關聯性最大。

12

SOLA(Cont.)

1. 首先將 X[n] 第一組輸入訊號，傳給 Y 當作第一個輸出訊號。

2. 將輸入訊號 X[n] 以每 Sa 距離取長度 N 的訊號。N

SaSa N N

X[n]

Y

13

SOLA(Cont.)

3. 從分析音框 X[n] 的 Sa 時間位置與合成音框 Y的 Ss+km, 範圍為 [Smin,Smax] ，找出最大相關位置。

X

Y

N

Sa

Ss+km

14

SOLA(Cont.)

4. 將 X[n] 合成音框移到 Y 的 Ss+km 的時間位置。5. 將重疊的區域做淡出淡入的加權處理，再做相

加。

15

SOLA(Cont.)

SOLA時長 0.5倍波形圖

SOLA原時長波形圖

16

SOLA(Cont.)

SOLA時長兩倍波形圖


17

SOLA(Cont.)

優點：　　　將 OLA 演算法的 Pitch 失真，降到最低。缺點：　　　由於需計算最大交相關位置 km ，來決定

重疊位置的長度，且每個音框的 km 位置不同，所需的計算量也不同，因此計算量非常大。

18

WSOLA(Waveform Similarity OLA)

為了優化 SOLA 演算法，隨之發展出WSOLA 演算法。

在作法上，與 SOLA 演算法類似，也是使用最大交相關來做運算。

與 SOLA 不同之處是利用輸出訊號 Y 與輸入訊號 X 來做交相關來決定出輸入訊號 X 的位置。

19

WSOLA(Cont.)

1. 首先將輸入訊號 X 取 Ss 長度複製至 Y ，當作是輸出訊號。

2.if1 是目前合成訊號 Y 的末端的時間位置，新進音框須疊合於合成音框 Y 的 O1 位置上， O1 位置的決定是以 if1 往左 Sover=Ss/2 的位置上。

X

Y

Sover

Ss

if1O1S1

20

WSOLA(Cont.)3. 相對以合成訊號時間位置 O1 ，對應於原始聲

音訊號時間位置應為 S1=1/alpha*O1 。4. 當 S1 位置決定後，對應到原始訊號 S1 的位置

作上記號並以 S1 往前或往後 Sover 長度及為新進音框訊號。

X

Y

Sover

Ss

if1O1S1

X

Y

Sover

Ss

if1O1S1

21

WSOLA(Cont.)

5. 再對已定的新進音框附近，搜尋出最佳新進音框訊號 X[n] ，再與合成訊號 Y 重疊部分 (O1到 if1) ，作淡出淡入加權處理。

X

Y

Ss

if1O1S1

22

WSOLA(Cont.)

SOLA時長 0.5倍波形圖


23

WSOLA(Cont.)

SOLA時長兩倍波形圖


24

Conclusion

計算量：OLA<WSOLA<SOLA

計算量 a=1 a>1 a<1

OLA 321 321 321

SOLA 4622400 2311200 6933600

WSOLA 811440 405720 1217160

25

研究方向減少其運算量以及保持原語音品質運用在低運算量的裝置上，如： PDA 上面。

26

THANK YOU

time scale modification （時長調整）

Documents