time scale modification (時長調整)

26
1 指指指指 : 指指指 指指 : 指指指 指指指指指指 指指指指指 2008/11/27 Time Scale Modification 時時時時時 ()

Upload: owen

Post on 04-Jan-2016

60 views

Category:

Documents


0 download

DESCRIPTION

指導教授 : 陳福坤 學生 : 張育豪 南台科技大學 資訊工程系 2008/11/27. Time Scale Modification (時長調整). Outline. Introduction TSM( Time Scale Modification) OLA( Over-Lap Add ) SOLA( Synchronized Over-Lap Add) WSOLA( Waveform Similarity Over-Lap Add) Conclusion. Introduction. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Time Scale Modification (時長調整)

1

指導教授 : 陳福坤 學生 : 張育豪南台科技大學 資訊工程系2008/11/27

Time Scale Modification(時長調整)

Page 2: Time Scale Modification (時長調整)

2

Outline

Introduction TSM( Time Scale Modification) OLA( Over-Lap Add ) SOLA( Synchronized Over-Lap Add) WSOLA( Waveform Similarity Over-Lap Add) Conclusion

Page 3: Time Scale Modification (時長調整)

3

Introduction

時長調整 (TSM) 演算法是希望調整聲音撥放速度時,能夠保有原始語者的音調 Pitch 。

在時長調整演算法的發展過程中,第一次使用是在類比訊號的錄音帶上。 快速播放:聲音的時長縮短,相對聲音的音

調也跟著變高。 慢速播放:聲音的時長變長,其聲音的音調

也跟著變的很低沈。

Page 4: Time Scale Modification (時長調整)

4

TSM

TSM( Time Scale Modification) 時長調整演算法。

當聲音長度被縮短時,有一些片段將會被捨棄掉,而當聲音長度被拉長時,則有些片段將會被重覆使用。

這些都會造成音框與音框之間的不連續,所以在此使用一些技術來處理此類的問題。

Page 5: Time Scale Modification (時長調整)

5

OLA( Over-Lap Add)

OLA 是一個基本的 TSM 演算法。 在 OLA 中,輸入訊號 X 被分成許多片段訊號

來處理。 鄰近的兩個音框將會重疊,重疊的區域作適當

的淡出淡入加權處理。

Y

X

1,

10,

0,

11

0

Ln

Ln

n

L

nnw

Page 6: Time Scale Modification (時長調整)

6

OLA(Cont.)

1. 首先將 X[n] 第一組輸入訊號,傳給 Y 當作第一個輸出訊號。

2. 將輸入訊號 X[n] 以每 Sa 距離取長度 N 的訊號。 Sa=N/2~N/3

Sa

N

Page 7: Time Scale Modification (時長調整)

7

OLA(Cont.)

3. Ss=alpha( 時長調整因子 )*Sa ,得到相對於合成音框的合成時間位置,疊合於 Y 的目前 Ss位置上。

4. 因為會有互相疊合的訊號,所以須做淡出淡入加權處理。

X

Y

N

Sa

Ss

Y

X

Page 8: Time Scale Modification (時長調整)

8

OLA(Cont.)

5. 若訊號重疊的區域長度為 L ,則最後將第 k 個新進音框融入之前合成訊號的方式為下:

10

1-NnL

**1

*]*[

LnnSakXnwnSskYnw

nSakXnSskY

1,

10,

0,

11

0

Ln

Ln

n

L

nnw

Page 9: Time Scale Modification (時長調整)

9

OLA(Cont.) OLA 是使用最基本的疊加法來作時長調整,其時長

調整因子是固定的,如此一來會造成合成出來的訊號部分 Pitch 失真,使得聲音不自然。

Page 10: Time Scale Modification (時長調整)

10

SOLA(Synchronized OLA)

為了彌補 OLA 演算法所造成的 Pitch 失真問題,而發展出來的 SOLA 演算法。

SOLA 演算法基本上與 OLA 類似,唯一不同的地方是合成訊號 Y ,疊加的位置 Ss 並不固定在 alpha*Sa 時間位置上,而是在Ss=alpha*Sa+km 。

Page 11: Time Scale Modification (時長調整)

11

SOLA(Cont.) km 的搜尋位置是在 Y 的 Ss 位置左右,在

Ss+Smin<Ss<Ss+Smax 內搜尋出最佳的 km ,使得重疊部分訊號關聯性最大。

Page 12: Time Scale Modification (時長調整)

12

SOLA(Cont.)

1. 首先將 X[n] 第一組輸入訊號,傳給 Y 當作第一個輸出訊號。

2. 將輸入訊號 X[n] 以每 Sa 距離取長度 N 的訊號。N

SaSa N N

X[n]

Y

Page 13: Time Scale Modification (時長調整)

13

SOLA(Cont.)

3. 從分析音框 X[n] 的 Sa 時間位置與合成音框 Y的 Ss+km, 範圍為 [Smin,Smax] ,找出最大相關位置。

X

Y

N

Sa

Ss+km

Page 14: Time Scale Modification (時長調整)

14

SOLA(Cont.)

4. 將 X[n] 合成音框移到 Y 的 Ss+km 的時間位置。5. 將重疊的區域做淡出淡入的加權處理,再做相

加。

Page 15: Time Scale Modification (時長調整)

15

SOLA(Cont.)

SOLA時長 0.5倍波形圖

SOLA原時長波形圖

Page 16: Time Scale Modification (時長調整)

16

SOLA(Cont.)

SOLA時長兩倍波形圖

SOLA原時長波形圖

Page 17: Time Scale Modification (時長調整)

17

SOLA(Cont.)

優點:   將 OLA 演算法的 Pitch 失真,降到最低。缺點:   由於需計算最大交相關位置 km ,來決定

重疊位置的長度,且每個音框的 km 位置不同,所需的計算量也不同,因此計算量非常大。

Page 18: Time Scale Modification (時長調整)

18

WSOLA(Waveform Similarity OLA)

為了優化 SOLA 演算法,隨之發展出WSOLA 演算法。

在作法上,與 SOLA 演算法類似,也是使用最大交相關來做運算。

與 SOLA 不同之處是利用輸出訊號 Y 與輸入訊號 X 來做交相關來決定出輸入訊號 X 的位置。

Page 19: Time Scale Modification (時長調整)

19

WSOLA(Cont.)

1. 首先將輸入訊號 X 取 Ss 長度複製至 Y ,當作是輸出訊號。

2.if1 是目前合成訊號 Y 的末端的時間位置,新進音框須疊合於合成音框 Y 的 O1 位置上, O1 位置的決定是以 if1 往左 Sover=Ss/2 的位置上。

X

Y

Sover

Ss

if1O1S1

Page 20: Time Scale Modification (時長調整)

20

WSOLA(Cont.)3. 相對以合成訊號時間位置 O1 ,對應於原始聲

音訊號時間位置應為 S1=1/alpha*O1 。4. 當 S1 位置決定後,對應到原始訊號 S1 的位置

作上記號並以 S1 往前或往後 Sover 長度及為新進音框訊號。

X

Y

Sover

Ss

if1O1S1

X

Y

Sover

Ss

if1O1S1

Page 21: Time Scale Modification (時長調整)

21

WSOLA(Cont.)

5. 再對已定的新進音框附近,搜尋出最佳新進音框訊號 X[n] ,再與合成訊號 Y 重疊部分 (O1到 if1) ,作淡出淡入加權處理。

X

Y

Ss

if1O1S1

Page 22: Time Scale Modification (時長調整)

22

WSOLA(Cont.)

SOLA時長 0.5倍波形圖

SOLA原時長波形圖

Page 23: Time Scale Modification (時長調整)

23

WSOLA(Cont.)

SOLA時長兩倍波形圖

SOLA原時長波形圖

Page 24: Time Scale Modification (時長調整)

24

Conclusion

計算量:OLA<WSOLA<SOLA

計算量 a=1 a>1 a<1

OLA 321 321 321

SOLA 4622400 2311200 6933600

WSOLA 811440 405720 1217160

Page 25: Time Scale Modification (時長調整)

25

研究方向 減少其運算量以及保持原語音品質 運用在低運算量的裝置上,如: PDA 上面。

Page 26: Time Scale Modification (時長調整)

26

THANK YOU