wprow do eit - sygnał mowy jako nośnik informacji

44
Sygnał mowy jako nośnik i nformacji 1 Wrocławska Instytut Telekomunikacji i Akustyki Zakład Analizy i Przetwarzania Sygnałów Akustycznych Sygnał mowy jako nośnik informacji

Upload: api-3735051

Post on 07-Jun-2015

2.625 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

1

Politechnika WrocławskaInstytut Telekomunikacji i AkustykiZakład Analizy i Przetwarzania

Sygnałów Akustycznych

Sygnał mowy jako nośnik

informacji

Page 2: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

2

Plan wykładu

Wstęp, hierarchiczny system syntezy mowy Rodzaje sygnałówTransformata Fourier’a sygnałuPróbkowanie sygnałówSygnał mowy - wytwarzanie, cechy akustyczne

- fonemyDyskretne źródło informacji Kompresja sygnału mowy

Page 3: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

3

Hierarchiczny system syntezy mowy

Page 4: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

4

Sygnał

Ciągłe Dyskretne i cyfroweDeterministyczne Losowe

Sygnał jest to czynnik będący nośnikiem informacji umożliwiający przesyłanie jej na odległość

Wyróżniamy następujące rodzaje sygnałów:

Page 5: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

5

Sygnały dyskretne i cyfrowe

Page 6: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

6

Przekształcenie Fourier’a

dtetxfX ftj 2)()(

1

0

)]/2sin()/2)[cos(()(N

n

NnmjNnmnxmX

Postać ciągła:

Postać dyskretna: DFT (Discrete Fourier Transform):

1...,,1,0 Nm

Page 7: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

7

Sygnał i jego moduł |DFT|

Przebieg sinusoidalny o częstośliwości 1[kHz]

Moduł DFT sygnały sinusoidalnego 1[kHz]

Page 8: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

8

Przebieg czasowy sumy sygnałów sinusoidalnych: 1 oraz 1,5[kHz]

Moduł DFT sumy dwóch sygnałów

Page 9: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

9

Przebieg czasowy sumy sygnałów sinusoidalnych:

1000, 1500, oraz 3500 [Hz]

Moduł DFT sumy trzech sygnałów

Page 10: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

10

Szybkie przekształcenie Fouriera FFT (Fast Fourier Transform)

FFT – jest to procedura wyznaczania DFT

2N- liczba mnożeń zespolonych w przypadku DFT

NN

2log2

-liczba mnożeń zespolonych w przypadkuFFT

kN 2 - długość analizowanego sygnału w FFT

k – liczba naturalna

Page 11: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

11

Przetwarzanie analogowo/cyfrowe sygnałów

1)Pobieranie wartości sygnału w dyskretnych momentach czasu2) Kwantowanie sygnału – przypisanie sygnałowi jednej ze zbioru wartości

Parametry przetwarzania A/C:-Częstotliwość próbkowania fs-Liczba bitów przetwornika

Page 12: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

12

Twierdzenie o próbkowaniuKotielnikowa - Shanona

Aby z sygnału spróbkowanego odtworzyć oryginalny sygnał konieczne jest zastosowanie częstotliwości próbkowania co najmniej dwukrotnie większej od maksymalnej częstotliwości składowej sygnału.

max2 ff s Nff max

Nf -częstotliwość graniczna Nyquista

Page 13: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

13

Próbkowanie sygnału (dyskretyzacja w czasie)

Page 14: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

14

Widmo sygnału telefonicznego

W przypadku telefonii stacjonarnej sygnał zawiera się W paśmie do 3400[Hz] a częstotliwość próbkowania wynosi 8000[Hz] czyli fp>2fmax

Page 15: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

15

Przetwarzanie A/C

W rzeczywistości aby warunek: fs>2*fmax był spełnionykonieczne jest zastosowanie filtru dolnoprzepustowegoo częstotliwości granicznej B < fs/2

Page 16: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

16

Charakterystyka przetwornika A/C, kwantyzacja sygnału

-Liczba przedziałów kwantowania Gdzie:n – liczba bitów przetwornika

12 n

Page 17: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

17

Dynamika sygnału analogowego

;log20min

max10

U

UD

maxU - maksymalna wartość napięcia sygnału

minU - minimalna wartość napięcia sygnału

W przypadku gdy:

szumuUU min => D=S/N

Page 18: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

18

Dynamika przetwornika PCM

Aby za pomocą przetwornika n – bitowego przekształcić sygnał analogowy bez zniekształceń konieczne jest spełnienie zależności:

02,6

Dn

Dynamikę przetwarzania analogowego sygnału na sygnałcyfrowy określa się jako:

][02,6)12(log20log20 10minmax

10 dBnq

UUN n

k

q – szerokość przedziału kwantyzacji przetwornika

Twierdzenie o kwantyzacji

Page 19: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

19

Liczba bitów przetwornika

n

Dynamika przetwarzania

[dB]

4 24,0

8 48,1

12 72,2

16 96,3

24 144,5

kN

Page 20: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

20

Sygnał mowyPasmo: od 70-150[Hz] do 5-7[kHz]Dynamika: Kilkadziesiąt [dB]Szacowana zawartość informacyjna:250[kb/s]

Page 21: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

21

Płaszczyzny sygnału mowy

Page 22: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

22

Wytwarzanie sygnału mowy

Page 23: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

23

Przebieg tonu krtaniowego

        

Zakres Fo od 100 do 140 [Hz] dla mężczyzn od 200 do 280 [Hz] dla kobiet

Page 24: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

24

Model wytwarzania sygnału mowy

Page 25: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

25

Częstotliwości formantowe

Page 26: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

26

Zakresy częstotliwości 4 pierwszych formantów

Page 27: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

27

Sonogram sygnału mowy

Page 28: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

28

FonemySą to „atomy” języka. Składają się z nichmorfemy, wyrazy i zdania.

Definicja fonemu:Fonemem określamy „najmniejszy segment dźwiękowy, który może różnicować znaczenia”. W języku polskim wyróżniamy 37 fonemów

Page 29: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

29

Lp

Przykład użycia fonemu Fonem

1 wino, lis, siwy

2 ryba, grzyb, myśl

3 rzeka, grzech, Ewa

4 rak, posag, chrzan

5 bok, krowa, kot

6 kurs, buty, róża

7 jama, jutro, kraj

8 łysy, miał, auto

9 ropa, kara, wiatr

Przykłady użycia fonemów

Page 30: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

30

Częstości występowania fonemów

Page 31: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

31

Transmisja sygnału przez kanał telekomunikacyjny

Jeżeli transmisja bezbłędna:I=I’

Page 32: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

32

„Informacja”

Informacja jest to miara niepewności co do tego która z możliwych wiadomości została odebrana. Ilość informacji rośnie ze wzrostem liczby możliwych wiadomości

Page 33: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

33

Dyskretne źródło informacji

},...,,{ 21 qsssS )(,...),(),( 21 qsPsPsP

][)(

1log)( 2 bitów

sPsI

ii

Page 34: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

34

S

ii bitówsIsP ])[()(

Średnia ilość informacji

S

ii

def

bitówsPsPsH ])[(log)()(

Entropia źródła

Page 35: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

35

Entropia alfabetu polskiego

Na podstawie estymat częstości występowania fonemówJassem uzyskał entropie polskiego alfabetu równą:

]/[7506,4)(log)(37

12 fonembitsPsPH

niip

Page 36: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

36

Kompresja sygnału mowy

W sygnale mowy występuje nadmiarowość informacji. Od początku istnienia telefonii starano się ograniczyć zawartość informa – cyjną sygnału mowy, ze względu na wąskopasmowe kanały transmisyjne.

Pierwsze ograniczenie sygnału mowy Występuje w momencie zawężenia pasma do zakresu od 300 do 3400 [Hz]

Page 37: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

37

Obecnie najczęściej sygnał jest przetwarzany na sygnał cyfrowy.

Przetwarzanie analogowo/cyfrowe stanowi najprostszą wersję kompresji sygnału mowy. Nieskończoną liczbę wartości zastępuje się skończonym zbiorem wynikającym z liczby poziomów kwantyzacji przetwornika

Page 38: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

38

Przepływności kanałów przy transmisji sygnału mowy

Page 39: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

39

System PCM

W systemach telekomunikacyjnych wykorzy – stuje się standard PCM.W standardzie tym sygnał przetwarza sięprzy pomocy przetworników 8 bitowych,częstotliwości próbkowania równej 8000[Hz].Aby uzyskać lepszą jakość sygnału na wejściu przetwornika sygnał poddawany jest kompresji.Stosuje się kompresje wg. dwóch rodzajów krzywych A lub

Page 40: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

40

Charakterystyka kompresji typu

)1log(

|)|1log(||

mv

V – znormalizowane napięcie wyjściowe

m – znormalizowane napięcie wejściowe

– stała dodatnia

Page 41: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

41

ADPCM – Adaptacyjny PCM

ADPCM – wykorzystuje zmienny w czasie przedział kwantowania, zmieniający się w zależności od zmian sygnału wejściowego. (Adaptuje się do zmian sygnału wejściowego).

Page 42: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

42

Kodowanie LPC sygnału mowy

Model generacji sygnału mowy

Page 43: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

43

W wyniku działania kodera każde 180 próbek zamienianejest na 12 parametrów.

}...,,,,{ 101 aaGT

T – okres pobudzeniaG – wzmocnienie

101 ...,, aa - współczynniki filtru traktu głosowego

W standardzie LPC-10 wszystkie współczynnikizakodowane są na 54 bitach.

Page 44: Wprow Do EIT - Sygnał Mowy Jako Nośnik Informacji

Sygnał mowy jako nośnik informacji

44

Kompresja sygnału mowy

Algorytm Stopień kompresji

Strumień bitowy [kb/s]

PCM(G.711)

1:1 64

ADPCM (G.726)

2:1 32

RPE-LPT (GSM)

5:1 13

LPC-10 27:1 2,4