beszédfelismerés és beszédszintézis beszédjel-tömörítés

T.Gy. Beszed 2014. 03. 18. 1

Beszédfelismerés és beszédszintézis

Beszédjel-tömörítés

Takács György

8. előadás

T.Gy. Beszed 2014. 03. 18. 2

Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már

nem korlátoz?

T.Gy. Beszed 2014. 03. 18. 3

Minek tömöríteni a beszédjelet – válaszaim:

• Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél).

• Nagy az árverseny a transzkontinentális összeköttetéseken

• Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség…..

• Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…)

• Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány)

• A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

T.Gy. Beszed 2014. 03. 18. 4

Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites

minta a szabványos > 64kbit/s)

T.Gy. Beszed 2014. 03. 18. 5

Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis

megfontolásból:

• A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s

• A kb. 50 beszédhang van nyelvenként (angolban kb. 25)

• 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt)

• Eredmény kb. 250 (angolban 125) bit/s

T.Gy. Beszed 2014. 03. 18. 6

Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés

megfontolásból:

• Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s

• Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s

T.Gy. Beszed 2014. 03. 18. 7

Miből fakad a nagyságrendi eltérés?

T.Gy. Beszed 2014. 03. 18. 8

Miből fakad a nagyságrendi eltérés – válaszaim:

• Amikor én Önök elé állok mit szoktam mondani első mondatban? • Mekkora új információt hordoz Önök számára, ha ismét elmondom?• A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak

a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya???

• Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya????

• Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye?????

• Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat….

• Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!

T.Gy. Beszed 2014. 03. 18. 9

Az emberi információ-feldolgozás egy általános modellje

Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)

T.Gy. Beszed 2014. 03. 18. 10

A természetes beszédlánc

T.Gy. Beszed 2014. 03. 18. 11

A beszédhangok folytonos és diszkrét természete

T.Gy. Beszed 2014. 03. 18. 12

T.Gy. Beszed 2014. 03. 18. 13

A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell

kihasználniuk?• A nyelvi folyamatok szabályait és

háttérismereteit?

• A beszédkeltés folyamatának kötöttségét?

• A hallási folyamat megkötöttségeit?

• Az agyi beszédmegértési folyamat megkötöttségeit?

• Miért????

T.Gy. Beszed 2014. 03. 18. 14

Mit várunk a beszédtömörítőktől?

• Értse amit mondunk – nem!

• Tudja milyen nyelven beszélünk – nem!

• A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

T.Gy. Beszed 2014. 03. 18. 15

Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest?

• A laboratóriumi rendszerek lementek 1 kbit/s alá!

• Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec)

• Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!.

T.Gy. Beszed 2014. 03. 18. 16

Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL

Shannon szerinti telefon 13 óra

(96000bit/s)

GSM FULL RATE

22 óra 29 perc

(13000 bit/s)

GSM HALF RATE

23 óra 18 perc

(5600 bit/s)

Laboratóriumi csúcs

23 óra 51 perc

1000bit/s

Elvi kiejtési határ23 óra 58 perc250 bit/s

T.Gy. Beszed 2014. 03. 18. 17

"A lathe is a big tool. Grab every dish of sugar."

Eredeti

2400 bit/s

T.Gy. Beszed 2014. 03. 18. 18

T.Gy. Beszed 2014. 03. 18. 19

T.Gy. Beszed 2014. 03. 18. 20

Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek:

Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége

T.Gy. Beszed 2014. 03. 18. 21

(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

T.Gy. Beszed 2014. 03. 18. 22

Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0

Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára

T.Gy. Beszed 2014. 03. 18. 23

Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai

T.Gy. Beszed 2014. 03. 18. 24

Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek,

ezért

A keresztmetszetváltásnál felírható a folytonossági egyenlet

Bevezetve a reflexiós tényezőt:

T.Gy. Beszed 2014. 03. 18. 25

Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszoktérfogatsebesség viszonyai folyamatábrában

T.Gy. Beszed 2014. 03. 18. 26

Térfogatsebesség viszonyok a cső végén

T.Gy. Beszed 2014. 03. 18. 27

Térfogatsebesség viszonyok a cső elején

T.Gy. Beszed 2014. 03. 18. 28

A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

T.Gy. Beszed 2014. 03. 18. 29

Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?

T.Gy. Beszed 2014. 03. 18. 30

Lineáris predikció alapokA beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával

ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat.

p -- a prediktor fokszáma

T.Gy. Beszed 2014. 03. 18. 31

A predikció pontatlanságát jellemzi az

predikciós hiba

A predikciós hiba általában mintáról mintára változik!

Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

T.Gy. Beszed 2014. 03. 18. 32

Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik!

A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei.

T.Gy. Beszed 2014. 03. 18. 33

T.Gy. Beszed 2014. 03. 18. 34

T.Gy. Beszed 2014. 03. 18. 35

A PARCOR eljárás

T.Gy. Beszed 2014. 03. 18. 36

T.Gy. Beszed 2014. 03. 18. 37

Az egyenleteket rendezgetve egy rekurzív formula nyerhető:

Bevezetve az új k változót

Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók!

T.Gy. Beszed 2014. 03. 18. 38

Először kiszámoljuk k1-et minden n-re

Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető

Fontos!!! | ki |≤1

T.Gy. Beszed 2014. 03. 18. 39

Belátható, hogy az alábbi rács struktúrák ekvivalensek…

Ezért a csőmodell azonos a PARCOR szintézis modellel, hari = ─ ki

T.Gy. Beszed 2014. 03. 18. 40

A beszédtömörítés alapvető modelljei 2013-ban

• A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók.

• Az együtthatók kis hibával leírják a beszédjel egy szakaszát.

• A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet.

• A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is.

• A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján.

• A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak.

Audio compression format

CreatorFirst public release date

Latest stable version Encoder CostPlayer Cost

AMR-WB 3GPP 2001.4.10 ETSI TS 126 190 V8.0.0 (2009-01)

Non-free Non-free

AMR-WB+ 3GPP 2004.6.14 ETSI TS 126 290 V8.0.0 (2009-01)

Non-free Non-free

apt-X APTX 1989 2007 Non-free Non-free

CELT Xiph.Org Foundation, Jean-Marc Valin

2007.12.8 2000.9.1 Free Free

G.711 ITU-T 1972 (ITU-T standard from 1988)

G.711 Appendix II (02/00) Free Free

G.722 ITU-T nov.88 Free Free

G.722.1 ITU-T szept.99 G.722.1 (05/05) Free Free

G.723.1 ITU-T márc.96 G.723.1 (05/06) Non-free Non-free

41T.Gy. Beszed 2014. 03. 18.

http://en.wikipedia.org/wiki/Audio_compression_(data)


http://en.wikipedia.org/wiki/Encoder

http://en.wikipedia.org/wiki/AMR-WB

http://en.wikipedia.org/wiki/3GPP

http://en.wikipedia.org/wiki/ETSI


http://en.wikipedia.org/wiki/AMR-WB+

http://en.wikipedia.org/wiki/3GPP



http://en.wikipedia.org/wiki/Apt-X

http://en.wikipedia.org/wiki/CELT

http://en.wikipedia.org/wiki/Xiph.Org_Foundation

http://en.wikipedia.org/wiki/Xiph.Org_Foundation

http://en.wikipedia.org/wiki/G.711

http://en.wikipedia.org/wiki/ITU-T




http://en.wikipedia.org/wiki/G.722.1

http://en.wikipedia.org/wiki/G.723.1

Audio compression format

CreatorFirst public release date

Latest stable version Encoder CostPlayer Cost

G.726 ITU-T dec.90 Free Free

G.728 ITU-T szept.92 Non-free Non-free

G.729 ITU-T márc.96 G.729 (01/07) Non-free Non-free

GSM-FRETSI Special Mobile Group

1990-1994 (ETS 300 580-2)

ETSI EN 300 961 V8.1.1 (2000–11)

Free Free

iLBC Global IP Solutions 2002 Free Free

iSAC Global IP Solutions ? Non-free Non-free

SILK Skype Limited 2009.1.7 Free Free

Siren 7PictureTel Corp. (now Polycom Inc.)

1999

SpeexXiph.Org Foundation, Jean-Marc Valin

2003.3.24 2001.1.12 Free Free

SVOPC Skype Limited 2007 ? ?

42T.Gy. Beszed 2014. 03. 18.



http://en.wikipedia.org/wiki/Encoder


beszédfelismerés és beszédszintézis beszédjel-tömörítés

Documents