beszédfelismerés és beszédszintézis beszédjel-tömörítés
DESCRIPTION
Beszédfelismerés és beszédszintézis Beszédjel-tömörítés. Takács György 8. előadás. Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már nem korlátoz?. Minek tömöríteni a beszédjelet – válaszaim:. - PowerPoint PPT PresentationTRANSCRIPT
T.Gy. Beszed 2014. 03. 18. 1
Beszédfelismerés és beszédszintézis
Beszédjel-tömörítés
Takács György
8. előadás
T.Gy. Beszed 2014. 03. 18. 2
Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már
nem korlátoz?
T.Gy. Beszed 2014. 03. 18. 3
Minek tömöríteni a beszédjelet – válaszaim:
• Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél).
• Nagy az árverseny a transzkontinentális összeköttetéseken
• Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség…..
• Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…)
• Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány)
• A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)
T.Gy. Beszed 2014. 03. 18. 4
Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább? (A digitális telefonátvitelben 8kHz mintavétel és 8 bites
minta a szabványos > 64kbit/s)
T.Gy. Beszed 2014. 03. 18. 5
Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis
megfontolásból:
• A leggyorsabb beszéd átlagosan kb. 10 beszédhang/s
• A kb. 50 beszédhang van nyelvenként (angolban kb. 25)
• 1 beszédhang információ tartalma kb. 0,5 bit (az egyes beszédhangok előfordulási gyakorisági értékei miatt)
• Eredmény kb. 250 (angolban 125) bit/s
T.Gy. Beszed 2014. 03. 18. 6
Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés
megfontolásból:
• Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s
• Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s
T.Gy. Beszed 2014. 03. 18. 7
Miből fakad a nagyságrendi eltérés?
T.Gy. Beszed 2014. 03. 18. 8
Miből fakad a nagyságrendi eltérés – válaszaim:
• Amikor én Önök elé állok mit szoktam mondani első mondatban? • Mekkora új információt hordoz Önök számára, ha ismét elmondom?• A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak
a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya???
• Mekkora az egymás mellé sorsolható és a tényleg kimondható beszédhang stringek aránya????
• Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye?????
• Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat….
• Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!
T.Gy. Beszed 2014. 03. 18. 9
Az emberi információ-feldolgozás egy általános modellje
Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)
T.Gy. Beszed 2014. 03. 18. 10
A természetes beszédlánc
T.Gy. Beszed 2014. 03. 18. 11
A beszédhangok folytonos és diszkrét természete
T.Gy. Beszed 2014. 03. 18. 12
T.Gy. Beszed 2014. 03. 18. 13
A mai beszédtömörítőknek melyik beszédlánc-elem tulajdonságait kell
kihasználniuk?• A nyelvi folyamatok szabályait és
háttérismereteit?
• A beszédkeltés folyamatának kötöttségét?
• A hallási folyamat megkötöttségeit?
• Az agyi beszédmegértési folyamat megkötöttségeit?
• Miért????
T.Gy. Beszed 2014. 03. 18. 14
Mit várunk a beszédtömörítőktől?
• Értse amit mondunk – nem!
• Tudja milyen nyelven beszélünk – nem!
• A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!
T.Gy. Beszed 2014. 03. 18. 15
Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest?
• A laboratóriumi rendszerek lementek 1 kbit/s alá!
• Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec)
• Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható – és ésszerű áron megvalósítható!!!!.
T.Gy. Beszed 2014. 03. 18. 16
Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL
Shannon szerinti telefon 13 óra
(96000bit/s)
GSM FULL RATE
22 óra 29 perc
(13000 bit/s)
GSM HALF RATE
23 óra 18 perc
(5600 bit/s)
Laboratóriumi csúcs
23 óra 51 perc
1000bit/s
Elvi kiejtési határ23 óra 58 perc250 bit/s
T.Gy. Beszed 2014. 03. 18. 17
"A lathe is a big tool. Grab every dish of sugar."
Eredeti
2400 bit/s
T.Gy. Beszed 2014. 03. 18. 18
T.Gy. Beszed 2014. 03. 18. 19
T.Gy. Beszed 2014. 03. 18. 20
Közelítő feltételek után a csőben terjedő hanghullámokat leíró egyenletek:
Ahol: p – hangnyomás, u -- térfogatsebesség ρ – a levegő sűrűsége c – a levegőben terjedő hang sebessége
T.Gy. Beszed 2014. 03. 18. 21
(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization
T.Gy. Beszed 2014. 03. 18. 22
Egy állandó keresztmetszetű kis szakaszra: A(x,t)=A0
Emlékezzünk a sodrott érpárakat leíró egyenletek alakjára
T.Gy. Beszed 2014. 03. 18. 23
Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai
T.Gy. Beszed 2014. 03. 18. 24
Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek,
ezért
A keresztmetszetváltásnál felírható a folytonossági egyenlet
Bevezetve a reflexiós tényezőt:
T.Gy. Beszed 2014. 03. 18. 25
Egy keresztmetszetváltás és a hozzá kapcsolódó szakaszoktérfogatsebesség viszonyai folyamatábrában
T.Gy. Beszed 2014. 03. 18. 26
Térfogatsebesség viszonyok a cső végén
T.Gy. Beszed 2014. 03. 18. 27
Térfogatsebesség viszonyok a cső elején
T.Gy. Beszed 2014. 03. 18. 28
A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal
T.Gy. Beszed 2014. 03. 18. 29
Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?
T.Gy. Beszed 2014. 03. 18. 30
Lineáris predikció alapokA beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával
ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat.
p -- a prediktor fokszáma
T.Gy. Beszed 2014. 03. 18. 31
A predikció pontatlanságát jellemzi az
predikciós hiba
A predikciós hiba általában mintáról mintára változik!
Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.
T.Gy. Beszed 2014. 03. 18. 32
Ez a négyzetes hiba az [n0, n1] tartományra vonatkozik!
A z eredeti jel, predikált jel, hibajel értelmezhető úgy is, mint a predikciós együtthatókkal leírt fizikai rendszerek be- és kimeneti jelei.
T.Gy. Beszed 2014. 03. 18. 33
T.Gy. Beszed 2014. 03. 18. 34
T.Gy. Beszed 2014. 03. 18. 35
A PARCOR eljárás
T.Gy. Beszed 2014. 03. 18. 36
T.Gy. Beszed 2014. 03. 18. 37
Az egyenleteket rendezgetve egy rekurzív formula nyerhető:
Bevezetve az új k változót
Tehát nem nagy mátrix-egyenleteket kell megoldani, hanem α értékei rekurzív formulával számolhatók!
T.Gy. Beszed 2014. 03. 18. 38
Először kiszámoljuk k1-et minden n-re
Majd e1(n) és f1(n) értékeit minden n-re és ez hasonlóan tovább ismételhető
Fontos!!! | ki |≤1
T.Gy. Beszed 2014. 03. 18. 39
Belátható, hogy az alábbi rács struktúrák ekvivalensek…
Ezért a csőmodell azonos a PARCOR szintézis modellel, hari = ─ ki
T.Gy. Beszed 2014. 03. 18. 40
A beszédtömörítés alapvető modelljei 2013-ban
• A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók.
• Az együtthatók kis hibával leírják a beszédjel egy szakaszát.
• A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet.
• A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is.
• A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján.
• A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak.
Audio compression format
CreatorFirst public release date
Latest stable version Encoder CostPlayer Cost
AMR-WB 3GPP 2001.4.10 ETSI TS 126 190 V8.0.0 (2009-01)
Non-free Non-free
AMR-WB+ 3GPP 2004.6.14 ETSI TS 126 290 V8.0.0 (2009-01)
Non-free Non-free
apt-X APTX 1989 2007 Non-free Non-free
CELT Xiph.Org Foundation, Jean-Marc Valin
2007.12.8 2000.9.1 Free Free
G.711 ITU-T 1972 (ITU-T standard from 1988)
G.711 Appendix II (02/00) Free Free
G.722 ITU-T nov.88 Free Free
G.722.1 ITU-T szept.99 G.722.1 (05/05) Free Free
G.723.1 ITU-T márc.96 G.723.1 (05/06) Non-free Non-free
41T.Gy. Beszed 2014. 03. 18.
Audio compression format
CreatorFirst public release date
Latest stable version Encoder CostPlayer Cost
G.726 ITU-T dec.90 Free Free
G.728 ITU-T szept.92 Non-free Non-free
G.729 ITU-T márc.96 G.729 (01/07) Non-free Non-free
GSM-FRETSI Special Mobile Group
1990-1994 (ETS 300 580-2)
ETSI EN 300 961 V8.1.1 (2000–11)
Free Free
iLBC Global IP Solutions 2002 Free Free
iSAC Global IP Solutions ? Non-free Non-free
SILK Skype Limited 2009.1.7 Free Free
Siren 7PictureTel Corp. (now Polycom Inc.)
1999
SpeexXiph.Org Foundation, Jean-Marc Valin
2003.3.24 2001.1.12 Free Free
SVOPC Skype Limited 2007 ? ?
42T.Gy. Beszed 2014. 03. 18.