beszédfelismerés és beszédszintézis beszédkodekek

71
T.Gy. Beszed ea. 2014. 03. 20 . 1 Beszédfelismerés és beszédszintézis Beszédkodekek Takács György 9. beszédelőadás 2014. 03. 20.

Upload: kosey

Post on 22-Jan-2016

15 views

Category:

Documents


0 download

DESCRIPTION

Beszédfelismerés és beszédszintézis Beszédkodekek. Takács György 9. beszédelőadás 2014. 03. 20. Definíció Ismétlés Általános kodek jellemzők G.729 kodek GSM kodek SPEEX kodek SILK kodek Kodek csipek. CODECS. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 1

Beszédfelismerés és beszédszintézis

Beszédkodekek

Takács György

9. beszédelőadás

2014. 03. 20.

Page 2: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 2

• Definíció• Ismétlés• Általános kodek jellemzők• G.729 kodek• GSM kodek• SPEEX kodek• SILK kodek• Kodek csipek

Page 3: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 3

CODECS

• Codecs are used to convert an analog voice signal to digitally encoded version. Codecs vary in the sound quality, the bandwidth required, the computational requirements, etc.

• Each VoIP service, program, phone, gateway, etc typically supports several different codecs, and when talking to each other, negotiate which codec they will use.

Page 4: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 4

Minek tömöríteni a beszédjelet – válaszaim:

• Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél).

• Nagy az árverseny a transzkontinentális összeköttetéseken

• Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség…..

• Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…)

• Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány)

• A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

Page 5: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 5

Mit várunk a beszédtömörítőktől?

• Értse amit mondunk – nem!

• Tudja milyen nyelven beszélünk – nem!

• A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

Page 6: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 6

"A lathe is a big tool. Grab every dish of sugar."

Eredeti

2400 bit/s

Page 7: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 7

Page 8: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 8

(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

Page 9: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 9

Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai

Page 10: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 10

Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek,

ezért

A keresztmetszetváltásnál felírható a folytonossági egyenlet

Bevezetve a reflexiós tényezőt:

Page 11: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 11

A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal

Page 12: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 12

Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból?

Page 13: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 13

Lineáris predikció alapokA beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával

ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat.

p -- a prediktor fokszáma

Page 14: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 14

A PARCOR eljárás

Page 15: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 15

Page 16: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 16

A beszédtömörítés alapvető modelljei 2012-ben

• A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók.

• Az együtthatók kis hibával leírják a beszédjel egy szakaszát.

• A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet.

• A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is.

• A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján.

• A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak.

Page 17: Beszédfelismerés és beszédszintézis Beszédkodekek

Audio compression format

CreatorFirst public release date

Latest stable version Encoder CostPlayer Cost

AMR-WB 3GPP 2001.4.10 ETSI TS 126 190 V8.0.0 (2009-01)

Non-free Non-free

(G.722.2)      

AMR-WB+ 3GPP 2004.6.14 ETSI TS 126 290 V8.0.0 (2009-01)

Non-free Non-free

apt-X APTX 1989 2007 Non-free Non-free

CELT Xiph.Org Foundation, Jean-Marc Valin

2007.12.8 2000.9.1 Free Free

G.711 ITU-T 1972 (ITU-T standard from 1988)

G.711 Appendix II (02/00) Free Free

G.722 ITU-T nov.88   Free Free

G.722.1 ITU-T szept.99 G.722.1 (05/05) Free Free

(AMR-WB)          

G.723.1 ITU-T márc.96 G.723.1 (05/06) Non-free Non-free

17T.Gy. Beszed ea. 2014. 03. 20 .

Page 18: Beszédfelismerés és beszédszintézis Beszédkodekek

Audio compression format

CreatorFirst public release date

Latest stable version Encoder CostPlayer Cost

G.726 ITU-T dec.90   Free Free

G.728 ITU-T szept.92   Non-free Non-free

G.729 ITU-T márc.96 G.729 (01/07) Non-free Non-free

GSM-FR ETSI Special Mobile Group

1990-1994 (ETS 300 580-2)

ETSI EN 300 961 V8.1.1 (2000–11)

Free Free

iLBC Global IP Solutions 2002   Free Free

iSAC Global IP Solutions  ?   Non-free Non-free

SILK Skype Limited 2009.1.7   Free Free

Siren 7PictureTel Corp. (now Polycom Inc.)

1999      

SpeexXiph.Org Foundation, Jean-Marc Valin

2003.3.24 2001.1.12 Free Free

SVOPC Skype Limited 2007   ? ?

Audio compression format

CreatorFirst public release date

Latest stable version Encoder CostPlayer Cost

18T.Gy. Beszed ea. 2014. 03. 20 .

Page 19: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 19

VoIP CODEC Family• GIPS Family - 13.3 Kbps and up • GSM - 13 Kbps (full rate), 20ms frame size • iLBC - 15Kbps,20ms frame size: 13.3 Kbps, 30ms frame size • ITU G.711 - 64 Kbps, sample-based Also known as alaw/ulaw • ITU G.722 - 48/56/64 Kbps ADPCM 7Khz audio bandwidth • ITU G.722.1 - 24/32 Kbps 7Khz audio bandwidth (based on Polycom's

SIREN codec) • ITU G.722.1C - 32 Kbps, a Polycom extension, 14Khz audio bandwidth • ITU G.722.2 - 6.6Kbps to 23.85Kbps. Also known as AMR-WB. CELP

7Khz audio bandwidth • ITU G.723.1 - 5.3/6.3 Kbps, 30ms frame size • ITU G.726 - 16/24/32/40 Kbps • ITU G.728 - 16 Kbps • ITU G.729 - 8 Kbps, 10ms frame size • Speex - 2.15 to 44.2 Kbps • LPC10 - 2.5 Kbps • DoD CELP - 4.8 Kbps • SVOPC – 20kbps• SILK 6-40 kbps

Page 20: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 20

• To use G.729 or G.723.1 you may need to pay a royalty fee!!!!!!!!!!

• this code is available for you to download for education purposes only!!!!!!!!!!!!

Page 21: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 21

• In VoIP networks, codecs are used to compress regular audio (16 bit signed linear audio, usually sampled at 8000Hz). Codecs are usually `lossy'. This means that the output data does not have to be perfectly identical to the source data , it just has to sound the same when converted to sound.

• If your VoIP network is on an office LAN and the signal doesn't ever traverse a WAN connection (internet, VPN, DSL, etc), then compression isn't critical. If your VoIP signals may need to traverse a WAN, then you need to compress the signal as much as possible. This allows you to fit more simultaneous phone calls into a single WAN connection. Compression also creates smaller packets. Smaller packets means less audible delay and lower risk of packet loss.

Page 22: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 22

• Many devices offer only 1 or 2 low bit rate codecs, usually G.729 and one other or just G.729. If you have bought phones that only support G.729, then you have little choice.

• Some gateway providers will only allow you to talk to their gateway with G.729.

• A good G.729 implementation uses less bandwidth and less CPU power than other low bit rate codecs such as iLBC. G.729 uses 8kbps, iLBC uses 13kbps.

• Some people have observed their CPU performing up to 50% better when doing G.729 compression compared to iLBC.

Page 23: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 23

• Few phones implement iLBC (one such phone is Budgetone 101 and 102). Many others - Cisco 7940, Snom, Swissvoice - only offer G.729

• Most phones offer G.711 (ulaw/alaw) as well - that is actually 64kbps, eight times the bandwidth required by G.729. It is only for use on LANs.

• G.723.1 is used for similar reasons to those just listed, but gives the benefit of using even less bandwidth but with a more noticable degradation of sound quality.

Page 24: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 24

• Features of G.729, G.729A & G.729AB Vocoder

• Compresses 8 kHz CODEC or linear audio data to 8 kbps.

• Operates on 10ms frames with short algorithm delays.

• Short-term synthesis filter is based on a 10th order Linear Prediction (LP) filter.

• Long-term, or pitch synthesis, filter is implemented using the adaptive-code book approach.

Page 25: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 25

Page 26: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 26

Page 27: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 27

Page 28: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 28

Page 29: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 29

Page 30: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 30

Page 31: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 31

Page 32: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 32

Page 33: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 33

GSM KODEK követelmények

• Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re)• Tisztán digitális rendszer• Jó minőség• Hibatűrés (a rádiós átvitel sajátosságai miatt)• Stabilitás• Kis késleltetés (max. 50 ms)• Kis fogyasztás• Implementálhatóság• Full Rate, Half Rate, Enhanced Full Rate,

Adaptive Rate változatok

Page 34: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 34

Page 35: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 35

Page 36: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 36

Page 37: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 37

Kodek alapjellemzők

• Mintavételi frekvencia 8kHz• Analízis keret 20ms (160 minta)• Reflexiós együtthatók száma 8 (prediktor

fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel

• Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással

• 260 bit/20 ms (13000 bit/s) nettó bitsebesség

Page 38: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 38

Page 39: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 39

Page 40: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 40

Page 41: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 41

Page 42: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 42

Speex is based on CELP and is designed to compress voice at bitrates ranging from 2 to 44 kbps. Some of

Speex's features include: • Narrowband (8 kHz), wideband (16 kHz), and ultra-

wideband (32 kHz) compression in the same bitstream • Intensity stereo encoding • Packet loss concealment • Variable bitrate operation (VBR) • Voice Activity Detection (VAD) • Discontinuous Transmission (DTX) • Fixed-point port • Acoustic echo canceller • Noise suppression

• http://www.speex.org/samples/

Page 43: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 43

A SPEEX kodek koncepciója

• A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén.

• Nem a mobiltelefonok igényét tartották szemelőtt (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban.

Page 44: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 44

A SPEEX kodek koncepciója

• Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig.

• A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek.

• Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen.

Page 45: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 45

A SPEEX kodek koncepciója

• A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre.

• A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps)

• A kódolás komplexitása is változtatható.

Page 46: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 46

A SPEEX kodek koncepciója

• Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki.

• A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms.

Page 47: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 47

SPEEX keskenysávú módban

Page 48: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 48

SPEEX szélessávú módban

Page 49: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 49

SPEEX kodek elemek - segédelemek

• Zajcsökkentés

• Automatikus szintszabályozás (AGC)

• Beszéddetektálás (VAD)

• Adaptív buffer

• Visszhangzár

Page 50: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 50

Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza

a saját hangját)

Page 51: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 51

A CELP elv

Page 52: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 52

A CELP eredő gerjesztőjele

• Ahol:– e(n) - az LPC szintézis szűrőt gerjesztő jel– a predikált periodikus hibajel– C(n) a rögzített kódkönyvtárból vett gerjesztő jel

Page 53: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 53

Teljes keret elemzés 8 kHz mintavételt feltételezve

• Egy keret 20 ms – (160 minta)• Keretenként számolandók a Line Spectra Pairs (LSP)

értékek és global gain (gframe )értékek • Az értékek kvantálandók

Page 54: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 54

Miért nem az LPC együtthatókat kvantáljuk?• stabilitási kritérium -- P(z) és Q(z) gyökei az egységkörön vannak és

felváltva jönnek• fizikai tartalom • Vektorkvantálás után elegendő 18-30 bit az LSP együtthatók kvantált

leírására.

Page 55: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 55

Alkeret elemzés szintézissel (AbS) 8 kHz-es mintavételnél

• Minden keretet 4 db 5 ms hosszú alkeretre bontunk (40 beszédminta)

• Az AbS a fő különbség a többi CELP kodekhez képest.• A SPEEX egy valós számmal írja le a pitch értéket, de

egy háromlépcsős prediktort és 3 pitch gain értéket használ fel az ea(n) kiszámolásához

Page 56: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 56

Page 57: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 57

Forrás

• The Speex Codec Manual• Version 1.2 Beta 3• Jean-Marc Valin• December 8, 2007• http://speex.org/docs/manual/speex-manual.pdf

Page 58: Beszédfelismerés és beszédszintézis Beszédkodekek

SILK

• A Skype Limited fejlesztette• 2009-től vezették be• Teljeskörű leírás http://tools.ietf.org/html/draft-vos-silk-01

566 oldal forráskóddal, magyarázatokkal• Több szempontból skálázott: négyféle mintavételi

frekvencia, igazodás az átviteli jellemzőkhöz (bitsebesség, csomagsebesség, csomagvesztés, DTX), igazodás a rendelkezésre álló processzor-teljesítményhez, jellemzői menet közben is változtathatók.

T.Gy. Beszed ea. 2014. 03. 20 . 58

Page 59: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 59

Page 60: Beszédfelismerés és beszédszintézis Beszédkodekek

Pitch estimator

T.Gy. Beszed ea. 2014. 03. 20 . 60

Page 61: Beszédfelismerés és beszédszintézis Beszédkodekek

Prediction analysis –voiced speech

• For a frame of voiced speech the pitch pulses will remain dominant in the pre-whitened input signal. Further whitening is desirable as it leads to higher quality at the same available bit-rate. To achieve this, a Long-Term Prediction (LTP) analysis is carried out to estimate the coefficients of a fifth order LTP filter for each of four sub-frames. The LTP coefficients are used to find an LTP residual signal with the simulated output signal as input to obtain better modelling of the output signal. This LTP residual signal is the input to an LPC analysis where the LPCs are estimated using Burgs method, such that the residual energy is minimized. The estimated LPCs are converted to a Line Spectral Frequency (LSF) vector, and quantized as described in Section 2.1.2.7. After quantization, the quantized LSF vector is converted to LPC coefficients and hence by using these quantized coefficients the encoder remains fully synchronized with the decoder. The LTP coefficients are quantized using a method described in Section 2.1.2.8. The quantized LPC and LTP coefficients are now used to filter the high-pass filtered input signal and measure a residual energy for each of the four subframes.

T.Gy. Beszed ea. 2014. 03. 20 . 61

Page 62: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 62

Kell-e egy mai mérnöknek CODEC programot írnia?

• Nem, mert letölthető sok változat, kapható kész chipset!

Page 63: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 63

Page 64: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 64

Page 65: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 65

Page 66: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 66

Page 67: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 67

Page 68: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 68

• Int. Headquarters• ISRAEL• AudioCodes Ltd.• 1 Hayarden Street, Airport City Lod, 70151 (Get

Directions) • Tel: +972-3-976-4000 • Fax: +972-3-976-4040

Page 69: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 69

Egyik alapvető kodek termék:

AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application.

Page 70: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 70

AudioCodes’ AC494/5/6/7 Software Specifications

• Channel Density: Up to 6 channels• Voice Coders: G.711, G.723, G.729, G.722.2, iLBC,

G.722*• Echo CancellerG.168-2002 compliant; Full duplex

acoustic EC• 3/4 Way Conferencing: 3/4 participants from PSTN or IP• Quality Enhancement:

– Voice Activity Detection (VAD), – Comfort Noise Generation (CNG),– Packet Loss Concealment (PLC), – Adaptive Jitter Buffer (up to 300 msec)

Page 71: Beszédfelismerés és beszédszintézis Beszédkodekek

T.Gy. Beszed ea. 2014. 03. 20 . 71

Hasznos linkek

• http://www.comms.eee.strath.ac.uk/~gozalvez/gsm/gsm.html

• http://ccnga.uwaterloo.ca/~jscouria/GSM/gsmreport.html

• http://www.analog.com/UploadedFiles/Product_Briefs/627038651430chipset.pdf

• http://www.ddj.com/print/ (komplett C nyelvű algoritmus)

• http://www.commsdesign.com/design_corner/OEG20030711S0010