beszédfelismerés és beszédszintézis emberi beszédkeltés és beszédérzékelés

41
T.Gy. Beszedfelism es szint. 2014.02.14. 1 Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés Takács György 2. előadás 2014. 02. 14.

Upload: curt

Post on 22-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés. Takács György 2. előadás 2014. 02. 14. Tartalom. Az emberi beszéd alapelemei Beszédszervek, beszédszervek működése A beszédérzékelésben résztvevő szervek és működésük Beszéddel kapcsolatos alapfogalmak. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

1

Beszédfelismerés és beszédszintézis

Emberi beszédkeltés és beszédérzékelés

Takács György

2. előadás

2014. 02. 14.

Page 2: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

2

Tartalom

• Az emberi beszéd alapelemei

• Beszédszervek, beszédszervek működése

• A beszédérzékelésben résztvevő szervek és működésük

• Beszéddel kapcsolatos alapfogalmak

Page 3: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

3

Nyelv és beszéd

• A nyelv az emberi kommunikáció és az emberi gondolkodás legfőbb eszköze

• A kommunikáció a társadalmi élet és a munkamegosztás alapvető feltétele

• A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelentés tartozik

• A beszéd a nyelv elsődleges megnyilvánulása• A beszéd útján közvetíthető információ sebessége

15…20 bit/s értéket érhet el. (Webster, J.C.: Information in simple multidimensional speech messages. J.A. S. A. Vol. 33. pp. 940-944.)

Page 4: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

4

Az emberi információ-feldolgozás egy általános modellje

Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)

Page 5: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

5

A természetes beszédlánc

Page 6: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

6

Beszédhang• A legkisebb olyan egységek, amelyek sorozatával

egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük.

• A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes.

• A beszédhangok a nyelvre jellemzőek!• Egyes nyelvekben a hangmagasság hajlítása is

megkülönböztet beszédhangokat.• Az élő beszéd olyan leírása, amely a beszéd

hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.

Page 7: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

7

Page 8: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

8

A beszédhangok folytonos és diszkrét természete

Page 9: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

9

A beszéd szerkezete• A beszéd egymástól megkülönböztethető

elemek szervezett időbeni egymásutánisága – soros szerkezet.

• Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang.

• Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető.

• A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

Page 10: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

10

A fonéma

• Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő

• A fonémakészlet elemei a fonémák. • Az azonos fonémákat képviselő

beszédhangok az allofonok.

Page 11: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

11

Page 12: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

12

Page 13: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

13

Page 14: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

14

Page 15: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

15

Page 16: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

16

Page 17: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

17

Page 18: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

18

Page 19: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

19

Page 20: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

20

Oktatóprogram:

• Digitus……takacsgy/mnyba

Page 21: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

21

Page 22: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

22

Page 23: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

23

Page 24: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

24

Page 25: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

25

Page 26: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

26

Page 27: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

27

Page 28: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

28

Page 29: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

29

Page 30: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

30

Page 31: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

31

Page 32: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

32

A hallás frekvencia és szintfüggése

Szabad térben (süketszobában) mért görbeseregHelmholtz rezonátor Fülkagyló hatása

Létezik diffúz térben és fejhallgatóval mért görbesereg is!

Weber-Fechner:hangosságérzet

00

lg20lg10)(.p

p

I

IphonérzetH

Fletcher-Stevens:hangosság6,0

1

2

3,0

1

2)(

p

p

I

IsonHangosság

40dB+40dB=43dB

40 dB felett igaz csak!!!40phon=1son1son+1son=2son

Page 33: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

33

phon, son, dB• Inger érzet

• W-F szerint : logaritmikus, százszoros intenzitású hangot hússzor hangosabbnak hallunk

• Fl-St szerint : hatványkitevős (0,3), százszoros intenzitású hangot négyszer hangosabbnak hallunk

• Kísérlet: 10 hang 500Hz-től 500 Hz-enként, 60 dB intenzitással szól, mekkora intenzitású 1 kHz-es hangot hallunk ugyanolyan erősnek?

• Eredmény: a 93 dB-est! W-F szerint: a 70 dB-est kellene ugyanolyan erősnek hallani!

• Milyen átszámítás a jó, hogy a 10 jelet 10-szer olyan hangosnak halljuk?

10

40

2

phon

son

60 phon=4 son, 10 x 4=40 son=93 dB

402lg

lg10

sonphon

Page 34: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

34

A phon-son átszámítási görbe

(Tarnóczy Tamás)

Page 35: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

35

A hallás kritikus sávjaiBizonyos feltételekkel a W-F törvény igaz! Bizonyos frekvenciasávokon belül az intenzitások összegződnek! Ezek a sávok a kritikus sávok.

Barkhausen tiszteletére „Bark”-ak nevezték el a sávokat, 24 db létezik.Sávszélességük változó, 400 Hz-ig 100 Hz, 1 kHz felett a frekvencialogaritmusával arányosan növekszik.

(Tarnóczy Tamás)

Page 36: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

36

Hangelfedés a frekvencia tartományban

• Megszólaló színuszos hang, vagy keskenysávú zörej a hallásküszöb görbét módosítja, a jel frekvencia környezetében érzéketlenebb lesz hallásunk.

1) Nagyobb intenzitású elfedő jel szélesebb frekvenciasávban okoz elfedést

100 1000 10000

f(Hz)

p(dB)

20

40

6

0

80

100 1 k Hz

4,5 k Hz250 Hz

2) A fedőgörbe nem szimmetrikus, nagyobb frekvenciák felé szélesebbsávban hat (kórus: basszus, szoprán)A görbe alatti intenzitású hangokat nem halljuk!

A hangesemény dinamikusan változó fedőgörbét alakít ki, ami a görbealatt van energiában, azt nem kell átvinni! (Digitális jelek adatredukciója)

Page 37: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

37

Hangelfedés az időtartományban

Utóelfedés: egy erős hang-inger után, míg az alaphártyarezgései lecsillapodnak, a kisebb intenzitású hang nemhallható!

Előelfedés: a korábban meg-Szólaló hangot egy későbbérkező erős hang elfed!Az idegpályákon az áramimpulzusok sebessége a kiváltó inger nagyságától függ?Az időbeli elfedés jelenségét szintén kihasználjuk a digitális jelek adatredukciójánál!

Page 38: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

38

Két hang hangosságának összegeFigyelembe kell venni a kritikus sávokat és a hangelfedés jelenségét a

hang intenzitásának függvényében!Ha a két hang frekvenciában távol van egymástól, és nem túl nagy

intenzitású (elfedési görbének nincs szerepe), a son-ok összegződnek.Minél nagyobb energiájú a két hang, annál távolabb kell lenni egymástól

frekvenciában, pl. 90 dB esetén 10-12 kritikus sáv távolság szükséges!

Kritikus sávon belül az intenzitások összegződnek.Ha az egyik hang sokkal hangosabb, elfedi a másikat! (Nem szimmetrikus

az elfedés, mély-magas hang, nem mindegy, melyik az erősebb!

Digitális hang adatredukciója: pl. 32 frekvenciasávra bontva a jelet egyszerű összegzési és elfedési törvények érvényesek!

Page 39: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

39

Dinamikus hallásküszöb kialakulása

0,1 0,2 0,5 1 2 5 10 f (kHz)

p(dB)

Abszolút hallásküszöb Eredő hallásküszöb

50

40

30

20

10

0

Page 40: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

40

Hangesemény sávszélessége és a hangosság kapcsolata

• Kísérlet: 50 dB-es színuszjel hangossága 2 son

Tíz db. 40 dB-es színuszjel összhangossága 7,9 son

A két jel energiája azonos, de a nagyobb sávszélesség miatt hangosabbnak halljuk!

Rövid ideig tartó hang hangosságának fokozása:kissé torzítva a hangot, többspektrumvonal jelenik meg, az eredeti jelhez hozzáadva,a hangosság nagyobb lesz!(Exciter)

Page 41: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

41

A hallás időállandói• Hallásunk több rezgőrendszer kapcsolata útján alakul ki

• Minden rezgőrendszer rendelkezik feléledési (berezgési) és lecsengési idővel (időállandóval, a végállapot 63 %-a)

• Mély hangokra 50 ms, 1000 Hz feletti hangokra 20 ms

• A teljes hangérzet kialakulásához kb. 200 ms szükséges, ez idő elteltével kapja meg az agy a teljes információ mennyiséget!

• A 200 ms „ablakozás” miatt a hangmagasság érzékelésünk nem pontos! (Megérthető a színuszjel, ill. a kapuzott színuszjel Fourier-transzformáltja alapján!) 1 tfx

- Egy 200 ms időtartamig észlelt színuszjelet 5 Hz pontossággal hallunk- Az 50 ms időállandó miatt több, különböző frekvenciájú mély hangot azonos magasságúnak érzünk!- A hangmagasság érzékelése függ az intenzitástól is!