a hallás és a...

A hallás és a beszédpercepció

PszicholingvisztikaPszicholingvisztika

A beszédészlelés/beszédpercepció

Artikulációs fonetika

Akusztikus fonetika

Percepciós fonetika

A hangingerek átalakítása -- nyelvi jelek

elérése, azaz nyelvi észlelés.

A beszédfeldolgozás leegyszerűsített sémája

HALLÁS

BESZÉDÉSZLELÉS

BESZÉDMEGÉRTÉS

Jelátalakítás

Nyelvi egységek (fonéma, szótag, szó) aktivációja

Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás

Hallás

A fül anatómiája

Fülkagyló

(Cochlea)

A fülkürt (Eustach-féle kürt)

• A belsőfület a dobhártya légmentesen zárja

• Az egyetlen kimenet a külvilágba a fülkürt (az orrgarat felé)

• Ezáltal tud kiegyenlítődni a légnyomás a dobhártya két oldalán (és képes ellátni a funkcióját).

• Nátha átmeneti fülkürt eldugulás halláscsökkenés

• Hurut nincs légmozgás savós váladéktermelődés középfülgyulladás.https://www.youtube.com/watch?v=i7xf8ORyaPo

https://www.youtube.com/watch?v=i7xf8ORyaPo

A fül mint jelátalakító

Idegi ingerület

Hangnyomás-ingadozás

Mechanikus rezgés Idegsejtek ingerlése

1. Hanghullámok mechanikus rezgések: a hallócsontocskák

https://www.youtube.com/watch?v=qgdqp-oPb1Q

https://www.youtube.com/watch?v=qgdqp-oPb1Q

1. Hanghullámok mechanikus rezgések: a hallócsontocskák

kalapácsüllő kengyel

Huszonkétszeres erősítés

ovális ablak

kerek ablak

dobhártya

2. Mechanikus rezgés idegi ingerület: a cochlea (csiga)

https://www.youtube.com/watch?v=dyenMluFaUw

https://www.youtube.com/watch?v=dyenMluFaUw

A cochlea (csiga) és a Corti szerv

Külső szőrsejtek:A hullám kitéríti a tektoriális membránt nagyobb mértékű érintkezés ingerlés ingerlésre meghosszabbodik a terjedő hullám erősítése „hangosítás”

Scala vestibuli(folyadék: perilymph)

Scala tympani(folyadék: perilymph)

Scala media(folyadék: endolymph)

Corti szerv (megfordítva!)

Hallóideg

Belső szőrsejtek: A hullám az alaphártyán turbulenciát okoz a folyadékban (Bernoulli) ingerlés idegi impulzus

Az alaphártya frekvenciaérzékenysége

• Az alaphártya tonotópiás felépítésű: a szomszédos területek szomszédos frekvenciasávokra érzékenyek.

• A különböző frekvenciákhoz eltérő méretű területek tartoznak.

• Nagyobb hangerő több szőrsejt jön mozgásba.

• A bázisnál vastagabb és keskenyebb magasabb a sajátfrekvenciája magasabb frekvenciákra érzékeny.

• Felfelé vékonyodik, szélesedik csökken a sajátfrekvenciája.

Utazóhullámok

Tiszta hang Komplex hang (1000 és 2500 Hz)

A periferiális hallórendszer frekvenciafelbontást végez! auditoros „spektrogramok”!

https://auditoryneuroscience.com/book/export/html/13

https://auditoryneuroscience.com/book/export/html/13

A hangingerek útja

• A szőrsejtekre receptorok kapcsolódnak

• A receptorok (neuronok) axonjai „összeállnak” és kilépnek a cochleából: hallóideg (a nyolcadik agyideg)

• A hallóideg először az agytörzsbe jut

• Innen pedig az elsődleges és másodlagos auditoros kortexbe

• Az inger az auditoros kortex előtt az adott füllel ellenkező féltekébe érkezik

A saját hang észlelése

• Saját hangunkat mindig másmilyennek halljuk, mint a környezetünk. Miért?

• A saját hangunk nem csak a levegőben terjedve jut el a fülünkbe, mert a koponyacsontok rezgése is továbbítja azt.

• légvezetéses hallás: a hanghullámokat a levegőben terjedve a külső fülbe (fülkagylóba) jutnak.

• csontvezetéses hallás: a hanghullámokat a koponyacsontok rezgése a belsőfülbe vezeti.

Fizikai jellemző

• Hangnyomás [Pa] vagy intenzitás [W/m2]

• (Alap)frekvencia [Hz]

• Spektrum

• Időtartam [ms]

• Hangosság: hangnyomásszint [dB]

• Hangmagasság [Bark]

• Hangszín és hangszínezet

• Hosszúság ( részben ennek az „eredménye” nyelvi hosszúság!)

Érzeti vetület

1. Hangosságérzet: hangnyomásszint (dB-skála)

• A hangnyomás (Pa) hallási megfelelője a hangnyomásszint (SPL)

•Mértékegysége: dB

• A hangnyomás és a hangosságérzet között logaritmikus a kapcsolat

• kétszer akkora nyomás ≠ kétszeres hangosság!

Threshold: 1000 Hz-en 20 µPa = 0 dB

Társalgás (60 dB)

Sugárhajtómű(140 dB)

10.000-szeres hangnyomás-növekedés kétszeres hangosságnövekmény

Ráadásul a valódi hangosságérzet frekvenciafüggő (phon)

Hangosságérzet és frekvencia

Phon: azonos hangosságúnak érzékelt hangok változó arányok! (pl. a 40 phon nem kétszer olyan hangos mint 20 phon)

Hallásküszöb: egy 1000 Hz frekvenciájú tiszta hang 0 dB-en

2. Hangmagasság-élmény

Hangmagasságérzet és frekvencia összefüggése

• 20–1000 Hz-ig nagyjából lineáris

• Felette nagyjából logaritmikus

• MIÉRT?

Fizikai hangmagasság (Hz)

Nem lineáris kapcsolat!

Az alaphártya frekvenciaérzékenysége

• Különböző frekvenciákra különböző helyeken reagál.

• A különböző frekvenciasávokra különböző méretű részek érzékenyek az alaphártyán magasabb frekvenciákon nem olyan jó a hallás felbontása.

Frekvenciaérzékenység és beszéd

• Emberi hallásküszöb:• 20 - 20,000 Hz• A fül 500 és 5,000 Hz között a legérzékenyebb

• Az emberi hang alapfrekvenciája• Átlagos férfi: 80 – 200 Hz• Átlagos női: 400 Hz-ig

• A telefon problémája:• Levág 300 Hz alatt és ~3000 Hz fölött• Az információ egy része elvész (frikatívák, f0 beszélő személy,

dallam, pl. kérdés v. kijelentés?)• Hogyhogy felismerjük a beszélőt és értjük a beszédet?

Komplex hangok alaphangmagassága

Még akkor is halljuk az alaphangot, ha az valójában nem szólal meg (azaz a frekvenciáján nincs energia a spektrumban), mert az elménk képes kikövetkeztetni a felharmonikusokból a „hiányzó alaphang” problémája.

Tiszta hangok: 1-10 felharmonikus:

4-10 felharmonikus:

https://auditoryneuroscience.com/topics/missing-fundamental

https://auditoryneuroscience.com/topics/missing-fundamental

A hiányzó alaphang

Mindennapi kihasználása:

• Telefon (férfi f0: 100–160 Hz, nő: 160–280 Hz, telefon átvitele: 300-30000 Hz)

• 55 Hz-es orgonasíp nincs, csak egy 110 Hz-es és egy 165 Hz-es

• és ha a kettő egyszerre szól…

Beszédészlelés


HALLÁS

BESZÉDÉSZLELÉS

BESZÉDMEGÉRTÉS

Jelátalakítás

Nyelvi egységek (fonéma, szótag, szó) elérése



HALLÁS

BESZÉDÉSZLELÉS

BESZÉDMEGÉRTÉS

Jelátalakítás

Nyelvi egységek (fonéma, szótag, szó) elérése


Hallás ≠ beszédészlelés!!!

A beszédészlelés/beszédpercepció

BEMENET: Artikulációs és akusztikai információ, azaz fonetikai információ

HALLÁSI és LÁTÁSI ÉSZLELÉS

KIMENET:A nyelvi egységek

aktiválása/ előhívása

(legnagyobb egység: fonémák/szavak)

A nyelvi tudás és a nyelvi megértés

folyamatai

Bottom-up:A bemeneti

ingerek elemzése

Top-down:A nyelvi

ismeretek hatása

A beszédészlelés/beszédpercepció nagy kérdései

Az akusztikai jel és a nyelvi észlelésösszefüggései.

Hogyan válik nyelvi információvá az akusztikai jel?

/kaːr/

Szükséges háttérismeretek

Beszédprodukció Mi és hogyan hat a beszéd megvalósulására?

• A percepció megértéséhez szükséges ismernünk az artikulációs működéseket

• A percepció megértéséhez szükséges ismernünk a beszéd akusztikai szerkezetét

Hallási észlelés:

• A percepció megértéséhez szükséges ismernünk a hallórendszert és a hallási folyamatok működését

Beszédpercepció

specifikus folyamat + alapvető kognitív folyamat (memória, figyelem, kategorizáció) egyben

A beszédpercepció nagy kérdései

• Egységek és reprezentáció

• Mik az észlelés alapegységei? Mit tárol az agy?

• Szegmentálás

• A beszéd folyamatos jel („beszédfolyam”), mégis a hallgatók diszkrét

egységekként (beszédhangok/szótagok/szavak sorozataként) észlelik.

Hogyan zajlik a tagolás?

• Variabilitás

• A beszédjel nagyon változékony! Hogyan ismerhetők fel a nyelvi

egységek (fonémák)?

• A variabilitás forrásai pl.: koartikuláció, beszélő (nem, életkor, stb.),

beszédtempó, idiolektus, „regiszterek” (kisgyermekhez beszélés,

informális beszélgetés stb.), környezeti hatások (zaj, további

beszélők)…

Szegmentálás: szóhatárok és szünetek?

idő

idő

És ebben?

minden beszédhang zöngés!

Láttam a nyaralásodról készült képeket a fészbukon.

Hol vannak a szóhatárok a mondatban?

• A folyamatos beszédben akkor vannak jelkimaradások, ha levegőt veszünk, szándékosan szünetet akarunk tartani, gondolkodunk, illetve akkor, ha zárhangokat ejtünk (zárat képzünk).

• A beszédjelben nincs szükségszerűen minden szó, sem minden mondat után szünet!!!

A beszédhangok felismerése

HAT

HÉT

/h/

/h/

Hangszínkép = spektrum

A beszédhangok felismerése

HAT

HÉT

/h/

/h/

Hangszínkép = spektrum

Beszédészlelési elméletek egy fontos alapfeltételezése:

A változatosság ellenére jelen van valami állandó,

invariáns!De valójában ez csak a korábbi

elméletekre igaz

pl. exemplar theory: nincs invariancia!

Akusztikus kulcsok

• Akusztikus kulcs: olyan akusztikus (azaz fonetikai) információ, amely a fonológiai kategóriák (fonémák) valamely megkülönböztető jegyét az észlelés számára kódolja.

• Számos (a legelterjedtebb?) beszédészlelési elmélet(ek) azt feltételezi(k), hogy az akusztikus kulcsokban van valami változatlan, invariáns, és a beszédészlelés ezeket azonosítja.

•Más elméletek ugyanezt az invarianciát az artikulációban (motoros elmélet) vagy magában a hallgatóban (pl. Lindblom H&H elmélete) keresik/feltételezik.

• Ismét más elméletek egyáltalán nem feltételeznek invarianciát (példányelmélet).

Akusztikus kulcsok

• Magánhangzók: a formánsok frekvenciaértéke kódolja a magánhangzó-minőséget.

• Példa:nyelvi kategória akusztikus kulcselöl képzett magas F2 frekvencia

• Láttuk, a formánsok frekvenciája nem állandó, de formánsok viszonya egymáshoz már sokkal inkább (pl. elöl képzettek: nagyobb F2-F1 távolság).

• Mássalhangzók: bonyolultabb helyzet, mert képzésmódonként változó artikulációs és akusztikus tulajdonságaik vannak… • Példa:

nyelvi kategória akusztikus kulcszöngésség zöngekezdési idő (VOT)

Akusztikus kulcsok

• Valójában az észlelés minden bizonnyal nem ilyen elszigetelt paraméterekre támaszkodik.

• Amit tudományosan (kísérletekkel) bizonyítani lehet az csak az, hogy ezek az információk elégségesek lehetnek bizonyos nyelvi tulajdonságok kódolásához.

• Azt, hogy feltétlenül szükségesek is, illetve, hogy az észlelés valóban ezek alapján ismerné fel az adott tulajdonságokat, nem.

Ráadásul: a környezeti hatások elfedik a beszédjelet

• Csendben, zajban, telefonon, több ember beszélgetésével a háttérben is észleljük a beszédet.

1. Hogyan különböztetjük meg a beszédet a zajtól?

Mesterségesen nem triviális! A digitális zajszűrés komoly kihívás (és általában minőségromláshoz vezet).

2. Hogyan különböztetjük meg a különböző beszédhangokat egymástól, azaz hogyan „halljuk ki” a megfelelő beszélőt? „koktélparti effektus”

A mesterséges beszédfelismerésben az egyik legnehezebb feladat (az egyszerre beszéléseket kidobják az adatbázisból, beszédtechnológiai célokra nem használható).

A koktélparti jelenség

• Egy zajos teremben képesek vagyunk kiemelni

annak a beszédét, akivel épp társalgunk.

• Miért?

• Szelektív hallás: az a perceptuális, auditív folyamat, amely alapján kiválasztjuk, mely

ingereket ismerjük fel, és melyeket nem.

• Hogyan működik?

• Hanglokalizáció: a hangforrás térbeli elhelyezésének képessége.

• Mindkét fül kell hozzá az irányok feldolgozása miatt.

• Binaurális felfedés: egy zaj csak akkor nyom el egy hangot, ha ugyanolyan

hangforrásúnak azonosítjuk (pl. mindkettő ugyanabba a fülbe érkezik).

• Miután felismertük és lokalizáltunk egy hangforrást (= beszélő) , képesek vagyunk azt

kivonni a zavaró (másik) hangból (= környezet), mert a kettő máshonnan érkezik.

• Vajon miért nem értjük a beszélgetőtársunkat a telefonban akkor, amikor elsuhan

mellette egy mentőautó (és ez miért nem ilyen zavaró élőben)?

Multimodális észlelés: a McGurk effektus

https://www.youtube.com/watch?v=PWGeUztTkRA

https://www.youtube.com/watch?v=PWGeUztTkRA

McGurk effektus Multimodális percepció

• Vizuális: /b/ + auditoros: /b/ = percepció /b/

• Vizuális: /d/?/g/? + auditoros: /b/ = percepció /d/

• Vizuális: /f/ + auditoros: /b/ = percepció /v/

• Az észlelt fonéma a vizuális és auditoros információk kombinációja! Még ép hallás esetén is olvasunk szájról!

• Még akkoris, ha az auditoros információ egyébként nem „félreérthető”

• Segít ha akcentusos beszédet észlelünk, ha zajban észlelünk, vagy szemantikailag nehezen feldolgozható tartalmat észlelünk…

Felülről ható (top-down) folyamatok az észlelésben

1. Az anyanyelv hatással van az észlelt kontrasztokra, példák:

• Japán: /l/ – /r/ csak allofón a japán anyanyelvűeknek megkülönböztetési képessége alacsonyabb

• Kínai: /b/ – /p/ csak allofón (zöngésségi kontraszt: [p] - [ph]) a kínai anyanyelvűeknek megkülönböztetési képessége alacsonyabb

• De! ezek gyakorolhatók, fejleszthetők (tanult sajátosságok!)


2. A lexikai, szemantikai és grammatikai hatások.

• Lexikai hatások• Fonémarestauráció• Kevesebb hasonló alakú szomszéddal rendelkező szó

egyszerűbb/gyorsabb felismerés (pl. sajt – rajt vs. kér – kár – kór – kör – vér – kar…)

• A gyakoribb szavakat egyszerűbb/gyorsabb felismerni (pl. mér vs. mór)


• Szintaktikai hatások

• A szintaktikailag nem passzoló szavakat nem valószínűsítjük

• Szemantikai hatások• A tematikusan nem passzoló szavakat nem valószínűsítjük

Következő órán ZH

•Fonetikus lejegyzés•Szupraszegmentális szerkezet•Hallás•Beszédpercepció

A hallási észlelés helyettesítése: a cochleáris implantáció

• A siketek nagy részénél a probléma forrása a szőrsejtek nem megfelelő működése ezt pótolja az implantáció.

• Szőrsejtek: átalakítás – mechanikus rezgésből idegi impulzus.

• Implantátum: vevő tekercs a koponyacsontba + elektróda a csigába (műtétileg).

• A külső, látható egységet elektromágnessel rögzítik a vevő tekercsre (a mágnesesség keresztülhatol a fejbőrön).

• Feladata a cochlea/csiga pótlása: a külső egység (audioprocesszor) felveszi és elektromos jellé alakítja a hangot, elektromos impulzusokat generál és ezekkel az elektróda ingerli a hallóideget.

https://www.youtube.com/watch?v=zeg4qTnYOpw

https://www.youtube.com/watch?v=zeg4qTnYOpw

A cochleáris implantáció alkalmazása

• A beültetés feltétele, hogy ép legyen a hallóideg

• Mivel egy egy kompjúter helyettesíti a csigát, az elemzés eredménye teljesen más hozzá kell szokni és meg kell tanulni hallani vele!

• Szimuláció:Normál hallás Az implantátummal hallott hang

(8-channel vocoded speech)

Beszéd

Zene

https://auditoryneuroscience.com/?q=prosthetics/music

https://auditoryneuroscience.com/prosthetics/noise_vocoded_speech

https://auditoryneuroscience.com/?q=prosthetics/music

https://auditoryneuroscience.com/prosthetics/noise_vocoded_speech

a hallás és a...

Documents