a hallás és a...
TRANSCRIPT
A hallás és a beszédpercepció
PszicholingvisztikaPszicholingvisztika
A beszédészlelés/beszédpercepció
Artikulációs fonetika
Akusztikus fonetika
Percepciós fonetika
A hangingerek átalakítása -- nyelvi jelek
elérése, azaz nyelvi észlelés.
A beszédfeldolgozás leegyszerűsített sémája
HALLÁS
BESZÉDÉSZLELÉS
BESZÉDMEGÉRTÉS
Jelátalakítás
Nyelvi egységek (fonéma, szótag, szó) aktivációja
Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás
Hallás
A fül anatómiája
Fülkagyló
(Cochlea)
A fülkürt (Eustach-féle kürt)
• A belsőfület a dobhártya légmentesen zárja
• Az egyetlen kimenet a külvilágba a fülkürt (az orrgarat felé)
• Ezáltal tud kiegyenlítődni a légnyomás a dobhártya két oldalán (és képes ellátni a funkcióját).
• Nátha átmeneti fülkürt eldugulás halláscsökkenés
• Hurut nincs légmozgás savós váladéktermelődés középfülgyulladás.https://www.youtube.com/watch?v=i7xf8ORyaPo
A fül mint jelátalakító
Idegi ingerület
Hangnyomás-ingadozás
Mechanikus rezgés Idegsejtek ingerlése
1. Hanghullámok mechanikus rezgések: a hallócsontocskák
https://www.youtube.com/watch?v=qgdqp-oPb1Q
1. Hanghullámok mechanikus rezgések: a hallócsontocskák
kalapácsüllő kengyel
Huszonkétszeres erősítés
ovális ablak
kerek ablak
dobhártya
2. Mechanikus rezgés idegi ingerület: a cochlea (csiga)
https://www.youtube.com/watch?v=dyenMluFaUw
A cochlea (csiga) és a Corti szerv
Külső szőrsejtek:A hullám kitéríti a tektoriális membránt nagyobb mértékű érintkezés ingerlés ingerlésre meghosszabbodik a terjedő hullám erősítése „hangosítás”
Scala vestibuli(folyadék: perilymph)
Scala tympani(folyadék: perilymph)
Scala media(folyadék: endolymph)
Corti szerv (megfordítva!)
Hallóideg
Belső szőrsejtek: A hullám az alaphártyán turbulenciát okoz a folyadékban (Bernoulli) ingerlés idegi impulzus
Az alaphártya frekvenciaérzékenysége
• Az alaphártya tonotópiás felépítésű: a szomszédos területek szomszédos frekvenciasávokra érzékenyek.
• A különböző frekvenciákhoz eltérő méretű területek tartoznak.
• Nagyobb hangerő több szőrsejt jön mozgásba.
• A bázisnál vastagabb és keskenyebb magasabb a sajátfrekvenciája magasabb frekvenciákra érzékeny.
• Felfelé vékonyodik, szélesedik csökken a sajátfrekvenciája.
Utazóhullámok
Tiszta hang Komplex hang (1000 és 2500 Hz)
A periferiális hallórendszer frekvenciafelbontást végez! auditoros „spektrogramok”!
https://auditoryneuroscience.com/book/export/html/13
A hangingerek útja
• A szőrsejtekre receptorok kapcsolódnak
• A receptorok (neuronok) axonjai „összeállnak” és kilépnek a cochleából: hallóideg (a nyolcadik agyideg)
• A hallóideg először az agytörzsbe jut
• Innen pedig az elsődleges és másodlagos auditoros kortexbe
• Az inger az auditoros kortex előtt az adott füllel ellenkező féltekébe érkezik
A saját hang észlelése
• Saját hangunkat mindig másmilyennek halljuk, mint a környezetünk. Miért?
• A saját hangunk nem csak a levegőben terjedve jut el a fülünkbe, mert a koponyacsontok rezgése is továbbítja azt.
• légvezetéses hallás: a hanghullámokat a levegőben terjedve a külső fülbe (fülkagylóba) jutnak.
• csontvezetéses hallás: a hanghullámokat a koponyacsontok rezgése a belsőfülbe vezeti.
Fizikai jellemző
• Hangnyomás [Pa] vagy intenzitás [W/m2]
• (Alap)frekvencia [Hz]
• Spektrum
• Időtartam [ms]
• Hangosság: hangnyomásszint [dB]
• Hangmagasság [Bark]
• Hangszín és hangszínezet
• Hosszúság ( részben ennek az „eredménye” nyelvi hosszúság!)
Érzeti vetület
1. Hangosságérzet: hangnyomásszint (dB-skála)
• A hangnyomás (Pa) hallási megfelelője a hangnyomásszint (SPL)
•Mértékegysége: dB
• A hangnyomás és a hangosságérzet között logaritmikus a kapcsolat
• kétszer akkora nyomás ≠ kétszeres hangosság!
Threshold: 1000 Hz-en 20 µPa = 0 dB
Társalgás (60 dB)
Sugárhajtómű(140 dB)
10.000-szeres hangnyomás-növekedés kétszeres hangosságnövekmény
Ráadásul a valódi hangosságérzet frekvenciafüggő (phon)
Hangosságérzet és frekvencia
Phon: azonos hangosságúnak érzékelt hangok változó arányok! (pl. a 40 phon nem kétszer olyan hangos mint 20 phon)
Hallásküszöb: egy 1000 Hz frekvenciájú tiszta hang 0 dB-en
2. Hangmagasság-élmény
Hangmagasságérzet és frekvencia összefüggése
• 20–1000 Hz-ig nagyjából lineáris
• Felette nagyjából logaritmikus
• MIÉRT?
Fizikai hangmagasság (Hz)
Nem lineáris kapcsolat!
Az alaphártya frekvenciaérzékenysége
• Különböző frekvenciákra különböző helyeken reagál.
• A különböző frekvenciasávokra különböző méretű részek érzékenyek az alaphártyán magasabb frekvenciákon nem olyan jó a hallás felbontása.
Frekvenciaérzékenység és beszéd
• Emberi hallásküszöb:• 20 - 20,000 Hz• A fül 500 és 5,000 Hz között a legérzékenyebb
• Az emberi hang alapfrekvenciája• Átlagos férfi: 80 – 200 Hz• Átlagos női: 400 Hz-ig
• A telefon problémája:• Levág 300 Hz alatt és ~3000 Hz fölött• Az információ egy része elvész (frikatívák, f0 beszélő személy,
dallam, pl. kérdés v. kijelentés?)• Hogyhogy felismerjük a beszélőt és értjük a beszédet?
Komplex hangok alaphangmagassága
Még akkor is halljuk az alaphangot, ha az valójában nem szólal meg (azaz a frekvenciáján nincs energia a spektrumban), mert az elménk képes kikövetkeztetni a felharmonikusokból a „hiányzó alaphang” problémája.
Tiszta hangok: 1-10 felharmonikus:
4-10 felharmonikus:
https://auditoryneuroscience.com/topics/missing-fundamental
A hiányzó alaphang
Mindennapi kihasználása:
• Telefon (férfi f0: 100–160 Hz, nő: 160–280 Hz, telefon átvitele: 300-30000 Hz)
• 55 Hz-es orgonasíp nincs, csak egy 110 Hz-es és egy 165 Hz-es
• és ha a kettő egyszerre szól…
Beszédészlelés
A beszédfeldolgozás leegyszerűsített sémája
HALLÁS
BESZÉDÉSZLELÉS
BESZÉDMEGÉRTÉS
Jelátalakítás
Nyelvi egységek (fonéma, szótag, szó) elérése
Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás
A beszédfeldolgozás leegyszerűsített sémája
HALLÁS
BESZÉDÉSZLELÉS
BESZÉDMEGÉRTÉS
Jelátalakítás
Nyelvi egységek (fonéma, szótag, szó) elérése
Nyelvi (szintaktikai, lexikai, pragmatikai) feldolgozás
Hallás ≠ beszédészlelés!!!
A beszédészlelés/beszédpercepció
BEMENET: Artikulációs és akusztikai információ, azaz fonetikai információ
HALLÁSI és LÁTÁSI ÉSZLELÉS
KIMENET:A nyelvi egységek
aktiválása/ előhívása
(legnagyobb egység: fonémák/szavak)
A nyelvi tudás és a nyelvi megértés
folyamatai
Bottom-up:A bemeneti
ingerek elemzése
Top-down:A nyelvi
ismeretek hatása
A beszédészlelés/beszédpercepció nagy kérdései
Az akusztikai jel és a nyelvi észlelésösszefüggései.
Hogyan válik nyelvi információvá az akusztikai jel?
/kaːr/
Szükséges háttérismeretek
Beszédprodukció Mi és hogyan hat a beszéd megvalósulására?
• A percepció megértéséhez szükséges ismernünk az artikulációs működéseket
• A percepció megértéséhez szükséges ismernünk a beszéd akusztikai szerkezetét
Hallási észlelés:
• A percepció megértéséhez szükséges ismernünk a hallórendszert és a hallási folyamatok működését
Beszédpercepció
specifikus folyamat + alapvető kognitív folyamat (memória, figyelem, kategorizáció) egyben
A beszédpercepció nagy kérdései
• Egységek és reprezentáció
• Mik az észlelés alapegységei? Mit tárol az agy?
• Szegmentálás
• A beszéd folyamatos jel („beszédfolyam”), mégis a hallgatók diszkrét
egységekként (beszédhangok/szótagok/szavak sorozataként) észlelik.
Hogyan zajlik a tagolás?
• Variabilitás
• A beszédjel nagyon változékony! Hogyan ismerhetők fel a nyelvi
egységek (fonémák)?
• A variabilitás forrásai pl.: koartikuláció, beszélő (nem, életkor, stb.),
beszédtempó, idiolektus, „regiszterek” (kisgyermekhez beszélés,
informális beszélgetés stb.), környezeti hatások (zaj, további
beszélők)…
Szegmentálás: szóhatárok és szünetek?
idő
idő
És ebben?
minden beszédhang zöngés!
Láttam a nyaralásodról készült képeket a fészbukon.
Hol vannak a szóhatárok a mondatban?
• A folyamatos beszédben akkor vannak jelkimaradások, ha levegőt veszünk, szándékosan szünetet akarunk tartani, gondolkodunk, illetve akkor, ha zárhangokat ejtünk (zárat képzünk).
• A beszédjelben nincs szükségszerűen minden szó, sem minden mondat után szünet!!!
A beszédhangok felismerése
HAT
HÉT
/h/
/h/
Hangszínkép = spektrum
A beszédhangok felismerése
HAT
HÉT
/h/
/h/
Hangszínkép = spektrum
Beszédészlelési elméletek egy fontos alapfeltételezése:
A változatosság ellenére jelen van valami állandó,
invariáns!De valójában ez csak a korábbi
elméletekre igaz
pl. exemplar theory: nincs invariancia!
Akusztikus kulcsok
• Akusztikus kulcs: olyan akusztikus (azaz fonetikai) információ, amely a fonológiai kategóriák (fonémák) valamely megkülönböztető jegyét az észlelés számára kódolja.
• Számos (a legelterjedtebb?) beszédészlelési elmélet(ek) azt feltételezi(k), hogy az akusztikus kulcsokban van valami változatlan, invariáns, és a beszédészlelés ezeket azonosítja.
•Más elméletek ugyanezt az invarianciát az artikulációban (motoros elmélet) vagy magában a hallgatóban (pl. Lindblom H&H elmélete) keresik/feltételezik.
• Ismét más elméletek egyáltalán nem feltételeznek invarianciát (példányelmélet).
Akusztikus kulcsok
• Magánhangzók: a formánsok frekvenciaértéke kódolja a magánhangzó-minőséget.
• Példa:nyelvi kategória akusztikus kulcselöl képzett magas F2 frekvencia
• Láttuk, a formánsok frekvenciája nem állandó, de formánsok viszonya egymáshoz már sokkal inkább (pl. elöl képzettek: nagyobb F2-F1 távolság).
• Mássalhangzók: bonyolultabb helyzet, mert képzésmódonként változó artikulációs és akusztikus tulajdonságaik vannak… • Példa:
nyelvi kategória akusztikus kulcszöngésség zöngekezdési idő (VOT)
Akusztikus kulcsok
• Valójában az észlelés minden bizonnyal nem ilyen elszigetelt paraméterekre támaszkodik.
• Amit tudományosan (kísérletekkel) bizonyítani lehet az csak az, hogy ezek az információk elégségesek lehetnek bizonyos nyelvi tulajdonságok kódolásához.
• Azt, hogy feltétlenül szükségesek is, illetve, hogy az észlelés valóban ezek alapján ismerné fel az adott tulajdonságokat, nem.
Ráadásul: a környezeti hatások elfedik a beszédjelet
• Csendben, zajban, telefonon, több ember beszélgetésével a háttérben is észleljük a beszédet.
1. Hogyan különböztetjük meg a beszédet a zajtól?
Mesterségesen nem triviális! A digitális zajszűrés komoly kihívás (és általában minőségromláshoz vezet).
2. Hogyan különböztetjük meg a különböző beszédhangokat egymástól, azaz hogyan „halljuk ki” a megfelelő beszélőt? „koktélparti effektus”
A mesterséges beszédfelismerésben az egyik legnehezebb feladat (az egyszerre beszéléseket kidobják az adatbázisból, beszédtechnológiai célokra nem használható).
A koktélparti jelenség
• Egy zajos teremben képesek vagyunk kiemelni
annak a beszédét, akivel épp társalgunk.
• Miért?
• Szelektív hallás: az a perceptuális, auditív folyamat, amely alapján kiválasztjuk, mely
ingereket ismerjük fel, és melyeket nem.
• Hogyan működik?
• Hanglokalizáció: a hangforrás térbeli elhelyezésének képessége.
• Mindkét fül kell hozzá az irányok feldolgozása miatt.
• Binaurális felfedés: egy zaj csak akkor nyom el egy hangot, ha ugyanolyan
hangforrásúnak azonosítjuk (pl. mindkettő ugyanabba a fülbe érkezik).
• Miután felismertük és lokalizáltunk egy hangforrást (= beszélő) , képesek vagyunk azt
kivonni a zavaró (másik) hangból (= környezet), mert a kettő máshonnan érkezik.
• Vajon miért nem értjük a beszélgetőtársunkat a telefonban akkor, amikor elsuhan
mellette egy mentőautó (és ez miért nem ilyen zavaró élőben)?
Multimodális észlelés: a McGurk effektus
https://www.youtube.com/watch?v=PWGeUztTkRA
McGurk effektus Multimodális percepció
• Vizuális: /b/ + auditoros: /b/ = percepció /b/
• Vizuális: /d/?/g/? + auditoros: /b/ = percepció /d/
• Vizuális: /f/ + auditoros: /b/ = percepció /v/
• Az észlelt fonéma a vizuális és auditoros információk kombinációja! Még ép hallás esetén is olvasunk szájról!
• Még akkoris, ha az auditoros információ egyébként nem „félreérthető”
• Segít ha akcentusos beszédet észlelünk, ha zajban észlelünk, vagy szemantikailag nehezen feldolgozható tartalmat észlelünk…
Felülről ható (top-down) folyamatok az észlelésben
1. Az anyanyelv hatással van az észlelt kontrasztokra, példák:
• Japán: /l/ – /r/ csak allofón a japán anyanyelvűeknek megkülönböztetési képessége alacsonyabb
• Kínai: /b/ – /p/ csak allofón (zöngésségi kontraszt: [p] - [ph]) a kínai anyanyelvűeknek megkülönböztetési képessége alacsonyabb
• De! ezek gyakorolhatók, fejleszthetők (tanult sajátosságok!)
Felülről ható (top-down) folyamatok az észlelésben
2. A lexikai, szemantikai és grammatikai hatások.
• Lexikai hatások• Fonémarestauráció• Kevesebb hasonló alakú szomszéddal rendelkező szó
egyszerűbb/gyorsabb felismerés (pl. sajt – rajt vs. kér – kár – kór – kör – vér – kar…)
• A gyakoribb szavakat egyszerűbb/gyorsabb felismerni (pl. mér vs. mór)
Felülről ható (top-down) folyamatok az észlelésben
• Szintaktikai hatások
• A szintaktikailag nem passzoló szavakat nem valószínűsítjük
• Szemantikai hatások• A tematikusan nem passzoló szavakat nem valószínűsítjük
Következő órán ZH
•Fonetikus lejegyzés•Szupraszegmentális szerkezet•Hallás•Beszédpercepció
A hallási észlelés helyettesítése: a cochleáris implantáció
• A siketek nagy részénél a probléma forrása a szőrsejtek nem megfelelő működése ezt pótolja az implantáció.
• Szőrsejtek: átalakítás – mechanikus rezgésből idegi impulzus.
• Implantátum: vevő tekercs a koponyacsontba + elektróda a csigába (műtétileg).
• A külső, látható egységet elektromágnessel rögzítik a vevő tekercsre (a mágnesesség keresztülhatol a fejbőrön).
• Feladata a cochlea/csiga pótlása: a külső egység (audioprocesszor) felveszi és elektromos jellé alakítja a hangot, elektromos impulzusokat generál és ezekkel az elektróda ingerli a hallóideget.
https://www.youtube.com/watch?v=zeg4qTnYOpw
A cochleáris implantáció alkalmazása
• A beültetés feltétele, hogy ép legyen a hallóideg
• Mivel egy egy kompjúter helyettesíti a csigát, az elemzés eredménye teljesen más hozzá kell szokni és meg kell tanulni hallani vele!
• Szimuláció:Normál hallás Az implantátummal hallott hang
(8-channel vocoded speech)
Beszéd
Zene
https://auditoryneuroscience.com/?q=prosthetics/music
https://auditoryneuroscience.com/prosthetics/noise_vocoded_speech