eestikeelse kõnetuvastuse andmebaas

21
Eestikeelse kõnetuvastuse andmebaas E.Meister, J.Lasn, L.Meister Foneetika ja kõnetehnoloogia labor TTÜ Küberneetika Instituut

Upload: eytan

Post on 31-Jan-2016

53 views

Category:

Documents


0 download

DESCRIPTION

Eestikeelse kõnetuvastuse andmebaas. E.Meister, J.Lasn, L.Meister Foneetika ja kõnetehnoloogia labor TTÜ Küberneetika Instituut. Sissejuhatus. Eesti SpeechDat: projekti eesmärgid tehnilised parameetrid korpuse disain kõnelejate värbamine salvestusdialoog lõpptulemused. Laena oma häält - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Eestikeelse kõnetuvastuse andmebaas

Eestikeelse kõnetuvastuse andmebaas

E.Meister, J.Lasn, L.Meister

Foneetika ja kõnetehnoloogia laborTTÜ Küberneetika Instituut

Page 2: Eestikeelse kõnetuvastuse andmebaas

Sissejuhatus

Eesti SpeechDat: projekti eesmärgid tehnilised parameetrid korpuse disain kõnelejate värbamine salvestusdialoog lõpptulemused

Laena oma häälttulevikutehnoloogia arendamiseks

Page 3: Eestikeelse kõnetuvastuse andmebaas

Eesti SpeechDat

Eesmärk: suuremahulise - min 1000 kõnelejat - telefonisalvestuste andmebaasi loomine kõne- ja kõnelejatuvastuse uuringuteks ning süsteemide treenimiseks-testimiseks

Prototüüp: SpeechDat andmebaasid, eriti soomekeelne SpeechDat

Kestus: 24 kuud Finantseerijad: Haridusministeerium,

Kultuuriministeerium Toetajad: EMT, Tehnokratt, Vaata Maailma,

Postimees, Õpetajate leht, Radiolinja Eesti,...

Page 4: Eestikeelse kõnetuvastuse andmebaas

Karakteristikud

Diskreetimissagedus: 8 kHz Signaali format: 8-bit A-law, mono Signaaliallikas: tava- ja mobiiltelefonid Akustiline keskkond: kodu/büroo, tänav Kõnelejad: min 1000 (500 naist, 500 meest) Tekstikorpus: isoleeritud numbrid, numbrijadad,

naturaalarvud, rahaühikud ja -summad, tähthaaval hääldatud sõnad ja nimed, kuupäevad, kellaajad, JAH/EI-küsimused, koha- ja isikunimed, IT-terminid ja laused, foneetiliselt rikkad sõnad ja laused.

Page 5: Eestikeelse kõnetuvastuse andmebaas

Tehniline platvorm:

2 salvestuskeskust 2 ISDN liini ADA salvestusprogramm 3 märgendaja töökohta tarkvara märgendamiseks (WWW

Transcriber, Speech Filing System, Praat)

server (300 GB kettaruumi)

Page 6: Eestikeelse kõnetuvastuse andmebaas

Tekstikorpus

Tekstiliik Näiteid Isoleeritud sõnad (IT valdkonnas sagedamini kasutatavad võtmesõnad)

Fail, Ava kaust, Kopeeri, Kustuta, Salvesta

Isoleeritud numbrid (10st numbrist koosnev juhuslik numbrijada, üksikud numbrid)

2 4 8 9 3 7 6 0 1 5

Viiekohaline arv 38475 Telefoninumber 07-457891 Pangakaardi number 6776 2345 0987 2345 6-kohaline PIN kood 987345 Kuupäev (helistaja vastus küsimusele “Millal on Teie sünnipäev?”)

3. märtsil

Kuupäev (juhuslik etteantud kuupäev) kolmapäev, 5.juuni 2002 Nädalapäevade nimetused ja suhtelised ajamäärsõnad

kolmapäev, eile, hommik, järgmisel nädalal

Laused, mis sisaldavad IT ja tele-kommunikatsiooni valdkonnas kasutatavaid võtmesõnu

Salvesta see fail minu dokumentide kausta.

Page 7: Eestikeelse kõnetuvastuse andmebaas

Tekstikorpus

Tähthaaval hääldatud helistaja nimi M, A, D, I, S Eesti linna või valla nimi Tartu, Anija Isikunimi Andres Jõgi, Niina Kõiv Rahasumma 23456 EEK, 65784 USD Riigi või linna nimi Soome, Pariis Riigiasutuse või firma nimi Kultuuriministeerium,

Ascar AS Kellaaeg (helistaja vastus küsimusele “Mis kell on praegu?”)

14.45

JAH-küsimus (helistaja vastus küsimusele peaks olema jaatav)

Kas Tallinn on Eesti pealinn?

EI-küsimus (helistaja vastus küsimusele peaks olema eitav)

Kas veebruaris on 31 päeva?

Etteantud kellaaeg veerand kaheksa õhtul Foneetiliselt keerukad sõnad abhaas, homöopaatia Foneetiliselt rikkad laused Türi mees oli tüüri hoides

tüüri nööriga kinni sidunud.

Page 8: Eestikeelse kõnetuvastuse andmebaas

Kõnelejate värbamine

Projekti kodulehekülg http://www.phon.ioc.ee/base Avalikud Interneti Punktid Tehnokratt, Postimees, Eesti TV, Õpetajate leht, ülikoolid,

asutused, sõbrad-tuttavad Registreerimine Interneti teel Juhised ja individuaalsed tekstid saadeti e-maili või posti

teel

Boonused (september 2003): Nokia 3510i 3 EMT fliisi 20 EMT T-särki projekti T-särk vähemalt 10 salvestust teinud

inimestele T-särk vähemalt 10 uut liitujat värvanud isikutele

Page 9: Eestikeelse kõnetuvastuse andmebaas

Salvestusprotsess

Salvestuskeskuse tasuta numbrid:9652 - EMT klientidele08005353 - Elioni ja Radiolinja klientidele

Salvestatud juhistega dialoog:TervitusKüsimus <piip> spontaanne vastusJuhis <piip> loetud tekstTänuavaldus

Page 10: Eestikeelse kõnetuvastuse andmebaas

Tulemused

Registreerus üle 2500 isiku Helistatud on üle 4500 korra Kvaliteetse salvestuse tegid 1335

isikut, neist ca 300 osales korduvsalvestustel

Elioni kliente ~ 45%, EMT kliente ~ 45%, Radiolinja kliente ~ 10%

Page 11: Eestikeelse kõnetuvastuse andmebaas

Registreerimiste ja salvestuste arv

Liitumiste ja salvestuste dünaamika

0

500

1000

1500

2000

2500

3000

1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64

Nädalad

Inim

es

te a

rv

Liitumised

Salvestused

Page 12: Eestikeelse kõnetuvastuse andmebaas

Sooline ja vanuseline jaotus

Salvestuses osalenute sooline ja vanuseline struktuur

0

50

100

150

200

250

300

13-22 23-32 33-42 43-52 53-62 63-72

Vanuserühm

Inim

es

te a

rv

Mehed

Naised

Page 13: Eestikeelse kõnetuvastuse andmebaas

Piirkondlik jaotus

Hääledoonorite piirkondlik jaotus

1

10

100

1000

Harjum

aa

Hiium

aa

Ida-

Virum

aa

Jõge

vam

aa

Järv

amaa

Lään

e-Viru

maa

Lään

emaa

Põlvam

aa

Pärnu

maa

Raplam

aa

Saare

maa

Tartu

maa

Valgam

aa

Viljand

imaa

Võrum

aa

äle

do

on

ori

te a

rv

naised

mehed

Page 14: Eestikeelse kõnetuvastuse andmebaas

KorduvsalvestusedKorduvsalvestuste statistika

17151413121110

9876543

2

0 20 40 60 80 100 120

Ko

rdu

vs

alv

es

tus

te a

rv

Hääledoonorite arv

Page 15: Eestikeelse kõnetuvastuse andmebaas

Märgendamine

Page 16: Eestikeelse kõnetuvastuse andmebaas

Märgendfailid

LHD: <andmebaasi formaat>, <versioon>

DBN: <andmebaasi nimi>VOL: <keele kood>_<nr>SES: <salvestuse number>DIR: <täielik tee salvestuse

signaalideni, ilma lõpu kaldkriipsuta>

SRC: <kõnesignaali faili nimi>CCD: <signaali korpuse

identifikaator>CRP: <korpuse info marker>REP: <salvestuskeskuse asukoht>RED: <salvestuse kuupäev

PP/KK/AAAA>RET: <salvestuse aeg TT:MM:SS>SAM: <diskreetimissagedus>BEG: <signaali algusdiskreet,

tavaliselt 0>

END: <signaali lõpudiskreet>SNB: <baite diskreedi kohta>SBF: <diskreedi sisene baitide

järjestus, tähtsusetu kui baite on 1>

SSB: <informatiivseid bitte baidis>QNT: <signaali kodeerimise standard>SCD: <diktori kood>SEX: <diktori sugu>AGE: <diktori vanus>ACC: <diktori aktsent, murdepiirkond>REG: <diktori asukoht/piirkond

salvestuste teostamise ajal>ENV: <kõne keskkond>NET: <telefonivõrgu tüüp>LBD: <märgenduse info alguse

marker>LBR: <ortograafiline tekst>LBO: <transkriptsioon>ELF: <märgendfaili lõpu marker>

Page 17: Eestikeelse kõnetuvastuse andmebaas

Märgendfailid

LHD: SAM, 5.10 DBN:Estonian_SpeechDat_recordi

ngs_from_Fixed_and_Mobile_Networks

VOL: Fixed1EE_01SES: 00002DIR: \Fixed1EE\Block00\SES00002SRC: A100002A1.EEACCD: a1CRP:REP: Institute of Cybernetics at

TTU, Tallinn, EstoniaRED: 27/Nov/2002RET: 13:48:38SAM: 8000BEG: 0

END: 24003SNB: 1SBF:SSB: 8QNT: A-LawSCD: 50002SEX: mAGE: 46ACC: Võru murreREG: Harjumaa, KehraENV: silenceNET: gsmLBD:LBR: 0, 24003,,,, lisaLBO: 0,, 24003, lisaELF:

Page 18: Eestikeelse kõnetuvastuse andmebaas

Grafeemide statistika

0%

2%

4%

6%

8%

10%

12%

14%

a b c d e f g h i j k l m n o p q r s š z ž t u v w õ ä ö ü x y

Eesti SpeechDat

EE+ilukirj.

Postimees

Page 19: Eestikeelse kõnetuvastuse andmebaas

Trifoonide statistika

ist 11441sta 11349est 10339ise 8983mis 8863ast 8145oon 7906min 7853ine 7840eri 7670val 7659sel 7605ust 7563eks 6790tsi 5797

paä 1agl 1onm 1nmu 1õro 1anf 1ijä 1mip 1usü 1upm 1amõ 1õdu 1ubü 1lbi 1euj 1big 1esr 1

5362 erinevat trifooni

Page 20: Eestikeelse kõnetuvastuse andmebaas

Kõnetuvastuse demo (1)

Page 21: Eestikeelse kõnetuvastuse andmebaas

Kõnetuvastuse demo (2)

Häälega juhitav kalkulaator