eestikeelse kõnetuvastuse andmebaas
Post on 31-Jan-2016
53 Views
Preview:
DESCRIPTION
TRANSCRIPT
Eestikeelse kõnetuvastuse andmebaas
E.Meister, J.Lasn, L.Meister
Foneetika ja kõnetehnoloogia laborTTÜ Küberneetika Instituut
Sissejuhatus
Eesti SpeechDat: projekti eesmärgid tehnilised parameetrid korpuse disain kõnelejate värbamine salvestusdialoog lõpptulemused
Laena oma häälttulevikutehnoloogia arendamiseks
Eesti SpeechDat
Eesmärk: suuremahulise - min 1000 kõnelejat - telefonisalvestuste andmebaasi loomine kõne- ja kõnelejatuvastuse uuringuteks ning süsteemide treenimiseks-testimiseks
Prototüüp: SpeechDat andmebaasid, eriti soomekeelne SpeechDat
Kestus: 24 kuud Finantseerijad: Haridusministeerium,
Kultuuriministeerium Toetajad: EMT, Tehnokratt, Vaata Maailma,
Postimees, Õpetajate leht, Radiolinja Eesti,...
Karakteristikud
Diskreetimissagedus: 8 kHz Signaali format: 8-bit A-law, mono Signaaliallikas: tava- ja mobiiltelefonid Akustiline keskkond: kodu/büroo, tänav Kõnelejad: min 1000 (500 naist, 500 meest) Tekstikorpus: isoleeritud numbrid, numbrijadad,
naturaalarvud, rahaühikud ja -summad, tähthaaval hääldatud sõnad ja nimed, kuupäevad, kellaajad, JAH/EI-küsimused, koha- ja isikunimed, IT-terminid ja laused, foneetiliselt rikkad sõnad ja laused.
Tehniline platvorm:
2 salvestuskeskust 2 ISDN liini ADA salvestusprogramm 3 märgendaja töökohta tarkvara märgendamiseks (WWW
Transcriber, Speech Filing System, Praat)
server (300 GB kettaruumi)
Tekstikorpus
Tekstiliik Näiteid Isoleeritud sõnad (IT valdkonnas sagedamini kasutatavad võtmesõnad)
Fail, Ava kaust, Kopeeri, Kustuta, Salvesta
Isoleeritud numbrid (10st numbrist koosnev juhuslik numbrijada, üksikud numbrid)
2 4 8 9 3 7 6 0 1 5
Viiekohaline arv 38475 Telefoninumber 07-457891 Pangakaardi number 6776 2345 0987 2345 6-kohaline PIN kood 987345 Kuupäev (helistaja vastus küsimusele “Millal on Teie sünnipäev?”)
3. märtsil
Kuupäev (juhuslik etteantud kuupäev) kolmapäev, 5.juuni 2002 Nädalapäevade nimetused ja suhtelised ajamäärsõnad
kolmapäev, eile, hommik, järgmisel nädalal
Laused, mis sisaldavad IT ja tele-kommunikatsiooni valdkonnas kasutatavaid võtmesõnu
Salvesta see fail minu dokumentide kausta.
Tekstikorpus
Tähthaaval hääldatud helistaja nimi M, A, D, I, S Eesti linna või valla nimi Tartu, Anija Isikunimi Andres Jõgi, Niina Kõiv Rahasumma 23456 EEK, 65784 USD Riigi või linna nimi Soome, Pariis Riigiasutuse või firma nimi Kultuuriministeerium,
Ascar AS Kellaaeg (helistaja vastus küsimusele “Mis kell on praegu?”)
14.45
JAH-küsimus (helistaja vastus küsimusele peaks olema jaatav)
Kas Tallinn on Eesti pealinn?
EI-küsimus (helistaja vastus küsimusele peaks olema eitav)
Kas veebruaris on 31 päeva?
Etteantud kellaaeg veerand kaheksa õhtul Foneetiliselt keerukad sõnad abhaas, homöopaatia Foneetiliselt rikkad laused Türi mees oli tüüri hoides
tüüri nööriga kinni sidunud.
Kõnelejate värbamine
Projekti kodulehekülg http://www.phon.ioc.ee/base Avalikud Interneti Punktid Tehnokratt, Postimees, Eesti TV, Õpetajate leht, ülikoolid,
asutused, sõbrad-tuttavad Registreerimine Interneti teel Juhised ja individuaalsed tekstid saadeti e-maili või posti
teel
Boonused (september 2003): Nokia 3510i 3 EMT fliisi 20 EMT T-särki projekti T-särk vähemalt 10 salvestust teinud
inimestele T-särk vähemalt 10 uut liitujat värvanud isikutele
Salvestusprotsess
Salvestuskeskuse tasuta numbrid:9652 - EMT klientidele08005353 - Elioni ja Radiolinja klientidele
Salvestatud juhistega dialoog:TervitusKüsimus <piip> spontaanne vastusJuhis <piip> loetud tekstTänuavaldus
Tulemused
Registreerus üle 2500 isiku Helistatud on üle 4500 korra Kvaliteetse salvestuse tegid 1335
isikut, neist ca 300 osales korduvsalvestustel
Elioni kliente ~ 45%, EMT kliente ~ 45%, Radiolinja kliente ~ 10%
Registreerimiste ja salvestuste arv
Liitumiste ja salvestuste dünaamika
0
500
1000
1500
2000
2500
3000
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64
Nädalad
Inim
es
te a
rv
Liitumised
Salvestused
Sooline ja vanuseline jaotus
Salvestuses osalenute sooline ja vanuseline struktuur
0
50
100
150
200
250
300
13-22 23-32 33-42 43-52 53-62 63-72
Vanuserühm
Inim
es
te a
rv
Mehed
Naised
Piirkondlik jaotus
Hääledoonorite piirkondlik jaotus
1
10
100
1000
Harjum
aa
Hiium
aa
Ida-
Virum
aa
Jõge
vam
aa
Järv
amaa
Lään
e-Viru
maa
Lään
emaa
Põlvam
aa
Pärnu
maa
Raplam
aa
Saare
maa
Tartu
maa
Valgam
aa
Viljand
imaa
Võrum
aa
Hä
äle
do
on
ori
te a
rv
naised
mehed
KorduvsalvestusedKorduvsalvestuste statistika
17151413121110
9876543
2
0 20 40 60 80 100 120
Ko
rdu
vs
alv
es
tus
te a
rv
Hääledoonorite arv
Märgendamine
Märgendfailid
LHD: <andmebaasi formaat>, <versioon>
DBN: <andmebaasi nimi>VOL: <keele kood>_<nr>SES: <salvestuse number>DIR: <täielik tee salvestuse
signaalideni, ilma lõpu kaldkriipsuta>
SRC: <kõnesignaali faili nimi>CCD: <signaali korpuse
identifikaator>CRP: <korpuse info marker>REP: <salvestuskeskuse asukoht>RED: <salvestuse kuupäev
PP/KK/AAAA>RET: <salvestuse aeg TT:MM:SS>SAM: <diskreetimissagedus>BEG: <signaali algusdiskreet,
tavaliselt 0>
END: <signaali lõpudiskreet>SNB: <baite diskreedi kohta>SBF: <diskreedi sisene baitide
järjestus, tähtsusetu kui baite on 1>
SSB: <informatiivseid bitte baidis>QNT: <signaali kodeerimise standard>SCD: <diktori kood>SEX: <diktori sugu>AGE: <diktori vanus>ACC: <diktori aktsent, murdepiirkond>REG: <diktori asukoht/piirkond
salvestuste teostamise ajal>ENV: <kõne keskkond>NET: <telefonivõrgu tüüp>LBD: <märgenduse info alguse
marker>LBR: <ortograafiline tekst>LBO: <transkriptsioon>ELF: <märgendfaili lõpu marker>
Märgendfailid
LHD: SAM, 5.10 DBN:Estonian_SpeechDat_recordi
ngs_from_Fixed_and_Mobile_Networks
VOL: Fixed1EE_01SES: 00002DIR: \Fixed1EE\Block00\SES00002SRC: A100002A1.EEACCD: a1CRP:REP: Institute of Cybernetics at
TTU, Tallinn, EstoniaRED: 27/Nov/2002RET: 13:48:38SAM: 8000BEG: 0
END: 24003SNB: 1SBF:SSB: 8QNT: A-LawSCD: 50002SEX: mAGE: 46ACC: Võru murreREG: Harjumaa, KehraENV: silenceNET: gsmLBD:LBR: 0, 24003,,,, lisaLBO: 0,, 24003, lisaELF:
Grafeemide statistika
0%
2%
4%
6%
8%
10%
12%
14%
a b c d e f g h i j k l m n o p q r s š z ž t u v w õ ä ö ü x y
Eesti SpeechDat
EE+ilukirj.
Postimees
Trifoonide statistika
ist 11441sta 11349est 10339ise 8983mis 8863ast 8145oon 7906min 7853ine 7840eri 7670val 7659sel 7605ust 7563eks 6790tsi 5797
paä 1agl 1onm 1nmu 1õro 1anf 1ijä 1mip 1usü 1upm 1amõ 1õdu 1ubü 1lbi 1euj 1big 1esr 1
5362 erinevat trifooni
Kõnetuvastuse demo (1)
Kõnetuvastuse demo (2)
Häälega juhitav kalkulaator
top related