informantutval og opptakssituasjon: utfordringar i samband med oppbygginga av eit talespråkskorpus
DESCRIPTION
Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus. Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no. Oversyn. - PowerPoint PPT PresentationTRANSCRIPT
MONS11 24.- 26. nov. 2005
Informantutval og opptakssituasjon:
Utfordringar i samband med oppbygginga av eit talespråkskorpus
Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen,
ILN, Tekstlaboratoriet, Universitetet i Oslo
{jannebj, annembo, kristiha, hannegs}@iln.uio.no
MONS11 24.- 26. nov. 2005
Oversyn
• NoTa-prosjektet • Kva er eit talespråkskorpus for norsk?• Innhaldet i Nota-Oslo• Problem og utfordringar i oppbygginga av
korpuset– Informantutval– Opptakssituasjon
• Demonstrasjon
MONS11 24.- 26. nov. 2005
Nota-prosjektet
• Finansiering: Noregs forskingsråd gjennom programmet "Infrastruktur for humanistisk forskning”
• Periode: Hausten 2004 og 2005• Folk:
Prosjektleiar: Janne Bondi JohannessenHanne Gram SimonsenDagleg leiar: Kristin HagenProgrammerar: Joel Priestley Vitskapleg assistent: Anne Marit BødalTranskribørar: Hilde Cathrine Haug, Ingunn Indrebø Ims, Signe Laake, Inger Margrethe Hvenekilde Seim og Åshild Søfteland
MONS11 24.- 26. nov. 2005
Kva er eit talespråkskorpus for norsk?
• Norsk talespråk– språk snakka av personar som er fødde og oppvaksne i Noreg
• Korpus– ei samling av tekstar som er tilverka for språkforsking: utval av
tekstar, annotering, tilpassa søkegrensesnitt
• For kven? – Språkforskarar av alle slag
• sosiolingvistar, dialektforskarar, syntaktikarar, fonologar, morfologar, semantikarar, leksikografar o.a.
– Datalingvistar, språkteknologar
• Kanskje det beste verktøyet for ein språkforskar
MONS11 24.- 26. nov. 2005
Nota-Oslo
• Er første del av eit planlagt nasjonalt talespråkskorpus
• Inneheld intervju og samtalar med 144 informantar som er fødde og oppvaksne i Oslo-området
• Informantane er representative m.o.t. alder, kjønn, utdanning og kvar dei bur i Oslo-området
• Korpuset er ortografisk transkribert• Det ferdige korpuset vil bestå av ca 1 million ord • Ein kan søkje i korpuset vha eit eige grensesnitt• Korpuset blir tilgjengeleg for forskarar i byrjinga av
2006
MONS11 24.- 26. nov. 2005
Informantutval
• Informantvariablar– Kjønn: M – F– Alder: 16 – 25, 26 – 50, 51 +– Utdanning: vidaregåande skole eller mindre – høgare
utdanning– Geografi: Oslo vest, Asker og Bærum – Oslo aust og
distriktet omkring Oslo
• Resulterande informantmatrise– Tal på celler: 18 med 8 informantar i kvar– 144 informantar
MONS11 24.- 26. nov. 2005
Korpusforbilde
TAUS (Talemålsundersøkinga i Oslo, 1970-talet)• Informantutval, tagging, intervjuteknikk• Manglar eit søkegrensesnitt på Internett...
CGN (Nederlandsk talespråk)• Informantutval, transkripsjon, fleire talesituasjonar
Gothenburg Spoken Language Corpus• Mange talesituasjonar, transkripsjon, ikkje lyd eller bilde
Tekstlaboratoriets skriftspråklege korpus (Oslo-korpuset, Oslo Multilingual Corpus)
• Grensesnitt, enkelt å søke Talesøk
• Transkripsjon, lyd
MONS11 24.- 26. nov. 2005
Utfordringar – utdanningsvariabelen
• Tredeling? grunnskole – vidaregåande - høgare utdanning– Nesten umogeleg å finne yngre informantar med berre grunnskole,
spesielt i Oslo vest. – => slå saman dei to lågaste klassene
• Klassifikasjon av ungdom under utdanning– => snittet av den utdanninga ungdommane sjølv har planlagd saman med
utdanninga til mor og far• Eksempel: Eige mål for utdanninga = H
Mors utdanning = LFars utdanning = L
• Lite samsvar mellom utdanning og prestisjefylt arbeid – Gjeld særleg eldre menneske
• Eksempel: tidlegare direktør i ein bokklubb, 72 år. Utdanning: gymnas– => informantar over 70 blir klassifiserte i høgutdanningsgruppa dersom
dei har gymnas.
MONS11 24.- 26. nov. 2005
Utfordringar – geografivariabelen• Kor går skiljet mellom aust og vest i Oslo?
=> bruke inndelinga til Statistisk sentralbyrå (t.d. både Grefsen og Nordstrand blir Oslo vest)
• Korleis klassifisere områda omkring Oslo? => Asker og Bærum reknar vi som Oslo vest (ikkje landområda i Asker),
resten er saman med Oslo aust (= Oslo ”rest”)• Folk flyttar, også innafor Oslo
=> utfyllinga i matrisa skjer på grunnlag av kor folk har budd lengst=> men vi tek også vare på variablane nåverande bustad og oppvekststad
MONS11 24.- 26. nov. 2005
Utfordringar – skaffe informantar
• Vanskeleg å få tak i villige informantar => freiste alle informantar med trekning av tre
reisegåvekort => kontakte skolar, seniorsenter og arbeidsplassar=> tilby opptak i skoletid/arbeidstid=> utnytte eige nettverk og nettverk til kollegaer=> artikkel med etterlysing i aviser
• Vanskeleg å fylle alle cellene i matrisa– Vanskelegast: Informantar med låg utdanning, spesielt frå
Oslo vest=> bruke mye tid på å finne informantar …
MONS11 24.- 26. nov. 2005
Utfordringar – opptakssituasjon• Mål: samle inn naturleg talemål, også spontant talemål• Opptakssituasjon:
– Eit intervju på ti minutt– Ein samtale mellom to informantar på 30 – 45 minutt
• Variablar:– Samtale mellom vener– Samtale mellom kjenningar– Samtale mellom familiemedlem– Samtale mellom ukjente– Intervju med forskjellige intervjuarar (men mest med Anne Marit
Bødal, Førde)
MONS11 24.- 26. nov. 2005
Utfordringar – opptakssituasjon • Kamera og opptakssituasjon verkar unaturleg og hemmande
=> forsøke å gjere det koseleg med kaffi/mineralvatn og godteri (som ikkje knasar!)
=> foreslå tema om kva ein kan snakke om på førehand => samtalen varar ei stund slik at informantane gløymer kamera
• Bare pene og pyntelege samtalar - ikkje spontant?– Med to typar opptakssituasjon ser vi stor skilnad:
• I intervju: en-endingar og pausar, stakkato tale • I samtale: informantane er meir uformelle, jf. språklege variablar
som a-endingar, slang/bannord
• Tekniske problem– Batteri til myggmikrofonane– Langt hår ned på myggen– Skru på lydkort i datamaskinen!
• Mykje utstyr – Tidkrevjande å installere– Tungt å dra rundt på (bagladies frå Blindern)
MONS11 24.- 26. nov. 2005
MONS11 24.- 26. nov. 2005
Utfordringar – sensitive data
• Krav frå Datatilsynet/Personvernombudet for forsking: korpuset skal ikkje innehalde sensitive personopplysningar, dvs. opplysningar om tredjeperson, religiøs tro, politisk oppfatning, fagforeiningstilknyting, helse osv.
=> opplyse informantane om dette på førehand => vere til stades under samtalen (i ein krok) og gripe inn i samtalen=> temaliste er tilgjengeleg for informantane=> ikkje transkribere/pipe ut sekvensar i ettertid
MONS11 24.- 26. nov. 2005
Vårt paradoks:
• Tiltak for å redusere ”the observer’s paradox” fører til at informantane blir så avslappa at dei snakkar om sensitive emne
MONS11 24.- 26. nov. 2005
Demonstrasjon
• http://omilia.uio.no/nota/• Ein kan søkje i korpuset på mange ulike måtar:
– Informantutval: alle variablane som høyrer til kvar informant
– Opptakssituasjon: intervju eller samtale– Språk:
• ord• eit eller fleire, rett etter kvarandre eller med mellomrom• deler av ord (byrjing eller slutt)• alle formene til ordet• grammatiske kategoriar:
– ordklasse (substantiv, verb, osv.)– grammatiske trekk (eintal/fleirtal,
presens/preteritum, osv.)
MONS11 24.- 26. nov. 2005
Demonstrasjon
• Resultata blir viste på ulike måtar:– enkeltvis
• som konkordansar• valfri kontekststorleik• lyd og video
– Sortering etter ulike variablar• Etter ulike informantvariablar• Etter språklege variablar
– Diverse statistiske utrekningar– Ulike presenteringsformat (kakediagram o.a.)
NoTa-korpuset: mange søkevariablar
NoTa-korpuset: mange søkevariablar
NoTa-korpuset: gode muligheiter for å søkje på ord og grammatiske kategoriar
NoTa: Resultatkonkordanse
I NoTa-grensesnittet kan ein enkelt få video og lyd til dei
transkriberte resultata