informantutval og opptakssituasjon: utfordringar i samband med oppbygginga av eit talespråkskorpus

22
MONS11 24.- 26. nov. 2005 Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no

Upload: clarke

Post on 05-Jan-2016

40 views

Category:

Documents


5 download

DESCRIPTION

Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus. Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen, ILN, Tekstlaboratoriet, Universitetet i Oslo {jannebj, annembo, kristiha, hannegs}@iln.uio.no. Oversyn. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Informantutval og opptakssituasjon:

Utfordringar i samband med oppbygginga av eit talespråkskorpus

Janne Bondi Johannessen, Anne Marit Bødal, Kristin Hagen og Hanne Gram Simonsen,

ILN, Tekstlaboratoriet, Universitetet i Oslo

{jannebj, annembo, kristiha, hannegs}@iln.uio.no

Page 2: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Oversyn

• NoTa-prosjektet • Kva er eit talespråkskorpus for norsk?• Innhaldet i Nota-Oslo• Problem og utfordringar i oppbygginga av

korpuset– Informantutval– Opptakssituasjon

• Demonstrasjon

Page 3: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Nota-prosjektet

• Finansiering: Noregs forskingsråd gjennom programmet "Infrastruktur for humanistisk forskning”

• Periode: Hausten 2004 og 2005• Folk:

Prosjektleiar: Janne Bondi JohannessenHanne Gram SimonsenDagleg leiar: Kristin HagenProgrammerar: Joel Priestley Vitskapleg assistent: Anne Marit BødalTranskribørar: Hilde Cathrine Haug, Ingunn Indrebø Ims, Signe Laake, Inger Margrethe Hvenekilde Seim og Åshild Søfteland

Page 4: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Kva er eit talespråkskorpus for norsk?

• Norsk talespråk– språk snakka av personar som er fødde og oppvaksne i Noreg

• Korpus– ei samling av tekstar som er tilverka for språkforsking: utval av

tekstar, annotering, tilpassa søkegrensesnitt

• For kven? – Språkforskarar av alle slag

• sosiolingvistar, dialektforskarar, syntaktikarar, fonologar, morfologar, semantikarar, leksikografar o.a.

– Datalingvistar, språkteknologar

• Kanskje det beste verktøyet for ein språkforskar

Page 5: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Nota-Oslo

• Er første del av eit planlagt nasjonalt talespråkskorpus

• Inneheld intervju og samtalar med 144 informantar som er fødde og oppvaksne i Oslo-området

• Informantane er representative m.o.t. alder, kjønn, utdanning og kvar dei bur i Oslo-området

• Korpuset er ortografisk transkribert• Det ferdige korpuset vil bestå av ca 1 million ord • Ein kan søkje i korpuset vha eit eige grensesnitt• Korpuset blir tilgjengeleg for forskarar i byrjinga av

2006

Page 6: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Informantutval

• Informantvariablar– Kjønn: M – F– Alder: 16 – 25, 26 – 50, 51 +– Utdanning: vidaregåande skole eller mindre – høgare

utdanning– Geografi: Oslo vest, Asker og Bærum – Oslo aust og

distriktet omkring Oslo

• Resulterande informantmatrise– Tal på celler: 18 med 8 informantar i kvar– 144 informantar

Page 7: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Korpusforbilde

TAUS (Talemålsundersøkinga i Oslo, 1970-talet)• Informantutval, tagging, intervjuteknikk• Manglar eit søkegrensesnitt på Internett...

CGN (Nederlandsk talespråk)• Informantutval, transkripsjon, fleire talesituasjonar

Gothenburg Spoken Language Corpus• Mange talesituasjonar, transkripsjon, ikkje lyd eller bilde

Tekstlaboratoriets skriftspråklege korpus (Oslo-korpuset, Oslo Multilingual Corpus)

• Grensesnitt, enkelt å søke Talesøk

• Transkripsjon, lyd

Page 8: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Utfordringar – utdanningsvariabelen

• Tredeling? grunnskole – vidaregåande - høgare utdanning– Nesten umogeleg å finne yngre informantar med berre grunnskole,

spesielt i Oslo vest. – => slå saman dei to lågaste klassene

• Klassifikasjon av ungdom under utdanning– => snittet av den utdanninga ungdommane sjølv har planlagd saman med

utdanninga til mor og far• Eksempel: Eige mål for utdanninga = H

Mors utdanning = LFars utdanning = L

• Lite samsvar mellom utdanning og prestisjefylt arbeid – Gjeld særleg eldre menneske

• Eksempel: tidlegare direktør i ein bokklubb, 72 år. Utdanning: gymnas– => informantar over 70 blir klassifiserte i høgutdanningsgruppa dersom

dei har gymnas.

Page 9: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Utfordringar – geografivariabelen• Kor går skiljet mellom aust og vest i Oslo?

=> bruke inndelinga til Statistisk sentralbyrå (t.d. både Grefsen og Nordstrand blir Oslo vest)

• Korleis klassifisere områda omkring Oslo? => Asker og Bærum reknar vi som Oslo vest (ikkje landområda i Asker),

resten er saman med Oslo aust (= Oslo ”rest”)• Folk flyttar, også innafor Oslo

=> utfyllinga i matrisa skjer på grunnlag av kor folk har budd lengst=> men vi tek også vare på variablane nåverande bustad og oppvekststad

Page 10: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Utfordringar – skaffe informantar

• Vanskeleg å få tak i villige informantar => freiste alle informantar med trekning av tre

reisegåvekort => kontakte skolar, seniorsenter og arbeidsplassar=> tilby opptak i skoletid/arbeidstid=> utnytte eige nettverk og nettverk til kollegaer=> artikkel med etterlysing i aviser

• Vanskeleg å fylle alle cellene i matrisa– Vanskelegast: Informantar med låg utdanning, spesielt frå

Oslo vest=> bruke mye tid på å finne informantar …

Page 11: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Utfordringar – opptakssituasjon• Mål: samle inn naturleg talemål, også spontant talemål• Opptakssituasjon:

– Eit intervju på ti minutt– Ein samtale mellom to informantar på 30 – 45 minutt

• Variablar:– Samtale mellom vener– Samtale mellom kjenningar– Samtale mellom familiemedlem– Samtale mellom ukjente– Intervju med forskjellige intervjuarar (men mest med Anne Marit

Bødal, Førde)

Page 12: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Utfordringar – opptakssituasjon • Kamera og opptakssituasjon verkar unaturleg og hemmande

=> forsøke å gjere det koseleg med kaffi/mineralvatn og godteri (som ikkje knasar!)

=> foreslå tema om kva ein kan snakke om på førehand => samtalen varar ei stund slik at informantane gløymer kamera

• Bare pene og pyntelege samtalar - ikkje spontant?– Med to typar opptakssituasjon ser vi stor skilnad:

• I intervju: en-endingar og pausar, stakkato tale • I samtale: informantane er meir uformelle, jf. språklege variablar

som a-endingar, slang/bannord

• Tekniske problem– Batteri til myggmikrofonane– Langt hår ned på myggen– Skru på lydkort i datamaskinen!

• Mykje utstyr – Tidkrevjande å installere– Tungt å dra rundt på (bagladies frå Blindern)

Page 13: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Page 14: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Utfordringar – sensitive data

• Krav frå Datatilsynet/Personvernombudet for forsking: korpuset skal ikkje innehalde sensitive personopplysningar, dvs. opplysningar om tredjeperson, religiøs tro, politisk oppfatning, fagforeiningstilknyting, helse osv.

=> opplyse informantane om dette på førehand => vere til stades under samtalen (i ein krok) og gripe inn i samtalen=> temaliste er tilgjengeleg for informantane=> ikkje transkribere/pipe ut sekvensar i ettertid

Page 15: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Vårt paradoks:

• Tiltak for å redusere ”the observer’s paradox” fører til at informantane blir så avslappa at dei snakkar om sensitive emne

Page 16: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Demonstrasjon

• http://omilia.uio.no/nota/• Ein kan søkje i korpuset på mange ulike måtar:

– Informantutval: alle variablane som høyrer til kvar informant

– Opptakssituasjon: intervju eller samtale– Språk:

• ord• eit eller fleire, rett etter kvarandre eller med mellomrom• deler av ord (byrjing eller slutt)• alle formene til ordet• grammatiske kategoriar:

– ordklasse (substantiv, verb, osv.)– grammatiske trekk (eintal/fleirtal,

presens/preteritum, osv.)

Page 17: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

MONS11 24.- 26. nov. 2005

Demonstrasjon

• Resultata blir viste på ulike måtar:– enkeltvis

• som konkordansar• valfri kontekststorleik• lyd og video

– Sortering etter ulike variablar• Etter ulike informantvariablar• Etter språklege variablar

– Diverse statistiske utrekningar– Ulike presenteringsformat (kakediagram o.a.)

Page 18: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

NoTa-korpuset: mange søkevariablar

Page 19: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

NoTa-korpuset: mange søkevariablar

Page 20: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

NoTa-korpuset: gode muligheiter for å søkje på ord og grammatiske kategoriar

Page 21: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

NoTa: Resultatkonkordanse

Page 22: Informantutval og opptakssituasjon: Utfordringar i samband med oppbygginga av eit talespråkskorpus

I NoTa-grensesnittet kan ein enkelt få video og lyd til dei

transkriberte resultata