norsk andrespråkskorpus (ask)
DESCRIPTION
Norsk andrespråkskorpus (ASK). Samarbeid Norsk Språktest Aksis Nordisk institutt, UiB (Kari Tenfjord, prosjektleder) Finansiering: Norges Forskningsråd, Meltzerfondet. Norsk Språktest. Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig) Arrangerer: - PowerPoint PPT PresentationTRANSCRIPT
Norsk andrespråkskorpus (ASK)
Samarbeid
• Norsk Språktest• Aksis• Nordisk institutt, UiB (Kari Tenfjord, prosjektleder)
Finansiering: Norges Forskningsråd, Meltzerfondet
• Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig)• Arrangerer:
– Språkprøven i norsk for voksne innvandrere
• Avsluttende prøve for den offentlige grunnopplæring• Arrangeres 3 ganger i året minst ett sted i hvert fylke• Lese- og lytteforståelse, skriftlig og muntlig prøve
– Test i norsk - høyere nivå (Bergenstesten)
• Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere som trenger dokumentasjon på norskferdigheter
• Muntlig: for helsepersonell
Norsk Språktest
• 2001: 2309 kandidater (63% kvinner), 62% bestått• 2002: 2593 kandidater (65% kvinner), 60% bestått• 2003: 3174 kandidater (63% kvinner), 58% bestått
• 2003: 106 forskjellige land, 103 ulike morsmål
• Skriftlig prøve: forklarende eller fortellende• Ca. 240 ord
Språkprøven
Høyere nivå (Bergenstesten)
• 2001: 998 kandidater• 2002: 1129 kandidater• 2003: 1286 kandidater
• Skriftlig prøve: forklarende, fortellende eller argumenterende• Ca. 450 ord
Eksempel på oppgaver (Språktesten)Skriv en tekst om:
• adopsjon • alkoholvaner • barneoppdragelse • en bok du har lest • det du mener er viktige verdier i livet • din første jobb • ditt møte med norsk kultur • en eller flere nyheter som har gjort inntrykk på deg • en forfatter og en bok han/hun har skrevet • en hyggelig opplevelse du har hatt • en interesse du har • en kjent person• en person som har betydd mye for deg
Eksempel på oppgaver (Bergenstesten)
Skriv ett av følgende leserbrev til en lokalavis:
1. Du støtter lærerne i deres lønnskamp, og presenterer ulike argumenter for dette synspunktet;
eller
2. Du går imot at lærerne får større lønnsøkning enn andre yrkesgrupper, og kommer med ulike argumenter for dette synspunktet.
Persondata
• Norsk Språktest har lagret persondata i SPSS• Opplysninger kodes, verdi tallkode• Kodebok
v14timer Timer i grunnopplæring Value Label 1 under 200 2 200-400 3 401-500 4 501-850 5 851-1500 6 1501-2000 7 2001-3000
KandidatnummerTestdatoNivå på testenHjemlandMorsmålAlderKjønnEngelsknivåSkolegang utenfor NorgeAntall skoleår utenfor NorgeHva gjør du i NorgeYrke i Norge
Tid i Norge (antall år)Timer i grunnopplæringAntall mnd. siden start på norskkursHvor har du gått på kursHva skal du bruke prøveresultatet til: skoleBruke: arbeid Bruke: dokumentereBruke: annetHvor ofte snakker du norsk utenfor klasserommetHar du sosial omgang med nordmenn?Omgang med norske på fritidenOmgang med norske på jobben/skolen
Persondata
Yrke i Norge Value Label
1 helsearbeid 2 kontorarbeid 3 manuelt arbeid 4 servicenæring 5 opplæring/undervisning 6 transport 7 politi, toll, brann 8 kultur 9 hjemmeværende 10 annet 11 akademisk yrke
Korpus og utvalg
• Utvalg av språk– Spredning etter type språk– Må ha nok besvarelser, alle må ha bestått
• Utvalg innen språk– Samme type oppgave
• 10 språk– 100 besvarelser innen hvert språk– Både Språkprøven og Høyere nivå
• Kontrollgruppe– Nordmenn, fra kor og idrettslag etc.
Problemer vedrørende utvalg
• Ønsket flere/andre morsmål, men ikke nok antall• Ulik fordeling av morsmål i de to testene• Skjev kjønnsfordeling
– Russisk, polsk : 90-95% kvinner• Ønsket flere besvarelser, men ikke økonomi• Ønsket muntlig prøve, men ikke økonomi
Valgte morsmål
• Albansk• Engelsk• Nederlandsk• Polsk• Russisk• Serbokroatisk• Somali• Spansk• Tysk• Vietnamesisk
Feilbegrepet
• Problematisk med begrepene ”feil” og ”korrekt form”• Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ”• Andre termer: avvik, løsning• (kilde) L1 interlanguage L2 (mål)• Feil viser hvorledes språket blir lært• Det å gjøre feil er en måte å teste ut målspråket• Grader av feil, ikke lett å avgjøre hva som er rett
Bakgrunn for feilkoder ASK
Studerte feilkoder i tre større prosjekter
ICLE (International Corpus of Learner English)(tag) feil $rett$ (feil eller rett kan være 0)He took the books (QL) and $,$ the records and the computers.
FRIDA (French Interlanguage Database) corpus.<type><subtype><ordklasse>#rett$feil</..></..></type>
très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G>
Cambridge Learner Corpus
<#CODE>wrong word|corrected word</#CODE>
He died <#MP>we|.We</#MP> buried him the next day.
ASK feilkoder
• Enkelt system slik at kodingsfeil unngås• Grammatisk informasjon annoteres automatisk (senere)• Velger retting som krever minst forandringer• Har kodemanual med eksempler• Systematisk sjekk av koding (ved konkordans)
• Bruker TEI sic tag med ekstra attributter
• <sic type=type desc=undertype corr=rett>feil</sic>
• Det kan være flere feilmarkeringer til et ord (men ikke overlapp)
ASK feilkoder
5 hovedgrupper
– Leksemfeil– Morfologifeil– Syntaksfeil– Tegnsettingsfeil– Uidentifiserbar feil
ASK feilkoder: Leksemfeil
• W galt ord • ORT ortografisk feil • PART samskrivningsfeil, avledningsfeil • SPL særskrivningsfeil• DER gal avledning• CAP galt valg av stor/liten bokstav
• FL ord fra andre språk enn norsk
ASK feilkoder: Leksemfeil
• W Fra min mening ... (Etter)• ORT Kun i ordets grunnform (ikke bøying)• PART etterhvert (etter hvert)• SPL sove rom (soverom)• DER stillighet (stillhet)• CAP europa (Europa)• FL lettere å resolvere problemer
(løse)
ASK feilkoder: Morfologifeil
• F (galt valg av morfosyntaktisk bøyningsform)– Hvilken miljø skal man bo. (Hvilket)– ..og ikke så lang fra sentrum (langt)– Det var jo ham som har betydd absolutt mest (er)
• INFL (feil form der intensjonen er riktig morfosyntaktisk kategori)– har mye trafikker og bråker (trafikk og bråk)– Vi hald kontakten (holdt)
ASK feilkoder: Syntaksfeil
• M (et ord eller en frase mangler)– Vi hilser ___ hverandre når vi .... (mangler på)
• R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk)– Etter ti dager senere giftet... (senere redundant)
• O (ord eller fraser står i gal rekkefølge)– ..nok stor for oss... (stor nok)
ASK feilkoder: Undertyper til feiltype O
• INV (inversjonsfeil)– I begynnelsen det var veldig vanskelig... (var det)
• OINV (overgeneralisering av inversjonsregel)– .. selv om er det press .. (det er)
• MCA (gal plassering av setningsadverbialet i helsetning)– fordi jeg har ikke vært i Norge før.. (ikke har)
• SCA (gal plassering av setningsadverbialet i leddsetning)– Man kan ringe alltid hvor man er. (alltid ringe)
ASK feilkoder: Tegnsettingsfeil
• PUNC (galt valg av tegn)– Hvem trekker først. (?)
• PUNCM (tegnsetting mangler)– Når vi ser ca 50 år tilbake (ca.)
• PUNCR (tegnsetting må fjernes)– .. med huset, og barna (ikke komma foran og)
ASK feilkoder: Uidentifiserbar feil
• X
– Vennskapet mitt var utrolig.– de liker virkelig å hjelpe i menneskighet.
Innskriving/redigering: Oxygen
Stilark
Til hjelp ved kontroll kan en kjøre flere stilark på server.
Stilark
Stilark
Konkordans som hjelpemiddel
• De som koder har adgang til konkordans (via web)• Kjøres på de tekstfilene som enhver tid er i katalogen• Kan sjekke hvordan andre har kodet• Kan sjekke konsistens i koding• Kan enkelt gå til fil for retting
Konkordans
Konkordans
Persondata
• Skjema har forandret seg gjennom årene• Data ligger i SPSS-filer (kodet med kodebok)• Ulike formater• Eksporteres som tab-separert fil• Kobles med tekst gjennom kandidatnummer-år/mnd• Diskusjon med Datatilsynet/NSD om hva vi kunne ta
med (tekster ble også anonymisert mht. navn, steder etc.)
Tagging
• Bruker Oslo-Bergen tagger• Kan være problematisk å bruke standard tagger på tekst
med mange feil• Tagger er robust• Tagger bruker corr-feltet ved ortografiske feil
Tilrettelegging for søking
• Bruker Corpus Workbench via TCP/IP socket• Web-basert grensesnitt (Common Lisp)• Web-sider lages som XML og oversettes på server til
HTML via stilark (XSLT)• Det lages en korrektversjon av hver setning, får på
denne måten et parallellkorpus • Kan rette taggefeil ved søking• Kan laste ned resultat til PC (Excel og lignende.)
Konkordans
Parallell konkordans
Tekst
Tagget tekst
Kollokasjon