kursheftemorsmål (no) albansk, bosnisk-serbisk-kroatisk, engelsk, nederlandsk, polsk, russisk,...

12
ASK, kurshefte Hilde Johansen (2011) 1 NORSK ANDRESPRÅKSKORPUS KURSHEFTE

Upload: others

Post on 21-Oct-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

  • ASK, kurshefte Hilde Johansen (2011) 1

    NORSK ANDRESPRÅKSKORPUS

    KURSHEFTE

  • ASK, kurshefte Hilde Johansen (2011) 2

    KURSHEFTETS INNHOLD

    1. Antall ord i ulike delkorpus (testnivå og morsmål) 2. Persondata 3. Feilkoder 4. Oslo-Bergen-taggerens taggsett 5. AKSs søkemeny 6. KWIC-konkordans 7. Distribusjon 8. Forklaring av felt for søk på språklige trekk 9. Noen regulære søkeuttrykk

  • ASK, kurshefte Hilde Johansen (2011) 3

    1. ANTALL ORD

    (= 100 tekster, bortsett fra * 24 tekster,** 7 tekster og *** 5 tekster)

    Morsmål Språkprøven Høyere nivå

    Albansk 24197 10966*

    BSK 27289 46041 Engelsk 26527 49691

    Nederlandsk 26682 44871

    Polsk 28857 49024 Russisk 27064 45783

    Spansk 25572 45262 Somali 22881 3063**

    Tysk 29152 49745 Vietnamesisk 25500 2598***

    Norsk 27556 44198 BSK= bosnisk-serbisk-kroatisk

  • ASK, kurshefte Hilde Johansen (2011) 4

    2. PERSONDATA

    Norsk språktest har hentet inn tillatelse fra datatilsynet til å samle inn og bruke

    personopplysninger, med spesifikke regler for hvordan innsamlingen skulle gå frem.

    Innsamlingen begynte uavhengig av ASK, med tanke på fremtidig forskning.

    Persondataene har blitt opplyst frivillig under testene og skjemaene som blir brukt har blitt

    utviklet med i tråd med teorier om hva som påvirker språklæring. Tekstene i korpuset er

    hentet fra testaviklinger i perioden 1996 til 2006, og det har underveis vært gjort noen

    endringer i skjemaene, derfor kan en del underkategorier av og til ikke være oppgitt. I

    kontrollkorpuset er bare noen få opplysninger oppgitt. Disse er merket (no) i listen nedenfor.

    Variabel Kategorier I O Morsmål (no) Albansk, bosnisk-serbisk-kroatisk, engelsk, nederlandsk, polsk,

    russisk, somali, spansk, tysk, vietnamesisk (, norsk) 0

    Andre andrespråk (diverse)

    Engelskkunnskaper Ikke noe, begynner, grunn-nivå, mellomnivå, høyere nivå 213

    Hjemland (no) (diverse) 5 Alder (no) (diverse) 7

    Kjønn (no) Kvinne/mann 4 Utdanning (no) Grunnskole, videregående, høgskole/universitet,

    forskerutdanning, annet 20

    Antall år i utdanning (lite pålitelig)

    Type norskkurs Kommunale kurs, AMO-kurs, grunnskole voksne, videregående skole, folkeuniversitet, annet

    251

    Kurslengde i måneder

    < 6 mnd, 6-12 mnd, 13-24 mnd, 25-36 mnd, >36 mnd 214

    Kurslengde i timer < 200, 201-400, 401-500, 501-850, 851- 1500, 1501-2000, 2001-300

    824

    Bruk av målspråket Aldri, sjelden, daglig 193 Oppholdstid < 1 år, 1-2 år, 2-3 år, 3-4 år, 4-5 år, >5 år 11

    Kursmål/motivasjon Søke arbeid, søke opptak på skole, dokumentere norskkunskaper, annet

    Sosial omgang Ja, nei (jobb/skole, fritid) 82

    Arbeid i Norge Helsearbeid, hjemmeværende, kontorarbeid, kultur, manuelt arbeid, opplæring/undervisning, servicenæring, transport, annet.

    585

    Tilknytning Arbeider, studerer, søker arbeid, annet 113

  • ASK, kurshefte Hilde Johansen (2011) 5

    3. FEILKODER

    LEKSIKALSKE FEILKODER

    W Galt ord ORT Ortografisk avvik

    PART Avvikende sammensetninger (hjemmelandet) SPL Særskrivingsfeil (barne hage)

    DER Avvikende avledninger (snillig) CAP Gal bruk av stor/liten bokstav

    FL Ord fra andre språk

    MORFOLOGISKE FEILKODER

    F Gal morfosyntaktisk katgori

    INFL Rett morfosyntaktisk kategori, men avvikende form (gådde) SYNTAKTISKE FEILKODER

    O Gal ordstilling på ord- eller frasenivå INV Underinversjon (manglende subjekt/verb-inversjon)

    OINV Overinversjon (overgeneralisert) SCA Gal plassering av setningsadverbial i leddsetninger

    MCA Gal plassering av setningsadverbial i hovedsetninger M Manglende ord

    R Overflødig ord

    TEGNSETTINGSFEILKODER

    PUNC Galt tegn ved tegnsetting

    PUNCR Tegnsetting mangler PUNCM Tegnsetting overflødig

    ANDRE FEILKODER

    X Uidentifiserbart avvik AGR Underkode for følgefeil, eller feil oppstått pga andre

    korrigeringer gjort av feilkoderne

  • ASK, kurshefte Hilde Johansen (2011) 6

    4. OSLO-BERGEN-TAGGERENS TAGGSETT

    A. SYNTAKTISK TAGGSETT

    @

  • ASK, kurshefte Hilde Johansen (2011) 7

    B. MORFOSYNTAKTISK TAGGSETT

    ordklasse/tegn Kjønn tall type best tid person kasus gradbøy

    adj m/f

    nøyt

    fem

    ent

    fl

    fork

    ub

    be

    pos

    kom

    sup

    adv

    det mask

    nøyt

    fem

    ent

    fl

    dem

    dem

    forst

    kvant

    kvant

    poss

    poss res

    poss høflig

    sp

    forst

    ub

    be

    inf-merke

    interj

    konj

    clb

    prep

    pron fem

    mask

    mask

    fem

    nøyt

    ent

    fl

    hum res

    hum sp

    pers

    pers hum

    pers høflig

    poss hum sp

    refl

    sp

    res

    1 2 3 nom

    akk

    sbu

    subst mask

    fem

    nøyt

    ent

    fl

    appell

    prop

    fork

    ub

    be

    gen

    ukjent

    verb pres inf pass

    inf

    pres

    pret

    perf-part

    imp

    pass

    (http://omilia.uio.no/obt/)

    http://omilia.uio.no/obt/

  • ASK, kurshefte Hilde Johansen (2011) 8

    5. ASKs SØKEMENY

  • ASK, kurshefte Hilde Johansen (2011) 9

    6. KWIC-KONKORDANS

  • ASK, kurshefte Hilde Johansen (2011) 10

    7. DISTRIBUSJON

  • ASK, kurshefte Hilde Johansen (2011) 11

    8. FORKLARING PÅ FELT FOR SØK PÅ SPRÅKLIGE TREKK

    ORD:

    Søker etter ordet nøyaktig slik det forekommer i originalteksten.

    FEILTYPE

    Søker etter feilkoder, som er beskrevet i kodeboka.

    For valg av flere feiltyper: hold inne CTRL.

    UNDERTYPE

    Søker etter undertyper, først og fremst til feiltypen O (ordstillingsfeil)

    AGR kan være undertype til flere ulike feiltyper (se kodeboka).

    KORREKSJON:

    Søker etter ordet nøyaktig slik det står i taggen corr=””, (dvs.. den korrigerte formen

    av ordet.)

    Gjelder kun for søk etter ord som har feiltagg og korreksjon.

    LEMMA:

    Søker etter den automatiske taggerens lemma-tildeling til ordet

    Gir alle ulike former ordet måtte forekomme i i korpuset, også de som har

    ortografiske feil.

    Enkelte ord kan være tildelt feil lemma homonymi/polysemi

    ORDKLASSE

    De tradisjonelle ordklassene pluss noen kategorier til (forkortelser og ukjente ord)

    Ordklassetaggene er manuelt editert, men det kan forekomme feilkategoriseringer

    og ord som er tagget med flere ordklasser, som regel pga homonymi/polysemi

    MORFOLOGI

    Morfologiske tagger er ikke manuelt editert, en del feil forekommer

    SYNTAKS

    Syntaktiske tagger er ikke manuelt editert, en del feil forekommer

    @ markerer syntaktiske funksjoner og setningsgrenser

    < og > peker mot kjernen i ordets frase, for eksempel har @det> (determinativ)

    etterstilt kjerne

  • ASK, kurshefte Hilde Johansen (2011) 12

    5. NOEN REGULÆRE SØKEUTTRYKK

    Regulære søkeuttrykk kan brukes i åpne felt (de som ikke har ferdige lister over valg) og i

    feltet for søk med regulære uttrykk.

    | (eller)

    Brukes for å søke etter flere attributter på en gang, for eksempel:

    o ord: bil|båt

    o lemma: bil|båt

    (Tilsvarer valg av flere bokser vertikalt)

    . (vilkårlig tegn)

    Står for et vilkårlig tegn, og kan settes før og etter deler av ord. I kombinasjon med

    andre tegn angir det hvor mange vilkårlige tegn en tillater.

    . (punktum alene) : ett vilkårlig tegn

    o .om gir rom, kom, som etc

    .+ (punktum pluss): vilkårlig mange tegn, minst ett

    o .+om gir rom, from, hjemom etc

    .* (punktum asterisk): vilkårlig mange tegn, også ingen.

    o .*om gir om, rom, from, hjemom etc

    .? (punktum spørsmålstegn): ingen eller ett vilkårlig tegn

    o .? om gir om, lom, kom etc

    {} target (kan bare brukes i feltet for regulære uttrykk)

    Ved bruk av dette tegnet rundt en korpusposisjon, vil bare denne korpusposisjonen være

    fremhevet i konkordansen

    [lemma = "på" %c] {[pos = "subst"]}