norsk aviskorpus og norsk andrespråkskorpus (ask) erfaringer fra arbeid med to ulike korpus
DESCRIPTION
Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus. Knut Hofland, fagkonsulent, Aksis/Unifob Seminar ved Forskergruppe for leksikografi, ILN/UiO,19.04.07 http://gandalf.aksis.uib.no/~knut/oslo-19.4.07/. Norsk aviskorpus (avis.uib.no). - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/1.jpg)
www.aksis.uib.no
Norsk aviskorpusog
Norsk andrespråkskorpus (ASK)
erfaringer fra arbeid med to ulike korpus
Knut Hofland, fagkonsulent, Aksis/Unifob
Seminar ved Forskergruppe for leksikografi, ILN/UiO,19.04.07
http://gandalf.aksis.uib.no/~knut/oslo-19.4.07/
![Page 2: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/2.jpg)
Norsk aviskorpus (avis.uib.no)
• Et automatisert opplegg for å hente avisartikler fra Web• Har foregått siden 1998, presentert på Lysebu okt. 98• Halvautomatisk arbeid 95-98• Tenkt som et midlertidig prosjekt (inntil Norsk korpus ble
etablert) for å etablere stor tekstmengde ved liten innsats• I hovedsak internt finansiert ved Aksis• Noe midler fra UiB• AVIT midler fra 2007
![Page 3: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/3.jpg)
Aviser som hentes
• Adresseavisen (AA), Trondheim • Aftenposten (AP), Oslo • Bergens Tidende (BT), Bergen• Dagsavisen (DA), Oslo • Dagbladet (DB), Oslo • Dagens Næringsliv,(DN) Oslo • Fædrelandsvennen (FV), Kristiansand• Nordlys (NL), Tromsø • Stavanger Aftenblad (SA), Stavanger• Verdens Gang (VG), Oslo
![Page 4: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/4.jpg)
Utvikling siden 1998
0
100
200
300
400
500
600
![Page 5: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/5.jpg)
Siste dagers tilvekst
• Dagens antall: 419764 Totalt: 537564671 Wed Apr 18 22:03:22 CEST 2007• Dagens antall: 363745 Totalt: 537144907 Tue Apr 17 22:03:23 CEST 2007• Dagens antall: 431296 Totalt: 536781162 Mon Apr 16 22:03:31 CEST 2007• Dagens antall: 293123 Totalt: 536349866 Sun Apr 15 22:03:14 CEST 2007• Dagens antall: 322937 Totalt: 536056743 Sat Apr 14 22:03:12 CEST 2007• Dagens antall: 469965 Totalt: 535733806 Fri Apr 13 22:03:50 CEST 2007• Dagens antall: 418334 Totalt: 535263841 Thu Apr 12 22:03:48 CEST 2007• Dagens antall: 435857 Totalt: 534845507 Wed Apr 11 22:03:39 CEST 2007• Dagens antall: 380328 Totalt: 534409650 Tue Apr 10 22:03:07 CEST 2007• Dagens antall: 194382 Totalt: 534029322 Mon Apr 9 22:02:32 CEST 2007• Dagens antall: 169864 Totalt: 533834940 Sun Apr 8 22:02:27 CEST 2007• Dagens antall: 226179 Totalt: 533665076 Sat Apr 7 22:02:35 CEST 2007• Dagens antall: 244123 Totalt: 533438897 Fri Apr 6 22:02:38 CEST 2007
![Page 6: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/6.jpg)
De enkelte trinn
• Henter URL-er fra hovedinndelingene i avisene (w3mir)• Plukker ut URL-er til artikler og generere skript for henting• Henting av artikler og produksjon av samlefil• Utplukk av artikkeltekst og dato• Stripping av HTML-koder• Konvertering til Corpus Workbench-format (et ord pr. linje)• Separering av bokmål og nynorsk• Oppdatering av samlefiler (splitter etter årstall)• Tagging• Produksjon og oppdatering av ordlister/statistikk• Indeksering med Corpus WorkBench
![Page 7: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/7.jpg)
![Page 8: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/8.jpg)
![Page 9: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/9.jpg)
Utplukk av aktuelle URL-er
• http://www.bt.no/bergenpuls/utstilling/article355057.ece
• http://www.bt.no/dyr/article321692.ece
• http://www.bt.no/dyr/article354900.ece
• http://www.bt.no/forbruker/article342333.ece
• http://www.bt.no/forbruker/article353652.ece
• http://www.bt.no/forbruker/article356091.ece
• http://www.bt.no/forbruker/bilogmotor/article323455.ece
Sjekkes mot oversikt over filer som tidligere er hentet
Nye filer hentes og samles i en fil (pr. avis)
Plukker nå også opp mulige URL-er via RSS.
![Page 10: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/10.jpg)
![Page 11: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/11.jpg)
Utplukk av artikkeltekst
Går gjennom HTML-kode og slår på/av utplukk basert på tekststrenger i dokumentet. Et program for hver avis.
if pos("faktaboks",stopp) gt 0 then utvalgtrue("</DIV"); utvalgtrue("START ARTIKKEL"); utvalgtrue("<!-- ferdig relaterte-saker"); utvalgtrue("ID=""artikkelspalte"); utvalgtrue("=""+3"""); utvalgfalse("Resultater fra 42 ligaer"); utvalgfalse("<!-- relaterte saker"); utvalgfalse("VG Nett følger:"); utvalgfalse("- Eliteguiden -"); utvalgfalse(">Les også:<");
![Page 12: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/12.jpg)
Utfordringer
• Følge med på omorganisering av struktur i avisene
• Følge med på forandring i layout
• Duplikater av tekst
![Page 13: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/13.jpg)
Stripping av HTML
• Gjelder vanlige HTML-tagger• Noen få beholdes (<p>, <br>, men oversettes til et tegn)• En del aviser har egne tagger (ikke standard)• Entiteter oversettes til Latin1 (å -> å)
![Page 14: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/14.jpg)
Separerer bokmål, nynorsk og engelsk
Basert på toppen av en frekvensliste for hvert ”språk”
akkuratalenealleredeannenannetbarebarnbedrebeggebegyntebleblitt
andletetannaannanattaugoaukaberrebetrebleibokaburdagar
theandinthatiswasitheaswithonhis
![Page 15: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/15.jpg)
Tagging
• Kjører Oslo-Bergen tagger via SOAP grensesnitt• Morfologisk og syntaktisk disambiguering• Tagging av ca. 300.000 ord tar 4-7 timer
• Har tagget bakover til 1.1.2000.• År 2004 er tilgjengelig for søk (ca. 48 mill ord).
![Page 16: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/16.jpg)
Dagens ”nye” ordformer
• Hver dag lages ordliste over dagens ordformer• Denne ordlisten sammenlignes med en ordliste basert på
alt tilgjengelig tekstmateriale ved Aksis (ca. 3.9 mill former)• Det lages en liste med ord som ikke finnes i denne
ordlisten, opptil 1200-1300 hver dag.
![Page 17: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/17.jpg)
”Nyord”
![Page 18: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/18.jpg)
Anglisismer
![Page 19: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/19.jpg)
Allmenne nyord
![Page 20: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/20.jpg)
Søk i ordlisteResultat av søk
Søk etter starten av ord: klima
7510 klima 5967 klimaet 4007 klimaendringer 3116 klimagasser 3081 klimaendringene 1310 klimaanlegg 1221 klimaks 1126 klimapanel 893 klimagassutslippene 889 klimaforskning 847 klimapolitikk 735 klimakvoter 687 klimagassutslipp 651 klimatiltak 633 klimatiske 602 klimapolitikken 565 klimagassen 523 klimaforskere
![Page 21: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/21.jpg)
Wordschatz, Univ. i Leipzig
![Page 22: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/22.jpg)
![Page 23: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/23.jpg)
Rekvirere brukernavn
![Page 24: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/24.jpg)
Søking
![Page 25: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/25.jpg)
Søkeskjema
![Page 26: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/26.jpg)
KWIC
![Page 27: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/27.jpg)
Tsunami
1998-2006
![Page 28: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/28.jpg)
Bedehus*, 1998-2006
![Page 29: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/29.jpg)
sex, 1998-2006
![Page 30: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/30.jpg)
Søk i tagget del
![Page 31: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/31.jpg)
KWIC
![Page 32: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/32.jpg)
Frekvenser ord i bokmålsordboka
![Page 33: Norsk aviskorpus og Norsk andrespråkskorpus (ASK) erfaringer fra arbeid med to ulike korpus](https://reader036.vdocuments.pub/reader036/viewer/2022062322/568151ff550346895dc03ea1/html5/thumbnails/33.jpg)
AVIT
• Tekstinnhenting• Klassifisering bokmål/nynorsk• Annotering av syntaktisk og morfologisk informasjon• Nyordlister og nyorddatabase• Teksttypologi og annotering• Språkmodellering, kollokasjoner og n-gram-produksjon• Trebanker• Brukergrensesnitt• Nyanskaffelser og bruksrettigheter• Ekstern evaluering