preview of “f6 utvardering”evapet/undervisning/sgv09/f6_utvardering.pdf · att all aggrivisitet...

14
F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG Ola Knutsson [email protected] Innehåll Korpusbaserad utvärdering Automatisering av utvärdering !uppmärkta fel" Helautomatisk utvärdering !artificiella fel" ISO 9126 Usability testing Användarstudier Utvärdering som en del av systemutvecklingsprocessen Demo av Grim Varför skall man utvärdera språkgranskningssystem? Två olika sätt att utvärdera Två vägar att gå för att anpassa verktygen Produktorientering: Felkorpus, felannotering och feltypologi Aktivitetsorientering: metoder för att studera skrivaktiviteter # användarstudier

Upload: others

Post on 17-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG

Ola [email protected]

InnehållKorpusbaserad utvärdering

Automatisering av utvärdering !uppmärkta fel"

Helautomatisk utvärdering !artificiella fel"

ISO 9126

Usability testing

Användarstudier

Utvärdering som en del av systemutvecklingsprocessen

Demo av Grim

Varför skall man utvärdera språkgranskningssystem?

Två olika sätt att utvärdera

Två vägar att gå för att anpassa verktygen

Produktorientering: Felkorpus, felannotering och feltypologi

Aktivitetsorientering: metoder för att studera skrivaktiviteter # användarstudier

Page 2: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Att annotera fel

Svårigheter

Hur påverkar detta resultatet?

Annoteringsövningar

Jag har precis flyttat in i ett nytt villa.

i kväl en gammal man läser bocken som heter "Mordet på Cirkus" Han läggar sig i sängen. Det är möligt ute.

Jag bor i Fetja. Jag åker från till Frescati halv timmer vi måste sitter i tunlbana och bussen. Jag måste vackna klockan sex, därför att det är lång väg och börjar min klass klockan 8, och Jag hoppa. Kan jag sultat kalas och börjar fakolititet.

Intern och extern utvärdering

Black box$utvärdering

Utvärdera varje enskild modul för att få fram var störst insatser för förbättringar skall läggas.

Olika delproblem att utvärdera

Detektionen

Diagnosen

Ersättningsförslagen

Page 3: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Utvärderingsmåtta= antal korrekt detekterade fel = antal korrekta alarm

b = falska alarm

c = missade fel

täckning/recall R = a/!a+c"

precision P = a/!a+b"

!

F =1+ " 2)PR(" 2P + R

Utvärdering av Granska: Fem texttyper undersöktes

Sportnyheter% % % 63 568 ord

Utrikesnyheter% % % 20 881 ord

Myndighetstexter% % % 36 667 ord

Populärvetenskap% % % 32 386 ord

Gymn.$ och högskoleuppsatser%47 517 ord

$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$

% % % % % 201 019 ord !400 A4"

FelfrekvenserFel i verbkedjan% % % % % 21 &

Särskrivna sammansättningar% % 18 &

Inkongruens i nominalfraser% % 17 &

Inkongruens i predikativ% % % 4 &

$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$

Stavfel med gram$sem konsekvens% 13 &

Jag har hjort läxan

Ord saknas% % % % % % 13 &

Han kör ? grön bil

Några resultat vid utvärderingen av Granska

Begränsad undersökning

I populärvetenskaplig text upptäcktes 9 av 10 fel, 5 av 10 felrapporter var korrekta

Gymn.$ och högskoletexter upptäcktes 4 av 10 fel, 7 av 10 felrapporter var korrekta

Page 4: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Word H GC----------------Kvinnan! OK OK!hade! OK OK !köpt! ! OK OKen! ! OK OKny! ! OK OKhus!! ERR ERRbil ERR ERR. OK OKHan OK OKträffade OK OK en OK OKmassa OK ERRbedömare OK ERRigår OK OK. OK OK

Två mål för att förbättra verktygen

Iterativ design av verktygens kärna. Men hur länge kan man egentligen hålla på?

Iterativ design av verktygens interaktion och gränssnitt.

Forskning vs. produktutveckling

Felkorpusar

korpusar med korrekturläst språk

felkorpusar

felannotering

feltypologi

Hur skall man annotera felen?

Tolkning eller vad som faktiskt står? Var går gränsen för lingvistik?

Feltyper? Är stavfel en feltyp eller skall man tala om böjningsfel, ortografiska brott !insättning, borttagning, omkastning, transformation"

Fungerar dessa även på grammatisk nivå?

Page 5: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

I gränslandet: Särskrivna sammansättningar

Stavfel?

Grammatiska fel?

Semantiska fel?

Kategori Exempel

Deletion Det är bra att man tabuläger svordomar och könsord.

Insertion De som är emot tycker att det inte behövs inte i språket.

Substitution Till exempel på en fotbollsmatch reagerar inte många för svordomarna.

TranspositionEn sak tycker jag att vi alla kan hålla

med om är att svordomar och könsord är onödigt i språket.

Feature mismatch Slangen anses som fula och opassande.

!

"#$%&'()*+,-+#*.)*#-)&/*+#-)#&-0#/1#$%&-)#'(,#&-)#/$+2-00/#/))%+-,3)4-)5#67#89,#*-,#8-0/#$%&-)2+:

!"##$%

!&'()*+,-./0,%

!122#$%

!(123)'*(#4+,-.,'$#+,56,7%

!$89)%:";:<"=>?@A;'>BC!7$89)%

!$89)%?D@B";?:D!7$89)%

!$89)%&E(&F(GH2G23!7$89)%

!$)I$%&#4')2'9(GH1$'(1JG#'F121K'1KJ(G3'&FLKK)'!7$)I$%

!M#44)2$%!7M#44)2$%

!&L33)&$G#2%&#4')2'9(GH1$'(1JG#F121K'1KJ(G3'&FLKK)'!7&L33)&$G#2%

!122#$1$)JN#(J&%(1JG#'F121K'!7122#$1$)JN#(J&%

!7122#$%

!7&%

!7"##$%

;-&#2+47)4*<2)$+#3#/)&,/#/,=-+-)#3)%>#'-0+/?%)%>3@A#&-0*#'(,#*1-)*$+#13&$%>>/)&-#3B,/)*$/C<,%D-$+-+#EF8,>/)#GHHHA#6+/-,)-,#GHHIJ#%K8#3#6K/,,3-C<,%D-$+-+#EL-&=D-,#M/>=-00INN!JA##&-0*#3)+-,)/+3%)-00+#EO%**-#INNPQ#R,-&-)$/><A#S,.*>/)A#T0-3)#INNNJA#8/,#-++#*0/4*<,%+%+.<C+.<%0%43#$%)*+,2-,/+*#%K8#3><0->-)+-,/+*#3#/))%+-,3)4*1-,$+.4-+5#U,%+%+.<-)#E%K8#313**#>7)#*D901/#/))%+-,3)4*1-,$+.4-+J#8/,#*-&/)#*2KK-**31+#,-13&-,/+*#2)&-,#/))%+-,3)4#/1#+3%2<<*/+*'30-,5#V)#D9>'(,-0*-#>-00/)#'-0+.<%0%4-)*#%K8#B,/)*$/*#'-0&3/4)%*-,#8/,#4D%,+*#<7#-)/1#'30-,)/5#W)/0.*-)#8/,#,-*20+-,/+#3#-)#).#<,-03>3)9,#+.<%0%435#U,%+%+.<+.<%0%43)#$/00/*#3#&-+'(0D/)&-#!"#$%&'#'()*+5#X-)#)./#<,-03>3)9,/#+.<%0%43)#$/00/*#!"#$%&'#'()*,5

################################################@#Y-,>-)#Z'-0+/?%)%>3Z#*$/#'(,*+7*#2)4-'9,#*%>#Z'%,*$)3)4*%>,7&-+#['-0+.<%0%43[Z5

<annot> <position pos="6" /> <type>ORTOGRAFISKT FEL</type> <type>SUBSTITUTION</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevisitet kommer ut </suggestion> <annotatedWords>aggrivisitet </annotatedWords> </annot>

<annot> <position pos="6" /> <type>ORTOGRAFISKT FEL</type> <type>DELETION</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggrevissitet kommer ut</suggestion> <annotatedWords>aggrivisitet </annotatedWords> </annot>

<annot> <position pos="6" /> <type>ORTOGRAFISKT FEL</type> <type>TRANSPOSITION</type> <type>stavfel</type> <text>bättre att all aggrivisitet kommer ut </text> <comment></comment> <suggestion>bättre att all aggressivitet kommer ut</suggestion> <annotatedWords>aggrivisitet </annotatedWords> </annot>

Page 6: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

<type>MORFOSYNTAKTISKT FEL</type> <type>SUBSTITUTION</type> <type>lexikonfel</type> <text>på de lägre stadiumen . </text> <comment></comment> <suggestion>på de lägre stadierna . </suggestion> <annotatedWords>stadiumen </annotatedWords

Norsk Andrespråkskorpus (ASK)

offentlige språkprøvene i norsk for voksne innvandrere en felkorpus en korrigerad version

Feilkodene kan deles i fem typer:

Leksemfeil: W (galt ord) ORT (ortografisk feil) PART (samskrivningsfeil, avledningsfeil) SPL (særskrivningsfeil) CAP (galt valg av stor/liten bokstav) FL (ord fra andre språk enn norsk)

Morfologifeil: F (galt valg av morfosyntaktisk bøyningsform) INFL (feil form der intensjonen er riktig morfosyntaktisk kategori)

Syntaksfeil: M (et ord eller en frase mangler) R (et ord eller en frase er redundant og fører til grammatisk feil eller uidiomatiske uttrykk) O (ord eller fraser står i gal rekkefølge)

Interpunktuasjonsfeil: PUNC (galt valg av tegn) PUNCM (tegnsetting mangler) PUNCR (tegnsetting må fjernes)

Uidentifiserbar feil X (umulig å gi en klar tolkning av tekstsutdragets intensjon)

Page 7: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Kritik mot felanalys

Dagneaux et al 1. Heterogeneous learner data 2. Error categories are fuzzy3. Cannot cater avoidance strategies4. Focus on what a learner cannot do5. Product oriented (static view)

Vad säger egentligen precision och täckning?

Ökad kritik mot de utvärderingsmetoder som används hittills språkteknologin.

Idealiserad användning av programmen i laboratoriemiljö !se t.ex. Sparc Jones 2001".

Men alla program behöver inte utvärderas med användare !t.ex. parsrar"

Användarcentrerad utveckling av granskningsverktyg

Hur skall vi studera skrivande, lärande och användning av olika verktyg?

Mer specifikt: hur skall vi undersöka hur verktygen används i olika aktiviteter?

Resultaten skall användas för att förbättra programmen, både insida och utsida.

Page 8: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Utvärdering som ett led i systemutvcklingsprocessenISO 9126:

Funktionalitet

Pålitlighet

Användbarhet

E'ektivitet

Underhållbarhet

Portabilitet

Mjukvarukvalitet Användbarhet

ISO 9126

FunktionalitetPrestationPålitlighetAnvändbarhetRobusthetUnderhåll

ISO 9241-11

Ändamålsenlighet nå målen fri från fel fullständighetEffektivitet-produktivitet hur mycket tid och andra resurser som krävsTillfredsställelse bekvämlighet acceptans

Vad är användbarhet?

Definition

ISO 9241-11

Användbarhet: I hur hög grad en specifik användare i ett givet

sammanhang kan bruka en produkt för att uppnå specifika mål

på ett ändamålsenligt, effektivt och för användaren

tillfredsställande sätt.

Vad påverkar och vad påverkas?

Faktorer i användnings- kontexten

Användaren

Uppgiften

Produkten

Miljön

Faktorer som kan specificeras

Användbarhetsmått

Ändamålsenlighet

Effektivitet

Tillfredsställelse

Faktorer som kan mätas

ISO 9241-11

Page 9: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Hur mäter man användbarhet?

Användbarhetsmått

Ändamålsenlighet

Effektivitet

Tillfredsställelse

Faktorer som kan mätas

• Tid att utföra uppgifter

• Precision, felfrihet• Antal klarade uppgifter• Optimal väg

• Upplevd kontroll• Upplevd effektivitet• Lätt att förstå• Förutsägbart• Uppfyller syfte• Attraktiv, ”trevlig”

Användarcentrerad design ISO 13407

1. Planering av användar- centrerad process

2. Specificering av anv. sammanhanget.Användaren: kunskaper, erfarenheter, vana, kultur.Miljön: platsen, befintliga system & hjälpmedel.Arbetsuppgifter: hur ofta arbetsflöde, önskat resul-tat, befogenheter/ansvar, behov för att lösa uppg.

3. Specificering av 1)användar-nas & 2)organisationens krav.1.funktionalitet, interaktionssätt,struktur, terminologi, anv.stöd,2.verksamhetens syfte, kostnad,underhåll, arbetsflöde, identitet

4. Produktion av designlösningar

5. Användbarhetsutvärdering Uppfylla kravspecifikation

Möter kraven

Användbart?

Är ett program användbart när det har fler än 1000 användare per dag? (the Systran case), 1 million translations each day (Jurafsky & Martin, 2000)

Är ett program användbart när en forskare visar det genom att mäta någon egenskap hos programmet (part-of-speech tagger?)

Eller är ett program användbart när vi vet att användarna uppskattar det? (Eliza, drill-and-kill i CALL)

Glider vi in en ny disciplin nu?

Datorstödd språkinlärning !CALL"

Språkteknologin styvmoderligt behandlad

Vad behöver vi veta för att lyckas? Andraspråksinlärning, MDI, Datorstödd inlärning generellt !skillnad?" och språkteknologi och datalogi.

Page 10: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Går det att bevisa lärande sker?

Kan vi mäta e'ekterna av användningen av ett CALL$program?

Kan vi visa att falska alarm inte är farliga?

Många studier inom fältet andraspråksinlärning bygger på pre$test och post$test. Är det så enkelt?

Tänka-högt metodik

Vad är syftet med tänka$högt?

Man vill veta vad personen “tänker” vid en speciell handling vid en speciell tidpunkt.

Vad blir skillnaden om du tänker högt med en kompis?

Loggning Fältstudier

Världen ligger utanför laboratoriet

Mer okontrollerad datainsamling speciellt om studien pågår en längre tid.

Etnografi

Teoristyrd metod !t.ex. sociokulturell", man vill ofta visa något, t.ex. kontexten styr tolkningen av uppgifter !t.ex. portotabellen"

Page 11: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Fältstudier med Granska

16 studenter, 3 månader till 10 år i Sverige

20$40 år gamla, endast en man.

Avancerad kurs i svenska som främmande språk.

Vi förklarade att Granska endast är ett datorprogram med begränsad språklig “förmåga”.

Implementationen av fältstudien

! Kontakter med lärare, studierektor

! Lära känna kursen, dess mål, innehåll och dess studenter

! Introduktion av oss och projektet

! Deltagande observationer !Granska i datorsal"

! Insamling av data

! Medgivandeformulär

Why focus on errors?

“The learners’ errors are a register of their current perspective of the target language” !James, 1998".

“Noticing a problem ‘pushes’ the learner to modify his/her output” !Swain & Lapkin, 1995": # syntactic processing mode # important for the development of IL

Instruktioner till användarna

”Använd Granska när du vill

och när du tycker att programmet

kan hjälpa dig”

Fokus på studenternas fria skrivande

Page 12: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

detection

diagnosis

correction

5. Utmärkt $ t.ex. jag förstår precis vad Granska menar

4. Bra # t.ex. Granska är till ganska stor hjälp

3. Godkänt # t.ex. jag har svårt att ta ställning, men jag chansar …

2. Dåligt # t.ex. jag har svårt att ta ställning, måste slå i lärobok

1. Obegripligt # t.ex. jag förstår inte vad Granska menar

Antal uppgifter, vilken typ Ordförande inledde diskussionen och deltagarna hade olika uppfattning om vad en uppgift och ett ämnet är. ((((ett ämnet ((((Om ett syftar på ämnet är det kongruensfel !kong22E@kong" (M5,D3,E2) Här borde det vara ett ämne

((((det ämnet

De föreslog att ett prov med flera delar / uppgifter betyder flera skriftliga uppsatser eller övningar !t. ex. grammatik eller ordkunskap" som måste göras under provet. Ett ämne beskrevs som en uppsatsfråga !t. ex. pappaledighet". Efter en tolkning av vad en uppgift och ett ämne egentligen betyder samt en kort diskussion beslutade mötes majoritetet att en uppgift på provet är tillräcklig. ((((majoritetet ((((Okänt ord !stav1@stavning" Stava (M5,D3,E5) Här borde det vara: beslutade majoriteten... ((((majoriteten((((majoriteter

Språkteknologi för inlärare

Hur kan vi stödja inlärning med annan teknik än en robust grammatikkontroll?

Vilken funktionalitet är viktig i en miljö för inlärare av svenska?

Page 13: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Bedömningar av falska alarm

Error typedetection

meandiagnosis

meancorrection

mean

Agr. NP 5 2 2

Spelling 4 3.3 2.6

Word order

5 5 5

Missing X 2.3 1.7 1.7

Resultat

Brist på “feedback” och vilseledande

“feedback”

Olika källor med lingvistisk information # ett verktyg räcker inte.

Fokus på form

Mer resultat

Att lita på programmet

Metaspråk och grammatisk kunskap

Genomskinlighet !kan man få fram stavningsreglerna ur stavningskontrollen"

Interaktion and integration

Användaranpassning av Granska

Andraspråksinlärare och användare med speciella behov

Andra behov av språklig hjälp

Om en mening innehåller många fel är den synnerligen svår att analysera

Nya krav på gränssnitt och innehåll $$>

Grim!

Page 14: Preview of “F6 Utvardering”evapet/Undervisning/sgv09/F6_Utvardering.pdf · att all aggrivisitet kommer ut   ... Lära känna kursen,

Några insikter

En grupp av studenter vill lära sig från programmet.

En annan grupp av studenter vill endast lyckas med skrivuppgifterna !kursen".

Läraren är mycket viktig för förklara programmet och dess innehåll. Läraren står så att säga mellan programmet och studenten.

Hur skall vi designa ett program för

andraspråksinlärning?

Vårt förslag är Grim.

Grim är en lärmiljö med många olika verktyg.

Grim ger “feedback” på olika aspekter av skribentens språk.

Grim ger exempel på målspråkets användning

Diskussion

Är Grim en lärmiljö?

Skall man bygga in pedagogiska paket i miljön?

Semantisk återkoppling $$ när blir det “focus on forms”?

Varför används datorer så lite i språkutbildning?

Hur kan vi studera Grim på ett naturligt sätt utan marknadsföra det?

Demo av Grim

http://skrutten.nada.kth.se/grim