undersøgelse af slutbrugertest versus ekspertbaseret...

37
Usability-evaluering Undersøgelse af slutbrugertest versus ekspertbaseret gennemgang Projektafhandling ved Master i Bibliotek og informationsvidenskab Danmarks Biblioteksskole Eva Bye Andersen Marts 2008

Upload: others

Post on 30-Aug-2019

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

Usability-evaluering Undersøgelse af slutbrugertest versus ekspertbaseret gennemgang

Projektafhandling ved Master i Bibliotek og informationsvidenskab Danmarks Biblioteksskole

Eva Bye Andersen

Marts 2008

Page 2: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

1

Indhold Abstract 2 Indledning Problemformulering 2 Motivation 3 Metode 3 Teori Human computer interaction (HCI) og definition af usability 5 Kognitiv IR-model og HCI 8 Usability-evalueringsmetode 9 Ekspertbaseret gennemgang og Heuristisk evaluering 11 Slutbruger-gennemgang 12 Evaluator-karakteristik og effekt 12 Tænke-højt 14 Worktask 14 Relevans 15 Empiri Dataopsamling 16 Undersøgelsesleder og observatør 16 Design af ekspertbaseret evaluering 17 - udvælgelse af evaluatorer, evaluering Design af brugertest 18 - udvælgelse af evaluatorer, rekruttering, opgaver og evaluering Pilottest 20 Resultater og Analyse 21 Ekspertbaseret evaluering 22 Brugertest 27 Diskussion 32 Konklusion 33 Perspektivering 34 Litteraturliste og bilag 34

Page 3: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

2

Abstract Nærværende afhandling er en komparativ empirisk undersøgelse af 2 metoder og tilgange indenfor usability-evaluering. Formålet med undersøgelsen er at afdække typer af data ved de 2 metoder og hvordan metoderne adskiller og supplerer hinanden. Summativ heuristisk evaluering som ekspertbaseret gennemgang testes i et undersøgelsesdesign hvor 4 eksperter evaluerer et website baseret på heuristisk evaluerings-metode efter Nielsen (1993) suppleret med problemkategorisering efter Molich (2003). Slutbrugertest testes i et undersøgelsesdesign med 4 slutbrugere, der bygger på den holistiske tilgang indenfor det kognitive synspunkt i Information Seeking-forskningen med brug af simulerede worktask (Borlund, 2000). Resultatet af undersøgelsen viste at heuristisk evaluering hurtigt og nemt frembringer resultater af overfladekarakter. 167 problemer, heraf 73 % unikke, blev fundet af 4 eksperter nogen erfaring/ ekspertkarakteristik og bekræfter at eksperter i computerviden, domæne og usability finder flest problemer. Problemerne havde karakter af overfladeproblemer. Brugertest efter simulerede, scenarieopbyggede worktask involverede 4 slutbrugere. Resultatet bekræfter at simulerede worktask sikrer kontrol.og valide resultater. Der blev observeret problemer i 6 ud af 7 worktask; 37 problemer af faktuel og konceptuel karakter og domænerelaterede i alt. Konklusionen er at de 2 undersøgelsesmetoder indenfor nærværende undersøgelsesdesign supplerer hinanden med forskellige sæt af resultater som resultat af 2 forskellige tilgange. Heuristisk evalueringsmetode er let at anvende. Brugertesten er fleksibel og kan varieres på varighed og deltagere, og worktask kan tilrettes domæne og målgruppe. Omkostningerne er små og metoderne realistiske at gennemføre i små biblioteker. Resultatet er for så vidt validt, idet metoderne er anvendt systematisk og evaluatorkarakteristik og antal ligger indenfor anbefalingerne.

Indledning Problemformulering Fokus er en komparativ undersøgelse af slutbrugertest versus ekspertbaseret gennemgang. Centrale undersøgelsesspørgsmål søges besvaret:

1. Hvilke typer af data afdækkes ved undersøgelse gennemført af slutbrugere som testpersoner og eksperter som testpersoner?

2. På hvilke måde adskiller og supplerer de 2 testgrupper hinanden? Faglig motivation Omkostningerne spiller en rolle for små bibliotekers mulighed for at foretage usability-test. Heuristisk evalueringsmetoden er billig og kan foretages af bibliotekets eksperter. Heuristisk evaluering anses for at være et supplement eller erstatning for de omkostningstunge laboratorietest. Modellen er veltestet fra ekspertbaserede studier og giver resultater på kort tid. Undersøgelser viser at metoden er velegnet til at frembringe resultater. Metoden viser ikke noget om brugernes konceptuelle problemer (Blanford et al. 2004) og brugerne er ikke inddraget. Derfor vil undersøgelsen afdække resultaterne fra 2 forskellige metoder og analysere hvorledes de 2 metoder supplerer hinanden. Resultatet

Page 4: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

3

vurderes i forhold til hvordan et mindre bibliotek kan anvende metoderne med størst muligt udbytte og under hensyn til omkostningerne. Parametre som fundne problemer og evaluatorkarakteristik er relevante til sammenligning. Siden 1990’erne er der foretaget en række studier af heuristisk evaluerings-metodens performance, validitet i resultaterne, stabilitet og troværdighed og sammenlignelighed med andre metoder. Flere forskere (Hartson 1998; Dumas og Redich, 1999; Dillon, 2001) peger på det værdifulde i brugerorienterede usability-studier men også det nødvendige i fremskaffelse af valide data. Mange brugere af det digitale bibliotek foretager informationssøgning uden mediator og interaktionen sker mellem system og bruger. På grund af den interaktive proces mellem system og bruger inddrages testbrugere. Desurvire (1994, s. 174) peger på at de 2 metoder afslører forskellige sæt af problemer hvilket taler for, at den heuristiske evaluering som hurtig og billig løsning ikke kan erstatte empiriske undersøgelser. Undersøgelsen tager sit afsæt i en kontekst på Københavns Tekniske Bibliotek, der er et studiebibliotek for ingeniørstuderende i forskningsanvendte uddannelser på Ingeniørhøjskolen i København (IHK). Det digitale bibliotek præsenteres ved et website. Til bibliotekets egen base er der fri adgang men for alle elektroniske databaser får kun indskrevne studerende og ansatte adgang fra campus eller via fjernadgang. I forbindelse med nyt webdesign har biblioteket ændret den materialeorienterede tilgang til en brugerorienteret tilgang på baggrund af fokusgruppeinterview gennemført i 2005 med studerende og undervisere (Københavns Tekniske Bibliotek, 2005) og inspireret af flere store undersøgelser i danske forskningsbiblioteker gennem de senere år med netop en brugerorienteret vinkel (UNI.C, 2004; DEFF, 2006). Der er behov for at vurdere websitet fra både en mere faktuel vinkel og checke om alt virker men også hvorvidt det understøtter brugernes informationssøgninger.

Metode

Ord-definition. For en række ord og begreber har jeg valgt at anvende den engelske term. Det drejer sig om ordet usability som jeg anvender frem for det danske ord brugervenlighed. Ligeledes anvender jeg ordet task og worktask idet jeg finder ordet bedre dækkende end det danske ord opgave eller arbejdsopgave. I opgaverne rettet mod evaluatorerne anvendes dog ordet opgaven af forståelseshensyn. Jeg anvender query som betegnelse for det danske ord søgespørgsmålet. Testdeltagerne omtales som evaluator mens undersøgelsesleder, observant og forfatter til nærværende undersøgelse er én og samme person. Afhandlingens opbygning. Afhandlingen er bygget op i afsnittene teori om human computer interaction (HCI) og definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode, ekspertbaseret gennemgang og heuristisk evaluering, slutbruger-gennemgang, evaluator-karakteristik og effekt, tænke-højt metoden, worktask og relevans. Herefter følger afsnit om undersøgelsesleder og observatør, dataopsamling, design af empiri, rekruttering af evaluatorer, worktask. Derefter følger pilottest resultater og analyse. Afhandlingen afsluttes med diskussion, konklusion og perspektivering.

Page 5: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

4

Til at besvare afhandlingens undersøgelsesspørgsmål slutbrugertest versus ekspertbaseret er valgt 2 typer af undersøgelser: Den ene er empirisk brugerundersøgelse med brug af slutbruger og worktask, indenfor paradigmet af det hermeneutiske videnskabsideal og med en brugerorienterede tilgang inden for det kognitive synspunkt i Information Seeking-forskningen. Simulerede worktask anvendes med udgangspunkt i rigtige informationssøgebehov i lokal kontekst. Den anden er en summativ ekspertgennemgang efter heuristisk evalueringsmetode. Undersøgelsen gennemføres efter metodens præmis og anbefalinger. Den ekspertbaserede gennemgang benytter sig af både kvalitativ dataindsamling samt kvantitativ dataindsamling. De kvalitative data indhentes ved interview og observerende data og slutter af med et struktureret interview. De kvantitative data indhentes ved hjælp af checklisten efter den heuristiske evalueringsmetode og spørgeskema. Slutbrugetest benytter sig af både kvalitativ dataindsamling samt kvantitativ dataindsamling. De kvalitative data indhentes empirisk test og observerende data. Kvantitative data indhentes ved hjælp af spørgeskema. Det teoretiske grundlag indenfor HCI og usability-forskningen præsenteres ved Nielsen (1992, 1993) og Molich (2003, 2004) og teoretikere og empiri fra Hertzum og Jacobsen (2003) og Hartson (1998). I gennemgang af evaluator-karakteristik og effekt inddrages Kaasgaard (2000), Nielsen (1993), Hartson (1998) og Borgman (1986, 1996, 2004). Teori inden for Information retrieval og Information seeking-forskning præsenteres ved Kuhlthau (1991), Vakkari (2000) og Ingwersen og Järvelin (2005). Om brug af simulerede worktask inddrages Borlunds resultater (2000). Relevansbegrebet præsenteres ved Saracevic (1996) og Borlund (2001). Det teoretiske afsæt danner grundlag for etablering af undersøgelsesdesign efter de 2 udvalgte metoder.

Teori HCI og definition af usability Usability placerer sig indenfor området HCI – Human Computer Interaction. HCI beskrives som en disciplin på tværs af forskningsfelter som ergonomi, kognitiv psykologi, adfærdspsykologi, systemudvikling og computervidenskab, der alle har det mål at opnå høj bruger-usability af computerbaserede systemer (Hartson, 1998, s. 103). Usability ses af Hartson som det centrale begreb indenfor HCI (1998, s. 103). I usability er brugernes interaktion med computersystemet centralt. Nedenfor følger dels definition dels forståelsesrammer samt diskussion af begrebet usability. Usability placeres af Nielsen (1993, s. 25), som et attribut indenfor det større aspekt system accept (system acceptability på engelsk), der består af social og praktisk accept. Praktisk accept foldes ud i pris, anvendelighed, driftssikkerhed, kompatibilitet og nytte. Nytte foldes ud i brugbarhed (usability på engelsk) som igen foldes ud i 5 attributter: learnability, efficiency, memorability, errors, satisfaction og præciserer attributterne som målbare komponenter med det mål for øje at usability bliver en systematisk og evalueret tilgang.

Page 6: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

5

Bilag 1. A model of the attributes of system acceptability (Nielsen, 1993, s. 25)

Learnability præciseres som ”systemet skal være let at lære så brugeren hurtigt gå i gang med sin opgave og nå sit mål”, Efficiency præciseres som ”systemet skal fungere effektivt at bruge, så brugeren kan nå et højt niveau af produktivitet, når man har lært systemet at kende”, Memorability præciseres som ”systemet er let at huske så den sjældne (casual) bruger kan vende tilbage til systemet uden at skulle lære systemet at kende forfra”, Errors præciseres som ”systemet skal have få fejl, så brugeren laver få fejl og hvis brugeren laver fejl skal han hurtigt kunne komme videre. Katastrofale fejl må ikke forekomme”, Satisfaction præciseres som ”systemet skal være behageligt at bruge så den enkelte bruger er tilfreds efter brug” (Nielsen, 1993, s. 26). Molich omtaler usability som en fællesbetegnelse for nytteværdi og nemhed (2003, s. 21) og fremhæver drift, vedligehold og omlægning som 3 vigtige egenskaber ved et websted. Den del af usability, der har med nemhed at gøre, defineres som let at lære, let at huske, effektivt at bruge, forståeligt, tilfredsstillende at bruge. Let at lære præciseres som ”den tid det tager brugeren at lære at løse bestemte opgaver”, let at huske præciseres som ”den tid det tager brugere, der sjældent anvender webstedet, at løse bestemte opgaver”, effektivt at bruge præciseres som ”hastigheden hvormed bestemte opgaver løses fx svartid, fejl, fejlmeddelelser”, forståeligt præciseres som ”brugerens evne til at svare korrekt på spørgsmål om webstedet efter brug”, tilfredsstillende at bruge præciseres som ”den tilfredshed brugerne udtrykker” (s. 23). Dumas og Redich (1999, s. 4) bruger usability i den betydning at brugeren kan bruge produktet hurtigt og let for at opnå egne mål. Definitionen bygger på 4 pointer: fokus på brugeren, produktivitet, brugeren stræber efter at opnå mål og brugeren beslutter hvorvidt produktet er let at bruge. Fokus på brugeren i den betydning at ingen kan erstatte den faktiske bruger. Produktivitet i den betydning let at lære og let at bruge; tidsforbruget og antal trin igennem produktet og succes i målsøgning. Brugeren stræber efter at opnå mål i den betydning at målet, ikke processen, er interessant. Brugeren, i modsætning til designere og udviklere, afgør produktets anvendelighed. Samme fokus på brugeren finder vi i Hartsons (1998, s. 103) forståelse af usability med ”ease of use plus usefullness” som inkluderer brugerens behov i modsætning til ”ease of use”.

Page 7: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

6

DS/EN ISO 9241-11 standard definerer usability som ”Extent to which a product can be used by specified users to achieve specified goals with effectiveness, efficiency and satisfaction in a specified context to use” (1998, s. 2). Dillon fremhæver ISO-standarden’s definition effectiveness, efficiency og satisfaction i kontekst med bruger, task og situation som værdifuld men selv om usability-evalueringen inkluderer repræsentative brugere og task-orienterede design er der flere problemstillinger fx omkring brugen af task, hvor svaret ikke er målbart med ét rigtigt svar, hvorfor målingen af effectiveness påvirkes (Dillon, 2001, s. 58). Dillons alternativ inddrager brugerens erfaring på ”process”, ”outcome” og ”affect”, hvor process præciseres som aktion og respons som brugeren opnår i processen, outcome dækker variabler, der måler eller refererer til det brugeren opnår ved interaktionen og affect dækker følelsesmæssige elementer. Alternativet præsenterer en liste af elementer til undersøgelse, ikke i en færdig programform men mere som ide (s. 61-63). Sammenligning af definitionerne: Nielsens og Molichs opdeling ligger sig tæt op ad hinanden med operationelle og gennemprøvede mål. Dumas og Redich og Hartson arbejder med en tilgang, hvor brugeren er af primær betydning, mens Dillon supplerer målbare attributter fra DS/EN ISO-standarden med brugerens oplevelser og opstiller approach til modellen (Dillon, 2001, s. 62). Dillon peger på forskellen i resultater fra engangsundersøgelser og undersøgelser over tid og at data fra brugerorienterede undersøgelser er bedst indikator for kvaliteten. Følgende skema giver en oversigt over usability-definitioner:

Page 8: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

7

Dumas og Redich

Hartson Nielsen

Molich DS/EN ISO 9241

Dillon

Fokus på brugeren

Fokus på brugeren

Learnability (systemet skal være let at lære så brugeren hurtigt gå i gang med sin opgave og nå sit mål)

Let at lære Effective-ness

Effectiveness

Produktivitet (let at lære og let at bruge)

Ease of use Efficiency (systemet skal fungere effektivt at bruge, så brugeren kan nå et højt niveau af produktivitet, når man har lært systemet at kende)

Effektivt at bruge

Efficiency Efficiency

Brugeren stræber efter mål (målet, ikke processen, er interessant)

Usefullness Memorability (systemet er let at huske så den casual bruger kan vende tilbage til systemet uden at skulle lære systemet at kende forfra)

Let at huske

Satisfaction Satisfaction

Brugeren beslutter om systemet er let at brug (i modsætning til designere og udviklere)

Errors (systemet skal have få fejl, så brugeren laver få fejl og hvis brugeren laver fejl skal han hurtigt kunne komme videre. Katastrofale fejl må ikke forekomme)

Forståeligt Process (aktion og respons som brugeren opnår i processen)

Satisfaction (systemet skal være behageligt at bruge så den enkelte bruger er tilfreds efter brug)

Tilfreds-stillende at bruge

Outcome (det brugeren opnår ved interaktionen)

Affect (følelsesmæssige elementer)

Page 9: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

8

Kognitiv IR-model og HCI I Information Seeking-forskning anerkendes den brugerorienterede tilgang indenfor det kognitive synspunkt og ses i samspil med IR-systemet. Belkins ASK-hypotese, fremsat i 1980, undersøgt i 1982 og placeret indenfor det kognitive synspunkt formulerer at ”The ASK [Anamalous State of Knowledge]-hypothesis is that a information need arises from a recognized anomaly in the users state of knowledge concerning some topic or situation and that, in general, the user is unable to specify precisly what is needed to resolve that anomaly” (Belkin, Oddy, Brooks, 1982). Tilgangen er siden 1990’erne udviklet holistisk og inddrager alle kommunikationsprocesserne i informationsoverførslen, fx dokumentrepræsentationen, queries og IR-teknikker I Ingwersens model Cognitive model of IR interaction, se figur i bilag 5, præsenteres dokumentsurrogat i katalogen, IR-systemet, query, interface og brugeren med både worktask, problem og følelsesmæssig tilstand set i en social/organisatorisk kontekst (Ingwersen, 1992, s. 48; Ingwersen, 1996, s. 9; Ingwersen og Järvelin, 2005, s. 247). Modellen er medtaget, fordi den viser brugeren i social og organisatorisk kontekst og interaktionen mellem (IR) system, interface og bruger og tilbyder en helhedsforståelse af informationssøgeprocessen.

Model Cognitive model of IR interaction (Ingwersen og Järvelin, 2005, s. 333) Bilag 2

Mange brugere af det digitale bibliotek foretager informationssøgning uden mediator (Pors, 2005) og interaktionen sker mellem system og bruger, altså kobles informationssøgeprocessen sammen med forskningsfeltet human computer interaction. I nærværende undersøgelse er usability-evalueringen foretaget af slutbruger at placere i interaktionen mellem system og bruger, Intermediary i Ingwersens model. På grund af den interaktive proces mellem system og bruger inddrages testbrugere i undersøgelsesdesignet for at arbejde med personlige informationsbehov (i dette tilfælde simulerede worktask).

Page 10: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

9

Mange aspekter af human-computer interaction involverer komplekse processer og det involverer mentale modeller. De mange niveauer i computerprocessen inkluderer model for såvel hardware, operativsystemer, software og applikationer, og det er teoretisk uløst om modellerne kan arbejde sammen. Højst sandsynlig er brugerens model mere enkel i forhold til systemudviklernes. Men overfører vi mentale modeller fra et formål til et andet opstår enten en synergieffekt eller konflikt (Allen, 1997, s. 51). Systemudviklerne og computerprocessernes mentale modeller behandles ikke, idet det vurderes at ligge i yderzonen af undersøgelsens område. I den holistiske tilgang inddrages brugernes søgeadfærd, fx har Kuhlthau (1991) demonstreret at informationssøgeren gennemgår 6 følelsesmæssige stadier igennem informationssøgeprocessen, der starter med indledende fase og ender ved afslutning/præsentation. Tankerne starter med at være vage og generelle, bliver derefter mere snæver og klar, interessen stiger og ender mere klart og fokuseret. Også arten af information ændrer sig og starter med generel baggrundsinformation og fokuserer til sidst. Undersøgelsen viste også at brugerne har problemer i indledende stadier og bekymring opstår når man er uvant med systemet og teknologien. Evaluatorerne i nærværende brugertest formodes ikke at mangle tekniske færdigheder (Uhrskov, 2002, s. 14; Pors, 2005, s. 42). Vakkari (2000b) har påvist at informationssøgerens konkrete vidensniveau påvirker søgning og relevansvurdering. Brugerens mentale model udvikler sig gennem søgeprocessen; de bliver mere fokuserede og vidende (s. 5). De søger generel baggrundsinformation, mere facetterede baggrundslitteratur midt i processen og ender med mere specifik information. Relevansvurderingen ændrer sig i takt med at brugeren opnår læring. Resultaterne peger på at interaktion mellem system og bruger er mest effektiv når brugerens mentale model er klarere. Også brug af søgeteknik stiger gennem søgeprocessen. Brugere med mere viden om emnet anvender rigere ordvalg hele processen igennem (Vakkari, 2000a, s. 9). Eksperter bruger også beslægtede emneord og komplekse søgesæt mens novicer fortsætter med emneord, bruger simple søgestrenge, har et højere tidsforbrug og giver hurtigere op. Med andre ord får uerfarne IR-brugere dårligere søgeresultater (Sutcliff, Ennis og Watkinson, 2000, s. 1213, 1217). Få aspekter af søgeadfærden afdækkes i undersøgelsen men anvendes i brugerkarakteristik. Usability-evalueringsmetoder Evaluering som begreb dateres til begyndelse af systemanalyse mens usability evaluering ses sammen med starten af HCI. Usability evalueringsmetoder omtalt i publicerede artikler tager sin begyndelse i 1980’erne efterfulgt af studier, der sammenligner metoderne (Hartson, Andre og Williges, 2001, s. 373-374). Definition af usability-evalueringsmetode refererer som oftest til formative usability evaluering fx laboratorietest med brugere, heuristikker og andre ekspertbaserede metoder og modelbaserede analytiske metoder og ekspertbaseret evaluering (Hartson, Andre og Williges, 2001, s. 377) og tilbyder kvalitative data.

Page 11: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

10

Der er udviklet en række forskellige inspektionsmetoder, herunder cognitive walk-throughs, claims analysis og heuristic evaluation som er effektive til at finde nogle slags usability-problemer men er begrænset af rammen om guidelines (Hartson, 1998, s. 108). Metoder og kriterier er forskellige og selv om alle har det mål at beskrive usability-problemer, er sammenligning vanskelig netop på grund af forskellighederne og mangel på sammenlignelige standardkriterier (Hartson, Andre og Williges, 2001, s. 379). Manglerne fører til usikre evalueringer og sammenligningsundersøgelser og vanskeliggøre det valg en undersøger må tage ved en undersøgelse vedrørende metode. Gray og Salzman (1998, s. 206) kalder studierne i usability-evalueringsmetoder for potentielle vildledende. Der mangler standardkriterier for sammenligning, standard for hvilke definitioner, mål og måling kriterierne baseres på og stabile processer og evaluering og sammenligning (Hartson, Andre og Williges, 2001, s. 376). Da metoderne selv ikke er stabile og forskningsfeltet ungt er meta-sammenligninger af usability studier nærmest umulige (s. 406). I Hertzum og Jacobsens studie af 3 usability evalueringsmetoder (2003) påvises det at både cognitive walkthrough-metoden, heuristic evaluation-metoden og thinking aloud-metoden påvirkes væsentlig af evaluatorerne, både hvad angår novice-evaluatorer og ekspert-evaluatorer og hvad angår mindre og alvorlige problemer og i simple som avancerede systemer. Metoderne er præget af vage målanalyser (s. 196), evalueringsprocedurer (s. 197) og problemkriterier (s. 199). De vage målanalyser opstår fordi heuristisk evaluation baseres på en mere mental målanalyse. Vag målanalyse fører til mange skøn foretaget af evaluator. De vage evalueringsanalyser opstår også fordi der ikke er en systematisk procedure, der sikre at hele interface evalueres af alle heuristikker. Heuristikkerne tjener som sådan til inspiration og kan bruges på forskellige måder i varierende grad. En sådan uformel metode fører til evaluator-effekt (s. 197). I Nielsens model anvises ikke graden af problem og mere præcise definitioner af konceptet er nødvendigt indenfor forskningen for at kunne gennemføre troværdige studier. Metoden kan også angribes for ikke at angive løsninger men kun problemer. På digitale bibliotekers website er vidensorganiseringen omfattende, der er mange oplysninger og flere veje at vælge igennem søgeprocessen, og en heuristisk gennemgang der gennemgår hver side, synes umulig. Alternativt anvendes task, hvilket stiller krav til veldefinerede task på baggrund af brugermodel. Det er problemer med bl.a. formulering af query og vurdering af søgeresultat og at arbejde med flere vinduer, der gør bibliotekerne vanskelige at bruge, ikke overfladeproblemer (Blandford et al., 2004, s. 29). Heuristisk evaluering fokuserer på overfladeproblemer og med risiko for at fordybe sig i enkeltsager frem for ”the big picture” og afdækker ikke konceptuelle problemstillinger ved det digitale bibliotek og informationssøgning og afdækker ikke potentielle brugerproblemer. Eksperterne i evalueringen må have viden om brugere af det digitale bibliotek fx kendskab til brugerens task og terminologi men dybere forståelse kan kun fås ved at supplere med/anvende andre undersøgelsesmetoder. Netop checkliste-formen gør heuristisk evaluering populær men Blandford et al. (2004, s. 34) peger på at der mangler forskning i brug af metoden indenfor det digitale bibliotek. I en undersøgelse af evalueringsmetoder ses det at heuristisk evaluation minder evaluatorerne om at analysere flere aspekter af interface, hvor cognitive walkthrough fokuserer på små

Page 12: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

11

detaljer, der forstyrrer indtryk af det overordnede formål med websitet og tenderer til at kede evaluatorerne (Desurvire, 1994), s. 190). Sandusky (2002, s. 36) har præsenteret en supplerende checkliste til dels fleksibel, holistisk tankerække dels identifikation af ligheder, forskelle og mønstre mellem forskellige digitale biblioteker. De 6 grupper af attributter med underliggende dimensioner tilbydes til analyse af digitale biblioteker, enkelvist og sammenlignende. At anvende attributterne i nærværende opgave vurderes som omfattende og delvist uden for undersøgelsens fokus. Jeg har i min undersøgelse vægt på udbyttet ved af brug af evalueringsmetoder, der i sit udgangspunkt er forskelligt, hvorved forskellighed og lighed i dataudbyttet er genstand for undersøgelsen. Molich (2004, s. 74) anbefaler efter 2 studier i usability evaluation (CUE-1 og -2) at anvende et mix af evalueringsmetoder og tilføjer at ingen test kan give en fuldstændig liste af fejl. Også Nielsen (1993, s. 160) karakteriserer heuristisk evaluering som en usability engineering method, der ikke garanterer det perfekte resultat eller finder ethvert problem, men ”In the cause of usability, doing something is almost better than doing nothing” (Gray og Salzman, 1998, s. 207). Ekspertbaseret gennemgang – heuristisk evaluering Jeg vil i min undersøgelse anvende Nielsens definition af usability og heuristisk evaluering som usability-evalueringsmetode, da den netop er velegnet til ekspertbaseret gennemgang (Hartson, Andre og Williges, 2001, s. 379), stemmer overens med undersøgelsesspørgsmålet og metoden er veldokumenteret. Hartson påpeger at Nielsens tilgang og metode, der med sin opmærksomhed på omkostningerne også kaldes discount usability methods tilbyder en metode med lavt omkostningsniveau ”…the practical goal of achieving specifications and not perfection” (1998, s. 108). Hertzum har påpeget evaluatoreffekt ved heuristisk evaluering som metode indenfor målanalyser, evalueringsprocedurer og problemkriterier. Det er præmisser i undersøgelsesdesignet og som må vurderes ved analysen af resultaterne. I forhold til problemkriterierne inddrager jeg Molichs kategorier og i forhold til evalueringsprocedurerne indskærpes evaluator at være opmærksom på at inddrage alle heuristikker ved gennemgangen, men der er en vis indbygget usikkerhed hvorvidt evaluator gør det, når modellen ikke er bygget til det. Det er ligeledes en præmis i undersøgelsesdesignet og som må vurderes ved analysen af resultaterne, hvor jeg også vil vurdere, hvorvidt det er realistisk og relevant. Kaasgaard (2000, s. 55) fremhæver at der vælges forkerte metoder i usability-evaluering og taler imod fokusgruppe som omtales som et marketingværktøj. Jeg har fravalgt at afslutte evalueringerne med fokusgruppeinterview og i stedet valgt interview med den enkelte evaluator. Heuristisk evaluering kan involvere et mindre antal evaluatorer, der skal undersøge webinterface og vurdere om det er i overensstemmelse med accepterede usability-principper/heuristikker (Nielsen, 1993, s. 155). Det gør metoden operationel indenfor de rammer nærværende undersøgelse skal foregå i. Nielsens 10 heuristikker: visability of system status, match between system and real world, user control and freedom, consistency and standards, error preventing, recognition rather

Page 13: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

12

than recall, flexibility and efficiency of use, aesthetic and minimalist design, help users recognize, Help and documentation, se bilag 4. Teori om gennemgang foretaget af slutbruger Brugerdata er den bedste indikator for interaktionskvalitet, udtrykt som ”… importance of extending the classic usability approach to evaluation to include a more holistic set of user experience measures” (Dillon, 2001, s. 67-68) og “..the individuals process of getting and using information is a vital aspect that cannot be overlooked” (Kuhlthau, 2004, s. 1). Selvom muligheden for kontrol og sammenlignelighed falder i de rene brugerorienterede test og stiger i laboratoriekontrollerede test giver brugertest indblik i kognitive processer og problemer. Indblik som laboratorietest ikke simulerer. ”The conflict between laboratory an operational experiments is essentially a conflict between, on the one hand, control over experimental variables, observability, and repeatability, and on the other hand, realism” (Robertson og Hancock-Beaulieu, 1992, s. 460). Forståelsen af relevans er medvirkende årsag til at inddrage brugere, idet relevans her opfattes som subjektivt. En mulighed er at anvende ”personas” (på dansk modelbruger) bygget op over brugermodel med en række brugerkarakteristika ”En brugerkarakteristik er en konkret, realistisk beskrivelse af en person i en målgruppe. En brugerkarkateristik beskriver en fiktiv person, men denne person skal være en god fællesnævner for et større antal brugere af websitet” (Molich, 2003, s. 45). Den typiske bruger findes ikke men 3-5 brugerkarakteristikker udspænder et fornuftigt designrum. Personas kan hjælpe systemudviklere i forestillingerne om rigtigere brugere (Blandford et al. 2004, s. 32). Målgruppen for websitet er institutionens studerende og undervisere og en brugerprofilsanalyse vil kunne afdække de 2 grupper med individuelle karakteristika. I nærværende opgave tager undersøgelsen udgangspunkt i brug af virkelige brugere og for at understøtte resultatet vil jeg anvende 3 brugerkarakteristika fra Nielsens brugermodel (1993, s. 44). Jeg vil vurdere efterfølgende om karakteristikkerne helt eller delvist kan understøtte fremtidigt arbejde i usability-test og vidensorganisation. Følgende karakteristikker undersøgelse og kortlægges i nærværende undersøgelse: Domæneviden. Både fra IR-forskningen og HCI-domænet ved vi at domæneviden spiller en afgørende rolle (Fidel og Soergel, 1983; Belbin, Oddy og Brooks, 1992; Nielsen, 1993; Vakkari, 2000). Computerviden beskrevet viden om computere generelt viden om søgning og brug af bibliotekskataloger og elektroniske ressourcer. Viden om usability. Evaluator-karakteristik og effekt: Nielsen trækker i sin argumentation tråde til 80’erne i sin opdeling af computer-novice og domæneekspert (Kaasgaard, 2000, s. 58). I 1980’erne var det en udbredt tro at brugere først var novicer og derefter blev de eksperter i mange år i brug af webinterfaces. (s. 59). Hartson breder sin opdeling ud i 3 grupper ”..novices and casual users…”, ”…intermediate user[s]…”, ”… expert users…” (Hartson, 1998, s. 103). I sin model, se også bilag 7, viser Nielsen de 3 væsentlige områder hvor brugers erfaring adskiller sig, generel computerviden, viden om det specifikke system og domæneviden.

Page 14: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

13

Bilag 1. Figur. Brugeres forskellige viden. (Nielsen, 1993, s. 44) Bilag 3.

Indenfor IR-forskningen præsenteres en model over videns- og erfaringsniveauer med hensyn til task og informationssøgning. Indenfor vurdering af niveau for evaluators computerviden tilføjes ”… even expert searchers…assuming that the system operates in a fashion similar to other systems with which they are familiar. Peopel carry over knowledge from one automated system to the next” (Borgman, 1996, s. 498). Jeg vælger i min karakteristik af evaluator at skelne imellem evaulators computerviden, domæneviden samt viden om usability, fordi det er variabler, der kan have indflydelse på processen og resultatet i sidste ende og derfor bør tages i betragtning (Fidel og Soergel, 1983, s. 164; Nielsen, 1993, s. 160-162). Også parametre i erfaringsniveau i computerviden (bruger af søgemaskiner på www, bruger af bibliotekskataloger, bruger af bibliografiske databaser), herunder konceptuel viden, semantisk viden og viden om syntaks i query (Borgman, 1986, s. 388; Borgman, 1996, s. 495; Borgman, 2004, s. 103-104). Parametre i domæneviden (uddannelse og anciennitet) og demografiske data (køn og alder) medtages. Evaluatorens (aktørens) opfattelse og fortolkning i alle niveauer i forløbet påvirker søgeproces og resultat og hænger sammen med evaluatorens (aktørens) livserfaring, karriere og organisationen sammen med pres (for eksempel travlhed) og følelser (Ingwersen og Järvelin, 2005, s. 316-317). Nielsen påviser i et case studie at evaluators egen baggrund og viden har indflydelse på resultatet i en heuristisk evaluering. ”Usability novicer” (almen computerviden uden usability ekspertise), ”enkelt eksperter” (usability eksperter uden domæneviden) og ”dobbelt eksperter” (usability eksperter uden domæneviden) finder forskellige antal problemer, hvor novicerne har det laveste fund, dobbelt-eksperterne det højeste fund. Nielsen definerer eksperter som ”…graduate degrees and/or several years of job experience in the usability area.” (1992, s. 376). Nielsen konkluderer (s. 375-377) at den optimale ydelse af fundne fejl kræver brug af dobbelt-eksperterne, men de fleste systemer bør testes af både novicer og eksperter (Nielsen, 1993, s. 177). Det er variabler, der kan have indflydelse på resultatet og tages derfor med i betragtning i undersøgelsesdesignet.

Page 15: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

14

Gray og Salzman (1998, s. 231) påpeger, at Nielsens undersøgelse fra 1992 ikke afgør hvorvidt problemerne faktisk er usability problemer. Alternativt kan usability evalueringen gennemføres som pluralistisk usability walkthrough hvis man kun har ”usability novicer” til rådighed. I en sådan undersøgelse bruges repræsentative brugere, produktudviklere og usability-eksperter (Nielsen, 1993, s. 162). Den metode er fravalgt i denne undersøgelse da undersøgelsesspørgsmålet netop er at sammenligne ekspertbaseret gennemgang med slutbrugertest og derfor skal brugere og eksperter ikke mixes. Metoden kan overvejes ved fx et mindre set-up. Modeller anvendes til kategoriseringer frem for individuelle modeller. Et eksempel på kategorisering er novice-ekspert forskellen. Forskellen på eksperter og novicers adfærd kunne være brugbare i fx undervisning. Mens forskel i viden er åbenlyse ved en konkret task, er det straks svære at klassificere mennesker, fordi viden er flerdimensionel (Allen, 1997, s. 53). Jeg vælger at anvende Hartsons 3-opdeling i karakteristik af evaluator og undersøger desuden evaluators ekspertise inden for usability og domæne samt anden computerviden, da de alle er variabler, der kan have indflydelse på processen og resultatet. I spørgeskemaform bedes evaluatorerne beskrive sig selv i ovennævnte kategorier. Forskel på evaluatorgrupper er ikke yderligere genstand for undersøgelse. Tænke-højt metode Tænke-højt er en metode, der ofte ses anvendt i empiriske usability-studier (Ingwersen og Järvelin, 2005, s. 247). I et studie fremhæves metoden af praktiske hensyn frem for retrospektiv tænke-højt og konstruktiv interaktion. Metodens styrke er, at den påviser observerbare problemer, endda flere end de 2 øvrige (Van den Haag, De Jong og Schellens, 2004, s.1168). Ved at verbalisere tanker giver evaluator observatør indblik i ikke bare hvad hun gør, men hvorfor hun gør det (Nielsen, 1993, s. 18). Dertil kommer et stort resultat af kvalitative data selv fra et forholdsvis lille antal deltagere (s. 195). Nielsen omtaler metoden som en der kan benyttes ved en smule træning (s. 19), mens Ingwersen og Järvelin (2005, s. 92) taler om obligatoriske træningssessioner. Men som beskrevet i afsnit om evalueringsmetoder er metoder og kriterier forskellige og sammen med manglende standardkriterier for sammenligning vanskeliggør det studier (Hartson, Andre og Williges, 2001, s. 379). Som andre metoder er den påtrængende, idet deltagerne ved at de er under observation; en præmis der kan sikres gennem statistisk validitet (Ingwersen og Järvelin, 2005, s. 247) Metoden giver indblik i de kognitive processer (Nielsen og Mack, 1994, s. 311). Teori om worktask Borlund (2000) har undersøgt empirisk, hvor vidt simulerede worktask kan anvendes i evaluering af IR-systemer (Information Retrieval) og sikre kontrol og valide resultater som i eksperimentelle forsøg i en så realistisk form som muligt (s. 76). I undersøgelsen indgik 3 komponenter: potentielle brugere som testpersoner, dynamiske og individuelle informationsbehov, flerstrenget relevansvurdering (s. 72). I undersøgelsen blev anvendt 4 simulerede worktask (s. 82). Elementer i simuleret worktask: semantisk og åben beskrivelse af scenariet og konteksten vedrørende worktask. Baseret på scenariet formulerer testpersonen sin søgning. Situationen tjener 2 formål: 1) trigger og udløser et stimuleret informationsbehov og fører

Page 16: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

15

til et individuelt informationsbehov som ved et ægte behov og 2) herfra måles relevans (s. 77). I testen blev testpersonerne instrueret i at finde det antal dokumenter, der skulle til at tilfredsstille deres informationsbehov og altså ikke så mange relevante dokumenter som muligt (s. 81-82). Undersøgelsen konkluderer, at der ingen forskel er mellem brug af simulerede og brugerdefinerede worktask. De simulerede worktask kan mixes eller erstatte de brugerdefinerede (s. 84) og metoden skaber eksperimental kontrol (s. 77). I 2004 anfører Madsen i UNI.C’s undersøgelse at simulerede test ikke afspejler en naturlig brugeradfærd med reelle informationsbehov, hvorimod brugeren ved åbne, interviewbaserede opgaver ”..løser opgaver han med sikkerhed har haft behov for at løse frem for at han løser opgaver som testlederen har fundet på.”(UNI.C, 2004, s. 104). Scenario-teknikken gør worktask mere realistisk med et mål uden at angive vejen og opløse det kunstige i situationen. For at et scenario er godt skal det være kort, brugervenligt sprog, uambitiøst i forhold til undersøgelseslederen. Det gode scenario bibringer evaluator tilstrækkelig information og er tilpasset undersøgelsens mål (Dumas og Redish, 1999, s. 172-173) samt bygge på brugerkarakteristika og varierende scenarierne imellem (Molich, 2003, s. 51). Analyse af task består af: - Et objektivt mål at nå - Et udgangspunkt, der giver afsættet - Aktion - Afslutning, hvor information er indhentet. Analysen kan endvidere beskrive forventet viden og færdigheder. Værdien i task analyse er fokus på brugeren (Dumas og Redish, 1999, s. 42-44). Indenfor IS- og IR-forskning skelnes mellem worktask som arbejds- og fornøjelsesrelaterede med en start og slutning og search task som en aktivitet med det mål at finde specifik information (Ingwersen og Järvelin, 2005, s. 73). For vurdering af task kompleksitet har Byström og Järvelin (1995, s. 211) udviklet en task-level analyse. Task kompleksitet stiger: - når kompleksiteten af informationsbehovet stiger - når behovet for domæneinformation og information om problemløsning stiger - når deling af kilder med generelle formål stiger og kilder til problem- og factsorientering aftager - når succes med informationssøgningen aftager - når interne kanaler aftager - når antallet af kilder aftager Analysemodellen for task kompleksitet og forståelsen af task som dels en opgave, der kan bruges til specifik informationssøgning men som også har et indbygget udgangspunkt og slutning indgår i formulering af worktask. Relevans Relevansvurdering er en del af informationssøgeprocessen og derved interaktionen mellem bruger og system. Forståelsen af relevansbegrebet i nærværende undersøgelse ligger indenfor den kognitive brugerorienterede tilgang, hvor relevans er subjektiv og

Page 17: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

16

vurderes i forhold til informationsbehov mere end søgespørgsmål, hvor svaret fra IR-systemet kunne opfattes binært (Robertson og Hancock-Beaulieu, 1992, s. 458). Relevansbegrebet er præsenteret i oversigtsartikel af Borlund (2001) og fremstilles som både dynamisk over tid (Tang og Solomon, 1998, s. 255), situationsbestemt og ikke-binært (Spink, Greisdorf og Bateman, 1998, s. 599) indenfor det kognitive synspunkt. Empiriske undersøgelser vil påvise at også emne og kontekst er vigtigste faktorer, og at brugeren er den central og aktive deltager i vurderingen. Saracevic (1996) bidrager med en model for relevansvurdering som med 4 niveauer bygger ovenpå Ingwersens model af IR-interaktionen. I modellen skelner Saracevic (s. 241) mellem 5 typer af relevans: relation mellem query og informationsobjekt, reletion mellem subject og topic udtrykt i query og søgeresultat, reletion mellem brugerens vidensniveau og kognitive informationsbehov og søgeresultatet, relation mellem situation, task, problem og søgeresultat relation mellem brugerens intention, mål og motivation og søgeresultat.

Empiri Generelt for begge evalueringer har jeg foretaget til- og fravalg hvad angår rapportering og undersøgelsesleder/observatør. Dataopsamling Jeg har fravalgt at optage evalueringen med video og lyd. Det kan være overordentlig ubehageligt at blive observeret og endda optaget (Nielsen, 1993, s. 181). Dertil kommer at optagelser, der efterfølgende skal transskriberes er tidskrævende og udbyttet begrænset (Nielsen, 1993, s. 19; Molich, 2003, s. 148). Molich (2007, s. 29) vurderer at man nok overser/hører et par detaljer, men der er gode chancer for at man har tid nok til at notere de væsentlige problemer. Resultatet kan enten dokumenteres i en skriftlig rapport fra hver evaluator eller ved brug af observatør under sessionen, hvor evaluatoren verbalt kommenterer. Fordelen ved den skriftlige rapport er den formelle afrapportering. Ulempen er at det kræver større anstrengelser af evaluatoren og de skriftlige rapporter skal efterfølgende forstås og sammenskrives af undersøgelseslederen. I stedet vil undersøgelseslederen foretage noter under evalueringen (Molich, 2003, s. 160), idet de økonomiske og tidsmæssige dispositioner spiller en betydning i nærværende opgave, der gennemføres af én person. Dataopsamling fra ekspertbaseret gennemgang er skriftlig ved at evaluatorer udfylder checkliste og spørgeskema. Observerende data samt data fra interview noteres skriftligt. Dataopsamling fra brugerorienteret gennemgang er skriftlig ved evaluatorers udtalelser under besvarelse af worktask. Andre observerende data og data fra interview noteres skriftligt. Undersøgelsesleder og observatør. Fordelen ved at bruger observatør er at reducere arbejdsmængden for evaluatoren og åbner for muligheden for adgang til resultatet kort efter sessionen, idet kun egne noter skal redigeres. Observatøren kan tillige hjælpe undervejs. Ulempen er øget tidsforbrug.

Page 18: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

17

I nærværende undersøgelse har jeg valgt at bruge observatør, idet observatøren dels kan hjælpe undervejs dels optimere adgang til resultatet kort efter sessionen, begge dele for at sikre testens gennemførelse efter præmisserne i undersøgelsesdesignet. For at imødekomme eventuel bias gennem samtalepåvirkning fra observatør til evaluator følges anbefalinger som fx brug af neutrale ord, vend spørgsmål om og svar ikke direkte på spørgsmål (Dumas og Redish, 1999, s. 297-298). Undersøgelseslederen og observatør er i nærværende undersøgelse den samme person. Det har ikke været muligt indenfor rammerne at udpege en observatør. Derfor har undersøgelsesleder foretaget observation, rapportering, sammenskrivning, interview og vurdering. Fordele og ulemper belyses efterfølgende. Design af ekspertbaseret evaluering Udvælgelse af evaluatorer Selvom det er muligt at gennemfører en heuristisk evaluering med bare en person, viser erfaringer at en enkelt evaluator vil overse de fleste usability-problemer (Nielsen, 1993, s. 156). Også Hertzum og Jacobsen er stærk betænkelig ved bug af 1 evaluator (2003, s. 182). Forskellige evaluatorer finder forskellige fejl, og Nielsen opsummerer at der opnås bedre resultater ved at sammenholde evalueringerne fra flere evaluatorer, gerne 5 og i hvert fald 3 evaluatorer (s. 156). I nærværende undersøgelse anvendes 4 evaluatorer, idet det var indenfor valgmulighederne og indenfor metodens anbefalinger. I nærværende undersøgelse deltager biblioteksuddannede som evaluatorer i den ekspertbaserede undersøgelse. De anses for på forhånd at have stor ekspertise indenfor domænet og informationssøgning, både teoretisk og praktisk og delvis viden om usability. Biblioteksuddannede vurderes at opfylde metodens model for evaluatorkarakteristik. Evaluering Evalueringen indledes med udfyldelse af spørgeskema, bilag 7. Beskriv din computerviden

Nybegynder Bruger med nogen erfaring Ekspert

bruger af søgemaskiner på www

bruger af bibliotekskataloger

bruger af bibliografiske databaser

Beskriv din domæneviden

Nybegynder Bruger med nogen erfaring Ekspert

Beskriv din viden om usability (brugbarhed af et system)

Nybegynder Bruger med nogen erfaring Ekspert

Demografiske data

køn Kvinde: Mand:

alder år

Baggrund (uddannelse/erhverv)

Anciennitet

Page 19: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

18

Deltagerne er anonyme. Evalueringen gennemføres med én evaluator ad gangen. Først derefter kan evaluatorerne diskutere resultaterne. Adskillelsen er væsentlig for at sikre uafhængig evaluering. Evalueringen fastsættes til 1-2 timer (Nielsen, 1993, s. 158). I undersøgelsen anvendes Nielsens 10 heuristikker som målbare komponenter med det mål for øje at sikre systematisk og evalueret tilgang. Svarene klassificeres i 5 kategorier (Molich, 2003, s. 154): godt, forbedringsforlag, mindre problem, alvorligt problem, kritisk problem, bilag 5 og 6. Uddrag fra rapporteringskema Relevant feedback i

ordentlig tid holder brugeren orienteret om det der foregår

Klart og tydeligt sprog i forhold til brugere, hvad angår sprogterm, form og rækkefølge

Navigation, “gør om” og “gå tilbage”-knap

Konsistens og standarder

Undgå fejl

Godt Forbedringsforslag

Med skemaet med heuristikker og mål i hånden gennemgår evaluatorer systemet side for side, funktion for funktion. Evaluatorerne opfordres til at tale-højt. Metoden er en variant af tænke-højt (Ingwersen og Järvelin, 2005, s. 92). Den er lettere tilgængelig men sikre ikke tilsvarende indblik i de kognitive processer. I en arbejdsopgave udenfor et undersøgelsesdesign kan det være meget realistisk at resultatet dokumenteres i en skriftlig rapport fra hver evaluator og i undersøgelsen er tænke-højt metoden fravalgt af samme grund Biasen ved ikke at anvende tænke-højt metoden vurderes mindre væsentligt i ekspertevalueringen. Evalueringen afsluttes med en samtale, der struktureres med vægt på evaluatorens egne frie udsagn, sorteres efter udsagn af semantisk karakter og forbedringsmuligheder, bilag 6. Evaluator stilles 2 åbne spørgsmål omkring hvilke 3 ændringer man helst ser og hvilke 3 ting der er bedst på websitet. Design af brugertest Udvælgelse af evaluatorer Ideelt set skal websitet evalueres af alle målgrupper (Nielsen, 1993, s. 175; Molich, 2003, s. 139). Studerende er som den primære målgruppe valgt i nærværende undersøgelse. Da det er undersøgelsesmetoden, der testes, vurderes det mindre væsentligt at flere målgrupper inddrages. Jeg har valgt 4 testpersoner idet færre end 4 kan overse vigtige problemer og mere end 6 vil præstere de samme resultater som de øvrige (Nielsen, 1993, s. 156; Molich, 2003, s. 140). De 4 testpersoner er repræsentativ for brugergruppen og er rekrutteret fra forskellige uddannelsesretninger og semestre. Deltagerne er anonyme.

Page 20: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

19

Rekruttering Testpersonerne er udvalgt ved direkte henvendelse, idet lutter frivillige evaluatorer er urealistiske motiverede. 1 testperson er rekrutteret ved biblioteksundervisning, 3 er opsøgt udenfor biblioteket og uden sammenhæng med biblioteksbrug. Ved rekrutteringen får testpersonerne mundtlig og skriftlig forklaring på evalueringens formål (Molich, 2003, s. 139-140). I kontakten til testpersonerne er Molich (2007) anvendt til inspiration. Fx omkring den skriftlige og mundtlige kontakt mellem undersøgelsesleder og testpersoner før, under og efter testen. Som tak for medvirken modtager testpersonerne et gavekort til skolens boghandel. Opgaver Worktask er simuleret efter Borlunds anbefalinger: en god worktask er karakteriseret ved at testpersonerne skal kunne relaterer sig, emnet skal interessere testpersonerne og worktask skal være velbeskrevet (Borlund, 2000, s. 86). Opgavesættet består af 8 åbne og lukkede simulerede scenarioopbyggede task. Antallet af task skal være af en størrelse, så de gennemføres indenfor tidsrammerne af evalueringen (1-2 timer) men ikke så få, at det forekommer trivielt (Nielsen, 1993, s. 186). For at vurdere tidsforbruget kan man overveje hvor lang tid udførelsen af wordtask tager, og hvor lang tid det er acceptabelt for evaluator at gennemføre worktask (Dumas og Redish, 1999, s. 16). Inspiration til formulering af worktask er opsamlet fra daglige forespørgsler i biblioteket og understøtter både realisme og brugernes rigtige informationsbehov (s. 142-143). Snittet ligger omkring det der må formodes at være kernen i websitet (Molich, 2007, s. 13). Første opgave er en let opgave, der kan virke afstressende. Worktask og scenarier er renset for skjulte antydninger og med et mål uden at angive vejen dertil. Oversigt over worktask i uddrag med uddybende bemærkninger, bilag 9 Opgave 1 Du skal teste Københavns Tekniske Biblioteks hjemmeside. Find hjemmesiden Opgave 2 Forny dine lån. En meget anvendt facilitet i det elektroniske forskningsbibliotek Opgave 3 Jobansøgning. Realistisk, idet en stor del af studerende har fritidsjob/studierelevant beskæftigelse. Opgave 4 Standarder for legepladser. Din gruppe skal finde ledige lokaler hvor I kan arbejde i fred. Et scenario, der er realistisk i forhold til studerendes projektarbejde. Opgave 5 Adgang til ordbog hjemmefra. Realistisk. Kan inddrage en populær base og fjernadgangsmulighed Opgave 6 Vejledningstilbud på biblioteket. Realistisk og anvendt. Alle kender til ét eller flere muligheder for vejledning. Opgave 7 Adgang til Ingeniørens artikler. Realistisk og stimulerende da vi er indenfor ingeniørdomænet Opgave 8 Reglement for husbyggeri. Et scenario, der er realistisk enten fordi man er bygningsingeniør eller fordi flere spørger på andres vegne. Opgaverne er permuteret for at udelukke specielle mønstre i evalueringens resultat, der kunne stamme fra netop rækkefølgen. Det er også væsentligt at alle opgaver samlet set blev afprøvet. Det valg er taget af hensyn til evaluering af resultatet og derved er evaluators eget valg om rækkefølge valgt fra. Google var valgt som startside.

Page 21: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

20

Tabel. Permutering af opgaver Permutering af opgaver Rækkefølge

Evaluator 1 1 2 3 4 5 6 7 8

Evaluator 2 1 4 5 6 7 8 2 3

Evaluator 3 1 6 7 8 2 3 4 5

Evaluator 4 1 8 2 3 4 5 6 7

Evaluering Evalueringen indledes med udfyldelse af spørgeskema, bilag 8. Efterfølgende stilles testpersonen et indledende spørgsmål omkring forventninger. Opgaverne læses højt en ad gangen for at imødekomme pres af testperson: det samlede antal worktask var ikke kendt, og ifølge Molich (2003, s. 149) er det nemmere at kunne afslutte evalueringen indenfor tidsrammen. Dumas og Redish (1999, s. 177) argumenterer imod at give testperson worktask i skriftlig form. Biblioteksbenyttelse (inspireret af Pors, 2005)

Ja, ofte Af og til Sjældent Aldrig

Bruger du dit uddannelsesbibliotek?

Bruger du flere uddannelsesbiblioteker?

Bruger du folkebibliotek?

Låner du litteratur og andre materialer til studiebrug?

Søger du efter litteratur?

Bruger du biblioteket for at studere?

Bruge du bibliotekets pc’ere?

Søger du i bibliotekets baser og elektroniske ressourcer?

Bruger du fjernadgang? (adgang til elektroniske ressourcer hjemmefra)

Evalueringen afsluttes med en samtale, der struktureres med vægt på testpersonens egne frie udsagn, sorteres efter udsagn af semantisk karakter og forbedringsmuligheder, bilag 8. Spørgsmål af semantisk karakter er valgt fordi målet med udvalgte dele af hjemmeside, annotationerne, har været at gøre dem brugerorienteret. Nielsen omtaler at computersprog ikke for alvor er udviklet for brugeren (Kaasgaard, 2000, s. 46). Testpersonerne opfordres til at tænke højt under løsning af opgaverne. Det vil sige at de verbaliserer deres tanker under udførelsen af opgaverne. Både tænke-højt metoden, undersøgelseslederen og situationen som helhed kan påvirke testpersonerne, og det skal fremhæves at det er websitet, der undersøges, ikke testperson (Molich, 2003, s. 151, 161). Metoden kan opfattes som unaturlig for mange mennesker (Nielsen, 1993, s. 197, 278; Molich, 2003, s. 161) og det er forhold undersøgelseslederen må tage hensyn til under udførelsen. Undersøgelseslederen noterer verbale udtryk og observerede data.

Pilottest Pilottest har det formål at give en kritisk gennemgang af worktask, forløbet og undersøgelseslederens egen rolle inden den egentlige evaluering (Nielsen, 1993, s. 174; Dumas og Redich, 1999, s. 264; Molich, 2003, s. 148)

Page 22: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

21

I nærværende undersøgelse gennemføres 2 pilottest med repræsentative deltagere fra målgrupperne. Undersøgelsesmetoder er forskellige i opbygning så kun få resultater ville kunne overføres til den anden metode. Resultaterne fra ekspertbaseret pilottest: Pilottesten blev gennemført med en person. Pilottesten gav anledning til følgende korrektioner: Forløbet og undersøgelseslederens rolle: Heuristikkerne bør kort gennemgås for at minimere forståelsesdiskussioner/overvejelser undervejs. Undersøgelseslederen kan være med til at sikre at gennemgangen bliver komplet. Tale-højt formen fungerer. Heuristikkerne: Observationer, der havde karakter af overvejelser omkring informationssøgning med en brugerorienteret vinkel, blev ikke understøttet af heuristikkerne. Evaluator må sætte udsagnet i bedst mulige rubrik. Spørgeskema: Rapporteringsskema fungerede. På grund af tale-højt metoden var meget sagt som ellers kunne være kommet frem ved interview. Resultaterne slås sammen. Resultaterne fra slutbruger-pilottest: Pilottesten blev gennemført med en person. Pilottesten gav anledning til følgende korrektioner: Forløbet og undersøgelseslederens rolle: Tænke-højt metoden er sandsynligvis ikke ukendt for ingeniørstuderende, der selv foretager undersøgelser. Men det kan være en ny erfaring at være den udøvende part. Worktask: Opgaverne læses højt og vurderingen er at kompleksiteten ikke er højere end at det fungerer og der var ingen forståelsesproblemer. Manglende del af opgaven gentages efter behov. En af opgaverne blev ændret, ordlyden finpudset i andre opgaver og i antal blev der tilføjet 2 opgaver, fordi testpersonen var igennem opgaverne på mindre end 1 time og for at det ikke virker banalt. Spørgeskema: anciennitet i uddannelsen tilføjedes.

Resultater og analyse Transskription Rapporteringsskema blev udfyldt af evaluator og efterfølgende renskrevet. Interview blev noteret i løb af samtalen. Observationer blev noteret undervejs. Resultatet af tale-højt metoden blev noteret undervejs. Tænke-højt testen med brugere blev noteret undervejs. Udtalelser er angivet med citationstegn, aktioner er beskrevet trinvist. Uvedkommende småord er udeladt. I behandlingen fokuseres på antal problemer, type af fundne problemer og evaluatorkarakteristik.

Screendump af forsiden bibliotekets website, se bilag 11 for større format

Page 23: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

22

Ekspertbaseret gennemgang Evaluatorerne fandt til sammen 167 problemer fra graden godt til kritisk problem. Oversigt over fundne problemer. Bilag 10

Evaluator 1

Evaluator 2

Evaluator 3

Evaluator 4 I alt

Evaluatorkarakteristik

ekspert i computervi-den, nogen erfaring i domænet og usability

ekspert i computervi-den, nogen erfaring i domænet og usability

ekspert i computervi-den, nogen erfaring i domænet og ekspert i usability

ekspert i computervi-den, ekspert i domænet og nogen erfaring i usability

godt 4 2 23 9 38

forbedringsforslag 22 4 19 15 60

mindre problem 16 6 6 10 38

alvorligt problem 16 10 3 1 30

kritisk problem 1 1

i alt 59 22 51 35 167

Grafisk afbilledet

4

22

16 16

1

2

4

6

10

23

19

6

3

9

15

10

1

0

5

10

15

20

25

godt forbedringsforslag mindre problem alvorligt problem kritisk problem

Evaluator 1

Evaluator 2

Evaluator 3

Evaluator 4

Page 24: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

23

Fokus på heuristik

(Heuristikkerne er her forkortet sprogligt) Evaluator 1 Evaluator 2 Evaluator 3 Evaluator 4 I alt

relevant feedback 2 14 3 19

klart og tydeligt sprog 9 10 12 6 37

navigation 8 3 9 14 34

konsistens 15 3 8 4 30

undgå fejl

minimere brugerens “memory load” 8 2 5 3 18

indlagte muligheder 2 1 1 4

æstetisk 15 2 2 4 23

fejlmeddelelser

hjælp 2 2

i alt 59 22 51 35 167

Grafisk afbilledet

9

8

15

8

2

15

22

10

3 3

2 2

14

12

9

8

5

1

2

3

6

14

4

3

1

4

0

2

4

6

8

10

12

14

16

releva

nt fe

edba

ck

klar

t og

tyde

ligt s

prog

naviga

tion

kons

iste

ns

undg

å fe

jl

minim

ere

brug

eren

s “m

emor

y load

indlag

te m

ulighe

der

æstet

isk

fejlm

edde

lelser

hjæ

lp

Evaluator 1

Evaluator 2

Evaluator 3

Evaluator 4

Efter kort gennemgang af heuristikkerne inden evalueringen fremstod heuristikkerne forståelige for evaluatorerne. Anvendelse af heuristikkerne og klassifikation af problemet voldte ikke besvær, hvilket blev bekræftet mundtligt af evaluatorerne efterfølgende og af undersøgelseslederens observationer. Undersøgelserne varede i alt 8 timer og i alt blev der genereret 167 problemer, hvilket bekræfter at metoden frembringer resultater hurtigt. Match mellem evaluatorkarakteristik og antal fundne problemer bekræfter ikke Nielsens resultater, der viser at dobbelteksperter finder flest problemer. Dobbelteksperten fandt 51

Page 25: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

24

problemer mens de 3 øvrige fandt henholdsvis 22, 35 og 59 problemer. Undersøgelses-grundlaget vurderes for lille til afgørende konklusion. Optælling og sammenligning af resultatet viser at 121 ud af 167 problemer eller 73 % er unikke, ved at kun én evaluator har identificeret det. Tallet bekræfter at flere evaluatorer finder flere fejl (Nielsen, 1993). Anbefalingerne om brug af 3-5 evaluatorer kan bekræftes således at 4 evaluatorer fandt forskellige fejl. Det kan tillige understøtte angivelsen af at flere end 5 evaluatorer finder samme fejl, idet antallet af dobbeltproblemer stiger for hvert antal evaluator. Resultatet bekræfter analyse af Molich et al (2004) at 75 % af 310 fundne problemer er unikke. Flest problemer blev fundet indenfor feedback, klart og tydeligt sprog, navigation, konsistens og æstetisk design. Sammenhæng mellem heuristik og problemgrad, bilag 14 Heuristik og problemgrad godt forbedring mindre alvorligt kritisk

relevant feedback 8 5 4 2 19

klart og tydeligt sprog 10 13 6 8 37

navigation 8 16 6 4 34

konsistens 3 9 9 8 1 30

undgå fejl

minimere brugerens “memory load” 4 9 5 18

indlagte muligheder 4 4

æstetisk 1 8 12 2 23

fejlmeddelelser

hjælp 1 1 2

i alt 38 60 38 30 1

Heuristik og problemgrad- renset for godt forbedring mindre alvorligt kritisk

relevant feedback 5 4 2 11

klart og tydeligt sprog 13 6 8 27

navigation 16 6 4 26

konsistens 9 9 8 1 27

undgå fejl

minimere brugerens “memory load” 9 5 14

indlagte muligheder

æstetisk 8 12 2 22

fejlmeddelelser

hjælp 1 1 2

i alt 60 38 30 1

Sammenhængen mellem heuristik og problemgrad viser brug af 8 ud af 10 heuristikker og brug af alle problemgrader. Brugen af problemgrad indenfor hver heuristik varierer en del. Godt anvendes især om relevant feedback og klart og tydeligt sprog. Renses resultatet for problemgrad Godt viser det, at der er flest problemer i klart og tydeligt sprog, navigation, konsistens og æstetisk design.

Page 26: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

25

Det samlede resultatet ved brug af heuristikkerne: ● Systematisk procedure er ikke indeholdt i modellen og sikrer ikke inddragelse af alle heuristikker på hele websitet; kun evaluator 1 vurderede websitet i forhold til alle heuristikker og kritikken af modellen bekræftes. Målanalysen er vag og fører til skøn foretaget af evaluator og kritikken af modellen bekræftes. Antal fundene fejl varierer fra 22 til 59. Eksempel: Evaluator 1 finder 59 problemer og evaluator 3 finder 51 problemer. De anvender heuristikkerne forskelligt når evaluator 1 finder 15 mod 2 æstetiske problemer og 15 mod 8 konsistensproblemer. Eksempel: Evaluator 1 finder 16 alvorlige problemer mens evaluator 2 med færrest resultat finder 10 alvorlige problemer. ● Resultatet viser også at metoden frembringer resultater hurtigt. ● 73 % er unikke problemer, hvilket bekræfter at flere evaluatorer finder flere fejl ● Det viser på hvilke områder websitet har flest problemer. ● Det viser at websitet vurderes godt 38 gange ud af 167. Især klart og tydeligt sprog vurderes godt. ● Evaluatorerne tillades via modellen at angive forbedringsforslag, der optræder 60 forbedringsforslag ud af 167. ● Resultatet bekræfter at der sjældent er mere end 1 positivt resultat for hver 3 problem; 38 positive resultater ud af 167 problemer. ● Heuristikker og problemgrad blev udnyttet med få undtagelser. ● Ved at benytte graden godt er der ikke kun fokus på fejl. Spørgeskema Evaluatorerne er eksperter i computerviden, herunder generelt viden om søgning og brug af bibliotekskataloger og elektroniske ressourcer. Domæneviden varierede fra nogen erfaring (3) til ekspert (1). Anciennitetsmæssigt spænder det over 3-20+ år. Usabilityviden varierer fra nogen erfaring (3) til ekspert (1). Eksperterne er biblioteksuddannede. Bilag 13. Nielsens undersøgelse (1993) anviser at evaluatorer med både computerviden, domæneviden og usabilityviden finder flest resultater. For opfyldelse af de kompetencer, sammen med hurtige resultater på kort tid og økonomisk attraktivt blev det vurderet at anvendelse af biblioteksuddannede lå indenfor evaluatorkarakteristik. De biblioteksuddannede var blevet vurderet til generelt at have stor ekspertise indenfor de 3 områder. Data fra spørgeskemaet viser at de i domæne- og usabilityviden har nogen erfaring til eksperterfaring. I computerviden er de eksperter. Ud fra de opstillede karakteristika opfylder eksperterne kriterierne for at kunne levere mange/flest resultater. Det var økonomisk attraktivt at anvende biblioteksuddannede som evaluatorer, idet de var lette at indgå aftale med og der var ikke behov for økonomisk udredning. En bias kunne være at arbejdsområdet er for tæt på til en mere objektiv vurdering. Omvendt kan engagementet være stort af netop samme grund. Som observatør og forfatter har jeg ikke observeret væsentlige ulemper ved brug af biblioteksuddannede.

Page 27: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

26

Observationer og interview Kommentarer fra observationen og interview gav bidrag til både helhedsindtryk og generelle bemærkninger om arten af information og sprogbrug. Der er tale om både konkrete problemstillinger og individuelle opfattelser. Samlet set er kommentarerne af mere generel karakter og det vurderes at evaluator selv kan noterer undervejs og der er ikke konstateret væsentlige grunde til at ekspertgennemgang foretages med observatør. Pilottesten viste at heuristikkerne bør gennemgås inden start, det samme kunne gøre sig gældende vedrørende instruks om systematisk gennemgang og anvendelse af alle heuristikker, alt efter undersøgelsesrammen. Et afsluttende interview kan være en god afslutning men bemærkninger kunne også indarbejdes i den skriftlige rapport. Bilag 12. Uddrag af kommentarer og reaktioner observeret ved gennemgangen og resultater ved interview Udtrykker at siden er ren og overskuelig med et harmonisk design. Blokkene er godt adskilt Det flotte grafiske udtryk på forsiden ødelægges af at siden rykker sig ned ad. Lægger stor vægt på at forsiden repræsenterer det væsentlige (informationsbærende baser) Søgefunktion, Genveje og Nyheder er godt Bemærkning til ”Studiemiljø på toppen”: adskille studiemiljø generelt fra den aktuelle nyhed omkring 2. sal. Formålet er at fremhæve studiemulighederne. Står der noget om ”Informationsvejledning” hvis tekst og billede forsvinder?

Er ”Genveje” tænkt som hurtig vej til mest anvendte emner? Kan der lægges hjælpetekst i Ibistro – fx hjælp ved ”Login/Renew blok? Benævnelsen af bibliotekskatalogen er forskellig: den optræder under Ibistro, Biblioteksbasen, og Bibliotekskatalogen Forbedringsmuligheder Billedet på forsiden skal være fra bibliotekstårnet Undervisning tydeliggøres Fjernadgang synliggøres Mangler information om lån af bærbare computere. Kan fx lanceres ”for dig”-agtigt

Tale-højt metoden som version af tænke-højt blev anvendt uden større tilvænningsproblemer af evaluatorerne trods manglende erfaring. Resultatet var af mindre betydning og bidrog til udtalelser og observationer af mere generel karakter. Som sådan bidrog metoden mere til at skabe en lettere stemning end til egentlig indblik i fx kognitive processer. Evaluatoreffekt Individuelle opfattelser og fortolkninger spiller ind og giver en større variation; som eksempel på fortolkning angiver én evaluator at dropdown-menu fra topbjælke kan forstyrre navigationen når man klikker på sti-angivelsen lige neden under: Uddrag fra problemliste, bilag 10 Heuristik Navigation, “gør om” og “gå tilbage”-knap

Problem Dropdown-menu fra topbjælke kan forstyrre navigation ved klik på stien.

Kriterium Mindre problem

Som eksempel på individuel opfattelse angiver én evaluator at pinkstribe indrammer søgfunktionen så den bliver mere synlig: Uddrag fra problemliste, bilag 10 Heuristik Indlagte muligheder for forskellige funktions-måder fx.

både søgefunktion og browsestruktur

Problem Pinkstriber indrammer søgfunktionen så den bliver meget synlig

Kriterium Godt

Page 28: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

27

Variationen i antal af fundne fejl kunne understøtte overvejelse om hvorvidt alle problemer er faktiske problemer. Det har ikke været muligt at analysere evaluatoreffekt i observation og vurdering af udskrifter da undersøgelsesleder, observant og forfatter er én og samme person. Den samlede analysen af variation i mellem hver evaluator bekræfter evaluatoreffekt i metoden.

- 4 evaluatorer fandt ikke samme antal problemer, antallet varierede fra 21 til 59. - evaluatorer fandt ikke alle problemer på de samme undersider og funktioner.

Optælling og sammenligning viste at 45 problemer blev fundet af 2 eller flere evaluatorer. 122 var unikke fund.

- problemerne klassificeres ikke ens, fx blev problem omkring Linksamling angivet med som et forbedringsforslag om at omdøbe linksamling, hvor det af en anden blev angivet som et mindre problem med en kommentar ”Man kan ikke vide at det er en komplet samling af bibliotekets baser”. De var dog begge sat under heuristikken Klart og tydeligt sprog.

Uddrag fra problemliste, bilag 10 Heuristik Klart og tydeligt sprog i forhold til brugere, hvad angår

sprogterm, form og rækkefølge

Problem Linksamling – evt. omdøbe linksamling

Kriterium Forbedringsproblem

Heuristik Klart og tydeligt sprog i forhold til brugere, hvad angår sprogterm, form og rækkefølge

Problem Linksamling? Man kan ikke vide at det er en komplet samling af bibliotekets baser

Kriterium Mindre problem

- samme heuristik blev ikke altid valgt til samme problem fx blev Fotoalbum fra

Fanebladet Undervisning placeret et sted som en æstetisk heuristik, et andet sted som en heuristik om relevant feedback.

Uddrag fra problemliste, bilag 10 Heuristik Æstetisk og minimalistisk design

Problem Fjerne ”Ingen fotoalbum..” under titel på undersiden

Kriterium Mindre problem

Heuristik Relevant feedback i ordentlig tid holder brugeren orienteret om det, der foregår

Problem ”Billed/foto” uden formål

Kriterium Mindre problem

Brugerorienteret gennemgang Brugertest Opgave 1 er udeladt da den tjente som indledning til testen. Resultatet er opdelt efter testperson, problemtype og art. Problemerne er opdelt i kategori faktuelt (oplysende karakter), konceptuelt (herunder semantisk viden og viden om syntaks) og domænekendskab, bilag 16. Undersøgelsen bekræfter at der ikke er manglende tekniske færdigheder.

Page 29: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

28

Hver testperson har problemer i 6 ud af 7 worktask. Der er 37 problemer ialt. Heraf er 19 problemer eller 51 % kritiske, idet testpersonen opgiver.

13 problemer er faktuelle. De 8 kritiske problemer fordeler sig på login til forny (3), login til fjernadgang(2) og finde lokaler (3). De øvrige 5 handler om ikke at få regnskaber gratis, tilstrækkeligt med oplysninger om mødet med bibliotekar (2), mere information om bøgerne, information om Marketline.

15 problemer er konceptuelle. De 7 kritiske problemer drejer sig om at bruge IHK-sitet til biblioteksrelaterede behov, søgemønstre i ord og teknik, kan ikke overskue siden og finder ikke gebyrer, tænker ikke information om jobsøgning og bibliotek i sammenhæng, søger ikke efter standarder. De øvrige 8 handler om at man ikke regner med at biblioteket kan hjælpe med regnskaber, finder ikke e-ressourcer (3), finder ikke frem til Book en bibliotekar (2), forstår ikke tidsforløb i Gebyrer.

9 problemer er domænerelateret. De 4 kritiske problemer knytter sig det byggetekniske domæne og standarder. De øvrige 5 handler om domænet regnskaber, byggetekniske domæne, standarder (2) og ordbøger.

Karakteristik og sammenligning med eksperternes resultater Fundet af faktuelle problemer ”jeg ved ikke hvad Marketline er for noget”, sammenlignet med eksperternes fund er helt identisk på problem Marketline. 3 brugere kan ikke finde oplysninger om lokaler ”man kan booke en bibliotekar, hvorfor står der ikke Book et lokale?”; 1 ekspert nævner specifikt at information om grupperum bør ligge i et faneblad mens anden ekspert foreslår at fokusere mere på studiemiljøet i det samlede bibliotek. Ekspertgennemgangen finder ikke de kritiske problemer med glemt login ”jeg tror nok jeg giver op og spørger på biblioteket”. Eksperterne vurderer formular til Book en bibliotekar i orden mens 2 testbrugere mangler tilstrækkelig information ”hvor lang tid går der før jeg får svar?” og ”jeg kunne godt tænke mig at der står noget om hvad der sker når jeg har sendt formularen. .. Kontakter I mig? Skal vi mødes eller hvornår er der svar tilbage?”. Testpersonernes møde med bibliotekets services forløber ikke efter hensigten, budskabet når ikke frem, enten fordi det ikke er der ”Ærgerligt at det koster 37 kr” (biblioteket betaler regningen) eller fordi det modtages anderledes end forestillet ”jeg synes formularen lægger op til mailkorrespondance” og ”Book kan også betyde betaling”. Mange af de konceptuelle problemer drejer sig om vidensmønstre, der påvirker søgning eller mangel på søgning, fx regner man ikke med at biblioteket kan opfylde det pågældende behov og der søges ikke ”..tror ikke biblioteket har noget” men søger på ”årsregnskab” i biblioteksbasen. Det kommer også til udtryk når man bruger biblioteksbasen til søgning efter information der ikke findes her; testpersonen opfatter måske basen som generel indgang eller tænker viden i bogform. 1 testperson kan ikke finde oplysninger om gebyrer og tænker ikke i de semantiske linier som biblioteket gør, da man oprettede faneblad Om biblioteket ”jeg ville nok ringe, komme eller maile”, ”jeg ved ikke om der er noget andet man kan gøre..”.

Page 30: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

29

Det samme kommer til udtryk semantisk i forståelse af tidsforløbet i gebyrtilskrivning ”jeg synes tidsforløbet er mærkeligt, jeg synes 7 dage og 14 dage ville være ok….åh, så skal jeg tælle…hvilke dage tæller med…?” Hvad angår syntaks i søgning efter bygningsreglement anvendte de 2 novicer få søgeord og simpelt søgesæt i bibliotekskataloger, de brugte Søg og find-Bygningsingeniør måske styrket af generel højere anciennitet. De 2 med nogen erfaring prøvede flere søgeord og bruger registeropslag. De brugte derimod ingen e-ressourcer og de havde lavere anciennitet. Domæneviden viser sig at spiller en afgørende rolle. Testpersonerne havde ingen formel baggrund fra det byggetekniske domæne. De brugte deres computerviden til at søge i søgemaskine, biblioteksbase, linksamling. Mønsteret bekræftes i worktask 4 om standarder. Det bekræfter at konkret vidensniveau påvirker søgning og relevansvurdering, fx tror testperson 2 at have fundet relevant materiale. Manglende domæneviden kommer ekspertgennemgangen ikke direkte ind på, dog overvejer evaluator 1 om annotationerne i Linksamling er for korte, at annotationerne er for lange i Søg og find-retningsbestemt, at layout er inkonsistent (også ekspert 2 og 4). Ekspert 3 synes sproget er klart og tydeligt og her optræder altså uenighed mellem eksperterne. Ekspert 4 kommer med et forbedringsforslag for label. Worktask Simulerede worktask sikrede eksperimental kontrol og valide resultater. Det er muligt at sammenligne på tværs af testpersoner hvilket gør resultaterne stærkere fx træder problemerne med login tydeligt frem og kan sammenlignes direkte. 1 af testpersonerne i slutbrugertesten reagerede spørgende i forhold til et par af de simulerede opgaver. Simulerede test afspejler ikke for alle en naturlig brugeradfærd som anført af Madsen (2004). Testpersonen gennemførte testen og der var ikke noget i forløbet, der gav anledning til at betragte resultatet mindre validt. Worktask-analyse Analysen af worktask efter test viser at der var et objektivt mål at nå, et udgangspunkt, der giver afsættet, en aktion og en afslutning, hvor information er indhentet eller sagen opgivet. Alle scenario-worktask havde fokus på brugeren indenfor det tekniske domæne i relevant kontekst for studerende på Ingeniørhøjskolen i København. Task kompleksitet Flere scenarier bestod af 2 worktask og selv om kompleksiteten af informationsbehovet steg fra 1 til 2 var det ikke et problem. Testpersonerne karakteriserer sig selv som nybegyndere og bruger med nogen erfaring i domæneviden, har 1-2½ års anciennitet og har ikke problemer med at relaterer sig til scenarierne. Behovet for domæneinformation stiger i opgave 4: Testperson 1 med større kendskab til standarder fra sit studie går til hovedkilden DS og får straks et relevant resultat; testperson 2 og 3 søger i biblioteksbasen heraf vurderer 1 at have et relevant søgeresultat; testperson 4 bruger sitets søgefunktion, surfer rundt, vælger Maskiningeniør i Søg og find og ser basen ILI. Den semantiske kompleksitet stiger i opgave 8: søgning på bygningsreglement udtrykkes i en lang række forskellige søgeord. Her søges i både biblioteksbasen, på Google og i Søg og find-Bygningsingeniør. 3 testpersonerne stopper uden resultat. Kompleksiteten steg da succesen med søgning på ordbogen i fjernadgangsportalen faldt.

Page 31: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

30

Antallet af interne kanaler faldt når ”Genveje” ikke leverede det ønskede resultat. Til gengæld supplerede Søg-blokken når den blev anvendt. Relevans Opgave 5 et eksempel på subjektiv relevansvurdering: Testperson 1og 4 kender og går efter ordbogen.com, testperson 2 og 3 leder efter en bog/CD-romversion. I dette tilfælde kunne basekendskab spille en rolle, måske også ancienniteten da testperson 1 og 4 har højest anciennitet. Testpersonerne viste ikke problemer med at relevansvurdere, hvilket underbygger realismen i scenarierne; når man leder efter ledige lokaler i opgave 4 ved alle hvad de hver især går efter. Oplæsningen af opgaver gav ikke anledning til problemer, antallet var tilstrækkeligt og længden gav ikke anledning til kommentarer fra testpersonerne. Resultater ved interview i uddrag Interviewformen gav bidrag til indsigt i brugerens helhedsindtryk af hjemmesiden og forventninger samt søgemønstre. Interviewets struktur med styrende men åbne spørgsmål sikrede svar i de ønskede kategorier. Individuelle opfattelser som farvevalg er repræsenteret og når teksten enten er unødig lang (Feedback-portlet) eller manglede (Marketline). Blandt slutbrugerne var der forventning om lavere brugervenlighed og uspændende design. Helhedsindtrykket efter brug var overskuelighed og sammenhæng med IHK. Funktionsmåder, søge- og browsestruktur (Genveje, om end rodet, og faneblade med drop-downmenuer) er gode. Søgemønstre udtrykkes af brugerne selv som ”Ser ud til at have meget, også meget man ikke lige kender” og ”Mere træning i at bruge baserne. Det skal gentages at det er her og vi skal opfordres til at bruge dem.” og ”Jeg kan rigtig godt li’ bibliotekskatalogen. Jeg bruger mange søgeord og arbejder med det”. Disse mønstre kommer til udtryk i søgning efter worktask, hvor testperson mangler kendskab til baser og vidensstruktur eller hvor præferencer til fx biblioteksbasen gør den til foretrukne base. Bilag 17 ”Hvad er dine forventninger til hjemmesiden?” Forventer at der er mindre overskuelighed i forhold til andre hjemmesider. Jeg forventer at der er lav brugervenlighed. Forventer at finde de rette databaser At den er overskuelig. Det skal være nemt Det må gerne være fikst at se på – jeg ville blive overrasket hvis det var et spændende design. Jeg vil gerne kunne se om bogen er hjemme eller om den er hjemme et andet sted.

”Hvilke 3 ting er bedst?” Søg og find er god Siden er dejlig overskuelig Linksamling er rigtig god Kan li´ fane bladende og drop-down. Det er brugervenligt Ser ud til at have meget, også meget man ikke lige kender. Der er adgang til fx Infomedia og andre baser. Man skal bare vide at de er der.

Jeg kan godt li’ farverne. Det virker seriøst smart og friskt Fint med samme layout som skolens, det giver indtryk af at høre sammen. Jeg har det indtryk at biblioteket er vores eget. Jeg kan rigtig godt li’ bibliotekskatalogen. Jeg bruger mange søgeord og arbejder med det ”Hvilke 3 ændringer ser du helst?” Synes at Genveje er rodet opstillet kontaktoplysninger kan ligge i nederste bjælke Synes der er for meget på siden. Kan godt li´ billedet midt på siden men teksten læser man ikke. Synes ikke pink/lyserød er konservativt nok og seriøst. Fremhæve bibliotekets faciliteter med billeder Linksamling burde komme mere frem på forsiden ligesom Bibliotekskatalog Jeg synes der står meget tekst fx ved Feedback. Der behøver ikke stå så meget.

Page 32: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

31

Marketline – her kunne der godt stå noget om hvad det er. Mere træning i at bruge baserne. Det skal gentages at det er her og vi skal opfordres til at bruge dem. Jeg ved at det er gratis fordi jeg tidligere har studeret på Aalborg Universitet (i Aalborg) Personalisering af nye bøger og meddelelser til de enkelte retninger mere end de stationære baser.

Login-oplysninger, hjælp til information bare et eller andet sted. Også hjælp til fjernadgang. Andre bemærkninger Ville stole mere på det man finder på biblioteket end på Google. Mere kvalitet.

Den afsluttende samtale gav indsigt i brugerens indtryk af websitet både helhedsindtryk og de for brugeren vigtige services/funktioner. Udbyttet efter åbne men strukturerede spørgsmål viser at metoden kan bruges og lægger op til at kunne anvendes med fokus på mere specifikke funktioner eller ydelser som biblioteket ønsker undersøgt. Formen fjerne mulighed for at deltagerne påvirker hinanden som det kan ske ved fokusgruppeinterview. Resultater af spørgeskema Testpersonerne var henholdsvis nybegyndere til ekspert i computerviden. Deres vidensniveau var højere indenfor brug af søgemaskiner end i brug af biblioteksressourcer. Domæneviden varierede fra nybegynder til brugere med nogen erfaring. Usabilityviden varierer fra nybegyndere til ekspert. Testpersonerne var studerende ved Ingeniørhøjskolen i København. De kom fra studierne stærkstrøm, eksport og produktion og de var studerende på 2-5. semester. Aldersmæssigt spændte de fra 22-41 år. De er repræsentative for målgruppen Oplysning om vidensnivau i usability i brugertest viste sig overflødig. Derimod kunne andre spørgsmål hentet fra IR-forskningen have styrket analysen af konceptuelle problemer. Bilag 15 Nybegynder Bruger med nogen

erfaring Ekspert

bruger af søgemaskiner på www

xx xx

bruger af bibliotekskataloger

xx xx

bruger af bibliografiske databaser

xxx x

Beskriv din domæneviden

Nybegynder Bruger med nogen erfaring Ekspert

xx xx

Beskriv din viden om usability (brugbarhed af et system)

Nybegynder Bruger med nogen erfaring Ekspert

x xx x

Det statistiske grundlag er lille og ikke validt, resultaterne kan bruges i karakteristik af testdeltagerne men kan ikke føre til større konklusioner. Resultaterne fra spørgeskemaet ses i de 4 venstre kolonner, i højre kolonne ses i udvalg resultatet fra Pors’ undersøgelse (2005, s. 29, s. 35) men ikke fra teknikstudierne der er for små (s. 87) og denne undersøgelse. Tallene uddybes ikke yderligt. For at skabe et statistisk grundlag kan man overveje en intern undersøgelses der evt. kan vurderes i forhold til landsundersøgelsen.

Page 33: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

32

Bilag 15 Ja,

ofte Af og til

Sjældent Aldrig IHK % DK %

Bruger du dit uddannelsesbibliotek?

x xxx 100% 22 %

Bruger du flere uddannelsesbiblioteker?

x xx x 75% 30%

Bruger du folkebibliotek? x x x x 75% 49%

Låner du litteratur og andre materialer til studiebrug?

xx xx 100 % 97%

Søger du efter litteratur? xx xx 100% 91%

Bruger du biblioteket for at studere?

x x xx 100 % 62%

Bruger du bibliotekets pc’ere?

xx xx 100% 58%

Søger du i bibliotekets baser og elektroniske ressourcer?

xxx x 75% 82%

Bruger du fjernadgang? (adgang til elektroniske ressourcer hjemmefra)

x x xx 50% 84%

Brugerkarakteristik: Testpersonerne bruger alle biblioteket. De søger efter og låner litteratur, de studerer og bruger pc’ere. 3 bruger baser og 2 bruger fjernadgang. Den af-og-til/aldrig brug af baser ses i løsning af worktask hvor man ofte ikke valgte en database og heller ikke altid kiggede efter en linksamling.

Diskussion

Afsnittet har fokus på vurdering af de 2 metoder, brugerkarakteristik og hvorledes testgrupperne adskiller sig og supplerer hinanden. Resultaterne i Heuristisk evalueringsmetode bekræfter teori og tidligere undersøgelser. Fordele ved metoden er de hurtige resultater, fri af et laboratorietungt setup som er urealistisk for små biblioteker. Resultaterne systematiseres efter heuristik men modellens svaghed er at den ikke sikrer at alle heuristikkerne anvendes og fører til evaluatoreffekt. Også i andre metoder er der evaluatoreffekt og indtil der udvikles bedre modeller er den svaghed svær at undgå. Én løsning ligger i at bruge flere metoder og acceptere en vis ufuldkommenhed. Modellen mangler problemgrad og fx Molichs klassifikation bør indarbejdes. I metodens præmis er indbygget et ca. antal evaluatorer. Der har vist sig holdbart. Der har været kritik af at modellen fokuserer på fejl men ved at bruge godt som problemgrad gives et perspektiv på godt↔problem og forbedringsforslag giver løsninger. Selv om ikke alle heuristikker anvendes giver metoden et billede af på hvilke områder websitet har flest problemer og derved udviklingspotentiale. Og selvom nogle problemer skulle vise sig at være ikke-problemer men mere problemstillinger bekræfter resultatet med 167 problemer at det er bedre at gøre noget end ingenting. Som forventet frembringer metoden data af overfladekarakter og er en effektiv støvsugning for fejl på websitet. Den forventes ikke at afdække brugernes tilgang og det er mere præmis end problem.

Page 34: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

33

Inddragelse af brugere i brugertest giver indikator for interaktionskvaliteten. Her får vi indsigt i kognitive processer og problemer. Ligesom i ekspertundersøgelsen er der indbygget en præmis om et ca. antal evaluatorer i sammenhæng med målgruppeanalyse. Tænkes analysen udfoldet med en stærkere model af brugerkarakteristika kan det give et stærkere værktøj til både udvælgelse af testpersoner og resultatanalyse. Indenfor den brugerorienterede tilgang er selve brugeren central, et udgangspunkt der forstærkes af udviklingen hvor brugere interagere med systemet uden mediator. Manglende kontrol er en bias men ved hjælp af simulerede worktask styrkes sammenlignelighed. Det vurderes at opbygning af brugertest efter simulerede worktask i sammenhæng med stærkere brugerkarakteristika kan forbedre analysen. Det kunne overvejes at styrke analysen med teorier og model fra søgeadfærdsstudier. Det kan overvejes om brugertest gennemført med et mix af metoder men fortsat med skarp målgruppeanalyse kan give andre resultater. Testgruppernes forskellige fundne problemer. Brugerne leverede en række problemstillinger som kunne kategoriseres som faktuelle, konceptuelle og domænerelaterede. Eksperterne leverede overfladeproblemer. Metoderne supplerer hinanden i art af problemer og overlap er næsten ikke-eksisterende. Hvorledes testgrupperne i karakteristik adskiller sig og supplerer hinanden. De 2 testgrupper er som udgangspunkt vidt forskellige. Den ene gruppe er eksperter i vidensorganisation og informationssøgning, databaser og registrering, den anden gruppe er målgruppen for og aftagere af bibliotekets produkter og service. Brugerkarakteristik med fokus på computer-, domæne- og usabilityviden viste sig anvendelig til at vurdere resultatet fra eksperterne. Eksperternes domæneviden på fag og målgruppen er en styrke så man kan vurdere fx mangler, og styrke resultatet med viden om brugernes task og terminologi, fx tænker evaluatorerne i kontekst når de overvejer klart og tydeligt sprog i forhold til brugere. Undersøgelsen peger på at biblioteksuddannede dobbelteksperter/højt computer- og domæneniveau finder mange fejl. Evaluatorgrupper var ikke genstand for undersøgelse og der kan ikke konkluderes yderligere; umiddelbart er ikke observeret umiddelbar bias ved anvendelse af biblioteksuddannede. Brugerne blev vurderet på samme viden suppleret med brugsmønstre. Brugerne kom fra forskellige semestre og uddannelsesretninger hvilket netop var tilstræbt for at dække målgruppen repræsentativt. Karakteristikken kunne bruges til at vurdere resultaterne i forhold til computer-og domæneviden, hvor der viste sig større forskel på vidensniveau i denne gruppe.

Konklusion Konklusionen i forhold til undersøgelsesspørgsmål er at de 2 undersøgelsesmetoder indenfor nærværende undersøgelsesdesign supplerer hinanden med forskellige sæt af resultater som resultat af 2 forskellige tilgange, henholdsvis overflade problemer og brugerrelaterede problemer som konceptuelle problemstillinger. Med eksperternes 167 problemer og slutbrugernes 37 er der kun få sammenfald. Det er værd at fremhæve trods heuristisk evalueringsmodellens svaghed at model og systematiske gennemgang af websitet frembringer resultater. Klassifikation af problemgrad bør indarbejdes i design af heuristisk evaluering. Evalueringen kan gennemføres uden undersøgelsesleder.

Page 35: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

34

Screening af eksperter inden udvælgelse kan optimere resultaterne. Afdækning af kognitive processer og brugerens øvrige problemer viste sig uafdækket i ekspertundersøgelsen men trådte tydeligt frem i brugertesten. Fald i kontrol og sammenlignelighed i brugertest vurderes væsentlige men ikke tilstrækkelige til at undgå brugertest. Kontrolmuligheden styrkes ved brug af simulerede worktask. Worktask kan tilrettes domæne og målgruppe. Målgruppeanalysen kan indenfor metoden udvikles og i forhold til anciennitet og domæneviden afdække flere problemer. Ved at udbygge spørgeskema kan konceptuelle problemstillinger underbygges mere tilstrækkeligt. Metoderne har vist stor brugbarhed. Designet er fleksibelt og forholdsvis let at formulere. Resultatet er for så vidt validt, idet metoderne er anvendt systematisk og evaluatorkarakteristik og deltagerantal ligger indenfor anbefalingerne.

Perspektivering

Hvis der er ressourcer kan testen følges op med flere test for at se om ændringerne egentlig fungerer. Undersøgelsen kan få den betydning at også små biblioteker gennemfører de 2 typer test i sammenhæng. Udvikling af stærkere model for brugerkarakteristika til grund for analysen og mere forskning i metoder med mindre evaluatoreffekt kan sikre valide resultater som understøtter vores muligheder for at understøtte informationssøgning

Litteraturliste og bilag Allen, R.B. (1997) Mental models and user models. Handbook of human computer interaction, Martin G. Helander, Thomas K. Landaue og Prasad V. Prabhu (eds.), 49-63 Belkin, N.J., Oddy,R., Brooks,H. (1982). ASK for information retrieval. Part 1. Background and theory. Journal of Documentation, 38(2), s. 61-71. Blandford,A.; Keith,S.; Connell,I.; Edwards,H. (2004). Analytical usability evaluation for digital libraries : a case study. JCDL ’04 June 7-11, 2004, Tucson, Arizona, USA, 27-36. Borlund,P. (2000) Experimental component for the evaluation of interactive information retrieval systems. Journal of Documentation, (56) 1, 71-90. Borlund,P. (2001). The concept of relevance in IR. Journal of The American Society of Information Science and Technology, (54)10, s. 913-925. Borgman, C.L. (1986). Why are online catalogs hard to use? Journal of The American Society of Information Science. 37(6) s. 387-400. Borgman,C.L. (1996). Why are online catalogs still hard to use? Journal of The American Society of Information Science. 47(7), s. 493-503. Borgman,C.L. (2004). Designing digital libraries for usability. Digital library use – social practice in design and evaluation. Ed. Ann Peterson Bishop, Nancy A. van House and Barbara P. Buttenfiels. London: The MIT Press, s. 85-118. Byström,K.; Järvelin,K. (1995). Task complexity affects information seeking and use. Information Processing Management, 31(2), 191-213. DEFF (2006). Det hybride bibliotek set med brugerens øjne. 64 s. Desurvire,H.W. (1994). Faster, cheaper!! Are usability inspection methods as effective as empirical testing? In Nielsen,J.; Mack,R.L. ed. Usability inspection methods. New York: John Wiley. xxiv, 413 s. Dillon,A. (2001). Beyond usabiity: process, outcome and effect in human computers. The Canadian Journal of Library and Information Science, (26)4, 57-69.

Page 36: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

35

DS/EN ISO 9241-11 (1998). Ergonomiske krav til kontorarbejde med skærmterminaler. Del 11: Vejledning om brugbarhed. Dansk Standard: København. 22 s. Dumas,J.; Redish,J.C. (1999). A practical guide to usability testing. Portland: Intellect, rev. ed., xxii, 404 s. Fidel,R.; Soergel,D. (1983). Factors affecting online bibliographic retrieval : a conceptual framework for research. Journal of The American Society of Information Science. 34 (3), s. 163-180. Gray,W.D.; Salzman,M.C. (1998). Damaged merchandise? A review of experiments that compare usability evaluation methods. Human-Computer Interaction, 13, 203-262. Hartson,H.R. (1998). Human-computer interaction: interdisciplinary roots and trends. The Journal of Systems and Software, (43), 103-108. Hartson,H.R.; Andre,T.S.; Williges,R.C. (2001). Criteria for evaluating usability evaluation methods. International Journal of Human-computer Interaction, (13)4, 373-410. Hertzum, M.; Jacobsen, N.E. (2003). The evaluator effect: A chilling fact about usability evaluation methods. International Journal of Human-Computer Interaction, 15(1), 183- 204. Ingwersen,P. (1992). Information retrieval interaction. London: Taylor Graham. x, 246 s. Ingwersen,P. (1992). Cognitive perspectives of information retrieval interaction: elements of cognitive IT theory. Journal of Documentation, (51)1, s. 3-50. Ingwersen,P.; Järvelin,K. (2005). The turn : integration in information seeking and retrieval in context. Dordrecht: Springer. Xiv, 448 s. Jacobsen,N.E. (1999). Usability evaluation methods : The reliability and usage of cognitive walkthrough and usability test. Copenhagen: University of Copenhagen. 178 s. Kuhlthau, C.C. (1991). Inside the search process: information seeking from users perspective. Journal of The American Society of Information Science, (42)5, s. 361-371. Københavns Tekniske Bibliotek (2005). Biblioteket som læringsrum, projekt. Intern rapport. Kaasgaard,K. (2000). The unbearable lightness of web design: a talk with Jakob Nielsen, s. 45-77.In Kaasgaard Software design and usability. København: Handelshøjskolens forlag Molich, R. (2003). Brugervenligt webdesign. København.: Nyt Teknisk Forlag, 2. udg. 198 s. Molich,R.; Ede,M.R.; Kaasgaard,K.; Karyukin,B. (2004). Comparative usability evaluation. Behaviour & Information Technology, 23(1), s. 65-74 Molich,R. (2007, 14. december). 230 tips and tricks for better usability testing. Lokaliseret den 14. december 2007 på World Wide Web: http://www.useit.com Nielsen,J. (1992). Finding usablity problems through heuristic evaluation. Proceedings ACM CHI’92 Conference. Monterey, CA, 3-7 May), s. 373-380. Nielsen,J. (1993). Usability engineering. Amsterdam: Morgan Kaufmann. xiv, 362 s. Nielsen,J. (personlig kommunikation, 5. november 2007a). Alert announcement list. Nielsen,J. (2007b, 1. december). Ten usability heuristics. Lokaliseret den 1. december 2007 på World Wide Web: http://www.useit.com/papers/heuristic/heuristic_list.html. Nielsen,J.; Mack,R.L. (1994). Usability inspection methods. New York : Wiley. xxiv, 413 s. Pors,N. (2005). Studerende, Google og bibliotekerne: en undersøgelse af 1694 studerendes brug af biblioteker og informationsressourcer. København: Biblioteksstyrelsen, 118 s. Robertson,S.E.; Hancock-Beaulieu,M.M. (1992). On the evaluation of IR systems. Information Processing and Management, (28)4, s. 457-466.

Page 37: Undersøgelse af slutbrugertest versus ekspertbaseret ...pure.iva.dk/files/30772887/Usabilityevaluering.pdf · definition af usability, kognitiv IR-model og HCI, usability-evalueringsmetode,

36

Sandusky,R.J. (2002). Digital library attributes : Framing usability research. In A. Blandford & G. Buchanan (ed.). Proceedings Workshop on Usability of Digital Libraries of JCDL’02, s. 35-38. Saracevic,T. (1996). Relevance reconsidered ’96. In Ingwersen,P., Pors,N.O. eds., Information Science : Integration in perspective. Copenhagen : Royal School of Librarianship, s. 201-218. Spink,A.; Greisdorf,H. Bateman,J. (1998). From highly relevant to not relevant : examining different regions of relevance. Information Processing and Management, (43)5, s. 599- 621. Sutclife,A.G.; Ennis,M.; Watkinson,S.J. (2000). Empirical studies of end-user information searching. Journal of The American Society for Information Science (51)13, 1211-1231. Tang,R.; Solomon,P. (1998). Towards an understanding of the dynamics of relevance judgment : an analysis of one persons search behaviour. Information processing and management, 34(2/3, s. 237-256. Uhrskov,U.F. (2002). Er der forskel i søgeadfærd mellem humaniora- og naturvidenskabsstuderende? Biblioteksarbejde, 22(63), s. 5-19. UNI.C (2004). Det brugervenlige digitale forskningsbibliotek: best practice rapport baseret på usability-test af 11 store forskningsbibliotekers websteder. København: UNI.C. 122 s. Van den Haak,M.J.; De Jong,M.D.T.; Schellens,P.J. (2004). Employing think-aloud protocols and constructive interaction to test the usability of online catalogues : a methodological comparison. Interaction with Computers, 16, 1153-1170. Vakkari,P. (2000a). eCognition and changes of search terms and tactics during task performance : a longitude study. Proceedings of the RIAO 2000 Conference. Paris: C.I.D., s. 894-907 Vakkari,P. (2000b). Relevance and contributing information types of searched documents in performance. In: Belkin,N.J., Ingwersen,P., Leong,M.-K., eds. Proceedings of the 23rd

ACM Sigir Conference on Research and Development of Information Retrieavel. Athens, Greece, 2000, s. 2-9. Bilag Figurer og skemaer til teori og design Bilag 1 Figur. A model of the attributes of system acceptability (Nielsen, 1993, s. 25) Bilag 2 Figur. Cognitive model of IR interaction (Ingwersen, 1992, s. 148; Ingwersen, 1996, s. 9; Ingwersen og Järvelin, 2005, s. 274) Bilag 3 Figur. Brugeres forskellige viden. (Nielsen, 1993, s. 44) Bilag 4 Oversigt over heuristikkerne (Nielsen) Bilag 5 Klassifikation af svar (Molich, 2003, s. 154) Bilag 6 Rapporteringsskema og interview Bilag 7 Spørgeskema til ekspertgennemgang (Fidel og Soergel, 1983; Nielsen, 1993; Hartson, 1998) Bilag 8 Spørgeskema til slutbrugertest (Fidel og Soergel, 1983; Nielsen, 1993; Hartson, 1998) Bilag 9 Worktask

Resultater fra undersøgelserne Ekspertundersøgelse Bilag 10 Problemliste fra ekspertvurderinger. Evalueringerne adskilt. Bilag 11 Problemliste fra ekspertvurderinger. Evalueringerne samlet. Bilag 12 Kommentarer og reaktioner observeret ved ekspertgennemgangen Bilag 13 Sammentælling fra spørgeskema ved ekspertbaseret gennemgang Bilag 14 Sammentælling af data fra ekspertgennemgangen og diagrammer. Excel Slutbrugertest Bilag 15 Sammentælling fra spørgeskema ved slutbrugertest Bilag 16 Resultat fra brugertest med worktask. Bilag 17 Interview med brugere i slutbrugertest