isearch: brugerbehov og testresultater i integreret søgning
DESCRIPTION
TRANSCRIPT
iSearch: brugerbehov og
testresultater i integreret søgning
Marianne Lykke, professor, PhD.Aalborg UniversityInstitut for Kommunikation, eLearning Lab
Dagens emner
• Projektets formål og problemstilling
• Testsamlingen
• Resultater vedr. testsamling
• Resultater vedr. informationsbehov
• Resultater vedr. søgeperformance
• Opsamling og det videre arbejde
Formål og problemstilling
‘Why is Google so easy
and the library so hard?’ (Claire Duddy - student)
United Kingdom Serials Group
2009 Annual conference
Formål og problemstilling
Haves:
Mange digitale samlinger med forskellige medier, genrer, dokumenttyper, metadata og vokabularer
Ønskes:
En søgemaskine, der kan finde de mest relevante resultater på tværs af det hele
Formål og problemstilling
Integreret søgning er en mulig løsning:
• Relevante informationsobjekter høstes
• Posterne normaliseres til et enkelt metadata format
• De indekseres i et stort fælles indeks
• Der tilføjes en Google-like søgeboks og rangering
• (…en slags federated search 2.0)
Formål og problemstilling
• Overordnet handler projektet Værktøjer til integreret søgning om at teste og evaluere, hvilke søgealgoritmer og indekseringskonfigurationer, der giver de bedste søgeresultater ved integreret søgning
• I praksis har det største arbejde været at udvikle og etablere et realistisk testmiljø, hvor søge- og rangordningsalgoritmer kan evalueres systematisk og metodisk korrekt
iSearch testsamling
En testsamling til at evaluere værktøjer til integreret søgning
kræver som minimum:
• En samling af forskellige dokumenttyper, med forskellige
dokumentrepræsentationer
• Et sæt søgeopgaver
• Relevansvurderinger i forhold til søgeopgaver
• Formålet er at foretage både realistiske og kontrollerede
testsøgninger
iSearch testsamling• Testsamling indenfor fagområdet fysik
• Testsamling bestående af:
– 18.841 bogposter
– 291,244 artikelposter, inkl. abstrakts
– 143,569 fuldtekst artikler
• Varieret sæt af metadata formater og vokabularer
• 65 realistiske informationsbehov
• 4-skala relevansbedømmelser
• Demografisk information om fysikere
• Holdningsinformation om metadata, søgning,
relevansbedømmelse, tilfredshed med søgeresultat
Informationsbehov
• 65 søgeopgaver
• Indsamlet gennem 3 workshops afholdt på DTU, KU og
AAU
• 23 fysikere, seniorforskere, phd’ere,
specialestuderende)
• Spørgeskema
• Beskrivelse af informationsbehov ud fra 5
perspektiver
• Demografiske data
• Holdningsdata
• Op til 200 relevansbedømmelser per opgave
• 4 skalaer: highly, faily, marginally and not relevant
Informationsbehov
5 perspektiver
Perspective Question
a) Current information need What are you looking for?
b) Work task situation Why are you looking for this?
c) Current knowledge stateWhat is you background
knowledge of this topic?
d) Ideal answerWhat should am ideal answer
contain to solve problem or task?
e) Adequate search terms
Which central search terms would
you use to express situation and
information need?
iSearch information need No. 49a) Information Need: Information on characterization by photo luminescence of highly
doped ZnO films
b) Work Task: For my master thesis I work with characterization of ZnO films by photo
luminescence. The films are manufactured by RF magnetron sputtering and have
thicknesses of approximately 100 nm. The films are either intrinsic or doped with Al.
Green luminescence are of particular interest, but other defect modes are also of
interest. The aim is to document a simple way of characterizing films in a non intrusive
manor, and maybe to implement the technique in the production to monitor film growth.
In particular information on sub band gab excitation is interesting as only a 405 nm
laser is readily available at the institute
c) Background: I have worked with the topic for a year and a half. We have made
experiments with photo luminescence and have observed green luminescence. I have
read quite a lot of review articles on the subject and have been seeking articles with
comparable parameters
d) Ideal Answer: An article containing examples of luminescence from samples made by
rf magnetron sputtering. Graphs with photoluminescence data from ZnO films are
essential. Ideally Al doped ZnO films would be featured in the article
e) Search terms: ZnO, rf magnetron sputtering, photo luminescence, al doped, green
luminescence
Informationsbehov
Formål
Task purpose %
Theoretical background 54
Previous results 26
Research methodology 20
Informationsbehov
Søgefacetter
Search facets Task description questions
a) b) c) d) e) All
Common topic 316 545 310 234 242 1647
Method 47 73 66 37 48 271
Info type 38 26 29 145 5 243
Application 1 7 1 1 1 11
Other n/a 15 11 5 n/a 31
Informationsbehov
Andre facetter
• Research groups
• Specific reference
• Source
• Year
• Location
• Disciplinary field
• Audience
Informationsbehov
Antal søgetermer
Task description questions (average)
Task purpose a) b) c) d) e) All
Theoretical
background6.7 10.5 6.1 7.1 4.8 35.2
Previous results 5.5 10.1 6.1 5.4 4.7 31.8
Research
methodology5.8 9.6 6.9 6.3 3.8 32.4
All 6.2 10.2 6.4 6.5 4.6 33.8
Relevansbedømmelser
No. of tasks
Range of relevant docs. N = 65
> 100 9
75 - 100 3
50 - 74 8
25 - 49 13
15 - 24 12
10 - 14 8
< 10 12
Søgeperformance - dokumenttyper
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,00 0,20 0,40 0,60 0,80 1,00
Præ
cis
ion
Recall
Alle rel.
rel. Bogposter
rel. Fuldtekst
rel. Metadata
Søgeperformance - fusion
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
Pre
cis
iop
n
Recall
Alle rel.
rel. Bogposter
rel. Fuldtekst
rel. Metadata
Søgeperformance - metadata
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00
Pre
cis
iop
n
Recall
description fulltext
subject title
Relevansbedømmelse - metadata
0,0
10,0
20,0
30,0
40,0
50,0
60,0
70,0
80,0
Author Description Date Comment Subjects
Extremely useful Somewhat useful Not at all useful
Søgeperformance – description
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,00 0,20 0,40 0,60 0,80 1,00
Pre
cis
iop
n
Recall
Alle rel.
rel. Bogposter
rel. Fuldtekst
rel. Metadata
Søgeperformance - dokumenttyper
0
0,1
0,2
0,3
0,4
0,5
0,6
Previous results Design methodology Theory & background knowledge
ND
CG
NDCG for different task purposes and document types
All document types Book records
Full text articles Metadata records
Søgeperformance - søgetermer
0,0
0,2
0,4
0,6
0,8
1,0
Short length (2-4 terms) Long length (5-12 terms)
ND
CG
NDCG for different task lengths and document types
All document types Book records
Full text articles Metadata records
Opsamling og videre arbejde
• Oprettelse af testsamling til evaluering af integreret søgning
• Realistisk og kontrolleret test setting
• Informationssøgning indenfor fagområdet Fysik:– 3 overordnede typer informationsbehov
– Muligt at identificere 5 perspektiver på informationsbehov med forskelligt antal facetter
– BT/NT, forkortelser, få andre synonyme variationer
• Søgeeffektivitet varierer på tværs af informationsbehovstyper og dokumentrepræsentationer
• Fremtidigt arbejde:– Analyser af sammenhæng mellem informationsbehovstyper,
facetter, dokumenttyper, vokabularer og dokumentrepræsentationer
– Kvalitative, forklarende analyser
– Analyser i ”virkelighedens verden”
Erfaringer
• Hensyntagen til dokumenttyper med hensyn til vægtning og fusion
• Analysere informationsbehovstyper, længde og struktur– Opsætning
– Interface og brugter-systemdialog
– Undervisning
LitteraturIngwersen, P., Lykke, M., Bogers, T., Larsen, B. & Lund, H. (2010): Assessors'
Search Result Satisfaction Associated with Relevance in a Scientific Domain.
In: Belkin, N. J. & Kelly, D. (reds.) IIiX'10 Proceeding of the Third Symposium
on Information Interaction in Context, New Brunswick, NJ, USA, August 18-21,
2010.New York: ACM, p. 283-287.
Ingwersen, P., Toine, B. & Lykke, M. (2010). Does degree of work task completion
influence retrieval performance. In: Proceedings of the 73rd ASIS&T Annual
Meeting. Grove, A. (red.). 47. American Society for Information Science and
Technology
Lykke, M., Ingwersen, P., Bogers, T., Lund, H. & Larsen, B. (2010): Physicists'
Information Tasks: Structure, Length and Retrieval Performance. In: Belkin, N.
J. & Kelly, D. (reds.) IIiX'10 Proceeding of the Third Symposium on Information
Interaction in Context, New Brunswick, NJ, USA, August 18-21, 2010.New
York: ACM, p. 347-351.
Lykke, M., Larsen, B., Lund, H. & Ingwersen, P. (2010): Developing a Test
Collection for the Evaluation of Integrated Search. In: Gurrin, C. & al. eds.
Advances in Information Retrieval, 32nd European Conference on IR
Research, ECIR 2010, Milton Keynes, UK, March 28-31, 2010, Proceedings.
Berlin: Springer, p. 627-630. (Lecture Notes in Computer Science ; 5993)