brugermanual til netarkivet del...
TRANSCRIPT
1
Brugermanual til Netarkivet Del I Fritekstsøgning
Del II Wayback-søgning
Del III ”Workspace” setup – et eksempel
April 2018
2
Indholdsfortegnelse DEL I Fritekstsøgning via knappen ”Netsearch/Blacklight” ............................................................................. 3
Log på ............................................................................................................................................................ 3
Introduktion ................................................................................................................................................... 4
Først test søgning .......................................................................................................................................... 4
Søgemuligheder ............................................................................................................................................. 5
Text ............................................................................................................................................................ 5
URL/domain ............................................................................................................................................... 6
Links ........................................................................................................................................................... 6
Facetter ...................................................................................................................................................... 7
Sortering .................................................................................................................................................... 8
Søgeresultat: .................................................................................................................................................. 9
Visning af det komplette indeks: ................................................................................................................... 9
Avanceret søgning ....................................................................................................................................... 10
Felt søgning .............................................................................................................................................. 10
Interval søgning ....................................................................................................................................... 11
Filtrer ....................................................................................................................................................... 12
Troubleshooting .......................................................................................................................................... 14
Potentiel opstartsfejl: .................................................................................................................................. 14
DEL II URL Søgning via Wayback .................................................................................................................... 16
Brug af Wayback .............................................................................................................................................. 16
Vær opmærksom på at .................................................................................................................................... 17
Sådan refereres til en web side ....................................................................................................................... 18
Sådan fremfindes en reference til en web side ............................................................................................... 18
DEL III ”workspace” setup – et eksempel ........................................................................................................ 20
3
DEL I
Fritekstsøgning via knappen ”Netsearch/Blacklight”
Log på Først skal du logge på Citrix og klikke på ”IE – WayBack PROD” knappen. Hvis din Citrix
Reciever ikke starter op efter lidt tid, så ryd din browser historik, log på igen og og klik på
”Registrer Recieveren” og på ”Åben Citrix Reciever launcher” og login.
Dernæst skal du vælge, om du vil direkte til Wayback, eller om du vil bruge fritekstsøgningen
via NetsearchBlacklight.
Vælg NetsearchBlacklight (klik på det billedet med sort baggrund)
4
Introduktion Sådan ser start-siden ud:
Du må regne med meget store søgeresultater, da arkivet indeholder milliarder af dokumenter. Enkelte søgninger kan godt tage over 10 sekunder. Jo mere specifik en søgning er, jo hurtigere
kan den give svar og jo mindre bliver antallet af resultater.
Først test søgning Skriv søgeord ’search’ indstastningsfeltet øverst i midten. Prøv at søg på netarkivet.dk:
5
Søgemuligheder Som default søges på alle tilgængelige søgefelter, via ’All Fields’. Dette kan afgrænses til mere
specifikke søgninger via de andre søgemuligheder:
Text
Giver kun resultaterne, hvor søgeteksten findes i titel eller indholdsteksten (felterne title og
content_text).
6
URL/domain
Søger kun på URL og domain felterne.
Links
Søger på links felterne (links_hosts og links_domains)
7
Facetter
Når du har lavet en søgning, kan du bruge facetterne til at afgrænse resultatet:
Prøv at afgrænse søgningen med et par forskellige facetter:
8
Sortering
Søgeresultatet kan sorteres på flere forskellige måder:
Antal resultater
I udgangspunktet vises kun 10 søgeresultater ad gangen, men du kan selv vælge hvor mange
du vil have vist via ’XX per page’ dropdown-menuen:
9
Søgeresultat: For hvert søgeresultat vises en masse forskellige felter.
Den første linje har søgeresultat-nummeret (her 157 og 158) efterfulgt af linket til wayback
(dækket af enten titlen på dokumentet eller den URL, som de er høstet fra – hvis der ikke er
en titel). Wayback linket åbnes i en ny tab eller et nyt vindue.
Den efterfølgende linje indeholder link det komplette indeks for det givne resultat (forklares
senere). Derefter kommer nogle relevante indeks-felter – dette er bare et forslag, og det vises
på default måden.
Visning af det komplette indeks: Ved at klikke på ’complete index’ linket i en søgning, kan du få det fulde indeks for et givent
søge-dokument.
Som vist neden for starter siden med at vise noget af den vigtigste information om søge-
dokumentet, herunder link til wayback. Derefter vises alle felterne fra det SOLR dokument,
som dækker over det givne søgeresultat.
I udgangspunktet vises alle felterne fra SOLR-indekset, med undtagelse af et ’_version_’ felt,
der udelukkende bruges til intern SOLR opdatering. Der er helt sikkert flere af disse felter, som
vi kan undlade.
10
Avanceret søgning
I søge feltet kan du indtaste avancerede søgninger på specifikke felter med specifikke værdier,
intervaller og filtre.
Felt søgning
Det er muligt at lave søgninger på specifikke felter ved at skrive ’felt:text’ i søgefeltet. F.eks.
er der feltet ’author’ i søgeresultatet ovenfor, hvor vi kan søge på ’Margaret Blake’ som
forfatter:
Vi kan også bare søge på, hvilke sider/dokumenter der har en forfatter tilknyttet (altså, hvor
karakteriserings-værktøjerne har fundet en forfatter):
11
Intervalsøgning
Der er nogle felter, hvor det giver mening at lave et interval til ens søgninger, f.eks. dato-
stempler. Ved at bruge feltet wayback_date (som er høstningsdatoen i format:
’yyyyMMddHHmmss’) kan du f.eks. lave et interval fra 2009-2013 på følgende måde:
Det kan også være et åbent interval, f.eks. alt inden 1. juni 2012:
12
Det er også muligt at kombinere almindelig interval med en almindelig søgning, f.eks. alt inden
1. juni 2012, der omhandler netarkivet.dk:
Filtrer
Det er muligt at sige, at du gerne vil filtrere nogle søgeresultater fra. Dette gøres ved at tilføje
et minus foran en specifik søgning, ’-felt:værdi’, f.eks. hvis du vil finde alle sider, der handler
om netarkivet.dk, men ikke er på domænet netarkivet.dk:
Omvendt kan du få listet dem som kun er på netarkivet.dk ved at skrive plus i stedet foran
domain-feltnavnet eller blot undlade noget fortegn f.eks.:domain: netarkivet.dk.
13
Du kan se den fulde søge-syntax på engelsk her:
https://lucene.apache.org/core/2_9_4/queryparsersyntax.html
14
Troubleshooting
Potentiel opstartsfejl: Der kan være nogle problemer med startsiden i Citrix, så den ser forkert ud:
I så fald lav en søgning på ’netarkivet.dk’ (som vist oven for), og tryk på ’search’-knappen
igen, når du får resultat-siden:
15
Så burde siden komme op i det rigtige format:
16
DEL II
URL Søgning via Wayback
Brug af Wayback Når du er logget på Wayback får du følgende skæmbillede op:
Skriv din søge-url i ”Enter Web Address:” feltet og klik på ”Take Me Back”. Her ses alle de datoer i UTC tid ( se evt. http://da.wikipedia.org/wiki/UTC ) - altså 1 eller 2 timer før
”vores tid” (alt afhængig af om vi har vintertid eller sommertid) - som netarkivet.dk er blevet
høstet på. Ved at holde musen hen over en dato får du en provenienskode til selve høstningen
og navnet på warc opbevaringsfilen: jobnr-høstningsid-dato-løbenr-server.
Klikker du på en given dato, får du den høstede side op. Læg mærke til provenienskoden
øverst er tilføjet et nummer til sidst, som angiver eksakt offset i den fil som websiden ligger i.
Vær opmærksom at denne dato og tidspunktet nedenfor i top bjælken er høsterens
nedskrivningstidspunkt i UTC tid for den høstede webside. Øvrige tidspunkter på siden er
”normal dansk tid”.
17
Du kan udføre lokal print ved at højreklikke på siden og vælge print - under forudsætning af,
at du har defineret en lokal printer. Derudover kan du se den tekniske opbygning af siden ved
at højreklikke og vælge ”View Source”.
Ønsker du at se din webhistorik og evt. gemme favoritter, så klik på ”stjernen” i øverste højre
hjørne i mellem ”huset” og ”tandhjulet” ( standard Windows browserfunktionalitet). De
gemmes i din profil på serveren indtil profilen gendannes eller slettes. Ønsker du at ændre
kodeord, så klik efter login på dit navn øverst til højre:
Vær opmærksom på at topbarens tid måske ikke stemmer overens med den høstningsdato og -tid du har
klikket på: så tøm cachen og historikken via <ctrl>+<shift>+<del> og prøv igen.
svartiden på visse sider kan tage op til 70 sekunder, hvis der er rigtig mange links på
en side.
der gives svaret ”Not in archive” – eller også vises en tidligere høstet side med samme
url, når en url ikke findes i arkivet. Det kan typisk ske, når et domæne pludselig
begynder at linke til at helt andet domæne, som ikke indgår i høstningen.
nogle domæner er høstet overraskende mange gange samme dag. Det skyldes i reglen
nogle hyppige selektive høstninger eller overlappende høstninger, fx via en anden
høstning af andre domæner, hvor der fx er link til domænets forside, fx dr.dk og
tv2.dk, som linker til bla. sa.dk. For facebook.com søgninger: Lad være med at bruge
forside-url’en, men anvend url’er til profiler/sider som fx
http://www.facebook.com/profile.php?id=667790773
18
Wayback kan være ”nærtagende” mht. ”/”. Hvis for eksempel søgning på url’en
http://ekstrabladet.dk/nyheder næsten ikke giver resultater så søg også på
http://ekstrabladet.dk/nyheder/ .
https/ftp urler pt. ikke kan ses via Wayback, selvom de er høstede. Det gælder bl.a.
nyere sider samt facebook-profiler (dog ikke mobil interfacet), twitter.com profiler,
nyere Youtube watch-urler og -videoer, e-bøger fra Publizon. Fejlen du får er : ”http
bad request” – ”The webpage cannot be found”. Tøm cachen og historikken via
<ctrl>+<shift>+<del> og vælg en anden høstning, som ikke er https baseret.
der er opsat sikkerhedsfiltre, som forhindrer adgang til OAI høstede e-bøger fra bl.a.
Museum Tusculanum.
Wayback løbende bliver indekseret (normalt op til for 1-2 døgn siden, men kan i
undtagelsestilfælde blive forsinket op til 3 måneder – send en mail til
[email protected] hvis du er i tvivl).
* efter høstningsdatoen i kalendervisningen betyder at siden er ændret i forhold til den
foregående høstning.
forespørgsler nogen gange kan hænge længe pga. nogle bagvedliggende
softwareblokeringer, som vi arbejder på at få løst. Du skal bare prøve igen lidt senere.
der ikke er foretaget en del domænehøstninger i 2008 pga. driftsnedbrud (pt. kendes
ca. 82).
alt, hvad du søger på, bliver logget.
at visse websider kan fremstå fragmentariske, blandt andet pga. avanceret javascript -
f.eks. manglende reklamespots eller billeder.
notere og sende de url’er til [email protected], som du synes burde være der (det
kan være at de ikke er blevet indexeret rigtigt, eller ikke kan vises i Wayback).
Sådan refereres til en web side Det mest præcise er URL + proveniens kode og tidspunktet for den aktuelle sides nedtagning
øverst på arkiv websiden i top bjælken. Disse ting tilsammen angiver eksakt, hvad for en URL i
arkivet, der henvises til.
F.eks. kunne en henvisning se sådan ud:
http://netarkivet.dk 197800-188-20140107085943-00000-sb-prod-har-
005.statsbiblioteket.dk.warc/4773261 (9:01:06 jan 7, 2014 i UTC tid).
Det eksakte nedtagningstidspunkt for websiden, finder du under versions angivelsen i
topbjælken f.eks.:
Viewing version 1.045 of 1.391
9:01:06 jan 7, 2014
Tiden i proveniensoplysningerne er UTC tid dvs. er 1 eller 2 timer før dansk normal tid - alt
afhængig af om det er dansk vintertid eller sommertid.
Screenshots kan være udmærkede at supplere med, men de kan let være utydelige og
svære at aflæse for udenforstående.
Derudover bør du i forbindelse med fremlæggelse af screenshots være opmærksom på, at der
ikke vises noget, som kræver tilladelser vedr. personfølsomme oplysninger
eller hvor ophavsret kan gøres gældende.
Sådan fremfindes en reference til en web side
F.eks. har du referencen:
http://netarkivet.dk 197800-188-20140107085943-00000-sb-prod-har-
19
005.statsbiblioteket.dk.warc/4773261 ( 9:01:06 jan 7, 2014 i UTC tid).
Via URL + høstningsdato og tid kan du i Wayback kalender visning finde den eksakte
side på følgende måde:
URL fremsøges i Wayback og i kalendervisningen findes den høstning som matcher høstnings
dato og tidspunkt f.eks. 2014-01-07 09:01. Når du holder musen hen over datoen og
tidspunktet skal strengen f.eks. 197800-188-20140107085943-00000-sb-prod-har-
005.statsbiblioteket.dk.warc være den samme som i den angivne reference.
20
DEL III
”workspace” setup – et eksempel
Klik på favorites i browser-toolbaren i Citrix, klik på den grønne pil til venstre lige over
favorites fanebladet.
Højreklik på de enkelte links i søgeresultat og åbn et nyt faneblad med siden hentet fra
Wayback.
21
Du kan nu klikke på fanebladene et for et og sammenligne de enkelte udgaver.
Hvis du ønsker at se alle høstninger vedr. en url så klik på et nyt faneblad og log på Wayback
søg f.eks. på netarkivet.dk og få den fulde kaldendervisning.
22
Hvis du ønsker at gemme alle dine faneblade til næste gang du logger på så klik på ”Add
current tabs to favorites” for at gemme dine aktuelle faneblade.
Tilføj navnet for folderen det bliver gemt i.
23
Klik på folderen og se dine enkelte faneblade i folderen. Når du logger ind igen senere kan du
bare klikke på en enkelt af dem eller på folderen for at få dine faneblade genetableret.