brugermanual til netarkivet del...

23
1 Brugermanual til Netarkivet Del I Fritekstsøgning Del II Wayback-søgning Del III ”Workspace” setup – et eksempel April 2018

Upload: others

Post on 06-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

1

Brugermanual til Netarkivet Del I Fritekstsøgning

Del II Wayback-søgning

Del III ”Workspace” setup – et eksempel

April 2018

Page 2: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

2

Indholdsfortegnelse DEL I Fritekstsøgning via knappen ”Netsearch/Blacklight” ............................................................................. 3

Log på ............................................................................................................................................................ 3

Introduktion ................................................................................................................................................... 4

Først test søgning .......................................................................................................................................... 4

Søgemuligheder ............................................................................................................................................. 5

Text ............................................................................................................................................................ 5

URL/domain ............................................................................................................................................... 6

Links ........................................................................................................................................................... 6

Facetter ...................................................................................................................................................... 7

Sortering .................................................................................................................................................... 8

Søgeresultat: .................................................................................................................................................. 9

Visning af det komplette indeks: ................................................................................................................... 9

Avanceret søgning ....................................................................................................................................... 10

Felt søgning .............................................................................................................................................. 10

Interval søgning ....................................................................................................................................... 11

Filtrer ....................................................................................................................................................... 12

Troubleshooting .......................................................................................................................................... 14

Potentiel opstartsfejl: .................................................................................................................................. 14

DEL II URL Søgning via Wayback .................................................................................................................... 16

Brug af Wayback .............................................................................................................................................. 16

Vær opmærksom på at .................................................................................................................................... 17

Sådan refereres til en web side ....................................................................................................................... 18

Sådan fremfindes en reference til en web side ............................................................................................... 18

DEL III ”workspace” setup – et eksempel ........................................................................................................ 20

Page 3: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

3

DEL I

Fritekstsøgning via knappen ”Netsearch/Blacklight”

Log på Først skal du logge på Citrix og klikke på ”IE – WayBack PROD” knappen. Hvis din Citrix

Reciever ikke starter op efter lidt tid, så ryd din browser historik, log på igen og og klik på

”Registrer Recieveren” og på ”Åben Citrix Reciever launcher” og login.

Dernæst skal du vælge, om du vil direkte til Wayback, eller om du vil bruge fritekstsøgningen

via NetsearchBlacklight.

Vælg NetsearchBlacklight (klik på det billedet med sort baggrund)

Page 4: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

4

Introduktion Sådan ser start-siden ud:

Du må regne med meget store søgeresultater, da arkivet indeholder milliarder af dokumenter. Enkelte søgninger kan godt tage over 10 sekunder. Jo mere specifik en søgning er, jo hurtigere

kan den give svar og jo mindre bliver antallet af resultater.

Først test søgning Skriv søgeord ’search’ indstastningsfeltet øverst i midten. Prøv at søg på netarkivet.dk:

Page 5: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

5

Søgemuligheder Som default søges på alle tilgængelige søgefelter, via ’All Fields’. Dette kan afgrænses til mere

specifikke søgninger via de andre søgemuligheder:

Text

Giver kun resultaterne, hvor søgeteksten findes i titel eller indholdsteksten (felterne title og

content_text).

Page 6: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

6

URL/domain

Søger kun på URL og domain felterne.

Links

Søger på links felterne (links_hosts og links_domains)

Page 7: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

7

Facetter

Når du har lavet en søgning, kan du bruge facetterne til at afgrænse resultatet:

Prøv at afgrænse søgningen med et par forskellige facetter:

Page 8: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

8

Sortering

Søgeresultatet kan sorteres på flere forskellige måder:

Antal resultater

I udgangspunktet vises kun 10 søgeresultater ad gangen, men du kan selv vælge hvor mange

du vil have vist via ’XX per page’ dropdown-menuen:

Page 9: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

9

Søgeresultat: For hvert søgeresultat vises en masse forskellige felter.

Den første linje har søgeresultat-nummeret (her 157 og 158) efterfulgt af linket til wayback

(dækket af enten titlen på dokumentet eller den URL, som de er høstet fra – hvis der ikke er

en titel). Wayback linket åbnes i en ny tab eller et nyt vindue.

Den efterfølgende linje indeholder link det komplette indeks for det givne resultat (forklares

senere). Derefter kommer nogle relevante indeks-felter – dette er bare et forslag, og det vises

på default måden.

Visning af det komplette indeks: Ved at klikke på ’complete index’ linket i en søgning, kan du få det fulde indeks for et givent

søge-dokument.

Som vist neden for starter siden med at vise noget af den vigtigste information om søge-

dokumentet, herunder link til wayback. Derefter vises alle felterne fra det SOLR dokument,

som dækker over det givne søgeresultat.

I udgangspunktet vises alle felterne fra SOLR-indekset, med undtagelse af et ’_version_’ felt,

der udelukkende bruges til intern SOLR opdatering. Der er helt sikkert flere af disse felter, som

vi kan undlade.

Page 10: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

10

Avanceret søgning

I søge feltet kan du indtaste avancerede søgninger på specifikke felter med specifikke værdier,

intervaller og filtre.

Felt søgning

Det er muligt at lave søgninger på specifikke felter ved at skrive ’felt:text’ i søgefeltet. F.eks.

er der feltet ’author’ i søgeresultatet ovenfor, hvor vi kan søge på ’Margaret Blake’ som

forfatter:

Vi kan også bare søge på, hvilke sider/dokumenter der har en forfatter tilknyttet (altså, hvor

karakteriserings-værktøjerne har fundet en forfatter):

Page 11: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

11

Intervalsøgning

Der er nogle felter, hvor det giver mening at lave et interval til ens søgninger, f.eks. dato-

stempler. Ved at bruge feltet wayback_date (som er høstningsdatoen i format:

’yyyyMMddHHmmss’) kan du f.eks. lave et interval fra 2009-2013 på følgende måde:

Det kan også være et åbent interval, f.eks. alt inden 1. juni 2012:

Page 12: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

12

Det er også muligt at kombinere almindelig interval med en almindelig søgning, f.eks. alt inden

1. juni 2012, der omhandler netarkivet.dk:

Filtrer

Det er muligt at sige, at du gerne vil filtrere nogle søgeresultater fra. Dette gøres ved at tilføje

et minus foran en specifik søgning, ’-felt:værdi’, f.eks. hvis du vil finde alle sider, der handler

om netarkivet.dk, men ikke er på domænet netarkivet.dk:

Omvendt kan du få listet dem som kun er på netarkivet.dk ved at skrive plus i stedet foran

domain-feltnavnet eller blot undlade noget fortegn f.eks.:domain: netarkivet.dk.

Page 13: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

13

Du kan se den fulde søge-syntax på engelsk her:

https://lucene.apache.org/core/2_9_4/queryparsersyntax.html

Page 14: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

14

Troubleshooting

Potentiel opstartsfejl: Der kan være nogle problemer med startsiden i Citrix, så den ser forkert ud:

I så fald lav en søgning på ’netarkivet.dk’ (som vist oven for), og tryk på ’search’-knappen

igen, når du får resultat-siden:

Page 15: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

15

Så burde siden komme op i det rigtige format:

Page 16: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

16

DEL II

URL Søgning via Wayback

Brug af Wayback Når du er logget på Wayback får du følgende skæmbillede op:

Skriv din søge-url i ”Enter Web Address:” feltet og klik på ”Take Me Back”. Her ses alle de datoer i UTC tid ( se evt. http://da.wikipedia.org/wiki/UTC ) - altså 1 eller 2 timer før

”vores tid” (alt afhængig af om vi har vintertid eller sommertid) - som netarkivet.dk er blevet

høstet på. Ved at holde musen hen over en dato får du en provenienskode til selve høstningen

og navnet på warc opbevaringsfilen: jobnr-høstningsid-dato-løbenr-server.

Klikker du på en given dato, får du den høstede side op. Læg mærke til provenienskoden

øverst er tilføjet et nummer til sidst, som angiver eksakt offset i den fil som websiden ligger i.

Vær opmærksom at denne dato og tidspunktet nedenfor i top bjælken er høsterens

nedskrivningstidspunkt i UTC tid for den høstede webside. Øvrige tidspunkter på siden er

”normal dansk tid”.

Page 17: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

17

Du kan udføre lokal print ved at højreklikke på siden og vælge print - under forudsætning af,

at du har defineret en lokal printer. Derudover kan du se den tekniske opbygning af siden ved

at højreklikke og vælge ”View Source”.

Ønsker du at se din webhistorik og evt. gemme favoritter, så klik på ”stjernen” i øverste højre

hjørne i mellem ”huset” og ”tandhjulet” ( standard Windows browserfunktionalitet). De

gemmes i din profil på serveren indtil profilen gendannes eller slettes. Ønsker du at ændre

kodeord, så klik efter login på dit navn øverst til højre:

Vær opmærksom på at topbarens tid måske ikke stemmer overens med den høstningsdato og -tid du har

klikket på: så tøm cachen og historikken via <ctrl>+<shift>+<del> og prøv igen.

svartiden på visse sider kan tage op til 70 sekunder, hvis der er rigtig mange links på

en side.

der gives svaret ”Not in archive” – eller også vises en tidligere høstet side med samme

url, når en url ikke findes i arkivet. Det kan typisk ske, når et domæne pludselig

begynder at linke til at helt andet domæne, som ikke indgår i høstningen.

nogle domæner er høstet overraskende mange gange samme dag. Det skyldes i reglen

nogle hyppige selektive høstninger eller overlappende høstninger, fx via en anden

høstning af andre domæner, hvor der fx er link til domænets forside, fx dr.dk og

tv2.dk, som linker til bla. sa.dk. For facebook.com søgninger: Lad være med at bruge

forside-url’en, men anvend url’er til profiler/sider som fx

http://www.facebook.com/profile.php?id=667790773

Page 18: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

18

Wayback kan være ”nærtagende” mht. ”/”. Hvis for eksempel søgning på url’en

http://ekstrabladet.dk/nyheder næsten ikke giver resultater så søg også på

http://ekstrabladet.dk/nyheder/ .

https/ftp urler pt. ikke kan ses via Wayback, selvom de er høstede. Det gælder bl.a.

nyere sider samt facebook-profiler (dog ikke mobil interfacet), twitter.com profiler,

nyere Youtube watch-urler og -videoer, e-bøger fra Publizon. Fejlen du får er : ”http

bad request” – ”The webpage cannot be found”. Tøm cachen og historikken via

<ctrl>+<shift>+<del> og vælg en anden høstning, som ikke er https baseret.

der er opsat sikkerhedsfiltre, som forhindrer adgang til OAI høstede e-bøger fra bl.a.

Museum Tusculanum.

Wayback løbende bliver indekseret (normalt op til for 1-2 døgn siden, men kan i

undtagelsestilfælde blive forsinket op til 3 måneder – send en mail til

[email protected] hvis du er i tvivl).

* efter høstningsdatoen i kalendervisningen betyder at siden er ændret i forhold til den

foregående høstning.

forespørgsler nogen gange kan hænge længe pga. nogle bagvedliggende

softwareblokeringer, som vi arbejder på at få løst. Du skal bare prøve igen lidt senere.

der ikke er foretaget en del domænehøstninger i 2008 pga. driftsnedbrud (pt. kendes

ca. 82).

alt, hvad du søger på, bliver logget.

at visse websider kan fremstå fragmentariske, blandt andet pga. avanceret javascript -

f.eks. manglende reklamespots eller billeder.

notere og sende de url’er til [email protected], som du synes burde være der (det

kan være at de ikke er blevet indexeret rigtigt, eller ikke kan vises i Wayback).

Sådan refereres til en web side Det mest præcise er URL + proveniens kode og tidspunktet for den aktuelle sides nedtagning

øverst på arkiv websiden i top bjælken. Disse ting tilsammen angiver eksakt, hvad for en URL i

arkivet, der henvises til.

F.eks. kunne en henvisning se sådan ud:

http://netarkivet.dk 197800-188-20140107085943-00000-sb-prod-har-

005.statsbiblioteket.dk.warc/4773261 (9:01:06 jan 7, 2014 i UTC tid).

Det eksakte nedtagningstidspunkt for websiden, finder du under versions angivelsen i

topbjælken f.eks.:

Viewing version 1.045 of 1.391

9:01:06 jan 7, 2014

Tiden i proveniensoplysningerne er UTC tid dvs. er 1 eller 2 timer før dansk normal tid - alt

afhængig af om det er dansk vintertid eller sommertid.

Screenshots kan være udmærkede at supplere med, men de kan let være utydelige og

svære at aflæse for udenforstående.

Derudover bør du i forbindelse med fremlæggelse af screenshots være opmærksom på, at der

ikke vises noget, som kræver tilladelser vedr. personfølsomme oplysninger

eller hvor ophavsret kan gøres gældende.

Sådan fremfindes en reference til en web side

F.eks. har du referencen:

http://netarkivet.dk 197800-188-20140107085943-00000-sb-prod-har-

Page 19: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

19

005.statsbiblioteket.dk.warc/4773261 ( 9:01:06 jan 7, 2014 i UTC tid).

Via URL + høstningsdato og tid kan du i Wayback kalender visning finde den eksakte

side på følgende måde:

URL fremsøges i Wayback og i kalendervisningen findes den høstning som matcher høstnings

dato og tidspunkt f.eks. 2014-01-07 09:01. Når du holder musen hen over datoen og

tidspunktet skal strengen f.eks. 197800-188-20140107085943-00000-sb-prod-har-

005.statsbiblioteket.dk.warc være den samme som i den angivne reference.

Page 20: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

20

DEL III

”workspace” setup – et eksempel

Klik på favorites i browser-toolbaren i Citrix, klik på den grønne pil til venstre lige over

favorites fanebladet.

Højreklik på de enkelte links i søgeresultat og åbn et nyt faneblad med siden hentet fra

Wayback.

Page 21: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

21

Du kan nu klikke på fanebladene et for et og sammenligne de enkelte udgaver.

Hvis du ønsker at se alle høstninger vedr. en url så klik på et nyt faneblad og log på Wayback

søg f.eks. på netarkivet.dk og få den fulde kaldendervisning.

Page 22: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

22

Hvis du ønsker at gemme alle dine faneblade til næste gang du logger på så klik på ”Add

current tabs to favorites” for at gemme dine aktuelle faneblade.

Tilføj navnet for folderen det bliver gemt i.

Page 23: Brugermanual til Netarkivet Del Inetarkivet.dk/wp-content/uploads/2018/05/Brugervejledning_v_5_april... · (dækket af enten titlen på dokumentet eller den URL, som de er høstet

23

Klik på folderen og se dine enkelte faneblade i folderen. Når du logger ind igen senere kan du

bare klikke på en enkelt af dem eller på folderen for at få dine faneblade genetableret.