de online erfgoedbibliotheek (2/3)
Post on 24-Jan-2015
793 Views
Preview:
DESCRIPTION
TRANSCRIPT
De online erfgoedbibliotheek (2)
David CoppoolseStafmedewerker ontsluiting en digitaliseringVlaamse Erfgoedbibliotheek
Vormingsreeks ‘Van heemkundige collectie tot online erfgoedbibliotheek’Heemkunde Vlaanderen | november 2011
2
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Wat vooraf ging in presentatie 1
Zelf digitaliseren De vzw Vlaamse Erfgoedbibliotheek
Erfgoedbibliotheken Wat is digitalisering? Digitalisering van ‘ingangen’ op collecties
Catalogi Netwerkcatalogi, Union Catalogs
Bibliografieën Abraham, STCV
Collectiebeschrijvingen Collectieregisters
2011-11-30
Digitalisering van publicaties
4
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Papieren publicaties
Boeken Manuscripten (‘handgeschreven boeken’) Handgedrukte boeken (‘oude drukken’)
1455 – negentiende eeuw (1830) Machinaal gedrukte boeken
(‘moderne drukken’) negentiende eeuw (1830) – nu
2011-11-30
5
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Papieren publicaties
Periodieken Kranten
Vanaf ca. 1620 – Abraham Verhoeven, Antwerpen
Tijdschriften Vanaf tweede helft
achttiende eeuw
2011-11-30
6
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
De krant, toen en nu…
2011-11-30
7
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Elektronische publicaties
e-Books Digitale periodieken
Kranten Tijdschriften
Websites Apps Games Databanken …
2011-11-30
8
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
‘Born digital’
= ‘Van oorsprong digitaal’ Digitale publicaties die nooit in papieren
vorm bestaan hebben Creatie, bewaring en raadpleging zijn volledig
digitaal Vaak is er nog wel een papieren pendant Bewaring is speciale uitdaging!
Eigenlijk ook: alle papieren publicaties anno 2011 Op basis van computerbestanden Begonnen in de jaren 1970 met
computergestuurd zetten
2011-11-30
Waarom publicaties digitaliseren?
10
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Waarom digitaliseren?
2011-11-30
Reden 1: Conservering (behoud informatie)
Veel geraadplee
gd
Weinig geraadplee
gdKwetsbaar/In slechte
staat++ +
In goede staat
+ –
11
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Groot probleem: Kranten
2011-11-30
12
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Alternatief voor microfilm?
2011-11-30
Microfilm: Goede microfilm gaat meer
dan 100 jaar mee Met een vergrootglas kom je een heel eind
Digitaal bestand: Hoe lang gaat de drager, het bestand, de
softwaretoepassing, het besturingssysteem, de hardware mee?
Digitale duurzaamheid ?
13
Waarom digitaliseren?
Reden 2: Toegang erfgoedobjecten verbeteren Bibliotheekerfgoed
relatief moeilijk toegankelijk
Massaal bladeren door manuscripten,oude boeken, kranten etc. bedreigt voortbestaan
Topstukken liggen normaliter in de kluis
2011-11-30
14
© Bruno Vandermeulen
2011-11-30
Gedemonteerde Bijbel van Anjou
152011-11-30
Gedigitaliseerde Bijbel van Anjou
Klik op het pictogram als u een afbeelding wilt toevoegen
16
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Waarom digitaliseren?
Reden 3: Informatietoegang verbeteren Toegang tot materiaal vereenvoudigen
Van achter het bureau van de gebruiker ‘Overal ter wereld’
Nieuwe antwoorden en vragen mogelijk maken Snel zoeken door grote corpora Taalkundige analyse van grote hoeveelheden
teksten
2011-11-30
17
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Problemen digitale toegang
Digitaal materiaal opgeslagen in heel veel afzonderlijke ‘silo’s’ met zeer verschillende manieren van
toegang Gedigitaliseerd op
uiteenlopende kwaliteiten volgens diverse standaarden
2011-11-30
Verbeterpunten voor de komende jaren!
Hoe publicaties digitaliseren?
19
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Conversie van publicaties
Optie 1: Maken van digitale beelden van papieren pagina’s ‘Imaging’ met een scanner of een digitale fotocamera Voordeel:
Ziet eruit zoals het origineel Direct leesbaar voor mensen (soms beter dan
origineel) Is inhoudelijk foutloos
Nadeel: Niet leesbaar voor computers
Bijv. zoeken, knippen+plakken niet mogelijk Véél grotere bestanden dan gewone tekst
2011-11-30
20
MS Word 2003 Platte tekst
2011-11-30
Eén pagina als tekstbestand
3,65
kB
26 k
B
21
TIFF - kleur, 300 dpi, ongecomprimeerd
Alternatieven - kwaliteitsverlies
2011-11-30
Eén pagina als beeldbestand
TIFF Grijstinten 8.513 kB (~8,3
MB) TIFF Zwart/Wit
482 kB (~0,5 MB) JPEG Kleur 90%
1.388 kB (~1,4 MB)
25.5
34 k
B
(~25
MB)
= MS WORD X 1000= PLATTE TEKST X 7000
22
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Waarom toch grote bestanden?
We willen: Een moederkopie die het origineel zo goed
mogelijk benadert In een zo eenvoudig mogelijk, duurzaam
bestandsformaat
Dus: Kleur (of tenminste grijswaarden) Hoge resolutie
(veel beeldpunten per cm2) Geen compressie met beeldverlies
2011-11-30
Grote bestanden
23
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Maken van beelden
2011-11-30
Wat gaat
hier fout?
24
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Niet voor bibliotheekerfgoed
2011-11-30
25
Boekscanners
2011-11-30
Lees-zaal-model
26
Boekscanners
Professioneelmodel
2011-11-30
Sca
nst
ud
io U
niv
ers
iteit
Gen
t |
© V
laam
se E
rfg
oed
bib
lioth
eek
– Fo
to:
Ste
fan
Ta
vern
ier
27
Boekscanners
2011-11-30
Volautomatisch model
282011-11-30
Fotostudio
Sca
nst
ud
io U
niv
ers
iteit
Gen
t |
© V
laam
se E
rfg
oed
bib
lioth
eek
– Fo
to:
Ste
fan
Ta
vern
ier
29
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Wat staat hier?
2011-11-30
30
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Wat staat hier?
2011-11-30
31
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Conversie van publicaties
Optie 2: Interpreteren van de lettertekens van digitale beelden ‘Optical Character Recognition’ (OCR) Computer herkent patronen van
beeldpunten als lettertekens Voordeel: Zoeken, kopiëren en andere
computerbewerkingen worden mogelijk Nadeel: Foutenmarge
2011-11-30
32
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Stappen van OCR
2011-11-30
Fysieke tekst Opname Verwerking Computertekst
33
Wat werkt quasi feilloos? Waarom?
2011-11-30
Optical Character Recognition
Alledaags kantoordocument
Op laserprinter afgedrukt
In een gangbaar lettertype
Met een lettergrootte van minimaal 10 pt
In een moderne taal
Eenvoudige tekststructuur
Scherpe contrastrijke afdruk
Gekende lettervormen, zonder ligaturen etc
Veel pixels per letter
Woordenlijsten beschikbaar ter controle
Rege
lmat
ig
34
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Uitdagingen tekstherkenning
Handgeschreven tekst Complexe of ongebruikelijke lettertypes Kleine lettertypes Slecht drukwerk Beschadigde materialen Gebonden materialen Oude en onregelmatige spelling Pagina’s in kolommen
2011-11-30
35
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Handgeschreven tekst
2011-11-30
36
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Lastige lettertypes
2011-11-30
37
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Verschillende lettertypes
2011-11-30
38
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Lettervarianten
2011-11-30
39
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Beschadigde materialen
2011-11-30
40
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Gebonden materialen
2011-11-30
41
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Tekst in kolommen
2011-11-30
42
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Oplossingen OCR-problemen?
Trainen, trainen, trainen van de software
Herkenning van woordbeeld (i.p.v. losse letters)
Woordenlijsten van specifieke periodes opstellen
Taalkundige analyse verwerken in herkenningssoftware Grammaticaal correct? Inhoudelijk correct?
100% foutloos wordt het waarschijnlijk nooit
Voer voor onderzoekers: www.impact-project.eu
2011-11-30
43
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Conversie van publicaties
Optie 3: Transcriberen van papieren teksten Handmatige computerinvoer door menselijke
lezers Nadeel: Arbeidsintensief Voordelen:
Lage foutenmarge (indien zorgvuldig uitgevoerd)
Tekststructuur kan mee worden getranscribeerd
Noodzakelijk voor bep. wetenschappelijk onderzoek
Sterke verbetering digitale ontsluitingsmogelijkheden
2011-11-30
44
Codering van tekststructuur
2011-11-30
‘Platte tekst’ Eenvoudig, goedkoop Informatieverlies
(opmaak, tekststructuur)
‘Tagged text’ Specialistisch,
duur Bevat ook info
over opmaak of structuur
45
David
Cop
pools
e &
Koen B
lansa
ert
, Erf
goedbib
lioth
eek
Hendri
k C
onsc
ience
: Le
(N
ouveau)
Pré
curs
eu
r. M
ate
riaala
naly
se.
Pos
taca
dem
isch
e vo
rmin
g In
form
atie
- &
Bib
lioth
eekw
eten
scha
p, U
nive
rsite
it A
ntw
erpe
n 20
10.
Vervolg in presentatie 3
Stappen in het digitaliseringsproces1. Materiaalanalyse2. Metadatering3. Rechten klaren4. Preservering5. Beeldbewerking6. Scannen7. OCR8. Duurzame opslag9. Online publicatie
Digitaliseringsprojecten Vlaams bibliotheekerfgoed
2011-11-30
Materiaalanalyse
Metadatering
Rechten klaren
Preserverende
handelingen
Scanning
Beeldbewerking
Optische tekstherken
ning
Duurzame opslag
Online publicatie
Contactgegevens
David CoppoolseStafmedewerker Ontsluiting en Digitaliseringdavid@vlaamse-erfgoedbibliotheek.be http://www.vlaamse-erfgoedbibliotheek.be
top related