ocr en toepassing bij de kb by marian hellema
DESCRIPTION
Presentation given on the KB IMPACT Demo Day on 16 February 2011 in The Hague.TRANSCRIPT
OCR en toepassing bij de KB IMPACT Demo-dagMarian Hellema, 16 februari 2011
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Origineel
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
DigitaliserenOnder meer:• Image van iedere pagina• OCR: tekstuele versie
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Waarom OCR?• Zoeken en vinden
– fulltext search• Presentatie
– highlighten van zoektermen– alleen-tekst-presentatie
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Zoeken (fulltext search)• Tekst wordt geïndexeerd in zoekmachine
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Presentatie: highlighting
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Presentatie: alleen-tekst
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Layout-informatieStandaard: ALTO• OCR-tekst en coördinaten
– tekstblokken, regels en woorden– coördinaten geven de positie op de pagina aan– gekoppeld aan het image van de pagina
• informatie over de betrouwbaarheid van de tekenherkenning• layout-informatie
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Stukje ALTO
<TextBlock ID="P1_TB00004" HPOS="105" VPOS="145" WIDTH="457" HEIGHT="57“ STYLEREFS="TXT_0 PAR_LEFT">
<TextLine ID="P1_TL00006" HPOS="135" VPOS="155" WIDTH="423" HEIGHT="43"> <String ID="P1_ST00019" HPOS="135" VPOS="163" WIDTH="25" HEIGHT="34“
CONTENT="9" WC="0.51" CC="4"/>...
<String ID="P1_ST00020" HPOS="184" VPOS="157" WIDTH="234" HEIGHT="39" CONTENT="NOVEMBER" WC="0.98" CC="93748026"/>
... <String ID="P1_ST00021" HPOS="446" VPOS="155" WIDTH="111" HEIGHT="38"
CONTENT="1837." WC="0.53" CC="15654"/></TextLine>
</TextBlock>
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Hoe gaat OCR in zijn werk?• bewerken van images
– despeckling, rechtzetten, .....• analyse van de pagina
– herkenning van illustraties, lijnen, tekstblokken, regels, woorden, ....
– herkenning van logische documentstructuur: titels, paginanummers, inhoudsopgave, ...
• tekenherkenning
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Hoe gaat OCR in zijn werk?Extra mogelijkheden:• training van de software• inzetten van woordenboeken
© 2010 Koninklijke Bibliotheek – Nationale bibliotheek van Nederland
OCR en toepassing bij de KB
Waarom is IMPACT nodig?