zpřístupnění digitalizace pro veřejnost
DESCRIPTION
Zpřístupnění digitalizace pro veřejnost. Martin Vojnar [email protected]. Z předchozího víme. proč usilovat o dlouhodobou archivaci jaké efekty může přinést řešení na národní úrovni předpoklady úspěšného nasazení - PowerPoint PPT PresentationTRANSCRIPT
2 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Z předchozího víme
• proč usilovat o dlouhodobou archivaci• jaké efekty může přinést řešení na národní úrovni• předpoklady úspěšného nasazení
• veřejnost a poskytovatelé dotace budou projekt vnímat a hodnotit podle vnějších výsledků:• formálně (kvantifikátory, splněné ukazatele)• prakticky (slovenský kulturní „google“)• technicky (vše musí fungovat hladce)
• jejich očekávání a požadavky budou v čase narůstat(tj. na co se dnes připravujete, zítra už nebude stačit)
3 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Dále se budeme bavit o
• zpřístupnění dokumentů pro veřejnost• v širším kontextu jednotného prostředí• co znamená malý a velký index
• praktické ukázky
• otázky / diskuse
4 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
1: zpřístupnění (LTP) pro veřejnost
5 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
veřejné rozhraní pro vyhledávání
digitalizované / digitální objekty
6 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
veřejné rozhraní pro vyhledávání
digitalizované / digitální objektyz různých sektorů agregace
(neustálý a nekonečný přísun objektů a metadat)
7 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
• kde mají být výsledky digitalizace prezentovány ?• specializované digitální knihovny šité na míru
jednotlivým sbírkám• dlouhodobý archiv (light vs. dark archiv)
• nápověda: repozitář (digitální knihovna/archiv) by měl být oddělen od koncového rozhraní
Otázka na úvod
8 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Požadované funkce na zpřístupnění
• vyhledávání• nejen metadata, ale i „uvnitř“ objektu
(např. články, plný text, titulky, …)
• dodání (zobrazení) obsahu objektu• různé verze dodání• vhodný prohlížeč/plugin dle typu objektu
• v souladu s autorskými právy• společenský kontext a aktivity uživatelů
9 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Příklad systému pro zpřístupnění
• přirozeně: Primo = koncové rozhraní nad LTP systémem Rosetta
• National Library of New Zealand• Binghamton University
• proč klademe důraz na samostatné koncové rozhraní ?• proč jednoduše neříkáme, že LTP má koncové rozhraní ?
• konec konců také lze uvažovat: Primo = koncové rozhraní nad digitálními knihovnami, jejichž obsah je archivován v LTP systému
• Univerzita Karlova
10 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Směr: jednotné prostředí
• ideálně: Primo = koncové rozhraní nejen nad LTP systémem Rosetta
• cíl: začlenění výsledků digitalizace do jednotného prostředí(jednotné prostředí ≠ Europeana)
• řešení pro všechny uživatele všech kulturních institucí včetně:• digitalizovaného prostoru• elektronického prostoru• tradičního fyzického prostoru
• proč má smysl uvažovat v kontextu jednotného prostředí ?• tlak webu• růst očekávání uživatelů
11 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
2: jednotné prostředí
12 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Jednotné prostředí
• pro vyhledávání informací a dokumentů• pro dodávání informací a dokumentů• pro objevení nového
• používáte ho každý den• pro každý dotaz
13 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Proč ?
• v rámci vyhledávání a dodávání informací zahájily před ca 5 lety nástup nové nástroje
• byly původně označovány jako katalogy nové generace (next-gen OPACs)
• postupně se vyvinuly v tzv. „discovery“ systémy
• jejich hlavní důraz je kladen na koncového uživatele, jeho potřeby a prostředí, samostatnost a spokojenost
• užitečný nástroj v kontextu informační gramotnosti
14 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Cíle jednotného prostředí
• každý dotaz musí být prováděn ve všech zdrojích instituce* (tištěné, elektronické, digitalizované, …)
• výsledky jsou zobrazeny v jedné výsledkové množině s jednotnou relevancí a s úplnou navigací
• zobrazení plného textu nebo objektu na jedno kliknutí• podpora SSO, integrace objednávání a čtenářského
konta
* v kontextu KIS3G apod.
15 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Co není jednotné prostředí
• pokud uživatel musí přecházet do jiných systémů• pokud se musí uživatel opakovaně přihlašovat• pokud uživatel ztrácí kontinuitu svého vyhledávání• pokud uživatel musí začínat v „discovery“ systému (
příklad)
• pokud rozhraní nenabízí jednotné výsledky• pokud rozhraní neumožňuje začlenění libovolného
zdroje
16 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Očekávání ze strany uživatelů*
• rychlé, jednoduché, intuitivní používání• jediné rozhraní• navigace pomocí faset• DYM, návrhy/našeptávání• RSS• pokrytí relevantního obsahu
• základní přehled „discovery“ systémůhttp://www.librarytechnology.org/discovery.pl
*Marshall Breeding
17 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Typické zdroje jednotného prostředí
• knihovní, muzejní, archivní fondy• licencované databáze• volně dostupné dokumenty a data (open access)• digitální a digitalizované sbírky• institucionální repozitáře … a další dle potřeb
uživatelů
• různé formáty, různé oprávnění, různé instituce, různý význam
• discovery také může být zdrojem pro vyšší třídu vyhledávačů
18 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
jednotnéprostředí
včetně elektronických zdrojů
Typické zdroje jednotného prostředí
19 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Anatomie vyhledávání
• index lokálních zdrojů instituce / institucí• index elektronických zdrojů (tzv. velký/centrální
index)• index národních zdrojů (tzv. malý index)výhody: rychlost, kompletní navigace, jednotná relevance
• paralelní vyhledávání (tzv. metavyhledávání)• externí vyhledávání (jiné Primo, Solr, API, …)
• zadávání dotazů a jejich typy
20 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
3: malý a velký index
21 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Dimenze obsahu indexu
• obsah je online• obsah je k dispozici pro daného uživatele (tj.
instituci)
• velký index: stovky miliónů záznamů (licencované i otevřené)
• jaký je potenciál národního obsahu ?
22 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Příklad: potenciál českého obsahu
• SK ČR, ANL, registr digitalizace• oborové bibliografie• národní digitální knihovny (M+K+W)• oborové digitální knihovny (DML-CZ)• NUŠL• placené zdroje
(Anopress IT, Newton Media, Infobanka ČTK, Beck online, ASPI, …)• nová média: wiki, archivy vysílání, e-knihy• publikační činnost / výstupy VaV• nástroje pro podporu vzdělávání, doporučená
literatura• institucionální repozitáře
(DSpaceCZ, digitalizace KNAV ČR, …)• a další (?)
23 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Potenciál českého obsahu – pár čísel
• experiment v testovacím prostředí UK:• katalog + kvalifikační práce ca 1 mil. záznamů
• ostatní ca 1 mil. záznamů, v tom:• cswiki + wikiskripta.eu ca 200 tis. záznamů• manuscriptorium a kramerius ca 200 tis. záznamů• ANL (online) ca 200 tis. záznamů• BMČ (online), BDÚ (online), ZPB (online),
GEOBIBLINE ca 60 tis. záznamů• DML-CZ a NUŠL ca 100 tis. záznamů• různé ca 50 tis. záznamů (Forum, Anopress IT, Beck
online, palmknihy.cz, Newton Media…)• SK ČR ca 50 tis. záznamů
24 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Zdroj č. 1: souborné báze NK ČR
• Souborný katalog ČR• celkem ca 5 mil. záznamů• z toho ca 51 tis. záznamů s online obsahem
• problém: rozlišení typu online obsahu v poli 856 (MARC21)
• česká článková bibliografie (báze ANL)• celkem ca 1,4 mil. záznamů• z toho ca 206 tis. záznamů s online obsahem
• problém: nefunkční nebo neplatné odkazy
25 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Zdroj č. 2: digitalizace NK ČR
• Kramerius a Manuscriptorium• celkem 200 tis. záznamů v obou digitálních
knihovnách• ca 10 mil. digitalizovaných stran• ca 20 tis. digitalizovaných záznamů
• problém: chybí metadata na úrovni článků, DJVU plugin
• registr digitalizace – v testovací fázi
26 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Zdroj č. 3: wiki zdroje
• wikipedie (cs)• ca 180 tis. záznamů článků (dump abstract.xml)
• wikizdroje (cs-books)• ca 18 tis. záznamů článků
• wikiknihy (cs-sources)• ca 2 tis. záznamů článků
• wikiskripta• ca 4 tis. záznamů lékařských článků
• problém: wiki syntaxe; chybí univerzální wiki parser
27 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Zdroj č. 4: komerční databáze
• Anopress IT• vzorek ca 15 tis. záznamů článků
(textové přepisy audiovizuálních relací)
• Newton Media• vzorek ca 500 záznamů
(deník MF Dnes s plnými texty)
• C.H.Beck online• vzorek ca 30 záznamů různých právních
dokumentů(judikatura, literatura, Sb.z., mezin. smlouvy, vyhlášky, …)
28 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Zdroj č. 5: oborové digitální knihovny
• DML-CZ• česká matematická digitální knihovna• ca 50 tis. záznamů článků• privátní rozšíření kvalifikovaného DC
• NUŠL• národní úložiště šedé literatury• ca 42 tis. záznamů různých druhů dokumentů
(bez plného textu pro indexování)
• palmknihy.cz• volně dostupné elektronické knihy• ca 3,5 tis. záznamů v různých formátech (ePub,
mobi, pdf, …)
29 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Zdroj č. 6: oborové bibliografie
• budovány samostatně odbornými institucemi, typicky ústavy AV
• týká se ANL (část bibliografií částečně přispívá)• týká se národních digitálních knihoven (K)• týká se institucionálních repozitářů (digitalizace
KNAV ČR)
• problém: absence propojení s digitální knihovnou AV ČR
30 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Oborové bibliografie - výběr
31 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Malý a velký index
• velký index celosvětových zdrojů je příliš velký a drahý na to, aby si ho instituce mohly dovolit budovat samy
• malý index národních zdrojů je naopak ideální příležitostí pro lokální cenu/výkon, byť se řada zdrojů pohybuje v šeru
32 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
4: ukázka ~ Primo od Ex Libris
33 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Ukázka systému Primo
• uživatelé: 800 knihoven celosvětově• v Evropě: Finsko, Rakousko, Lucembursko, Německo,
Belgie, …
• elektronické zdroje:• získání plného textu (přímé linkování, více zdrojů)• doporučení, citovanost
• dostupnost• deduplikace, seskupení (FRBR)• čtenářské konto a objednávání z knihovního fondu• otevřenost (aktuální články)• webové rozhraní pro administrátora
34 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Ukázka systému Primo
• chemistry• rfid application in libraries• babička• zemětřesení japonsko• mapa měsíce• hypokalcemie• versaillská smlouva• beckonline• mikuláš rutze• rur• vít richter čtenář• vít richter ikaros
35 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
5: shrnutí
36 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Výzva pro kulturní instituce
OBECNĚ
• sjednocení vyhledávacího prostředí• sjednocení služeb na něj navázaných
• výsledek:• efektivnější využívání zdrojů instituce• častější využívání zdrojů instituce• získání nových uživatelů pro instituci
37 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Výzva pro kulturní instituce
CULTURE.GOV.SK
• sjednocení digitalizace• využití existujících sítí KIS3G, NISPEZ ad.• každá instituce může přispívat a čerpat, ale nemusí
spravovat• o podobě koncového rozhraní a plnění indexu
rozhodujete Vy
• výsledek:• spokojení uživatelé• spokojené instituce a jejich pracovníci• spokojení zřizovatelé
38 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Máme za sebou
• zpřístupnění dokumentů pro veřejnost• širší kontext: jednotné prostředí• malý a velký index• praktické ukázky
•otázky / diskuse
39 Zpřístupnění digitalizace pro veřejnost, 12.4. 2011
Děkuji za [email protected]