Toegang tot Nederlandse Oral History collec3es: van technologische pilots
naar bruikbaar modellen
Twee perspec3even
1. Beheer en onderzoek mbt gesproken woord collec3es
2. Technische aspecten van toegankelijk maken van gesproken woord collec3es
WF Hermans
2. TOEGANKELIJK MAKEN VAN GESPROKEN WOORD
1998-‐2012 Onderzoek bij Universiteit Twente Ervaringen van content-‐beheerders en marktpar3jen
ANNOTATIE (handma;g/automa;sch)
METADATA/ TRANSCRIPTIE (met 3jdlabels)
INDEXEREN EN PRESENTATIE
ZOEKEN (naar fragmenten)
Verbeteren toegankelijkheid • spraakherkenning (audioindexa3e)
– spraak-‐naar-‐tekst – oplijnen
• verrijking – detecteren van en3teiten (personen, plaatsen) – koppelen van thesaurustermen
• zoektechnologie – flexibel kunnen zoeken op basis van meerdere (3jdgelabelde) informa3elagen
– linken (binnen en tussen mulimedia bestanden) • gebruikersinterface
– presenta3e van zoekresultaten – exploreren van collec3es
VROUWENBEWEGING zoeken in interview collec3e van de
INTERVIEWS BOMBARDEMENT VAN ROTTERDAM
oplijnen van transcrip3es voor indexering
1. Beheer en onderzoek
Beheer
• OH heel divers beheerd -‐ nauwelijks tot zeer adequaat
• toegang tot collec3es is over het algemeen beperkt
• voorlopers maken gebruik van diverse professionele infrastructuren
• mogelijkheden van moderne technologie worden wel gezien maar het ontbreekt aan kennis en middelen om zelf fundamentele stappen te ondernemen.
Onderzoek
• hergebruik en toegang stuit op barrières: – conservering bronnen – ontslui3ng bronnen – privacy issues – mentaliteitsverandering – samenwerking met ICT
VERTELD VERLEDEN 2010-‐2012
Van technologische pilots naar bruikbare modellen
Digitalisering met
Beleid
LATEN ZIEN WAT ER KAN DISCUSSIE OVER WAT ER NODIG IS PRAKTISCHE AANZET
Kennisoverdracht • best-‐prac3ces • stap-‐voor-‐stap plannen • diverse onderwerpen: – digitalisering – formaatconversie, stroomlijnen standaarden – online raadplegen en zoeken – toevoegen van (automa3sche) metadata – koppelen van collec3es aan andere bronnen – waarborgen privacy en copyright – privacy en IPR
• dienstenmodel
Discussie • wat zijn de wensen en eisen van beheerders en onderzoekers nu precies?
• welke barrières staan het gebruik van technologie in de weg
• hoe kan technologie ingezet worden om specifieke onderzoeksvragen te helpen beantwoorden?
• hoe moet de gebruikersinterface eruit zien? • hoe moet worden omgegaan met de tekortkomingen van automa3sche annota3es?
Prak3sche aanzet
• koppelen van gebruikerseisen aan technische mogelijkheden en infrastructuur met een collec3e-‐portal als proof-‐of-‐concept: – “yes we can”!
• aanzet tot uitgebreide ontslui3ng van en toegang tot Nederlandse Oral History collec3es
• toekomst (Verteld Verleden 2.0): ‘completeren’ materiaal, tools voor onderzoekers (workspace), automa3sch koppelen aan relevante bronnen
Kennis overdracht
Gebruikers
Infrastructuur
Dienstenstructuur
Collec3e Portal
Workshops/Seminars
Dissemina3e
projectorganisa3e
Informa3e Portal
Gebruikers
• Requirements voor de collec3e-‐portal op basis van – bestaande applica3es – gesprekken met collec3ebeheerders – discussies met onderzoekers
• Inventarisa3e van Oral History collec3es • Aanslui3ng bij bestaande netwerken/projecten • CLARIN, CATCH, FP7-‐AXES, AV Collec3e NL
Infrastructuur Uitgangspunten: • Gedistribueerde aanpak: – laat de data en kennis bij de collec3ebeheerders maar zorg voor een infrastructuur die het mogelijk maakt om samen te werken
• Service oriented – maak technologie beschikbaar binnen de infrastructuur – in huis halen technologie niet nodig
• Minimale requirements: – digitale collec3es – metadata harvestable via OAI-‐PMH
gedistribueerde aanpak
Infrastructuur
‘het veld’
Verteld Verleden
Infrastructuur
‘het veld’ brondata
gedistribueerde aanpak gezamenlijke toegang metadata repositories harves3ng protocol (OAI-‐PMH) harves3ng indexering & merging collec3es zoekfunc3onaliteit via portal of eigen website
metadata metadata metadata
Verteld Verleden
harvester
search portal
repository
streaming server
digital/ trans
spraakherkenning (catch+)
Dienstenstructuur
• uitwerking van prak3sche scenario’s voor collec3ebeheerders om zelf aan de slag te gaan mbt: – opslag – digitalisering – metadatering – beschikbaarstelling – zoeken – etc.
Dissemina3e • Resultaten breed uitdragen aan de hand van diverse dissemina3eac3viteiten
• Bezoeken collec3ebeheerders – GAVA, Zeeuws Archief, Gemeentearchief Leiden, Gemeentearchief Romerdam,
• Seminars: DISH, VVG, Alema, Huizinga Inst. • Workshops over oral history: Alema • Conferen3es: – Digital Humani3es (Stanford), Suppor3ng Digital Humani3es (Kopenhagen), Conference INNL – innova3on and history (Amsterdam)
vervolg programma
• Stappenplan (Evelien Rijsbosch) • Dienstenmodel (Ivo Zandhuis) • Demonstra3e collec3e-‐portal • Pauze • Samenvanng, conclusies & discussie
Verteld Verleden portal
Portal
• Informa3e: – informa3e vanuit technisch perspec3ef – informa3e vanuit OH perspec3ef – stappenplan – dienstenmodel
• Zoeken in beschikbare collec3es
Samenvanng resultaten, conclusies & discussie
Resultaten • verzameling informa3e met betrekking tot (toegankelijk maken) OH collec3es (portal) – redelijk gevuld met prak3sche scenario’s en inhoudelijke informa3e. Ruimte om verder uit te werken
– handzame bundeling informa3e voor beheerders en onderzoekers wordt nog aan gewerkt
• gebruikersonderzoek met OH onderzoekers (wetenschappelijke publica3es) – nunge stappen gezet. Belangrijk om echte prak3jktesten te doen met onderzoekers.
Resultaten
• gedistribueerde aanpak – basisidee werkt maar uitvoering in prak3jk weerbars3g (later meer)
• 1ste aanzet Oral History Portal: – beperkt aantal collec3es (minder dan gehoopt) – nog niet ‘state-‐of-‐the-‐art’ (later meer)
lessons learned • gedistribueerde aanpak: – metadata formaat:
• metadata voor Oral History niet al3jd goed te mappen naar DC. Tijd-‐gecodeerde metadata (bv aooms3g uit spraakherkenning)
• Eigen OH formaat? Gekozen voor DC waarbinnen verwezen kan worden naar andere dragers. Op VV omzenng naar mpeg-‐7.
– harvesten: sets noodzakelijk • bv niet alles van DANS harvesten
– streaming • verschillende streaming protocollen • link extrac3e voor elke collec3e anders (PID, landingspagina) • login model (niet open beschikbaar vanwege controlle)
lessons learned (cont.) • embedding:
– wel: op eigen website doorzoekbaar maken eigen collec3e, niet: vrij fragmenten embedden
– alleen geauthoriseerde embedding (losse regelingen per instelling, nog niet geimplementeerd).
• collec3es: – in het archief hebben is wat anders dan uit het archief krijgen – gedigitaliseerd ≠ beschikbaar
• ontbreken koppeling bron – metadata • niet ook streaming beschikbaar of verkeerd formaat
– metadata issues: • metadata niet digitaal of in onhandig formaat (ms-‐word, excel) • metadata in eigen schema (vereist mapping en technische kennis)
lessons learned (cont.) • state-‐of-‐the-‐art: – inzet beschikbare tools in prak3jk weerbars3g. Techniek is er maar kleine stukjes ontbreken. Aansluitpuntjes waar mensen over struikelen
– voorbeeld spraakherkenningsketen: • digitalisering, ‘in het systeem zemen’, transport, resultaat in het systeem zemen, harvestable maken, doorzoekbaar maken, representeren in interface
– persistent iden3fiers laten vallen als eis – fragment en facet search beschikbaar maar sterk aqankelijk van beschikbare metadata granulariteit
– niet toegekomen aan innova3eve interfaces toegespitst op wensen onderzoekers
conclusies
• focus op infrastructuur, gedistribueerde aanpak, en kennisoverdracht heer nunge resultaten opgeleverd – meer kennis/ervaring toegang tot gesproken woord collec3es
– basis om verder op door te gaan: meer collec3es, uitbouw informa3e
• gebruik door onderzoekers/publiek is onderbelicht gebleven