presentatie roeland ordelman slotbijeenkomst verteld verleden

Post on 04-Jul-2015

968 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Toegang  tot  Nederlandse  Oral  History  collec3es:  van  technologische  pilots  

naar  bruikbaar  modellen  

Twee  perspec3even  

1. Beheer  en  onderzoek  mbt  gesproken  woord  collec3es  

 2. Technische  aspecten  van  toegankelijk  maken  van  gesproken  woord  collec3es    

 

WF  Hermans  

2.  TOEGANKELIJK  MAKEN  VAN  GESPROKEN  WOORD  

1998-­‐2012  Onderzoek  bij  Universiteit  Twente  Ervaringen  van  content-­‐beheerders  en  marktpar3jen    

ANNOTATIE  (handma;g/automa;sch)  

METADATA/  TRANSCRIPTIE  (met  3jdlabels)  

INDEXEREN  EN  PRESENTATIE  

ZOEKEN  (naar  fragmenten)  

Verbeteren  toegankelijkheid  •  spraakherkenning  (audioindexa3e)  

–  spraak-­‐naar-­‐tekst  –  oplijnen  

•  verrijking  –  detecteren  van  en3teiten  (personen,  plaatsen)  –  koppelen  van  thesaurustermen  

•  zoektechnologie  –  flexibel  kunnen  zoeken  op  basis  van  meerdere  (3jdgelabelde)  informa3elagen    

–  linken  (binnen  en  tussen  mulimedia  bestanden)  •  gebruikersinterface  

–  presenta3e  van  zoekresultaten  –  exploreren  van  collec3es  

VROUWENBEWEGING  zoeken  in  interview  collec3e  van  de  

INTERVIEWS  BOMBARDEMENT  VAN  ROTTERDAM  

oplijnen  van  transcrip3es  voor  indexering  

1.  Beheer  en  onderzoek  

Beheer  

•  OH  heel  divers  beheerd  -­‐  nauwelijks  tot  zeer  adequaat  

•  toegang  tot  collec3es  is  over  het  algemeen  beperkt  

•  voorlopers  maken  gebruik  van  diverse  professionele  infrastructuren    

•  mogelijkheden  van  moderne  technologie  worden  wel  gezien  maar  het  ontbreekt  aan  kennis  en  middelen  om  zelf  fundamentele  stappen  te  ondernemen.    

Onderzoek  

•  hergebruik  en  toegang  stuit  op  barrières:  – conservering  bronnen  – ontslui3ng  bronnen  – privacy  issues  – mentaliteitsverandering  – samenwerking  met  ICT  

VERTELD  VERLEDEN  2010-­‐2012  

Van  technologische  pilots  naar  bruikbare  modellen  

Digitalisering    met    

Beleid  

LATEN  ZIEN  WAT  ER  KAN  DISCUSSIE  OVER  WAT  ER  NODIG  IS  PRAKTISCHE  AANZET  

Kennisoverdracht  •  best-­‐prac3ces  •  stap-­‐voor-­‐stap  plannen  •  diverse  onderwerpen:  –  digitalisering  –  formaatconversie,  stroomlijnen  standaarden  –  online  raadplegen  en  zoeken  –  toevoegen  van  (automa3sche)  metadata  –  koppelen  van  collec3es  aan  andere  bronnen  – waarborgen  privacy  en  copyright  –  privacy  en  IPR    

•  dienstenmodel  

Discussie  •  wat  zijn  de  wensen  en  eisen  van  beheerders  en  onderzoekers  nu  precies?  

•  welke  barrières  staan  het  gebruik  van  technologie  in  de  weg  

•  hoe  kan  technologie  ingezet  worden  om  specifieke  onderzoeksvragen  te  helpen  beantwoorden?  

•  hoe  moet  de  gebruikersinterface  eruit  zien?  •  hoe  moet  worden  omgegaan  met  de  tekortkomingen  van  automa3sche  annota3es?  

Prak3sche  aanzet  

•  koppelen  van  gebruikerseisen  aan  technische  mogelijkheden  en  infrastructuur  met  een  collec3e-­‐portal  als  proof-­‐of-­‐concept:  –  “yes  we  can”!  

•  aanzet  tot  uitgebreide  ontslui3ng  van  en  toegang  tot  Nederlandse  Oral  History  collec3es    

•  toekomst  (Verteld  Verleden  2.0):  ‘completeren’  materiaal,  tools  voor  onderzoekers  (workspace),  automa3sch  koppelen  aan  relevante  bronnen  

Kennis  overdracht  

 Gebruikers  

       Infrastructuur  

 Dienstenstructuur  

Collec3e  Portal  

Workshops/Seminars  

Dissemina3e  

projectorganisa3e  

Informa3e  Portal  

Gebruikers    

•  Requirements  voor  de  collec3e-­‐portal  op  basis  van  – bestaande  applica3es  – gesprekken  met  collec3ebeheerders  – discussies  met  onderzoekers    

•  Inventarisa3e  van  Oral  History  collec3es    •  Aanslui3ng  bij  bestaande  netwerken/projecten  •  CLARIN,  CATCH,  FP7-­‐AXES,  AV  Collec3e  NL  

Infrastructuur  Uitgangspunten:    •  Gedistribueerde  aanpak:  –  laat  de  data  en  kennis  bij  de  collec3ebeheerders  maar  zorg  voor  een  infrastructuur  die  het  mogelijk  maakt  om  samen  te  werken  

•  Service  oriented  – maak  technologie  beschikbaar  binnen  de  infrastructuur  –  in  huis  halen  technologie  niet  nodig  

•  Minimale  requirements:  –  digitale  collec3es  – metadata  harvestable  via  OAI-­‐PMH  

gedistribueerde  aanpak  

       

Infrastructuur  

           

           ‘het  veld’  

   Verteld  Verleden  

       

Infrastructuur  

           

           ‘het  veld’  brondata  

gedistribueerde  aanpak  gezamenlijke  toegang        metadata  repositories  harves3ng  protocol  (OAI-­‐PMH)  harves3ng  indexering  &  merging  collec3es  zoekfunc3onaliteit  via  portal  of  eigen  website  

metadata   metadata   metadata  

   Verteld  Verleden  

harvester  

search  portal  

repository  

streaming  server  

digital/  trans  

spraakherkenning  (catch+)  

Dienstenstructuur  

•  uitwerking  van  prak3sche  scenario’s  voor  collec3ebeheerders  om  zelf  aan  de  slag  te  gaan  mbt:  – opslag  – digitalisering  – metadatering  – beschikbaarstelling  – zoeken  – etc.  

Dissemina3e  •  Resultaten  breed  uitdragen  aan  de  hand  van  diverse  dissemina3eac3viteiten  

•  Bezoeken  collec3ebeheerders  – GAVA,  Zeeuws  Archief,  Gemeentearchief  Leiden,  Gemeentearchief  Romerdam,    

•  Seminars:  DISH,  VVG,  Alema,  Huizinga  Inst.    •  Workshops  over  oral  history:  Alema  •  Conferen3es:    – Digital  Humani3es  (Stanford),  Suppor3ng  Digital  Humani3es  (Kopenhagen),  Conference  INNL  –  innova3on  and  history  (Amsterdam)  

vervolg  programma  

•  Stappenplan  (Evelien  Rijsbosch)  •  Dienstenmodel  (Ivo  Zandhuis)  •  Demonstra3e  collec3e-­‐portal  •  Pauze  •  Samenvanng,  conclusies  &  discussie  

Verteld  Verleden  portal  

Portal  

•  Informa3e:  –  informa3e  vanuit  technisch  perspec3ef  –  informa3e  vanuit  OH  perspec3ef  – stappenplan  – dienstenmodel  

•  Zoeken  in  beschikbare  collec3es  

Samenvanng  resultaten,  conclusies  &  discussie  

Resultaten  •  verzameling  informa3e  met  betrekking  tot  (toegankelijk  maken)  OH  collec3es  (portal)  –  redelijk  gevuld  met  prak3sche  scenario’s  en  inhoudelijke  informa3e.  Ruimte  om  verder  uit  te  werken  

–  handzame  bundeling  informa3e  voor  beheerders  en  onderzoekers  wordt  nog  aan  gewerkt  

•  gebruikersonderzoek  met  OH  onderzoekers  (wetenschappelijke  publica3es)  –  nunge  stappen  gezet.  Belangrijk  om  echte  prak3jktesten  te  doen  met  onderzoekers.      

Resultaten  

•  gedistribueerde  aanpak  – basisidee  werkt  maar  uitvoering  in  prak3jk  weerbars3g  (later  meer)  

•  1ste  aanzet  Oral  History  Portal:  – beperkt  aantal  collec3es  (minder  dan  gehoopt)  – nog  niet  ‘state-­‐of-­‐the-­‐art’  (later  meer)    

lessons  learned  •  gedistribueerde  aanpak:  – metadata  formaat:  

•  metadata  voor  Oral  History  niet  al3jd  goed  te  mappen  naar  DC.  Tijd-­‐gecodeerde  metadata  (bv  aooms3g  uit  spraakherkenning)  

•  Eigen  OH  formaat?  Gekozen  voor  DC  waarbinnen  verwezen  kan  worden  naar  andere  dragers.  Op  VV  omzenng  naar  mpeg-­‐7.    

–  harvesten:  sets  noodzakelijk  •  bv  niet  alles  van  DANS  harvesten  

–  streaming  •  verschillende  streaming  protocollen  •  link  extrac3e  voor  elke  collec3e  anders  (PID,  landingspagina)  •  login  model  (niet  open  beschikbaar  vanwege  controlle)  

lessons  learned  (cont.)  •  embedding:  

–  wel:  op  eigen  website  doorzoekbaar  maken  eigen  collec3e,  niet:  vrij  fragmenten  embedden  

–  alleen  geauthoriseerde  embedding  (losse  regelingen  per  instelling,  nog  niet  geimplementeerd).  

•  collec3es:  –  in  het  archief  hebben  is  wat  anders  dan  uit  het  archief  krijgen  –  gedigitaliseerd  ≠  beschikbaar  

•  ontbreken  koppeling  bron  –  metadata  •  niet  ook  streaming  beschikbaar  of  verkeerd  formaat  

–  metadata  issues:  •  metadata  niet  digitaal  of  in  onhandig  formaat  (ms-­‐word,  excel)  •  metadata  in  eigen  schema  (vereist  mapping  en  technische  kennis)  

lessons  learned  (cont.)  •  state-­‐of-­‐the-­‐art:  –  inzet  beschikbare  tools  in  prak3jk  weerbars3g.  Techniek  is  er  maar  kleine  stukjes  ontbreken.  Aansluitpuntjes  waar  mensen  over  struikelen  

–  voorbeeld  spraakherkenningsketen:  •  digitalisering,  ‘in  het  systeem  zemen’,  transport,  resultaat  in  het  systeem  zemen,  harvestable  maken,  doorzoekbaar  maken,  representeren  in  interface  

–  persistent  iden3fiers  laten  vallen  als  eis  –  fragment  en  facet  search  beschikbaar  maar  sterk  aqankelijk  van  beschikbare  metadata  granulariteit  

–  niet  toegekomen  aan  innova3eve  interfaces  toegespitst  op  wensen  onderzoekers  

conclusies  

•  focus  op  infrastructuur,  gedistribueerde  aanpak,  en  kennisoverdracht  heer  nunge  resultaten  opgeleverd  – meer  kennis/ervaring  toegang  tot  gesproken  woord  collec3es  

– basis  om  verder  op  door  te  gaan:  meer  collec3es,  uitbouw  informa3e  

•  gebruik  door  onderzoekers/publiek  is  onderbelicht  gebleven  

top related