bibliotecas digitales - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010...

121
1 BIBLIOTECAS DIGITALES BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia [email protected] [email protected] http://www.dsic.upv.es/~jhcanos "Seminario de Línea de Investigación" Máster en Ingeniería de Sistemas e Informática. Zaragoza, marzo de 2010 Motivación (1/2) Según Lesk (1997): Hacia 2000, la producción mundial de cinta magnética será suficiente para que no haga falta eliminar nada de lo creado con un ordenador … … y llegará un momento en el cual ser capaz de encontrar la información será más importante que poseerla Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Upload: vutuong

Post on 20-Sep-2018

232 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

1

BIBLIOTECAS DIGITALESBIBLIOTECAS DIGITALES

José Hilario Canós Cerdá

Departamento de Sistemas Informáticos y ComputaciónUniversidad Politécnica de Valencia

[email protected]@dsic.upv.eshttp://www.dsic.upv.es/~jhcanos

"Seminario de Línea de Investigación" Máster en Ingeniería de Sistemas e Informática.Zaragoza, marzo de 2010

Motivación (1/2)

Según Lesk (1997): 

Hacia 2000, la producción mundial de cinta magnética será suficiente para que no haga falta eliminar nada de lo creado con un ordenador …

… y llegará un momento en el cual ser capaz de encontrar la información será más importante que poseerla

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 2: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

2

Motivación (2/2)

Proyectos exitosos de Bibliotecas digitales:

Google (!)

Desafíos: nuevos tipos de documentos, nuevos tipos de mediosnuevos tipos de medios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Objetivos

Clarificar la noción de BiD y sus implicaciones

á Presentar los modelos más aceptados de BiD

Introducir los principales aspectos a tener en cuenta en el desarrollo de Bibliotecas 

Digitales Multimedia, incluyendo, entre otros:

arquitecturas de BiD

catalogación, conservación

flujos de trabajo

almacenamiento y recuperación de información

interoperabilidad

Revisar el estado del arte en investigación y desarrollo en el campo

Presentar las líneas de investigación del Grupo ISSI en el ámbito de las BiD:

Gestión de bibliografía

Sistemas de gestión de emergencias

Otros

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 3: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

3

Contenido – Parte I

1. Fundamentos

Introducción

Arquitectura de Bibliotecas Digitales 

2. Organización de la Información

Metadatos

Flujos de trabajo (Workflows) 

Conservación a largo plazo de la información digital 

3. Recuperación de Información

Recuperación de Información textual 

Búsquedas en la Web

Interoperabilidad

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Contenido – Parte II

El grupo SIA@ISSI:El grupo SIA@ISSI:

1. Bibshare

2. Sistemas de gestión de emergencias 

3. Otros proyectos

Descripción

Estado actual

Desafíos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 4: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

4

Bibliografía/Material

Bibliografía básica

L k  Mi h l  U d t di  Di it l Lib i   d  diti  M   Lesk, Michael. Understanding Digital Libraries, 2nd edition. Morgan Kauffman, 2005.

Lesk, Michael. Practical Digital Libraries: books, bytes & bucks. Morgan Kauffman, 1997.

Arms, William Y. Digital Libraries. MIT Press, 2000.

Borgman, Christine L. FromGutenberg to theGlobal Information Infrastructure.MIT Press, 2000.

Borgman, Christine L.. Scholarship in the Digital Age. MIT Press, 2007.g , p g g , 7

Stefik, Mark. Internet Dreams. MIT press, 1996.

Baeza, R. and Ribeiro, B. Modern Information Retrieval.AddisonWesley, 1999.

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

INTRODUCCIÓNINTRODUCCIÓN─ ¿Por qué Bibliotecas Digitales?─Definiciones de BiD─Contenidos vs. Tecnología─Requisitos de las BiD─Desafíos de las BiD─Recursos sobre BiD

Page 5: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

5

Juegos de palabras...

digital object library 

multimedia library 

electronic library 

virtual library 

Information SuperHighway (I’way) 

N ti l I f ti  I f t t  (NII) National Information Infrastructure (NII)

¿Son sinónimos?

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

¿Por qué BiD? (I)

Problemas de las bibliotecas:G   t    l   t  d   di ió Gran aumento en los costes de edición

Coste de las publicaciones

Grandes recortes en los presupuestos de las bibliotecas

La tecnología digital facilita la producción de libros, y su almacenamiento y distribución. Además de libros, pueden crearse documentos multimedia

Los editores están cada vez más orientados al mundo Los editores están cada vez más orientados al mundo digital, con el fin de reducir costes de producción e incrementar beneficios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 6: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

6

¿Por qué BiD? (II)

C d    h   á  i f ió  di ibl     Cada vez hay más información disponible a través de las redes de comunicaciones.

Es más valioso ser capaz de encontrar información que poseerla in‐situ.

Grandes oportunidades para editores y escritores de ganar dinero

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Evolución de la tecnología

Hardware:

Procesadores cada vez más potentes

Memoria más barata y rápida

Mayor capacidad de almacenamiento

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 7: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

7

Lesk

, 20

05

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Fuen

te:

Evolución de la tecnología

Software:Software:Sistemas distribuidos, BD, ...

WWW (Berners-Lee)

Mosaic (Andreesen)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Explosión de servidores en el Web

Page 8: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

8

Lecturas recomendadas

Michael Lesk: How much information is there in the World?

Peter Lyman and Hal Varian: How much Information?

Página Web de Berkeley:

http://www.sims.berkeley.edu/research/projects/how‐much‐info‐2003/p // y / /p j / 3/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Pioneros

Vannevar Bush (1945): “As we may think”

kl d b f h J. R. C. Licklider (1965): “Libraries of the Future”

Ernesto García Camarero: “El mundo de la Informática”. Cuadernos para el diálogo, Octubre 1971

Grandes esfuerzos a partir de primeros de los 90 en EE.UU. Orientados principalmente a explotar la tecnología desarrollada 

en los 80en los 80.

Proyecto más importante: Digital Library Initiative (DLI, http://dli.grainger.uiuc.edu/national.htm)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 9: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

9

Las BiD...¿son bibliotecas?

"The broad goal of the Digital Libraries Initiative is to dramatically advance the means to collect  store  organize and use widely advance the means to collect, store, organize and use widely distributed knowledge resources containing diverse types of information and content stored in a variety of electronic forms.“ (DLI Mission Statement)

“Themission of the Carnegie Library of Pittsburgh is to be a force for education, information, recreation, and inspiration in the communities it serves.” (CL Pittsburgh Mission Statement)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

BiD: Definiciones

Digital library is a concept that has different meanings in different communities:communities:

To the engineering and computer science community, digital library is a metaphor for the new kinds of distributed data base services that manage unstructured multimedia data. 

To the political and business communities, the term represents a new marketplace for the world's information resources and services. 

To futurist communities, digital libraries represent the manifestation ofWells' World Brain.

(Gary Marchionini)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 10: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

10

BiD: Definiciones

The generic name for federated structures that provide humans both intellectual and physical access to the huge and growing worldwide networks of information encoded in multimedia digital formats.

(The University of Michigan Digital Library: This Is Not Your Father's y g g yLibrary, Birmingham, 1994)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

BiD: Definiciones

Digital libraries are a set of electronic resources and associated technical 

biliti f ti hi   d  i i f ti  I  thi    capabilities for creating, searching, and using information. In this sense 

they are an extension and enhancement of information storage and

retrieval systems that manipulate digital data in any medium (text,

images, sounds; static or dynamic images) and exist in distributed 

networks. The content of digital libraries includes data, metadata that 

describe various aspects of the data (e.g., representation, creator, 

owner, reproduction rights), and metadata that consist of links or 

relationships to other data or metadata, whether internal or external to 

the digital library.

(UCLA‐NSF Social Aspects of Digital Libraries Workshop)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 11: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

11

BiD: Definiciones

Digital libraries are constructed ‐‐ collected and organized ‐‐ by a community of users and their functional capabilities support the community of users, and their functional capabilities support the information needs and uses of that community. (...) In this sense they are an extension, enhancement, and integration of a variety of information institutions as physical places where resources are selected, collected, organized, preserved, and accessed in support of a user community. These information institutions include, among others, libraries, museums, archives, and schools, but digital libraries also extend and serve other community settings, including classrooms, offices, laboratories, homes, and public spaces.

(UCLA‐NSF Social Aspects of Digital Libraries Workshop)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

BiD: Definiciones

A Digital Library is an organized database of digital information objectsin varying formats maintained to provide unmediated ease of access to a in varying formats maintained to provide unmediated ease of access to a user community, with these further characteristics:

an overall access tool (e.g. a catalog) provides search and retrieval capability over the entire database;

organized technical procedures exist through which the library management adds objects to the database and removes them according to a coherent and accessible collections policy.

(Peter Graham, Rutgers University Libraries)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 12: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

12

BiD: Definiciones

A digital library is a distributed technology environment which dramatically reduces barriers to the creation, dissemination, manipulation, storage, integration, and reuse of information by individuals and groups.

(Edward A  Fox   editor  Source Book on Digital Libraries  pág  (Edward A. Fox , editor, Source Book on Digital Libraries, pág. 65)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Palabras clave

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 13: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

13

Dimensiones

Aspectos fundamentales de las BiD:

Contenidos

Servicios

Tecnología

Sociedad

¡Relacionados entre sí!

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Contenidos

Cualquier objeto puede ser representado digitalmente:

Texto

Animales de un zoo

...

Todos los contenidos presentan desafíos de Todos los contenidos presentan desafíos de tipo intelectual, técnico y cultural

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 14: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

14

Niveles de descripción

Trabajo: concepto abstractoL  Ilí d  l   ª d  B th  U i La Ilíada, la 5ª de Beethoven, Unix

Expresión: un trabajo se hace real a través de una expresión: La Ilíada: oral ‐> escrita (secuencia de palabras)

Unix: código fuente/ejecutable

Manifestación: una expresión toma forma en una o más manifestaciones:manifestaciones: 5ª Beethoven: CD, TV, radio, ...

Unix: CD, cinta, ftp ...

Ítem: cada una de las copias de una manifestación

Modelo IFLA, 1998:http://www.ifla.org/VII/s13/frbr/frbr.pdf

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Tipos de contenido: Texto

El tipo más frecuente Escáner + OCR  ‐> ASCII, Unicode

Se puede buscar de diferentes maneras: Búsqueda de cadenas simple

Métodos más sofisticados

Manuscritos representados como imágenes

Requiere participación humana Errores de OCR

Traducciones

Marcado de textos (SGML, XML, ...)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 15: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

15

Otros tipos de contenido “monomedia” Lo primero es determinar el formato a utilizar

Imágenes: GIF, TIFF, JPEG, ...

Video (sin sonido):  Quicktime, AVI, MPEG, ...

Sonido: AU, WAV, AIFF, ...

No siempre se puede optar por un único formato 

(plataformas múltiples)

¿Cuál es la resolución adecuada?

Problema principal: búsquedas por contenido

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Contenidos multimedia

Ejemplos:

Video a la demanda, textos animados, juegos, ...

Simulaciones por ordenador, mundos virtuales, ...

Pueden ser interactivos:

Se proporciona un punto de entrada y el usuario toma decisionesto a dec s o es

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 16: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

16

Gestión de contenidos

Selección y adquisición

Indexación

Almacenamiento

Acceso

M j  d   l i     ió Manejo de colecciones y preservación

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Tecnología

Pilares básicos de las BiD:

Hardware

Redes de alta velocidad

Seguridad

Interoperabilidad

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 17: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

17

El kit del bibliotecario digital

Tipos de herramientas requeridas:

Herramientas de construcción de BiD

Visualizadores de directorios

Convertidores de formatos

Chequeadores de consistencia de interfaces

Visores de objetos

Encriptación de datos

Definición de metadatos

Gestores de índices

Analizadores de log

Copias de seguridad

Simuladores de interfaces para comprobar el comportamiento en distintas plataformas

...

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Tecnología vs. contenidos (I)

La tecnología no siempre ha dirigido los cambios en el manejo de la información:

Antes de la imprenta ya se vendía libros...y la imprenta no representó un cambio en la estructura de los mismos.

En el siglo XVIII cambió notablemente el contenido de los libros  sin cambios tecnológicos destacableslos libros, sin cambios tecnológicos destacables...mientras que en el siglo XIX cambia la tecnología, pero no hay cambios sustanciales en los contenidos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 18: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

18

Tecnología vs. contenidos (II)

En nuestra época asistimos a la revolución digital:

Durante más de una década, la mayor parte de los libros ha sido escrita en un ordenador...sin embargo, la gente sigue leyendo versiones en papel

Las bibliotecas permiten consultar libros escritos mucho tiempo atrás, y versiones en papel de las obras actualesactuales...¿qué van a hacer con la avalancha de información en formato electrónico?

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

¿Revolución?

El cambio provocado por las nuevas tecnologías va a f   di l  l   i d dtransformar radicalmente la sociedad

El acceso a información on‐line proporciona recursos que nunca antes habían estado disponibles

Bibliotecas, museos, editoriales, etc., se transformarán radicalmente o, de lo contrario, desaparecerán

Nuevas relaciones entre los actores:  Nuevas relaciones entre los actores: 

Autores/editores

Lectores/bibliotecas

Universitarios/publicaciones

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 19: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

19

¿Evolución?

Las tecnologías surgen porque la sociedad toma decisiones que conducen a ellasconducen a ellas

Las redes de ordenadores son continuación de redes de comunicaciones previas (telégrafo, teléfono, radio, televisión, ...)

Los medios digitales y los digitalizados son extensiones de otros previamente existentes, y las instituciones que los gestionan se adaptarán a ellos como lo hicieron con los anteriores (de Abdul Kassem Ismael a nuestros días...)

El papel convivirá con los bitsp p

Editoriales, bibliotecas, universidades, etc., tienen unas funciones sociales que continuarán en el futuro, posiblemente de forma diferente

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Co‐evolución

“Technology pushes, while demand pulls”

(Christine L. Borgman, 2000)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 20: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

20

Requisitos de las BiD

BiD como BiC: características y circunstancias bajo las cuales una BiD debería emular a una BiC que contenga libros, imágenes y otros objetos materiales

Requisitos funcionales de las BiD

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Requisitos: BiD como BiC

users are usually elsewhere than the information they want, and often wish to correlate things from several sources;correlate things from several sources;

whoever wants to use a library must show permission to do so;

different patrons are permitted different actions and to see different parts of each collection;

to find specific information, each user must understand the catalog structure;

the catalog may describe items not actually held as part of the collection at hand;

the catalog and the collected items are used differently and not necessarily housed in the same place;p ;

documents are cataloged with text descriptors and also with conventional properties, such as author names;

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 21: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

21

Requisitos: BiD como BiC

documents contain cross references to other documents; document identifiers are different from document names; a document

may have several names, one for each context, e.g., "Tales of Hoffmann" in English, "Les contes d'Hoffmann" in French, and "HoffmannsErzaehlungen" in German;

translations of a document may express essentially the same information, e.g., versions of classic literature in different languages;

each stored item is valuable, often with part of its residual value owned by its authors or authors‘ assignees;

part of the value provided by a library is the provenance information it holds for each item;

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

holds for each item; items are put into libraries because, while each is thought valuable for

future reference, the specific individuals who will read it and the times when this will occur are not known.

(DL94: Digital Library: Gross Structure and Requirements: Report from a March 1994 Workshop)

Requisitos funcionales (I)1. *DL should allow the user to follow citation links forward and backwards (preferably to full

documents; otherwise to location information)

2. *DL should include an online meta‐thesaurus that users can search and browse. The meta‐thesaurus 

should integrated existing thesaurae across disciplines. It should also allow users to incorporate their 

own terms and edit existing terms. The thesaurus should allow users to type in a few letters of a word 

and see corresponding terms, should suggest or reference alternatives to users' terms. Users should 

be able to view no. and type of documents associated with terms and link automatically from 

thesaurus terms to documents.

3. DL should include an acronym list to help users identify and search for terms.

4. Users should be allowed to save a record of their searches and what each search retrieved.

5. *Users should be able to search and view individual components of a document (e.g., author/title, 

abstract, figures, references) in a dynamic manner, specifying for each search which elements should 

be searched and which displayed.

6. *Users should be able to customize their interfaces so that search options, procedures are presented 

in the manner they like best.

7. Users should be able to view an overview description of the contents of the testbed.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 22: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

22

Requisitos funcionales (II)

8. *Display of full documents should mimic the look and feel of the article's print version in both page 

layout and page "flipping" (i.e., users should be able to view multiple pages at once and in quick y p g pp g ( , p p g q

succession)

9. *Users should be able to design and launch their own user profiles for any particular search session, 

defining what they want and how they want to get it.

10. *Users should be able to move easily from query to results and back, rather than moving in the

linear fashion common in online systems today, revising a query upon viewing results without

having to lose sight of the results or start a query over.

11. *Users should be able to easily create personal electronic article collections as a subset of the DL, 

manipulate and share that collectionmanipulate and share that collection.

12. Users should be able to define and set their own access points for searching personal collections

derived from the DL

13. DL should allow on‐screen highlighting, bookmarking to help in reading full articles.

14. Users should have access to DL from home and office.

15. DL should allow printing of full documents

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Requisitos funcionales (y III)16. *Users should be able to jump to and view individual document components. They should be able to 

skim, open, or skip individual document components.

17. DL should facilitate colleage networks: allow users to view list of contact info for authors, construct 

mailing list of colleagues to send documents to.

18. *DL should provide complete and intuitive online help: help balloons, full documentation, help with 

basic computing, gripe button, sample searches.

19. DL should allow users to make own links to commonly used external network resources (e.g., pre‐

print databases, listservs)

20. Search parameters should include physical location of material not available online

21. DL should facilitate browsing at shelf, ToC, and article levels: users need overview and zoomg , ,

capabilities.

22. *Interface should resemble a "natural topography" of the information landscape... with a physical

layout, dynamically defined (topic, material type, author, etc.)

23. *DL should allow serendipitous discovery of "other books on the shelf," "other articles in the

journal." Perhaps set browse mode as a purposeful search option: by call no., journal title, etc.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

(University of Illinois at Urbana Campaign, 1994)

Page 23: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

23

Recursos sobre BiD

D‐Lib: http://www.dlib.org

JBIDI http://www.jbidi.org

Communications of the ACM (abril 1995, abril 1998)

IEEE Computer ‐‐‐DLI

Exploring the Digital Domain, 2nd edition: 

http://cs.furman.edu/digitaldomain/

Vi t l Lib  I l t ti P bl  O t iti   d I   Virtual Library Implementation: Problems, Opportunities and Issues 

forToday’s Librarian: 

http://staff.washington.edu/larsson/conf/snit96/

Cursos de BiD en diferentes Universidades

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Conferencias sobre BiD

JCDL: http://www.jcdl2006.org

ECDL: http://www.ecdl2006.org

ICADL: http://www.icadl.org

RCDL: http://www.rcdl2005.uniyar.ac.ru/

JBIDI: http://www.jbidi.org

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 24: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

24

SERVICIOS DE BIBLIOTECASERVICIOS DE BIBLIOTECA DIGITAL

Servicios

¿Quiénes son los clientes de una BiD?

¿Qué tipos de servicio ofrecer en una BiD?

Presentación y acceso a la información

Servicios de búsqueda

Navegación

Referencias y servicios de respuesta

Filtrado y diseminación selectiva de información

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 25: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

25

¿Quiénes son los clientes de una BiD? Una BiC suele dar servicio a una comunidad 

concreta...

¿Debería una BiD estar igualmente restringida a esa comunidad?

Una BiC a menudo posee servicios a usuarios con necesidades especiales (rampas de acceso, libros  B ill   )en Braille, ...)

Debe procurarse extender los servicios en entornos digitales

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Tipos de servicio (I)

Búsqueda

Es el servicio de acceso más básico

En  BiC: metadatos http://www.upv.es/bib/

En BiD: metadatos + contenido

Mecanismos de búsqueda: Línea/formulario Línea/formulario

Navegación (browsing)

Basada en clasificación jerárquica

Ideal: aproximación híbrida

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 26: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

26

Tipos de servicio (II)

Referencias Uno de los servicios básicos de las BiC

En BiD: Anticipación a las preguntas (FAQ) Usuarios nuevos, tópicos interesantes ...

Interacción asíncrona usuario‐bibliotecario E‐mail, requiere participación humana, mucho uso del servicio ante las 

expectativas

Combinación de servicios automáticos y humanos FAQ + e‐mail si la FAQ falla

Interacción en tiempo real con el bibliotecario Hotline, chat, ...

Agentes software que reemplacen a los humanos Procesamiento del lenguaje natural

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Tipos de servicio (III)

Filtrado y distribución selectiva Perfiles de usuario

Cada nueva incorporación se chequea frente a los perfiles, y se envía a los usuarios apropiados

Más sofisticado que la recuperación de información

Filtrado colaborativo: clasificación por interés de un colectivo de usuarioscolectivo de usuarios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 27: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

27

Acceso: BiD vs. Sitio Web

Una BiD es: 

“Una colección de objetos digitales, incluyendo texto, video, audio, y otros, junto con medios para el acceso y la recuperación, y para la selección, organización y mantenimiento de la colección” (Witt & B i b id   )(Witten & Bainbridge, 2003)

Mucho más que un sitio Web!!

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Presentación y diseminación

Presentación: la manera en que un objeto digital   d   l  ies mostrado al usuario

Diseminación: la transformación de la forma almacenada a la presentación requiere la ejecución de algún programa (rendering)

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Page 28: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

28

1 Almacenamiento,n Presentaciones La forma almacenada de un objeto digital y su presentación al 

usuario son generalmente distintas:usuario son generalmente distintas:

Página Web: almacenada en HTML, transformada (rendered) por un navegador para su presentación al usuario

Un objeto digital puede tener varias presentaciones:

Una imagen puede tener una presentación en miniatura (thumbnail) y otra de alta resolución

Una base de datos Access puede verse desde el entorno propio o a través del Web...

what you store is notwhat you get

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Historia de las BiD

Dos aproximaciones principales:

Construir clientes y servidores ad‐hoc (usandoMotif/X11, Tcl/Tk, etc.), y usarTCP/IP sólo como protocolo de transporte pros: gran funcionalidad

cons: costes de desarrollo altos, problemas con la distribución y heterogeneidad de los clientes

Curiosidad: muchos de los proyectos de este tipo gastaron más tiempo en desarrollar interfaces, protocolos, búsquedas, etc., que poblando las BiD!

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Page 29: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

29

Historia de las BiD (2)

Dos aproximaciones principales (cont):Dos aproximaciones principales (cont):

Uso de protocolos estándar, de más alto nivel, basados 

en TCP/IP: SMTP, FTP, Gopher, WAIS, http, etc.

cons: menos funcionalidad

pros: menor coste de desarrollo, dado que usan clientes 

normalmente disponiblesp

Esta aproximación ha dominado la segunda mitad de los 90

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Primeras BiD sobre TCP/IP 

Netlib

http://www.netlib.org/

Comenzó en 1985, distribuyendo software matemático via e‐mail (SMTP)

Posteriormente se añadieron otros métodos y protocolos (ftp, cliente X11, http)

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Page 30: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

30

zo d

e 20

10

Accesos a Netlib –

© J

.H.

Can

ós –

Zar

agoz

a, m

arz

Bib

liote

cas

Dig

itale

s

Fuente:http://www.netlib.org/utk/misc/counts.html

Primeras BiD sobre TCP/IP

Servidor de pre‐prints de Física

http://xxx.lanl.gov/

Comenzó en 1991 como servicio de e‐mail para el intercambio de fuentes de pre‐prints en TeX 

Pronto se añadieron accesos ftp y http

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Page 31: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

31

Primeras BiD sobre TCP/IP

Anonymous FTP

Usado por numerosos departamentos de Informática para la distribución de informes técnicos y software

ftp://techreports.larc.nasa.gov/ comenzó a finales de 1992

El acceso http se añadió en 99 El acceso http se añadió en 1994

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Primeras BiD sobre TCP/IP

Características:

Útiles Se podía encontrar lo que buscabas

Limitadas por el protocolo de transporte Interfaces SMTP, FTP, etc. inherentemente pobres

Búsquedas, formateos, browsing, ... difíciles de implementar

Escala reducida Escala reducida ¿Hubiesen funcionado bien con colecciones de millones de items?

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

Page 32: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

32

Primeras BiD sobre HTTP

http es un protocolo de transporte muy general, y es posible construir protocolos de mayor nivel sobre él

Combinando esto con clientes WWW más expresivos, hay un potencial grandísimo

Bibliotecas Digitales –© J.H. Canós – Zaragoza, marzo de 2010

La Web sólo es la plataforma

Las bibliotecas digitales explotan la tecnología de la Web para facilitar el acceso de los usuarios al contenido

Vamos a ver ejemplos de cómo acceder a los diferentes tipos de mediosdiferentes tipos de medios

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Page 33: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

33

Acceso a colecciones

Búsqueda

Navegación

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Búsqueda

El usuario tiene una necesidad de información  y acude a  El usuario tiene una necesidad de información, y acude a la biblioteca en busca de una solución Es el servicio de acceso más básico

En  BiC: metadatos

http://www.upv.es/bib/

En BiD: metadatos + contenido

Búsqueda simple y avanzadaq p y

http://www.cervantesvirtual.com/busquedas/

http://www.loc.gov/search/more_search.html

http://www.bne.es

http://europeana.eu/portal/

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Page 34: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

34

Referencias

Uno de los servicios básicos de las BiC

En BiD: Anticipación a las preguntas (FAQ)

Usuarios nuevos, tópicos interesantes ...

Interacción asíncrona usuario‐bibliotecario E‐mail, requiere participación humana, mucho uso del servicio ante 

las expectativas

Combinación de servicios automáticos y humanos FAQ + e mail si la FAQ falla FAQ + e‐mail si la FAQ falla

Interacción en tiempo real con el bibliotecario Hotline, chat, …

http://www.loc.gov/rr/askalib/

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Navegación

Vistas prefabricadas de las colecciones

Agrupadas por criterios diversos

Estadísticas de uso pueden ayudar a confeccionar el diseño navegacional

htt // l /i d ht l http://www.loc.gov/index.html

(ver diversas versiones en www.archive.org) 

http://www.museodelprado.es/

http://www.classicalarchives.com

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Page 35: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

35

Acceso a objetos digitales

Objetivo: generar la presentación de los objetos digitales  f ió  d  di i i   i li d   ú  en función de diseminaciones especializadas según 

diferentes criterios: Dispositivo de acceso

Lenguaje

Perfil de usuario

U   ió   l  i l i   d     id Una presentación suele incluir metadatos y contenido En ocasiones, servicios adicionales 

(http://www.cervantesvirtual.com/FichaObra.html?Ref=1270&portal=0)

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Acceso a texto no estructurado

La biblioteca digital no es consciente de la estructura del texto

El texto se muestra como un todo, accesible secuencialmente (salvo enlaces explícitos)

http://www gutenberg org/dirs/etext97/alice30h htmhttp://www.gutenberg.org/dirs/etext97/alice30h.htm

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Page 36: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

36

Acceso a texto estructurado

Se puede explotar la estructura explícita

Definida con marcas

Acceso directo a partes específicas

http://www.cervantesvirtual.com/FichaObra.html?Refhttp://www.cervantesvirtual.com/FichaObra.html?Ref=1270&portal=0

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Interfaces de usuario para texto Metáforas  http://www.wdl.org

http://bvg.udc.es/

http://bv2.gva.es

Accesibilidad http://www.cervantesvirtual.com/seccion/signos/

http://www.cervantesvirtual.com/fonoteca/

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Page 37: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

37

Acceso a imágenes

Búsquedas:

Basadas en metadatos

Diferentes estándares dificultan acceso

Imágenes muy poco descritas (problema de escala!)

Prototipos de búsquedas por contenido

Navegación:

Uso extensivo de miniaturas

La imagen no es el final del camino de navegación

Imágenes relacionadas…Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Acceso a imágenes (cont.)

http://digitalgallery.nypl.org

http://www.flickr.com

http://images.google.es

http://www.hermitagemuseum.org

Galerías personales: Picasa (Google)

Windows Live Gallery (Microsoft)

Posibilidad de compartir en la Web

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Page 38: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

38

Acceso a vídeo

Búsquedas:

Basadas en metadatos Diferentes estándares dificultan acceso

Vídeos muy poco descritos (problema de escala!)

Prototipos de búsquedas por contenido

Navegación Navegación:

Uso extensivo de miniaturas

Otras funciones: surrogates, previews

El video no es el final del camino de navegación

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Acceso a vídeo (cont.)

http://www.youtube.com/watch?v=BGvd‐C7bw8g

http://www.open‐video.org/

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

Page 39: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

39

Acceso a audio

Similar a las imágenes y el vídeo

Música: 

¡un mundo muy rico!

Distintas representaciones:

Partituras Partituras

Archivos MIDI

Archivos de audio

Bibliotecas Digitales – © J.H. Canós – Zaragoza, marzo de 2010

UN MODELO ARQUITECTÓNICOUN MODELO ARQUITECTÓNICODE BIBLIOTECA DIGITAL

Page 40: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

40

A Framework for DistributedDigital Object Services

Kahn/Wilensky Framework (KWF, 1995)

Es un documento de alto nivel que define los conceptos clave que forman la próxima generación de BiD

DLs beyond “make the ftp server look nice”

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Términos clave en KWF

Objeto Digital (digital object, DO) Unidad de intercambio en una BiD, con una estructura de datos y unas características particulares

Repositorio (repository) El lugar donde viven los DO

Handle Handle Un nombre único y persistente para un DO

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 41: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

41

KWF

Originator

Digital Object

Data

Handle

Repository

makes a

which consists of

which comesfrom a handlegeneratorwhich can go in a

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Repository

Repository Access Protocol(RAP)

Handle Server

which is accessed by which registers the DOs handle with a

at which point the DO becomesa registered DO

Objetos digitales

Objeto Digital: elemento almacenado j gen una BiD

Ninguna referencia a contenido, estructura, etc.

Sinónimos: ítem, material, documento

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 42: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

42

Objeto Digital

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Objeto digital

DO  datos + key metadata DO = datos + key‐metadata

Los datos son tipados: tipos básicos incluyen: bit‐sequence / set‐of‐bit‐sequences

digital‐object / set‐of‐digital‐objects

handle / set‐of‐handles

key‐metadata incluye el handle, y posiblemente otros metadatos (no especificados en KWF)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 43: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

43

Objetos digitales compuestos

Son DO con datos de tipo digital‐object

Los objetos digitales tienen estructura interna:

Una edición de un diario electrónico está almacenada en varios objetos 

separados (páginas HTML, imágenes digitalizadas de las páginas, ...), 

pero puede percibirse como un objeto único

Los DO compuestos pueden usarse para agrupar items relacionados:

Un DO para agrupar todas las obras de Cervantes

Un DO para agrupar todas las versiones o todos los formatos del 

Quijote...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Handles

Nombres que persisten aunque el recurso  al que id ifi   d   bi    f     l d    identifican pueda cambiar su forma, ser almacenado en diversos repositorios, o cambiar en cualquier otra vía a lo largo del tiempo.

Handle system: sistema distribuido que almacena handles e información asociada, que se utiliza para localizar y acceder al ítem identificado por el handle

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 44: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

44

Handles: sintaxis

hdl:cnri.dlib/july95‐arms

GLOBALLOCAL

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Indicadorde handleAutoridad de

Nombramiento(repositorio) Identificador único

en el repositorio

Handles: estructura interna

h dl

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

handleDatos del handle: (tipo, valor)

(almacenados en un servidor de handles)inmutable

Pueden cambiarTransparente a los clientes

Page 45: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

45

Handles: resolución

Resolver un handle: Presentar un handle a un servidor

Obtener como respuesta información relacionada Usualmente, la dirección adonde encontrar el ítem identificado por el handle

El sistema Handle: Distribuido (muchos ordenadores alrededor del 

d )mundo) Registro global de handles (en CNRI)

Servicios de handle locales (e.g. LOC)

Más información: http://www.handle.net

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Repositorios (I)

“Un sistema de almacenamiento  accesible por red  en el Un sistema de almacenamiento ,accesible por red, en el 

cual los DO pueden ser almacenados para posibles accesos 

posteriores” (KWF)

Un DO almacenado es un DO que reside en un repositorio

Un DO registrado es un DO que el repositorio ha registrado 

en un servidor de handles

Almacenaje y registro pueden ser el mismo proceso, o 

procesos diferentes

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 46: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

46

Repository Access Protocol(RAP)

Mecanismo sencillo de acceso a repositoriosMecanismo sencillo de acceso a repositorios

Diseñado para ser simple

KWF define 3 clases de operaciones básicas: ACCESS_DO

DEPOSIT_DO

ACCESS_REF

Sobre ellas se pueden definir meta servicios...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Repositorios (II)

Estructura de un repositorio:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 47: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

47

Repositorios (III)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Repositorios (y IV)

Arquitectura de un repositorio:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 48: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

48

Forma almacenada

La forma almacenada de un objeto digital es el j g

formato en el que está almacenado en el 

repositorio

Un simulador de vuelo es un conjunto de programas, 

archivos de datos, etc.

N   i     é  i idi    l  f       l  No tiene por qué coincidir con la forma en que el 

objeto digital se disemina

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Presentación y diseminación

Presentación: la manera en que un objeto digital   d   l  ies mostrado al usuario

Un piloto que use el simulador percibe imágenes, sonidos sintetizados y secuencias de control

Diseminación: la transformación de la forma almacenada a la presentación requiere la j ió  d   l ú    ( d i )ejecución de algún programa (rendering)

1  Almacenamiento,n Presentaciones

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 49: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

49

Visión global

Repositorios

Usuarios

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Sistemas de localización Sistemas de búsqueda

Referencias

Arms, W. et al.: An Architecture for Information in Digital Libraries  D Lib Magazine  February 1997Libraries. D‐Lib Magazine, February 1997.

Arms, W.: Key Concepts in the Architecture of the Digital Library. D‐Lib Magazine, July 1995

IFLA: Functional Requirements for Bibliographic Records. 1998.

Kahn, R. & Wilensky, R.:A Framework for Distributed Digital Object Services  1995  Digital Object Services. 1995. http://www.cnri.reston.va.us/home/cstr/arch/k‐w.html

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 50: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

50

ORGANIZACIÓN DE LAORGANIZACIÓN DE LA INFORMACIÓN: METADATOS

Motivación

Objetivo fundamental de una BiD: ayudar a los usuarios a encontrar información

En muchas ocasiones, la información no se busca en los documentos, sino en propiedades de los mismos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 51: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

51

Metadatos

Datos estructurados acerca de los datos

b d d d l d Describen propiedades del contenido Descriptivos: información bibliográfica, géneros, ...

Estructurales: información sobre formatos y estructuras

Administrativos: derechos, permisos, ...

Generalmente expresados como texto Texto: autor, fecha, páginas, etc.

Imagen: resolución  formato  etcImagen: resolución, formato, etc.

Aunque pueden referirse a otro tipo de medio

Para los usuarios, son el camino hacia los contenidos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Generación tradicional de catálogos

Reglas de catalogación

Anglo American CataloguingRules (AACR2)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

objeto digital

Registro de metadatosDatos de

referencias (MARC)

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Page 52: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

52

MARC: Ejemplo (I)

Caroline R. Arms, editor, Campus strategies for libraries and electronic information.  Bedford  MA  Digital Press  1990

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Bedford, MA: Digital Press, 1990.

tag value

001 89‐16879 r93

050 Z675.U5C16 1990

082 027.7/0973 20

245 Campus strategies for libraries and electronic  title statementinformation/Caroline Arms, editor.

260 {Bedford, Mass.} : Digital Press, c1990.             publisher{ , } g , 99 p

300 xi, 404 p. : ill. ; 24 cm.                                          collation440 EDUCOM strategies series on information technology series title

504 Includes bibliographical references (p. {373}‐381).

020 ISBN 1‐55558‐036‐X : $34.95

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

MARC : Ejemplo (y II)

6 A d i  lib i U it d St t A t ti   bj t h di

Fuente: W. Arms: Curso de BiD. Cornell, 2000

650 Academic libraries‐‐United States‐‐Automation. subject heading

650 Libraries and electronic publishing‐‐United States.

650 Library information networks‐‐United States.

650 Information technology‐‐United States.

700 Arms, Caroline R. (Caroline Ruth)

040 DLC DLC DLC

043 n‐us‐‐‐

955 CIP ver. br02 to SL 02‐26‐90955 9

985 APIF/MIG

http://lcweb.loc.gov/marc/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 53: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

53

Online public access catalog (OPAC) Servicio imprescindible hoy en día en BiC

d l ó Dos etapas de implantación Primera etapa

La biblioteca deposita sus registros MARC en un servidor

Proporciona acceso al servidor por terminales dedicados

Búsqueda booleana por campos (ver tema 5)

La mayor parte de BiC universitarias lo tienen desde primeros de los 90

Segunda etapa Segunda etapa La biblioteca conecta su servidor a la red del campus e Internet

Transforma paulatinamente sus fichas catalográficas a MARC

www.upv.es/bib

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Comentarios sobre MARC

Un gran avance

Desarrollado en los 60

Ampliamente difundido

Muy complejo

No se diseñó pensando en su tratamiento algorítmico

No es Unicode

Transición muy costosa

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 54: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

54

Dublin Core

Conjunto simple de metadatos para información on‐line

15 elementos básicos

Aplicable a todo tipo de material digital

Todos los elementos opcionales

Todos los elementos repetibles

Desarrollado por un grupo internacional, liderado por Stuart Weibel

http://www.dublincore.org/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Dublin Core elements

1. Title The name given to the resource by the creator or

Fuente: W. Arms: Curso de BiD. Cornell, 2000

g ypublisher.

2. Creator The person or organization primarily responsible for the intellectual content of the resource. For example, authors in the case of written documents, artists, photographers, or illustrators in the case of visual resources.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

3. Subject The topic of the resource. Typically, subject will be expressed as keywords or phrases that describe the subject or content of the resource. The use of controlled vocabularies and formal classification schemes is encouraged.

Page 55: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

55

Dublin Core elements

4 Description A textual description of the content of the

Fuente: W. Arms: Curso de BiD. Cornell, 2000

4. Description A textual description of the content of the resource, including abstracts in the case of document-like objects or content descriptions in the case of visual resources.

5. Publisher The entity responsible for making the resource available in its present form, such as a publishing house, a university department, or a corporate entity.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

6. Contributor A person or organization not specified in a creator element who has made significant intellectual contributions to the resource but whose contribution is secondary to any person or organization specified in a creator element (for example, editor, transcriber, and illustrator).

Dublin Core elements

7. Date A date associated with the creation or availability of

Fuente: W. Arms: Curso de BiD. Cornell, 2000

ythe resource.

8. Type The category of the resource, such as home page, novel, poem, working paper, preprint, technical report, essay, dictionary.

9. Format The data format of the resource, used to identify th ft d ibl h d th t i ht b d d t

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

the software and possibly hardware that might be needed to display or operate the resource.

10. Identifier A string or number used to uniquely identify the resource. Examples for networked resources include URLs and URNs.

Page 56: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

56

Dublin Core elementsFuente: W. Arms: Curso de BiD. Cornell, 2000

11. Source Information about a second resource from which the present resource is derived.

12. Language The language of the intellectual content of the resource.

13. Relation An identifier of a second resource and its relationship to the present resource This element permits

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

relationship to the present resource. This element permits links between related resources and resource descriptions to be indicated. Examples include an edition of a work (IsVersionOf), or a chapter of a book (IsPartOf).

Dublin Core elementsFuente: W. Arms: Curso de BiD. Cornell, 2000

14. Coverage The spatial locations and temporal durations characteristic of the resource.

15. Rights A rights management statement, an identifier that links to a rights management statement, or an identifier that links to a service providing information about rights management for the resource.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 57: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

57

Uso de DC en HTML (I)

<HTML><HEAD>

Fuente: A. Powell. UKOLN, University of Bath, 1998

<TITLE>UKOLN Home Page</TITLE><META NAME="DC.Title” CONTENT="UKOLN: UK Office for Library and Information Networking"><META NAME="DC.Subject" CONTENT="national centre, network information support, library community, awareness, research, information services, public library networking, bibliographic management, distributed library systems, metadata, resource discovery, conferences, lectures, workshops"><META NAME="DC.Description" CONTENT="UKOLN is a national

t f t i t k i f ti t icentre for support in network information management in the library and information communities. It provides awareness, research and information services"><META NAME="DC.Creator" CONTENT=”UKOLN Information Services Group"></HEAD>...

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Uso de DC en HTML (II)

Fuente: W. Arms: Curso de BiD. Cornell, 2000

<meta name= "DC.publisher" content="OCLC"><meta name="DC. creator" content="Weibel, Stuart L."><meta name="DC. creator" content="Miller, Eric J."><meta name="DC. title" content="Dublin Core Reference Page"><meta name="DC. date" content="1996-05-28">

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

<meta name="DC. form" content="text/html"><meta name="DC. language" content="en">

Page 58: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

58

Dublin Core calificado

La semántica de DC es muy ampliaE   i      i f ti En ocasiones es poco informativa

Los calificadores son una especie de atributos “a la” XML que permiten: Refinar el significado de los elementos de DC mediante ‘type’:

Relation TYPE=IsPartOf

Asociar valores a los elementos de acuerdo a esquemas externos: Subject SCHEME=LCSH

Date SCHEME=ISO 8601

Indicar el lenguaje en el que está expresado un valor Title LANGUAGE=en 

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Calificadores: ejemplo

Fuente: W. Arms: Curso de BiD. Cornell, 2000

DC.Date -> Created: 1997-11-01

DC.Date -> Issued: 1997-11-15

DC.Date -> Available: 1997-12-01/1998-06-01

DC.Date -> Valid: 1998-01-01/1998-06-01

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

/

Page 59: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

59

DC con calificadores:ejemplo en XML

<title>Digital Libraries and the Problem of Purpose</title>

Fuente: W. Arms: Curso de BiD. Cornell, 2000

<title>Digital Libraries and the Problem of Purpose</title>

<creator>David M. Levy</creator>

<publisher>Corporation for National Research Initiatives</publisher>

<date date-type = "publication">January 2000</date>

<type resource-type = "work">article</type>

<identifier uri-type = "DOI">10.1045/january2000-levy</identifier>

<identifier uri type

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

<identifier uri-type = "URL">http://www.dlib.org/dlib/january00/01levy.html</identifier>

<language>English</language>

<rights>Copyright (c) David M. Levy</rights>

RDF

Resource Description Framework

Desarrollado con participación de varias comunidades Platform for Internet Content Selection (PICS)

Web Collections (Site maps, MCF)

Libraries, museums, archives (DC)

Privacy (P3P)

Actividad de metadatos del W3C Model and Syntax WG

Schema WG

Objetivo: Interoperabilidad de metadatos semántica, estructura, sintaxis

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 60: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

60

El modelo de RDF

RTipo de propiedad

V l

basado en un modelo matemático

diagramas arco‐nodo

Recurso Valor

Propiedad

diagramas arco nodo

recursos Web representados por nodos con  URI

“descripción”: colección de propiedades

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

RDF: ejemplo

“Andy Powell es autor del recurso identificado por  

http://www.ukoln.ac.uk/metadata/Author

Andy Powell

http://www.ukoln.ac.uk/metadata/”

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 61: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

61

RDF: ejemplo estructurado

h // k l k/ d /Author

http://www.ukoln.ac.uk/metadata/

Andy Powell [email protected]

Name Email

proporciona metadatos estructurados a base de reemplazar valores textuales por nodos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

RDF: serialización

http://www ukoln ac uk/metadata/Title The UKOLN

Metadata HomeTitle

http://www.ukoln.ac.uk/metadata/ Metadata HomePage

<RDF:RDF><RDF:DescriptionRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><Title>The UKOLN Metadata Home Page</Title>

</RDF:Description></RDF:RDF>

una descripción RDF puede expresarse en XML

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 62: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

62

DC en RDF

http://www.ukoln.ac.uk/metadata/The UKOLN

Metadata HomePage

DC:Title

<RDF:RDF><RDF:Description

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

pRDF:HREF=”http://www.ukoln.ac.uk/metadata/”><DC:Title>The UKOLN Metadata Home Page</DC:Title>

</RDF:Description></RDF:RDF>

DC en RDF<?xml version="1.0"?>

<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:dc="http://purl.org/dc/elements/1.0/">

<rdf:Description<rdf:Descriptionrdf:about="http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/

WD-dc-rdf/">

<dc:title> Guidance on expressing the Dublin Core within the ResourceDescription

Framework (RDF) </dc:title>

<dc:creator> Eric Miller </dc:creator>

<dc:creator> Paul Miller </dc:creator>

<dc:creator> Dan Brickley </dc:creator>

<dc:subject> Dublin Core; Resource Description Framework; RDF; eXtensible

Markup Language; XML </dc:subject>Markup Language; XML </dc:subject>

<dc:publisher> Dublin Core Metadata Initiative </dc:publisher>

<dc:contributor> Dublin Core Data Model Working Group </dc:contributor>

<dc:date> 1999-07-01 </dc:date>

<dc:format> text/html </dc:format>

<dc:language> en </dc:language>

</rdf:Description>

</rdf:RDF>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 63: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

63

RDF: estado actual

http://www.w3c.org/RDF

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

MODS

Metadata Object Description Schema

Desarrollado por LOC

Objetivo: dar el salto al mundo XML de forma compatible con MARC

http://www.loc.gov/standards/mods

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 64: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

64

Características de MODS

Etiquetas basadas en lenguaje natural

Los elementos tienen las mismas definiciones que elementos equivalentes en MARC

Elementos particularmente aplicables a recursos digitales

XML schema permite aprovechar la flexibilidad y disponibilidad de herramientas libres disponibles l

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Elementos de alto nivel de MODS

Title Info Note Name

Type of resource

Genre

Origin Info

Language

Physical description

Subject

Classification

Related item

Identifier

Location

Access conditions Abstract

Table of contents

Target audience

Part

Extension

Record Info

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 65: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

65

Ejemplo:

Music record in MODS

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Ventajas de MODS

El conjunto de elementos es compatible con los esquemas j p qde grandes bases de datos bibliográficas

El conjunto de elementos es más rico que Dublin Core, y más simple que MARC

Etiquetas basadas en lenguaje natural, más amigables que las etiquetas numéricas de MARC

La jerarquía permite descripciones más ricas, j q p p ,especialmente de objetos digitales complejos

La descripción funciona bien con descripciones jerárquicas en METS

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 66: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

66

Metadata Encoding and Transmission Standard 

METS es un esquema XML diseñado con el propósito de crear documentos que expresen la estructura jerárquica de los objetos digitales, los nombres y localizaciones de los archivos que los

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

qcomponen, y los metadatos asociados.

http://www.loc.gov/mets

Secciones de un documentoMETS (parcial)

<mets><dmdSec/> (Metadatos descriptivos)<amdSec/> (Metadatos administrativos)<fileSec/> (Archivos)<structMap/> (Estructura)

</ t >

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

</mets>

Page 67: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

67

METS Extension Schemas

Two sections (dmdSec and amdSec) serve as “wrappers” or“sockets” where elements from other schemas, called "extensionschemas” can be plugged in. This is the mechanism by whichMETS is extensible. It is accomplished by using the XML Schemafacility for combing vocabularies from different Namespaces.

METS Editorial board has endorsed extension schemas for

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

METS Editorial board has endorsed extension schemas forbibliographic data (MARCXML, MODS, DC), for technicalmetadata for still images (MIX), and technical metadata for text(TextMD).

Estructura

<mets><structMap>

<div><div></div>

</div>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

/</structMap>

</mets>

Ejemplo 1

Page 68: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

68

Archivos

<mets><fileSec></fileSec><structMap></structMap>

</mets>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

/ ets

Example 2

Metadatos descriptivos

<mets><dmdSec></dmdSec><fileSec></fileSec><structMap></structMap>

</mets>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

</mets>

Page 69: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

69

Metadatos descriptivos con mdRef

<mets><dmdSec>

<mdRef/></dmdSec>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

<fileSec></fileSec><structMap></structMap>

</mets>

Ejemplo 3

Metadatos descriptivos con mdWrap

<mets><dmdSec><mdWrap><xmlData>

<!– insertar datos de namespace(s) diferentes --></xmlData>

</mdWrap></dmdSec>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

<fileSec></fileSec><structMap></structMap>

</mets>

Example 4Example 5 Example 6

Page 70: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

70

Metadatos administrativos con mdWrap

<mets><mets><amdSec><techMD><mdWrap><xmlData>

<!-- insertar datos de namespace(s) diferentes --></xmlData>

</mdWrap></techMD>

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

</techMD></amdSec><fileSec /> <structMap />

</mets>

Example 7

Example 8

Otros esquemas de metadatos

Channel Definition Format (CDF)  http://www.microsoft.com/standards/cdf.htm

Global Information Locator Service (GILS) http://www.usgs.gov/gils/index.html

Meta Content Framework (MCF)  http://www.textuality.com/mcf/MCF‐tutorial.html

Platform for Internet Content Selection (PICS) http://www.w3.org/pub/WWW/PICS/

Rich Site Summary (RSS)  http://purl.org/rss

Summary Object Interchange Format (SOIF)h //h l d d / http://harvest.cs.colorado.edu/

Uniform Resource Characteristics (URCs) http://www.acl.lanl.gov/URC/

Wireless Markup Language (WML) http://www.wapforum.org/

Text Encoding Initiative (TEI) http://www‐tei.uic.edu/orgs/tei/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 71: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

71

Referencias

Arms, W.

Di it l Lib i MIT P   Digital Libraries.MIT Press, 2000

Curso de BiD. Cornell University, 2000.

Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997

Powell, Andy: Metadata for the Web :DF and the Dublin Core.Presentación en UKOLUG, Manchester Conference Centre ‐ July 1998. http://www.ukoln.ac.uk/metadata/presentations/ukolug98

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Fuentes de información

http://www.ifla.org/II/metadata.htm Muchos recursos sobre metadatos

Completísimo! 

http://www.ukoln.ac.uk/metadata/ ídem

http://www.w3.org/RDF/ página “oficial” sobre RDF página  oficial  sobre RDF

http://www.loc.gov/standards/mods

http://www.loc.gov/standards/mets

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 72: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

72

ORGANIZACIÓN DE LAORGANIZACIÓN DE LA INFORMACIÓN: FLUJOS DE TRABAJO

Procesos en las organizaciones

Procesos materiales

– Ensamblar componentes físicos y producir productos físicos

– Tareas humanas (mover, almacenar, transformar ...)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 73: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

73

Procesos en las organizaciones

Procesos materiales Procesos deinformación

– Ensamblar componentes físicos y producir productos físicos

– Tareas humanas (mover, almacenar, transformar ...)

– Tareas automáticas o semi-automáticas– Crear, procesar, gestionar y producir

información– Infraestructura: ordenadores, bases de

datos, procesamiento de transacciones, sistemas distribuidos, ...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Procesos de negocio

Procesos en las organizaciones

Procesos de negocio

Procesos materiales Procesos deinformación

– Descripciones, orientadas al mercado, de las actividades de una organización, implementadas como procesos de información y/o materiales

– Un PN se crea con el objetivo de cumplir con un contrato, de satisfacer las necesidades de un cliente, etc.

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 74: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

74

Flujos de control y de datos

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Sistemas de Gestión de Flujos de Trabajo

U SGFT i t d fi ti l j ió d FTUn SGFT es un sistema que define, crea y gestiona la ejecución de FT

mediante el uso de software, siendo capaz de interpretar la definición

del proceso, interactuar con los participantes y, donde se requiera,

invocar el uso de herramientas y aplicaciones.

Workflow Management Coalition

(http://www.wfmc.org)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 75: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

75

Flujos de trabajo y bibliotecas digitales

L     tá     t     l  Los procesos están muy presentes en el desarrollo, mantenimiento y operación de las BiD

Tema tradicionalmente olvidado por la pcomunidad de BiD

Interés (c)reciente

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Motivación

Los modelos de BiD están fuertemente  influenciados por la perspectiva “repositorio”

Es necesario ampliar la visión estática de las BiD para incorporar todos los aspectos relacionados con gestión de contenido que relacionados con gestión de contenido que quedan fuera de la visión tradicional

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 76: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

76

La nueva visión

UsuariosAdministradores

Motor de procesos

Procesos/Servicios

Público

En una Bid, Colecciones de Objetos digitales son gestionadas mediante una serie de procesos de diversa índole:

Selección Adquisición Catalogación Conservación Gestión de usuarios

Repositorios

Sistemas de localización Sistemas de búsqueda

Gestión de usuarios …

Los procesos implementan los servicios que la BiD ofrece a todos sus potenciales usuarios

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

ORGANIZACIÓN DE LAORGANIZACIÓN DE LA 

INFORMACIÓN: CONSERVACIÓN 

A LARGO PLAZO DE LA 

INFORMACIÓN DIGITAL

Page 77: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

77

Visión global

Fuente: W. Arms: Curso de BiD. Cornell, 2000

Repositorios

Usuarios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Sistemas de localización Sistemas de búsqueda

Motivación (I)

Objetivo fundamental de una BiD: ayudar a los usuarios a  i f ió  

Fuente: W. Arms: Curso de BiD. Cornell, 2000

encontrar información ...

...ahora y en el futuro

Vida media de los diferentes soportes:

Material Approximate life (years)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Acid-free paper 500+Microfilm 300Optical disks 100?Color film 25-50CDs 20?Magnetic disk and tape 5

Page 78: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

78

Motivación (II)

El almacenamiento digital sólo conserva contenido “crudo”

Fuente: Lesk, 1997, pág. 194

crudo : A veces en formatos no estándar

Si el software desaparece, no se puede acceder al contenido

Ejemplo: procesadores de texto Byte 1985: Wordstar, Leading Edge, Multimate, MS Word, PFS:write, 

Samna, WordPerfect, Xywrite

Byte 1995: MS Word, Lotus Word Pro, DeScribe, Nota Bene, Clearlook, y 995WordPerfect, Accent Professional, Xywrite

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Motivación (III)

El hardware también caduca (~5‐10 años)

Aunque el software perdure, si no se dispone del código fuente 

puede ser muy difícil ejecutarlo en arquitecturas modernas

Aunque el hardware perdure, puede ser poco rentable empeñarse 

en mantenerlo

En toda BiD es necesaria una política de conservación de 

los contenidos  que trascienda el mero problema de la los contenidos, que trascienda el mero problema de la 

conservación digital

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 79: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

79

Objetivo de la conservación

Garantizar la disponibilidad de los objetos digitales en el ffuturo

En tres subáreas: Conservación intelectual

Conservación del medio

Conservación de la tecnología

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Conservación intelectual

Problema: integridad y autenticidad de la información tal  Problema: integridad y autenticidad de la información tal y como se grabó originalmente

La naturaleza del software (y, similarmente, de los objetos digitales), impide utilizar características físicas para identificar unívocamente a un objeto

E   l   bl á i  d fi i   é    i id d d   Es realmente problemático definir qué es autenticidad de contenido y apariencia en el contexto de los  objetos digitales

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 80: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

80

Conservación del medio

Objetivo: conservar en condiciones el medio en el que se 

almacena la información (cintas, discos magnéticos, 

discos ópticos, CD, DVD …)

Refresco de la información (o del medio): copia periódica 

de la información almacenada en un medio físico a otro 

Efectiva en tanto en cuanto la información contenida en 

  di    “d if bl ”esos medios sea “descifrable”

independiente del hardware

software disponible

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Conservación de la tecnología

d á d l f l Además del refresco, es necesario asegurar que, en el futuro,  los objetos digitales serán accesibles en las nuevas plataformas tecnológicas

Soluciones: Refresco de la información Refresco de la información

Migración de la información

Emulación 

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 81: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

81

Refresco de información

Copia periódica de la información almacenada en un di  fí i      medio físico a otro 

Efectiva en tanto en cuanto la información contenida en esos medios sea “descifrable” independiente del hardware

software disponible

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Migración

Transferencia periódica de la información digital de una fi ió  h d / f      configuración hardware/software a una nueva

Incluye refresco de información, pero asumiendo que no siempre es posible obtener una réplica exacta en la nueva configuración versiones nuevas de procesadores de texto incompatibles con las 

más antiguas

aplicación de algoritmos de compresión “lossy” a imágenes

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 82: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

82

Emulación

Objetivo: reproducir las condiciones tecnológicas i d     d    l  i f ió  di i lapropiadas para acceder a la información digital

Simulación software de entornos obsoletos sistemas operativos

software de edición, visualización, etc.

Es muy difícil conseguir una emulación 100% fiable

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Buenas prácticas

Se deben seleccionar y crear colecciones digitales con un valor duradero y de interés intelectual. 

La demanda de los documentos también es un factor a tener en cuenta ya que si los fondos están digitalizados serán de más fácil acceso. 

La selección debe estar avalada por una política de preservación bien definida y apoyada económicamente p y p y

Identificar responsabilidades

Adoptar estándares

Page 83: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

83

Conclusiones

La conservacióndel patrimonio digital es una medida necesaria que todos los países deben impulsarnecesaria que todos los países deben impulsar

Debe hacerse de forma cooperativa, generando alianzas y convergencia de intereses, y distribuyendo responsabilidades de manera que resulte beneficiosa para todos los agentes implicados

El conocimiento y la experiencia de las numerosas iniciativas permite reducir errores y potenciar las buenas prácticas

Bibliografía

Beagrie, Neil. et al. Trusted Digital Repositories: Attributes and Responsibilities, RLG‐OCLC Report, 2002. http://www.rlg.org/longterm/repositories.pdf

Reference Model for an Open Archival Information System (OAIS)

“Digital Preservation, Architecture and Technology for Trusted Digital Repositories”, 

D‐Lib Magazine June 2005 Volume 11 Number 6, ISSN 1082‐9873

“Digital Preservation in a National Context” , H.M. Gladney,D‐Lib Magazine January/February 2007, Volume 13 Number ½, ISSN 1082‐9873

http://www.dlib.org/dlib/june05/jantz/06jantz.html

“Cost elements of digital preservation” g phttp://www.leeds.ac.uk/cedars/colman/CIW01r.htmlKelly Russell and Ellis WeinbergerDraft of 31 May 2000

Preservation in the Digital World, http://www.clir.org/pubs/reports/conway2/, Paul ConwayHead, Preservation DepartmentYale University Library, March 1996

Archivando la Web catalana: iniciativas cooperativas de preservación digital en Catalunya, Eugènia Serra Aranda, Julio 2006

Page 84: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

84

Proyectos

CASPAR ‐Cultural, Artistic and Scientific knowledge for CASPAR  Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval: http://www.casparpreserves.eu/

Digital Preservation Europe:  http://www.digitalpreservationeurope.eu/  

Planets‐Preservation and Long‐term Access through Networked Services: http://www.planets‐project.eu/

http://pandora.nla.gov.au/index.html

Cedars: http://www.leeds.ac.uk/cedars/index.html

http //www si umich edu/CAMILEON/ http://www.si.umich.edu/CAMILEON/

http://www.dpconline.org/graphics/join/projects.html

RECUPERACIÓN DERECUPERACIÓN DE INFORMACIÓN: TEXTOS

Page 85: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

85

Motivación

Objetivo fundamental de una BiD: ayudar a los usuarios a  i f ióencontrar información

Recuperación de Datos (RD) vs. Recuperación de Información (RI): RD: recuperar ítems que satisfacen una query expresada en un 

lenguaje formal (ej: SGBD)

RI: recuperar información en respuesta a una query expresada de manera imprecisa (necesidad de información)

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Ámbito de la búsqueda

Todo el contenido de los documentos

muy costoso

partes del contenido irrelevantes

Búsquedas en índices de términos

palabras o grupos con relevancia para las búsquedas

pueden construirse manual o automáticamente

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 86: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

86

Marco de trabajo

Docs Vista lógica

doc

RankingMatch (modelo de RI)

preproceso

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Information Need

Query (tarea de RI)

Ranking

Fuente: Baeza & Ribeiro, 1999

Vista lógica de un documento

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Fuente: Baeza & Ribeiro, 1999

Page 87: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

87

Ficheros invertidos

Lista de palabras que aparecen en un conjunto de d    l  l    l    documentos, y los lugares en los que aparecen

Term Record Frequency computer 1 3 computer 3 5

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

computer 3 5computing 2 1 distributed 2 1 parallel 1 2 system 2 1... ... ...

Fuente: Arms, curso de BiD

Lista invertida

Todas las entradas en un fichero invertido relativas a una palabra

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Fuente: Arms, curso de BiD

Page 88: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

88

Lematización (stemming)

Truncar las palabras por su raíz común

l bú d d d d é Mejora la búsqueda de documentos conteniendo términos relacionados

Reduce el tamaño del fichero invertido

Term Record Frequency comput 1 3

Term Record Frequency computer 1 3

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

comput 3 5 comput 2 1 distribut 2 1 parallel 1 2 system 2 1 ... ... ...

computer 3 5 computing 2 1 distributed 2 1 parallel 1 2 system 2 1 ... ... ...

Fuente: Arms, curso de BiD

Modelos de RI

Classic Models

Ad-hoc: colección estable, queries variables

Filtering: queries estables, colección variable

Set Theoretic

FuzzyExtended Boolean

Retrieval: AdhocFiltering

User

T

Classic Models

booleanvectorprobabilistic

Non-Overlapping Lists

Structured Models

colección variable

Algebraic

Generalized VectorLat. Semantic IndexNeural Networks

Probabilistic

I f N t k

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Browsing

ask

Proximal Nodes

Browsing

FlatStructure GuidedHypertext

Inference Network Belief Network

Fuente: Baeza & Ribeiro, 1999

Page 89: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

89

Modelo booleano

Dos o más términos de búsqueda, relacionados por Dos o más términos de búsqueda, relacionados por operadores lógicos (and, or, not, adjacent, ...)

Ejemplo: "abacus and actor" 

Proceso:

• lista invertida para “abacus”: documentos 3 y 19

• lista invertida para “actor”: documentos 2, 19, y 29  

ó d l d l d• intersección de las dos listas: documento 19

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Fuente: Arms, curso de BiD

Diagrama booleano

A and Bnot (A or B)

A B

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010A or B

Page 90: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

90

Modelo Booleano: problemas

Confusión entre and y or

Or restringe pocoAnd restringe mucho

Ej. “Quiero información sobre Bases de Datos y Compiladores”Bases de Datos ¿AND? Compiladores

Ej. “Documentos que versen sobre la corrupción de la Iglesia”Palabras de búsqueda: juicio, inquisición, tribunal, sentencia, hoguera, converso, corrupción, clérigo.

Confusión entre and y or

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

No hay niveles de relevancia

No se ordenan los documentos recuperados según su adecuación a la consulta.

Ej. “documentos antiguos que hablen sobre la castidad, ESPECIALMENTE los que citan a San Pablo”

Tesauro (thesaurus)

Lista precompilada de palabras importantes en un determinado dominiodeterminado dominio

+  

Para cada palabra, lista de palabras relacionadas Por sinonimia

Por patrones de co‐ocurrencia en documentos

...

Inicialmente, usado como ayuda a la expresión de ideas por escrito

En RI, se utiliza para reformular preguntas

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 91: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

91

Tesauro: ejemplos

Roget’s thesaurus (1911): generalista• ship, vessel, sail; craft, navy, marine, fleet, flotilla

• book, writing, work, volume, tome, tract, codex

• search, discovery, detection, find, revelation

Incluye descripciones

Otros tesauros más específicos: Art and Architecture Art and Architecture

Thesaurus of Engineering and Scientific Terms

Medline

Etc.

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Modelo Vectorial

Introduce la posibilidad de coincidencias parciales

Se asigna peso (no binario) a los términos

Los pesos se usan para medir grados de similitud entre una pregunta y cada documento de una colección

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 92: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

92

Modelo vectorial

Se asume la existencia de un espacio vectorial de n dimensiones

n es el número de términos distintos en todos los documentos de la colección

Documentos y consultas se representan mediante vectores en un espacio multidimensional

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Modelo vectorial

El coeficiente en cada dimensión es igual al número de veces que el término correspondiente aparece en el documento o la consulta Puede considerarse el peso del término

Proximidad: coseno del ángulo entre los d l

j

dj

q

vectores documento y consulta

Resultado consulta:documentos cuyos vectores difieren de los de la consulta menos de un umbral determinado

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

i

q

Page 93: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

93

Modelo vectorial: ejemplo

DocumentosDocumentos

Vectores

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Similitud

Fuente: Arms, curso de BiD

Modelo vectorial: ventajas

Asignar pesos a los términos mejora la calidad del conjunto de respuesta

La coincidencia parcial permite la recuperación de documentos próximos a las condiciones de la pregunta

El ranking basado en el coseno permite ordenar los documentos de acuerdo al grado de similitud los documentos de acuerdo al grado de similitud con la consulta

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 94: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

94

Filtrado

Colección de documentos variable con el tiempo Noticias, información financiera, ofertas de viajes, ...

Un perfil (profile) describe las preferencias del usuario

El perfil se compara con los documentos entrantes para recuperar los que se corresponden con élcorresponden con él

Puede aplicarse algún tipo de ranking a nivel interno

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Filtrado

User 2 Docs Filtered

User 1Profile

User 2Profile for User 2

Docs forUser 1

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Documents Stream

Page 95: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

95

Filtrado: Construcción del perfilComo un conjunto de palabras  clave suministradas por el 

usuario mucho trabajo para el usuario: debe conocer las clasificaciones de 

todos los sistemas generadores de documentos

Construcción dinámica e incremental  Inicialmente se suministran unas palabras clave

Se recuperan documentos Se recuperan documentos

Mediante un ciclo de realimentación, el usuario indica cuáles de ellos son relevantes, y cuáles no lo son

El sistema actualiza automáticamente el perfil

El perfil se estabiliza con el tiempo

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Filtrado y RI

El filtrado es una tarea de RI, en la que el conjunto de documentos lo forman los documentos que van llegando al sistema

Se pueden computar rankings

Aproximación muy prometedora en la Sociedad de la InformaciónSociedad de la Información

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 96: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

96

Medidas de la RI

Si la RI fuese perfecta cualquier documento

Número de documentos relevantes recuperadosRecuperación =

Si la RI fuese perfecta, cualquier documento recuperado sería relevante para la consulta, y todo documento relevante en la colección sería recuperado

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Recuperación (recall) Número de documentos relevantes

Número de documentos relevantes recuperadosPrecisión = (precision) Número de documentos recuperados

Ejemplo

Colección de 10.000 documentos, de los cuales sólo 50   l       lson relevantes para una consulta

Búsqueda ideal: encuentra los 50 y desecha el resto

Supongamos que una búsqueda real identifica 25 documentos, 20 de los cuales son relevantes y los 5 restantes no lo son

Recuperación: 20/50=0.4

Precisión:20/25=0.8

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 97: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

97

Referencias

Baeza, R. and Ribeiro, B. Modern Information Retrieval.Addison Wesley, 1999.

Arms, W. Digital Libraries.MIT Press, 2000

Curso de BiD. Cornell University, 2000.

Lesk  M  Practical Digital Libraries  Morgan Kaufmann   Lesk, M. Practical Digital Libraries. Morgan Kaufmann, 1997

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

RECUPERACIÓN DERECUPERACIÓN DE INFORMACIÓN: LA WEB

Page 98: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

98

Objetivo

Ayudar al usuario a acceder a cierta f ó l b dinformación que se encuentra en la Web, de 

forma eficiente y precisa.

"The best navigation service should make it easy to find almost anything on the Web (   ll th  d t  i   t d) “(B t  f th  (once all the data is entered).“(Best of the Web 1994 – Navigators)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Búsquedas en la Web

2010

Formas de encontrar un documento en la red:

Introducir directamente la dirección URL en el navegador (aumenta su uso)

Navegar por la red usando links (decrece su uso)

Utilizar herramientas de 

Búsqueda de información en la web (2003)

52.0%

15.0%

33.0%

usan dirección URLmotores de búsquedanavegan

.H.

Can

ós -

Zar

agoz

a, m

arzo

de

Utilizar herramientas de búsqueda (aumenta)

Bib

liote

cas

Dig

itale

s –©

J

Page 99: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

99

Escenario general de RI

Docs Vista lógica

doc

RankingMatch (modelo de RI)

preproceso

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010Fuente: Baeza & Ribeiro, 1999

Information Need

Query (tarea de RI)

Ranking

La forma de la Web

Connectivity of the web: one can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC. (Broder, a. et al., Graph structure in the web, WWW9)

Page 100: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

100

Escenario general de RI en la Web

Docs Vista lógica

doc

RankingMatch (modelo de RI)

preproceso

Information Need

Query (tarea de RI)

Ranking

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010Fuente: Baeza & Ribeiro, 1999

Problemática (I)

El gran tamaño de la red y su crecimiento:

Cobertura insuficiente del espacio web Espacio indexado < 16% para un buscador general.

Selección de páginas a indexar

Problemas de escalabilidad  Arquitecturas convencionales (centralizada) no se escalan bienq

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 101: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

101

Problemática (II)

Se debe indexar decenas o cientos de millones de 

páginas Web, dando lugar a un número comparable de 

términos de índice

Acceso limitado de los robots de búsqueda  Páginas invisibles por acceso restringido,... Tamaño web invisible aprox 500 veces web visible (Bergman, 

2001) 

Se debe dar respuesta a decenas de millones de 

preguntas al día

Hay un problema de escala frente a las técnicas 

tradicionales de RI

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Problemática (III)

Los datos están distribuidos en muchos ordenadores y l f    di i   i  d  plataformas con distintas prestaciones de acceso

Hay un alto porcentaje de datos volátiles (~40% de la web cambia mensualmente)

Los datos en la web están desestructurados

La calidad de los datos no siempre es buena (e.g.: no hay revisión de lo publicado)revisión de lo publicado)

Los datos son heterogéneos (e.g.: diferentes lenguajes)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 102: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

102

Problemática (IV)

¿Cómo especificar una pregunta?

¿Cómo interpretar los resultados de una búsqueda?

Especialmente si la lista de páginas es muy grande

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Problemática (V)

El entorno no siempre es amigable. Virus

Hackers 

Spam Estrategias para modificar los resultados de las búsquedas con motivos comerciales

Repetir palabras, repetir palabras colocadas de forma estratégica, texto invisible estratégica, texto invisible 

Efecto de la financiación privada sobre el desarrollo

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 103: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

103

Problemática (VI)

Los documentos que no aparecen en las primeras 2010 q p p

páginas son ignorados Problema del orden en la muestra de resultados

Efectos económicos y otros intereses

.H.

Can

ós -

Zar

agoz

a, m

arzo

de

Bib

liote

cas

Dig

itale

s –©

J

Spink, A., Jansen, B. J., Wolfram, D., & Saracevic, T. (2002). From e-sexto e-commerce: Web search changes. IEEE Computer, 35(3), 133-135.

Tipos de buscadores web

Dos tipos principales de buscadores: Directorios

Motores de búsqueda 

Otros tipos de buscadores: Combinación de directorio y motor de búsqueda

Meta‐buscador

Buscadores específicos

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 104: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

104

Directorios

Páginas web donde la información está organizada de forma jerárquica según canales temáticos o categorías.

Los directorios están indexados manualmente

Yahoo  Open directory Yahoo, Open directory

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Directorios

Ventajas Alta calidad en los resultados

Evita problemas como el spam

Inconvenientes Poca cobertura

Alto coste de mantenimiento

Desarrollo y evolución lenta y costosa

Subjetividad en la clasificación

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 105: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

105

Motores de búsqueda

Páginas especiales cuya función es ayudar a los 

usuarios a encontrar información en otras 

páginas

Los motores de búsqueda almacenan toda la 

información de las páginas Web indexadas en 

bases de datosbases de datos

Google, Altavista, MSN Search

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Motores de búsqueda

Ventajas Alta cobertura

Bajo coste de desarrollo y mantenimiento

“Objetividad”

Inconvenientes Inconvenientes Calidad en los resultados Sistemas de búsqueda convencionales no aptos

Spam

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 106: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

106

Motores de búsqueda

Diferencia con los motores convencionales:

Sólo se puede buscar en índices

Buscar en contenido supondría tener una copia local de los documentos

Arquitecturas:

CentralizadaCe t a ada

Distribuida

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Arquitectura centralizada

Crawler‐indexer Architecture

Basada en robots o crawlers:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 107: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

107

Web Robots

Programas que recorren la Web automáticamente:

visitan un documento

recursivamente, recorren los hiperenlaces del documento

O   b Otros nombres:

Web Wanderers

Web Crawlers

Spiders

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Aplicaciones de los robots

Indexación para posterior uso por un motor de búsqueda

Validación de HTML

Validación de enlaces

Mirroring

...

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 108: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

108

Robots: funcionamiento (I)

¿Cómo deciden adónde ir?

En general parten de una lista de URL que contienen muchos enlaces 

servidores de listas, páginas “what’s new”, sitios más populares

exploración de grupos de news

Los usuarios pueden enviar URL al robot, el cual los visitará

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Robots: funcionamiento (II)

¿Qué indexa un robot de un documento?

Los títulos HTML

Las etiquetas META

Los primeros párrafos

Todo el documento

a veces con pesos en función de las marcas HTMLp

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 109: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

109

Ejemplo: Altavista

En 1998:

20 ordenadores multiprocesador

130 Gb de RAM

500 Gb de disco

El motor de búsqueda usa el 75% de los recursos

http://searchenginewatch.com/

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Motores de búsqueda

En 1998:

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

http://www.searchengineshowdown.com

Page 110: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

110

Google

Google aparece para mejorar los anteriores problemas

Calidad: Page Rank

Escalabilidad: Arquitectura que optimiza el uso del espacio disponible y los tiempos de acceso

Otros objetivos: Facilidad de manejo Facilidad de manejo

Promover la investigación en el campo de los motores de búsqueda

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Google Page Rank

Utiliza la estructura de hyperlinks para evaluar la importancia de las páginas

Una página a la que llegan muchos links será más importante que otra con apenas backlinks

No es suficiente con contar los backlinks que tiene cada página

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 111: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

111

Google Page Rank

Modela el comportamiento de un usuario aleatorio que…

Comienza a navegar por una página aleatoria

Navega utilizando links

Nunca vuelve hacia atrás

En ocasiones comienza de nuevo

El Page Rank de una página es la probabilidad de que este usuario llegue a dicha página

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Google: Arquitectura

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 112: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

112

Arquitectura distribuida

Ejemplo: Harvest

http://harvest.transarc.comBibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Metabuscadores

Servidores Web que envían una consulta determinada a varios motores de búsqueda, recogen las respuestas y las unifican

http://www.sc.edu/beaufort/library/lesson2.html

http://www.tusbuscadores.com/metabuscadores/

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 113: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

113

Conclusiones Las herramientas de búsqueda son necesarias debido al tamaño de 

la red

Problemas a los que se enfrentan Tamaño Nº de búsquedas No hay centralización Volatilidad de Información Entorno Efectos económicos Elección de un ranking adecuado

Dos tipos de herramientas Directorios (alta calidad, poca cobertura) Motores de búsqueda (menos calidad, mayor cobertura)

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Referencias

Baeza‐Yates, R. & Ribeiro‐Nieto, B., Modern Information Retrieval, Addison‐Wesley, 1999. Capítulo 13

The Web Robots Page:

http://info.webcrawler.com/mak/projects/robots/robots.html

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 114: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

114

Referencias The Anatomy of a Large‐Scale Hypertextual Web Search Engine. 

Brin, Sergey and Page, Lawrence. Computer Science Department, , g y g , p p ,Stanford University, Stanford, CA 94305, USA. http://www‐db.stanford.edu/pub/papers/google.pdf

Impact Of Search Engines On Page Popularity. Junghoo, Cho and Sourashis, Roy. UCLA Computer Science. ACM 1‐58113‐844‐X/04/0005 

http://info.webcrawler.com/mak/projects/robots/robots.html

How much information 2003. http://www.sims.berkeley.edu/research/projects/how‐much‐info‐

/i t t ht2003/internet.htm

http://searchenginewatch.com

Search marketing

Bibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Referencias

Google: http://www.google.com

Altavista  http //www altavista com Altavista: http://www.altavista.com

Yahoo: http://www.yahoo.com

HotBot: http://www.hotbot.com

Lycos: http://www.lycos.com

Excite: http://www.excite.com

MSM: http://search.msn.com/

Mamma: http://www.mamma.com/

Metacrawler: http://www.metacrawler.com/

Search Engine Guide: www.searchengineguide.com

Galaxy: http://www.galaxy.com/

WWW Virtual Library: http://www.vlib.org/

Educational Virtual Library: http://www.csu.edu.au/education/library.html

Earth Science Portal: http://webserv.gsfc.nasa.gov/ESD/

AllConferencesNet: http://www.allconferences.netBibliotecas Digitales –© J.H. Canós - Zaragoza, marzo de 2010

Page 115: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

115

RECUPERACIÓN DERECUPERACIÓN DE INFORMACIÓN: INTEROPERABILIDAD

BiD: sistemas distribuidos

Repositorios

Usuarios

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Sistemas de localización Sistemas de búsqueda

Sin embargo...

Page 116: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

116

BiD: sistemas distribuidos heterogéneos

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

El problema

¿Cómo descubrir información repartida en diferentes ordenadores...

Cada uno con sus propias reglas de gestión de la información

Cada uno usando tecnologías posiblemente diferentes

... sin que la carga del descubrimiento recaiga en l  i ?el usuario?

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 117: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

117

Soluciones 

Estandarización

Almacenamiento y transmisión de datos

Representación de consultas

Control de vocabularios

Federación

Autonomía de los nodos Autonomía de los nodos

Vista única para recuperación

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Open Archives Initiative

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

http://www.openarchives.org

Page 118: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

118

Conceptos básicos de OAI

• interoperabilidad a bajo nivel OAI 1 0 protocolinteroperabilidad a bajo nivel• modelo data-provider/service-provider• cosecha de metadatos(metadata harvesting)

• metadatos compartidos y formatos específicos de

OAI 1.0 protocol

HTTP basedReply • XML Schema

• Self contained

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

• metadatos compartidos y formatos específicos de cada comunidad• uso aceptable• flexibilidad

Dublin Core

Community specific

metadata e-print

OPAC

FTXT

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

image

A&I

Page 119: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

119

OAI harvesting tools

h

service provider data provider

Supporting protocol requests:• Identify• ListMetadataFormats• ListSets

Harvesting protocol requests:

repos i t

harves t

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

• ListRecords• ListIdentifiers• GetRecord

tory

ter

Peticiones sobre HTTP

BASE URL > n /OAI s iptBASE-URL -----------> an.oa.org/OAI-scriptkeyword arguments --> verb=ListIdentifers&set=S1

GEThttp://an.oa.org/OAI-script?verb=ListIdentifers&set=S1

POSTPOST http://an oa org/OAI script HTTP/1 0

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

POST http://an.oa.org/OAI-script HTTP/1.0Content-Length: 78Content-Type: application/x-www-form-urlencodedverb=ListIdentifers&set=S1

Page 120: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

120

Respuestas sobre HTTP

<xml version=1.0 encoding=“UTF-9” ?><GetRecord

xmlns=“http://oai.namespace.uri”xmlns:xsi=“http://w3.namespace.uri”xsi:schemaLocation=“http://oai.namespace.uri

http://oai.schemaURL”><responseDate>2000-19-01T19:30:30-04:00</responseDate><requestURL>http://an.oa.org/OAI-script?verb=GetRecord

&amp;identifier=oai%3AarXiv%3A0001&amp;metadataPrefix=oai dc</requestURL>

responseheader

xml namespaces

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

&amp;metadataPrefix=oai_dc</requestURL><record>

record contents</record

additional records</GetRecord>

responsedata

What’s Next?

OAI‐ORE (Object Reuse and Exchange)

http://www.openarchives.org/ore/

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010

Page 121: BIBLIOTECAS DIGITALES - eolo.cps.unizar.eseolo.cps.unizar.es/docencia/doctorado/2010 Hilario-ParteI-shortest.pdf · 1 BIBLIOTECAS DIGITALES José Hilario Canós Cerdá Departamento

121

Referencias

Arms, W. Digital Libraries MIT Press  2000 Digital Libraries.MIT Press, 2000 Curso de BiD. Cornell University, 2000.

Paepcke, A., et al., Interoperability for Digital LibrariesWorldwide. Communications of theACM, April 1998/Vol. 41, No. 4

Z39.50: http://www.loc.gov/z3950/agency/

DIENST:www.cs.cornell.edu/cdlrg/dienst/DienstOverview.htm

Open Archives: http://www.openarchives.org

Bibliotecas Digitales – © J.H. Canós - Zaragoza, marzo de 2010