Download - De AGRIS a OpenAGRIS
De AGRIS a OpenAGRIS
[email protected]@fao.org
http://agris.fao.orghttp://aims.fao.org
Taller Seminario de Capacitación RIDAC, Bogotá (Colombia)
21 noviembre 2013
¿Qué es AGRIS?El camino a los datos vinculadosEl flujo de datos y la interoperabilidadEl consumo de datos AGRIS
Centralización Interconexión
ProcedenciaAlgunos númerosIndexación de AGRIS en Google
Sumario
AGRISRecursos en Ciencias Agrícolas y Tecnología de la
Información
• Sistema cooperativo internacional• Da acceso libre a recursos bibliográficos y
datos abiertos • Abarca casi cuarenta años de investigación
agrícola• Sus metadatos se estructuran e indexan
usando el tesauro AGROVOC• Mantenido por la FAO
Qué es AGRIS
Flujo de datos
Interoperabilidad
• Aplicación web enteramente basada en estándares de la Web Semántica
• Utiliza la colección AGRIS para crear páginas de mashup y interconectar los registros a fuentes externas de información
• OpenAgris utiliza AGROVOC como columna vertebral para la interconexión con otros conjuntos de datos existentes (DBPedia, worldbank, Ontología geopolítica ...)
OpenAGRIS
Flujo de datos
El consumo de datos en AGRIS
• Centralización: referencias bibliográficas en el dominio AGRIS (la agricultura, la silvicultura, la ganadería, ciencias acuáticas y la pesca, y la alimentación humana)
• Interconexión: otro tipo de información relacionada con el dominio AGRIS (estadísticas, mapas, perfiles de países, etc)
Centralización: Centro de proceso de datos
• Los nuevos metadatos se verifican manualmente y aleatoriamente en busca de inconsistencias o errores semánticos recurrentes
• El formato de entrada se asigna a AGRIS RDF• Los metadatos se convierten en AGRIS RDF,
usando AgroTagger cuando las palabras clave de AGROVOC no están disponibles
• Antes de añadir metadatos al triplestore e indexar en el índice Solr, se detectan y gestionan los duplicados, ya que el mismo registro puede ser indexado en varias colecciones o ser duplicado en el mismo repositorio
Agrotagger
12
Todavía no se ha implementado
Maui es el nombre del héroe mitológico y semidiós polinesio, que se transform en diferentes tipos de
ave para realizar hazañas
“RDF-ization”
bibo:Articlebibo:abstractbibo:doibibo:isbnbibo:languagebibo:presentedAt -> bibo:Conference -> dct:titlebibo:uridct:alternativedct:creator -> foaf:organization -> foaf:namedct:creator -> foaf:Person -> foaf:name
dct:dateSubmitteddct:descriptiondct:extentdct:identifierdct:isPartOfdct:issueddct:publisher -> foaf:Organization -> foaf:namedct:sourcedct:subjectdct:titledct:typedct:rights
Elección de vocabularios y equivalencias!
Procedencia
• Cada registro tiene un identificador AGRIS (ARN), que tiene una estructura predefinida y contiene información sobre la fuente de datos junto con el año de registro bibliográfico de creación
• "IT 2008 0 00091" se refiere a un registro creado en 2008 a partir de un proveedor específico de datos AGRIS en Italia, cuyo número progresivo es 91
• Datos de proveedores de información se almacenan en CIARD RING y son “triplificados” en el centros de datos AGRIS (cada proveedor de datos tiene su propio URI único)
Enlaces: ¿cómo funcionan?
• AGROVOC es la columna vertebral• AGROVOC está enlazado con otros
tesauros mediante un procedimiento semi-automático (skos: exactMatch, skos: closeMatch)
• SPARQL endpoints publicados en la Web• Webservices y APIs
16
El Caso IFPRI
Un usuario consulta el
sistema
Registro AGRIS con palabras clave Agrovoc
Por lo menos una palabra clave Agrovoc es un
nombre de país
El sistema de consultas SPARQL endpoint IFPRI (http://data.ifpri.org/sparql/) recupera el Índice Global del Hambre (GHI) y la tasa de mortalidad infantil relacionada con el País
17
AGRIS RDF RECORD
AGROVOC
Enlazando: Implementación
Algunos números
• 7.632.842 registros bibliográficos generados por 248 proveedores de contenido ubicados en 153 países, en 52 idiomas en más de 20.000 revistas científicas.
• 134.544.101 triples en el conjunto de datos AGRIS http://202.45.142.113:10035/repositories/agris
• 358.617 triples en la series de datos AGRIS http://202.45.142.113:10035/repositories/jad
• 13.996 triples en los centros de datos AGRIS http://202.45.142.113:10035/repositories/centers
Indexación de AGRIS en GoogleMaximizando el acceso
Google Scholar
• Desde cuando, en 2008, el equipo de AGRIS presentó las primeras XML sitemaps de Google, la base de datos (o sistema) aumentó la efectividad de rastreo e indexación de toda la colección AGRIS (3 millones de visitantes al año).
• Esto creó el efecto positivo secundario de aumento de la visibilidad y por lo tanto la accesibilidad de los datos proporcionados por las colecciones de los proveedores de datos que participan en la Red AGRIS.
Búsqueda customizada de Google (1)
• Uno de los aspectos más interesantes - de gran utilidad para los científicos que realmente quieren tener acceso al documento - que AGRIS ha implementado en los últimos años, es la recuperación del texto completo de un recurso (referencia bibliográfica) cuya información de URL no está presente en los propio metadatos.
• Esto se logra a través de un gadget muy útil, buscar en la web para el título específico, que toma la información de las referencias bibliográficas. También para autores y conferencias.
Búsqueda customizada de Google (2)
• Esto se logra a través de la API de Google• La idea es buscar documentos de texto completo
disponibles en Internet, si la información acerca del documento no se encuentra en los metadatos
• Google permite una cantidad predeterminada de consultas
• La cuota de consulta actual permitida es de 14.000 por día. Esto significa que, 14.000 veces cada día, AGRIS es capaz de buscar y recuperar (se calcula aproximadamente un 60% de las veces) un documento específico, si está disponible en Internet
AGRIS “Recolector Abierto” (1)
• El objetivo era establecer un mecanismo para la recolección automática y programada de metadatos y depositarlos en AGRIS para su posterior indexación
• El Recolector Abierto es una aplicación Java basada en Harvester2 software de código abierto de Jeff Young (OSS) y adaptado para el flujo AGRIS existente
AGRIS “Recolector Abierto” (2)
• Fácil de instalar (Tomcat, Java, MySQL)• Sus funcionalidades incluyen un planificador, una
única página para los proveedor de datos que puede ser editada y una página de estadísticas que enumera todos los proveedores de datos AGRIS que usa OAI-PMH
• Permite a cosechar cualquier formato de metadatos, tal como define el repositorio abierto originario
• Su utilidad está relacionada con el éxito de OAI-PMH