modelo de enriquecimiento semántico de recursos de información

29
Modelo de enriquecimiento semántico de recursos de información Francisco Cifuentes Silva fcifuentes <at> bcn.cl 14 de marzo de 2017

Upload: francisco-cifuentes-silva

Post on 22-Mar-2017

27 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Modelo de enriquecimiento semántico de recursos de información

Modelo de enriquecimiento semántico de recursos de informaciónFrancisco Cifuentes Silva

fcifuentes <at> bcn.cl

14 de marzo de 2017

Page 2: Modelo de enriquecimiento semántico de recursos de información

Motivación

En el contexto de la meta 16.10 de la Agenda 2030 de las Naciones Unidas:

“Asegurar el acceso público a la información y proteger las libertades fundamentales, de conformidad con las legislaciones nacionales y los

acuerdos internacionales”

La extracción de conocimientos desde documentos no estructurados permite ampliar el acceso público a la información.

fcifuentes <at> bcn.cl 2017-03-14 2/29

Page 3: Modelo de enriquecimiento semántico de recursos de información

Qué es Enriquecimiento Semántico de Recursos de Información - ESRI

Ampliar el ámbito de utilización de un RI (recurso de información) desde leíble por humanos hasta legible por máquinas con la idea de identificar en detalle todo aquello que sea de interés para su posterior extracción y consulta

Ejemplos

Para humano

Para máquina

fcifuentes <at> bcn.cl 2017-03-14 3/29

Page 4: Modelo de enriquecimiento semántico de recursos de información

Por qué un modelo de ESRI

Para proveer un marco de referencia

Permite identificar a priori

fcifuentes <at> bcn.cl 2017-03-14 4/29

Page 5: Modelo de enriquecimiento semántico de recursos de información

Un modelo de referencia habilita diversos mecanismos de provisión tecnológica:

Por qué un modelo de ESRI

fcifuentes <at> bcn.cl 2017-03-14 5/29

Page 6: Modelo de enriquecimiento semántico de recursos de información

Permite recoger las mejores prácticas de diversos modelos existentes, como por ejemplo:

Por qué un modelo de ESRI

Schema.org OAI

AkomaNtoso

Modelo ESRI

Estándar documentos legales

Vocabulario metadatos Web

Estándar para gestión de repositorios

fcifuentes <at> bcn.cl 2017-03-14 6/29

Page 7: Modelo de enriquecimiento semántico de recursos de información

Ventajas del enriquecimiento semántico

Marcaje estructural

Nivel deenriquecimientodel recurso de

información

Texto plano

Marcaje semántico inteligente

Metadatos básicos

Manual Semi-automático Automático

Naturaleza del proceso

Contenido no estructurado

Leíble por humano

Contenido estructurado

Leíble por humano y reusable por máquina a nivel de presentación

Contenido semántico

Leíble por humano, reusable e interpretable

por máquina

Fuente: Clarke et al [1]

Contenido de uso específico

Contenido reutilizable

Contenido multi-propósito

fcifuentes <at> bcn.cl 2017-03-14 7/29

Page 8: Modelo de enriquecimiento semántico de recursos de información

¿Qué se puede identificar en un recurso de información?

URIs para entidadesEstructura del documento

Palabras clave

Sentimiento del contenido

Documentos relacionados

Lugares geográficosen el contenido

Entidades presentes

Recurso de información

fcifuentes <at> bcn.cl 2017-03-14 8/29

Page 9: Modelo de enriquecimiento semántico de recursos de información

Por qué es necesario el uso de TI

Observación empírica en procesamiento de marcaje de documentos usando XML en BCN

fcifuentes <at> bcn.cl 2017-03-14 9/29

Page 10: Modelo de enriquecimiento semántico de recursos de información

Conversores

Arquitectura TI de referencia para ESRI

SSL

XML

Modelos de datos / vocabularios

OCR

Speech to text

Análisis semántico

Analizador Sentimiento

Asignación de URI

Reconocedor de entidades

Georeferencia-ción semántica

Marcador estructural

Extractor palabras clave

Relacionador elementos

Editor de recursos

Linked Open Data

Big Data

fcifuentes <at> bcn.cl 2017-03-14 10/29

Page 11: Modelo de enriquecimiento semántico de recursos de información

¿Qué se puede identificar en un recurso de información?

fcifuentes <at> bcn.cl 2017-03-14 11/29

Page 12: Modelo de enriquecimiento semántico de recursos de información

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

fcifuentes <at> bcn.cl 2017-03-14 12/29

Page 13: Modelo de enriquecimiento semántico de recursos de información

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Metadatos del documento

fcifuentes <at> bcn.cl 2017-03-14 13/29

Page 14: Modelo de enriquecimiento semántico de recursos de información

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Ficha FRBR

fcifuentes <at> bcn.cl 2017-03-14 14/29

Page 15: Modelo de enriquecimiento semántico de recursos de información

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Informacióngenerada

fcifuentes <at> bcn.cl 2017-03-14 15/29

Page 16: Modelo de enriquecimiento semántico de recursos de información

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Estructura básica de contenido

fcifuentes <at> bcn.cl 2017-03-14 16/29

Page 17: Modelo de enriquecimiento semántico de recursos de información

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0

Contenido marcado

fcifuentes <at> bcn.cl 2017-03-14 17/29

Page 18: Modelo de enriquecimiento semántico de recursos de información

Esquema XML de referencia para marcaje enriquecido

Borrador 1.0 Metadatos de laSección

fcifuentes <at> bcn.cl 2017-03-14 18/29

Page 19: Modelo de enriquecimiento semántico de recursos de información

Consideraciones a la hora de implementar

Se requiere la implementación previa de una base de datos mínima de entidades (ejemplo, una bd de autoridades).

Las herramientas automáticas generalmente no son 100% precisas, facilitan la labor humana pero no la reemplazan totalmente.

Visión a mediano-largo plazo en la organización: se requiere espacio y tiempo para ver resultados

fcifuentes <at> bcn.cl 2017-03-14 19/29

Page 20: Modelo de enriquecimiento semántico de recursos de información

Extraer la información

Extraer esta información permitirá obtener datos granulares

Un modelo basado contenido semántico permitirá obtener Linked Open Data

Un recurso de información enriquecido es solo un medio

fcifuentes <at> bcn.cl 2017-03-14 20/29

Page 21: Modelo de enriquecimiento semántico de recursos de información

Ejemplos de productos utilizando ESRI

Informes basados en estadística descriptiva: de qué político hablan más los medios, qué lugar se menciona más, hablan cosas positivas o negativas, etc.

Visualizaciones de datos: despliegue de información sobre el mapa, en líneas de tiempo, grafos de relaciones u otros.

Desarrollo de productos o servicios a la medida

fcifuentes <at> bcn.cl 2017-03-14 21/29

Page 22: Modelo de enriquecimiento semántico de recursos de información

Ejemplos de productos utilizando ESRI

Documento enriquecidoMarcaje estructural, de entidades y URIs para cada diario de sesión

fcifuentes <at> bcn.cl 2017-03-14 22/29

Page 23: Modelo de enriquecimiento semántico de recursos de información

Ejemplos de productos utilizando ESRI

http://datos.bcn.cl/global-legislative-hackathon-2016/Hackaton/www/html/master.html

Menciones a una región en sesiones del Congreso Nacional

Utiliza diarios de sesiones del sistema Labor Parlamentaria

fcifuentes <at> bcn.cl 2017-03-14 23/29

Page 24: Modelo de enriquecimiento semántico de recursos de información

Ejemplos de productos utilizando ESRI

Sistema Historia de la LeyBase de datos a partir de intervenciones de parlamentarios en diarios de sesiones

http://www.bcn.cl/historiadelaleyfcifuentes <at> bcn.cl 2017-03-14 24/29

Page 25: Modelo de enriquecimiento semántico de recursos de información

Ejemplos de productos utilizando ESRI

Es posible obtener un dossier con intervenciones de solo un parlamentario asociado a la tramitación de la ley

fcifuentes <at> bcn.cl 2017-03-14 25/29

Page 26: Modelo de enriquecimiento semántico de recursos de información

Ejemplos de productos utilizando ESRI

fcifuentes <at> bcn.cl 2017-03-14 26/29

Dirección de Bibliotecas y Centro Documental del Poder Judicial

Plataforma de minería de texto y extracción de información desde sentencias dictadas por la Excma. Corte Suprema

Page 27: Modelo de enriquecimiento semántico de recursos de información

Ejemplos de productos utilizando ESRI

http://tcqdev.edina.ac.uk/search/commodity/

Análisis de consecuencias históricas del comercio

Se utilizaron documentos de comercio del siglo 19 para realizar análisis y explicar el por qué actual de la economía

Fuente: Hinrichs et al [2]

fcifuentes <at> bcn.cl 2017-03-14 27/29

Page 28: Modelo de enriquecimiento semántico de recursos de información

Referencias

[1] How Smart Is Your Content? Using Semantic Enrichment to Improve Your User Experience and Your Bottom Line - Michael Clarke and Pam Harley - Science Editor 2014, Vol 37, No 2, pag 41

[2] Trading Consequences: A Case Study of Combining Text Mining and Visualization to Facilitate Document Exploration - Uta Hinrichs Beatrice Alex Jim Clifford Andrew Watson Aaron Quigley Ewan Klein Colin M. Coates - Digital Scholarship Humanities. 2015;30(suppl_1):i50-i75. doi:10.1093/llc/fqv046

fcifuentes <at> bcn.cl 2017-03-14 28/29

Page 29: Modelo de enriquecimiento semántico de recursos de información

Fin

fcifuentes <at> bcn.cl 2017-03-14 29/29