modelo de enriquecimiento semántico de recursos de información
TRANSCRIPT
Modelo de enriquecimiento semántico de recursos de informaciónFrancisco Cifuentes Silva
fcifuentes <at> bcn.cl
14 de marzo de 2017
Motivación
En el contexto de la meta 16.10 de la Agenda 2030 de las Naciones Unidas:
“Asegurar el acceso público a la información y proteger las libertades fundamentales, de conformidad con las legislaciones nacionales y los
acuerdos internacionales”
La extracción de conocimientos desde documentos no estructurados permite ampliar el acceso público a la información.
fcifuentes <at> bcn.cl 2017-03-14 2/29
Qué es Enriquecimiento Semántico de Recursos de Información - ESRI
Ampliar el ámbito de utilización de un RI (recurso de información) desde leíble por humanos hasta legible por máquinas con la idea de identificar en detalle todo aquello que sea de interés para su posterior extracción y consulta
Ejemplos
Para humano
Para máquina
fcifuentes <at> bcn.cl 2017-03-14 3/29
Por qué un modelo de ESRI
Para proveer un marco de referencia
Permite identificar a priori
fcifuentes <at> bcn.cl 2017-03-14 4/29
Un modelo de referencia habilita diversos mecanismos de provisión tecnológica:
Por qué un modelo de ESRI
fcifuentes <at> bcn.cl 2017-03-14 5/29
Permite recoger las mejores prácticas de diversos modelos existentes, como por ejemplo:
Por qué un modelo de ESRI
Schema.org OAI
AkomaNtoso
Modelo ESRI
Estándar documentos legales
Vocabulario metadatos Web
Estándar para gestión de repositorios
fcifuentes <at> bcn.cl 2017-03-14 6/29
Ventajas del enriquecimiento semántico
Marcaje estructural
Nivel deenriquecimientodel recurso de
información
Texto plano
Marcaje semántico inteligente
Metadatos básicos
Manual Semi-automático Automático
Naturaleza del proceso
Contenido no estructurado
Leíble por humano
Contenido estructurado
Leíble por humano y reusable por máquina a nivel de presentación
Contenido semántico
Leíble por humano, reusable e interpretable
por máquina
Fuente: Clarke et al [1]
Contenido de uso específico
Contenido reutilizable
Contenido multi-propósito
fcifuentes <at> bcn.cl 2017-03-14 7/29
¿Qué se puede identificar en un recurso de información?
URIs para entidadesEstructura del documento
Palabras clave
Sentimiento del contenido
Documentos relacionados
Lugares geográficosen el contenido
Entidades presentes
Recurso de información
fcifuentes <at> bcn.cl 2017-03-14 8/29
Por qué es necesario el uso de TI
Observación empírica en procesamiento de marcaje de documentos usando XML en BCN
fcifuentes <at> bcn.cl 2017-03-14 9/29
Conversores
Arquitectura TI de referencia para ESRI
SSL
XML
Modelos de datos / vocabularios
OCR
Speech to text
Análisis semántico
Analizador Sentimiento
Asignación de URI
Reconocedor de entidades
Georeferencia-ción semántica
Marcador estructural
Extractor palabras clave
Relacionador elementos
Editor de recursos
Linked Open Data
Big Data
fcifuentes <at> bcn.cl 2017-03-14 10/29
¿Qué se puede identificar en un recurso de información?
fcifuentes <at> bcn.cl 2017-03-14 11/29
Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
fcifuentes <at> bcn.cl 2017-03-14 12/29
Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Metadatos del documento
fcifuentes <at> bcn.cl 2017-03-14 13/29
Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Ficha FRBR
fcifuentes <at> bcn.cl 2017-03-14 14/29
Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Informacióngenerada
fcifuentes <at> bcn.cl 2017-03-14 15/29
Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Estructura básica de contenido
fcifuentes <at> bcn.cl 2017-03-14 16/29
Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Contenido marcado
fcifuentes <at> bcn.cl 2017-03-14 17/29
Esquema XML de referencia para marcaje enriquecido
Borrador 1.0 Metadatos de laSección
fcifuentes <at> bcn.cl 2017-03-14 18/29
Consideraciones a la hora de implementar
Se requiere la implementación previa de una base de datos mínima de entidades (ejemplo, una bd de autoridades).
Las herramientas automáticas generalmente no son 100% precisas, facilitan la labor humana pero no la reemplazan totalmente.
Visión a mediano-largo plazo en la organización: se requiere espacio y tiempo para ver resultados
fcifuentes <at> bcn.cl 2017-03-14 19/29
Extraer la información
Extraer esta información permitirá obtener datos granulares
Un modelo basado contenido semántico permitirá obtener Linked Open Data
Un recurso de información enriquecido es solo un medio
fcifuentes <at> bcn.cl 2017-03-14 20/29
Ejemplos de productos utilizando ESRI
Informes basados en estadística descriptiva: de qué político hablan más los medios, qué lugar se menciona más, hablan cosas positivas o negativas, etc.
Visualizaciones de datos: despliegue de información sobre el mapa, en líneas de tiempo, grafos de relaciones u otros.
Desarrollo de productos o servicios a la medida
fcifuentes <at> bcn.cl 2017-03-14 21/29
Ejemplos de productos utilizando ESRI
Documento enriquecidoMarcaje estructural, de entidades y URIs para cada diario de sesión
fcifuentes <at> bcn.cl 2017-03-14 22/29
Ejemplos de productos utilizando ESRI
http://datos.bcn.cl/global-legislative-hackathon-2016/Hackaton/www/html/master.html
Menciones a una región en sesiones del Congreso Nacional
Utiliza diarios de sesiones del sistema Labor Parlamentaria
fcifuentes <at> bcn.cl 2017-03-14 23/29
Ejemplos de productos utilizando ESRI
Sistema Historia de la LeyBase de datos a partir de intervenciones de parlamentarios en diarios de sesiones
http://www.bcn.cl/historiadelaleyfcifuentes <at> bcn.cl 2017-03-14 24/29
Ejemplos de productos utilizando ESRI
Es posible obtener un dossier con intervenciones de solo un parlamentario asociado a la tramitación de la ley
fcifuentes <at> bcn.cl 2017-03-14 25/29
Ejemplos de productos utilizando ESRI
fcifuentes <at> bcn.cl 2017-03-14 26/29
Dirección de Bibliotecas y Centro Documental del Poder Judicial
Plataforma de minería de texto y extracción de información desde sentencias dictadas por la Excma. Corte Suprema
Ejemplos de productos utilizando ESRI
http://tcqdev.edina.ac.uk/search/commodity/
Análisis de consecuencias históricas del comercio
Se utilizaron documentos de comercio del siglo 19 para realizar análisis y explicar el por qué actual de la economía
Fuente: Hinrichs et al [2]
fcifuentes <at> bcn.cl 2017-03-14 27/29
Referencias
[1] How Smart Is Your Content? Using Semantic Enrichment to Improve Your User Experience and Your Bottom Line - Michael Clarke and Pam Harley - Science Editor 2014, Vol 37, No 2, pag 41
[2] Trading Consequences: A Case Study of Combining Text Mining and Visualization to Facilitate Document Exploration - Uta Hinrichs Beatrice Alex Jim Clifford Andrew Watson Aaron Quigley Ewan Klein Colin M. Coates - Digital Scholarship Humanities. 2015;30(suppl_1):i50-i75. doi:10.1093/llc/fqv046
fcifuentes <at> bcn.cl 2017-03-14 28/29
Fin
fcifuentes <at> bcn.cl 2017-03-14 29/29