pfc itis 2012 alumno: dersu garcía sanz director: german rigau claramunt 1
TRANSCRIPT
PFC ITIS 2012Alumno: Dersu García Sanz
Director: German Rigau Claramunt
1
Introducción New Explorer Objetivos del proyecto Arquitectura del sistema Elección del tecnológica Desarrollo (CR-A-D-I-P) Gestión Conclusión Demostración
2
Este proyecto se enmarca en la Minería Web y el seguimiento de noticias.
Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea.
3
Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer.
Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC.
4
Sistema informático de clasificación de noticias multilingües.
Su motor central recopila una media de 50.000 artículos al día de 1.500 páginas web en 42 idiomas.
Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo.
5
6
Extraer periódicamente información de las noticias recogidas en el portal News Explorer.
Almacenarla en disco para su posterior análisis.
Guardar un registro con la fecha de ejecución del programa y los datos almacenados.
7
8
9
Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster.
Acceder a dichas páginas y extraer información de las noticias.
Necesitamos especificar al programa:◦ Lenguajes de las noticias que queremos recoger.◦ Umbral de semejanza para recopilar clústers
relacionados.
10
De cada clúster de noticias queremos extraer:◦ Enlace◦ Idioma◦ Título◦ Descripción◦ Fecha◦ Historia◦ Noticias◦ Países◦ Lugares◦ Personas◦ Entidades◦ Keywords◦ Clústers relacionados
11
12
Dividir el trabajo en subprogramas Realizar los contratos de las operaciones
13
Base de Datos◦ Claves primarias SHA1(enlace)◦ Relaciones entre tablas◦ Frecuencias (Personas, Países, Otros nombres)
Elección tecnológica◦ Expresiones regulares
Pseudocódigo de las operaciones
14
15
Ejemplos:
◦ Fecha del clúster m{<p class="center_group_main">(.+?)</p>}
◦ Otros nombres m{Other Names</p>(.*?)</div>}s m{<a href="(.*)" class="headline_link">(.*?)</a> \((\d+)\)</p>}g
◦ Noticias m{a target="EMMARTICLE" href="(.+)" class=".+">(.+)</a>}g m{<p class="center_headline_source">.+? (.+?)</p>}g
16
Módulos Perl◦ LWP::Simple◦ DBI◦ URI◦ HTML::Entities◦ Digest::SHA1
Extracción de información◦ Expresiones Regulares
Estructuras de datos◦ Listas
17
emm_launcher.pl◦ Ejecuta diferentes configuraciones de emm.pl
emm.pl◦ Programa principal
NewsMonitor.pm◦ Definición de funciones y variables globales
18
Parámetros de entrada del programa◦ Idioma Principal◦ Idiomas Secundarios◦ Umbral de Semejanza
Unitarias◦ Probar funcionamiento de subprogramas antes de
añadirlos al programa principal. (Caja Negra) De Integración
◦ Probar programa principal al añadirle un subprograma.
19
De Sistema◦ Comparación de los datos almacenados en la
base de datos con los que se encuentran en las páginas extraídas.
De Explotación◦ Problema al cambiar de servidor.◦ Personas con claves primarias iguales.
De Rendimiento◦ Expresiones regulares frente a parsers HTML.◦ Tamaño de columnas en la base de datos.
20
Procesos Planificado Real
Tácticos 50 60
Operativos 80 85
Formativos 115 145
Total 245 290
Desviación 18%
21
Incidencias principales◦ Falta de documentación.◦ Se estimó poco tiempo para desarrollar la
memoria.◦ Re-planificación de entregas.◦ Pensábamos terminar el proyecto en junio.
Otras asignaturas Cursos online Trabajo Inglés
22
Objetivos Cumplidos◦ Extraer datos de News Explorer◦ Almacenarlos en disco◦ Guardar registro log
El programa está en explotación
Mejoras futuras◦ Extraer información adicional◦ Obtener clústers relacionados en el mismo idioma◦ Guardar los datos en XML◦ Recuperar todo el cuerpo de las noticias (PF Máster)◦ Normalizar las fechas
23
Balance positivo del resultado◦ Objetivos cumplidos.◦ El programa lleva en funcionamiento desde
febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran: OpeNER NewsReader SKATer Semantic Textual Similarity 2013
24
Proyectos Europeos
Proyecto Nacional (MEC)
Estado actual de la base de datos en el servidor.
Prueba de ejecución en local. emm_launcher.pl
◦ emm.pl en es fr it de nl 0.5◦ emm.pl nl en es fr it de 0.5◦ emm.pl de nl en es fr it 0.5◦ emm.pl it de nl en es fr 0.5◦ emm.pl fr it de nl en es 0.5◦ emm.pl es fr it de nl en 0.5
25