martin barreto ricardo bedat docentes: juan josé prada– aiala rosá

34
Proyecto de Grado – ISRT Identificador de Segmentos Relacionados Temáticamente Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Upload: gonzalo-castilla-tebar

Post on 23-Jan-2016

216 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Proyecto de Grado – ISRTIdentificador de Segmentos Relacionados Temáticamente

Martin BarretoRicardo Bedat

Docentes: Juan José Prada– Aiala Rosá

Page 2: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Agenda

1. Problema2. Dificultades3. Solución4. Arquitectura5. Componentes6. Criterios de selección7. Resultados y Evaluación8. Conclusión9. Demostración

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 3: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

El Problema

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 4: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Aumento en el precioEl Problema

DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.

Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.

Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. 

En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.

Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.

Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.

Page 5: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Aumento en el precioEl Problema – Ctrl + F

DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.

Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.

Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. 

En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.

Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.

Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.

Page 6: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Aumento en el precioEl Problema – ISRT

DOCUMENTO:El notable aumento en el precio de los alimentos en los últimos dos años ha suscitado serias preocupaciones en torno a la alimentación y nutrición.

Los países pobres y en desarrollo, son arrastrados por las fluctuaciones de la economía mundial.

Si bien los precios reales siguen siendo inferiores a los niveles pico alcanzados a mediados de la década de los 70, sí han llegado a su punto más alto desde entonces. 

En la actualidad son las industrias y no los gobiernos los que tienen un real impacto en el flujo de capitales.

Pero son los gobiernos quienes deben controlar a las industrias y regular la economía.

Ante esta situación, les quedan muchas tareas pendientes a los gobiernos de países en desarrollo y de países desarrollados para controlar este creciente incremento de los costos y ayudar a las poblaciones pobres a cubrir sus gastos básicos.

Page 7: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Desambiguación del significado

Frase

“Perros violentos”

Texto

“María tiene una salchicha y un doberman. Este último queda enfurecido cada vez que ve un

gato”

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 8: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Identificación de relaciones semánticas

Frase

“Perros violentos.”

Texto

“María tiene una salchicha y un doberman. Este último perro queda enfurecido cada vez que ve un

gato”

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 9: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Análisis de correferencias

Frase

“Perros violentos.”

Texto

“María tiene una salchicha y un doberman. Este último queda enfurecido cada vez que ve un

gato”

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 10: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Otras◦ Identificación de entidades con nombre◦ Análisis de categoría gramatical◦ Reconocimiento de locuciones y palabras

compuestas◦ Metáforas y metonimias◦ Otras…

Algunas dificultades encontradas

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 11: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Del proyecto◦ Escaso material relacionado.◦ Pocas herramientas de software libre vinculadas

al área y para el español.◦ No se encontró ningún sistema que solucione el

problema planteado.◦ Falta de experiencia y conocimiento en el área.

Algunas dificultades encontradas

Page 12: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Solución¿A qué nos enfrentamos?

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Decisiones tomadas◦ Documentos genéricos en texto plano◦ Dominio genérico◦ Integrar a Lavinia

Problemas resueltos◦ Reconocimiento de palabras y oraciones◦ Identificación de entidades con nombre◦ Análisis morfológico◦ Reconocimiento de relaciones semánticas◦ Expansión de la frase de consulta◦ Desambiguación semántica◦ Stop-list {“el”, “o”, “sus”, “de”, “al”, etc.}◦ Identificación de segmentos relacionados temáticamente

Page 13: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

ArquitecturaEn el fondo se busca encontrar un

algoritmo.

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 14: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

ArquitecturaDivide y

vencerás

Dividimos el sistema en sub componentes encargados de resolver una función especifica.

Page 15: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

ArquitecturaIntegrar a Lavinia

Page 16: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

ArquitecturaIntegrar a Lavinia

Contenedor UIMA para permitir la integración con LAVINIA

Page 17: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

ArquitecturaIntegrar a Lavinia

Cada componente individual puede ser integrado a LAVINA

Page 18: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Arquitectura

Page 19: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Interacción de componentes

Problema Dificultades Solución Arquitectura Componentes Criterios de selección

Resultados y Evaluación Conclusión Demostración

Page 20: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Interacción de componentes Tokenizador y Analizador Morfológico

Page 21: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Interacción de componentes Analizador de relaciones

Page 22: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Interacción de componentes Identificador de segmentos relacionados

• Ponderación de las oraciones• Algoritmos de selección de resultados

Page 23: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

Problema Dificultades Solución Arquitectura ComponentesCriterios de selección

Resultados y Evaluación Conclusión Demostración

Page 24: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

0 1 2 3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

3

3.5

SeleccionadaNo Seleccionada

Oraciones

Pondera

cio

nes

K = 2

Page 25: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

SeleccionadaNo SeleccionadaVFC

Oraciones

Pondera

cio

nes

K = 50%Cte. de tolerancia

Page 26: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Los k mejores Mejores aproximaciones a la consulta Aproximación por varianza

Selección de resultados 3 Algoritmos de selección

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

SeleccionadaNo SeleccionadaVEVE - DE

Oraciones

Pondera

cio

nes

Page 27: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

EvaluaciónDocumentos y frases de pruebas

G1 G2 G3 G4 G5

GDNR

• frase 1-1• frase 1-2• frase 1-3• frase 1-4

• frase 2-1• frase 2-2• frase 2-3• frase 2-4

• frase 3-1• frase 3-2• frase 3-3• frase 3-4

• frase 4-1• frase 4-2• frase 4-3• frase 4-4

• frase 5-1• frase 5-2• frase 5-3• frase 5-4

Page 28: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Evaluación

G1

G2

G3

G4

G4

GDNR

• Identificados Correctos• Identificados Incorrectos• No identificados

Análisismanual

CriterioSelección 1

CriterioSelección 2

CriterioSelección 3

Análisis automáticos

IC – II - NI

x2Desambiguación Manual

Desambiguación Automática

Total de 928 análisis

Page 29: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Fórmulas de evaluación

Page 30: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Precisión Recall F-measure

Algoritmo de selección 1 0.475903614457831 0.524046434494201 0.49881610102605

Algoritmo de selección 2 0.717908082408882 0.751243781094528 0.73419773095624

Algoritmo de selección 3 0.555291319857313 0.774461028192372 0.646814404432137

5.00%

15.00%

25.00%

35.00%

45.00%

55.00%

65.00%

75.00%

85.00%

Resultados de la EvaluaciónDesambiguación automática

Page 31: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Resultados de la Evaluación manual vs automática

Precision Recall F-measure

Algoritmo de selección 1 0.00477644736597093 -0.00829187396351568 -0.00121610102604576

Algoritmo de selección 2 0.0300460910772137 0.00663349917081262 0.018685300345243

Algoritmo de selección 3 0.0120163724503795 0.00829187396351568 0.0110253168222224

-1.25%

-0.75%

-0.25%

0.25%

0.75%

1.25%

1.75%

2.25%

2.75%

3.25%

Page 32: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Conclusiones

Problema

Dificultad

es

Solución

Arquitectura

Componentes

Criterios de

selección

Resultados y

Evaluación

Conclusión

Demostración

Problemas propios del área Trabajos relacionados Freeling – UIMA – WordNet Se propuso y alcanzó una solución

Page 33: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Trabajos a futuro

Puntos fuertes1.Altamente parametrizable. 2.Permite múltiples tipos de desambiguación3.Diferentes algoritmos de selección de

resultados4.Altamente modulado5.Configurable dinámicamente6.Integrado a Lavinia7.Buenos resultados

1. Análisis de familias léxicas.2. Análisis de Metáforas y Metonimias.

3. Análisis de correferencias y reconocimiento de anáforas. 4. Soportar la existencia de errores ortográficos, de

capitalización y de puntuaciones.5. Identificación de palabras en idiomas diferentes al español.

Page 34: Martin Barreto Ricardo Bedat Docentes: Juan José Prada– Aiala Rosá

Demostración

Problema

Dificultad

es

Solución

Arquitectura

Componentes

Criterios de

selección

Resultados y

Evaluación

Conclusió

n

Demostración