Download - curso-escuela-verano-esp - UPF
29/07/2012
1
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Introducción a la simplificación
automática de textos
Horacio Saggion
Universitat Pompeu Fabra
Barcelona
http://taln.upf.edu/users/hsaggion
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Plan del curso
� Introducción del docente
� Quienes somos, donde estamos, de que nos ocupamos…
� Que es la simplificación de textos y porqué es importante?
� Desafíos y oportunidades
� Reglamentaciones, recomendaciones
� Iniciativas para la adaptación/simplificación de textos
� El procesamiento del lenguaje natural para la simplificación automática
� Niveles de dificultad de los textos, simplificación del léxico, simplificación de la estructura
� Estudio de caso: proyecto Simplext
� Simplificación de textos en español
� Resumen del curso
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
El docente
� Horacio Saggion
� http://taln.upf.edu/users/hsaggion
� https://twitter.com/h_saggion
� http://www.taln.upf.edu
� Resumen automático: � Sistemas: SumUM (Saggion & Lapalme, 2002); SUMMA (Saggion, 2008)
� Evaluación: (Saggion et al. 2002), (Saggion et al. 2010),
� Libro (Poibeau, Saggion, Piskorski, Yangarber 2012)
� Proyecto TOPAS para resúmenes de patentes
� Extracción de informaciones: Sistema GATE, creación de corpus
� http://www.taln.upf.edu/pages/concisus/index.html, Summbank
� Simplificación de textos: www.simplext.es
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Grupo TALN @ UPF
� TALN - Tractament Automàtic del Llenguatge Natural http://www.taln.upf.edu� 15 miembros: 8 investigadores/profesores, 4 estudiantes de doctorado,
un pre doctorando, un programador, un personal de administración.
� Estamos en la Universitat Pompeu Fabra, Campus de la Comunicación, Barcelona
� Generación de lenguaje� A partir de datos/ontologías/representaciones conceptuales
� Procesamiento de lenguaje natural� Resumen automático, extracción de informaciones, minería de textos
� Recursos � Corpora, analizadores, generadores, herramientas de resumen, herramientas
de anotación
29/07/2012
2
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Procesamiento del lenguaje natural (PLN)
� Es una rama de la informática que se encarga de la
investigación en comprensión y generación automática de
lenguaje
� Se estudian problemas o tareas de diverso tipo:
� etiquetado morfosintáctico, análisis sintáctico, análisis
semántico, desambigüación de sentidos, etc.
� Se estudia como automáticamente realizar tareas prácticas
� Traducción automática
� Generar resúmenes
� Responder a preguntas
� Extraer informaciones de un texto
� Identificar la subjetividad de un texto y su orientación
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Procesamiento del lenguaje natural (PLN)
� Existen muchos conceptos/terminología propios
� Corpus: colección de textos generalmente construida para un fin específico,
pero también para estudiar el lenguaje en general
� Corpus paralelo: colección de pares de textos relacionados
� Anotación: proceso que enriquece datos con anotaciones o etiquetas de
diverso tipo
� Etiquetado morfosintáctico (parts-of-speech tagging – POS tagging) : asociar
una etiqueta lexical a cada palabra
� Análisis sintáctico: asociar una interpretación a una oración basada en una
gramática u otra teoría sintáctica
� Análisis semántico: mapear las palabras, frases, etc. a representaciones
conceptuales (lógica de predicados, formularios, etc.)
� Léxico: lista de palabras, a veces con información adicional
� WordNet: es la base de datos léxica mas utilizada en PLN
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Procesamiento del lenguaje natural (PLN)
� Como en muchas otras disciplinas:
� Muchas tareas en las cuales se obtienen resultados muy buenos
� Etiquetado morfosintáctico
� Muchas más tareas en las cuales no se han alcanzado buenos
resultados
� Evaluación es un componente fundamental en PLN
� Evaluación intrínseca: comparar lo que produce la máquina con lo que
produce el humano
� Evaluación extrínseca: dar a un humano lo que produce la máquina y
pedirle que haga una tarea para la cual se espera un producto perfecto
� Métricas de evaluación son fundamentales para medir y comparar los
resultados de sistemas diferentes
� Baselines: son sistemas automáticos muy simples que hacen la tarea
pero “bastante” mal
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Simplificación de textos
� Proceso de transformar un texto en un equivalente que es mas fácil de entender por una audiencia determinada
� En la simplificación las oraciones complejas se dividen en oraciones mas simples y el vocabulario complejo se reemplaza por un vocabulario común
� Comenzó a atraer la atracción del procesamiento de lenguaje natural hace más de 10 años (Chandrasekaret al. 1996)
� Varios eventos se organizan en el tema cada año:
� 2012: ICCHP, SLPAT, NLP4ITA, PITR
29/07/2012
3
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
La Cruz Roja ayuda a 500000 somalíes afectados por la guerra y la sequía.
La Cruz Roja ayuda a Somalía.
La Cruz Roja es una organización que ayuda a personas y países.
Difícil deentender
Fácil de entender
Dos ideas en una oración, vocabulario es complej o
Una oración, una ideaSe explican las palabras difíciles
Cruz Roja?
sequía?
Una
explicación de
Cruz Roja!
Ejemplo
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Usuarios de textos simplificados
� Colectivos que necesitan textos simples
� Personas con poca alfabetización, inmigrantes, personas con
discapacidad cognitiva, personas que aprenden una segunda
lengua, ancianos, afásicos, disléxicos, autistas, etc.
� Es particular relevante la declaración de las naciones unidas sobre
los derechos de las personas con discapacidad
� La necesidad por contenido simplificado puede llegar al 25% de la
población
� A tener en cuenta: en 2025 9% de la población europea tendrá 75
años o más…
� La simplificación de textos es necesaria para: noticias, información
gubernamental, leyes y derechos, etc.
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Simplificación manual de textos
� Iniciativas para la lectura fácil� Plain English / Basic English (Ogden, 1930);
� French Rationale (Barthe et al, 1999);
� Easy-to-Read network (Petz andTronbacke, 2008);
� Fácil Lectura (http://www.lecturafacil.net);
� European Association Inclusion Europe
� Guías de lectura fácil� Lenguaje simple y directo;
� Una idea por oración;
� Evitar tecnicismos y abreviaturas;
� Una palabra un concepto;
� Personalizar el texto;
� Usar la voz activa
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Wikipedia simple (en inglés)
Opera is a drama set to music.An opera is a play in which everything is sung instead of spoken.
Operas are usually performed in opera houses.
29/07/2012
4
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Wikipedia normal
Opera is an art form in which singers and musicians perform a dramatic work combining text (called a libretto) and musical score.
The performance is typically given in an opera house, accompanied by an orchestra or smaller musical ensemble.
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Portal e-Include de la UE
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Portal de noticias fáciles en español
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Noticias fáciles en sueco
29/07/2012
5
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Oportunidades para el procesamiento del
lenguaje natural
� Es mucho trabajo simplificar textos manualmente
� Es imposible esperar a que el contenido hoy existente sea simplificado manualmente
� Parte del trabajo podría ser realizado por máquinas� Simplificación total/parcial
� Herramientas como editores podrían incorporar útiles para la preparación de textos simples
� La simplificación podría ayudar también en otras tareas de procesamiento de lenguaje� Simplificar el texto antes de:
� Hacer un resumen
� Contestar a preguntas
� Extraer informaciones
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
� Reglas sintácticas sobre análisis superficial (Chandrasekar et al. 1996; Siddharthan, 2002)
� Análisis superficial (ckunking) para identificar grupos nominales y verbos
� Reglas: W X:NP, RELPRO Y, Z. => W X:NP Z. X:NP Y.
� Hu Jintao, who is the current Paramount Leader of the People’s Republic of China, was visiting Spain� W = ∅� X: =Hu Jintao
� RELPRO:=who
� Y = is the current Paramount Leader of the People’s Republic of China
� Z= was visiting Spain
� � Hu Jintao was visiting Spain. Hu Jintao is the current Paramount Leader of the People’s Republic of China.
� Reglas son manualmente desarrolladas
Primeros pasos en simplificación
automática
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
� Aprendiendo reglas de transformación (Chandrasekar & Srinivas, 1996)� (O) Talwinder Singh, who masterminded the 1984 Kanishka crash, was killed in a fierce
two-hour encounter.
� (S) Talwinder Singh was killed in a fierce two-hour encounter. Talwinder Singh
masterminded the 1984 Kanishka crash.
Primeros pasos en simplificación
automática
was killed
the… crash
Talwinder Singh
who
mastermined
in … encounter
was killed
the… crash
Talwinder Singh
mastermined
in … encounter
Talwinder Singh
CORTARCOPIAR
relativa
ORIGINAL SIMPLIFICADO
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
• Proyecto PSET: “Practical Simplification of English Texts” (Devlin & Tait, 1998)
• Específicamente para simplificar textos para personas con afasia
� Transformación de voz pasiva a voz activa� “A bid to build an incinerator on local wasteland was today accepted by the council.” => The
council today accepted a bid to build an incinerator on local wasteland.
� “Official documents were left on the underground by mistake.” => Mistake left officialdocument on the underground.
� Resolución de expresiones anafóricas� Se utilizó un sistema estándar de resolución de correferencia y se reemplazaron
pronombres por referentes
� Simplificación del vocabulario� Reemplazo de palabras poco frecuentes por un sinónimo más frecuente, se usa una
base de datos psicolingüística y WordNet
Primeros pasos en simplificación
automática
29/07/2012
6
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
¿Qué hace que un texto sea difícil de
leer/entender?
� Existe una serie de fórmulas que pretenden asociar
un texto con su nivel de legibilidad (“readability” en
inglés)
� Algunas de las fórmulas son sumamente simples
� se basan en conceptos como complejidad de la
palabra, frecuencia de palabras, longitud de
frases,…
� Se han usado en experimentos que muestran
correlación con niveles de legibilidad de textos
particulares
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Algunas fórmulas para el inglés
� Flesch (1949)
� S=206.835 – (1.015*ASL) –(84.6*ASW)
� S va de 0 a 100, 30 es muy difícil, 70 razonable, 100 fácil
� ASL = promedio de longitud de las oraciones
� ASW = promedio de silabas por palabra
� FOG index (Gunning, 1952)
� S= 3.0680 + (0.877 * ASL) + (0.984 * PofM)
� PofM es el porcentaje de monosílabos sobre todas las palabras
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Algunas fórmulas para el inglés
� Flesch-Kincaid (Kincaid et al, 1986)
� Nivel = (.39 x ASL) + (11.8 x ASW) - 15.59.
� ASL = promedio de palabras en oraciones (# palabras /#
oraciones).
� ASW = promedio de sílabas/palabra (# silabas /#
palabras).
� Un índice razonable de dificultad está entre 6 y 10.
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Uso de modelos de lenguaje para la predicción
� Las medidas que usan longitud de palabra y longitud
de oración como predictores son bastante criticadas
� Los modelos de lenguaje son sumamente utilizados
en PLN y pueden usarse para medir la complejidad
de un texto (Si & Callan, 2001)� Predecir la complejidad puede tratarse como un problema de
clasificación clásico
� Aquí se estiman las probabilidades de que un grado de dificultad dado
un documento p(g|d)
� La formula usada se basa en la fórmula de Bayes
)(
)|()()|(
dp
gdpgpdgp =
29/07/2012
7
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Uso de modelos de lenguaje para la predicción
� Las diferentes probabilidades se estiman de la siguiente
manera:
� P(d|g) como un modelo unigrama (el documento se considera un
conjunto de palabras)
� P(g) como la probabilidad a priori de una dificultad g
� P(d) se elimina de la ecuación pues no afecta el resultado
� Este modelo se combina con un modelo de longitud de frase,
que se estima asumiendo una distribución normal de
longitudes por cada nivel de dificultad
� Un modelo combinado tiene mucho mas poder predictivo que
el clásico test Flesch-Kincaid
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Algunas fórmulas para el español
� La fórmula de Spaulding (1956)
� Encontró dos factores que tienen correlación con la
dificultad del texto
� Estos dos factores no se correlacionan entre ellos
� Longitud de la frase (promedio) = ASL
� La densidad o uso del vocabulario (excluyendo vocablos
de una lista pre-definida de 1500 palabras) =Densidad
� Dificultad = 1.609 * ASL + 33.8 * Densidad +22
� El método también tiene un grafico de legibilidad que se
usa para mapear los valores en una valor determinado
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Algunas fórmulas para el español
� El método FRASE (Vari-Cartier, 1981)
adaptación del método FRY
� Seleccionar 3 pasajes al azar c/uno con 100 palabras
� Calcular el promedio de sílabas y el promedio del número
de oraciones en los 3 pasajes
� Representar la información en un gráfico (adaptado
p/español)
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Base de datos léxica WordNet
• (Fellbaum, 1998)
29/07/2012
8
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Base de datos léxica WordNet
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Simplificación Léxica
� Combinación de un léxico y un modelo de lenguaje (De Belder & al. 2010)� Dada una palabra en un texto, se generan 2 listas de palabras
� L1: una lista de sinónimos de una base de datos léxica
� L2: una lista de palabras alternativas generadas a partir de un modelo de lenguaje
� Se usa un modelo probabilístico donde se estima la probabilidad de reemplazar una palabra por otra � P1(w|w_original)=P2(w|w_original,contexto)*P3(facil|w)
� La estimación de P2 es por un modelo de lenguaje
� La estimación de P3 es por frecuencia, complejidad morfosintáctica, etc.
� En otro trabajo crean un dataset para la evaluación en inglés
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Extracción de simplificaciones léxicas de la
Wikipedia
� La hipótesis es que cambios en la Wikipedia Simple corresponden a simplificaciones, pero no siempre… (Yatskar et al. 2010)
� Se necesita un modelo que nos diga cuando el cambio es una simplificación probable
� Se crean varios modelos:� Un modelo calcula la probabilidad de que cambios de una palabra “A” por otra
“a” se deban a correcciones, simplificaciones, etc.
� Se asumen que cambios en Wiki normal para simplificar son despreciables
� Se asume que la proporción de correcciones en la simple es igual a la compleja
� Se estima la probabilidad de cambiar “A” por “a” usando frecuencias
� Se obtiene un modelo de cual es el reemplazo mas probable de A
� Otro método se fija en los comentarios dejados por los editores
� Se busca cual substitucion de “A” por “a” es mas fuerte utilizando la medida de asociación PMI (point-wise mutual information)
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Extracción de simplificaciones léxicas de la
Wikipedia
� Extracción de los datos:
� Se alinean oraciones entre las diferentes versiones y se buscan que palabras fueron substituidas obteniendo pares A -> a
� Dos métodos baseline:
� Frecuencia: la substitución mas frecuente
� Random: una cualquiera del conjunto de substituciones
� Se compara con una lista creada manualmente por un editor de la Wikipedia
� Humano > Modelo de Lenguaje > PMI > FREQ >= RANDOM
29/07/2012
9
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprendiendo reglas de simplificación
automáticas
� Se usan también WE y SWE (Biran et al. 2011)
� WE se usa para extraer vectores de contexto p/c palabra (co-occurrencias entre la palabra y sus vecinos)
� Para saber que palabras se pueden reemplazar por otras se calcula la “similitud” entre estos vectores
� Esta similitud se calcula como el coseno del ángulo entre los dos vectores
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprendiendo reglas de simplificación
automáticas
� Como implementar la simplicidad de una
palabra, supongamos las palabras “canine”
(canino) y “dog” (perro)
� Verificar si ocurre mas en SWE o en WE
� Canine aparece 9620 veces en WE
� Canine aparece 62 veces en SWE
� Dog aparece 171000 veces en WE
� Dog aparece 1360 en SWE
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprendiendo reglas de simplificación
automáticas
� complejidad(canine) = 9620/62 = 155
� complejidad(dog) = 171000/1360 = 125
� Tambien se determina la complejidad de una palabra según su longitud
� long(canine)=6, long(dog)=3
� complejidad_final=complejidad*long
� cf(canine)=155*6=930
� cf(dog)=125*3=375
� canine “es mas dificil que” dog
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprendiendo reglas de simplificación
automáticas
� Gramaticalidad: generar los pares que son equivalentes, si una palabra en el pasado, su reemplazo en el pasado, etc.
� Para elegir que palabra usar para simplificar, se calcula la similitud del contexto donde la palabra aparece contra los contextos de los posibles reemplazos
� Evaluación no contempla un escenario realista donde varias palabras son simplificadas
29/07/2012
10
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Tarea de simplificación léxica
� En 2012 se propuso la tarea de simplificación léxica para el inglés (Speciaet al. 2012) – SemEval-2012
� Basada en el trabajo previo de substitución léxica (McCarthy & Navigli, 2007)
� Tres aspectos
� análisis de complejidad
� búsqueda de substitutos
� ranking basado en contextos
� Se crea un conjunto de datos consensuado basado en la agregación de las informaciones de varios anotadores
� Ejemplo: “… a bright boy…”; bright = intelligent (3); clever (3); smart(1)
� La tarea: reemplazar la palabra por el substituto mas apropiado
� 10 sistemas participan de la evaluación, un sistema basado en frecuencia funciona muy bien y es superado por solo un sistema mas sofisticado (por pocos puntos)
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
� Estudio de casos de simplificación e implementación de procedimientos de simplificación (Aluísio & al, 2008)
� “The book, which John gave me, belongs to Paul”
� Encontrar pronombre relativo y verificar que se trata de una clausula no restrictiva
� Encontrar el final de la relativa
� Generar una oración con la relativa
� Generar una segunda oracion con la principal y reordenar
� “The book belongs to Paul. John gave me the book.”
� Varios procedimientos se ocupan de diferenctes fenómenos y una “cascada” de procedimientos se ocupa de procesar las oraciones
Simplificando portugués: PorSimples
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprender a simplificar automáticamente
� El contexto de este trabajo está en considerar la simplificación
como un problema de traducción (Coster & Kauchak, 2011)
� lenguaje normal a lenguaje simple
� Se aplica en un contexto donde se tienen muchos ejemplos de
oraciones y sus simplificaciones
ORACIÓN ORIGINAL ORACIÓN SIMPLIFICADA
Greene agreed that she could earn more by
breaking away from 20th Century Fox.
Greene agreed that she could earn more by
leaving 20th Century Fox.
In 1962, Steinbeck received the Nobel Prize
for Literature.
Steinbeck won the Nobel Prize in Literature
in 1962.
They established themselves here and called
that port Menestheus’s port.
They called the port Menestheus’s port.
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprender a simplificar automáticamente
� En contexto mas específico es el de traducción automática estadística y en particular la traducción por “frases”
� Un modelo de traducción automática estadística se basa en la fórmula de probabilidades siguiente:� P(e|f) la probabilidad de que un texto e sea la buena traducción de un
texto f
� esta probabilidad se aproxima con la fórmula P(e)*P(f|e)� P(e) es un modelo de lenguaje
� p(f|e) es un modelo de traducción
� dado un texto f se busca aquel texto e que maximiza la fórmula
� encontrar el mejor e requiere examinar todas las posibilidades lo que no es computacionalmente factible, se recurre entonces a una búsqueda heurística
� No se puede modelar directamente, sino que hay que recurrir a los componentes de los textos y las oraciones para aproximar estas probabilidades (ej. las palabras!)
29/07/2012
11
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprender a simplificar automáticamente
� Creación de un corpus de entrenamiento y test
� Alinear articulos de la Wiki Simple y Wiki Normal
� Alinear parrafos en los textos utilizando una medida de similitud
� Alinear oraciones usando programación dinámica
� Modelo de simplificación basado en traducción automática estadística usando el sistema Moses (Koehn et al, 2007)
� cada si es una “frase” en una oración simple y cada ni es una “frase” en una oración normal
� Para el cálculo de “frases” de usa un paquete llamado GIZA++ (Och& Ney, 2000)
� Normalmente no hay frases nulas en los modelos de traducción por frases, pero en simplificación es necesario incorporarlas
∏ == m
iii nspnormalsimplep
1)|()|(
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprender a simplificar automáticamente
� Algunas probabilidades aprendidas
� Experimentación y evaluación
� Se comparan diferentes técnicas� Sistema de traducción normal
� Sistema de traducción con la inclusión de borrado de frases
� Sistema que no hace nada (baseline)
� Otros sistemas conocidos de simplificación (Cohen & Lapata, 2009; Knight & Marcu, 2002)
� Medidas de evaluación� BLEU (Papineni et al, 2002) que se usa en traducción automática
� Simple string accuracy (Clarke & Lapata, 2006)
� F-score sobre las palabras
� Se muestra que en todas las medidas� El sistema de traducción automática por frases con borrado es el mejor y el
segundo es el sistema de traducción automática sin borrado
� El sistema que no hace nada es mejor que los más sofisticados
FRASE A BORRAR
PROB
, 0.057
however, 0.00095
the city of 0.00034
approximately 0.00025
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aprendiendo a partir de árboles sintácticos
� Se basa también en un corpus de textos comparables
<C,S> de textos complejos y simples (Zhu et al. 2010)
� Wikipedia/Wikipedia Simple
� Otras enciclopedias tienen versiones normales y simples,
pero generalmente no estan disponibles on-line
� Este trabajo modela:
� Reemplazo de palabras y frases
� Simplificación sintactica se modela como operaciones en
árboles
� “Split”, “Drop”, “Copying”, “Reordering”
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
August was the monthsixt
h
in the ancient Roman calendar
which
started
in 735BC
S
NP
NPPP
NP
WHNP
VPVP
PP
SBAR
S
PHRASE STRUCTURE OF COMPLEXT SENTENCE
August was the sixth month in the ancient Roman calendar which started in 735BC.
Aprendiendo a partir de árboles sintácticos
29/07/2012
12
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
August wa
s
the monthsixt
h
in the ancient Roman calendar
which
started
in 735BC
S
NP
NPPP
NP
WHNP
VPVP
PP
SBAR
S
SEGMENTACIÓNPROBABILIDADESASOCIADAS A PUNTOS DE CORTE
Aprendiendo a partir de árboles sintácticos
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
August was
in the
started
in 735BC
S
NP
NPPP
VPVP
PP
ancient Roman calendar
NP
S
the monthsixt
h
COPIADO DE SUJETOS
ancient Romancalendar
NP
the
PROBABILIDAD DECOPIAR UN COMPONENTE
Aprendiendo a partir de árboles sintácticos
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
August was
in the
started
in 735BC
S
NP
NPPP
VPVP
PP
ancient calendar
NP
S
the monthsixt
h
ELIMINAR Y REORDENARCOMPONENTES
ancient
calendar
NP
the
PROBABILIDADESDE ELIMINAR Y REORDENAR
Aprendiendo a partir de árboles sintácticos
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
August was
in the
started
in 735BC
S
NP
NPPP
VPVP
PP
old calendar
NP
S
the monthsixt
h
REEMPLAZO DE PALABRAS
oldcalendar
NP
the
PROBABILIDADESDE REEMPLAZARUNA PALABRA POR OTRAS
August was the sixth month in the old calendar. The old calendar started in 735BC.
Aprendiendo a partir de árboles sintácticos
29/07/2012
13
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Aplicaciones: simplificación léxica en resumen
automático
� La idea es presentar un resumen de texto al cual se le
ha aplicado simplificación léxica (Pal & Ruger, 2002)
� Dada una oración para cada palabra se analiza su
complejidad usando una base de datos utilizada en
psicolingüística
� Para cada palabra de la oración se buscan las mas
complejas
� Se usa WordNet para buscar los sinónimos y se
escoge el mas fácil
� Se declina el sinónimo apropiadamente
© Horacio Saggion - 2012
Universidad de verano Rafael Altamira
Universidad de Alicante
Simplificación p/subtitulado
� Objetivo es reducir el número de caracteres dadas las restricciones físicas del medio, una operación importante es la eliminación de material (Daeleman et al, 2004)
� Substitución/parafrasear el texto
� Problemas: � se hace on-line a medida que se procesa el habla
� la cantidad de material a reducir debe computarse dinámicamente
� Datos: transcripciones del habla y los subtítulos generados
� Métodos:� algoritmos de aprendizaje de máquina
� sistema basado en conocimiento