an alisis de la simpli caci on de expresiones num ericas en … · 2019-08-01 · pec co. ese es el...

15
An´ alisis de la Simplificaci´on de Expresiones Num´ ericas en Espa˜ nol mediante un Estudio Emp´ ırico Susana Bautista Universidad Complutense de Madrid. Facultad de Inform´ atica. Madrid, Espa˜ na [email protected] Biljana Drndarevi´ c Universitat Pompeu Fabra. Department of Information and Communication Technologies. Barcelona, Espa˜ na [email protected] RaquelHerv´as Universidad Complutense de Madrid. Facultad de Inform´ atica. Madrid, Espa˜ na [email protected] Horacio Saggion Universitat Pompeu Fabra. Department of Information and Communication Technologies. Barcelona, Espa˜ na [email protected] Pablo Gerv´ as Universidad Complutense de Madrid. Facultad de Inform´ atica. Madrid, Espa˜ na [email protected] Resumen En este art´ ıculo se presentan los resultados de un estudio emp´ ırico llevado a cabo con un corpus para- lelo de textos originales y simplificados a mano, y una posterior encuesta online, con el objetivo de identificar operaciones de simplificaci´ on de expresiones num´ eri- cas en espa˜ nol. Consideramos una “expresi´ on num´ eri- ca” como una frase que expresa una cantidad que puede venir acompa˜ nada de un modificador num´ eri- co, como por ejemplo casi un cuarto. Los resultados se analizan considerando las expresiones num´ ericas en oraciones con y sin contexto, a partir del an´ alisis del corpus y del an´ alisis de los resultados recogidos en la encuesta. Consideramos como trabajo futuro llevar a cabo una implementaci´ on computacional de las reglas de transformaci´ on extra´ ıdas. Palabras clave Simplificaci´ on de textos, Expresiones num´ ericas, Es- tudio de corpus Abstract In this paper we present the results of an empiri- cal study carried out on a parallel corpus of original and manually simplified texts in Spanish and a sub- sequent survey, with the aim of targeting simplifica- tion operations concerning numerical expressions. For the purpose of the study, a “numerical expression” is understood as any phrase expressing quantity possi- bly modified with a numerical hedge, such as almost a quarter. Data is analyzed both in context and in isola- tion, and attention is paid to the difference the target reader makes to simplification. Our future work aims at computational implementation of the transforma- tion rules extracted so far. Keywords Text Simplification, Numerical Expressions, Corpus Study 1 Introducci´ on Debido al crecimiento de Internet, cada vez as pronunciado, existe una tendencia para digi- talizar todo tipo de informaci´ on con el objetivo de hacerla m´ as accesible a los usuarios. Sin em- bargo, los estudios demuestran que todav´ ıa es- tamos lejos de ese ideal de una sociedad digi- talizada uniformemente donde la informaci´ on sea asequible para todos. Ciertos usuarios, como las personas con trastornos visuales o auditivos, per- sonas con bajo nivel de alfabetizaci´ on, etc., se enfrentan con dificultades a la hora de acceder al contenido digital tal y como est´ a presentado actualmente. Por ese motivo, ha habido mucho inter´ es ´ ultimamente, por parte de distintas ins- tituciones internacionales, para mejorar el esta- This work is licensed under a Creative Commons Attribution 3.0 License Linguaatica — ISSN: 1647–0818 Vol. 4 N´ um. 2 - Dezembro 2012 - P´ ag. 27–41

Upload: others

Post on 12-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

Analisis de la Simplificacion de Expresiones Numericas en Espanol

mediante un Estudio Empırico

Susana BautistaUniversidad Complutense de Madrid. Facultad de Informatica. Madrid, Espana

[email protected]

Biljana DrndarevicUniversitat Pompeu Fabra. Department of Information and Communication Technologies. Barcelona, Espana

[email protected]

Raquel HervasUniversidad Complutense de Madrid. Facultad de Informatica. Madrid, Espana

[email protected]

Horacio SaggionUniversitat Pompeu Fabra. Department of Information and Communication Technologies. Barcelona, Espana

[email protected]

Pablo GervasUniversidad Complutense de Madrid. Facultad de Informatica. Madrid, Espana

[email protected]

Resumen

En este artıculo se presentan los resultados de un

estudio empırico llevado a cabo con un corpus para-

lelo de textos originales y simplificados a mano, y una

posterior encuesta online, con el objetivo de identificar

operaciones de simplificacion de expresiones numeri-

cas en espanol. Consideramos una “expresion numeri-

ca” como una frase que expresa una cantidad que

puede venir acompanada de un modificador numeri-

co, como por ejemplo casi un cuarto. Los resultados

se analizan considerando las expresiones numericas en

oraciones con y sin contexto, a partir del analisis del

corpus y del analisis de los resultados recogidos en la

encuesta. Consideramos como trabajo futuro llevar a

cabo una implementacion computacional de las reglas

de transformacion extraıdas.

Palabras clave

Simplificacion de textos, Expresiones numericas, Es-

tudio de corpus

Abstract

In this paper we present the results of an empiri-

cal study carried out on a parallel corpus of original

and manually simplified texts in Spanish and a sub-

sequent survey, with the aim of targeting simplifica-

tion operations concerning numerical expressions. For

the purpose of the study, a “numerical expression” is

understood as any phrase expressing quantity possi-

bly modified with a numerical hedge, such as almost a

quarter. Data is analyzed both in context and in isola-

tion, and attention is paid to the difference the target

reader makes to simplification. Our future work aims

at computational implementation of the transforma-

tion rules extracted so far.

Keywords

Text Simplification, Numerical Expressions, Corpus

Study

1 Introduccion

Debido al crecimiento de Internet, cada vezmas pronunciado, existe una tendencia para digi-talizar todo tipo de informacion con el objetivode hacerla mas accesible a los usuarios. Sin em-bargo, los estudios demuestran que todavıa es-tamos lejos de ese ideal de una sociedad digi-talizada uniformemente donde la informacion seaasequible para todos. Ciertos usuarios, como laspersonas con trastornos visuales o auditivos, per-sonas con bajo nivel de alfabetizacion, etc., seenfrentan con dificultades a la hora de accederal contenido digital tal y como esta presentadoactualmente. Por ese motivo, ha habido muchointeres ultimamente, por parte de distintas ins-tituciones internacionales, para mejorar el esta-

This work is licensed under aCreative Commons Attribution 3.0 License

Linguamatica — ISSN: 1647–0818Vol. 4 Num. 2 - Dezembro 2012 - Pag. 27–41

Page 2: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

do de accesibilidad de contenidos que se ofrecenen la Web con el fin de incluir a grupos actual-mente marginalizados. La Organizacion de lasNaciones Unidas (ONU) postula que todo el con-tenido que se publica en Internet deberıa ser acce-sible para las personas con discapacidad y hacereferencia a Las Pautas de Accesibilidad de Con-tenido Web (Web Content Accessibility Guide-lines, WCAG1), publicadas por un grupo de tra-bajo de W3C (World Wide Web Consortium).Sin embargo, segun un estudio llevado a cabo porla ONU2 con el objetivo de poner a prueba el es-tado de accesibilidad de un conjunto de 100 pagi-nas web del mundo, solo tres de ellas consiguenla accesibilidad basica prescrita por WCAG.

Muchos de los contenidos en la Web se pre-sentan en forma escrita. Por lo tanto, la estruc-tura y nivel de complejidad del texto escrito esun factor que influye en la accesibilidad de estetipo de contenidos. Muy a menudo, textos en laWeb resultan demasiado complejos e incompren-sibles para ciertos grupos de lectores, entre ellospersonas con discapacidades cognitivas, personascon problemas de lectura o hablantes no nativos.Ha habido varios intentos de mejorar adecuada-mente el contenido de lectura, bien a traves desimplificaciones de materiales ya existentes o bienescribiendo material para un grupo objetivo es-pecıfico. Ese es el caso, por ejemplo, de la SimpleWikipedia en ingles (Simple English Wikipedia3)y la Enciclopedia Elemental Britanica (Encyclo-pedia Britanica Kids4) o el portal web en espanolde Noticias Facil5. En Espana, existen distintasasociaciones y programas que apoyan la promo-cion de la Lectura Facil, como la Asociacion Lec-tura Facil 6 en Barcelona y el programa de “Vivela facil lectura”7 en Extremadura. La lectura facilcontempla la adaptacion a un lenguaje llano detextos legales y documentos informativos parainstituciones y empresas que quieran mejorar lacomunicacion con su publico destinatario, y pro-mueve la edicion de libros para personas con difi-cultades lectoras. En las simplificaciones, se con-sidera el contenido, el lenguaje, las ilustraciones,

1http://www.w3.org/TR/WCAG/ [Ultimo acceso:20/11/2012]

2http://www.un.org/esa/socdev/enable/gawano-

mensa.htm [Ultimo acceso: 20/11/2012]3http://simple.wikipedia.org/wiki/Main Page [Ultimo

acceso: 20/11/2012]4http://kids.britannica.com/ [Ultimo acceso:

20/11/2012]5http://www.noticiasfacil.es/ES/Paginas/index.aspx

[Ultimo acceso: 20/11/2012]6http://www.lecturafacil.net/content-management-

es/ [Ultimo acceso: 20/11/2012]7http://www.facillectura.es/ [Ultimo acceso:

20/11/2012]

y el diseno grafico.

Sin embargo, la simplificacion manual es de-masiado lenta y costosa para ser una forma efec-tiva de producir la suficiente cantidad de ma-terial de lectura deseado. Por esta razon hahabido numerosos intentos de desarrollar sis-temas de simplificacion de textos automaticos osemi-automaticos, principalmente aplicados al in-gles (Medero y Ostendorf, 2011), pero tambienjapones (Inui et al., 2003), portugues (Specia,2010) y ahora espanol (Saggion et al., 2011). Es-tos sistemas utilizan tecnicas computacionales enconjunto con los recursos linguısticos para tratartanto la estuctura sintactica como el vocabulariodel texto original que se ha de simplificar.

Nuestro trabajo sigue esta lınea de investi-gacion y se centra en esta contribucion en lasestrategias de simplificacion lexica en textos in-formativos de genero periodıstico en espanol, conel objetivo de hacerlos mas accesibles a las per-sonas con discapacidad cognitiva. La importan-cia de las operaciones lexicas en la simplificacionde textos ha sido ya tratada en trabajos previos(Carroll et al., 1998), (De Belder, Deschacht, yMoens, 2010), (Specia, 2010). El analsis del cor-pus que hemos llevado a cabo para el propositode este artıculo muestra tambien que los cambioslexicos son el tipo mas comun de todas las ope-raciones que aplican los editores humanos a lahora de simplificar un texto. En terminos gene-rales, las palabras y expresiones que se percibencomo complicadas se cambian por sus sinonimosmas simples o se parafrasean, como en el ejemploque sigue (1 es la frase original, y 2 su simplifi-cacion)8:

1. El Consejo de Ministros ha concedido hoyla Orden de las Artes y las Letras de Espanaal restaurador Jose Andres, a la escritoraestadounidense Barbara Probst Solomon yal psiquiatra Luis Rojas Marcos.

2. Hoy el Gobierno de Espana ha dado el pre-mio de la Orden de las Artes de Espanaa tres personas. Al cocinero Jose Andres,a la escritora de Estados Unidos Bar-bara Probst Solomon y al medico Luis RojasMarcos.

El primer cambio significativo es que la frase ori-ginal ha sido divida en dos frases simplificadas.Ademas, en negrita se muestran los cambios ob-servados en cuatro unidades lexicas.

En este trabajo nos centramos en un tipoparticular de expresiones lexicas - las que con-

8El ejemplo esta extraıdo del corpus que describimosen la Seccion 3.1

28– Linguamatica Susana Bautista et al.

Page 3: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

tienen informacion numerica. Consideramos una“expresion numerica” (ExpNum) como una fraseque expresa una cantidad, opcionalmente acom-panada de un modificador numerico, como sonlas expresiones: mas de un cuarto o cerca del97 %, donde mas de y cerca de son ejemplosde modificadores numericos. Este tipo de expre-siones aparecen con una elevada frecuencia enel tipo de textos periodısticos que tratamos. Amenudo las noticias diarias contienen informa-cion en forma numerica, y el modo en el que sepresenta esta informacion afecta a la legibilidadde dichos textos. Consideremos la siguiente noti-cia, parte del corpus Simplext (ver Seccion 3.1),y fijemonos en el numero y la variedad de ex-presiones numericas que contiene (marcadas ennegrita):

CASI 400.000 PERSONAS DES-PLAZADAS EN PAKISTAN HANVUELTO A CASA TRAS LAS INUNDA-CIONES

Alrededor de 390.000 personas han

regresado a sus casas desde que se vie-

ran obligadas a desplazarse por las inunda-

ciones causadas por las lluvias monzonicas

del pasado verano en Pakistan. Segun la

Oficina de la ONU para la Coordinacion de

Asuntos Humanitario, esta cifra supone un

26 % de los 1,5 millones de pakistanıes

desplazados por las inundaciones. Por otro

lado, la ONU ha logrado recaudar un 34 %

de los 2.000 millones de dolares (cer-

ca de 1.400 millones de euros) solici-

tados como llamamiento de urgencia ante

la catastrofe de Pakistan, la mayor peti-

cion realizada nunca por Naciones Unidas

ante un desastre natural. Esta catastrofe ha

matado a unas 2.000 personas, ha afec-

tado a mas de 20 millones, ha destrui-

do cerca de 1,9 millones de hogares y

ha devastado al menos 160.000 kilome-

tros cuadrados, una quinta parte del

pas. Ante esta tesitura, el secretario gene-

ral de la ONU, Ban Ki-moon, ha urgido a la

comunidad internacional a responder “con

generosidad y rapidez” a las necesidades hu-

manitarias de Pakistan.

En un texto relativamente corto encontramoshasta 12 expresiones numericas distintas, quesuponen dos expresiones numericas por frase,en terminos medios. Tanta carga informativa, aligual que la variedad de expresiones numericasdiferentes, pueden interferir con la comprensiondel texto e impedirle al lector descubrir las rela-ciones de causa y efecto de los acontecimientos

tratados en la noticia.

Por eso decidimos centrarnos en el tratamien-to de las expresiones numericas para la simplifi-cacion de textos en espanol. Este es un tema queno ha sido tratado en la literatura hasta ahora.Empezamos con un analisis de corpus, en el queobservamos los cambios relativos a expresionesnumericas, hechos por humanos. De dicho corpusextrajimos un conjunto de expresiones numericasy las presentamos en una encuesta, para que ungrupo de participantes las simplificaran fuera desu contexto original. Nuestro objetivo es obtenerun conjunto de operaciones para la simplificacionde expresiones numericas y plantear su imple-mentacion computacional, que serıa una de lastareas en el proceso de simplificacion de textos.

Este artıculo esta organizado como sigue: laSeccion 2 presenta los trabajos relacionados eneste area; en la Seccion 3 describimos el conjuntoexperimental del estudio; el analisis de los datoses descrito en la Seccion 4; la Seccion 5 recogenuestra discusion y conclusiones. Las lıneas detrabajo futuro son presentadas en la Seccion 6.

2 Trabajo Previo

Hasta ahora la simplificacion de textos ha si-do enfocada con dos objetivos diferentes. Unoes ofrecer versiones simplificadas de textos origi-nales a grupos especıficos de lectores humanos,como:

estudiantes de lenguas extranjeras (Mederoy Ostendorf, 2011);

personas afasicas (Carroll et al., 1998), (De-vlin y Unthank, 2006);

personas con discapacidad auditiva (Inui etal., 2003);

personas con bajo nivel de alfabetizacion(Specia, 2010), (Candido et al., 2009);

personas no familiarizadas con textos tecni-cos altamente idiosincraticos tales como laspatentes y los reglamentos (Bouayad-Aghaet al., 2009).

Por otro lado, la simplificacion de textos podrıamejorar la eficiencia de otras tareas del proce-samiento del lenguaje natural, tal y como se havisto en los sistemas de traduccion automaticao en los sistemas de extraccion de informacion(Chandrasekar, Doran, y Srinivas, 1996), (Kle-banov, Knight, y Marcu, 2004).

De cualquier manera, la simplificacion de tex-to hasta ahora ha afectado principalmente a las

Analisis de la Simplificacion de Expresiones Numericas en Espanol. . . Linguamatica – 29

Page 4: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

construcciones sintacticas y a las expresiones lexi-cas percibidas como complejas o complicadas, co-mo son oraciones largas con multiples oracionescoordinadas y subordinadas, oraciones en voz pa-siva, uso de palabras de baja frecuencia, pala-bras abstractas, terminos tecnicos y abreviaturas.Chandrasekar, Doran, y Srinivas (1996) y Sid-dharthan (2002) se centran principalmente en es-tructuras sintacticas, mientras que Carroll et al.(1998), dentro de su proyecto PSET (PracticalSimplificacion of English Text) orientado hacialectores con afasia, introducen tambien un mo-dulo de simplificacion lexica. Su enfoque se basaen busqueda de sinonimos en WordNet en com-binacion con las frecuencias Kucera-Francis, ex-traıdas de la base de datos Oxford Psycholin-guistic Database (Quinlan, 1992). Por lo tanto,el sinonimo con mayor frecuencia dentro del con-junto de sinonimos extraıdos para cada palabralexica del texto original se escoge como su equiva-lente mas simple.

Dicho enfoque basado en sinonimia y frecuen-cia de palabra ha sido reutilizado en varios traba-jos. Lal y Ruger (2002) utilizan el mismo meto-do para el componente lexico de su sistema deresumen automatico. Burstein et al. (2007) secentran en los cambios de vocabulario a la ho-ra de ofrecer su sistema ATA V.1.0 como herra-mienta para la adaptacion de textos, pensadapara los profesores y estudiantes de lenguas ex-tranjeras. Su sistema produce parrafos resumi-dos del texto original, llamados notas marginales,y al mismo tiempo le ofrece al usuario sinoni-mos mas frecuentes de palabras poco usadas, ex-traıdos de WordNet calculando la similitud depalabras. Bautista, Gervas, y Madrid (2009) tam-bien emplean diccionarios de sinonimos, pero sucriterio para escoger el mas adecuado es longitudde palabra, en vez de la frecuencia.

Dado que muchas palabras, en particular laspalabras con mayor frecuencia, tienden a ser po-lisemicas, se han visto varios intentos de tratareste problema con el objetivo de conseguir unasustitucion lexica mas precisa que tambien tengaen cuenta el contexto. Con este fin, De Belder,Deschacht, y Moens (2010) fueron los primerosen utilizar tecnicas de desambiguacion del sentidode las palabras. Para cada palabra lexica se cre-an dos conjuntos de “palabras alternativas” unobasado en sinonimos de WordNet o algun dic-cionario parecido, y otro generado con el modelode lenguaje del analisis semantico latente (De-schacht y Moens, 2009). Una vez determinada lainterseccion de estos dos conjuntos, se calcula laprobabilidad para cada palabra de la interseccioncon el fin de comprobar si dicha palabra es un

reemplazo adecuado para la palabra de entrada.La probabilidad se calcula teniendo en cuenta ladificultad de la palabra basada en la frecuenciaKucera-Francis, el numero promedio de sılabasy la probabilidad de cada palabra extraıda de uncorpus de textos de facil lectura, tal como la Sim-ple English Wikipedia.

Biran, Brody, y Elhadad (2011) emplean unmetodo no supervisado de aprendizaje auto-matico para aprender pares de sinonimos de pala-bras complejas y simples, basado en un corpus noalineado de textos de la Wikipedia original y laWikipedia simple en ingles. Yatskar et al. (2010)tambien utilizan un metodo no supervisado paraextraer simplificacion lexica, utilizando el histo-rial de ediciones de la Wikipedia simple en ingles.

En cuanto a las expresiones numericas, exis-ten algunos trabajos, aunque dirigidos principal-mente a los expertos y no a los individuos con di-ficultades numericas (Peters et al., 2007), (Dieck-mann, Slovic, y Peters, 2009), (Mishra H, 2011).

Bautista et al. (2011) y Power y Williams(2012) se encuentran entre los primeros en con-centrarse en la posibilidad de simplificar este tipode expresiones, centrandose principalmente en eluso de modificadores. Power y Williams (2012)realizaron un estudio de un corpus de noticias eningles, analizaron como los autores variaban lasformas matematicas y la precision de las mismascuando ellos expresaban informacion numerica.En un documento una misma cantidad era amenudo descrita de distintas maneras, varian-do su expresion (fraccion, porcentaje) y su pre-cision, usando modificadores y redondeo para e-llo. Ademas, desarrollaron un sistema basado enrestricciones para decidir como adaptar la pro-porcion original. El trabajo de Bautista et al.(2011) estudia la preferencia de valores comunesa la hora de redondear las expresiones numericasy el uso de diferentes estrategias de simplificaciondependiendo del valor de la proporcion original.Esta desarrollado para textos en ingles, no fuedirigido a un grupo determinado de lectores, y lasimplificacion se realizo de acuerdo a los nivelesde dificultad segun se describen en el Currıculode Matematicas de la Autoridad de Calificacionesy Currıculum de Inglaterra (Qualifications y Au-thority, 2010).

3 Metodologıa y Objetivos

Con el objetivo de esbozar conclusiones so-bre el tipo de operaciones de simplificacion quepodrıan ser aplicadas a las expresiones numeri-cas, hemos llevado a cabo un estudio de un cor-pus paralelo de textos originales en espanol y su

30– Linguamatica Susana Bautista et al.

Page 5: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

correspondiente version simplificada a mano. Elestudio del corpus forma parte de un trabajo masamplio, cuyo objetivo es desarrollar un sistemapara la simplificacion automatica de noticias enespanol. Desarrollando el modulo de la simplifi-cacion lexica, hemos observado un numero ele-vado de expresiones numericas y sus simplifica-ciones en el corpus. En un intento de investigarmas a fondo el caso de la simplificacion de dichasexpresiones, las tratamos como un caso especıfi-co de la simplificacion lexica y las analizamos porseparado.

Con el fin de ampliar el conjunto de las posi-bles simplificaciones relacionadas a estas expre-siones, llevamos a cabo una encuesta comple-mentaria al estudio del corpus. Las expresionesnumericas del corpus han sido etiquetadas y ex-traıdas, junto con el resto de la frase donce apare-cen, para presentarlas de manera separada endicha encuesta. A los participantes de la encues-ta se les pidio que simplificaran las expresionesnumericas que se les ofrecieron.

Por lo tanto, por un lado tenemos expresionesnumericas en contexto, es decir, en el corpus,donde se pueden observar otras operaciones desimplificacion, como por ejemplo sustitucionesbasadas en sinonimia o reestructuracion sintacti-ca. Ademas de eso, el corpus fue simplificado porexpertos teniendo en mente como usuario finalun lector especıfico - una persona con dificultadeslectoras debido a discapacidades cognitivas. Porotro lado, se extrajeron oraciones individuales delmismo corpus que contienen expresiones numeri-cas, y se presentaron fuera de contexto a losparticipantes de la encuesta para que las simpli-ficaran, sin tener en cuenta quien era el usuario fi-nal. El objetivo es ampliar el conjunto de posiblesoperaciones de simplificacion de las expresionesnumericas, no necesariamente relacionadas a ungenero de texto o a un usuario final dado. En elcaso de la encuesta, estas simplificaciones fueronlibres, en el sentido que fueron simplificadas sinespecificar ningun grupo objetivo de lectores, porlo que los participantes simplificaron de manerageneral.

Dentro de la variedad de tipos encontradosen las expresiones numericas, hemos limitadonuestro trabajo al tratamiento de expresionesmonetarias (15 millones de euros), porcenta-jes (24 % ), fracciones (un cuarto), dimensionesfısicas (160,000 kilometros cuadrados) y canti-dades generales (2,000 personas). En la seccion4.3 se discute como las simplificaciones hechas enel corpus y en la encuesta difieren y se comple-mentan unas a otras, con la intencion de obte-ner conclusiones para la posible implementacion

computacional de la simplificacion de expresionesnumericas. A continuacion describimos el conjun-to de datos experimental, al igual que los recursosempleados para el analisis - el corpus, las herra-mientas del procesamiento del texto y la encues-ta.

3.1 Corpus

Como parte de un proyecto mas amplio9,orientado hacia el desarrollo de un sistema dela simplificacion automatica de textos en es-panol para los lectores con discapacidad cogni-tiva, hemos recopilado un corpus paralelo parausar como base para un analisis empırico. Dichocorpus consiste en 40 textos informativos, en eldominio de noticias internacionales y de cultura,cedidos por la agencia espanola de noticias Servi-media10. Los textos han sido simplificados poreditores humanos, teniendo en cuenta el usuariofinal - un lector con discapacidad cognitiva, ysiguiendo una serie de pautas de la metologıa defacil lectura sugerida por Anula (2007), (2008).Dichas pautas incluyen una serie de reglas, quese podrıan resumir de la siguiente manera:

tratamiento de la microestructura del texto,es decir la estructura de la frase y los ele-mentos del vocabulario;

tratamiento de la informacion, como la re-duccion o expansion del contenido;

tratamiento del discurso, como el estilo;

la aplicacion de una adecuada norma or-tografica.

Ambos conjuntos de textos, original y simplifi-cado, han sido anotados automaticamente usan-do las etiquetas del procesamiento morfologicode las palabras, el reconocimiento de entidadesnombradas y el analisis sintactico, proporciona-dos por el paquete de analisis de lenguaje deFreeLing (Padro et al., 2010), descrito con masdetalle en la seccion 3.2. Ademas de esto, un al-goritmo de alineacion de textos (Bott y Saggion,2011) ha sido aplicado para conseguir alineaciona nivel de oracion entre los textos originales ysimplificados. Los errores de alineacion han sidomanualmente corregidos usando una herramientagrafica de edicion en el marco de GATE (GeneralArchitecture for Text Engineering) (Maynard etal., 2002).

9www.simplext.es [Ultimo acceso: 20/11/2012]10http://www.servimedia.es/ [Ultimo acceso:

20/11/2012]

Analisis de la Simplificacion de Expresiones Numericas en Espanol. . . Linguamatica – 31

Page 6: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

De esta manera hemos obtenido un corpusparalelo de un total de 570 oraciones, 246 en elconjunto original y 324 en el conjunto simplifica-do. Dicho corpus nos ha servido para documen-tar todas las operaciones de edicion aplicadas porlos humanos para planificar y organizar su imple-mentacion automatica. Entre la variedad de ope-raciones detectadas actualmente nos centramosen simplificaciones lexicas, mas especıficamenteen el tratamiento de las expresiones numericas,que es el trabajo que presentamos en este artıcu-lo.

3.2 Procesamiento del texto

Tal y como mencionamos en el parrafo ante-rior, los textos del corpus han sido analizadosusando FreeLing (Padro et al., 2010) y despuesprocesados con la herramienta de edicion de tex-tos GATE (General Architecture for Text Engi-neering) (Maynard et al., 2002). GATE es un con-junto de herramientas para el procesamiento delenguaje natural que se integran en una platafor-ma escrita en Java. Dispone de una interfaz grafi-ca y un entorno de desarrollo integrado que fa-cilita considerablemente las tareas que requierenun proceso de edicion y editores especializados.GATE es de distribucion libre y de codigo abier-to.

FreeLing es una de las herramientas de analisisdel procesamiento de lenguaje natural existentespara el castellano que permite realizar analisismorfologico (part-of-speech tagging) basado enun modelo de Markov con estados ocultos. Estetipo de analisis anota los textos e identifica loslemas de cada palabra, asignandole su correspon-diente etiqueta. El sistema de etiquetado usadopor FreeLing sigue el estandar EAGLES11. Parael proposito de este artıculo nos hemos centradoen las etiquetas correspondientes a expresionesnumericas. A las cifras y a los numeros se lesasigna la etiqueta Z. Bajo esta etiqueta pode-mos encontrar numeros, ratios, porcentajes, di-mensiones, etc. FreeLing identifica cuatro tiposdistintos de numerales que etiqueta de maneradistinta:

1. Los numerales partitivos tienen la etiquetaZd (p.e. una docena, un millon, un centenar,etc.).

2. Las cantidades monetarias reciben la etique-ta Zm, que tienen como lema la cantidad (encifras) y el nombre de la unidad monetaria

11http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es

[Ultimo acceso: 20/11/2012]

en sigular (p.e. 2000 dolares, cuyo lema es$ USD:2000)

3. Las fracciones y porcentajes tienen la etique-ta Zp. El lema normaliza la proporcion (p.e.74 %, cuyo lema es 74/100)

4. Las magnitudes fısicas reciben la etiquetaZu. El lema normaliza la unidad de medi-da y la magnitud (p.e. 30Km/h, cuyo lemaes SP km/h:30).

Para empezar, usamos FreeLing para el anali-sis morfologico del corpus, y una vez que los tex-tos estan etiquetados, llevamos a cabo la tarea deanotacion de las expresiones numericas en GATE.Para hacer posible la integracion de ambas herra-mientas, es necesario convertir el formato de sali-da de FreeLing en un formato XML legible porGATE.

Para anotar las diferentes expresiones numeri-cas en los textos originales, incluyendo sus posi-bles modificadores, hemos utilizado GATE paradefinir un conjunto de gramaticas JAPE (Ja-va Annotation Patterns Engine). JAPE es unaversion de CPSL - Common Pattern Specifica-tion Language. JAPE proporciona la traduccionde estados finitos sobre anotaciones basadas enexpresiones regulares y reconoce las expresionesregulares en las anotaciones en los textos quequeremos analizar. Una gramatica JAPE con-tiene conjuntos de reglas, organizadas en fases ycompuestas por patrones y sus correspondientesacciones. Las fases se ejecutan en cascadas detransductores de estados finitos sobre las anota-ciones en los textos originales. La parte izquierdade la regla (left-hand-side, LHS) describe el pa-tron de la anotacion, mientras la parte derechade la regla (right-hand-side, RHS) sirve paradeclarar que acciones ejecutar sobre la anotacionen cuestion. Es posible hacer referencia a lasanotaciones de LHS en la parte de la derecha,poniendoles etiquetas a los elementos del patron.

En la Figura 1 se puede ver un ejemplo de untexto original del corpus con las expresiones re-conocidas usando las gramaticas JAPE definidaspara anotar los distintos tipos de expresionesnumericas. El Cuadro 1 muestra un ejemplo de laregla titulada “CasiPorcFract”, que usamos paraidentificar las expresiones numericas de tipo por-centajes y fracciones acompanadas por el modi-ficador “casi”. La parte que precede a “–>” esla parte izquierda, y la parte derecha es la parteque le sigue. La parte izquierda especifica un pa-tron que tiene que coincidir con las anotacionesque existen en el documento GATE, mientrasque la parte derecha especifica que es lo que hayque hacer con el texto coincidente. En el ejem-

32– Linguamatica Susana Bautista et al.

Page 7: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

Figura 1: Ejemplo de texto con las expresiones reconocidas usando gramaticas JAPE

plo, la regla tiene el tıtulo “CasiPorcFract”, lacual comprueba en el texto anotado las palabrasque tienen en su lema una caracterıstica “casi”y la palabra esta anotada con la etiqueta “Zp”.Una vez que la regla ha encontrado una secuenciade texto que coincida con este patron, la anotacon la etiqueta que se indica despues de la pala-bra “annotate” en la parte derecha de la regla,en este caso, con la etiqueta “CASIporcFract”.Ademas, dentro de la expresion numerica iden-tificada, se etiqueta como MOD EXP el textoque corresponde con el modificador y que ha sidoidentificado en la parte izquierda con la etique-ta “modifier”. De esta forma, tendremos anotadodentro de la expresion numerica tanto el modifi-cador como la cantidad. El texto queda anotadocon la gramatica JAPE definida para este tipo deexpresion “CasiPorcFract”, cuyo modificador es“casi”, acompanado de cualquier cantidad etique-tada por “Zp”, como se puede ver en el ejemplode la Figura 2, para el caso de “Casi el 20 %”.

Rule: CasiPorcFract(((word.lemma=“casi”) (word)?): modifier(word.tag=“Zp”)):annotate–>:modifier.MOD EXP={semantics=“casi”},:annotate.CASIporcFract= {semantics=“porcFract”}

Cuadro 1: Ejemplo de una regla de una gramaticaJAPE

Estas gramaticas en GATE las usamos para

Figura 2: Ejemplo de expresion numerica anotadacorrespondiente a la regla JAPE mostrada

anotar todos los distintos tipos de expresionesnumericas que encontramos en el corpus. Estonos permite llevar a cabo un analisis del cor-pus e identificar diferentes tipos de expresionespara ser presentadas en la encuesta a los partici-pantes. Para desarrollar las reglas hemos contadocon el sistema ANNIC (Aswani et al., 2005), yun componente de GATE para indexacion, ano-tacion y busqueda. Este sistema nos permite ha-cer busqueda en el corpus anotado con las eti-quetas de nuestro interes, que han sido gene-radas a partir de las reglas que hemos definido ennuestras gramaticas. Este conjunto de gramaticasJAPE es un primer paso para una futura imple-mentacion de las reglas de simplificacion.

Sobre un subconjunto de 10 textos, con untotal de 59 oraciones, pertenecientes al cor-pus se lleva a cabo la correcion manual delas reglas ejecutadas automaticamente. Usan-do la herramienta GATE se hace una com-

Analisis de la Simplificacion de Expresiones Numericas en Espanol. . . Linguamatica – 33

Page 8: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

paracion automatica identificando las etiquetasnuevas creadas manualmente y las generadas au-tomaticamente a partir de las gramaticas JAPEdefinidas. Las gramaticas desarrolladas utilizan-do el metodo previamente explicado tienen unacobertura de 13 casos diferentes de expresionesnumericas de los cuatro tipos distintos identifica-dos por el analizador. En el Cuadro 2 mostramoslos 13 casos identificados en el corpus usado paramedir la cobertura de las reglas definidas.

Hemos comprobado el rendimiento de las re-glas definidas y hemos obtenido los siguientes re-sultados globales: precision= 0.94, recall= 0.93 yF-measure= 0.93. Para cada etiqueta, GATE cal-cula, precision, recall y F-measure, y hemos ob-servado que en las expresiones numericas menosfrecuentes se obtienen peores resultados peropara las expresiones numericas mas frecuentes seobtienen muy buenos resultados. En los resulta-dos globales vemos que tenemos una precision yun recall muy altos, ya que nuestras reglas etique-tan una fraccion bastante alta de las instanciasrelevantes del corpus.

3.3 Encuesta

El objetivo de la encuesta es ampliar el con-junto de posibles operaciones de simplificacion deexpresiones numericas obtenidas del corpus. Ora-ciones aisladas que contienen expresiones numeri-cas se les ofrecen a los participantes en la en-cuesta para que propongan sus propias simplifi-caciones.

Para ello, se preparo un cuestionario usandola herramienta que proporciona Google para ha-cer formularios, y se albergo en Google Docs12.La evaluacion experimental incluyo a 23 par-ticipantes, todos hablantes nativos de espanolen posesion de un tıtulo universitario. El cues-tionario se compone de frases tomadas de la re-copilacion antes mencionada, con la diferenciade que el contexto que las rodea fue omitido yel unico cambio que se aplica es el relativo alas expresiones numericas que se traten en ca-da oracion. Para este cuestionario se opto por 14frases con un total de 27 expresiones numericas.Doce de las expresiones originales ya contenıanun modificador, mientras que las 15 restantes nolo contenıan. La siguiente frase es un ejemplo deltipo de oraciones que se presentaron en la encues-ta:

Esta catastrofe ha matado a [unas2.000 personas], ha afectado a [mas

12https://docs.google.com/spreadsheet/viewform?formkey=dDhWQ2NyckpUTUthbTVIRVVFTUtaRGc6MQ#gid=0 [Ultimo acceso: 20/11/2012]

de 20 millones], ha destruido [cercade 1,9 millones de hogares] yha devastado [al menos 160.000kilometros cuadrados], una [quintaparte] del paıs.

Los participantes tenıan que proporcionarsimplificaciones de las expresiones numericasmarcadas por corchetes en cada frase que sepresentaba en el cuestionario. Las instruccionesdecıan que las expresiones numericas se podıansimplificar utilizando cualquier formato: numerosen palabras, cifras, fracciones, proporciones, etc.Ası mismo, se indico que los modificadores talescomo menos que o alrededor de podıan ser uti-lizados si se consideraba necesario. A los partici-pantes se les indico que mantuvieran el sentido dela frase en la version simplificada tan cerca comofuese posible del sentido de la oracion original yque, de ser necesario, se podıa reescribir la sen-tencia original completa. No se impusieron masrestricciones, es decir, los usuarios no recibieroninstrucciones para aplicar las reglas de simplifi-cacion que se habıan extraıdo previamente delcorpus, dado que la idea era compararlas con lasoperaciones extraıdas del corpus y estudiar dichacomparacion. La Figura 3 muestra una pequenaparte de la encuesta, donde se puede ver unaoracion que se presento a los usuarios, con una ex-presion numerica entre corchetes, la cual se pedıasimplificar.

4 Analisis de los datos

Aquı presentamos los resultados obtenidos porseparado: en primer lugar, a partir del analisis delcorpus, y en segundo lugar, a partir del analisis delos resultados recogidos en la encuesta realizada.Los datos obtenidos se analizan con un enfoquecomparativo, con el objetivo de extraer conclu-siones sobre la posibilidad de la implementacionde las reglas de simplificacion extraıdas.

4.1 Analisis del corpus

Como ya se ha mencionado, aquı tratamosexpresiones numericas como casos especıficos desimplificacion lexica. El analisis del corpus, com-puesto por textos periodısticos, que se llevo acabo con el fin de extraer las estrategias de sim-plificacion lexica, ha mostrado que las expre-siones numericas no solo son abundantes en estegenero, sino que tambien se modifican con fre-cuencia para conseguir un texto de salida masfacil de leer. Cada texto original contiene unpromedio de 3,78 expresiones numericas.

34– Linguamatica Susana Bautista et al.

Page 9: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

Etiqueta Expresion Numerica EjemploCASIporcFract casi + Zp casi un cuarto

DURANTENUM durante + Z durante 24 dasMASDENUM mas de + Z mas de 50.000MASDEPART mas de + Zd mas de 20 millones

MASDEporcFract mas de + Zp mas del 40 %NUMERALES Z 34.589

NUMMAGNITUDES Zu 32 metrosNUMMONETARIAS Zm 1.400 euros

NUMPARTITIVO Zd 32 millonesNUMPORCENTYFRACT Zp 75 %

UNASMagnit unas + Zu unas 700 millasUNASNUM unas + Z unas 20.000MOD EXP modifier alrededor, menos de...

Cuadro 2: Tipos identificados en el corpus usado para medir la cobertura de las reglas

Figura 3: Ejemplo de un parte de la encuesta

En las versiones simplificadas de los textos, unnumero significativo de estas expresiones numeri-cas son eliminadas: haciendo el calculo, menos dela mitad de estas expresiones en los textos origi-nales se han conservado en sus versiones simpli-ficadas. De las expresiones que no se eliminan,la mayorıa contienen algun tipo de modificaciony en el texto simplificado se presentan de for-ma diferente a la que aparece en el texto origi-nal. Tambien hemos observado un uso variado demodificadores, entre ellos, mas de, cerca de, casi,etc.

Ha habido casos en que las expresionesnumericas son eliminadas, en otros casos elnumero original se redondea cuando una expre-sion es sustituida por otra, o casos en que elnumero fue redondeado usando ademas un modi-ficador anadido que no estaba presente en el tex-to original. En los trabajos previos (Bautista etal., 2011), (Power y Williams, 2012) ya se sugiereque los modificadores pueden ser una herramien-ta util para simplificar una variedad de diferentesexpresiones numericas.

Lo que sigue es un resumen de las operacionesde simplificacion mas comunes aplicadas a expre-siones numericas en el corpus:

1. Los numeros en parentesis se eliminan (estaoperacion ha sido aplicada en un 100 % de

los casos en la simplificacion manual):

un millon de francos suizos (unos 770.000euros) ⇒ un millon de francos suizos

2. Los numeros en letras se sustituyen pornumeros expresados con dıgitos:

nueve millones ⇒ 9 millones

3. Las grandes cantidades se expresan pormedio de una palabra en lugar de dıgitos:

unos 370.000 ninos⇒ mas de 300 mil ninos

4. Grandes numeros se redondean:

casi 7.400 millones de euros ⇒ mas de 7000millones de euros

5. Se aplica redondeo eliminando puntos deci-males:

1,9 millones de hogares ⇒ 2 millones decasas13

Tras el analisis del corpus, teniendo en menteuna futura implementacion computacional de lasreglas identificadas, se lleva a cabo una encues-ta dirigida exclusivamente a la simplificacion deexpresiones numericas para observar el uso demodificadores y las estrategias de simplificacion

13Aquı otro cambio lexico es aplicado: hogar ⇒ casa

Analisis de la Simplificacion de Expresiones Numericas en Espanol. . . Linguamatica – 35

Page 10: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

aplicadas. Recopilando esta informacion, pode-mos completar los resultados obtenidos en el es-tudio de corpus antes mencionado de cara a laimplementacion.

4.2 Resultados de la encuesta

Los datos recogidos a partir de la encues-ta realizada han sido analizados para identificarlas operaciones de simplificacion que los partici-pantes han usado para simplificar las expresionesnumericas.

Para cada expresion numerica en una oraciondada identificamos todas las operaciones usadaspor todos los participantes. Se han identificadoun total de 26 operaciones diferentes aplicadaspara simplificar las expresiones dadas en la en-cuesta. Algunos ejemplos son anadir una expli-cacion, calcular el tanto por ciento dado, cambiarde porcentaje a fraccion, etc. No todas las ope-raciones ocurren con suficiente frecuencia comopara tenerlas en cuenta en el analisis, por lo quehan sido agrupadas dependiendo del tipo de cam-bio aplicado (por ejemplo si han usado o no modi-ficador) o si la informacion ha sido eliminada, lacantidad redondeada o la expresion numerica re-escrita. Por eso, nos centramos en las operacionesmas comunes aplicadas por los participantes.

Como ilustracion, veamos el ejemplo de la ex-presion original 55 en la frase:

Amnistıa Internacional ha documenta-do durante 2010 casos de tortura y otrosmalos tratos en al menos 111 paıses,juicios injustos en 55, restricciones ala libertad de expresion en 96 y presosde conciencia encarcelados en 48.

Las siguientes simplificaciones fueron sugeridaspor los sujetos:

mas de 50

mas de la mitad de ellos

la mitad de ellos

55

50

La expresion simplificada mas comunmenteusada fue mas de 50, donde un modificador esanadido y el numero redondeado, aunque con unapequena perdida de precision.

Las observaciones generales que sacamos delanalisis de datos obtenidos del cuestionario sonlas siguientes:

El numero en sı mismo:

• se deja sin cambios (26.3 %),

• se redondea (26.3 % ⇒ mas de un25 %),

• se cambia su forma matematica (24 %⇒ casi un cuarto),

• se reescribe en letras (3 % ⇒ tres porciento),

• se reescribe en dıgitos (ocho millones⇒8 millones)

En ocasiones se pierde precision de la expre-sion numerica cuando se sustituye por unaversion simplificada. Por ejemplo, Alrededorde 390.000 personas ⇒ Casi 400.000 per-sonas

Si la expresion original no tenıa modificador,en ocasiones un modificador es usado en laopcion simplificada para tener en cuenta laperdida de precision. Por ejemplo, 78 % ⇒mas del 75 %

En las oraciones presentadas en la encuesta es-tudiamos, por un lado, las expresiones originalesque ya contienen un modificador y, por otro, lasque van sin modificador. De las 27 expresionesnumericas originales presentadas en la encuesta,15 de ellas no tenıan modificador mientras quelas restantes 12 sı tenıan.

En el caso de las 12 expresiones originalescon modificadores, en 7 de ellas la operacionde simplificacion usada mas comun fue sustituirel modificador original por otro y redondear elnumero. Esto ocurre con los siguientes modifi-cadores: al menos y casi son sustituidos por masde, mientras que unos, alrededor de y cerca de sonsustituidos por casi. En 4 expresiones, el modifi-cador original se mantuvo sin cambios, como esel caso de mas de, unos o unas, mientras que elnumero fue redondeado. Hubo solo un caso dondela expresion numerica original fue completamentereescrita por la mayorıa de los participantes en laencuesta y por lo tanto el modificador original seperdio.

Por otro lado, de las 15 expresiones numericasoriginales sin modificador, en 8 casos un modifi-cador fue anadido por la mayorıa de los partici-pantes; 5 casos continuaron sin modificador (to-dos ellos debido al hecho de que la simplificaciones igual a la original, es decir, no hubo ninguncambio); y en 2 casos la operacion mas comunfue reescribir la expresion numerica original.

Consideramos como casos de reescritura loscasos en los que se elimino la expresion numericaoriginal y se utilizo informacion textual en su lu-gar, tal como en el ejemplo siguiente: durante 23

36– Linguamatica Susana Bautista et al.

Page 11: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

horas al dıa se reescribio como casi todo el dıa.Ademas, observamos simplificaciones donde uncambio de estrategia de simplificacion fue apli-cado, como se pueden ver en estos ejemplos: laexpresion 26 % fue simplificada usando una ex-presion en forma de fraccion una cuarta parte, ylo mismo fue aplicado en el caso de 34 %, el cualfue reescrito como un tercio. Los resultados dela encuesta nos hacen ver que el uso de modi-ficadores juega un papel fundamental cuando sesimplifican expresiones numericas.

Nuestros datos muestran que las operacionesmas comunmente aplicadas son anadir un modi-ficador cuando la expresion original no lo tieneya, y redondear la expresion numerica original,explicado en profundidad en la Seccion 4.3.

4.3 Analisis comparativo

Para llevar a cabo un analisis comparativo delos resultados obtenidos en el estudio realizadosobre el corpus y sobre la encuesta, nos centramosen el subconjunto de expresiones numericas usa-das en la encuesta y en sus equivalentes en elcorpus. Posteriormente, hemos extraıdo todas lasoperaciones aplicadas en el proceso de simplifi-cacion de las expresiones seleccionadas y com-paramos las frecuencias relativas de estas opera-ciones en el corpus y en la encuesta. Los Cuadros3 y 4 presentan los resultados. Las filas marcadascorresponden a las operaciones que coinciden enambos casos.

Operaciones de Numero de% Uso

simplificacion ExpNumEliminar ExpNum 12 44.4 %Eliminar Oracion 7 25.9 %Misma ExpNum 2 7.4 %Cambiar Modifi-cador + Redondeo

2 7.4 %

Eliminar Modifi-cador + Redondeo

2 7.4 %

Reescribir ExpNum 1 3.7 %Eliminar Modifi-cador + Mismonumero

1 3.7 %

Total 27 100 %

Cuadro 3: Operaciones de simplificacionobtenidas del analisis del corpus

En los resultados obtenidos del analisis delcorpus, mas del 50 % de las expresiones numeric-as fueron eliminadas, mientras que los resultadosde la encuesta sugieren una preferencia por man-tener la informacion a costa de una ligera perdi-da de precision a traves de redondeos y compen-sada por el uso de modificadores. En compara-

Operacion de Numero de% Uso

simplificacion ExpNumAnadir Modificador+ Redondeo

9 33.3 %

Cambiar Modifi-cador + Redondeo

6 22.2 %

Misma ExpNum 5 18.5 %Reescribir ExpNum 5 18.5 %Mantener Modifi-cador + Redondeo

2 7.4 %

Total 27 100 %

Cuadro 4: Operaciones de simplificacionobtenidas del analisis de la encuesta

cion con la simplificacion del corpus, se opta masa menudo por reescribir la informacion o dejarlas expresiones sin modificar, principalmente enlos casos de los numeros grandes como 2.000 mi-llones de dolares, mas de 20 millones o 65 millo-nes.

En cuanto al uso de los modificadores, losdatos recogidos de la encuesta muestran que losmodificadores preferidos cuando una expresionnumerica se simplifica son: mas de y casi. Estosdos modificadores han sido los mas utilizados tan-to cuando el modificador de la expresion originalse cambia por otro, como cuando el modificadorse anade a la expresion ya que inicialmente estano contenıa ningun tipo de modificador.

Observando las operaciones de simplificacionaplicadas por los participantes tanto en la simpli-ficacion del corpus como en la encuesta, se puedever que hay tres operaciones comunes en amboscasos: Cambiar Modificador + Redondeo, MismaExpNum y Reescribir ExpNum. La primera y lasegunda tienen un uso similar. Obviando los ca-sos de eliminacion del corpus, son las dos opera-ciones mas usadas por los expertos en la simpli-ficacion de las oraciones con contexto. Y en elcaso de la encuesta, sin contar el caso mas usado(Anadir Modificador + Redondeo), estas opera-ciones son tambien muy usadas por los partici-pantes para simplificar las oraciones sin contexto.De ahı que, dependiendo del tipo de la expresionnumerica original, una u otra sean usadas paraproporcionar una expresion simplificada. En elcaso de la ultima operacion, Reescribir ExpNum,es mucho mas frecuente en el caso de la simplifi-cacion de oraciones sin contexto en comparacioncon el caso de los textos del corpus.

Ademas, es significativo destacar que de lasoperaciones no comunes en los dos analisis, enel caso del corpus todas ellas estan relacionadascon la eliminacion de informacion (oraciones, ex-presiones numericas, modificadores) y en cambio,

Analisis de la Simplificacion de Expresiones Numericas en Espanol. . . Linguamatica – 37

Page 12: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

en el caso de la encuesta se anade informacion ose lleva a cabo una transformacion de la expre-sion, manteniendo el modificador pero aplicandoun redondeo a la cantidad. Uno de los factoresque influye a la hora de detectar tantos casos deeliminacion en el caso de la simplificacion del cor-pus, es que cuando se pide simplificar un texto enseguida se asocia con la idea de eliminar informa-cion superflua para que ası sea mas facil de leer ycomprender. Pero esto no siempre es ası, ya quela perdida de informacion no garantiza un textomas simple. A veces hay que anadir informacionpara ayudar a la lectura y comprension del textoy entran en juego otros factores, como la frecuen-cia de uso de las palabras, la ambiguedad y el usoen el contexto de las mismas.

Durante el analisis de las simplificacionessugeridas por los participantes de la encuesta, de-tectamos que para algunas de las opciones sim-plificadas que propusieron el contexto de la ex-presion numerica dentro de la oracion habıa sidoconsiderado. Veamos por ejemplo en la oracion:Amnistıa Internacional ha documentado durante2010 casos de tortura y otros malos tratos en almenos 111 paıses, juicios injustos en 55, res-tricciones a la libertad de expresion en 96 y pre-sos de conciencia encarcelados en 48. Para la ex-presion original 55, de los casos mostrados enla seccion 4.2, podemos observar que dos de lassimplificaciones (mas de la mitad de ellos, la mi-tad de ellos) han sido propuestas simplificandola expresion original considerando el contexto anivel de oracion y haciendo referencia a los “111paıses” nombrados anteriormente. Esto es sig-nificativo, porque a pesar de que las oracionesfueron presentadas sin contexto respecto al textocompleto, algunas simplificaciones de expresionesnumericas propuestas por los participantes sı queconsideraron el contexto a nivel de oracion paragenerar una version simplificada.

5 Discusion y Conclusiones

Los casos de eliminacion, de la oracion enterao justo de la expresion numerica en concreto, soloaparecen en el analisis del corpus. Esto se debe alhecho de que los ejemplos dados en la encuesta e-ran oraciones individuales sin informacion anadi-da, mientras que los ejemplos en el corpus siem-pre van acompanados por contexto. Por lo tanto,en las oraciones de la encuesta no se producencasos de eliminacion de la expresion numerica, ymenos de la oracion completa, ya que no se dabainformacion anadida de donde aparecıa la oracionen el texto original.

Ademas hay que senalar que no se dio como

posibilidad a los participantes la opcion de eli-minar informacion, solo de simplificar las expre-siones que aparecıan en cada oracion. Estos casosponen de relieve el papel importante que juega elcontexto a la hora de decidir si eliminar o modi-ficar una expresion numerica en una oracion.

La simplificacion manual del corpus se hizo sa-biendo que el lector final serıa una persona condiscapacidad cognitiva mientras que en la encues-ta no se especifico ningun usuario final a quieniban dirigidas las simplificaciones de las oracionesque se presentaban. Por lo tanto, lo que se tieneque decidir es si se debe dar preferencia a lapreservacion de la informacion a coste de la pre-cision, o eliminar la informacion superflua porcompleto de un texto que contiene expresionesnumericas.

El corpus que hemos utilizado en este trabajo,ha sido simplificado teniendo en cuenta el contex-to y con conocimiento del usuario final a quien ibadirigida la simplificacion. Estos dos factores per-miten una eliminacion selectiva con perdida muycontrolada de informacion (porque al usuario nole va a servir o porque ya se extrae del contexto).

Dentro del conjunto de operaciones de simpli-ficacion identificadas, observamos que hay opera-ciones comunes a la hora de simplificar las expre-siones numericas teniendo en cuenta el contexto(corpus) y sin tener en cuenta el contexto del tex-to (encuesta). Lo que demuestra que hay opera-ciones que, a priori, son mas independientes delcontexto, y que se aplican en ambos casos, obte-niendo una version simplificada de la expresionnumerica que se quiere adaptar.

Es significativo que usando el analizador Free-ling seamos capaces de identificar y anotar dife-rentes tipos y muchos casos distintos de ex-presiones numericas, ya que en comparacioncon otros analizadores basados en aprendiza-je automatico como, OpenNLP14, Maltparser15,Mate-tools16, que basan su analisis en el corpusque se utiliza para su entrenamiento, y usan laanotacion del Penn Treebank POS, en la que solose dispone de una unica etiqueta para categorıasgramaticales (POS) para la informacion numeri-ca que es CD, no pueden dar mayor detalle deque tipo de expresion numerica ha sido identifi-cada.

Este estudio realizado corrobora las conclu-siones previas de los trabajos de Bautista et al.

14http://opennlp.apache.org/documentation.html

[Ultimo acceso: 20/11/2012]15http://www.maltparser.org/ [Ultimo acceso:

20/11/2012]16http://code.google.com/p/mate-tools/ [Ultimo acce-

so: 20/11/2012]

38– Linguamatica Susana Bautista et al.

Page 13: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

(2011) y Power y Williams (2012), sobre el usode modificadores y el uso de distintas estrategiasde simplificacion, en este caso para la adaptacionde textos en espanol.

6 Trabajo Futuro

Como parte de nuestro trabajo futuro tenemosla intencion de reunir un corpus mas rico en ex-presiones numericas variadas y repetir el estudiocon los editores humanos con el fin de extraer masposibles operaciones de simplificacion para otrostipos de expresiones aquı no tratadas, como sonpor ejemplo el tratamiento de los porcentajes.

Ademas de esto, tenemos planeado incluir in-formacion sobre el usuario final para el que seesta simplificando como un factor mas a teneren cuenta, ya que las simplificaciones pueden va-riar dependiendo de para quien se simplifique eltexto original. Si se opta por perder precision,preservarla o eliminar la informacion que no seanecesaria, tomar estas decisiones en gran medi-da depende del tipo de lector para el que vayadestinado el texto simplificado.

Desde el punto de vista de eliminacion de in-formacion, un posible enfoque es utilizar tecnicasde resumen automatico para desarrollar un clasi-ficador que se pueda emplear como herramientapara la simplificacion de textos, y ayude a de-cidir que contenido guardar y que elementos bo-rrar, donde el numero de expresiones numericasse utiliza como un rasgo para crear el clasificador(Drndarevic y Saggion, 2012).

El ultimo objetivo de nuestro trabajo es lle-var a cabo la implementacion de las operacionesdetectadas para la simplificacion de expresionesnumericas en espanol, como una categorıa es-pecıfica de expresiones lexicas. Los resultados delos dos analisis realizados se usaran para esta im-plementacion, considerando que algunas expre-siones numericas podrıan ser eliminadas depen-diendo del contexto y otras sustituidas parahacerlas mas accesibles. Para ello tenemos la in-tencion de llevar a cabo un analisis de los datosmas profundo y detallado sobre un corpus exten-so y obtener ası un conjunto de reglas de trans-formacion considerando ademas las necesidadesdel usuario final.

Agradecimientos

Queremos agradecer al Dr. Stefan Bott porsu ayuda ofrecida con el manejo del analizadorFreeling para realizar este trabajo.

Este trabajo ha sido parcialmente financiado

por el Gobierno Espanol a traves del Ministeriode Educacion y Ciencia (TIN2009-14659-C03-01Proyecto), Universidad Complutense de Madridy Banco Santander Central Hispano (GR58/08Beca de grupo de investigacion) y el programa debecas de Formacion de Personal de Investigacion(FPI).

Este trabajo, en parte, ha sido realizado ba-jo el proyecto titulado Simplext: un sistema au-tomatico para simplificacion de textos (Simplext:An automatic system for text simplification), conel numero TSI-020302-2010-84 17. Tambien quer-emos agradecer a la financiacion del ProgramaRamon y Cajal 2009 (RYC-2009-04291), Ministe-rio de Economıa y Competitividad, Secretarıa deEstado de Investigacion, Desarrollo e Innovacionde Espana.

Bibliografıa

Anula, A. 2007. Tipos de textos, complejidadlinguıstica y facilicitacion lectora. En Actasdel Sexto Congreso de Hispanistas de Asia,paginas 45–61.

Anula, A. 2008. Lecturas adaptadas a laensenanza del espanol como L2: variableslinguısticas para la determinacion del nivel delegibilidad. En La evaluacion en el aprendiza-je y la ensenanza del espanol como LE/L2,Pastor y Roca (eds.),, paginas 162–170, Ali-cante.

Aswani, N., V. Tablan, K. Bontcheva, y H. Cun-ningham. 2005. Indexing and Querying Lin-guistic Metadata and Document Content. EnProceedings of Fifth International Conferenceon Recent Advances in Natural Language Pro-cessing, Borovets, Bulgaria.

Bautista, S., P. Gervas, y R.I. Madrid. 2009.Feasibility analysis for semiautomatic con-version of text to improve readability. EnThe Second International Conference on In-formation and Communication Technologiesand Accessibility, May 2009.

Bautista, S., R. Hervas, P. Gervas, R. Power, yS. Williams. 2011. How to Make NumericalInformation Accessible: Experimental Identi-fication of Simplification Strategies. En Con-ference on Human-Computer Interaction, Lis-bon, Portugal.

Biran, O., S. Brody, y N. Elhadad. 2011. Puttingit Simply: a Context-Aware Approach to Lex-ical Simplificaion. En Proceedings of the ACL.

17http://www.simplext.es [Ultimo acceso: 20/11/2012]

Analisis de la Simplificacion de Expresiones Numericas en Espanol. . . Linguamatica – 39

Page 14: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

Bott, S. y H. Saggion. 2011. An Unsuper-vised Alignment Algorithm for Text Simplifi-cation Corpus Construction. En Workshop onMonolingual Text-to-Text Generation, Port-land, USA, June. ACL.

Burstein, J., J. Shore, J. Sabatini, Yong-WonLee, y M. Ventura. 2007. The automatedtext adaptation tool. En Candace L. Sid-ner Tanja Schultz Matthew Stone, y ChengXi-ang Zhai, editores, HLT-NAACL (Demonstra-tions), paginas 3–4. The Association for Com-putational Linguistics.

Candido, Jr., A., E. Maziero, C. Gasperin, Thi-ago. A. S. Pardo, L. Specia, y Sandra M.Aluisio. 2009. Supporting the adaptation oftexts for poor literacy readers: a text simpli-fication editor for brazilian portuguese. EnProceedings of the Fourth Workshop on Inno-vative Use of NLP for Building EducationalApplications, paginas 34–42, Stroudsburg, PA,USA. Association for Computational Linguis-tics.

Carroll, J., G. Minnen, Y. Canning, S. Devlin, yJ. Tait. 1998. Practical Simplification of En-glish Newspaper Text to Assist Aphasic Read-ers. En Proceedings of AAAI-98 Workshop onIntegrating Artificial Intelligence and Assis-tive Technology, paginas 7–10, Madison, Wis-consin.

Chandrasekar, Raman, Christine Doran, y Ban-galore Srinivas. 1996. Motivations and Meth-ods for Text Simplification. En COLING,paginas 1041–1044.

De Belder, J., K. Deschacht, y Marie-FrancineMoens. 2010. Lexical simpli?cation. En Pro-ceedings of Itec2010 : 1st International Con-ference on Interdisciplinary Research on Tech-nology, Education and Communication.

Deschacht, Koen y Marie-Francine Moens. 2009.Semi-supervised semantic role labeling usingthe latent words language model. En Pro-ceedings of the 2009 Conference on Empiri-cal Methods in Natural Language Processing:Volume 1 - Volume 1, EMNLP ’09, paginas21–29, Stroudsburg, PA, USA. Association forComputational Linguistics.

Devlin, S. y G. Unthank. 2006. Helping apha-sic people process online information. EnProceedings of the 8th international ACMSIGACCESS conference on Computers andaccessibility, Assets ’06, paginas 225–226, NewYork, NY, USA.

Dieckmann, Nathan F., Paul Slovic, y Ellen M.Peters. 2009. The use of narrative ev-idence and explicit likelihood by decision-makers varying in numeracy. Risk Analysis,29(10).

Drndarevic, Biljana y Horacio Saggion. 2012.Reducing text complexity through automaticlexical simplificacion: an empirical study forspanish. Procesamiento del Lenguaje Natural.

Inui, K., A. Fujita, T. Takahashi, R. Iida, yT. Iwakura. 2003. Text simplification forreading assistance: A project note. En In Pro-ceedings of the 2nd International Workshopon Paraphrasing: Paraphrase Acquisition andApplications, paginas 9–16.

Klebanov, B. B., K. Knight, y D. Marcu. 2004.Text simplification for information-seeking ap-plications. En On the Move to MeaningfulInternet Systems, Lecture Notes in Comput-er Science, paginas 735–747.

Lal, P. y S. Ruger. 2002. Extract-based summa-rization with simplification. En Proceedings ofthe ACL 2002 Automatic Summarization.

Maynard, D., V. Tablan, H. Cunningham, C. Ur-su, H. Saggion, K. Bontcheva, y Y. Wilks.2002. Architectural Elements of LanguageEngineering Robustness. Journal of NaturalLanguage Engineering – Special Issue on Ro-bust Methods in Analysis of Natural LanguageData, 8(2/3):257–274.

Medero, J. y M. Ostendorf. 2011. Identifyingtargets for syntactic simplification. En In Pro-ceedings of the Workshop on Speech and Lan-guage Technology in Education.

Mishra H, Mishra A, Shiv B. 2011. In praise ofvagueness: malleability of vague informationas a performance booster. Psychological Sci-ence, 22(6):733–8, April.

Padro, Ll., M. Collado, S. Reese, M. Lloberes,y I. Castelln. 2010. Freeling 2.1: Five yearsof open-source language processing tools. EnProceedings of the Seventh International Con-ference on Language Resources and Evalua-tion, Valletta, Malta.

Peters, Ellen, Judith Hibbard, Paul Slovic, yNathan Dieckmann. 2007. Numeracy skilland the communication, comprehension, anduse of risk-benefit information. Health Affairs,26(3):741–748.

Power, Richard y Sandra Williams. 2012. Gen-erating numerical approximations. Computa-tional Linguistics, 38(1).

40– Linguamatica Susana Bautista et al.

Page 15: An alisis de la Simpli caci on de Expresiones Num ericas en … · 2019-08-01 · pec co. Ese es el caso, por ejemplo, de la Simple Wikipedia en ingl es (Simple English Wikipedia3)

Qualifications y Curriculum Authority. 2010.Annual report and accounts. Informe tecni-co, Financial statements.

Quinlan, P. 1992. The Oxford PsycholinguisticDatabase. Oxford University Press.

Saggion, Horacio, Elena Gomez-Martınez, Alber-to Anula, Lorena Bourg, y Estaban Etayo.2011. Text simplification in simplext: Mak-ing texts more accessible. En Proceedings ofthe Sociedad Espanola del Procesamiento delLenguaje Natural.

Siddharthan, Advaith. 2002. Resolving Attach-ment and Clause Boundary Amgiguities forSimplifying Relative Clause Constructs. EnProceedings of the Student Research Work-shop, 40th Meeting of the Association forComputacional Linguistics.

Specia, L. 2010. Translating from Complexto Simplified Sentences. En 9th Internation-al Conference on Computational Processing ofthe Portuguese Language, paginas 30–39.

Yatskar, M., Pang B., C. Danescu-Niculescu-Mizil, y L. Lee. 2010. For the sake ofsimplicity: Unsupervised extraction of lexi-cal simplifications from wikipedia. CoRR,abs/1008.1986.

Analisis de la Simplificacion de Expresiones Numericas en Espanol. . . Linguamatica – 41