linguistic a 38

7/18/2019 Linguistic a 38

http://slidepdf.com/reader/full/linguistic-a-38 1/153

E L

A

studios de

ingüística

plicada

Y a

s a l ió

e l n

ú

m e

r o

P r e f a c i o

P r e s e n t a c i ó n

A r t í c u l o s

Universidad Nacional Autónoma de México

Centro de Enseñanza de Lenguas Extranjeras

A ñ o 2 2 , N ú m e r o 3 8 , D i c i e m b r e 2 0 0 3

S u s c r i p c i o n e s

C o n v e n c i o n e s p a r a e l

e n v í o d e m a n u s c r i t o s



E L

A

studios de

ingüística

plicada

Y a

s a l ió

e l n

ú

m e

r o

Características cuantitativas de la flexión verbal del Chuj

Alfonso Medina Cristina Buenrostro

Análisis de frecuencias de construcciones anafóricas en narraciones

infantiles

César A. Aguilar

Un modelo para la perífrasis española y el sistema de pronombres clíticos

en HPSG

Luis Pineda Iván Meza

Algoritmo flexibilizado de agrupamiento semántico

Gabriel Castillo Gerardo Sierra

Determinación de relaciones léxicas con base en el grado de subsunción

Juan Fajardo Héctor Jiménez

Hacia la verificación de diccionarios explicativos asistidos por computador a

Alexander Gelbukh Grigori Sidorov

Hacia la armonización de la terminología usada en las normas del comité

técnico iso/tc37: identificación semi-automática de términos problemáticos

en un corpus

María Pozzi

El rol de las predicaciones verbales en la extracción automática de

conceptos

Rodrigo Alarcón Gerardo Sierra

Tratamiento automático de textos en español

Luis Villaseñor Aurelio López Manuel Montes Claudia Vázquez

Artículos



Prefacio

La revista Estudios de Lingüística Aplicada, que siempre se ha caracterizado por unagama amplia de temas y perspectivas en sus artículos así como una polifonía en susenfoques y metodologías, está en búsqueda de nuevas políticas editoriales para reflejar

mejor el carácter interdisciplinario de la lingüística aplicada.Una de la nuevas propuestas es empezar a publicar números centrados en un tema

con editores invitados y de esta manera ayudar a la consolidación de las líneas de inves-tigación en el Departamento de Lingüística Aplicada del Centro de Enseñanza de Len-guas Extranjeras, así como captar los últimos desarrollos en diferentes áreas de las cienciasdel lenguaje en el ámbito nacional e internacional para presentarlos en las páginas denuestra revista.

Este volumen, como primer ejemplo de este tipo, se dedica a la lingüísticacomputacional en sus distintas representaciones según lo exige nuestra época de tecno-logías modernas. Es un terreno, quizás, poco conocido para los lectores de la revista ynos da gusto introducir en las páginas de ELA el fascinante mundo de la computadora ensu relación con la lingüística.

Agradecemos al editor invitado Gerardo Sierra su entusiasmo y dedicación en la preparación de este número temático de ELA.

Natalia IgnatievaEditora responsable de ELA



Presentación

La lingüística aplicada ha realizado un uso cada vez más extensivo de la computa-dora como herramienta para el análisis de datos. Con todo, la relación que existe entrela computación y la lingüística va más allá, como pretende mostrar este número temático

de Estudios de Lingüística Aplicada, en donde ya no sólo constituye una herramientamás, sino un componente esencial e incluso un objetivo de aplicación misma para el procesamiento y análisis del lenguaje.

El volumen reúne nueve trabajos en el ámbito de una interdisciplina entre la lin-güística y la computación, que según los presupuestos, los matices, los objetivos y losfines, se le ha denominado procesamiento de lenguaje natural, lingüística computacionalo ingeniería lingüística. La selección de estos trabajos se concentra en el ámbito dela lingüística de textos.

Como punto de partida, en el contexto de la morfología, Alfonso Medina y Cristina

Buenrostro abren con un trabajo conjunto de la aplicación de lingüística cuantitativa auna lengua indígena. En esencia, se trata del cálculo de las medidas de contenido deinformación y de economía de signos para la segmentación automática de palabras a uncorpus pequeño de una lengua maya, en particular para determinar los afijos deflexión verbal.

Le siguen dos artículos en el aspecto sintáctico. En el primero, César A. Aguilar muestra los beneficios del empleo de un sistema de cómputo e intercambio de datos espe-cializado en la transcripción y extracción de datos lingüísticos enfocados a fenómenos dellenguaje infantil. Su objetivo se concentra en la localización y conteo de frases nominalesy pronominales en función de correferencia anafórica con respecto a los actores principa-

les de un evento.Por su parte, Luis Pineda e Iván Meza realizan un proyecto de inteligencia

artificial enfocado al desarrollo de sistemas conversacionales en lenguaje naturalhablado en español. Como una parte central de dicha investigación, en este artículo pre-sentan algunos de los aspectos de la gramática del español formalizada para el proyecto.En particular, se centran en el modelo computacional de la perífrasis y de su interaccióncon el sistema de pronombres clíticos.

En cuanto al terreno de la semántica, encontramos dos artículos relacionados.El primero, de Gabriel Castillo y Gerardo Sierra, busca obtener de manera automá-



Gerardo Sierra10

tica grupos de palabras relacionadas semánticamente que pueden ser sustituidas unas por otras en un contexto sin cambiar su sentido. Revisan un algoritmo que inicia delalineamiento de pares de definiciones extraídas de diccionarios y que llega a la identi-ficación de las palabras que guardan una relación sinonímica con base en una medida

de similitud.El segundo artículo de esta misma línea, de Héctor Jiménez, tiene como objetivo

determinar diversas relaciones léxicas, principalmente las de sinonimia e hiper/hipo-nimia, entre acepciones de palabras que se encuentran en un corpus del español. Para ello,con base en las propiedades de los conceptos formales, utiliza una medida de la proporción delas características de los contextos de una palabra que aparecen en las características de loscontextos de otra palabra.

Como una aplicación concreta en el ámbito de la lexicografía, Alexander Gelbuck y Grigori Sidorov trabajan en la construcción de diccionarios explicativos. Muestran

el empleo de una herramienta computacional creada explícitamente para ayudar allexicógrafo tanto para la construcción automática de muchos de los elementos deeste tipo de diccionarios, como para el control de su calidad, a la vez de servir comomedio para el desarrollo interactivo del mismo.

Por su parte, en el campo de la terminología, María Pozzi se ocupa de laidentificación y análisis de términos mediante el uso de sistemas de extracción auto-mática en textos de especialidad. Con base en medidas estadísticas y en el análisis deconcordancias ordenadas alfabéticamente y por frecuencias, se concentra en identifi-car la inconsistencia en el manejo de términos y en corregirlos, evitando el uso desinónimos y de formas polisémicas

Más adelante, como parte del análisis del discurso, Rodrigo Alarcón y GerardoSierra realizan un análisis de los patrones léxicos recurrentes que utiliza un autor pararesaltar visual y gráficamente la presencia de un término que define. De esta manera,sientan las bases para desarrollar un posterior sistema de recuperación automática de los posibles conceptos, esto es, los términos y sus definiciones, en textos de especialidad.

Finalmente, en la misma línea de extracción de información de corpus, LuisVillaseñor, Aurelio López, Manuel Montes y Claudia Vásquez describen su aporta-ción a los procesos de tratamiento automático de textos en español, y en especial deaquellos obtenidos por Internet. Ejemplifican con su trabajo realizado en la búsquedade información relevante en periódicos sobre los desastres ocurridos en México.

En las conclusiones del último artículo, y como cierre de la presentación deeste volumen de Estudios de Lingüística Aplicada, se enfatiza, a manera de resumen,que se cuenta con un campo interdisciplinario en el que se comparten las experienciasy conocimientos de los lingüistas y los informáticos. De esta unión resultan tres obje-tivos principales: la construcción de recursos lingüísticos útiles para ambas discipli-nas, el diseño de herramientas para validar teorías lingüísticas propias del español deMéxico, y la construcción de sistemas computacionales de uso práctico en los que seaun componente básico el lenguaje humano.



11Presentación

Cabe señalar que el contenido de los artículos es responsabilidad de los autores y queestos sólo siguieron las observaciones dadas por los dictaminadores. Debido a que se tratade un área nueva de investigación en México y que la mayoría de la literatura seencuentra en inglés, se llegan a utilizar extranjerismos, préstamos lingüísticos y, en

algunas ocasiones, se proponen neologismos que a la fecha no se han estandarizado.Por ello, se puede encontrar que, por ejemplo, el segundo término del concepto precisionand recall se traduce, en este volumen, como evocación o recuerdo.

Sólo resta agradecer a la editora responsable, Natalia Ignatieva, por abrirnoseste espacio de diálogo y reflexión dentro de Estudios de Lingüística Aplicada. Asi-mismo, a los dictaminadores especializados en este tema: Albert Álvarez (Universidadde Sonora), Rosa Estopá (Universitat Pompeu Fabra), Fabio Rinaldi (Universidad deZurich), Carlos Rodríguez Penagos (Universitat Pompeu Fabra), Randy Sharp(University of British Colombia), Arturo Trujillo (CRCE) y Elia Yuste (Universidad

de Zurich). Finalmente, al mismo equipo técnico y de apoyo para hacer posible estenúmero especial de ELA.

Gerardo SierraEditor invitado



CONVENCIONES PARA EL ENVÍO DE MANUSCRITOS

1. Los manuscritos deberán ser capturados en formato ASCII o en alguno de los siguientes procesadores de palabras: WinWord, Microsoft Word, Word Perfect, con letra tamaño de

12 puntos, a doble espacio, en formato carta y respetando los siguientes márgenes: iz-quierdo 3.5 cm., derecho 1.5 cm., superior 2.5 cm., inferior 2.5cm.

Los originales deberán ser entregados impresos en láser por duplicado, con su correspon-diente diskette que deberá estar etiquetado con el nombre de artículo, autor, así como el

procesador empleado y versión. Los cuadros, gráficas, fotografías, etc., deberán entregarse con la mejor calidad posible e

indicando su ubicación dentro del texto. 2. La portada deberá contener la siguiente información escrita en altas y bajas: título, nombre

del autor, institución en la que trabaja y domicilio, teléfono y correo electrónico para envíode correspondencia.

3. Los trabajos deberán estar acompañados de un resumen de 120 a 150 palabras en español

y su traducción al inglés. 4. El artículo debe incluir las palabras claves (5-6) después del resumen. 5. Para facilitar su composición en ELA, el manuscrito deberá señalar tipográficamente los

niveles de jerarquía en el contenido: el título del apartado en primer nivel jerárquico en boldaltas y bajas, el título del apartado en segundo nivel jerárquico en cur sivas bold en altas y

bajas, o en su caso con números arábigos: 1., 1.1, 2., 2.1, etcétera. 6. Las citas y notas de referencia deberán incluirse entre paréntesis ( ) dentro del texto sin

enumerar. Si el autor está mencionado dentro del texto, poner sólo el año de la publicacióny la(s), página(s): (1987:56). Si el autor no está mencionado, incluirlo: (Oller 1986:33-34).

7. Las notas de contenidos deberán numerarse en el texto y anexarse al final del artículo. 8. La bibliografía deberá anexarse de la siguiente forma:

ANDERSEN, RW (1981) “Two perspective on pidginization as second language acquisition”. En R.W. Andersen (ed.) New dimensions in second language acquisition research. Rowley, Massachusettes: Newbury House Publishers, 165-95.

NAIMAN, N.,FROHLICH, M., STREN, H., TODESCOP, A. (1978) The good languagelearner .

Toronto: Ontario Institute for Studies in Education, 86-87.

9. Los manuscritos no deben exceder 25 cuartillas.10. Se aceptan artículos en inglés.

11. Los originales deberán enviarse a la siguiente dirección: Estudios de Lingüística Aplicada Centro de Enseñanza de Lenguas Extranjeras Universidad Nacional Autónoma de México Ciudad Universitaria, Delegación Coyoacán 04510 México, D.F. correo electrónico: [email protected]

12. La revista se compromete a enviar el resultado del dictamen en un plazo razonable a partir de lafecha de recepción del original. El autor recibirá gratuitamente un ejemplar de la revista.



Estudios de Lingüística Aplicada, núm. 38, 2003

Características cuantitativas de la flexión verbal del Chuj

Alfonso MedinaGrupo de Ingeniería LingüísticaInstituto de Ingeniería, UNAM

Elsa Cristina BuenrostroInstituto de Investigaciones Antropológicas, UNAM

This paper presents the application of two word-segmentation methods — measurement of information content or entropy (Shannon and Weaver 1949) and that of the economy of signs (de Kock and Bossaert 1974, 1978)— to a small corpus of Chuj, a Mayan language spoken in Chiapas and Guatemala. The motive for this is to determine whether or not it is possible to discover automatically some set of inflexional affixes, in spite of the small size of the corpus. Results show that information content is adequate for the discovering of about 83% (precision measure) of verbal inflexional affixes, whereas application of the economy principle requires a greater sized corpus.

En este trabajo se presenta la aplicación de dos métodos de segmentación automática de palabras —contenido de información o entropía (Shannon y Weaver 1949) y el principiode economía de los signos (de Kock y Bossaert 1974; 1978)— en un corpus pequeño del chuj, una lengua maya hablada en Chiapas y Guatemala. El objetivo es determinar si es posible descubrir automáticamente, a partir de un corpus reducido, por lo menos algunos sufijos de flexión verbal. Los resultados indican que el contenido de información es unamedida suficientemente fina para llevar a cabo este objetivo con un 83% de éxito (por-centaje de precisión) para los afijos de flexión verbal, mientras que la medida de econo-mía requiere de un corpus de mayor tamaño.

Palabras clave: morfología, chuj, afijos, corpus, entropía, economía.Fecha de recepción del manuscrito: marzo del 2003

Alfonso Medina.Grupo de Ingeniería Lingüística, Instituto de Ingeniería, UNAMTorre de Ingeniería, Cubículo 3, Basamento, Circuito Interior, 04510 México D. F.correo electrónico: [email protected].

Elsa Cristina Buenrostro.Instituto de Investigaciones AntropológicasUNAM, 04510 México D. F.correo electrónico: [email protected]



A. Medina / E. Buenrostro16

Introducción

Dentro de los trabajos de lingüística automática existen en realidad pocos métodos dedescubrimiento de morfemas mediante computadoras, aquellos que casi siempre se hanaplicado a lenguas muy conocidas de origen indoeuropeo, especialmente el inglés. Lariqueza de lenguas de América no ha llamado la atención de los lingüistas que utilizanmáquinas para investigar al lenguaje. Sin duda uno de los mayores obstáculos para apli-car estos métodos en estas lenguas es la recolección de corpus apropiados. La recopilaciónde tales herramientas de investigación científica es muy costosa (en tiempo y recursos detodos tipos) y raras veces recibe el reconocimiento que merece. Por eso los lingüistas amenudo atesoran los textos que ellos mismos obtienen de su interacción con los hablantes.Por si fuera poco, los corpus que logran reunir con tanto trabajo son de tamaño tan reducidoque se cuestiona, con razón, su carácter de muestras estadísticamente representativas de las

lenguas en cuestión, en especial al compararlos con aquellos corpus gigantescos que seutilizan en los grandes proyectos de lingüística automática del mundo.En este trabajo se presentan los resultados de la aplicación de algunos métodos de

segmentación automática de palabras a un corpus pequeño de una lengua maya. La ideaes descubrir automáticamente los afijos de flexión de esa lengua, es decir, identificarlosmediante sus características cuantitativas sin la intervención del ojo humano. Luego, para evaluar este procedimiento, se comparan los resultados con la información propor-cionada por el especialista.

Antecedentes

Fue en el marco del distribucionalismo que Zellig Harris examinó en corpus de diversaslenguas las evidencias formales de las fronteras entre morfemas (Harris 1955). Sumétodo consiste en determinar el número de fonemas que preceden o siguen unafrontera morfológica hipotética. A mayores cuentas de fonemas, más morfológica esdicha frontera. Este método inspiró muchos procedimientos para segmentar el discurso.Aunque Harris lo aplicó a varias lenguas, los procedimientos automáticos basados enéste y en otros métodos se ocuparon predominantemente de la lengua inglesa (véase, por ejemplo, Hafer y Weiss (1974)).

La primera aplicación propiamente computacional para descubrir fronteras entremorfemas de lenguas no sólo indoeuropeas fue quizá la dirigida por el ruso N. D. Andreev enlos años setenta (Cromm 1996). Además del descubrimiento de fronteras morfológicas,este método se diseñó para determinar automáticamente los paradigmas de flexión en el queintervienen los afijos descubiertos. El criterio para identificarlos es básicamente la frecuen-cia de las secuencias de caracteres en los corpus analizados (los afijos de flexión son los másfrecuentes). El procedimiento se aplicó al vietnamita y al húngaro, entre otras lenguas.

Hoy en día, la necesidad de segmentar palabras se hace patente especialmente enaplicaciones relacionadas con recuperación de información (information retrieval ). En este



17Características cuantitavas de la flexión verbal del Chuj

marco, cada vez más lenguas son objeto de diversos procedimientos de segmentación morfo-lógica, especialmente las indoeuropeas y las de los pueblos industriales de la cuencadel Pacífico 1.

Típicamente, cuando todos estos métodos se hacen operativos mediante computadoras(en lugar de contar manualmente, por ejemplo, fonemas anteriores y posteriores, como enalgún momento tuvo que hacerlo Harris), se requieren grandes cantidades de texto. Si bienen los inicios de los corpus electrónicos, se consideraba que aquellos de uno o dos millonesde palabras (como el Corpus Brown o el Corpus del Español Mexicano Contemporáneo)eran de buen tamaño, los corpus de hoy en día suelen ser mucho más extensos, esto es,de varios millones de palabras gráficas (Manning y Schütze 1999:118-120).

En este marco, la riqueza de lenguas de México no ha sido motivación suficiente para que estas lenguas se investiguen de manera automática, ni para construir mode-los computacionales de análisis o síntesis, ni para estudiar sus características

cuantitativamente a partir de corpus. Sin duda, como se apuntó arriba, uno de losmayores obstáculos en la aplicación automática de métodos cuantitativos en estas len-guas es la recolección de corpus de tamaño apropiado. Sin embargo, todavía no estáclaro lo que significa “tamaño apropiado”.

Corpus

El chuj es una lengua maya que se habla en ambos lados de la frontera entre México yGuatemala. El corpus utilizado en este trabajo (Buenrostro 2000) fue compilado endiversas estancias de trabajo de campo en el estado de Chiapas. Se trata de una colec-

ción de cinco narraciones 2, todas con intercambios conversacionales, por lo que deentrada no podemos hablar ni de un corpus balanceado ni representativo, véanse discu-siones sobre esto en Lara (1990:85-106) y Manning y Schütze (1999:119-120). Además,dadas las características de los corpus electrónicos de hoy en día, podemos calificar a estecorpus del chuj de minúsculo: en un archivo plano de sólo 86Kb caben alrededor de 15,485 palabras gráficas, las que corresponden a poco más de 2,300 vocablos (o tipos de palabras).

De todas maneras, mediante este corpus se pueden examinar las características cuanti-tativas de los morfemas de flexión, que esperaríamos formaran parte de un conjunto pequeñoy muy regular de segmentos relativamente fáciles de descubrir automáticamente (incluso a

partir de un corpus reducido). En cuanto a los afijos de derivación, que deben formar parte deun conjunto menos organizado y más irregular, se puede esperar que sea más difícil descu- brirlos automáticamente en un corpus tan pequeño.

Lo importante es que al determinar automáticamente algunos sufijos de flexión ycorroborar su condición de morfemas del chuj, podremos evaluar los resultados y deter-

1 Estas últimas con escritura no alfabética; véase por ejemplo Kageura (1999) para la aplicación de esta- dísticas de diagramas en la segmentación de cadenas de caracteres Kanji.2 Los títulos de las narraciones son “María”, “El alcalde”, “A nok’ chich yet’ nok’ okes”, “Te’ chum” y El éxodo”.




minar si un corpus así de reducido es suficiente por lo menos para descubrir automáticamente la morfología flexiva de una lengua.

MetodologíaEn este trabajo se aplicaron dos métodos para determinar cuantitativamente la mejor frontera entre bases y afijos de cada una de las palabras del corpus. El primero es elcálculo de entropía, uno de los temas de la teoría de la información (Shannon y Weaver,1949). El segundo está inspirado en el principio de economía de signos (de Kock yBossaert 1974, 1978).

Perti nenci a de las medidas de entr opía y economía

Probablemente fue Joseph Greenberg el primero en reflexionar sobre la cantidad deinformación (en el sentido técnico de la teoría de la información) como característicadistintiva de las raíces de palabras:

both in the technical sense of information theory and in the nontechnicalmeaning of information, the utterance of a member of a root class of morphemes gives more information (Greenberg 1957: 91).

Desde entonces se ha reportado repetidamente que medir la cantidad de informa-ción o entropía asociada a los radicales de palabras es un método más o menos exitoso

a la hora de determinar fronteras entre bases y afijos (véanse, por ejemplo, Hafer yWeiss (1974), Frakes y Baeza (1992), Medina Urrea (2000) y el reporte del trabajo deJoula, Hall y Boggs en Oakes (1998: 86-87)).

Conceptualmente, las cantidades de entropía corresponden a los altibajos de infor-mación que formalmente puede esperar un lector u oyente al leer un texto o escuchar lacadena hablada. La conocida fórmula de Shannon, presentada abajo, es un método muy popular para medir el contenido de información o entropía. Sin embargo, esos altibajosde información no siempre corresponden con las fronteras morfológicas en la cadenaescrita o hablada. La situación pragmática, la posición del cuerpo, las manos, las interrup-ciones, muecas, gestos, sonrisas, etc. también proporcionan información importante. Esdecir, hay comunicación (y por lo tanto entropía) sin estructuras propiamente lingüísticas.Por otra parte, sabemos que en un corpus de lengua natural existe implícita una estruc-tura de signos que también debe servir como evidencia de las fronteras entre morfemas.

Por eso es pertinente el principio de economía de los signos. Si el sistema lingüís-tico es económico, podemos esperar que las relaciones de economía entre los signos nos proporcionen indicios sobre la estructura que sirve de vehículo para la transmisión deinformación. Una manera de concebir el concepto de economía es considerar la propie-dad de ciertos signos (afijos) de combinarse con otros (bases) para producir un número




virtualmente infinito de signos del nivel siguiente (palabras). Así, el número de signosdebe ser menor que el número de cosas nombradas sin que se produzca ambigüedadalguna (de Kock y Bossaert 1978: 15).

Los afijos permiten precisamente eso: al combinarse con las bases forman palabrasnuevas (tanto los lemas de un diccionario, como las palabras flexionadas del discurso);además, las bases se pueden combinar con otros afijos, sin que el nuevo contexto resulteen ambigüedad. Es claro que los afijos no se combinan con cualquier base, unos con más,otros con menos, pero tiene sentido esperar que a mayores posibilidades combinato-rias, mayor economía de signos y mayor su cualidad de ser afijos. Además, si los afijosforman conjuntos que al combinarse con las bases alternan con otros afijos(paradigmáticamente), sus relaciones tendrán que considerarse todavía más económicas.Esto es pertinente tanto para afijos derivativos como flexivos; es decir, tanto para losafijos típicos de una lista de lemas, como para aquellos de las palabras flexionadas del

discurso. Si bien en un corpus como el utilizado en este experimento los primeros seránmás escasos que los segundos, ambos tipos guardan la misma relación con las bases alas que se unen, aunque quepa esperar que la de los segundos sea más económica (porqueson menos, más frecuentes y se adhieren a muchas más cosas).

Simplificando, los afijos pueden concebirse como un conjunto pequeño de morfos(formas que los morfemas exhiben en el habla/escritura) muy frecuentes que se combi-nan con otros tipos de morfos; específicamente, raíces y bases. En contraste, estasúltimas constituyen un grupo enorme (potencialmente infinito) de morfos de baja fre-cuencia en un corpus. Así, el número de afijos multiplica el número potencialmenteinfinito de bases para crear nuevas maneras de referirse a las cosas del mundo. Esto es,mientras menos signos sirvan para designar más cosas, más economía habrá en el sistema.

Si bien el contenido de información o entropía ya ha sido reconocido como indiciode frontera morfológica apto de aplicarse a la segmentación automática de morfemas,la razón de incorporar otro método como el de economía es muy sencilla. Por un lado, laentropía no distingue entre las ocurrencias de un afijo como morfema y las ocurrenciasde la mera secuencia de caracteres que constituyen su forma. Así, en la palabraespañola ‘aumente’, el método de entropía descubre erróneamente el sufijo adverbial-mente . Por otro lado, el método basado en la economía de signos propone acertada-mente un sufijo -e .

Cálcu lo de índi ces de entropía y economía

El contenido de información de un grupo de fragmentos de palabras se mide típicamentemediante la fórmula siguiente3:

)(log),...,,(i

n

i i n

p p p p p H

1221

(1)




el corpus. La tendencia de ese fragmento particular a ser afijo residiría en que sus acom- pañantes (en relación sintagmática) fueran considerablemente muchos más que susalternantes (en relación paradigmática). Esto se puede medir, por ejemplo, mediante

la siguiente fórmula que es una simplificación de aquella propuesta por de Kock (MedinaUrrea 2003: 280):

De esta manera, dado el fragmento de un extremo de alguna palabra gráfica, un númeromuy grande de acompañantes y un número reducido de alternantes resultaría en una medi-da alta de economía, mientras que un número reducido de acompañantes y uno alto dealternantes de dicho fragmento indicaría una medida de economía baja y, por lo tanto, una

reducida probabilidad de que represente un morfema. Naturalmente, el número de acompa-ñantes a la derecha es diferente al de la izquierda. Además, el número de alternantes varíasegún el número de acompañantes, por lo que, al igual que con la entropía, hay dos valoresdistintos para un mismo fragmento según se tome en cuenta lo que le sigue o le antecede.

Un ejemplo simplificado del español sería el sufijo derivativo -idad (en, por ejemplo,‘nacionalidad’) que, por un lado, alterna con el morfema nulo, -Ø, (en ‘nacional’), con elsufijo del plural -es (‘nacionales’) y con la secuencia de dos sufijos -idades (‘nacionali-dades’); y, por el otro, se sufija a una gama enorme de adjetivos, que en sí constituyenuna clase abierta (potencialmente infinita). En este contexto, la medida de economíacorrespondería al número de palabras de un corpus con el sufijo -idad (el número de signosque lo acompañan a la izquierda) divido entre el número de signos con que alterna en elcorpus (en este caso cuatro). Eso con respecto a la izquierda del sufijo. Por otra parte, conrespecto a la derecha de otro segmento, considérese el vocablo ‘nacionalidad’. Diríamos queel fragmento nacional- alterna con un número enorme de formas (en ‘comunidad’, ‘opor-tunidad’, ‘voracidad’, ‘finalidad’, etc.) y que, como base morfológica, se le afijan pocascosas: además de –idad y la secuencia –idades , están muchas veces los sufijos -mente (adverbial), -es (plural) e, incluso, el morfema nulo, -Ø. Esto corresponde a una medida k muy reducida que resulta de dividir un número relativamente pequeño (5) entre uno consi-derablemente mayor (el número de formas en –idad del corpus examinado). De todo esto

tendríamos que concluir que ‘nacional’ (en ‘nacionalidad’) no puede ser un afijo.Lo importante no es cuál de estos dos métodos es el mejor, sino que ambos se puedencombinar para obtener una estimación de la afijalidad de un afijo con respecto a una basedeterminada. Por ejemplo, las cantidades que resulten de estos procedimientos se puedenmultiplicar o se pueden promediar. En este experimento, como veremos adelante, losvalores resultantes se normalizaron y luego se promediaron.

Conviene enfatizar que los valores se calculan automáticamente dos veces para cadasegmentación de cada palabra, la primera considerando al inicio de la palabra como basey el final como sufijo y la segunda considerando al inicio de la palabra como prefijo y el

s alternante

es acompañant k




final como base. Como vimos arriba y veremos de nuevo adelante, es de notarse que eneste procedimiento el fragmento afijal puede contener más de un afijo (por ejemplo,-idades ). Lo importante es que los valores más altos, aquellos de segmentaciones entre

prefijo y base y entre base y sufijo, sirven como criterios para la inclusión de losfragmentos de palabras examinados en alguno de dos catálogos, uno de prefijos y otro desufijos de la lengua examinada.

Construcción de catálogos de afi jos del chu j

Los métodos presentados arriba permiten examinar automáticamente cada una de las palabras gráficas del corpus. Si la mejor segmentación de cada palabra permite iden-tificar un fragmento de ésta con carácter morfológico (afijo o grupo de afijos), la afijalidadde cada fragmento se puede capturar automáticamente en una estructura de información

que aquí llamaremos catálogo, donde se registra la frecuencia de dicho fragmento comoafijo o grupo afijal (secuencia de afijos). Los pormenores de una estructura de estanaturaleza se presentan en Medina Urrea 2000 y 2003. Los aspectos importantes son:

· Se construyen dos catálogos diferentes, uno para prefijos y otro para sufijos;· Cada entrada del catálogo corresponde a un afijo o grupo afijal, con los promedios de

los valores de entropía y economía calculados para cada vocablo en el que resultó ser el mejor afijo.

· Estos valores se promedian para obtener un índice de afijalidad que permite ordenar-los de más a menos afijal.

· Todos los valores están normalizados, es decir, son valores entre 0 y 1. Esto se llevaa cabo al dividir el valor obtenido para cada afijo (o grupo afijal) entre el máximovalor obtenido para algún afijo (o grupo de afijal) en la construcción del catálogo.

· Hay varias posibilidades para seleccionar qué afijo o grupo afijal entra a formar partedel catálogo. En este experimento sólo se tomó el fragmento más afijal de cadavocablo del corpus; esto es, sólo aquel con el valor más alto de afijalidad.

Los elementos de estos catálogos se pueden ordenar de diferentes maneras. Paraeste trabajo se ordenaron por valores de afijalidad, aquí estimada (como se dijo arriba)mediante el promedio de los valores normalizados de entropía y economía inherentes a

cada fragmento de palabra. Con este orden, se concentran entre los primeros los elemen-tos más afijales de los catálogos. Además, como es de esperarse, el umbral entre lasformas más afijales y las menos afijales no es ni evidente ni claro. De todas maneras, por inspección observamos que dentro de los primeros treinta de cada catálogo se encuentra lamayor concentración de verdaderos afijos y grupos de afijos. De hecho, como veremosen las tablas 3 y 4, que consignan los 30 afijos de flexión verbal del chuj (18 prefijales y12 sufijales 4), treinta deben ser más que suficientes. Por eso la siguiente discusión está basada en las primeras treinta formas de cada catálogo.

4 Sin considerar sus posibilidades combinatorias, es decir los posibles grupos afijales.




Así, para evaluar los resultados se calcularon las medidas de recall y de precisión 5.Para este trabajo la primera indica el porcentaje de aciertos dentro de las treinta formasmás afijales de cada catálogo. Aunque no todas son flexivas, fueron consideradas como

aciertos cuando se observó que corresponden a alguna forma afijal. Esto es, se obtuvie-ron formas afijales de todos tipos (afijos y secuencias de afijos; derivativos y flexivos)que se contrastaron con formas residuales (errores o ruido). Aunque en este experimentoel objetivo haya sido descubrir los afijos de flexión verbal, la validez de los derivativosdentro del sistema lingüístico impide que los segundos deban considerarse residuales ala hora de evaluar el procedimiento, en parte porque no hay una frontera nítida entre untipo y el otro, pero sobre todo porque no dejan de constituir un componente definitivamenteafijal de la lengua chuj.

Por otra parte, la medida de precisión representa aquí la proporción de formasdetectadas automáticamente mediante este procedimiento con respecto al conjunto de

afijos de flexión verbal del chuj descubiertos después de años de investigar dicha lengua; estoes, la proporción de afijos consignados en las tablas 5 y 6 que fueron aislados al construir loscatálogos del chuj descritos arriba. Evidentemente, la noción de residuo no es pertinenteaquí porque se está midiendo lo obtenido frente a lo que debió ser obtenido; es decir, nose trata de un contraste entre aciertos y errores, sino entre aciertos y omisiones.

Catálogo de prefijos

En la tabla 3 se consignan los fragmentos de palabra gráficas más afijales según los métodosdescritos arriba. La primera columna muestra el rango de afijalidad (a menor rango,mayor afijalidad). La segunda columna consigna los supuestos prefijos; la tercera elnúmero de vocablos en los que obtuvieron los valores más altos de afijalidad; la cuarta esla proporción de entropía con respecto al máximo obtenido por algún prefijo. En la últimase exhibe la afijalidad estimada.

La tabla muestra los 30 fragmentos de palabra más prefijales del corpus. Como yase dijo, están ordenados por cantidad de afijalidad. Sin embargo, los valores de econo-mía no aparecen porque las bases y afijos no exhibieron relaciones particularmenteeconómicas. En un corpus tan pequeño, las ocurrencias de los afijos son comparables alas de las bases. Al no haber una diferencia significativa, sus relaciones económicas son

mínimas. De allí que la afijalidad no sea mayor de 0.5 en ningún caso (la mayor cantidadde entropía equivale solamente a la mitad de la afijalidad correspondiente a ese prefijo).En cuanto a la lengua chuj, es de notarse que entre las primeras 22 entradas

ocurren todos los prefijos temporales del paradigma verbal ix -, tz-, ol- (núms. 6, 7 y 22)y x- (núm. 30, alomorfo de ix- ). También hay una muestra significativa de los pronombres personales absolutivos y ergativos que se suelen prefijar al verbo: a-, s-, in-, e-,ach-, ko- y ku- (núms. 1, 2, 3, 5, 17, 9 y 13, los dos últimos alomorfos).

5 Para los detalles de estas medidas véase, por ejemplo, Manning y Schütze (1999).




Los mismos se prefijan a bases nominales como marcas de posesión. Los prefijostemporales se adhieren a los personales. Por eso ocurren grupos prefijales temporales y personales: tz.in-, ol .in-, ix.in-, ix .s-, tz.s-, tz.onh-, ol.e-, ol .ach- y tz.a- (núms. 4, 8, 14,

15, 16, 20, 23, 27 y 28). De hecho, si los personales aparecen como prefijos aislados, es porque los temporales alternan con Ø- . Un prefijo interesante es el que sirve para negar oraciones ma- (núm. 11), cuya forma se observa también en las cinco maneras de negar quehay en chuj: en los grupos prefijales ma.j-, ma.x- y ma.n- , así como en las formas malaj y ma’ay . Por otra parte, la forma to- (núm. 18) que también ocurre libre, sirve entreotras cosas para introducir oraciones subordinadas.

Otro grupo de formas no menos importante es el de aquellas que no representanningún prefijo conocido (núms. 10, 12, 19, 21, 24, 25, 26 y 29 de la tabla 3). Este grupoconstituye un reto interesante para el lingüista, sobre todo si los mismos ocurren en muestrasde mayor tamaño. Por un lado, la naturaleza del error debe examinarse seriamente, prin-

cipalmente porque los errores son inevitables. Por el otro, convendría estudiar lo queaparece como tal para determinar si podría considerarse, aunque fuera incipientemente,como un tipo de morfema; es decir, examinar si son errores verdaderamente. En el casode este experimento, el corpus es demasiado pequeño como para preocuparse mucho por los residuos. De todas maneras, al tomarlos como errores, se puede calcular la proporciónde aciertos de la tabla (medida de recall ), 22 ÷ 30 = 0.73, mientras que 0.27 es la proporción de formas residuales. En un corpus tan pequeño como el utilizado en esteexperimento los residuos representan quizá la interferencia ocasionada por la escasezde datos.

Catálogo de sufijos

Con respecto a los sufijos y grupos sufijales reunidos en este experimento, en la tabla 4 semuestran las 30 formas más importantes según los criterios descritos arriba. El primer grupo es el de las vocales temáticas -a e -i (núms. 5 y 10) que permiten distinguir losverbos transitivos de los intransitivos. Además, indican el final de la frase. Otro grupointeresante es el de los sufijos -ok y -nak (núms. 3 y 26) que son respectivamente marcas demodo y tiempo. Están en distribución complementaria y ocurren entre las vocales temá-ticas y la base verbal. Entre estos sufijos y la base ocurren las marcas de voz que pueden

ser de dos tipos, pasiva y antipasiva. Veamos primero los de la voz pasiva. En la tabla4 sólo aparecen dos, -chaj y -aj (núms. 22 y 25). Los otros miembros de este paradigma,-ji , -nax y -b’i l no ocurren solos entre los primeros 290 grupos sufijales (sólo los prime-ros 30 se muestran en la tabla 4). Sin embargo, sí ocurren en grupos sufijales tales como-a.ji y -ak’.nax (con rangos 66 y 290). El carácter de estos dos últimos es dudoso dada su baja frecuencia (13 y 2 respectivamente) como afijos (de hecho, como veremos, -ak’ esuna raíz). Luego están los sufijos de voz antipasiva. De los tres que forman el paradig-ma, -an, -wi y -waj , sólo el primero aparece en la tabla 4 (núm. 16). Los otros dosocurren después (-wi con rango 50 y frecuencia de 14 y -waj con rango 150 y frecuencia




rango prefijo frecuencia entropía afijalidad

1 A~ 160 1.0000 0.50002 S~ 177 0.9874 0.4937

3 IN~ 80 0.9828 0.4914

4 TZIN~ 42 0.9338 0.4669

5 E~ 63 0.9173 0.4587

6 IX~ 166 0.9088 0.4544

7 TZ~ 338 0.8861 0.4430

8 OLIN~ 25 0.8818 0.4409

9 KO~ 64 0.8783 0.439210 AL~ 16 0.8740 0.4370

11 MA~ 30 0.8722 0.4361

12 KA~ 31 0.8496 0.4248

13 KU~ 11 0.8303 0.4152

14 IXIN~ 27 0.8183 0.4092

15 IXS~ 23 0.8154 0.4077

16 TZS~ 45 0.8101 0.4051

17 ACH~ 10 0.8034 0.401718 TO~ 13 0.8010 0.4005

19 AK'~ 10 0.7881 0.3940

20 TZONH~ 15 0.7866 0.3933

21 JA~ 12 0.7808 0.3904

22 OL~ 176 0.7807 0.3903

23 OLE~ 12 0.7761 0.3880

24 NA~ 8 0.7761 0.3880

25 U~ 20 0.7682 0.384126 TA~ 13 0.7670 0.3835

27 OLACH~ 26 0.7663 0.3831

28 TZA~ 41 0.7612 0.3806

29 YO~ 16 0.7600 0.3800

30 X~ 41 0.7568 0.3784

Tabla 3. Catálogo de prefijos más afijales




de 3). El sufijo -in (núm. 9) es, al igual que la forma prefijada, un pronombre absolutivo de primera persona. Por otra parte, el carácter afijal del sufijo -an se debe seguramente aque, además de ser muy productivo, es una forma en extremo polisémica: aparte de ser

marca de antipasiva, es marca de subordinación, marca de agente en foco y de continui-dad de tópico. Además, al igual que en otras lenguas mayas, también es sufijo de posicionales. No es de sorprenderse que morfemas tan polisémicos obtengan valoresaltos de afijalidad 6.

Con respecto a los sufijos -al e -i l (núms. 1 y 4), se trata de alomorfos que sirven ensustantivos de marcas de genitivo o absolutivo, según el contexto. Otro grupo de sufijosdigno de comentarse es el de los direccionales -kan, -ek’ , -k’ och, -b’ at, -el, -em , y -pax (núms. 8, 11, 12, 13, 14, 15 y 20). Se trata de verbos de movimiento que se sufijan ysirven como clasificadores verbales. No están todos pero sí los principales. Lo interesan-te de estos sufijos es que deben considerarse más sufijos derivativos que de flexión,

cosa significativa porque con un corpus tan pequeño era de esperarse que cuandomucho sólo los paradigmas de flexión se identificaran. Al final de la tabla están lossufijos -nak , (núm. 26), participio de verbos intransitivos; -e (núm. 27), clasificador nu-meral de inanimados; -oj (núm. 29), marca de infinitivo en oraciones de complemento.Los sufijos con carácter adverbial son -ta’ (núm. 18) que significa “inmediata o recien-temente”, -alan (núm. 17) “debajo” y -nej (núm. 28) “solamente”.

Algunas entradas de la tabla son irreconocibles como morfemas del chuj, pero no podemos considerarlas propiamente errores porque son formas que ocurren al final delos préstamos españoles muy abundantes y profusos en el corpus: -o (núm. 2) en ‘reme-dio’, ‘konejo’, ‘ciento’, ‘puro’, ‘ejersito’, ‘exodo’, ‘templo’, ‘cuatro’, ‘bueno’, ‘mismo’,‘pero’, ‘San Pransisko’, etc.; y -es (núm. 19) en ‘tres’, ‘tonces’, ‘entonces’, ‘despues’, ‘jues’. Lointeresante es que en varias palabras estas formas tienen carácter morfológico (sobretodo -o ) 7. La discusión sobre si deben considerarse o no sufijos del chuj está fuera delalcance de este trabajo. Por lo pronto, no podemos considerarlos afijos del chuj, perotampoco pueden considerarse errores: si tienen relaciones afijales con objetos de un corpus,no pueden descartarse como parte del sistema implícito en ese corpus.

Otra cosa que se observa de las formas de la tabla 4 es que varias contienen verbos.Así, el sufijo adverbial -alan (núm. 17), arriba citado, tiene la misma forma que lasecuencia -al.an , donde -al significa “decir”. Por otra parte, -ak’ (núm. 24), que tam-

bién ocurre en -ak’.an (núm. 23), significa “dar”. La forma -cham (núm. 21) es la raízde “matar” y forma verbos compuestos con significados como “golpear” y “acabar”.Con rango menor están -tak (núm. 6) que es la raíz del verbo “aceptar” y -ab’ (núm. 7)que es la raíz del verbo “oír” y suele utilizarse como sufijo citativo. Por último, está laforma residual -ek (núm. 30) sin un valor morfológico obvio.6 De hecho, es de esperarse que las formas más frecuentes sean las más polisémicas (a mayor número de

contextos, más sentidos). Sin embargo, ese tema, por cierto bastante complejo, está fuera del alcancede este trabajo.

7 De manera similar, la ocurrencia de los préstamos españoles terminados en ‘a’ (como ‘semana’, ‘pena’,etc.) debe haber contribuido al rango de la vocal temática -a en la Tabla 4.




rango sufijo frecuencia entropía afijalidad

1 ~AL 82 1.0000 0.50002 ~O 123 0.9634 0.4817

3 ~OK 68 0.9374 0.4687

4 ~IL 62 0.9347 0.4673

5 ~A 142 0.9306 0.4653

6 ~TAK 19 0.9062 0.4531

7 ~AB' 49 0.9059 0.4530

8 ~KAN 68 0.9029 0.4515

9 ~IN 46 0.8917 0.445810 ~I 205 0.8769 0.4384

11 ~EK' 23 0.8740 0.4370

12 ~K'OCH 28 0.8670 0.4335

13 ~B'AT 63 0.8659 0.4329

14 ~EL 68 0.8643 0.4321

15 ~EM 15 0.8282 0.4141

16 ~AN 233 0.8271 0.4135

17 ~ALAN 13 0.8225 0.411218 ~TA' 70 0.8203 0.4102

19 ~ES 8 0.8140 0.4070

20 ~PAX 15 0.8093 0.4046

21 ~CHAM 16 0.8039 0.4020

22 ~CHAJ 14 0.8037 0.4018

23 ~AK'AN 11 0.7946 0.3973

24 ~AK' 43 0.7922 0.3961

25 ~AJ 51 0.7867 0.393426 ~NAK 18 0.7812 0.3906

27 ~E 60 0.7803 0.3901

28 ~NEJ 24 0.7698 0.3849

29 ~OJ 11 0.7673 0.3837

30 ~EK 11 0.7673 0.3837

Tabla 4. Catálogo de sufijos más afijales




Lo interesante es que al identificar todos estos sufijos podemos calcular la propor-ción de aciertos (recall ) de la tabla 4: 29 ÷ 30 = 0.97 (con un porcentaje de ruidoresidual del 0.03) 8. Además, al tomar en cuenta las dos tablas (3 y 4), obtenemos un

índice de aciertos de 0.85; esto es, 51 aciertos dentro de las 60 formas más afijales.Así, la proporción total de residuos es de 0.15, cuestión nada desalentadora al consi-derar el tamaño del corpus.

El paradigma de fl exión verbal del chuj

Otra manera de evaluar la pertinencia de los fragmentos de palabras seleccionados —y, por ende, la del procedimiento descrito arriba— es identificar aquellos que pertenecena los paradigmas de flexión verbal de la lengua en cuestión, aunque no estén dentro delos 30 más afijales. Lo importante es verificar que lo seleccionado forme parte de los

morfemas más afijales del chuj, así como determinar lo que no se seleccionó pero debióhaber ocurrido entre los resultados por su ya conocido carácter morfológico.

Como quedó establecido arriba, en el chuj hay prefijos y sufijos de flexión verbal.En las tablas 5 y 6 se exhiben estos afijos. La primera columna de la primera tablamuestra las marcas de tiempo, que son los prefijos más alejados de la base. Entre éstos yla base ocurren morfemas con carácter pronominal que pueden ser absolutivos o ergativos.

Tabla 5. Paradigma de prefijos de flexión verbal

Como los pronombres absolutivos ocurren prefijados, sufijados o como morfemaslibres, en la tabla 5 no se muestran con el guión que usamos para representar a los prefijos.En cuanto a los prefijos ergativos, los de la primera columna son preconsonánticos y los de lasegunda son prevocálicos. Las formas que no se identificaron automáticamente están en bastardillas y negritas. Como puede verse, solamente faltan dos pronombres ergativosw- y ey- . Sin contar el morfema nulo, Ø- , se aprecia que se aislaron automáticamente 16de las 18 formas prefijales posibles (88.89%).

8 Si los sufijos no flexivos y las formas españolas se consideraran errores, cosa a nuestro juicio inapropiada,tendríamos 16 de 30 “aciertos” o una medida de recall de 0.53 (0.47 de “residuos”). De todas maneras,estas cifras no parecen nada despreciables dadas las limitaciones del experimento.

absolutivos1a in in- w-

tz- 2a ach a- Ø-ix-, x- 3a Ø s- y-

ol- 1a onh ko-, ku- k-

Ø- 2a ex e- ey-

3a Ø … eb' s- … eb' y- … eb'

tiempo persona

ergativos

e y -

w -




Por otra parte, los sufijos verbales del chuj marcan especialmente voz, modo yfinal del enunciado. En la tabla 6 se muestran dichos sufijos:

Tabla 6. Paradigma de sufijos de flexión verbal

También aquí los sufijos que no fueron identificados se muestran en negritas y bastardi-llas. Como se dijo arriba y se aprecia en la tabla 6, faltaron entre los resultados del procedimiento automático sólo tres marcas de voz pasiva (-b’ il , -nax y -j i ). Esto signi-fica que se aislaron automáticamente 9 de las 12 formas sufijales posibles (75.00%). Sitomamos a los dos grupos de afijos de flexión como uno solo, vemos que el procedimientoautomático permitió aislar 25 de 30. Esto indica que 83.33% de los afijos pertinentes

(medida de precisión) ocurrió entre los fragmentos más afijales de la palabra chuj.Mientras que la cantidad de residuos es pertinente en la medida de recall , en la de precisión lo importante es por definición que el procedimiento sencillamente no incluyódentro del catálogo el 16.66% de los afijos de flexión del chuj. Lo que, al considerar elreducido tamaño del corpus, no habla nada mal del procedimiento.

Conclusiones

En este trabajo se presentaron los resultados de la aplicación de algunos métodos desegmentación automática en un corpus pequeño de una lengua indígena, en concreto elchuj, que se habla en la frontera entre Chiapas y Guatemala. La idea era determinar si por lo menos la morfología verbal flexiva podía descubrirse automáticamente, a pesar del tamaño del corpus. Los resultados indican que el 83% (medida de precisión) de losmorfemas de flexión verbal se identificaron automáticamente, evidencia de que el tamañoreducido de los costosos corpus de lengua indígena no es un impedimento para investigar las propiedades cuantitativas de los componentes de esas lenguas (siempre y cuando se utilice algomás que las meras frecuencias). Esto fue posible porque los morfemas de flexión forman parte de un conjunto pequeño y muy regular de fragmentos de palabra relativamente

voz modal/

temporal

vocal

temática

-chaj

-b 'il

-n ax

-aj

-j i -ok -a

-nak -i

-waj

-an

-wi

p a s i v a

a n t i p

a s i v a




fáciles de descubrir automáticamente. Cabe señalar que además de los de flexión, algunosafijos de tipo derivativo también fueron identificados automáticamente (los direccionales), loque indica su importancia relativa en el chuj.

Finalmente, aunque se aplicaron dos métodos de segmentación (las medidas de con-tenido de información y de economía de los signos), solamente el cálculo de entropía sirvió para los propósitos de este experimento. Esto significa que calcular la cantidad de infor-mación es un método más apropiado para corpus relativamente pequeños, por lo menos enel caso del chuj. Por otra parte, si lo que se requiere es medir la naturaleza económica delas relaciones entre los signos para, por ejemplo, determinar cuando la forma de un afijoreconocido ocurre sólo como una secuencia de fonemas (o caracteres) y cuando ocurrecomo verdadero morfema afijal, es indispensable un corpus de mayor tamaño.

Referencias

BUENROSTRO, Elsa Cristina (2000) Corpus de la lengua chuj, 1997-2000. ________. (2003) La voz en el chuj de San Mateo Ixtatán, borrador de tesis doctoral, México,

El Colegio de México. ________. (1992) Morfología verbal del chuj, tesis licenciatura, México, ENAH.CROMM, Oliver (1996) Affixerkennung in deutschen Wortformen. Eine Untersuchung zum

nicht-lexikalischen Segmentierungsverfahren von N. D. Andreev , Abschluss desErgänzungsstudiums Linguistische Datenverarbeitung, Francfort del Meno.

DE KOCK, Josse y Walter Bossaert (1974) Introducción a la lingüística automática en laslenguas románicas, Gredos, Madrid, ( Estudios y Ensayos 202).

________. (1978) The Morpheme: an experiment in quantitative and computational linguistics,Amsterdam/Madrid, Van Gorcum.

FRAKES, William y Ricardo Baeza (1992) “Stemming algorithms” en Frakes, William, ed., Information retrieval, data structures and algorithms, Prentice Hall, New Jersey, 1992, pp. 131-160.

GREENBERG, Joseph H. (1967) Essays in linguistics, The University of Chicago Press,Chicago, 1967 [1957].

HAFER, Margaret y Stephen Weiss (1974) “Word segmentation by letter successor varieties”,

Information Storage and Retrieval , 10 (1974), pp. 371-385.

HARRIS, Zellig (1955) “From phoneme to morpheme”, Language 31:2, pp. 190-222.KAGEURA, Kyo (1999) “Bigram statistics revisited: a comparative examination of some statisticalmeasures in morphological analysis of japanese kanji sequences”, Journal of Quantitative

Linguistics, 6(1999), pp. 149-166.LARA, Luis Fernando (1990) “Caracterización metódica del corpus del DEM” en Dimensiones

de la lexicografía. A propósito del Diccionario del español de México, El Colegio deMéxico, México, (Jornadas 116) 1990, pp. 85-106.

MANNING, Christopher y Hinrich Schütze (1999) Foundations of statistical natural language processing , Cambridge (Mass.), The MIT Press.




MEDINA URREA, Alfonso (2000) “Automatic discovery of affixes by means of a corpus: acatalog of Spanish affixes”, Journal of quantitative linguistics 7:2, pp. 97-114.

________. (2003) Investigación cuantitativa de afijos y clíticos del español de México:

glutinometría en el Corpus del Español Mexicano Contemporáneo, tesis doctoral, México,El Colegio de México.OAKES, Michael P. (1998) Statistics for corpus linguistics, Edinburgh, Edinburgh UP.SHANNON, Claude y Warren Weaver. (1949) The mathematical theory of communication,

University of Illinois Press, Urbana, 1964 [1949].




Análisis de frecuencia de construcciones anafóricas en narracionesinfantiles

César A. Aguilar Posgrado en Lingüística UNAM

The main goal of this article is to show how the CHILDES Program (Child Language Data Exchange System) can be employed as an instrument for the analysis of oral child

narrations. Specifically, CHILDES can be utilized like an electronic tool that helps tolocalize and calculate the frequency of use of nominal and pronominal phrases within ananaphoric chain. Therefore, I expose the results obtained of an analysis about these phrases(in function of anaphoric devices), which was applied to a corpora of child narrations.These narrations were elaborated for 20 children of 6 and 12 years old, in base to a plotline proposed for a design sequence named Frog, where are you? (Mayer 1969).

La intención de este artículo es mostrar de qué manera el programa CHILDES (Child Language Data Exchange System) puede ayudar al análisis de narraciones orales infantiles, en especí-

fico a la localización y conteo de frecuencias de frases nominales y pronominales ligadas a partir de construcciones anafóricas. Para ello, expongo los resultados de un análisis querealicé en torno a tales frases (en función de mecanismos anafóricos), empleadas por 20 niñosde 6 y 12 años en relatos orales, basados en un eje argumental propuesto por una secuen-cia de dibujos titulada Frog, where are you? (Mayer, 1969)*.

Palabras claves: frase nominal/pronominal, anáfora, cohesión discursiva, narración, Sistema CHILDES Fecha de recepción del manuscrito: marzo del 2003

César Antonio Aguilar.Posgrado en Lingüística, UNAM,Héroes del 47, No. 45, Col Churubusco, Coyoacán, 04120, D.F.correo electrónico: [email protected].

* Este trabajo muestra los resultados obtenidos de mi tesis de maestría, asesorada por la Dra. Rebeca Barriga Villanueva, a quien agradezco por apoyo brindado a lo largo de la investigación.



César A. Aguilar34

1. Introducción

Uno de los requisitos para producir una narración es que ésta mantenga una cohesióndiscursiva. Lograrlo implica tener dominio de una serie de conocimientos lingüísticosy pragmáticos determinados, que permitan organizar la información que tal narraciónva a presentar (Barriga Villanueva, 1990; Hickmann, 1995: 194-195). Por ello, resultaimportante analizar cómo es que un niño logra adquiere y domina esta capacidad, puesde ello depende una parte de su desarrollo lingüístico y comunicativo.

Para establecer una relación de correferencia entre uno o varios actores en unaserie de eventos, resulta necesario construir cadenas anafóricas entre frases nominales(determinante + nombre, nombres propios o comunes) y pronominales (pronombres,clíticos y anáforas) (Carreiras y Alonso, 1999: 205). Tres preguntas que se pueden hacer al respecto son:

a) ¿De qué forma niños de 6 y 12 años establecen cadenas anafóricas como meca-nismos de cohesión narrativa?

b) ¿Qué tipo de diferencias se manifiestan?c) ¿Tales diferencias señalan un patrón de desarrollo lingüístico y narrativo infantil?

Con relación a esto, la investigación interlingüística organizada por Berman y Slobin(1994) expone una serie de problemas y resultados en torno a los modos de elaborar narraciones que siguen niños hablantes de alemán, español, inglés, hebreo y turco conedades de 3, 4, 5 y 9 años. Una de las aportaciones que ha dado esta propuesta es el uso del

sistema CHILDES para la codificación, análisis, elaboración e intercambio de bases dedatos con los resultados obtenidos. La intención de esto es establecer una lingua franca enlos criterios y código de transcripción de los datos. De igual modo, dicho sistema permiteuna agilización y automatización del análisis, así como conformar un conjunto de corporanarrativos los cuales pueden ser consultados desde la página WEB de CHILDES: http://childes.psy.cmu.edu/

El objetivo básico de este trabajo es mostrar entonces de qué modo el uso de CHILDES puede ser una ayuda importante para la transcripción y extracción de datos lingüísticosinfantiles provenientes de narraciones orales, y en el caso que aquí trato, la localización

y conteo de frases nominales y pronominales en función de correferencia anafórica con respecto a los actores principales de una historia gráfica.

2. Descripción general de CHILDES

Debido a una serie de necesidades originadas por problemas para la recopilación, codi-ficación y análisis de datos del lenguaje infantil espontáneo, desde 1984 se ha venidodesarrollando un sistema de cómputo e intercambio de datos (clearinghouse) especiali-zado denominado CHILDES (Child Language Data Exchange System), a cargo de



35Análisis de frecuencia de construcciones...

1 En español, CHILDES cuenta con varios corpora obtenidos de niños hablantes españoles (de Madrid, principalmente, así como de Asturias, Cataluña, las Canarias, Navarra y Oviedo); venezolanosmexicanos. En el caso del español de México, cabe considerar las valiosas aportaciones de HessZimmermann (2003);Jackson-Maldonado; Montes (1992); Rodríguez y Romero (1992). Para consultar tales corpora, así como información al respecto, véase: http://childes.psy.cmu.edu/manuals8romance.pdf.

MacWhinney (1995: 152-178). Como se ha señalado, este sistema ha sido una herramientaautomática útil para el estudio de fenómenos lingüísticos en corpus de narraciones oralesinfantiles (Berman y Slobin, 1994).

CHILDES intenta organizar la mayor base de datos sobre lenguaje infantil espontáneoobtenidos principalmente de conversaciones, narraciones, encuestas, listas de palabras, etc.;aplicadas a poblaciones de niños normales, niños con afasia, niños aprendices de segundaslenguas y niños bilingües 1.Los corpora han sido divididos en 6 directorios principales:

· Inglés· No-inglés· Textos narrativos· Libros ( Frog, where are you? de Merce Mayer)

· Problemas lingüísticos· Adquisición bilingüe

Al interior, el sistema se divide en tres grandes herramientas:

· CHILDES: integra todas las bases de datos recopiladas. Estos han sido obtenidos delinglés, alemán, hebreo, ruso, francés y español.

· CHAT: presenta los códigos de transcripción empleados en el sistema. Tal herra-mienta intenta ser un sistema de codificación y transcripción universal de datos sobrelenguaje infantil.

· CLAN: se trata de un conjunto de programas que permite el análisis lingüístico de lostextos almacenados en la base de datos principal. Este conjunto incluye los siguientescomandos:

· FREQ: Frecuencia· KWAL: Analizador de ítems específicos (nombres, pronombres, adjetivos, verbos,

etc.)· LEX: Analizador léxico· MOR: Analizador morfológico· COMBO y COOCCUR: Analizadores sintácticos· CED: Código de edición, se emplea para realizar análisis a nivel discursivo· PHO: Analizador fonológico



César A. Aguilar36

3. Metodología

3.1. F rog, where are you?

La herramienta usada para que los niños construyeran sus narraciones es el libro de imá-genes Frog, where are you? (Mayer, 1969). Se trata de una historia gráfica compuesta de24 escenas que muestran las aventuras que corren un niño y un perro para recuperar unarana. Esta historia se emplea actualmente para analizar fenómenos de adquisición y desarro-llo lingüístico (Bamberg, 1986; 1987; Berman y Slobin, 1994).

3.2. N iños

Se trabajó con una muestra de tipo transversal, de tal modo que se pudiera establecer un

patrón de desarrollo lingüístico y narrativo entre dos periodos infantiles distintos. Paraello, se decidió contar con dos grupos, uno conformado por 10 niños de 6 años, y el otro por 10 niños de 12 años. Estas edades fueron consideradas porque permitían establecer un máximo contraste en los modos que tienen ambos grupos para construir sus narra-ciones. Ambos grupos eran hablantes monolingües de español mexicano, y cursaban laescuela primaria (1° y 6° grados, respectivamente).

3.3. Cr iterios de transcr ipción

Se tomó como base los lineamientos establecidos por CHAT, debido a que ofrece un crite-rio unificado que facilita la comprensión e interpretación precisa de los datos obtenidos, poniendo énfasis en las relaciones de interacción que se dan en un contexto comunica-tivo como el de una narración (Berman y Slobin, 1994: 665-677). Para mayores detalles, pueden consultar las guías de transcripción elaboradas por Oshima-Takane (2001), asícomo Carrasco González y Celis Sánchez (2000).

4. Antecedentes del análisis

Karmiloff-Smith, en su investigación sobre pronominalización discursiva en niños fran-

ceses de 4 a 9 años (1981: 121-147), identificó un tipo de cohesión basado en el uso decadenas anáforas según un tipo de estrategia que denominó estrategia del sujeto temático(1981: 136), la cual consiste en reconocer al actor principal de una serie de eventosnarrativos a partir de una frase nominal determinante + núcleo (un niño, el niño), paradespués mantener la referencia a partir de pronombres (él ), clíticos (lo) y marcas anafóricasverbales (Ø vio).

Con base en lo anterior, Bamberg (1986: 227-284; 1987) analizó narracionesorales de niños alemanes de 3, 5 y 9 años, y localizó 4 tipos de estrategias de cohesióndiscursiva, derivadas de la propuesta de Karmiloff-Smith:




· Estrategia de sujeto temático: en concordancia con la de Karmiloff-Smith, se basa enuna predominancia de unidades pronominales para mantener la referencia de un actor.

· Estrategia anafórica: consiste en un uso de unidades nominales para hacer cortesreferenciales ( switching reference), y unidades pronominales para darle continuidad ala ilación correferencial (maintaining reference).

· Estrategia de contrastes locales: a partir de esta estrategia no se hace una claradistinción en el uso de unidades nominales y pronominales como mecanismos paramantener o cortar la referencia.

· Estrategia nominal : se trata de una estrategia que permite mantener una referencialidadestable haciendo un uso preponderante de frases nominales, y disminuyendo el empleo

de pronombres y marcas anafóricas Ø. Este tipo de cohesión hace que un relato ad-quiera un tono más descriptivo, en comparación con otros estilos más próximos a unmodelo canónico narrativo.

5. Discusión y resultados

5.1. Descri pción de la apli cación deCHAT

Los personajes que he tomado en cuenta para mi análisis son tres: El Niño, El Perroy La Rana, debido a su participación nuclear dentro de la trama de la historia gráfica.Las unidades nominales y pronominales con mayor frecuencia que he localizado en mianálisis son las siguientes:

Tabla 1: Tipos y funciones de frases nominales localizadas en el corpus

Frasenominal

NpropFNindef

FNdef Pos 3°+NcomPrep(a/de/con...)+Npr +FNindet+FNdet+Pos3°+Ncom+Proper(pl)Proper(pl)CLIacusCLIdatØ(pl)

Ejemplo

Sebastián, Dogo, DinkyUn niño, un perro, una rana/un sapo

El niño, el perro, la rana/el sapoSu perro, su rana/su sapoA un niño, a un perro, a una rana; del niño, del perro,de la rana; con su niño, con su perro, con su rana, a éla ella, a ellos, etc.

Él/ella, ellos/ellasLo vio, la vio, los vio las vioLe dijo, les dijoBuscó/buscaron, se fue/se fueron.

Posición sintácticaSUJ/ODIR SUJ/ODIR

SUJ/ODIR SUJ/ODIR ODIR/OINDIR/OCIR

SUJODIR OINDIR SUJ



César A. Aguilar38

Estas unidades fueron reconocidas a partir de la herramienta CLAN, ya que ella presentalas instrucciones para la transcripción y lectura de los datos. Para el análisis, es necesariohacer especificaciones con alguno de los comandos antes señalados, los cuales determinan

a qué nivel lingüístico se va a trabajar. Un ejemplo del uso de CLAN puede ser elsiguiente: a partir de la frase nominal el niño, se hace una búsqueda con el comandoCOMBO, tomando como base la siguiente instrucción:

combo +sel^niño sample.cha

Lo que se pide aquí es que se determine el número de frecuencia al nivel sintáctico delsegmento sel^niño, dentro de un texto tomado del archivo CHAT (.cha). La marca ^ indica que los dos elementos están ligados y que pueden aparecer con otras combinacionesdentro del corpus (p.e.: sun^niño, seste^niño, sel^perro, etc.). La marca s- indica que se

introduce el segmento el^niño para su búsqueda. El resultado de esta instrucción aplicadaa un texto específico (c0604.cha) es:

*** File «c:\childes\clan\césar\c0604.cha»: line 12.*PEP:y el perro y (1)el (1)niño lo están viendo .

En este ejemplo se observa que la herramienta localiza los dos ítems especificados (el + niño), dentro de una línea determinada (la número 12). Al final del análisis, se señalaque el total de muestras (tokens) encontradas de la instancia (type) el^niño dentro de esterelato son 14 ítems. Dependiendo de cuáles sean las necesidades que quiera cubrir el

investigador al analizar un corpus, se pueden tomar otras opciones de cálculo de frecuencias

5.2. Interpr etación de los datos obtenidos

A partir de las observaciones hechas por Karmiloff-Smith y Bamberg, se puede observar una estrategia de cohesión narrativa de tipo nominal usada por niños de 6 años. Este tipode estrategia se caracteriza por lo siguientes aspectos.

Nivel sintáctico: se observa un uso preponderante de frases nominales deltipo determinante + nombre, mayormente en posición de sujeto, y en

menor grado en posiciones de objeto directo, indirecto y circunstancial.Véase en la tabla 2.

Nivel semántico: las cadenas anafóricas que elaboran manifiestan un uso preferente de frases nominales como una forma de señalar la referencia a losactores principales de un evento, como puede verse en el siguiente ejemplo:




Tabla 2: Frecuencias de uso de frases nominales y pronominales en niños de 6 años

1. [Inicio del eje argumental] de que # un niño atrapó una rana.2. Y el perro y el niño lo están viendo.3. Y depués [=después] el perro # la miró desde cerca.4. Y la rana lo está mirando.5. Y el niño # también lo está mirando.6. Después cuando el niño se durmió con su perro.7. La rana se salió.

Pepe (6 años)

En contraste con un modo usual de construcción anafórica en donde unafrase nominal sitúa el antecedente, y posteriormente es retomado a partir de pronombres, clíticos o flexiones verbales de persona (Carreiras y Alonso,1999: 205; Carreiras, Garnham y Oakhill, 1996: 241-274; Huang, 2000:151-76), se observa que en este caso los niños optan por un tipo de cadenaanafórica en donde se da una correferencia a partir de frases nominalessimilares. Ello muestra que los niños pequeños ponen un énfasis especialen la ubicación del personaje referido en un evento dado. Sin embargo,este fenómeno origina que se presenten una serie de rasgos particulares

que se manifiestan en el nivel discursivo, como se verá a continuación. Nivel discursivo: debido a la preponderancia de frases nominales en laformación de cadenas anafóricas, estas narraciones tienden a presentar sus eventos de un modo más descriptivo, en comparación con un modelocanónico de narración. Este carácter descriptivo permite suponer que losniños de 6 años cohesionan sus relatos por medio de una ligación evento +evento, de tal modo que para evitar “perder la referencia” de un personaje,repiten una unidad nominal específica (p.e.: El niño, El perro o La rana).Este fenómeno confirma que los niños a esta edad aplican un tipo de

Personajes Niño Perro Rana TotalFNindef 5 (33%) 0 (0%) 10 (67%) 15 (100%)FNdef 85 (43%) 76 (39%) 35 (18%) 196 (100%)Pos 3°+Ncom 0 9 (47%) 10 (53%) 19 (100%)Prep + FN 15 (27%) 21 (38%) 19 (35%) 55 (100%)

Nprop 0 0 0 0Proper 9 (69%) 3 (23%) 1 (8%) 13 (100%)CLIacus 18 (41%) 10 (23%) 16 (36%) 44 (100%)CLIdat 8 (67%) 1 (8%) 3 (25%) 12 (100%)Ø 55 (68%) 20 (25%) 6 (7%) 81 (100%)Øpl 64 (49%) 64 (49%) 1 (2%) 129 (100%)

Anáfora:FNindef +FNdef +FNdef +FNdef



César A. Aguilar40

estrategia narrativa del tipo sujeto temático, de acuerdo con Karmiloff-Smith (1981) y Bamberg (1986: 227-284; 1987), el cual irá evolucionandoen edades subsecuentes (Berman y Slobin, 1994).

Con relación a los niños de 12 años, se puede observar una estrategia de cohesiónnarrativa de tipo anafórica, la cual se caracteriza por manifestar los siguientes rasgos.

Nivel sintáctico: un uso equilibrado de frases nominales (determinante +nombre, nombre) y pronominales (clíticos y anáforas Ø). Tales unidades aparecen preferentemente en posición de sujeto o de objeto directo, y las pronominalesen posiciones de objeto indirecto y circunstancial. Esto se puede observar a continuación en la tabla:

Tabla 3: Frecuencias de uso de frases nominales y pronominales en niños de 12 años

Nivel semántico: las cadenas anafóricas tienden a manifestar una continui-dad de la referencia de un modo más fluido, debido a las relacionescorreferenciales que mantienen frases nominales (las cuales sirven comoantecedentes de un referente) y pronominales (en función de marcas anafóricasde un referente dado), lo cual se puede ver en el siguiente ejemplo:

1. Había un niño que se llamaba # Edgardo.

2. Sus papás le compraron una rana.3. Porque tenía ganas de una mascota4. Pero <se ni> [//] Edgardo ya tenía un perro.

5. Y entonces # la rana # ¡estaba muy feliz!6. Edgar y su perro estaban en el cuarto y la estaba observando.7. Pero su mamá le dijo que ya era tiempo de dormir.

Personajes Niño Perro Rana TotalFNindef 6 (25%) 2 (8%) 16 (67%) 24 (100%)FNdef 52 (39%) 52 (39%) 30 (22%) 134 (100%)Pos 3°+Ncom 0 15 (45%) 18 (55%) 33 (100%)Prep + FN 6 (11%) 21 (39%) 27 (50%) 54 (100%)

Nprop 63 (68%) 19 (20%) 11 (12%) 93 (100%)Proper 22 (88%) 2 (8%) 1 (4%) 25 (100%)CLIacus 22 (46%) 9 (19%) 17 (35%) 48 (100%)CLIdat 23 (57%) 6 (15%) 11 (28%) 40 (100%)Ø 148 (83%) 24 (13%) 7 (4%) 179 (100%)

Øpl 49 (50%) 49 (50%) 0 98 (100%)

Anáfora:FNindef +Clíticodativo + Ø

Anáfora: Nprop + Nprop+Clíticodativo




Eunice (12 años)

A partir de esta muestra, se puede deducir que estos niños ubican una unidadnominal con información específica tal como el nombre propio Edgardo al

inicio de un evento, y posteriormente retoman este referente a partir de unacombinación de relaciones entre otras unidades nominales (véase en el ejemplo las derivaciones del nombre Edgardo), con unidades pronominales (pronombres, clíticos de acusativo y dativo, así como anáforas Ø marcadas por laflexión del verbo en español). Esto hace que los niños de 12 años estén máscercanos a un modo de referencialidad propio de las narraciones adultas quelos niños de 6 años.

Nivel discursivo: como se ha señalado en el apartado anterior, a causa deeste equilibrio en el uso de formas nominales y pronominales en función

correferencial, los relatos elaborados por estos niños muestran un tipode cohesión próximo a un modelo canónico a partir de una estrategiaanafórica, de acuerdo con la explicación de Bamberg (1986, 227-284, 1987), através de la cual el niño percibe una narración como una secuencia de eventosestructurada y delimitada según un eje causal. Así, se observa un proceso dedesarrollo narrativo infantil que va de la construcción de relatos descripti-vos a relatos canónicos, en estrecha relación con el modo de establecer cadenas anafóricas como mecanismos de cohesión discursiva.

6. Conclusiones

6.1. Resul tados en el n ivel sintáctico

· Las frases nominales y pronominales son unidades cuyo dominio, desde los 6 años, es patente dentro de un contexto de construcción narrativa. En este sentido, la únicadiferencia que se advierte entre un niño de 6 y un niño de 12 años, es el dominio denombres propios que tienen los segundos, en contraste con los primeros que hacen unmayor uso de frases nominales indefinidas y definidas.

· En cuanto a anáforas ceros como marcas de sujeto, tanto los niños de 6 y 12 años

presentan frecuencias de usos similares, lo cual se puede ver como una consecuenciade las particularidades sintácticas que presenta el español como lengua pro-dop; ello permite que los niños puedan elidir el sujeto de una frase, sin restar significado alcontenido informativo de una cláusula.

6. 2. Resul tados en el n ivel semánti co

· Se observa que hay una relación constante entre la cantidad de información referencialque hay en las frases nominales y pronominales, y los mecanismos de continuidad



César A. Aguilar42

referencial y temática que emplean en sus relatos: a mayor cantidad de informaciónen una frase nominal, esta tiende a estructurarse como una frase nominal (p.e. deter-minante + nombre), y por ello, su continuidad referencial será repetitiva; mientras

que a menor cantidad de información, una frase nominal tiende a presentarse comouna forma pronominal (p.e. las marcas anafóricas Ø de un verbo), lo que hace que lacontinuidad del referente sea más dinámica.

6.3. Resul tados en el ni vel discursivo

· Se puede notar que los niños pequeños tienden a una cohesión narrativa que va de larepetición de frases nominales a un cierto equilibrio en el uso de frases pronominales,mientras que los niños mayores producen relaciones de cohesión que establece unuso estable entre unidades nominales, pronominales, y mecanismos de elisión del

sujeto (esto es, un empleo más coherente de marcas anafóricas Ø verbales). Estorefuerza la propuesta de que los niños de 6 años concretan narraciones más descripti-vas, acorde con una estrategia del tipo sujeto temático; en contraste con los niños de12 años, quienes elaboran narraciones fijadas en una secuencialidad causal más clara,conforme a un tipo de estrategia anafórica, mostrando un cierto grado de independen-cia a la organización que presentan los dibujos de la historia de la rana.

6.4. Observaciones sobre el uso de CH I LDES

Uno de los aspectos que cabe señalar sobre el uso de CHILDES para la codificación y

análisis de datos infantiles, es el hecho de contar con un sistema estándar que permita unamejor interpretación de dichos datos. De igual modo, al ser CHILDES una herramienta quecuente con un acceso vía Internet, ello ayuda al almacenamiento, consulta e intercambio de bases de datos enfocados a fenómenos del lenguaje infantil (en este caso, un procesoespecífico de desarrollo lingüístico y narrativo en niños de dos edades distintas).

Si bien es cierto que CHILDES cuenta con corpora narrativos en español, unaporte significativo que hay que señalar con respecto a esta línea de investigación, es lanecesidad codificar e integrar a sus bases de datos narraciones hechas por niños hablantesde español mexicano, así como hacer estudios de comparación y análisis con otros corpora

narrativos de CHILDES, ya sea en español o en otros idiomas. Ello permitiría contar con una fuente de recursos de datos y herramientas de análisis para el estudio deldesarrollo narrativo infantil en niños hablantes de español mexicano, área de investiga-ción todavía en ciernes actualmente (Barriga Villanueva, 2002: 59-63). De igual modo,los códigos propuestos por CHAT pueden ser analizados como una propuesta interesante para la transcripción de datos orales infantiles tomados de un contexto de interacción,como lo es el hecho de producir una narración a partir de una secuencia de dibujos.




Referencias

BAMBERG, M (1986). “A functional approach to the acquisition of anaphoric relationships”en Linguistics, Vol. 24-1, Num, 281: 227-284.

—— (1987). The acquisition of narrative, Berlin/New York: Mouton de Gruyter.BARRIGA VILLANUEVA, R (1990). Entre lo sintáctico y lo discursivo. Un análisis com-

parativo de habla infantil , Tesis Doctoral. México: El Colegio de México. —— (2002): Estudios sobre habla infantil en los años escolares. Un solecito calientote. Méxi-

co: El Colegio de México.BERMAN, R. y Slobin, D. (1994) (edits.): Relating events in narrative. New Jersey; Lawrence

Earlbaum.CARRASCO GONZÁLES, M. y CELIS SÁNCHEZ, C. (2000): CHILD LANGUAGE DATA

EXCHANGE SYSTEM (Códigos en es pa ño l par a CHAT) . WEB Page: http://

childes.psy.cmu.edu/: Carnegie Mellon University.CARREIRAS, M y ALONSO, Ma A (1999). “Comprensión de anáforas”. En Vega, M. &

Cuetos, F. (edits.), Psicolingüística del español . Madrid: Trotta, 205-230.CHILDES (Child Language Data Exchange System) (2000), WEB Page: http://

childes.psy.cmu.edu, Carnegie Mellon University.HICKMANN, M (1995). “Discourse organization and the development of reference to person,

space and time”. En Fletcher, P. y MacWhinney, B. (edits.), The Handbook of Child Language. Oxford/ Cambridge: Blackwell, 194-218.

HESS ZIMMERMANN, K. (2003). El desarrollo lingüístico en los años escolares: análisisde narraciones infantiles. Tesis de Doctorado, México: El Colegio de México.

KARMILOFF-SMITH, A (1981). “The grammatical marking of thematic structure in thedevelopment of language production”. En Deutsch, W. (edit.), The child’s construction of language. London: Academic Press, 455-474.

MACWHINNEY, B (1995). “Computational analysis of interactions”. En Fletcher, P. yMacWhinney, B. (edits.) The Handbook of Child Language. Oxford/ Cambridge: Blackwell,152-178.

MAYER. M. (1969); Frog, where are you? New York: Dial Books for Young Readers.MONTES, R. (1992). Achieving understanding: Repair mechanisms in mother–child

conversations. Unpublished doctoral dissertation,Washington DC: Georgetown University.

OSHIMA-TAKANE, Y. (2001); Codification Symbols for CHAT , WEB Page: http://www.psych.mcgill.ca/courses/561/561wpage.html: McGill University.ROMERO, S., SANTOS, A., & PELLICER, D. The construction of communicative compe-

tente in Mexican Spanish speaking children (6 moths to 7 years). Mexico City: Universidadde las Américas, Campus Puebla.



Un modelo para la perífrasis española y el sistema de pronombresclíticos en HPSG1

Luis Pineda Iván Meza

Departamento de Ciencias de la ComputaciónIIMAS, UNAM

Palabras clave: verbos auxiliares del español, perífrasis española, pronombres clíticos, HPSG.Fecha de recepción del manuscrito: febrero del 2004

Luis Pineda e Iván Meza.Departamento de Ciencias de la ComputaciónIIMAS, UNAM, Circuito Escolar, Ciudad Universitaria04510, México D. F.correos electrónicos: [email protected], [email protected]

In this paper a grammatical model of the Spanish periphrasis and the system of clitic pronouns in HPSG is presented. The model covers both simple periphrases including, inaddition to auxiliary and modal verbs, a single verb with a full semantic content, and alsothe analysis of complex periphrasis with two content verbs. In the second part of the paper a basic model of pronominal clitic sentences including enclitics and proclitics is presented; finally, in the last part, the interaction of the clitic system and the periphrasis, both simple and complex, is presented. We also report a computational implementation of the model and its validation through the analysis of these phenomena in the DIME Corpus (Villaseñor et. al., 2001), which was developed in the context of the DIME project

(Pineda et. al., 2002).

1 Una versión anterior de parte del contenido de este artículo se encuentra en las memorias del workshop“Multilingual Information Access and Natural Language Processing”, IBERAMIA 2002, Julio Gonzalo,Anselmo Peñas y Antonio Ferrández (Eds.), Sevilla, España, Noviembre de 2002.




L. Pineda / I. Meza46

En este artículo se presenta un modelo computacional de la perífrasis española y suinteracción con el sistema de pronombres clíticos en HPSG. El modelo contempla tanto la perífrasis simple que contiene, además de verbos auxiliares y modales, un solo verbo concontenido conceptual, como la perífrasi compleja que contienen dos verbos con contenidos semánticos; el modelo incluye también el análisis de las perífrasis con copulativos que se presentan en las oraciones atributivas y pasivas. En la segunda parte se presenta un modelobásico del sistema de pronombres clíticos que incluye el análisis de la oración enclítica y proclítica; finalmente, se analiza la interacción del sistema de clíticos con la perífrasis,

tanto simple como compleja. Se reporta también la validación del modelo mediante suimplementación computacional así como mediante el análisis de estos fenómenos en el corpus DIME (Villaseñor et al., 2001), el cual se desarrolló en el contexto del proyecto DIME (Pineda et. al., 2002).



47Un modelo para la perífrasis...

1. Introducción

A pesar de su importancia, la perífrasis y los pronombres clíticos del español han recibidomuy poca atención en los estudios de lingüística computacional; al analizar estos fenóme-nos se asume con frecuencia que el sistema de verbos auxiliares es similar al del inglésy se modela en dichos términos (e.g. Quirino, 2001). Sin embargo, está posición conducea dificultades inmediatamente; mientras que can y have son auxiliares en inglés, suscontrapartes en español poder y haber no siempre se analizan como tales. De acuerdo conGili Gaya (1991), por ejemplo, poder no es auxiliar ya que además de conservar su conte-nido conceptual, es agentivo; haber , por su parte, forma parte de la conjugación compuestay se considera una inflexión. Por otro lado, mientras que el inglés tiene sólo el copulativobe, el español tiene los verbos complementarios ser y estar cuyas sutiles interaccionesimpactan profundamente la estructura de esta lengua. Otra asimetría importante se reve-

la en expresiones como te lo digo, dime y hazlo, por ejemplo, que son muy comunes enespañol y que, sin embargo, no tienen contraparte directa en inglés. Más aún, la cons-trucción perifrástica y el sistema de pronombres clíticos interactúan de manera compleja pero sistemática. Por estas razones, estos fenómenos, así como sus formas de interacción,constituyen una parte sumamente importante del núcleo gramatical del español y un mode-lo que los capture de manera apropiada es indispensable para el procesamiento computacionalde esta lengua. En este artículo presentamos un modelo de la perífrasis española, así comosu interacción con el sistema de pronombres clíticos, incluyendo el fenómeno conocidocomo clitic climbing (subida de clíticos), tanto simple, cuando los pronombres reempla-zan al complemento directo, indirecto, o ambos, de un solo verbo, como compuesto, en el

que los pronombres remplazan complementos de verbos diferentes. Se reporta también laformalización del modelo en HPSG (Pollard y Sag, 1994; Sag y Wasow, 1999), así como suimplementación en el ambiente de desarrollo LKB (Copestake, 2002), y su validacióna través del análisis de estos fenómenos en el corpus DIME (Villaseñor et. al, 2001),el cual se desarrolló en el contexto del proyecto DIME (Pineda et. al., 2002).

2. La perífrasis española

Iniciamos el estudio de la perífrasis mediante el análisis de los verbos auxiliares del español.

Para caracterizar estos verbos partimos de tres nociones generales, como sigue:(1) Son palabras gramaticalizadas que tienen una función sintáctica fija en lenguaje;

por lo mismo, no tienen contenido conceptual. Verbos auxiliares conllevan normal-mente información temporal y aspectual que modifica a la interpretación de losverbos con contenido conceptual que siguen a los auxiliares en la perífrasis.

(2) En oraciones predicativas aparecen en perífrasis en forma conjugada y llevan comocomplemento una frase verbal en forma no personal (infinitivo, gerundio y participio).En atributivas tienen función copulativa.




(3) Son verbos que carecen de agente; por esta razón pueden aparecer tanto con verbos agentivos,como en construcciones impersonales y con verbos unipersonales (e.g. llover ).

Tomando como punto de partida estas tres nociones gramaticales es posible definir cinco pruebas sintácticas para determinar si un verbo es auxiliar o no en oraciones predicativas. Estas pruebas son:

1. Son verbos conjugados que encabezan una frase verbal y anteceden a uno o másverbos en forma no personal:

(a) puedes mostrar el catálogo a Juan2. Modifican a una frase verbal encabezada por un verbo impersonal: (a) puede llover (b) *tiene llovido

3. Se requieren todos los verbos de la perífrasis para preguntar por los complementosdel verbo de contenido:

(a) ¿qué puedes mostrar? (b) *¿qué puedes?4. Se requiere un verbo “comodín” (e.g. hacer ) para preguntar por la acción denota-

da por el verbo de contenido: (a) ¿qué puedes hacer? (b) *¿qué puedes?5. El verbo de contenido puede presentarse en pasiva pero no el verbo auxiliar. (a) El catálogo puede ser mostrado. (b) *El catálogo es podido mostrar.

La primera de estas pruebas verifica que los verbos auxiliares ocurren en perífrasis (perohay perífrasis en las cuales no ocurren verbos auxiliares); la segunda garantiza que el verboauxiliar carece siempre de agente; la tercera verifica que el complemento del verbo auxi-liar es una frase verbal, a diferencia de los verbos transitivos que tienen un complementonominal; la cuarta verifica el vínculo necesario que existe entre el verbo auxiliar y la fraseverbal que lo complementa; la última refuerza la no agentividad del verbo auxiliar, yaque si fuera posible pasivizarlo sería agentivo. En estas construcciones, el sujeto del verbo

de contenido es también el sujeto de la frase verbal, aunque sea anónimo (e.g. en puedesmostrar quien tiene la posibilidad de mostrar es quien muestra). Desde el punto de vistasintáctico los verbos que satisfacen estas propiedades se conocen en la literatura comode subida de sujeto o subject-raising verbs (Sag y Wasow, 1999); por lo mismo, aquí se postula que los verbos auxiliares del español son de este tipo sintáctico. De acuerdo conestas pruebas hemos encontrado que los siguientes verbos son auxiliares:

(a) Con modificador en infinitivo: poder ( puedes comer ) , ir a (vas a comer ) , venir a(vienes a comer ) , volver a (vuelves a comer ) , haber de (habrás de comer ), tener que




(tienes que comer ), deber de (debes de comer ) , llegar a (llegas a comer ) , acabar de(acabas de comer ) y alcanzar a (alcanzas a comer ).

(b) Con modificador en gerundio: Estar (estás comiendo) , ir (vas comiendo) , venir

(vienes comiendo), seguir ( sigues comiendo) y andar (andas comiendo).(c) Con modificador en participio: ser (es querido), estar (está abierta) y haber (ha comido).

Por otro lado, verbos que no satisfacen las cinco condiciones sintácticas no son auxilia-res a pesar de que puedan aparecer en perífrasis: querer (quiere comer ), pasar a ( paso acomer ) y haber que (hay que comer ).

Pasamos ahora a presentar el modelo de verbos auxiliares en HPSG. Como ya seha dicho, estos verbos son del tipo sintáctico subject-raising, y su descripción se presen-ta en la matriz de atributos y valores ( AVM ) en la figura 1, donde srv-lxm corresponde

al tipo del verbo; el atributo SS | LOC | CAT | VAL se interpreta como la característicasintáctica y semántica del símbolo, con carácter local (en oposición a las dependenciasno locales, como las que hay entre los pronombres en las preguntas pronominales y elargumento al que corresponden, por ejemplo), su categoría gramatical, y su capacidadde combinatoria, es decir la especificación de su sujeto y complementos. Lo crucial enesta definición es que el sujeto del verbo auxiliar y el sujeto de la frase verbal, estáncoindexados, es decir, son el mismo.

Figura 1. Definición léxica de verbos de subida de sujeto

Pasamos ahora al análisis de oraciones con verbos auxiliares. En puedes mostrar el catálogo a Juan en la figura 2, puedes se combina con su complemento a través de la Head-Complement Rule de HPSG (Sag y Wasow, 1999). La frase verbal resultante es objeto dela regla Subject-PRO-drop Rule que se ha adicionado a HPSG para capturar los sujetoscontenidos en la conjugación del verbo del español.

! ! ! ! ! ! ! ! !

"

#

! ! ! !

"

#

$ $ $ $

%

&

! "

# $ %

&

$ $ $ $ $ $ $ $ $

%

& −

COMPS SUBJ

VAL

alse CLIT HEAD COMPS

SUBJ VAL CAT LOC SS

lxm srv

1 # |

1 # | | |




Figura 2. Oración con verbo auxiliar

La representación semántica resultante de este análisis se muestra en la figura 3. Lanotación corresponde a la llamada Minimal Recursion Semantics ( MRS ) (Semántica deRecursión Mínima) usada normalmente en HPSG.

Figura 3. Representación semántica no agentiva

En esta figura el atributo index se refiere a la situación expresada por la oración en suconjunto (i.e. la situación i); el atributo MOD indica el modo semántico de la oración,que en este caso es declarativa ( prop), en oposición a las interrogativas o imperativas, por ejemplo; el atributo RESTR contiene una lista de AVM con la representación semánticade la oración propiamente; en este caso, que existe una situación i en la que una hayrelación de poder (can) la cual tiene un argumento k , el índice de la relación que es posible; k se refiere a su vez a la situación de mostrar ( show) cuyos parámetros son unagente j que muestra y un objeto mostrado l ; a su vez j es quien escucha (situación u) yl es el catálogo (situación v).

puedes

(=VP)

(=S)

mostrar el catalogo a Juan

!!!

"

#

$$$

%

&

!"

#$%

&

COMPS

SUBJ COMPS

SUBJ

1#2#

1#!"

#$%

&

COMPS

NP SUBJ 1#2#

!"

#$%

&

COMPS

SUBJ 1#

!"

#$%

&

COMPS

SUBJ

!!!!!!!!!!!!!!!

"

#

$$$$$$$$$$$$$$$

%

&

!!!!

"

#

$$$$

%

&

!!!!

"

#

$$$$

%

&

!!!!

"

#

$$$$

%

&

!!!

"

#

$$$

%

&

l

catalog

v

name

NAMED

NAME

SIT

RELN

l

j

k

show

OBJECT

SHOWER

SIT

RELN

j

hearer

u

name

NAMED

NAME

SIT

RELN

k

i

can

POSSIBLE

SIT

RELN

RESRT

prop

i

MODE

INDEX




En el análisis de este tipo de perífrasis es necesario considerar la ambigüedadléxica y estructural que surge cuando las formas léxicas que funcionan como auxiliaresconservan su contenido semántico original, lo cual sucede frecuentemente. En este caso,

dichos verbos son del tipo sintáctico conocido como subject-control verb o verbos consujeto de control; este tipo es similar al tipo subject-raising ya que su sujeto y el de sucomplemento son también el mismo, sin embargo, los verbos con sujeto de control se realizande manera agentiva. La descripción del tipo subject-control verb se muestra en la figura 4.

Figura 4. definición léxica de verbos de sujeto de control (versión 1)

Con esta forma léxica se captura, por ejemplo, la interpretación de poder en su sentidode capacidad. La diferencia entre el análisis de poder como auxiliar y como verbo decontenido puede apreciarse comparando sus correspondientes representaciones semánticas

en las figuras 3 y 5. En el primer caso, la relación de poder se establece entre unasituación en la que no hay agente y la situación que es posible, mientras que en el segundo(figura 5) la relación de poder es una situación que se establece entre el agente que puede,que es también el que muestra, y la capacidad que es podida.

Figura 5. Representación semántica agentiva

!!!!!!!!!!!!

!!!

"

#

$$$$$$$$$$$$

$$$

%

&

!!!!

"

#

$$$$

%

&

!!!!

"

#

$$$$

%

&

!!!!

"

#

$$$$

%

&

!!!!

"

#

$$$$

%

&

l

catalog

v

name

NAMED

NAME

SIT

RELN

l

j

k

show

OBJECT

SHOWER

SIT

RELN

j

hearer

uname

NAMED

NAME

SIT RELN

k

j

ican

CAPACITY

CAPABLE

SIT RELN

RESRT

prop

i

MODE

INDEX

! ! ! ! ! ! !

! !

"

#

! ! ! !

"

#

$ $ $ $

%

&

! "

# $ %

&

$ $ $ $ $ $ $

$ $

%

& −

COMPS SUBJ

VAL

alse CLIT HEAD COMPS

SUBJ VAL CAT LOC SS

lxm scv

i

i 1 #

| 1 # | | |




Al igual que poder , varias formas que se usan como auxiliares pueden aparecer con sucontenido semántico original, y en este caso son también verbos de sujeto de control. Ademásde estas formas, los llamados verbos modales como querer , deber , osar , pensar , esperar ,

lograr y saber ocurren en perífrasis como verbos de sujeto de control que requieren unagente que lleve a cabo la intención o acción enunciada por el verbo. Los requerimientosde subcategorización de estos últimos verbos son un problema muy complejo que quedafuera del alcance de este trabajo; sin embargo, podemos decir de manera general que haytres casos principales: cuando se siguen de un complemento nominal y funcionan comosimples transitivos (e.g.quiere los juguetes), cundo tienen como complemento una frase verbalinfinitiva (e.g. quiere comer ) y cuando el complemento es una frase relativa (e.g. quiere quele den de comer ). En este trabajo definimos los verbos de control para los primeros doscasos, y dejamos el estudio de las relativas para investigaciones futuras. En particular, ladefinición de la Figura 4 corresponde al caso de los verbos de control que tienen como

complemento una frase infinitiva.Además de los verbos auxiliares y modales que están en mayor o menor medida

gramaticalizados, la perífrasis contiene cuando menos un verbo con contenido semántico,el cual va normalmente al final de la misma. Sin embargo, hay perífrasis complejas enlas que hay dos verbos de contenido, los cuales van también normalmente al final de la perífrasis, seguidos de sus complementos nominales, aunque estos pueden ser comparti-dos y aparecer en diferentes órdenes. Estas construcciones se dan cuando ocurren losverbos de tipo object-control o de objeto de control que tienen dos complementos: unafrase nominal (su objeto directo) y una frase verbal encabezada por el segundo verbo de con-tenido; adicionalmente, el objeto directo del verbo de objeto de control se comparte con elsujeto del segundo verbo. Para este tipo de perífrasis hemos identificado tres grupos principales de verbos: de los sentidos, de la voluntad y el factitivo haber .

En el primer caso se encuentran, por ejemplo, los verbos ver y oir . En ve a Maríacomer la manzana, el objeto directo de ver es también el sujeto de comer ; del mismo modo,en oye cantar a los pájaros, el objeto directo de oye es también el sujeto de cantar . En losverbos de voluntad, como mandar y permitir, la relación es similar; en manda a los niños adormirel niño a quien se manda es también quien duerme, y en permite jugar a los niños quien permite no es quien juega, pero los niños son el objeto directo de permite y el sujeto de jugar .El caso de hacer es más complejo desde el punto de vista semántico, pero sintácticamente su

comportamiento es similar; en hace reir a la gente, el objeto directo de hacer es a la gentequien es además el sujeto de reir , es decir, quien ríe. En un análisis alternativo enfocadosemánticamente el verbo hacer tiene tan sólo un complemento, que es la frase verbal quele sigue y denota un evento o un proceso; es tal vez más intuitivo el análisis en el que el payaso hace a la gente reir, que el análisis en el que el payaso hace a la gente, que ríe. Sinembargo, en el presente trabajo adoptamos por uniformidad y simplicidad el enfoquesintáctico de los verbos de objeto de control y dejamos el análisis alternativo para inves-tigaciones posteriores. La definición de los verbos de objeto de control se muestra en lafigura 6 y el análisis de ve a María comer la manzana en la figura 7.




Figura 6. Definición léxica de los verbos de objeto de control (versión 1)

Figura 7. Oración con verbos de objeto de control

Los verbos de objeto de control pueden también ocurrir en perífrasis con verbos auxiliaresy modales; en este caso el verbo de control va necesariamente en forma no personal, ya que elverbo conjugado es siempre el que va al frente en la perífrasis. Un ejemplo de este tipo deoración es puede haber querido ver a María comer la manzana. En este caso la perífrasiscontiene cinco verbos: dos auxiliares, un modal y dos verbos de contenido semántico. Sinembargo, con las definiciones de los verbos de subida de sujeto, de sujeto de control y deobjeto de control, el análisis de este tipo de oraciones es simple y directo, como se muestraen la figura 8.

Concluimos el análisis de la perífrasis española con los copulativos ser y estar enlas oraciones atributivas y pasivas. Estos verbos son también del tipo subject-raising peroa diferencia de las oraciones con predicación verbal, en las atributivas lo que se comparte

es el sujeto que posee la predicación nominal (i.e. la propiedad adjetiva o nominal especi-ficada como el atributo) con el sujeto de la oración. Como uno de sus sellos distintivos elespañol tiene dos auxiliares para esta función: ser y estar . Intuitivamente, ser se utiliza para hacer atribuciones permanentes (el cielo es infinito pero no el cielo está infinito)mientras que estar se utiliza para hacer atribuciones transitorias ( La fruta está madura pero no la fruta es madura). Sin embargo, esta distinción no es suficiente: tantoel niño es altocomo el niño está alto son oraciones gramaticales e idiomáticas, pero su significado esdiferente. Más aún, no se puede decir Juan es muerto, a pesar de que nada puede ser más permanente que dicha condición, y se tiene que decir Juan está muerto.

!!!

!

"

#

$$$

$

%

&

!!!

"

#

$$$

%

&

!"

#$%

&−

−

COMPS

SUBJ acc NP COMPS

SUBJ

VALCAT LOC SS

lxmocv

i

i

2#,&2#

1#

|||

ve comer la manzana

! "

# $ %

& 3 # , 2 #

1 # COMPS SUBJ

! "

# $ %

& COMPS SUBJ 2 #

3 #

! "

#

$ %

&

COMPS

SUBJ 1 #

a María

#2NP-acc

! "

# $ %

& COMPS SUBJ

(=VP)

(=S)




Figura 8. Análisis de la oración con perífrasis compleja

El uso de estos verbos se aclara cuando se toma en cuenta su carácter aspectual;mientras que ser es un verbo imperfectivo, estar es perfectivo, y estos auxiliares comu-nican este aspecto a sus atributos. Si los atributos que son permanentes de sus sujetosson compatibles con el carácter imperfectivo del verbo ser , oraciones como el cielo esinfinito son aceptables, pero si el adjetivo representa una propiedad que el sujeto llegaa tener como resultado de un proceso, su significado no es compatible con el sentido imper-fectivo de ser y oraciones como Juan es muerto no lo son; de manera análoga el sentido de la propiedad que se tiene o que se llega a tener debe ser compatible con el sentido perfectivo deestar , por lo que Juan está muerto es aceptable pero el cielo está infinito no lo es.

Presentamos ahora el modelo de las atributivas en HPSG. Como ya se ha dicho ser y estar son del tipo srv-lxm. Por su parte, la entrada léxica del atributo marca que éstemodifica a su propio sujeto, como se muestra en la entrada léxica de alto en la figura 9donde el sujeto del adjetivo (i.e. quien tiene la propiedad de ser alto) está coindexadocon la frase nominal que dicho adjetivo modifica, es decir con el valor del atributo MOD delHEAD de esta entrada léxica.

Figura 9. Entrada léxica para alto

!!!!!

"

#

$$$$$

%

&

!!!!

"

#

$$$$

%

&

!!!

"

#

$$$

%

&

1#|

sin

1#||

SUBJ VAL

gmasc AGR

MOD

adj

HEADCAT LOC SS

alto

ver comer la manzana

! "

# $ %

& 6

#

,

5

#

1 #

COMPS

SUBJ ! "

# $ %

& COMPS SUBJ 5 #

6 #

! " #

$ % & COMPS SUBJ 1 #

4 #

! " # $

% & COMPS SUBJ 1 #

a María

#5NP - acc

! " #

$ % &

4 # 1 #

COMPS SUBJ

querido haber puede

! " #

$ % & COMPS SUBJ 1 #

3 # ! " #

$ % &

3 # 1 #

COMPS SUBJ

! "

# $ %

& COMPS SUBJ 1 #

2 # ! " #

$ % &

2 # 1 #

COMPS SUBJ

! " #

$ % & COMPS SUBJ

(=VP)

(=VP)

(=VP)

(=VP)

(=S)




El análisis de la oración atributiva procede combinando el auxiliar con el atributo median-te la HCR para formar la predicación nominal, y mediante la HSR para formar la oracióncompleta, como se muestra en la figura 10.

Figura 10. Estructura para oración atributiva

Los análisis sintácticos de las atributivas con estar son similares y la diferencia designificados se representa en la semántica. Para este efecto, si el atributo representa una

propiedad que tiene que ser permanente necesariamente (“imperfectiva”) así se marca enla semántica de la entrada léxica del adjetivo; del mismo modo, si es una propiedad quenecesariamente se llega a tener después de un devenir (“perfectiva”) así se marca tambiénen la entrada léxica correspondiente. Sin embargo, si la propiedad puede tomar ambosvalores (alto, guapa), su valor aspectual queda indeterminado en el lexicón y el valor de esteatributo lo determina el copulativo en el proceso de combinación. La semántica de nuestroejemplo se ilustra en la figura 11.

! ! ! ! ! ! ! !

"

#

$ $ $ $ $ $ $ $

%

&

! ! ! !

"

#

$ $ $ $

%

&

! ! ! !

"

#

$ $ $ $

%

&

imp SP uan THM

v SIT tall RELN

i NAMED uan NAME

u SIT name RELN

RESTR

rop ODE

i INDEX




Figura 11. Semántica de atributiva con ser Cuando los auxiliares ser y estar aparecen en pasivas, comunican a sus predicaciones

su carácter aspectual de la misma manera que en las atributivas; por lo mismo, la pasiva

con estar se usa con verbos perfectivos mientras que la pasiva con ser requiere verbosimperfectivos: se puede decir María es querida pero no María está querida; asimismo,se puede decir la puerta está abierta, pero no la puerta es abierta a menos que elsignificado de esta última oración se complete con un modificador que complete elsentido de un proceso reiterativo como en la puerta es abierta todas las mañanas. Conesta observación concluimos el estudio de los verbos auxiliares.

3. El sistema de pronombres clíticos

Las expresiones perifrásticas mostradas en la sección anterior contienen frecuentemen-

te pronombres clíticos en lugar de los argumentos explícitos del verbo de contenido. Por ejemplo puedes mostrar el catálogo a Juan puede realizarse de manera mucho másdirecta como se lo puedes mostrar o puedes mostrárselo. Más aún, este tipo de pronombres ocurre también con mucha frecuencia en construcciones en las que no intervienenverbos auxiliares. En general, las partículas clíticas han sido objeto de una gran canti-dad de estudios lingüísticos (e.g. véase Nevis et. al, 1994); sin embargo, a pesar de suimportancia y la atención recibida, el nivel de representación de los pronombresclíticos es sujeto de controversia. Por un lado hay evidencia de que son fenómenos decarácter estrictamente morfológico, mientras que por otro se arguye que los pronombres clíticos son objetos léxicos independientes y por lo mismo pertenecen al nivel derepresentación sintáctico.

Aquí se presenta un modelo en HPSG que toma en cuenta ambas tendencias y se propone que las secuencias de pronombres clíticos constituyen unidades morfológicasindisolubles, independientemente de que aparezcan en forma proclítica o enclítica. Sin embargo, estos grupos pueden ser sujetos de una operación sintáctica, y pertenecen también aeste último nivel de representación gramatical. El modelo permite analizar oracionesincluyendo pronombres clíticos atómicos o en grupos y en forma enclítica y proclítica.Los elementos esenciales del modelo son:

· Las entradas léxicas de los verbos que pueden recibir pronombres clíticos comoargumentos.

· Las entradas léxicas de las palabras clíticas que corresponden a las secuencias posibles de pronombres clíticos en el lenguaje.

· Las reglas léxicas que modifican la valencia de los verbos en el proceso de clitización.· Las reglas léxicas que realizan a los pronombres cuando estos se presentan de forma

enclítica.· Una regla gramatical para combinar una secuencia de uno o más pronombres clíticos

con la frase verbal cuando estos se presentan de forma proclítica.




A continuación se muestran los elementos del modelo mediante el análisis de lasformas clíticas de muestras el catálogo a Juan: se lo muestras y muéstraselo. La entradaléxica de muestras tiene su sujeto y dos complementos como se muestra en la figura 12.

Figura 12. Entrada léxica de muestras

En esta forma básica la palabra muestras debe ser seguida por sus complementosacusativo y dativo (qué y a quién); sin embargo, cuando ocurre en construcciones con pronombres proclíticos la forma en la figura 12 se modifica como se indica en la figura 13.

Figura 13. Forma clitizada de muestras

Esta transformación se logra mediante una regla léxica llamada declitización cuyo efectoes consumir a los complementos del verbo en el rasgo COMPS e incluirlos en lista declíticos en el rasgo CL-LIST ; de este modo el verbo se transforma en una frase verbal que pospone la combinación con sus argumentos. Por otro lado, la secuencia de pronombres“ se lo” se considerauna unidad morfológica indisoluble y se combina con el verbo en unasola operación mediante la regla de Head Proclitic Rule ( HPR). En la figura 13, el atributoCL-LIST contiene los argumentos del verbo clitizado en el orden requerido para sucombinación mediante la regla de combinación proclítica. La entrada léxica de la secuen-cia de clíticos se muestra en la figura 14 y la regla HPR en la figura 15; el análisissintáctico de nuestra oración de ejemplo se muestra en la figura 16. El último paso delanálisis para la combinación del sujeto con la frase verbal en la figura 16 se logra mediantela aplicación de la regla Head-PRO Drop Rule, como ya se ha mencionado.

!!!!

"

#

$$$$

%

&

!!!

"

#

$$$

%

&

!"

#$%

&

NP NP COMPS

NP SUBJ VAL

verb HEAD

CAT LOC SS

muestras

,

||

!

!!!!

"

#

$

$$$$

%

&

!

!!!

"

#

$

$$$

%

&

!!!

"

#

$$$

%

&

− NP NP LIST CL

COMPS

NP SUBJ

VAL

verb HEAD

CAT LOC SS

muestras

,

||




Figura 14. Entrada léxica de compuesto clítico

Figura 15. Head Proclitic Rule

Figura 16. Estructura de oración proclítica

[ ] [ ]{ } !!

!!

"

#

$$

$$

%

&

!!

!

"

#

$$

$

%

&

−−

!

"

#$

%

&

−−−

ji

ji

rel malerel indivudual RESTRCONT acc NP dat NP LIST CLVAL

clitic HEADCAT

LOC SS

lo se

,|,||

!!!

"

#

$$$

%

&

−−− acc NP dat NP a LIST CLCOMPS

SUBJ

,#

2#

muestras

!

!!

"

#

$

$$

%

&

− LIST CL

COMPS

SUBJ

(=VP)

!"

#$%

&

− a LIST CLVAL

clitic HEAD

#|

se lo

!!!

"

#

$$$

%

&

− LIST CL

COMPS

SUBJ 2#

(=S)

!!!

"

#

$$$

%

&

!!!

"

#

$$$

%

&

−

!"#$

%&

−

→!"#$

%&

−

1#

[]

1#|||

LIST CL

COMPS

SUBJ

VA L H LIS T CLVAL

clitic HE ADtrue

LIST CLVAL

CLIT HE AD




Pasamos ahora a mostrar el análisis para la forma enclítica muéstramelo. En este caso elverbo de contenido está en forma no personal (i.e., imperativo) y los pronombres se y loson una sola forma léxica. La entrada básica del verbo mostrar se modifica mediante una

regla léxica para consumir sus dos argumentos y formar una frase verbal saturada enuna sola operación.En la figura 17 se muestra dicha regla para clitizar el verbo mostrar con dos argumentos enclíticos. La forma resultante se puede combinar con el sujeto, eneste caso omitido, de manera similar a la construcción en la figura 16.

Figura 17. Regla de clitización enclítica

La semántica resultante del análisis de la oración enclítica se muestra en la figura 18.

Figura 18. Semántica de frase verbal enclítica

Una característica sumamente distintiva de los sistemas de clíticos en diferentes lenguases el orden estricto pero idiosincrásico que se da entre los pronombres; en español elorden es: se, te, me, le, lo, la, donde lo, la y le nunca aparecen juntos. Por ejemplo se lodas, pero no lo se das o me lo dices pero no lo me dices, etc. Adicionalmente este orden seconserva independientemente de que los pronombres se presenten de manera pro o enclítica; por ejemplo: dáselo pero no dalose, dímelo pero no dilome. Asimismo, en españoltodos los pronombres son proclíticos o enclíticos: se lo das o dáselo pero no se daslo.El orden en el caso proclítico se captura en la definición de la entrada léxica de la palabra clítica como se muestra en la figura 14; los diferentes ordenes se capturandefiniendo una palabra clítica para cada orden posible. Por su parte, la regla de combi-nación proclítica contiene los argumentos clitizados en el mismo orden, ya que la palabraclítica y la lista de argumentos de la frase verbal están coindexados, como se puede

!

!!

"

#

$

$$

%

&

−

−

!

!!!

"

#

$

$$$

%

&

−

−

2#

|

[][],,2#

|

1#

ST ARG

LIST CLVAL

omuestramel ORTH

ST ARG

LIST CLVAL

ORTH

mostrar

!

! ! ! ! ! !

! !

"

#

! " #

$ % &

! "

# $ %

& −

! !

! !

"

#

$ $

$ $

%

&

k SIT third-person RELN

SIT

mas object RELN

k TO_WHOM

WHAT

i WHO show RELN

RESTR




apreciar en la figura 15. En el caso enclítico, por su parte, el orden se captura de formaexplícita en la regla de clitización en la figura 17, la cual asigna el me dativo y el loacusativo en la semántica correspondiente, como se muestra en la figura 18. En general,

las palabras léxicas con los diferentes órdenes posibles corresponden a las formas posibles de realización enclítica, por lo que el diccionario clítico es común, en últimainstancia, para la realización tanto de enclíticos como proclíticos.

Concluyendo, el presente análisis postula la existencia de un conjunto de secuenciasde pronombres clíticos que se consideran como unidades léxicas indisoluble: “ se” , “te” ,“me” , “le”, “lo”, “la” , “ se te”, “ se me”, “ se lo”, “ se la”, “te me”, “te lo”, “te la”,“me le”, “me lo”, “me la”, etc., un conjunto de reglas léxicas para clitizar los verbos y para formar enclíticos y una regla de combinación sintáctica para formar complejos clíticos.A pesar de que esta lista de palabras clíticas es parcial y no incluye los órdenes de clíticos posibles, se puede apreciar que el número de estas construcciones es finito y bajo; para el

español de México, por ejemplo, el número de combinaciones incluyendo los diferentescasos, número, genero y persona posibles, no pasan de 60. Por lo mismo, este mecanismo permite modelar con un costo computacional aceptable, centrado en el lexicón, las complejidades del fenómeno de clíticos debidas a su orden rígido e idiosincrático.

4. Interacción entre sistemas

Los sistemas de verbos auxiliares y pronombres clíticos no son independientes; en español es posible que exista un verbo auxiliar o una frase verbal entre dichos pronombres y el verbo decontenido de la oración. Este fenómeno se conoce como clitic climbing o subida de clíticosy ha sido sujeto a numerosos estudios (e.g. Monachesi 1999, Miller y Sag, 1995). Paramodelar este tipo de perífrasis es necesario extender la definición de los verbos que tomancomo complemento una frase verbal, ya sean estos subject-raising o subject-control , per-mitiendo que no sólo el sujeto del auxiliar y su complemento se compartan, sino tambiénque la lista de clíticos del auxiliar se comparta con la de su complemento, como se muestraen la figura 19, que actuliza a la definición de la figura 1. La definición de los verbos desujeto de control en la figura 4 se actualiza de manera similar.

Figura 19. Entrada léxica de verbos de subida de sujeto (versión 2)

!!!!!!!!

"

#

$$$$$$$$

%

&

!!!!!!!

"

#

$$$$$$$

%

&

−

!!!!

"

#

$$$$

%

&

!!!

"

#

$$$

%

&

−

<>

−

a LIST CL

a LIST CL

COMPS

SUBJ

VAL

falseCLIT HEAD

COMPS

SUBJ

CAT LOC SS

lxm srv

#

#

1#

|1#

||




Esta definición permite que la lista de clíticos pase hacia “arriba” en el proceso de cliticclimbing. En el proceso de combinación sintáctica y al igual que el resto de los atributosde valencia (i.e. el sujeto y los complementos verbales) el valor de estos atributos del

nodo madre de la estructura sintática es el mismo que el de la hija “cabeza”, a menosque la regla de combiación sintática defina explícitamente el valor de este atributo (i.e. el principio de valencia en HPSG). Para el caso de verbos no clítizados la lista de clíticoses simplemente vacía, por lo que el mecanismo funciona de manera general.A continua-ción ilustramos el modelo con el análisis de la oración se lo puedes mostrar , donde elauxiliar puedes toma como complemento la forma clítizada de mostrar. Esta combinaciónse logra mediante la aplicación de la HCR y la estructura resultante se combina con laforma clítica “ se lo” mediante la aplicación de la HPR; finalmente el análisis de la oracióncompleta se logra mediante el uso de Subject-PRO Drop Rule al igual que en los ejemplosanteriores. El árbol sintáctico se muestra en la figura 20.

Figura 20. Oración con subida de clíticos

Con los elementos dados hasta este momento es posible analizar estructurassintácticas con subida de clíticos en perífrasis con verbos de subida de sujeto y sujetode control; sin embargo, este modelo básico no contempla las construcciones con losllamados verbos de objeto de control como ver , mandar , hacer , etc., que tienen comocomplementos una frase nominal (i.e. su objeto directo) y una frase verbal infinitiva,

!!!

"

#

$$$

%

&

−−− acc NP dat NP a LIST CL

COMPS

SUBJ

,#

2#

3#

mostrar

!!!

"

#

$$$

%

&

− LIST CL

COMPS

SUBJ

(=VP)

!"

#$%

&

− a LIST CLVAL

clitic HEAD

#|

se lo

!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

2#

(=S)

!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

3#

2#

puedes

!!!

"

#

$$$

%

&

− LIST CL

COMPS

SUBJ 2#

(=VP)




como ver en puede ver a Juan comer la manzana, puede ver a Juan comerse la manzanay su forma clítica se la puede ver comer . Más aún, esta última forma es ambigua ya quesi corresponde a una clitización de la primera o la segunda oración, el pronombre se es

acusativo o dativo respectivamente, y el significado de la oración clítica es diferente.Esto se puede apreciar si tomamos en cuenta las formas clíticas puede verlo comerla y puede verlo comérsela, donde lo y la son acusativos ya que substituyen a los complemen-tos directos de los verbos respectivos, mientras que se es un pronombre dativo que reemplaza a un segundo complemento opcional del verbo comer , e indica que su referente es el beneficiario de la acción de comer (i.e dativo ético).

Analizamos primero el caso en que se la puede ver comer es una forma clítica de puede verlo comerla. En este caso los dos pronombres se frontalizan formando la secuen-cia “ se la” al tiempo que se reemplaza a lo, ya que la secuencia “lo la”, que daría origena la forma no gramatical lo la puede ver comer , no puede darse en español; en este caso el

pronombre se, en acusativo, es una repetición del le personal (derivado del illi Latino),dándose simultáneamente un caso de leísmo, en el que la forma le y su duplicación se,normalmente dativos, se realizan como acusativos en vez de la forma normal lo. Paracapturar este fenómeno definimos la operación de composición de clíticos. Esta oracióntoma dos clitizaciones de dos verbos diferentes y las compone en una sólo clitización quese cancela con una secuencia de pronombres clíticos. En nuestro ejemplo, las clitizacionesde los complementos directos de ver y comer se combinan en una sola clitizaciónabstracta (i.e. de la frase verbal ver comer ) la cual se cancela con la palabra clítica“ se la”, con ambos pronombres en acusativo, en una sola operación. La operación decomposición se define en la entrada léxica de los verbos de objeto de control,donde el atributo de la lista de clíticos definido en la valencia de estos verbos es lasuma de la clitización de su objeto directo, en caso que éste se encuentre clitizado, y losclíticos de su segundo complemento. Esta definición se muestra en la figura 21 y corresponde a la actualización la definición en la figura 6. Con estas definiciones podemosanalizar la oración de ejemplo, como se muestra en la figura 22.

Figura 21. Definición de verbos de objeto de control (versión 2)

!!!!!!!

"

#

$$$$$$$

%

&

!!!!!!

"

#

$$$$$$

%

&

⊕−

!!!

"

#

$$$

%

&

−

−

a LIST CL

a LIST CL

COMPS

iSUBJ

iCOMPS

SUBJ

VALCAT LOC SS

lxmocv

#...

#

2#

,2#

1#

|||




Figura 22. Oración con composición de clíticos

Pasamos ahora al análisis de la segunda interpretación de la oración en que se la puedever comer es una forma clítica de puede ver a Juan comerse la manzana; como ya se hadicho, en está oración se es un dativo ético que indica quien es el beneficiario de la acciónde comer. La estructura de la oración puede ser mejor apreciada si se toman en cuentalas formas clíticas intermedias puede ver a Juan comérsela y puede verlo comérsela. En particular, si no se clitiza el complemento directo de ver , no puede haber ambigüedadrespecto a cuál es el argumento reemplazado por se. Adicionalmente, la referencia deldativo ético, es decir Juan, es no sólo el objeto directo de ver (i.e. es a quien puede ver)

sino también el sujeto de comer (es quien come), por lo que tres argumentos de laoración tienen al mismo referente y están coindexados.Desde nuestro punto de vista, resulta sumamente interesante el hecho de que la forma

puede verlo comérsela es equivalente en significado a se la puede ver comer a pesar deque en ésta última no se realiza el pronombre lo. Más aún, notamos que en esta últimaforma sólo se realiza una instancia del pronombre se que representa a los tres argu-mentos correferenciales. En este caso la secuencia “ se lo” en la forma proclítica de laoración reemplaza a la secuencia “lo + sela” con la ecuación clítica se = lo + seque se permite si ambos pronombres están coindexados. Para modelar este fenómeno

!!!

"

#

$$$

%

&

⊕−− bacc NP LIST CL

COMPS

SUBJ

i #&7#

5#

2#

visto

(=VP)

(=S)

!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

4#

2#

haber

(=VP)

comer

!!!

"

#

$$$

%

&

− 8#,7##

2#

4#

a LIST CL

COMPS

SUBJ

!

!!

"

#

$

$$

%

&

− a LIST CL

COMPS

SUBJ

#

2#

3# (=VP)

!

!!

"

#

$

$$

%

&

− a LIST CL

COMPS

SUBJ

#

3#

2#

pudiera

!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

2#

!!!

"

#

$$$

%

&

−− acc NP b LIST CL

COMPS

SUBJ i

&8##

6#

5#

!"

#$%

&

− a LIST CLVAL

clitic HEAD

#|

se la

!!!

"

#

$$$

%

&

− LIST CL

COMPS

SUBJ 2#

(=VP)

!!

!

"

#

$$

$

%

&

− LIST CLCOMPS

SUBJ




definimos la operción de subsumsión, que permite combinar dos clitizaciones contiguassubsumiendo una en la otra si los pronombres correspondientes están coindexados. Ennuestro ejemplo, el pronombre lo se subsume en el pronombre se, prevaleciendo el caso

dativo sobre el acusativo (i.e el lo acusativo queda subsumido dentro del se dativo).Finalmente, la palabra clítica resultante de la operación de subsumsión se cancela conla realización explícita de los pronombres al frente de la perífrasis. La operación desubsumsión clítica se define mediante una regla léxica adicional que modifica la valenciadel verbo de objeto de control; esta regla se muestra en la figura 23.

Figura 23. Regla léxica para la operación de subsumsión

Esta regla especifica que si el complemento directo del verbo de objeto de control estáclitizado, y as su vez está coindexado con el primer elemento de la lista de clíticos delsegundo verbo, la lista de clíticos de la frase verbal formada por los dos verbos (i.e. ver

comer ) es simplemente la lista de clíticos del segundo verbo; está regla define tambiénque el argumento subsumido está coindexado con el sujeto y el segundo complemento delverbo de objeto de control. Con esta definición es posible analizar a la segunda interpre-tación de se la puede ver comer , como se muestra en la figura 24.

Una alternativa para analizar la oración sería utilizar la operación de composiciónde clíticos definida arriba; sin embargo, dicha composición produciría en este caso la palabra clítica “lo se la” que no ocurre en español. En general, de acuerdo con nuestroanálisis, las operaciones de composición y subsumsión de clíticos tienen motivacionesindependientes, por lo que ambas son necesarias para completar el análisis de la perí-

frasis compleja con pronombres clíticos. Con esta observación concluimos nuestro aná-lisis de la perífrasis española y su interacción con el sistema de pronombres clíticos. Unanálisis más elaborado de estos fenómenos se presenta en (Pineda y Meza, 2003).

!!!!!

!

"

#

$$$$$

$

%

&

!!"

#

$$%

&

−

−

−

!!!!

!

"

#

$$$$

$

%

&

−

−

,...[]&#

[]&4#,3#

#|

2#

1#

4#,[],3#

2#1#

i

i

ii

a LIST CL

SUBJ ST ARG

a LIST CLVAL

HEAD

ORTH

ST ARG

HEADORTH

lxmocv

!




Figura 24. Oración con subsumsión de clíticos.

5. Implementación y verificación

Ambos sistemas así como su interacción han sido verificados empíricamente con expre-siones del Corpus DIME (Villaseñor et. al., 2001). Asimismo, el modelo ha sidoimplementado en el ambiente de desarrollo de HPSG, Linguistic Knowledge Building(LKB) (Copestake 2002), partiendo para este efecto de la gramática del español desarro-llada por Quirinos (2001), que corresponde en términos generales a la gramática básicadel inglés de Sag y Wasow (1999).

El corpus DIME está compuesto por 6121 elocuciones, de las cuales aproximada-mente un 55% no admiten un análisis gramatical exhaustivo (e.g. interjecciones, actos delhabla expresados en una palabra o frase hecha, oraciones elípticas, etc.). De las expre-siones parseables un total de 748 incluyen clíticos, de las cuales 688 incluyen clíticos propiamente, y el resto corresponde a otro tipo de oraciones con se (e.g. pasiva refleja,

impersonal activa, reflexivas, reciprocas, pseudo reflejas, etc.). Del total de las oracio-nes que contienen clíticos propiamente, 677 contienen un solo pronombre clítico y tansólo 11 llevan dos. No hay ningún caso de clíticos con verbos de control o auxiliaresclitizados, y todos los casos que se presentan en el corpus reciben un análisis adecuadocon nuestro modelo básico. Como dato singular en todo el corpus no se presentaninguna oración en voz pasiva, y siempre que se requiere este recurso expresivo seusa la forma pasiva refleja (39 oraciones). El análisis de el resto de las oraciones con se se presenta en (Pineda y Meza, 2003).

!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

5#

2#

visto

(=VP)

(=S)

!!

!

"

#

$$

$

%

&

− a LIST CLCOMPS

SUBJ

#4#

2#

haber comer

!!

!

"

#

$$

$

%

&

− a LIST CL

COMPS

SUBJ

#

2#

4#

!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

2#

3# (=VP)!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

3#

2#

!!!

"

#

$$$

%

&

−−− acc NP dat NP a LIST CL

COMPS

SUBJ

i

i

,#

6#

5#

!!!

"

#

$$$

%

&

− a LIST CL

COMPS

SUBJ

#

2#

(=VP)

!!!

"

#

$$$

%

&

− LIST CL

COMPS

SUBJ 2#

!"

#$%

&

− a LIST CLVAL

clitic HEAD

#|

pudierase la

!!!

"

#

$$$

%

&

− LIST CL

COMPS

SUBJ

(=VP)




NEVIS, J. A., JOSEPH, B. D., WANNER, D. and ZWICKY, A. M. (1994) Clitics, A comprehensivebibliography 1892-1991. Library and information sources in linguistics, 22. Amsterdam/Philadelphia: John Benjamin’s Pub.

PINEDA, L. A., MASSÉ, A., MEZA, I., SALAS, M., SCHWARZ, E., URAGA, E andVILLASEÑOR, L. (2002) «The Dime project». In Proceedings of MICAI2002. Lecturesnotes in artificial intelligence 2313: 166-175.

PINEDA, L. A. & MEZA, I. (2003) «The Spanish pronominal clitic system”. Depto. deCiencias de la Computación, IIMAS, UNAM

POLLARD, C. & SAG, I. (1994) Head-driven phrase structure grammar . Chicago & London:Stanford CSLI-University of Chicago Press.

SAG I. & WASOW T. (1999) Syntactic theory: a formal introduction. Stanford: CSLIPublications.

QUIRINO, A. P. (2001) Spanish clitics: a computational model , Master’s Thesis. Bielefeld:

Universität Bielefeld: «http://coral.lili.uni-bielefeld.de/~aquirino/thesis.htmlVILLASEÑOR, L., MASSÉ, A. & PINEDA, L. A. (2001). «The DIME Corpus». En C.

Zozaya, M. Mejía, P. Noriega y A. Sánchez (eds.). Memorias ENC01, Tomo II. SMCC,Aguascalientes, Ags. México.

AgradecimientosSe agradece el apoyo de CONACyT Proyecto C092A.




Algoritmo flexibilizado de agrupamiento semántico

Gabriel CastilloGerardo Sierra

Instituto de Ingeniería, UNAM

In this paper, we propose a flexible algorithm for semantic clustering. We introduce equal

couple, semi-equal couple, null couple, semi-null couple, match couple, binding and semanticcouple. The algorithm matches the words of two strings by a set of operations (insertion,deletion and substitution). We determine the minimum cost for each operation required tochange one string into another, using the alignment algorithm of Wagner & Fisher. Following these transformations, we align pairs of words for two definitions, to obtain bindings (the strongest pairs of words candidates for semantic couples), and the semantic clusters (semanticallyrelated words in a given context). The flexible algorithm for semantic clustering was implemented into a system accessible on-line at: http://iling.torreingenieria.unam.mx.

En este trabajo se presenta el funcionamiento del algoritmo flexibilizado de agrupamiento

semántico. En él se introducen los conceptos de par igual, par semi-igual, par nulo, par semi-nulo, par correspondiente, par-vinculado y par-semántico. El algoritmo parte de un conjunto de operaciones sobre dos cadenas (inserción, borrado y sustitución), a partir de lascuales se determinar el mínimo número de cambios necesarios sobre una definición parallegar a otra, empleando el algoritmo de alineamiento propuesto por Wagner y Fisher. A partir de estas transformaciones se establece lo que se ha denominado alineamiento semántico y, con base en él, se identifican los denominados pares-vinculados. El producto final del algoritmo son: los pares-vinculados (fuertes candidatos a ser pares semánticos) y losagrupamientos semánticos (conjuntos de palabras que pueden relacionarse semánticamente).

El algoritmo flexibilizado de agrupamiento semántico se implantó en un sistema que puede ser consultado en la página http://iling.torreingenieria.unam.mx.

Gabriel Castillo y Gerardo Sierra.Grupo de Ingeniería Lingüística, Instituto de IngenieríaUNAM, Torre de Ingeniería, 2º Piso, Circuito Interior 04510 México D. F.correos electrónicos: [email protected]., [email protected].

Palabras clave: paradigmas semánticos, alineamiento, extracción de información, semántica léxica, lin- güística computacional.

Fecha de recepción del manuscrito: abril del 2004



G. Castillo / G. Sierra70

Introducción

Un diccionario onomasiológico electrónico permite que un usuario introduzca un conjuntode palabras (palabras clave) que él considera describen adecuadamente un término cuyonombre escapa a su memoria o su conocimiento. El diccionario deberá determinar, con base en ese conjunto de palabras, cuál de los términos disponibles es el más adecuado.

Una primera técnica para realizar esta tarea consiste en buscar la existencia delas palabras clave en el texto de la definición del término; sin embargo, los resultadosde esta técnica son pobres, pues implica que el usuario introduzca como palabras claveaquellas palabras que efectivamente se encuentran en la definición. Por ejemplo, consi-dérese que en la siguiente definición, obtenida de un diccionario terminológico,

Caída libre : descenso de un cuerpo sometido únicamente a la acción de la gravedad [GDL1996] el usuario introdujo las palabras descenso y cuerpo como palabras clave, el

resultado sería que caída libre podría ser uno de los términos buscados por el usuario.Sin embargo si el usuario introdujo desplome y objeto como palabras clave del término buscado, la técnica indicaría que no se localizó ningún término.

Una técnica alternativa para mejorar los resultados consiste en expandir la búsqueda.Este proceso consiste en asociar a un término varios conjuntos de palabras; cada conjuntoagrupa palabras que están relacionadas semánticamente; por ejemplo, los conjuntos {caída,descenso, bajada, desplome} y {cuerpo, objeto, cosa, entidad } pudieran asociarse al términoCaída libre. El proceso de búsqueda de un término consiste ahora en buscar cada palabraclave en los conjuntos de palabras asociadas a los términos, de modo que si el usuariointroduce desplome y objeto como palabras clave, un resultado podría ser Caída libre,

puesto que ambas palabras se encuentra en los conjuntos asociados al término.El principal problema que enfrenta esta alternativa es la determinación de los

elementos de cada conjunto. Cada conjunto es un agrupamiento semántico de acuerdo con lasiguiente definición.

En el área de recuperación de información, se denomina agrupamiento semántico(cluster en inglés) a un conjunto de palabras semánticamente relacionadas. De acuerdocon Lounsbury (citado por Geckeler 1976):

“Consideramos como un agrupamiento semántico cualquier conjunto de formaslingüísticas en donde: (a) el significado de cada forma tiene una característica en

común con el significado de todas las demás formas del conjunto, y (b) el significado decada forma difiere de todas las demás formas del conjunto por uno o más sentidos delsignificado de la forma”

Por extensión, definimos un par-semántico como una pareja de palabras que guar-dan una relación semántica en el sentido propuesto por Lounsbury.

El algoritmo aquí propuesto se basa en uno desarrollado por Sierra y McNaught(1999, 2000b) (al cual denominaremos algoritmo básico de agrupamiento semántico osimplemente algoritmo básico), que es un método heurístico y, en esencia, se basa enanalogías. Utiliza como entrada un conjunto de términos y sus definiciones (provenientes



71Algoritmo flexibilizado de agrupamiento semántico

de diferentes fuentes), compara estas definiciones e identifica pares de palabras conrelaciones semánticas (pares-semánticos), integrándolos después en conjuntos de palabras con una relación semántica en común. El algoritmo permite agrupar palabras cuyo

significado o uso pueden considerarse bajo el contexto analizado como sinónimos, aúncuando no guarden una relación sinonímica desde el punto de vista formalEl algoritmo básico fue aplicado a un diccionario de términos en el área de

metrología en el idioma inglés. El diccionario contiene 342 términos, cuyas definicio-nes se obtuvieron de dos diccionarios (el Collins English Dictionary (1994) y el Oxford English Dictionary (1994) y los resultados obtenidos también se muestran en este artículo.

Algoritmo

El funcionamiento general del algoritmo es el siguiente: con base en un conjunto de térmi-

nos y sus definiciones (todos los términos dentro de un área del conocimiento), se toman pares dedefiniciones de un mismo término provenientes de diferentes fuentes (diccionarios, expertos,etc.) y a partir de estos pares se establecen parejas de palabras que pueden sustituirseunas por otras y cuyo cambio en el significado de las definiciones resulta irrelevante.Este tipo de parejas de palabras forman lo que se ha denominado como par-semántico.

Por ejemplo, considérense las definiciones:

A. caída l ibre : movimiento de un cuerpo en un campo gravitatorio bajo lainfluencia de la gravedad (DES 1996)B. caída l ibre : descenso de un cuerpo sometido únicamente a la acción de

la gravedad (GDL 1996)

El algoritmo identifica que la pareja de palabras movimiento y descenso guardan unarelación sinonímica. Esto significa, básicamente, que al sustituir movimiento por des-censo, en la definición A, la variación del significado es mínima y, por tanto, las palabras dela pareja movimiento y descenso, bajo el contexto de esta definición, pueden ser sustituidasuna por la otra:

C. caída libre: descenso de un cuerpo en un campo gravitatorio bajo lainfluencia de la gravedad

D. caída libre: descenso de un cuerpo sometido únicamente a la acción dela gravedad

La búsqueda de pares-semánticos se realiza sobre todas las definiciones del diccionarioterminológico. Una vez establecidos todos los pares de palabras, se sustituye la primera palabra por la segunda en todos aquellos pares de definiciones en donde aparecen ambostérminos en su texto.




Terminada la sustitución, el proceso de búsqueda de pares se repite. El algoritmotermina hasta que ya no se identifican nuevos pares. Al final de cada ciclo, los pares de palabras se combinan para formar conjuntos más grandes de palabras, todas ellas rela-

cionadas semánticamente (agrupamiento semántico).El algoritmo de agrupamiento semántico es un método inferencial que se basa enexaminar las definiciones de un término, identifica las palabras que guardan unarelación semántica y a partir de esta relación infiere su aplicación a otros contex-tos. A continuación se presentan cada una de las etapas del método, presentando losalgoritmos sobre los que se basa la etapa examinada.

Funcionamiento

El primer paso del algoritmo consiste en analizar solamente las definiciones de un

término agrupadas en pares, donde cada par de definiciones proviene de una fuentedistinta. Esto último con el fin de no analizar acepciones diferentes del mismo término.

Para cada pareja de definiciones se busca determinar que operaciones de transformación(inserción de una palabra, borrado de una palabra y sustitución de una palabras por otra) setiene que aplicar a la primera definición para convertirla en la segunda definición. Una tablaque indica la secuencia de transformaciones que deben aplicarse se denomina alineamiento.

Normalmente cada operación tiene un costo asociado y los algoritmos de alinea-miento buscan, generalmente, minimizar el costo total del alineamiento, es decir minimi-zar la suma de los costos asociados a cada una de las operaciones aplicadas.

Con el fin de alinear un par de definiciones de manera que se obtenga el mínimocosto total de las operaciones aplicadas, aquí se emplea un algoritmo denominado dis-tancia de edición. Wagner y Fisher [WaF1974] propusieron una técnica para evaluar ladistancia de edición y se basa en el método de programación dinámica. El resultadofinal de la aplicación de este algoritmo es un conjunto secuencial de pares de palabras (incluida la palabra vacía e) que representan el mínimo número de opera-ciones necesarias para que, a partir de la definición A, se llegue a la definición B . Estasecuencia representa un posible alineamiento de las dos cadenas.

Para propósitos de recuperación de información, las palabras en una definición pueden ser palabras clave (o relevantes) o palabras irrelevantes. Por ejemplo, en la

definición de“caída libre”, las palabras “movimiento” , “cuerpo”, “campo”, “gravitatorio”,“bajo”, “influencia”, “gravedad” pueden considerarse palabras clave mientras que “de”,“un”, “en”, “a”, “la” son ejemplos de palabras poco significativas o irrelevantes.

El término palabra clave se utiliza para designar cualquier palabra que pueda ser consi-derada importante dentro de una definición, desde el punto de vista de las propiedades delconcepto descrito. El término palabra irrelevante, en oposición a las palabras clave, seutiliza para designar a aquellas palabras que no son significativas para propósitos de recupe-ración de información, aunque estas palabras son importantes para conectar las palabrasclave y hacer, de esta manera, comprensible el concepto.




En el algoritmo básico de alineamiento semántico se emplea una lista de palabrasirrelevantes o stop list a fin de rechazar aquellas parejas de palabras cuyo significadoes poco útil dentro del proceso de agrupamiento semántico. En esencia, esto es equiva-

lente a determinar la categoría gramatical de cada una de las palabras y rechazar aquel par-vinculado que asocia pares de palabras con categoría gramatical diferente, por ejemplosustantivos con artículos.

De acuerdo con el tipo de operaciones que se pueden efectuar y con las palabrasque integran cada pareja, los pares de palabras se clasifican en:

a) Par-igual . Aquella pareja de palabras (palabra1, palabra

2) cuyos elementos son

idénticos, lo cual indica que no se debe efectuar transformación alguna en esa palabra.

b) Par-correspondiente Aquella pareja de palabras (palabra1, palabra

2) cuyos ele-

mentos son diferentes, que indican que una de ellas (palabra1) debe sustituirse por la otra (palabra

2) durante el proceso de transformación, siempre y cuando

ninguna de las dos palabras formen parte de la lista de palabras irrelevantes.c) Par semi-igual. Aquel par-correspondiente que está formado únicamente por

palabras irrelevantes, consideradas dentro de la stop list. Aquí se consideracomo par igual al par semi-igual para efectos de la evaluación de un coefi-ciente de similitud denominado LCC y que se presenta en los siguientes párrafos.

d) Par-nulo. Aquella pareja formada por una palabra y la palabra vacía e, de

forma que una palabra debe agregarse (e, palabra) o borrarse (palabra, e), talque la palabra no forma parte de la lista de palabras irrelevantes.e) Par semi-nulo. Aquel par-nulo que contiene una palabra irrelevante, pertene-

ciente a la lista de palabras irrelevantes o stop list propuesta por el usuario.

En principio, los pares-nulos carecen de interés semántico, pues indican que debeagregarse o eliminarse una palabra en la definición.

Los pares-correspondientes, por el contrario, indican que debe sustituirse una palabra por otra para llegar a la cadena destino. Por ejemplo los pares correspondientes:(movimiento, descenso), (campo, sometido), ( gravitatorio, únicamente), (bajo, a), (in-

fluencia, acción), lo que en esencia es una de las propiedades de un par-semántico,deben ser analizados en su contexto para determinar si existe alguna relación semánticaentre ellos. Es decir, se debe establecer si es posible que un miembro del par pueda ser sustituido por el otro sin modificar apreciablemente el significado de la definición.

Como una medida de correlación entre dos palabras de un par-correspondiente, se propuso, en el algoritmo básico de agrupamiento semántico, el uso de un coeficiente desimilitud denominado LCC (por sus siglas en inglés de longest collocation couple).




El coeficiente de similitud LCC examina cada par-correspondiente y las parejas ala antes y después del par-correspondiente, estableciendo cuántos pares-iguales, paressemi-iguales o pares semi-nulos existen antes y después de cada par-correspondiente

hasta antes de encontrar un par-nulo u otro par-correspondiente. El número total de pares-iguales, pares semi-iguales y pares semi-nulos más el par-correspondiente es elvalor de LCC que se asigna al par analizado.

Así, para las definiciones de “caída libre” podemos establecer que una posiblemanera de alinear estas dos definiciones es la presentada en la Tabla 1.

Tabla 1. Posible alineamiento de las definiciones de término “caída libre”

La primera columna representa la cadena original; la segunda, la cadena objetivo;

y la tercera muestra las operaciones de transformación. La columna cuarta indica eltipo de par, mientras que la quinta proporciona el coeficiente de similitud para los parescorrespondientes.

Entre más alto sea el valor de LCC mayor es la similitud del par-correspondiente,y es más probable que puedan intercambiarse las palabras del par en cualquiera de lasdefiniciones del término sin que el texto resultante sufra alteraciones en su significado.Por ejemplo, en las definiciones del término “Caída libre”, al sustituir acción por influencia en la primera definición, obtenemos el texto “caída libre movimiento de uncuerpo en un campo gravitatorio bajo la influencia acción de la gravedad”.

Cadena Cadena Operación de Tipo de par LCC

Fuente Destino transformación

caída caída igual

libre libre igual

movimiento descenso Sustitución correspondiente 8

de de igual

un un igual

cuerpo cuerpo igual

en Borrado semi-Nulo

un Borrado semi-Nulo

campo sometido Sustitución correspondiiente 1

gravitatorio únicamente Sustitución correspondiente 1

bajo a Sustitución correspondiente 2

la la igual

influencia acción Sustitución correspondiente 5

de de igual

la la igual

gravedad gravedad igual

LC C = 5

LC C = 8




Experimentalmente se determinó que, para el inglés y el español, un valor de LCCde 5 sugiere un buen grado de similitud. Además se encontró que se requiere al menosun par-igual antes y uno después del par-correspondiente para que las palabras sean

susceptibles de considerarse intercambiables: denominamos a esta restricción condi-ción de frontera.Un par-correspondiente que cumple con que el valor de LCC sea mayor o igual a

cinco y satisface la condición de frontera se denomina par-vinculado (binding ).En nuestro ejemplo, sólo los pares-correspondiente (movimiento, descenso) e (in-

fluencia, acción) tienen un LCC igual a 8 y 5, respectivamente, además de que amboscumplen con la condición de frontera, por lo que estos dos pares se consideran pares-vinculados.

En principio, los pares-vinculados representan pares de palabras que pueden ser utilizadas con el mismo significado dentro de un contexto en particular. Si tomamos la

pareja de definiciones para la cual un conjunto de pares-vinculados fueron extraídos, yremplazamos, por ejemplo, en la primera definición a la primera palabra del par-vinculadocon la segunda palabra del par-vinculado, observamos que esta definición no ha varia-do significativamente su sentido.

Al recalcular la distancia de Levenshtein sobre las definiciones modificadas, en-contramos dos efectos interesantes:

a) El costo de edición calculado se reduce como consecuencia de que ahora haymás palabras coincidentes. Lo cual indica una mayor similitud entre ambasdefiniciones.

b) Los pares-correspondientes que no han sido considerados como pares-vincu-lados pueden aumentar su valor de LCC, por lo que probablemente serántomados en cuenta si aplicamos nuevamente el algoritmo.

Al hacer lo anterior, el número de pares-vinculados identificados aumenta. Es importantehacer notar que la sustitución de una palabra por la otra no puede aplicarse de maneraindiscriminada; de hecho, para realizar la sustitución es necesario que las dos palabras del par-vinculado aparezcan en los textos de las dos definiciones donde se desea realizar lasustitución; en caso contrario, no debe realizase la sustitución del par-vinculado.

La sustitución, sujeta a la restricción anterior, debe ser aplicada para cada par-vinculado en todos los pares de definiciones empleados. Con las nuevas definiciones, secomenzará un nuevo ciclo del algoritmo.

El algoritmo examina todas las parejas de definiciones disponibles y establecetodos los pares-vinculados, eliminando aquellos pares-vinculados que contengan palabrasirrelevantes.

Una vez establecidos los primeros pares-vinculados, el proceso se repite utilizandoahora las definiciones resultantes del proceso de sustitución de pares-vinculados. El proce-so se repite iterativamente hasta que no se generen nuevos pares-vinculados




para el mismo diccionario. Se analizaron las definiciones de ese diccionario y con ayudade un traductor certificado se identificaron dos tipos de pares semánticos:

pares-semánticos simples: son pares-semánticos en los que cada elemento

del par está constituido por una sola palabra pares-semánticos compuestos: es decir, pares-semánticos con más de una palabra en alguno de los elementos que forman el par.

En el análisis se obtuvieron 285 pares-semánticos simples y 78 pares semánticos compuestos, para un total de 363 pares semánticos. Debido a la naturaleza del algoritmo, elanálisis presentado se realiza con respecto a los 285 pares-semánticos simples.

Pruebas realizadas

Se evaluaron los resultados al considerar una o más de las siguientes variantes delalgoritmo:

1. No considerar la existencia de pares semi-iguales y de pares pares semi-nulos2. Considerar la existencia de pares semi-iguales3. Considerar la existencia de pares pares semi-nulos4. Considerar la existencia de pares semi-iguales y de pares pares semi-nulos

La evaluación de los resultados obtenidos de la aplicación del algoritmo de alineamientosemántico en el corpus de inglés se resume en la tabla 2 y en la gráfica 1. Las pruebas

se han ordenado con base en los índices de recall y precision.Tabla 2. Resultados de las pruebas realizadas considerando un solo alineamiento

|R| : Número de pares-semánticos obtenidos manualmente |Ra| : Número de pares-vinculados obtenidos|A| : Número de pares-vinculados generados por la variante evaluada

Se muestra aquí la evaluación de los índices de recall y precision; las pruebas se han ordenado ascendentementede acuerdo con el índice de recall .

Prueba

423

1

| R |

285285285

285

| Ra |

906245

30

| A |

1859771

32

Recall

0.31570.21750.1578

0.1052

Precision

0.48650.63920.6338

0.9375

Semiigual

SISI

NO

NO

SeminuloSI

NOSI

NO




Gráfica 1. Gráfica Recall vs Precision para las pruebas realizadas

Análisis de los resultados

El algoritmo básico genera 32 pares-vinculados, de los cuales 30 son pares-semánticos, conlo que los índices recall y precision son 0.1026 y 0.9375, respectivamente. El bajo valor derecall indica que se han recuperado muy pocos pares-semánticos (10.52% del universo posible), mientras que el valor alto de precision indica que, del total de pares-vinculados,

el 93.7% de los pares son pares-semánticos.Las alternativas de pares semi-iguales o semi-nulos mejoraron el desempeño del

algoritmo al incrementar la identificación de pares-semánticos un 106 % y 50%, respectivamente, y en consecuencia los valores de recall se incrementaron a 0.2175 y0.1578, respectivamente. Por otra parte, la generación de pares-vinculados se incrementóun 203% y un 121%, respectivamente, para obtener valores de precision de 0.6392 y0.6338, lo que indica que para obtener más pares-semánticos fue necesario incrementar laidentificación de pares-vinculados: de hecho, del total de pares-vinculados sólo el 63% eran pares-semánticos.

De las observaciones anteriores, puede establecerse que el algoritmo mejora notablemente al incluir la variante de par semi-igual o la variante de par semi-nulo; en particular, la primera ofrece mejores resultados que la segunda.

La aplicación simultánea de la alternativa de par semi-igual y par semi-nulo traecomo consecuencia un aumento en el índice recall (0.3157); este aumento supera elobtenido por la aplicación individual de par-semi-igual (0.2175) o par semi-nulo (0.1578).Sin embargo, este aumento se ve contrarrestado por la disminución en el índice precisionobtenido en la aplicación conjunta (0.4865) respecto a los valores obtenidos por la apli-cación de las alternativas individuales (0.6338 y 0.6392).

Generación de pares semánticos

0,3157; 0,4865

0,1052; 0,9375

0,2175; 0,6392

0,1578; 0,6338

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40

Recall

P r e c i s i o n




Al considerar los porcentajes de incremento obtenidos se observa que la aplicaciónde la alternativa par semi-nulo implica un aumento del 50% en la identificación de pares- semánticos, contra un aumento del 121% en la identificación de pares-vincula-

dos. En el caso de pares semi-nulos, estos porcentajes corresponden a 106% y 203%,respectivamente, mientras que en el caso de la combinación de las alternativas losincrementos obtenidos son del 200% y 478%.

La aplicación de las alternativas correspondientes a par semi-igual, par semi-nuloy su combinación, mejoran los resultados obtenidos por el algoritmo de alineamientosemántico en valores en el índice recall que van del 0.15 al 0.31, contra valores eníndice precision que van del 0.63 al 0.24. Particularmente, la alternativa que ofrece lamejor relación costo-beneficio corresponde a la consideración de pares semi-iguales.

Limitaciones

El algoritmo de alineamiento semántico es un método de comparación de dos definicio-nes que se basa en el alineamiento de la secuencia de las palabras que las constituyen.Las palabras son analizadas desde un punto de vista tal que su semántica no es incluidaen el análisis. Esta pérdida de información conduce a que eventualmente se agrupan palabras sin ninguna relación semántica.

Las distintas alternativas planteadas en este trabajo permiten relajar las restric-ciones del algoritmo original, incrementando el índice de recall pero disminuyendo enconsecuencia el índice de precision. La evaluación cuantitativa del algoritmo y sus lasalternativas propuestas demostró que mientras no se incorpore información semánticaen las definiciones, un incremento del índice recall tendrá por consecuencia una dismi-nución del índice precision. Mientras se siga visualizando los textos como una secuen-cia de símbolos sin información adicional, los resultados no mejoraran en cuanto a losíndices de evaluación.

Resultados esperados y obtenidos

La evaluación sistemática de los resultados a través del método recall y precision ayudóa evitar consideraciones cualitativas que eventualmente podrían sesgar los juicios res-

pecto a las bondades de las variantes del algoritmo propuesto.Entre los resultados obtenidos, se estableció que las alternativas de pares semi-nulos, pares semi-iguales y su combinación proporcionan la mayor cantidad de paressemánticos, con una proporción muy alta de pares-vinculados.




Trabajos futuros

En este trabajo no se evaluaron los resultados que los algoritmos ofrecen cuando seaplican a un corpus en español. Como parte de los trabajos futuros deberán analizarselas modificaciones y adecuaciones necesarias para el idioma español.

A fin de contrastar los resultados no sólo contra los ideales (los resultados que unalgoritmo ideal debería obtener) sino entre las diferentes alternativas, es necesarioestablecer una medida cuantitativa a través de un análisis costo beneficio. En principio, podría evaluar el costo que se tiene al generar un par semántico en función del costoasociado al número de pares-vinculados identificados. En la literatura del área de recu- peración de información no se ha encontrado referencia a un indicador como éste.

Si bien en este trabajo se desarrolló y evaluó el algoritmo flexibilizado con distintasalternativas, éstas todavía son susceptibles de revisarse para tener mejores resultados. Por

ejemplo, un análisis semántico de cada una de las definiciones, así como la inclusión deun etiquetador de las partes de la oración posiblemente mejore los resultados obtenidos.

Referencias

BAEZA-YATES R., Ribeiro-Neto B. (1999) Modern Information Retrieval . Boston, Mass.:Addison-Wesley:

Collins English dictionary (CED) (1994) Glasgow: Harper Collins Publishers.

Diccionario enciclopédico Salvat Multimedia (DES) (1996). Barcelona: Salvat Editores.

Gran Diccionario de la Lengua Española, edición electrónica (GDL) (1996). Madrid: EditorialLarousse Planeta.

GECKELER, H (1976) Semántica estructural . Madrid: Gredos.Oxford English dictionary (OED) (1994). Oxford: Oxford University Press and Rotterdam:

Software B.V.SIERRA G. (1999) Design of a concept-oriented tool for terminology. PhD Thesis, Manchester:

University of Manchester, Institute of Science and Technology.SIERRA G. & McNaught J., (2000), «Extracting semantic clusters from MRD for an

onomasiological search dictionary». International Journal of Lexicography. Vol. 13 (4):264-286.

WAGNER R. A., Fisher M. J. (1974) “The string-to-string correction problem”. Journal of the ACM , Vol. 21(1): 168-173.

AgradecimientosAgradecemos al CONACyT (R37712) y a la DGAPA-UNAM (IN402900) por su apoyo para el desarrollode este proyecto



This work presents the results of applying of a measure to deal with word senses obtained from a raw corpus. In order to determine some lexical relationships between two word senses formal concept theory and the notion of subsumption are used to define the subsumption ratio. Here we use a set of texts to represent the use of a word sense. Themain idea is to quantify how much a set is contained in another to conclude a kind of lexical relationship.

Este trabajo presenta los resultados de la aplicación de una medida de subsunción entreun par de acepciones de palabras del español, usando un corpus sin mayor preprocesamiento

que la extracción de seudolexemas de las palabras de clases abiertas. Con base en las propiedades de los conceptos formales, la subsunción, vista como una relación entre pala-bras a partir del uso de éstas en una colección de textos, es reexpresada en términos de lascaracterísticas de los textos. Ya que la subsunción se apoya en la contención (comooperación de conjuntos) de una colección de textos en otra, ésta se aborda en formaaproximada. Se trabaja, entonces, con el grado de subsunción. Algunas relacionesléxicas, como la sinonímia y la hiponímia, pueden derivarse a partir de los grados de subsunción calculados entre dos palabras.

Estudios de Lingüística Aplicada, núm.38, 2003

Determinación de relaciones léxicas con base en el grado desubsunción*

Juan Fajardo González Héctor Jiménez Salazar

Facultad de Ciencias de la ComputaciónBenemerita Universidad Autónoma de Puebla

Juan Fajardo González y Héctor Jiménez SalazarFacultad de Ciencias de la Computación de la B. Universidad Autónoma de Puebla14 Sur y Av. San Claudio, Ciudad Universitaria72570, Puebla, Méxicocorreos electrónicos: jfa jardo@inaoep .mx , [email protected] .

* El presente artículo es resultado de pruebas adicionales realizadas con base en un trabajo expuesto en el CICLing 2003, IPN, México DF, febrero del 2003.

Palabras clave: relación semántica, subsunción, conceptos formales.Fecha de recepción del manuscrito: marzo del 2003



J. Fajardo / H Jiménez82

1. Introducción

Los Sistemas de Recuperación de Información (SRI) usan las relaciones léxicas paramejorar su desempeño. En particular, los SRI aplican técnicas de expansión de consultas para efectuar un enriquecimiento de las peticiones de los usuarios (Mandela et. al., 1999).Por ello, es importante abordar el problema de construir bases de datos léxicas de diferentesdominios (Grefenstette, 1993). En Sanderson y Croft (1999), se define que la relación eshipónimo de apoyándose en la noción de subsunción: subsume si ,donde denota el conjunto de contextos (documentos, oraciones, etc.) que contienenla palabra w . Sin embargo, se sabe que, en general, para hipónimos no sesatisface estrictamente: solamente 80% de los miembros de están en A x (Sandersony Croft, 1999).

Es de nuestro interés la exploración de diversas relaciones léxicas. En este traba-

jo enfrentamos el problema de contención de un conjunto en otro, derivado de la nociónde subsunción, mediante el cálculo de la proporción de contención. A diferencia deluso de contextos para verificar la subsunción, usamos las características de la acep-ción de una palabra; esto es, las palabras que ocurran en el contexto, tomado éste como laoración en que ocurra la palabra. Las características de una entidad se tratan dentro delmarco de los conceptos formales (Davey y Pristley, 1990) haciendo uso de la idea deíndice definido para un documento de un SRI.

En la teoría de conceptos formales, un concepto está definido por una pareja for-mada por el extento, el conjunto de ejemplares que presentan el concepto, y el intento,el conjunto de características que satisfacen todos los ejemplares del concepto. Asimismo, se

dice que un concepto, con extento e intento , B x ( ),, B A x x esmás particular que ( ),, B A y y

expresado como ( ) ( ),,, B A B A y y x x ≤ si y sólo si , A A y x ⊂ o equivalentemente(Davey y Pristley, 1990).

Así, el enfoque frente a la subsunción es tratar como concepto formal a cada posible acepción de una palabra; el extento estará formado por el conjunto de contextosdonde se use la palabra en una acepción, y el intento corresponderá a las palabras “másrepresentativas” del extento, según la noción de valor discriminante en los SRI.

En la siguiente sección se precisa el término grado de subsunción, en seguida unexperimento llevado a cabo para conocer el funcionamiento de esta medida y, al final,

se presentan las conclusiones de este trabajo.

2. Grado de subsunción

Consideremos una colección de textos y una palabra x . Si la palabra x está contenida en el texto éste lo podemos ver como un ejemplar delconcepto “el uso de la j-ésima acepción de la palabra x ”, para alguna j; concepto quedenotaremos en lo sucesivo como Sea T x { }⊂= T T T xm x x ,,, 21 ! T la colec-ción de textos que usan la palabra . Podemos representar cada por sus términos



83Determinación de relaciones léxicas...

índice, esto es, las palabras más representativas de T xi con respecto a T x . Usamos para este propósito el modelo de valor discriminante (Salton et. al., 1975): dada lafrecuencia inter-documento de un término υ (o el número de documentos que emplean

), denotado por los términos representativos y contenidos en T xi respecto aT

xson aquellos que satisfacen que10100mdf m

≤≤υ . Lo anterior es la base para determinar el

intento de un ejemplar. Para obtener el intento de un concepto , x j antes debemosidentificar los ejemplares del extento de . x j De este modo, hemos de agrupar los elementosde T x según su similitud, bajo la hipótesis de que los elementos similares usan x en unaacepción similar. Agrupamos entonces la colección con la función de similitud de Jaccard:

(1)

donde X # representa la cantidad de elementos del conjunto X . Fueron probados doscriterios para agrupar la colección de textos:

1. Tomar aquellos grupos que son más numerosos.

2. Considerar aquellas instancias que son más similares para formar un grupo.

El primer criterio obtuvo mejores resultados (Jiménez, 2003). El procedimiento paraagrupar la colección de textos tomó, entonces, como criterio: formar un grupo conaquellos textos que son igualmente o más similares que el promedio total de las simili-

tudes. Tenemos así que donde cada T xj , es el extentodel concepto . x j Dado un extento es posible construir su intento siguiendo la defini-ción. El intento del concepto , x j T

' xj es el conjunto de las palabras de frecuencia

intermedia (términos con mayor valor discriminante) usadas por todos los textos conte-nidos en .

A partir de lo anteriormente expuesto, podemos obtener el intento de la acepciónde dos palabras, T

' xj y T

' yk , y comprobar si T T

'' xj yk ⊂ para concluir que la j-

ésima acepción de la palabra x es un hipónimo de la k -ésima acepción de la palabra .Ya que, al comparar conjuntos de textos, es frecuente la contención parcial de un conjunto en otro, definimos el grado de contención con la fórmula:

(2)

Un valor alto de significa que una proporción alta de las características dela acepción son parte de las características de la acepción . x j Además, si

),( y x k j ρ tiene un valor bajo, tendremos que sólo una pequeña parte de las caracterís-ticas de la acepción se comparten con las de la acepción . yk Con las dos condicio-




nes anteriores cubiertas, podemos decir que aproximadamente x j tiene más característicasque , yk o bien que la acepción x j es más restrictiva que la acepción . yk En suma, unvalor alto de ),( x y jk y un valor bajo de indica que subsume a x j y, por tanto, la palabra en su j-ésima acepción es un hipónimo de la palabra en su k -ésimaacepción. Las diferentes combinaciones de tipos de valores de y pueden determinar algunas relaciones semánticas, como las que muestra la tabla 1. Estaserie de reglas maneja implícitamente dos umbrales, el máximo para los valores“bajos” de y el máximo para los valores “medios” de .

Tabla 1. Condiciones para determinar la relación léxica entre palabras

Relación

sinónimo de yk alto alto

x j hipónimo de yk alto bajo x j en relación fuerte con yk alto medio

x j en relación débil con yk bajo medio

x j sin relación con yk bajo bajo

3. Determinación de algunas relaciones léxicas

El corpus 1 es un conjunto de 2057 textos, con un total de 61,216 oraciones, un vocabulariode 136,988 signos (palabras diferentes incluyendo puntuación, abreviaciones y números),

en total 18,092 seudolexemas (obtenidos por el empleo de un truncador de Porter adaptadoal español sin ser aplicado a los nombres propios) y alrededor de diez millones de carac-teres. De esta colección de documentos fueron retiradas las palabras cerradas y se aplicóa las restantes un algoritmo de truncamiento para dejar sólo los seudolexemas. Se eligie-ron las siguientes palabras (con su frecuencia entre paréntesis) para efectuar una pruebade clasificación usando : triunfo(120), victoria(140), militar(520), teniente(100),avión(590), aeroplano(62), aeropuerto(166) e hijo(507). Esta selección fue resultado detomar aquellas palabras con frecuencia suficiente para proporcionar contextos y que cuyarelación entre los pares que se formaran fuera evidente (por ejemplo aeroplano y avión). Secalculó para cada palabra de la lista anterior: , la colección de textos que usan a

; , la partición de T x de acuerdo con el uso de una acepción de x y, para cada grupo de la partición, se calculó su intento: . Dada la particiónde de tamaño y la partición de de tamaño se formaron todos los pares posibles entre los elementos de las particiones y se les aplicó !

Asimismo, se realizó el calculo simétrico ),,( '1

'1 T T x y ρ !

Con estos valores pudo apreciarse cuál es la relación dominante entre

1 180 Años Informando (1916-1996), colección de artículos del periódico El Universal .




el par de palabras. La tabla 2 muestra la diferencia máxima entre los pares simétricos de, lo cual indica que el par de acepciones considerado es representativo de la

clase de relación semántica entre las palabras. De igual modo, esta tabla contiene elnúmero de cada grupo (acepción) correspondientes a e que fueron combinados(columna 3); el cálculo del grado de subsunción (columnas 4 y 5), y la clase obtenida para el par de palabras.

Tabla 2. Clasificación con el grado de subsunción.

Figura 1. =triunfo, e =victoriaEn la tabla 2, hemos manejado los umbrales =0.2 y 2 =0.4. En las figuras 1, 2 y 3 se presentan las gráficas de y para las palabras indicadas. En cadauna el número de combinación entre dos acepciones aparece en el eje horizontal, mientrasque en el eje vertical se consideran los valores de . Por ejemplo, en la gráfica de la figura2, el número de grupos más grandes para =militar fue de tres, y para =teniente fue tres.Se obtienen así nueve combinaciones posibles entre las acepciones de estas palabras. Cada

Clase

triunfo-victoria 0.23 2,1 0.41 0.64 sinonimiamilitar-teniente 0.56 1,3 0.62 0.06 hiperonimia

aeroplano-avión 0.50 2,3 0.04 0.54 hiponimiahijo-aeropuerto 0.06 1,2 0.05 0.11 sin relación




figura muestra los grados de contención entre los intentos que representan a las diferentesacepciones y qué par de acepciones, si existe, es el más determinante.

Figura 2. =militar, e =teniente

Figura 3. =hijo, e =aeropuerto




4. Conclusiones

En este trabajo hemos definido una medida basada en la noción de subsunción y la teoría deconceptos formales para conocer la relación entre las acepciones de dos palabras. La ventajade este enfoque es que no requiere más que un corpus sin información adicional. Sin embargo,es necesario realizar pruebas exhaustivas con el fin de dar mayor sustento al empleo de lo queaquí se ha propuesto para determinar relaciones léxicas.

Referencias

DAVEY, B & PRIESTLEY, H. (1990) Introduction To Lattices And Order . Cambridge:Cambridge Mathematical Textbooks.

GREFENSTETTE, G. (1993) “Automatic Thesaurus Generation From Raw Text UsingKnowledge-Poor Techniques”. En Making Sense Of Words, 9th. Annual Conference Of The UW Centre Of The New Oed And Text Research. Oxford, Oxford University Press.

JIMÉNEZ SALAZAR, H. (2003) “A Method Of Automatic Detection Of Lexical Relati-Onships Using A Raw Corpus”. En Gelbukh A. (Ed.) Lecture Notes in Computer Science,Berlin: Springer Verlag, Vol. 2588: 325-328.

MANDALA, R.; TOKUNAGA, T. & TANAKA, H. (1999) “Combining Multiple EvidenceFrom Different Types Of Thesaurus”. En Proc. 22nd International Conference Acm-Sigir ,Berkeley, Cal: 191-197.

SALTON, G.; YANG, C.S. & YU, C.T. (1975) “A Theory Of Term Importance In Automatic

Text Analysis”. Journal Of American Society For Information Science, 26(1): 33-44.SANDERSON, M. & CROFT, W.B. (1999) “Deriving Concept Hierarchies From Text”. En

Proc. 22nd International Conference Acm-Sigir , Berkeley, Cal: 206-213.

AgradecimientosLos autores desean agradecer al Consejo Nacional de Ciencia y Tecnología (CONACYT) por apoyar estetrabajo a través del proyecto 139165A, y a VIEP-BUAP por el proyecto III09G02. Asimismo, a losárbitros por sus valiosos comentarios, y a la Dra. Elena Carcedo por su esmerada revisión.




Hacia la verificación de diccionarios explicativosasistidos por computadora

Alexander GelbukhGrigori Sidorov

Laboratorio de Lenguaje NaturalCentro de Investigación en Computación, IPN

An explanatory dictionary is a complex system with numerous relations between theelements located in different places in its text, as well as between the definitions and thelive usage of the words in language. This makes it very difficult to manually detect certain types of defects in the dictionary, such as vicious circles in the system of thedefinitions, an inconsistent inventory of the words used in the definitions (defining vocabulary), inconsistent or insufficient definitions, incorrect subdivision of the entriesinto word senses, inconsistent synonymy and antonymy marks, etc. In this paper weexplain how computational algorithms can help in the quality control of the dictionaryand its interactive development, as well as present the corresponding software tool.

Palabras clave: lexicografía computacional, diccionarios explicativos, herramientas de desarrollo, lingüísticacomputacional, lingüística de corpus.

Fecha de recepción del manuscrito: febrero del 2003

Alexander Gelbukh y Grigori SidorovLaboratorio de Lenguaje Natural, Centro de Investigación en Computación, IPNAv. Juan de Dios Bátiz 07738, Zacatenco, México D. F.correos electrónicos: [email protected], [email protected];

Un diccionario explicativo es un sistema complejo con numerosas relaciones tanto entre loselementos localizados en diferentes lugares en su texto, como entre las definiciones y el vivouso de las palabras en el lenguaje. Debido a esta complejidad se hace muy difícil la detecciónmanual de ciertos tipos de defectos en el diccionario, tales como círculos viciosos en el sistema de definiciones, un inventario inconsistente de las palabras usadas en las definicio-nes (vocabulario definidor), definiciones inconsistentes o insuficientes, división incorrecta delos artículos en los sentidos específicos, marcas inconsistentes de sinonimia y antonimia, etc. En este artículo explicamos cómo los algoritmos computacionales pueden ayudar al control de calidad del diccionario y en el desarrollo interactivo del mismo, y presentamos la herra-mienta computacional correspondiente.



A. Gelbukh / G Sidorov90

1. Introducción

Los diccionarios explicativos son el corazón de la descripción lexicográfica de un

lenguaje, la máxima autoridad que rige el correcto y preciso uso y comprensión de sus palabras, el acervo de la sabiduría de todo un pueblo. Son elaborados con gran esmero por equipos de profesionales durante muchos años, para garantizar su impecable calidad.

Sin embargo —como se verá en los ejemplos que presentaremos— es muy difícilgarantizar esta calidad con los métodos tradicionales. Esta dificultad se debe a que undiccionario es un sistema complejo de elementos interrelacionados entre sí y al vivo uso dellenguaje. Como en el caso de cualquier sistema complejo, su calidad no se puede evaluar, nimucho menos garantizar, observando y analizando sus elementos (los vocablos) aislados, uno por uno; dicha evaluación se puede llevar a cabo sólo si se toman en cuenta las relaciones entrelos elementos que se encuentran en muy diferentes lugares del diccionario completo.

Por ejemplo, en el diccionario más popular del idioma ruso (Ozhegov, 1990), la gallina(en ruso, kúritsa) se define como la hembra del gallo y, a cientos de hojas de esta definición,encontramos otra para el gallo (en ruso, petukh) que lo define como el macho de la gallina.Aunque ambas definiciones son igualmente correctas y válidas, obviamente no son compa-tibles dentro del mismo sistema lógico, ya que a quien no sabe que son kúritsa y petukh,no le proporcionan esta información.

Para los humanos es muy difícil, por no decir imposible, detectar manualmente los problemas de esta naturaleza en un diccionario grande. Pero es allí donde podemos obte-ner una ayuda indispensable de la computadora, la infatigable ayudante capaz de pasar,sin desfallecer, palabra por palabra, comparando las definiciones esparcidas entrecientos de diferentes hojas, calculando estadísticas, verificando exhaustivamente todoslos pormenores. Obviamente la máquina no puede sustituir al experto humano, pero sí puede atraer su atención a las anomalías encontradas y presentarle la información quele facilite tomar una decisión más informada y mejor fundamentada.

Dentro de la lingüística computacional ya se están desarrollando los métodos parael análisis automático del léxico, los cuales permiten automatizar algunos tipos deanálisis; véanse, por ejemplo, Saint-Dizier y Viegas, (1995); Vossen, (2001). Esos mé-todos pueden ayudar al lexicógrafo en el desarrollo de las definiciones y en la evaluaciónformal de los diccionarios explicativos.En este artículo presentamos varias ideas que llevan

a la creación de una herramienta computacional que ayudaría al lexicógrafo a detectar losdefectos en la estructura del diccionario y proponer los posibles cambios, específicamente enlos casos donde se trata de inconsistencias entre vocablos distantes en el texto.

Aquí sólo abordamos dos problemas relacionados con la calidad de los diccionariosexplicativos:

1. Relaciones entre las definiciones en el diccionario,2. División de los vocablos en sentidos, en los casos de polisemia.



91Hacia la verificación de diccionarios...

El primer tipo trata de todo un conjunto de problemas que van desde la selección de las palabras a través de las cuales se tienen que definir otras palabras hasta la lógica propiade las definiciones. Estos temas se han tratado en la literatura. Las palabras apropiadas para su uso en las definiciones conforman lo que se conoce como vocabulario definidor (LDOCE, OALD) o, en el contexto más teórico, primitivos semánticos (Wierzbicka,1996). Tales palabras no son únicas, hay muchas posibles maneras de elegirlas. Sinembargo, según nuestro conocimiento hasta ahora se eligen para cada diccionario deforma artesanal, por prueba y error, sin criterios bien definidos. En la sección 2, pre-sentamos un método que da al lexicógrafo la información necesaria para formar unmejor vocabulario definidor.

Acerca de la construcción de definiciones, en la literatura de la lexicografía tradicional(Hartmann, 2001; Landau, 2001; Singleton, 2000) normalmente sólo se dan recomenda-ciones de carácter muy general de cómo hay que escribirlas. El principio básico es la idea

de Aristóteles de que la definición debe contener el género y las diferencias. Otras ideas másespecíficas se basan en el trabajo clásico de Zgusta (1971): no definir palabras más simples a través de palabras más complejas (más difíciles de entender) ; definir, a su vez,todas las palabras empleadas en la definición; evitar el uso de la palabra o sus derivadasen su propia definición o en la definición de las palabras explicadas a través de ésta(como en nuestro ejemplo con gallina y gallo); empezar la definición con la partemás importante; hacer las definiciones simples y breves, etc.; véase, por ejemplo,Landau (2001: 156–171). En las secciones 2 y 3, presentaremos los métodos para verifi-car automáticamente algunos de estos requerimientos y demostramos que éstos, en efecto,no son completamente compatibles.

El segundo tipo de problemas, el tratamiento de homonimia y polisemia, es aúnmás difícil de manejar de modo uniforme y consistente, ya que cada palabra presentasus propias peculiaridades y, por otro lado, cada lexicógrafo tiene sus propios gustos yexperiencia sobre el uso de las palabras específicas. Efectivamente, los pocos ejemplosdel uso de cada palabra que una persona puede escuchar o leer en su vida, no dan unainformación estadísticamente significativa de todos sus usos y menos de los matices suti-les de su significado. Aquí, el análisis automático de grandes cantidades de texto, tangrandes que no podría una persona leerlos en toda su vida, es una ayuda indispensable.

Algunas consideraciones acerca del problema de la división de palabras en senti-

dos se presentan en la sección 3. En esta sección también analizamos en breve cómoreflejar en el diccionario la polisemia regular (Apresjan, 1974). Otros tipos de verifica-ción automática del diccionario, tales como la verificación de ortografía y la verificacióndel sistema de marcas de sinonimia y antonimia, se presentan en la sección 4.

Finalmente, en la sección 5 describimos las funciones de la herramienta «ayudantedel lexicógrafo», la cual está bajo desarrollo en el Laboratorio de Lenguaje Natural delCIC, IPN. En la sección 6 presentamos las conclusiones.




2. Relaciones entre las definiciones

Para el análisis formal de los diccionarios comúnmente se usa la representación deldiccionario como una red semántica o lo que en las matemáticas se llama un grafo dirigido,ya que los métodos de tal análisis son orientados a la estadística o a la teoría de grafos(Kozima and Furugori, 1993; Evens, 1988; Gelbukh y Sidorov, 2002). Está fuera del alcancede este artículo discutir esos métodos a detalle; sólo mencionaremos algunas ideas funda-mentales de este tipo de análisis necesarias para entender sus aplicaciones prácticas.

Un diccionario para el usuario humano tiene como propósito explicar la palabra,maximizando la probabilidad de que la definición contenga las palabras que el usuario yaconoce. Nótese que con esto, las parafrases sinonímicas en la definición aumentan la probabilidad de que el usuario entienda por lo menos una variante (mientras que «para lacomputadora» son confusas e inútiles). Otro modo de aumentar la probabilidad de compren-

sión es usar, en las definiciones, sólo un número restringido de las palabras más simplesy conocidas (vocabulario definidor). En la práctica es recomendable que sólo se usenalrededor de 2 mil palabras, como, por ejemplo, en los diccionarios de inglés de Longman(LDOCE) o de Oxford (OALD).

Para maximizar la probabilidad de que el usuario entienda la definición, no debehaber círculos viciosos cortos en el sistema de definiciones. Por ejemplo, el diccionarioAnaya (Grupo Anaya, 1996) da, efectivamente, las siguientes definiciones:

1. abeja: insecto que segrega miel miel: sustancia que producen las abeja.

2. convenio: pacto, acuerdo acuerdo: pacto, tratado tratado: convenio

En el primer caso, una palabra se define a través de otra y aquélla a través de la primera, asíque un usuario que no sabe qué son abeja y miel —y consulta al diccionario para saberlo— notiene ninguna manera de entender las dos definiciones. En el segundo caso el círculo esde longitud 3: convenio —acuerdo — tratado — y nuevamente convenio; una persona que nosabe de antemano ninguna de estas tres palabras, no entenderá las definiciones. Sin em-

bargo, si el círculo es bastante largo, la probabilidad de que el usuario no sepa ningunade sus palabras es baja y entonces los círculos largos —a diferencia de los cortos— no son problemáticos para el uso tradicional del diccionario explicativo del léxico general.

No sucede así con los diccionarios explicativos terminológicos, de términos espe-ciales o técnicos, donde es altamente probable que el usuario no sepa ninguna de las palabras en una cadena de los términos explicados uno a través de otro. Así se desarrollala exposición de la geometría escolar: todos los términos se construyen, aunque indirecta-mente, de los tres términos «básicos» — punto, recta, pertenecer — los cuales no se defi-nen sino se ilustran con dibujos o ejemplos. Nótese que para no crear círculos viciosos,




algunas de las palabras usadas en las explicaciones no deben tener explicación (ya queen un grafo donde cada nodo tiene vínculos salientes, necesariamente hay ciclos); es decir,las recomendaciones de la lexicografía tradicional de no formar ciclos y explicar cada

palabra usada, son contradictorias.El concepto de palabras «básicas» es acorde con la tradición lexicográfica donde se pretende definir (aunque indirectamente) todas las palabras a través de un conjunto muyrestringido de los llamados primitivos semánticos (Wierzbicka, 1996). La diferenciaentre el vocabulario definidor y los primitivos semánticos es que las palabras del vocabulario definidor son las únicas palabras que pueden aparecer en las definiciones, pero noimporta si algunas de éstas se definen a través de otras. En cambio, los primitivos semánticosson independientes: no se puede definir unas a través de otras. Lo que significa que suconjunto es mínimo: no se puede remover de él ninguna palabra (primitiva semántica)sin perder la posibilidad de definir todas las demás palabras en el diccionario a través

de este conjunto. Representando el diccionario como un grafo dirigido (Gelbukh ySidorov, 2002), la diferencia es que las palabras del vocabulario definidor debenser accesibles en exactamente un paso por los vínculos del grafo, mientras que las primitivas semánticas pueden ser accesibles en varios pasos. Eso se debe al hecho deque las palabras del vocabulario definidor están presentes físicamente en las definicio-nes de las palabras (por eso el nombre de vocabulario definidor); a diferencia de los primitivos semánticos que se presentan virtualmente en las definiciones, por el hecho deser accesibles en el grafo pasando, tal vez, por varios nodos.

Existe una aplicación muy importante, aunque menos tradicional, de los dicciona-rios, en la cual —al igual que en los diccionarios terminológicos— los círculos, no importaqué tan largos sean, están prohibidos. A saber, aparte de su uso tradicional como fuentede referencia para los usuarios humanos, los diccionarios se pueden aplicar comofuente de información sobre el lenguaje y el mundo real en los sistemas computacionalesde inteligencia artificial basados en inferencia lógica. En esta aplicación, no se esperaque el sistema experto sepa de antemano palabra alguna ya que su única fuente deconocimiento sobre el lenguaje es el mismo diccionario; además, los círculos viciososdestruyen el sistema de razonamiento lógico ya que entra en ciclos infinitos. En eluso del diccionario explicativo «para las computadoras», es necesario seleccionar algunas palabras como primitivas semánticas, eliminar sus definiciones (para romper

los círculos) y definirlas por medios de programación, no de explicación, semejante al tratode los términos punto, recta, pertenecer en la geometría escolar.Entonces, en el análisis y la evaluación de la calidad de los diccionarios con

respecto a las relaciones entre las definiciones surgen los siguientes problemas:

– ¿Cómo escoger las palabras usadas en las definiciones (vocabulario definidor)? – ¿Cómo escoger los primitivos semánticos (para el uso computacional)? – ¿Cómo evitar los círculos viciosos (cortos) en las definiciones?




En este sentido, los criterios para mejorar el diccionario serían:

– Tener el menor número de palabras en el vocabulario definidor – Tener el menor número de círculos viciosos cortos (en el caso de que las palabras

del vocabulario definidor también sean definidas)

3. Separación de los significados en sentidos

En la tarea de separación de sentidos de palabras hay tres posibles problemas:

– El diccionario no contiene algún sentido presente en el texto – Varios sentidos del diccionario corresponden a un solo sentido en el texto (y no se

trata de neutralización de algunas características) – Un sentido del diccionario corresponde a varios sentidos en los textos

Esos casos se analizan en las siguientes subsecciones.

3.1. F al ta de senti dos específicos

Uno de los problemas del diccionario se presenta cuando éste no contiene algún sentidoespecífico de una palabra. Por ejemplo, para la palabra gato se dan sentidos correspon-dientes al

1) animal doméstico que maúlla

2) animal felino

Pero no a la

3) herramienta mecánica para la reparación de carros

Este tipo de problemas, a diferencia de algunos otros, no se puede detectar automáticamentecon tan sólo analizar el diccionario sino que es necesario comparar el diccionario con eluso real del lenguaje. Aparte de la introspección del lexicógrafo (la que no discutimos eneste artículo), el método más adecuado es verificar si todas las palabras en un corpus

grande corresponden a algún significado específico en el diccionario. Dicha verificaciónse puede hacer de dos maneras: manual y automática. Como siempre, la ventaja de laverificación manual es la calidad y la ventaja de la verificación automática es la rapidez.

Para la verificación manual, en una selección grande de ejemplos del uso de la palabra, cada ocurrencia de la misma se marca, manualmente, con uno de los sentidos se-leccionados del diccionario; el hecho de que el anotador no encuentre ningún sentidoadecuado (como sería con el ejemplo de gato arriba mencionado y con el texto Parareparar su carro Juan tuvo que comprar un gato neumático) indica el problema en elsistema de significación.




Para facilitar la anotación manual, en nuestro Laboratorio fue desarrollada unaherramienta computacional (Ledo-Mezquita et al ., 2003) que automáticamente selec-ciona cada palabra significativa del texto, una por una (pasando por alto las palabras

funcionales como preposiciones), y presenta al usuario la lista de posibles significados dela palabra previstos en el diccionario, de entre los cuales el lexicógrafo puede escoger unoo, en su caso, marcar la palabra como la que tiene un sentido no previsto en el diccio-nario. La herramienta facilita la labor del anotador usando los métodos de la lingüísticacomputacional para seleccionar automáticamente el sentido más probable en el contextodado, el cual el anotador, en la amplia mayoría de los casos, puede simplemente confir-mar. Si la preselección automática fue errónea, el programa ofrece al usuario el siguientesentido más probable (según las heurísticas computacionales usadas), etc.

Ya que tal labor manual es costosa y aburrida, la manera más económica —aunque nomás simple técnicamente— es la verificación puramente automática. En este caso sólo se

verifica que las heurísticas usadas para elegir el sentido de cada palabra lo puedan hacer concierto nivel mínimo de certeza. Los métodos correspondientes, del estado del arte actual,cometen una cantidad significativa de errores de dos tipos. Por un lado, a una palabra sele puede, erróneamente, asignar un sentido no pertinente en el contexto dado, con lo cual puede quedarse sin detectar una verdadera falta del sentido correcto en el diccionario. Por otro lado, en algunos casos, el error se puede reportar no debido a un problema real en eldiccionario sino al fallo de las heurísticas o bien debido a que el contexto no presenta lainformación suficiente para la selección del sentido. Sin embargo, la ventaja de los métodosautomáticos es la posibilidad de procesar una gran cantidad de textos prácticamente sincosto alguno. Sólo de esta manera es factible encontrar y considerar los sentidos defrecuencia baja y muy baja.

Entre los métodos para la selección automática de los sentidos de palabras en elcontexto se pueden mencionar diferentes variantes del método de Lesk (1986). La idea básica de este método es buscar automáticamente en el contexto inmediato de la palabra,las palabras usadas en su definición. Por ejemplo, en el contexto mi gato maúlla cuando veal perro está presente una palabra de la definición del primer sentido de nuestro ejemplo.Pero el contexto Juan no pudo reparar su coche sin un gato sólo es compatible con eltercer sentido del mismo ejemplo. Existen modificaciones de este método que usandiccionarios de sinónimos (Banerjee y Pedersen, 2002; Sidorov y Gelbukh, 2001) y métodos

lingüísticos para la comparación de las palabras; por ejemplo, en el último contexto cochees sinónimo de carro y reparar es una derivación de reparación.Sea la verificación manual o automática, es importante que en el corpus aparezca

un número suficiente de ejemplos del uso de la palabra en cuestión, lo que es muy difícilde lograr para la mayoría de las palabras del diccionario. Efectivamente, según lafamosa ley de Zipf, en cualquier texto unas cuantas palabras se repiten muchas veces,mientras que la mitad de las palabras que aparecen en el texto, aparecen en él sólo unavez. Con eso podemos deducir que incluso en un corpus muy grande, casi todas las palabras de un diccionario lo suficientemente completo, aparecen muy pocas veces o




ninguna. Entonces, el aplicar los métodos descritos arriba a un gran corpus tradicional pareceun gran desperdicio de esfuerzo: se procesan muchísimas ocurrencias de unas pocas palabrasdel diccionario y muy pocas de casi todas las demás palabras.

Este problema se puede resolver con un corpus de un tipo específico, que llamamosun corpus representativo respecto al vocabulario dado (Gelbukh et al ., 2002a), equiva-lente a una concordancia de palabras en contexto. Este tipo de corpus se coleccionaautomáticamente de Internet, el repositorio de textos más grande creado hasta ahora por elser humano. Para cada palabra del diccionario, se colecciona un cierto número de contextos.Así, incluso para las palabras más raras que conocemos encontramos en este corpus el númerode contextos suficiente para su investigación estadística. Lo que soluciona el problemaque la ley de Zipf presenta para toda investigación basada en corpus.

3.2. Sistema de sentidos demasiado detal lado

Otro posible problema se presenta cuando los sentidos son demasiado finos, es decir, a unsentido del texto pueden corresponder varios sentidos del diccionario e incluso un humanotiene dificultades de escoger el sentido correcto.

Es importante decir que a veces la imposibilidad de escoger un sentido predeterminadoestá relacionada con la neutralización de algunas características semánticas, cuando elcontexto no tiene la suficiente información para elegir un sentido predeterminado.

Por ejemplo, en el diccionario Anaya tenemos dos sentidos de la palabra ventana:

1. Abertura, vano en un muro para iluminar y ventilar .2. Armazón, marco con cristales para cerrarla.

Ahora vamos a ver los siguientes ejemplos:

1. Juan saltó por la ventana1 (pero no 2)

2. Juan rompió la ventana2 (pero no 1)

3. Juan saltó por la ventana2 (pero no 1)

y la rompió4. Juan está mirando a través de la ventana

1 o 2

5. Juan abrió la ventana1 o 2

En los dos primeros ejemplos está muy claro de qué ventana —en el primer sentido o en elsegundo sentido— se está hablando, mientras que en el caso del cuarto y quinto ejemplo,cualquiera de los dos sentidos es aceptable. Digamos, en el ejemplo cinco, puede ser que se abrió el espacio o que se movió el marco. Como vemos, la interpretación exactadepende del enfoque del hablante u oyente; en este caso el contexto no contiene la suficienteinformación para elegir. Sin embargo, eso no significa que no existan los dos sentidos, porque sí hay otros contextos donde ambos se distinguen.




Lo interesante del tercer ejemplo está relacionado con el hecho de que el contexto quese encuentra antes de la palabra ventana es igual al ejemplo 1, sin embargo, el sentidode la palabra es diferente. Es así, porque la segunda parte del contexto contiene la restric-

ción para elegir el sentido –la ventana se rompe, lo que es aplicable solamente a laventana2. Es decir, el contexto contiene los datos (el conocimiento del mundo) que

solamente son compatibles con ventana2.

Ahora bien ¿cómo un humano escoge el sentido que corresponde al contexto? Se anali-za el contexto y se aprovecha el conocimiento del mundo. Si hay algo que sólo es compatiblecon uno de los sentidos, se puede escoger este sentido, en caso de que esta información noestá disponible, se neutraliza la diferencia entre los sentidos. Es decir, en el ejemplo 1, elconocimiento es que se puede saltar por algún espacio. En el ejemplo 2 se sabe quenormalmente las ventanas se hacen de algún material como vidrio que se puede romper yque es parte del marco que cubre las ventanas. En el ejemplo 3, se sabe que se puede

romper la ventana, por lo tanto se abrirá el espacio, y se puede saltar por el espacioabierto. Tal vez, el ejemplo 3 es el uso metafórico del sentido 2 en lugar del sentido 1. En losejemplos 4 y 5 no hay información adicional, entonces no se puede elegir uno de los sentidos.De hecho, no está claro que tan relevante es la diferencia en el caso de esos ejemplos.

Veamos otro ejemplo. La palabra agobiarse tiene dos sentidos en el diccionario Anaya:

1. Causar molestia o fatiga2. Causar angustia o abatimiento

Sin embargo, en el contexto Él se agobió, obviamente, no hay la posibilidad de escoger

uno de esos dos sentidos.En el caso de ventana existe una polisemia regular (Apresjan, 1974). Cuando los

objetos son «un espacio plano limitado de los lados», como puerta, esclusa, etc., puede unoreferirse a este objeto como a un espacio, y al mismo tiempo como a un objeto que cubreeste espacio. Es decir, de un sentido siempre se puede inferir el otro. En el caso deagobiar- se no existe el fenómeno de polisemia regular.

Proponemos que la solución al problema de sentidos demasiado finos (y la neutra-lización de sus diferencias) puede ser la representación del sentido como una jerarquía –en los niveles altos, se definen los sentidos más generales, y en los niveles más profun-dos, se especifican los sentidos más a detalle.

En el caso de polisemia regular el nivel más alto es la unión de los sentidos de nivelmás bajo. Los sentidos en este caso son muy diferentes, por lo tanto, no tienen un sentidogeneralizado. También la definición debe tener la referencia que contiene el fenómeno de polisemia regular.

En el caso de agobiarse es necesario generalizar los dos sentidos, como, por ejemplo:

Causar una sensación desagradable en el cuerpo humano




Nótese que no se especifica si el sentimiento está relacionado con el estado físicoo el estado psicológico. En el nivel más bajo, se dan las definiciones como están en eldiccionario. La profundidad posible de la jerarquía es el objeto de investigaciones futuras.

Entonces, en algunos contextos se puede determinar cuál sentido de nivel más bajose usa, y si no se puede, se hace la referencia al sentido generalizado.Es importante mencionar que el fenómeno que tratamos no es el caso de falta de

precisión (vagueness, en inglés). La diferencia entre la ambigüedad (en nuestro caso,de sentidos) y de la falta de precisión es que, en el caso de la ambigüedad, algo puedetener varios sentidos, y lo que no está claro es cuál sentido se usa en el contexto.Mientras que la falta de precisión se refiere al hecho de que un concepto no está biendefinido. Los casos que vimos se trataban de ambigüedad.

Ahora bien, ¿cómo se puede aplicar el análisis automático para ayudar al lexicó-grafo a detectar las situaciones de sentidos potencialmente similares, los cuales pueden

ser tanto los casos de polisemia regular como requerir la generalización? Recordemosque es el lexicógrafo quien toma las decisiones y el sistema sólo trata de ayudarle.

Hemos desarrollado un método que permite calcular la similitud entre los sentidosde la misma palabra (Gelbukh et al ., 2003). Brevemente, la idea es calcular la simili-tud de los sentidos usando la medida de semejanza entre las definiciones, muy parecidaa la medida de similitud de los textos conocida como el coeficiente de Dice, véase, por ejemplo (Rasmussen, 1992). El coeficiente de Dice representa la intersección normaliza-da de las palabras en los textos. Es decir, se toma la intersección textual medida en palabras de dos textos y se divide entre la suma de las palabras en los textos. De preferencialas palabras deben estar normalizadas, por ejemplo, trabajabas, trabajar , y trabajaron serefieren a la misma palabra (lema) trabajar .

La medida modificada toma en cuenta adicionalmente los sinónimos de las palabras, porque por definición los sinónimos expresan los mismos conceptos y para algunastareas se puede ignorar los matices de sentidos que normalmente tienen los sinónimos.La medida propuesta es como sigue:

donde W 1 y W 2 son conjuntos de palabras en los textos t 1 y t 2, 1 2| |W W ∩ significa que secalcula el número de las palabras (por lemas; recordemos que aplicamos la normalizaciónmorfológica automática) que se encuentran en definiciones de ambos sentidos de la palabra y 1 2| |W W ! representa el número de intersecciones usando los sinónimos. Es decir, para cada palabra se toma su lista de sinónimos y cada sinónimo de esta lista se busca enel otro texto. En caso que este sinónimo se encuentre allá, se aumenta el número de inter-secciones. El algoritmo está diseñado de tal manera que cuenta cada intersección sólouna vez —si la palabra o su sinónimo ya se encontró, no se buscan más sinónimos deesta palabra. Eso significa que el número de intersecciones no puede ser mayor que el

1 2 1 21 2

1 2

| | | |( , )

max(| |, | |)

W W W W S t t

W W

∩ +=

!




número máximo de las palabras en uno de los textos (el que contiene más palabras) —elvalor que aparece en el denominador. El denominador sirve para una normalización, quesignifica que el resultado no depende del tamaño del texto.

Aplicamos este algoritmo al diccionario Anaya, comparando los pares de sentidosde cada palabra, y obtuvimos que cerca de 1% de todos los pares de sentidos son muy parecidos (contienen más de 50% de los mismos conceptos) y cerca de 10% de los paresson sustancialmente parecidos (contienen más de 25% de los mismos conceptos). Consi-deramos, que, por lo menos, para ese 10% de los sentidos parecidos, el lexicógrafoevaluará si sus definiciones son válidas.

3.3. Sentidos demasiado generales

Un tercer posible problema se presenta cuando el mismo sentido del diccionario cubre

usos claramnente diferentes de las palabras. Por ejemplo, la definición de llave como unobjeto que se usa para abrir o cerrar algo cubre tanto el contexto Juan sacó la llave de subolsillo y abrió la puerta como Juan entró al baño y abrió la llave del agua caliente. Sinembargo, los hablantes tendemos a considerar «la llave para la puerta» y «la llave para elagua» como cosas muy diferentes, al grado de que el uso de la misma palabra para cosastan diferentes parece ser pura coincidencia.

El procedimiento descrito en la sección 3.1 no detectará ningún problema con estadefinición, ya que en ambos contextos a la palabra en cuestión se le asignará unsentido del diccionario. Tampoco es simple detectar el problema manualmente compa-rando los contextos en los cuales a la palabra se le asignó el mismo sentido, ya que estánen lugares distantes en el corpus, además del alto costo de la gran labor manual necesaria para tal comparación.

Se pueden usar varios algoritmos para la verificación automática de la homogeneidaddel conjunto de los contextos en los cuales a la palabra se le marcó con el mismo sentido.Aquí discutiremos dos métodos basados en el agrupamiento automático (clusterización,de la palabra inglesa clustering ) de los contextos. Por contexto de una palabra entendemoslas palabras que la rodean en el texto; este concepto se puede precisar de diferentes maneras,desde la oración que la contiene hasta las palabras que están dentro de una cierta distan-cia desde la palabra dada. Los dos métodos tratan de analizar diferentes sentidos de una

palabra dependiendo de su contexto.En el primer método, para cada sentido de la palabra se seleccionan los contextosy se agrupan, según una medida de semejanza entre los textos (Alexandrov y Gelbukh, 1999;Alexandrov et al ., 2000), en dos grupos de tal manera que la distancia entre los elementosdentro de cada grupo se minimiza y la distancia entre los dos grupos se maximiza. Estaúltima distancia da una medida de la calidad de la definición. En el caso de una definiciónmala los contextos se dividirán claramente en dos o más grupos no parecidos entre sí. En elcaso de nuestro ejemplo con la palabra llave, un grupo se caracterizará por las palabras puerta, llavero, bolsillo, insertar , olvidar , mientras que el otro por las palabras agua, caliente,




fría,baño, lavar . Nótese que nuestro método no penaliza indiscriminadamente los sentidosgenerales: aunque la palabra objeto (en el sentido de cualquier cosa) es muy general yen consecuencia los contextos de su uso son muy diversos, éstos no se dividen en

grupos claramente distinguibles sino llenan uniformemente un área amplia.Otro método (Jiménez-Salazar, 2003) ayuda a verificar todo el conjunto de los sentidos deuna palabra en el diccionario. Los contextos de la palabra dada encontrados en el corpus seagrupan automáticamente, también usando alguna medida de semejanza entre dos contex-tos, por ejemplo, el número de palabras que ambos contextos compartan. La hipótesisdel método es que diferentes sentidos de la palabra se usan en diferentes contextos, enton-ces los grupos de contextos tales que los contextos son parecidos dentro de cada grupo ydiferentes entre grupos diferentes, representan los sentidos diferentes de la palabra.Usando los métodos descritos más arriba, tales como las distintas modificaciones delmétodo de Lesk, se puede incluso asociar los sentidos presentes en el diccionario para la

palabra dada con los grupos de contextos detectados en el corpus. La buena corresponden-cia indica que el sistema de los sentidos está bien hecho mientras la mala es una alarma. Nótese que en este caso el procedimiento de evaluación es puramente automático, mientrasque la resolución de los problemas encontrados necesitan la intervención del lexicógrafo.

Resumiendo, el primer método usa las técnicas de clasificación automática y sólose analiza un sentido de palabra a la vez para precisar si la definición del sentido es buena o no. Se supone de antemano que todos los contextos corresponden al mismosentido. El segundo método usa las técnicas de desambiguación de sentidos de palabrasy trata de asociar cada contexto con algún sentido. En caso de no encontrar un sentidoapropiado se reporta un posible problema.

4. Otros tipos de verificación formal

Aunque no lo discutimos a detalle en este artículo, hay muchos otros aspectos del diccionarioexplicativo que se pueden verificar automáticamente. La base de tal verificación son las propiedades formales (parecidas a lo que en el contexto de las gramáticas formales o bases de datos se llaman restricciones) que demuestran las relaciones entre los elemen-tos de este sistema tan complejo que es el diccionario explicativo. Aquí sólo damos unos pocos ejemplos.

4.1. Verif icación de la or tografía y la estructur a de los artícul os

A diferencia de otros tipos de verificación que discutimos en este artículo, en esta subsecciónmencionamos brevemente dos tipos de verificación local, que no involucra ninguna com- paración de los elementos distantes en el texto del diccionario: la verificación de laortografía y la verificación de la estructura.




La verificación de ortografía y gramática se aplica a cualquier texto, sin ser excepción un diccionario explicativo. Existe una vasta cantidad de literatura y una granvariedad de métodos y heurísticas utilizados para la verificación de este tipo (Kukich,

1992). Incluso cualquier procesador de palabras moderno (como Microsoft Word™) con-tiene herramientas de esta naturaleza. Por esta razón no dedicaremos más espacio eneste artículo a la presentación de los métodos de verificación de ortografía y gramática.

Sin embargo, haremos notar que debido a la gran importancia de la perfección delos diccionarios, tiene sentido aplicar métodos que garantizan mayor calidad de verifi-cación que los tradicionales, es decir, verificación más exhaustiva. Aquí el punto clavees el balance entre el número de errores omitidos y las alarmas falsas (lo que en laliteratura especializada se llama la relación entre especificidad (recall , en inglés ) y precisión. Los métodos de verificación que producen un número demasiado alto de alarmasfalsas (de baja precisión); es decir, los que reportan un posible error que la verificación

manual no confirma, que es muy característico de los métodos de verificación exhaustiva —de alta especificidad (recall )— no son prácticos en el uso cotidiano; sin embargo, pueden ser de gran utilidad en la verificación de diccionarios y otros textos importantes.

Entre los métodos de este tipo podemos mencionar la detección de malapropismos.El malapropismo es un tipo de error de la palabra existente en un lenguaje (real-word errors en inglés), el cual consiste en sustituir, por accidente, una palabra con otra igualde correcta y válida en el mismo lenguaje. Lo que en algunos casos resulta en una palabra de una categoría gramatical distinta, tales casos son simples de detectar con unanálisis puramente gramatical, por ejemplo: este articulo es interesante (en vez de artículo).Sin embargo, en otros casos —éstos se llaman malapropismos— sólo las consideracionessemánticas permiten detectar el error, por ejemplo: centro histérico de la ciudad , en lareserva la casa de venados está prohibida / mi caza tiene tres pisos y está pintada deblanco. Los métodos existentes de detección de malapropismos (Hirst y Budanitsky, 2003;Bolshakov y Gelbukh, 2003) demuestran usualmente muy baja precisión cuando están confi-gurados para una especificidad (recall ) razonablemente alta. Eso limita su uso en los procesadores de palabras comunes, pero todavía pueden ser útiles para una verifica-ción más exhaustiva de los diccionarios.

Otro tipo de verificación local es el análisis de la estructura de los artículos. Por ejemplo, verificar que cada palabra significativa (no funcional) usada en el texto del

diccionario tenga definición en éste, y en su caso proporcionar al lexicógrafo la lista de palabras usadas sin ser definidas (lo que en la sección 2 hemos llamado el vocabulariodefinidor). También se puede verificar que cada artículo contenga las partes obligatorias, por ejemplo, pronunciación, etimología, explicación y ejemplos. Igualmente se puedeobservar la numeración correcta de los sentidos y subsentidos, el orden de los elemen-tos del artículo, el orden alfabético de los artículos, las fuentes tipográficas correspondientes a diferentes elementos del artículo, etc.




4.2. Veri f icación de las marcas de sinonimia y antonimi a

Usualmente los diccionarios explicativos marcan las relaciones básicas entre palabras,tales como sinonimia y antonimia, y en algunos casos —como, por ejemplo, WordNet(Fellbaum, 1998)— otras relaciones tales como meronimia, etc. En el sistema de estasrelaciones existen ciertas propiedades (restricciones), por ejemplo:

· Simetría: si la palabra A es sinónima de la palabra B entonces normalmente B essinónima de A

· Transitividad: si la palabra A es sinónima de la palabra B y B es sinónima de C entonces es probable (aunque en muchos casos no cierto) que A sea sinónima de C

Como en otros casos de las propiedades de las relaciones entre las palabras colocadas

distantemente en el texto del diccionario es muy difícil (o por lo menos laborioso) verifi-car tales restricciones manualmente, pero es más fácil hacer que un programa los veri-fique y atraiga la atención del lexicógrafo a los posibles problemas detectados. Nóteseque se pueden tratar de manera semejante otras relaciones, tales como antonimia, meronimia,etc. Incluso se pueden combinar las verificaciones que involucran relaciones diferentes: por ejemplo, un antónimo de una palabra normalmente no debe ser su merónimo, ni susinónimo, ni un sinónimo de su sinónimo, etc.

Uno puede argumentar que el autor del diccionario, en su sano juicio, no puedemarcar la palabra A como sinónima de la B y a la vez marcar la B como antónima de la A, y que entonces no tiene caso aplicar en práctica las heurísticas que aquí discutimos.

Sin embargo, la aplicación de tales heurísticas no le sirve al programa para argüir conel autor del diccionario sobre los asuntos lingüísticos, sino para detectar posibles erro-res mecanográficos o incluso errores puramente ortográficos, de la manera semejante ala detección de malapropismos. Por ejemplo:

cuerdo < ... >. Antónimo: poco

en vez de loco. Aquí, el error probablemente ocurrió debido a que el dedo tocó la tecla p en lugar de la cercana l , lo que puede suceder en el proceso de preparación de texto.

Sin embargo, la única manera que podemos imaginar para detectar automáticamenteeste error no es la verificación de la ortografía, por muy exhaustiva que esta sea, sinoatraer la atención del lexicógrafo que en la definición de la palabra poco no se indica,como se esperaba, que tenga un antónimo cuerdo.

Otra posible técnica para la verificación de las marcas de sinonimia o antonimiaes la comparación de las definiciones. En este caso, más bien se trata de determinar automáticamente qué palabras son sinónimas y verificar si así están marcadas en eldiccionario. La hipótesis que aquí se verifica es que las palabras cuyas definiciones sonsemejantes deben ser marcadas como sinónimas (o antónimas, ya que es difícil interpretar




las negaciones automáticamente) y ningunas otras deben ser así marcadas. El incumpli-miento de esta hipótesis para un par dado de palabras puede significar, o bien la marcade sinonimia mal puesta, o bien (mucho más probable) algún problema de las definicio-

nes. Por ejemplo, si las palabras marcadas como sinónimas se definen de manera muydiferente, eso puede indicar inconsistencia en las definiciones. Por otro lado, si dos palabras no marcadas como sinónimas se definen de modo demasiado semejante, eso puedeindicar que las definiciones son demasiado generales para reflejar el significado específicode estas palabras.

Como medida de semejanza se puede usar el número de palabras compartidasentre las dos definiciones o variantes de este método, como se describe en la sección 3.2más arriba. Para obtener una medida más estricta, se puede considerar también el ordende las palabras compartidas, es decir, alguna medida derivada de la distancia deLevenshtein (1966).

Otra posible fuente de información sobre la sinonimia es un corpus grande deoraciones. Aquí la hipótesis a verificar es que los sinónimos se usan en contextos igua-les o muy parecidos. Sean las dos palabras en cuestión p

1 y p

2 y sea que aparecen en los

dos oraciones (digamos, oraciones) C 1 y C

2, respectivamente. ¿Cómo podemos saber que

las textos C 1 y C

2 se parecen? No basta con identificar que ambas cadenas son iguales o

muy parecidas y que sólo difieren en que en C1 se usa p

1 y en C

2 se usa p

2 (en vez de p

1),

lo difícil es saber si significan lo mismo; por ejemplo, aunque las palabras vaca y cabra pueden aparecer en contextos iguales — la leche de vaca (cabra) es sabrosa y nutritiva — eso no significa que son sinónimas ya que el significado de estos textos no es idéntico.Una de las maneras en que podemos saber si el significado de dos textos, cortos perodiferentes, resulta idéntico es con la comparación de diccionarios explicativos dife-rentes, sobre todo terminológicos, ya que en éstos se reduce la ambigüedad (Sierra yMcNaught, 2003; Sierra y Alarcón, 2002). Por ejemplo, supongamos que tres diccio-narios diferentes dan las siguientes definiciones:

· Diccionario 1: velocímetro: dispositivo para medir la velocidad de movimiento· Diccionario 2: velocímetro: dispositivo para determinar la velocidad de movimiento· Diccionario 3: velocímetro: aparato que se usa para determinar la rapidez de moción

de algo

Comparando la definición en el diccionario 1 con la del diccionario 2 es simple notar que la palabra determinar se usa en vez de medir ; nótese que el hecho de que ambos textosdefinan la misma palabra velocímetro garantiza que el significado de los mismos es idéntico.En la práctica es más común el caso que se presenta en la comparación de las definicionesde los diccionarios 1 y 3: en este caso no es tan simple detectar automáticamente lasemejanza entre los dos textos, sin embargo existen técnicas para hacerlo (Sierra yMcNaught, 2000).




5. Herramienta ayudante de lexicógrafo

Las ideas presentadas en las secciones anteriores nos llevaron al desarrollo de una herra-mienta que permita al lexicógrafo investigar la estructura del diccionario con el fin dedetectar y corregir varios tipos de defectos en la estructura del diccionario. La herra-mienta analiza el texto del diccionario y atrae la atención del lexicógrafo a los problemasencontrados, según lo expuesto en las secciones 3 y 4.

Además, la herramienta proporciona la interfaz interactiva para el desarrollo o lamodificación del diccionario. Este software está diseñado para proporcionar al lexicó-grafo la siguiente información:

· Visualiza el diccionario en una interfaz gráfica amigable, en un formato tabular,claramente distinguiendo diferentes elementos de cada definición, tales como la pro-nunciación, etimología, sentidos, subsentidos, ejemplos, relaciones con otras palabras,etc.

· Para la palabra elegida, muestra varias características de la misma, tales como sufrecuencia en las definiciones del diccionario, el tamaño de su propia definición, ellargo mínimo del ciclo en el sistema de definiciones en que está involucrada (serefiere a las definiciones como gallina es hembra del gallo y gallo es macho de la gallina), etc.

· También, proporciona la información sobre el uso de la palabra en el gran corpus detextos y en Internet 1, tal como la frecuencia, los contextos del uso, los contextosagrupados, un árbol del agrupamiento de los contextos —desde la división grosso modo

hasta los matices finos— lo que se usa para facilitar la división del artículo en senti-dos, etc. Aquí, la herramienta permite al usuario elegir los sentidos para las ocurrenciasde las palabras en el corpus (véase más abajo).

· Permite buscar las palabras por sus definiciones, por ejemplo: ¿cómo se llama undispositivo para medir la velocidad de movimiento? En esto se aplican los métodos de búsqueda inteligente usando sinonimia entre las palabras de la petición y el texto(Sierra y McNaught, 2003; Gelbukh et al ., 2002b).

· Construye la lista de las palabras usadas en el corpus con una frecuencia considerable pero ausentes al vocabulario del diccionario. Para esto se emplea la normalizaciónmorfológica (lematización, cf. stemming en inglés) –para que el programa no reporte

todas las formas morfológicas de las palabras (por ejemplo, piensas) como ausentes alvocabulario (que sólo contiene pensar ).

En cuanto a los últimos puntos, la herramienta proporciona la interfaz gráfica para elestudio y marcaje del corpus (Ledo-Mezquita et al ., 2003), permitiendo al usuario elegir los sentidos específicos, de entre los que el diccionario proporciona, para cada ocurren-

1 En caso de Internet, la frecuencia aproximada se calcula usando de las máquinas de búsqueda existentes,tales como Google, las cuales determinan el número de los documentos donde se encuentra la palabra.




cia de cada palabra significativa, como se describe en la sección 3.1 y con los fines dedesarrollar un corpus marcado con sentidos necesario para la aplicación de los algoritmosmencionados en la sección 3.3.

Otro módulo de la herramienta ayuda al lexicógrafo a construir un mejor conjuntode las palabras primitivas, según lo expuesto en la sección 2; por ejemplo, el lexicó-grafo debe considerar que el conjunto definidor no debe tener muchas palabras defrecuencia baja. Para esto la herramienta:

· Genera diferentes conjuntos definidores mínimos permitiéndole al usuario controlar varios parámetros del algoritmo de su generación. Muestra los conjuntos generados junto con la información (tal como la frecuencia) sobre cada palabra incluida en elconjunto.

· Permite al lexicógrafo cambiar manualmente el conjunto definidor generado y verifica

que el conjunto cambiado todavía es un conjunto definidor y que es mínimo.· Permite al lexicógrafo cambiar las definiciones de las palabras e inmediatamentemuestra el impacto en los conjuntos definidores que se generan.

· Dada una lista de las palabras que el lexicógrafo quiere que sean no primitivas,verifica si existe algún conjunto definidor que no las contiene. Éste existe siempre y

cuando las palabras elegidas no formen círculos viciosos. Si así es, genera una ovarias variantes de tal conjunto. Si no es así, muestra los círculos, lo que ayuda aeliminar de la lista las palabras que los causan.

· Dada una lista de las palabras que el lexicógrafo quiere que sí sean definidoras, genera uno o varios conjuntos definidores que contengan estas palabras. Si tal conjunto definidor

no puede ser mínimo, sugiere eliminar ciertas palabras de la lista.· Dado un conjunto definidor mínimo, la herramienta puede:· Para una palabra no primitiva, mostrar su definición expandida a las palabras definidoras, es decir, la que consiste sólo de las palabras definidoras.· Para una palabra primitiva, mostrar los ciclos (más cortos o todos) que su definición actual causa en el diccionario.

En la actualidad no todos los módulos de la herramienta están completamenteimplementados, aunque disponemos de los algoritmos necesarios y planeamos incorpo-rarlos en la herramienta. Los módulos de la herramienta más desarrollados hasta lafecha son los del marcaje del corpus y la selección del vocabulario definidor.




6. Conclusiones y trabajo futuro

Un diccionario explicativo es un sistema complejo con numerosas relaciones entre suselementos y con diferentes restricciones (requerimientos) que tales relaciones debensatisfacer para garantizar la integridad y consistencia del diccionario. La verificaciónde tales requerimientos involucra el análisis no local, es decir, la consideración de loselementos localizados en diferentes lugares en su texto, lo que es casi imposible de hacer manualmente, pero que se facilita en gran medida con el uso de computadoras y la aplica-ción de algoritmos correspondientes, de diferente grado de complejidad e inteligencia.

La verificación automática no sustituye al lexicógrafo sino atrae su atención a posibles problemas y le proporciona la información necesaria para tomar una decisión informaday consciente, sea ésta el hacer modificaciones al texto del diccionario o dejarlo tal cual.Más allá de la verificación, las herramientas computacionales permiten el desarrollo

interactivo del diccionario proporcionándole al lexicógrafo la información sobre lasrelaciones entre la palabra actual y las palabras relacionadas con ésta («cercanas» a ellaen la estructura lógica), aunque distantes en el texto plano del diccionario.

Aún más allá, las técnicas computacionales permiten la construcción puramente auto-mática de muchos de los elementos del diccionario —desde el vocabulario y la informaciónestadística hasta la división de los artículos en sentidos con los ejemplos correspondientes, yla detección de sinonimia entre las palabras—, en la mayoría de los casos a partir del análisisde una gran cantidad de textos es decir, un corpus. En este artículo sólo hemos consideradotales posibilidades con el único fin de comparar los datos obtenidos automáticamente con los presentes en el diccionario. Otro uso de estos métodos que no hemos discutido, es la cons-

trucción automática de un borrador del diccionario completo, para su perfección manual posterior.

Estas consideraciones llevaron al desarrollo en el Laboratorio de Lenguaje Naturaly Procesamiento de Texto del CIC-IPN, de una herramienta computacional que propor-cione estos servicios al lexicógrafo, junto con las facilidades para el marcajesemiautomático de los sentidos de palabras en el corpus. A la fecha, se han desarrolladolos algoritmos principales de tal herramienta y se están integrando con la interfazgráfica amigable al usuario.

ReferenciasALEXANDROV, M., GELBUKH, A. (1999) “Measures for determining thematic structure

of documents with domain dictionaries”. Proc. Text mining workshop at 16 th International joint conference on artificial intelligence ( IJCAI’99), Stockholm, Sweden: 10–12.

ALEXANDROV, M., GELBUKH, A., MAKAGONOV, P. (2000) “On metrics for keyword- based document selection and classification”. Proc. CICLing-2000, International conference onintelligent text processing and computational linguistics, Mexico City, February: 373–389.

APRESJAN, J. D. (1974) “Regular polysemy”, Linguistics, No. 142: 5–32.




BANERJEE, SATANJEEV, and PEDERSEN, T. (2002) “An adapted lesk algorithm for word sense disambiguation using WordNet”. Proc. CICLing-2002, Computational linguisticsand intelligent text processing . Lecture notes in computer science N 2276, Springer-Verlag:

136–145.BOLSHAKOV, I. A., and A. GELBUKH (2003) “On detection of malapropisms by multistagecollocation testing”. Proc. NLDB-2003, 8th International workshop on applications of na-tural language to information systems, Lecture notes in computer science, Springer-Verlag(to appear).

GELBUKH, A., SIDOROV, G. (2002) “Selección automática del vocabulario definidor en undiccionario explicativo”. España: Procesamiento de lenguaje natural, SEPLN: 29: 55–64.

GELBUKH, A., SIDOROV, G., and CHANONA-HERNANDEZ. L. (2003) “Automaticevaluation of the quality of an explanatory dictionary by comparison of word senses”.Proc. 5th Conference on perspectives of informatics systems. Lecture notes in computer

science, Springer-Verlag, to appear.GELBUKH, A., SIDOROV, G., and CHANONA-HERNÁNDEZ, L. (2002a) “Compilation

of a Spanish representative corpus”. Proc. CICLing-2003, Computational linguistics and intelligent text processing . Lecture notes in computer science N 2588, Springer-Verlag:285–288.

GELBUKH, A., G. SIDOROV, A., and GUZMÁN-ARENAS (2002b) “Relational data modelin document hierarchical indexing”. In: E. Ranchhold, N. J. Mamede (Eds.). Proc. PorTAL-2002, Advances in natural language processing . Lecture notes in computer science, N2389, Springer-Verlag: 259–262.

Grupo Anaya (1996) Diccionario de la lengua española: www.anaya.es.EVENS, M. N. (ed.) (1988) Relational models of lexicon: Representing knowledge in semantic

network . Cambridge: Cambridge University Press.FELLBAUM, C. (ed.) (1998) WordNet: an electronic lexical database, Cambridge Mass:

MIT Press.HARTMANN, R.R.K. (2001) Teaching and researching lexicography. Pearson Education

Limited.HIRST, G., and BUDANITSKY, A. (2003) “Correcting real-word spelling errors by restoring

lexical cohesion”. Computational linguistics (to appear).JIMÉNEZ-SALAZAR, H. (2003) “A method of automatic detection of lexical relationships

using a raw corpus”. Proc. CICLing-2003, Computational linguistics and intelligent text processing . Lecture notes in computer science N 2588, Springer-Verlag: 325–328.

KOZIMA, H. And FURUGORI, T. (1993) “Similarity between words computed by spreadingactivation on an English dictionary”. Proc. 6 th conf. of the european chapter of ACL : 232– 239.

KUKICH, K. (1992) “Techniques for automatically correcting words in texts”, ACM Computing surveys, N 24 (4): 377–439.

LANDAU, S. (2001) Dictionaries: the art and craft of lexicography. Cambridge: CambridgeUniversity Press.




LDOCE ( Longman dictionary of contemporary English). Longman: www.longman.com/dictionaries/ which_dict/ldocenew.html.

LEDO-MEZQUITA, Y., SIDOROV, G., GELBUKH, A. (2003) “Tool for computer-aidedSpanish word sense disambiguation”. Proc. CICLing-2003, Computational linguistics and intelligent text processing . Lecture notes in computer science N 2588, Springer-Verlag:277–280.

LESK, M. (1986) “Automatic sense disambiguation using machine readable dictionaries: howto tell a pine cone from an ice cream cone”. Toronto, Canada: Proc. of ACM SIGDOC Conference: 24-26.

LEVENSHTEIN, V. I. (1966) “Binary codes capable of correcting deletions, insertions, andreversals”. Cybernetics and control theory, 10 (8): 707–710.

OALD (Oxford advanced learner’s dictionary). Oxford University Press, www1.oup.co.uk/elt/oald.

OZHEGOV, S. I. (1990). Diccionario explicativo del idioma ruso (en ruso), Moscú, Rusia.Edición 22a.

SAINT-DIZIER, P. and VIEGAS, E. (eds.) (1995) Computational lexical semantics. Cambridge:Cambridge University Press.

SIDOROV, G., and A. GELBUKH (2001) “Word sense disambiguation in a Spanishexplanatory dictionary”. Tours, France: Proc. TALN-2001: 398–402.

SIERRA, G. and ALARCÓN, R. (2002) “Recurrent patterns in definitory context”. Proc.

CICLing-2002, Computational Linguistics and intelligent text processing . Lecture notes incomputer science N 2276, Springer-Verlag: 438–440.

SIERRA, G. and MCNAUGHT, J. (2000) “Analogy-based method for semantic clustering”.Proc. CICLing-2000, International conference on intelligent text processing and computational linguistics, Mexico City, February.

SIERRA, G. and MCNAUGHT, J. (2003) “Natural language system for terminologicalinformation retrieval”. Proc. CICLing-2003, computational linguistics and intelligent text

processing . Lecture notes in computer science N 2588, Springer-Verlag: 543–554.SINGLETON, D. (2000) Language and the lexicon: an introduction. Arnold Publishers.VOSSEN, P. (2001) “Condensed meaning in EuroWordNet”. In: P. Boillon and F. Busa, The

language of word meaning . Cambridge: Cambridge University Press: 363-383.WIERZBICKA, A. (1996) Semantics: primes and universals. Oxford: Oxford University

Press.ZGUSTA, L. (1971). Manual of lexicography. Hague: Mouton, Prague: Academia.

AgradecimientosEl trabajo ha sido realizado con el apoyo parcial del Gobierno de México (CONACyT y SNI) y el InstitutoPolitécnico Nacional, México (CGEPI, COFAA, COTEPABE). Expresamos nuestro más cordial agra-decimiento a la Dra. Sofía Galicia Haro por sus útiles consejos.




Hacia la armonización de la terminología usada en las normas delcomité técnico iso/tc37: identificación semi-automática de términosproblemáticos en un corpus

María PozziEl Colegio de México

In this paper the preliminary results of the Harmonisation of terminology used in ISO/ TC37 standards project are presented. This stage is concerned with the identification of terms that have been used inconsistently in the series of ISO/TC37 standards in order tomodify them, thus harmonising their usage, by eliminating synonymy and polysemy.Since most automatic term extraction software are based mainly on statistical proceduresand the size of our corpus is of a very limited size (137,587 tokens and 7485 types), it wasdecided to carry out a semi-automatic analysis to find all terms included in the sample.Once identified, the usage of each term was further analysed to find and classify thosewhich had been used inconsistently. Finally, each problematic term will be discussed and a solution will be proposed.

Palabras clave: terminología, armonización, normalización terminológica, extracción de términos, normainternacional, sinonimia, polisemia.

Fecha de recepción del manuscrito: enero del 2003

María PozziCentro de Estudios Lingüísticos y Literarios (CELL)El Colegio de México, Camino al Ajusco 20, Pedregal de Santa TeresaMéxico, D. F. , C.P. 10740correo electrónico; [email protected].

Este trabajo presenta los resultados del proyecto Harmonisation of terminology used in

ISO/TC37 standards. La primera etapa, de la que se ocupa el presente artículo consis-te en la identificación de los términos que se han usado de manera inconsistente en la seriede normas producidas por los cuatro subcomités del ISO/TC37 con el objeto de corregirlos, y así armonizar su uso, esto es, evitar el uso de sinónimos y formas polisémicas. Debido aque los programas automáticos de extracción de términos operan con base en medidasestadísticas, y el tamaño del corpus es limitado (137,587 palabras y 7485 tipos), sedecidió realizar un análisis semi-automático de la muestra con el objeto de encontrar todos los términos. Una vez identificados se procedió a analizar el uso de cada uno deellos. Así, a partir de este análisis se encontraron los términos problemáticos y se clasificaron para su posterior discusión donde se propondrá una solución.



María Pozzi110

Introducción

La época de globalización en que estamos viviendo significa que para lograr un verdade-ro intercambio comercial entre varios y diversos países hay que establecer reglas muy precisas sobre los requisitos de fabricación, de seguridad y de calidad que deben satisfacer los productos que se adquieren tanto a nivel nacional como internacional. Estas reglas estánconstituidas, en parte, por las diferentes normas emitidas por organismos internacio-nales, como la International Organization for Standardization (ISO), InternationalElectrotechnical Comisión (IEC), etc.; regionales, como la Comisión Panamericana de Normas Técnicas (COPANT) y nacionales, como la Dirección General de Normas(DGN) en el caso de México, British Standards Institute (BSI) en Gran Bretaña, DeutschesInstitut für Normung (DIN) en Alemania, American National Standards Institute (ANSI)en Estados Unidos, la Asociación Española de Normalización (AENOR) en España, etc.,

y que se aplican de manera obligatoria o voluntaria, según sea el caso.La implementación de normas internacionales para bienes y servicios facilita elcomercio y permite crear tecnologías compatibles en todo el mundo evitando así tener quefabricar productos que satisfagan diferentes requisitos nacionales. Los consumidores, por otra parte, tienen una gama más amplia de fabricantes de quienes adquirir los productos quenecesitan y que cumplen con niveles apropiados de confiabilidad, seguridad y calidad.

La normalización tradicionalmente siempre ha estado relacionada con el comercio ocon el intercambio de bienes y servicios entre proveedores y compradores; el consenso sobre pesos y medidas ha facilitado durante siglos transacciones comerciales tan simples como lacompra de un kilo de arroz o tres metros de tela. En la actualidad, acciones tales como

encender la luz o llamar por teléfono son posibles gracias al proceso formal de normaliza-ción internacional realizado por organismos especializados como la ISO, IEC e ITU(International Transport Union). La desaparición gradual de las fronteras comerciales,la privatización de las compañías estatales y la llegada al mercado de nuevos proveedoresde países con economías emergentes están cambiando la imagen tradicional del comercio.Los mercados se están globalizando, y cada vez más, los proveedores que proporcionan productos al consumidor se encuentran más allá de las fronteras políticas.

1. Normalización

La ISO se fundó en 1947 con el objeto de optimizar las transacciones comerciales internacio-nales mediante la elaboración de normas que permitieran una comunicación y cooperacióneficientes entre las partes interesadas.

El resultado de un proceso de normalización es una decisión por consenso de unacomisión representativa, que se recoge en un documento llamado norma, en el que figuranlos aspectos acordados entre las partes y en donde se especifican sus ámbitos de aplicación.



111Hacia la armonización de la terminología...

1 La parte 3 de las Directivas de la ISO establece que “Uniformity of structure, of style and of terminology shall be maintained not only within each standard, but also within a series of standards.[…]. The same term shall be used throughout each standard or series of standards to designate a givenconcept. The use of an alternative term (synonym) for a concept already defined shall be avoided. Asfar as possible, only one meaning shall be attributed to each term chosen. These requirements are particularly important not only to ensure comprehension of the standard but also to derive the maximum benefit available through automated text processing techniques and computer-aided translation.

La Norma Oficial Mexicana NOM-Z-13 (1994:24) define normalización como:

“Proceso de formulación y aplicación de reglas para enfocar, de manera orde-nada, una actividad específica para el beneficio y con la cooperación de todos

los interesados, y en particular, para la promoción de una óptima economíaglobal tomando en cuenta las condiciones de funcionamiento y los requisitosde seguridad”.

La normalización permite reducir las distintas variedades de un mismo producto a unasola, y esa simplificación facilita el intercambio del producto con la garantía de quecumple las mismas condiciones de calidad, funcionamiento y compatibilidad, entre otras.La normalización de los términos que denominan productos significa asimismo que losespecialistas, al utilizarlos, tendrán en cuenta los acuerdos que ellos mismos han tomado:una denominación (y sólo una) para cada concepto bien delimitado.

Una norma internacional es un lineamiento o documento normativo que emite unorganismo internacional de normalización u otro organismo internacional relacionado con lamateria, que se es reconocido por diversos países en los términos del derecho internacional.Es de carácter voluntario. (SECOFI 1997:8)

Los objetivos principales para la emisión de normas tanto nacionales como inter-nacionales son uniformizar la calidad, seguridad y funcionamiento de bienes y servicios, yademás, exigir la aplicación de las normas de una manera uniforme en todos los casos. El primer paso para lograrlo es que todos entiendan exactamente lo mismo al aplicar unadeterminada norma, para lo cual es necesario eliminar la barrera interlingüística, ymás importante aún, como en el caso del español, la barrera intralingüística.

Para solucionar este problema, las Directivas de la ISO/IEC, en su parte 3 Rules for the structure and drafting of International Standards 1 (ISO/IEC DIR3 1997:11) , dedican unasección a la terminología utilizada y otra a las definiciones pertinentes que se deben incluir en la norma que se está elaborando. Al respecto, estas directivas señalan que el objetivo deuna norma internacional es establecer disposiciones claras y no ambiguas que faciliten lacomunicación y el comercio internacionales. Para lograr este objetivo, la norma internacio-nal debe, entre otras cosas, ser consistente, clara y precisa además de mantener uniformidadde estructura, estilo y terminología. Se debe usar el mismo término a lo largo de toda lanorma -o de la serie de normas- para designar un concepto dado. Debe evitarse el uso de

sinónimos para un concepto ya definido y, dentro de la medida de las posibilidades, cadatérmino debe designar un solo concepto.



María Pozzi112

Como puede apreciarse, tanto la terminología empleada en las normas como lasdefiniciones pertinentes que deben incluirse en las mismas constituyen un punto funda-mental para el buen entendimiento y aplicación de las normas.

Por otra parte, uno de los principales objetivos de los lenguajes de especialidad es permitir una comunicación eficiente de información, logrando así una apropiada transfe-rencia de conocimientos entre especialistas. Esto sólo puede ser posible si todos los participantes entienden lo mismo cuando se refieren a un concepto específico.

La mayor parte de los problemas en la comunicación especializada surgen cuando untérmino denota más de un concepto o cuando un concepto se designa por más de un término.Además, a nivel internacional algunas veces los sistemas de conceptos difieren deuna lengua a otra o de un sistema cultural a otro. La mayor parte de estas dificultades pueden resolverse al ponerse de acuerdo previamente en el significado de los términos,los conceptos y los sistemas conceptuales que se emplearán.

Ya que en los lenguajes de especialidad los términos se usan para representar con-ceptos, es a través de la normalización de los conceptos seguida por la normalización delos términos que se puede asegurar que los conceptos y sus correspondientes denomina-ciones significan lo mismo para los especialistas.

2. Comité Técnico ISO/TC 37 (Terminología y otros recursos lingüísticos)

Considerando la importancia de lograr una eficiente comunicación entre especialistas tantodentro como fuera del marco de la normalización en general, en 1936, a sugerencia de EugenWüster, se estableció el primer comité internacional de normalización terminológica, ISA37 2, cuyo trabajo fue suspendido al principio de la Segunda Guerra Mundial, para reiniciarseen 1947, convertido en lo que actualmente es el Comité Técnico ISO/TC37 (Terminología yotros recursos lingüísticos) de la Organización Internacional de Normalización 3.

Este comité se encarga de elaborar las normas internacionales en materia determinología que tratan sobre el proceso de investigación terminológica, incluyendo laidentificación, evaluación y selección de fuentes de referencia, establecimiento de no-menclaturas, preparación de análisis conceptuales, selección de términos, formulaciónde definiciones, presentación de datos, organización de la información en medios electró-nicos, etc.; asistir y asesorar a otros comités que están preparando terminologías nor-

malizadas; y propiciar la cooperación entre los diferentes comités de normalización parala promoción de terminologías normalizadas tanto a nivel nacional como internacional.Dentro del marco de trabajo de la ISO, el TC/37 es uno de los pocos comités que

elaboran normas aplicables por especialistas que trabajan en todo el mundo así como por los demás comités técnicos de la propia ISO y de otros organismos internacionales,regionales y nacionales de normalización.

2 Comité Técnico 37 de la International Standardization Association (ISA).3 ISO – International Organization for Standardization, organismo que sustituyó a la ISA.




4 WG – Working group5 CD – Committe Document 6 DIS – Draft International Standard 7 FDIS – Final Draft International Standard 8 IS – Internaional Standard

Para atender de una manera comprensiva todas las actividades terminológicas, elISO/TC37 está constituido por cuatro subcomités: ISO/TC37 SC1, Principios y métodos,que se encarga de los aspectos metodológicos relacionados con la práctica de la termi-

nología; ISO/TC37 SC2, Terminografía y Lexicografía, que se ocupa de establecer lametodología para la preparación de vocabularios; ISO/TC37 SC3, Aplicacionescomputacionales en terminología, cuyo objetivo es la solución de problemas metodológicosasociados a la aplicación de las computadoras en el campo de la terminología; y SC4 Recursos lingüísticos, de reciente creación, que se encarga de producir normas que con-ciernen a cualquier aplicación lingüística aparte de la terminología. Alrededor de 22 paísesson miembros participantes de este comité y otros más son miembros observadores. Existenademás convenios de colaboración con otros comités técnicos y con organismos externos.

Cada subcomité está estructurado en grupos de trabajo (WG) 4 cada uno de loscuales es responsable de la elaboración de una o más normas y está dirigido por un coordi-

nador (convenor) que se ocupa, entre otras cosas, de redactar la norma en cuestióndurante las diferentes etapas del proceso de normalización, recopilar y discutir loscomentarios enviados por los diferentes miembros y procesar el resultado de la votaciónde los miembros participantes con el objeto de continuar o suspender el proceso.

Las etapas que sigue el proceso de elaboración de normas ISO son las siguientes:

·CD 5 - Documento del comité - es la primera versión del documento ya admitido por elSecretariado Central de la ISO para la elaboración de una posible norma internacional;

·DIS 6 - Proyecto de norma internacional – constituye las siguientes versiones modificadas de acuerdo con los comentarios de los miembros del subcomité. Puede haber

hasta dos proyectos de norma internacional;·FDIS 7 - Proyecto final de norma internacional – última etapa del proceso de elabora ción de normas internacionales ISO antes de ser, de hecho, una norma internacional;·I S 8 - Norma internacional – Una vez que se ha logrado consenso de por lo menos 75% del voto de los miembros participantes en cada una de las etapas del proceso, se publica la norma internacional, con una validez promedio de cinco años, al término de los cuales se solicita a los miembros del comité en cuestión que indiquen si sugieren modificaciones, si se elimina o si continúa vigente. En el primer caso, se convierte en un CD y se empieza el proceso de revisión.

El ISO/TC 37 ha estado produciendo normas internacionales de terminología yotros documentos técnicos durante más de 50 años. Los usuarios finales de estas normasy documentos técnicos incluyen expertos técnicos y en normalización que colaboran en



María Pozzi114

las tareas de normalización de sus propias terminologías, ya sea dentro del marco de laISO o fuera de él, así como terminólogos que preparan varios tipos de recursosterminológicos dirigidos a una gama más amplia de usuarios.

Las normas del ISO/TC37 son muy importantes, en particular en el contexto de lanormalización internacional, ya que son normas para producir normas que se aplican enla mayor parte de los comités técnicos de la ISO.

A través de los años, el ISO/TC37 ha producido una cantidad sustancial de normasen donde se han reproducido las corrientes teóricas que revelan el pensamiento de laépoca así como la metodología del trabajo terminológico en sus diferentes etapas. Másrecientemente se han producido también normas en donde se aplican los últimos adelan-tos de la computación a la terminología. Como es de esperarse, estos documentos hansido redactados por diferentes grupos de trabajo a lo largo de muchos años.

Como consecuencia natural de este proceso, la terminología utilizada en estas

normas no siempre es consistente con la de otras normas y documentos técnicos del ISO/TC37. Esto representa un problema serio para el comité, ya que una de las principalesmisiones del TC37 es proporcionar los principios y métodos para la compilación, proce-samiento y gestión de terminologías, y como tal, todos estos documentos deben cumplir lasDirectivas de la ISO en relación con el uso consistente de la terminología en cada normay en cada serie de normas. En este contexto y con el apoyo y la participación de losmiembros activos de los cuatro subcomités del ISO/TC37, se inició un proyecto pararesolver este problema, que consiste en la armonización de la terminología usada entodos los documentos y normas producidos por el ISO/TC37.

3. Identificación de términos basada en un corpus

El primer paso para encontrar los términos que requieren ser armonizados consistió enla identificación de todos los términos utilizados en las normas y documentos técnicos delISO/TC37, para lo cual se constituyó un corpus que contiene el texto íntegro de lassiguientes normas:

· ISO 704: 2000 Terminology work – Principles and methods· ISO 10241: 1992 International terminology standards – Preparation and layout

· ISO 860: 1996 Terminology work – Harmonization of concepts and terms· ISO 1087-1: 2000 Terminology work – Vocabulary – Part 1: Theory and application· ISO 1087-2: 2000 Terminology work – Vocabulary – Part 2: Computer applications· ISO 1951: 1997 Lexicographical symbols and typographical conventions for use in

terminography· ISO 12620: 1999 Computer applications in terminology – Data categories· ISO/CD 16642: 2003 Computer applications in terminology – Terminological markup

framework (TMF)· ISO/CD 12615: 2001 Bibliographic references and source identifiers for terminology work




· ISO/FDIS 15188: 2001 Project management guidelines for terminology standardization· ISO/FDIS 12616: 2001 Translation-oriented terminography· ISO 12199: 2000 Alphabetical ordering of multilingual terminological and lexicographical

data represented in the Latin alphabet· ISO/FDIS 639-1: 2001 Codes for the representation of names of languages – Part 1:Alpha-2 code

· ISO 639-2: 1998 Codes for the representation of names of languages – Part 2: Alpha-3 code· ISO 6156: 1987 Magnetic tape exchange format for terminological/lexicographical

records (MATER)· ISO/CD 16503: 2000 Computer applications in terminology — Representations of ter-

minological data — MARTIF-compatible format with specified constraints (MSC)· ISO 12200: 1999 Computer applications in terminology – Machine-readable terminology

interchange format (MARTIF) – Negotiated interchange

Con el objeto de asegurar que todos los términos utilizados en las normas anterioresfueran identificados se procedió mediante los siguientes pasos consecutivos:

· software de extracción automática de términos· software para la obtención de concordancias· identificación manual de términos

3.1. Software de extracción de términos

El software que se utilizó en primera instancia para la identificación de términos fueeXtraTerm de Trados™. Ya que este programa se basa exclusivamente en métodos esta-dísticos y no lingüísticos, se obtuvieron demasiados “candidatos a términos” que definiti-vamente no son términos y, como resultado del tamaño limitado del corpus, una grancantidad de términos no fueron incluidos en la lista ya que no tenían un numero suficientede ocurrencias. Sin embargo, éste fue un punto de partida razonable que tuvo que ser complementado con otros recursos. De esta manera se obtuvo una lista preliminar de 1258términos después de desechar los candidatos a términos sugeridos por eXtraTerm y queevidentemente no lo son, como por ejemplo “related to”.

3.2. Software KWIC (keywords in context) para la generación de concordancias

Para complementar los resultados obtenidos en la etapa anterior, se utilizó el programaKWIC con el objeto de obtener en primer lugar una lista ordenada por frecuenciasdescendientes de todas las palabras contenidas en las normas; en segundo lugar se gene-raron las concordancias de las palabras cuya categoría gramatical fuera sustantivo,adjetivo o verbo para identificar posteriormente los términos y contar en todo caso coninformación real para justificar cualquier decisión tomada. La decisión de obtener úni-



María Pozzi116

camente las concordancias de sustantivos, adjetivos y verbos se tomó con base en elhecho de que no hay términos que consistan exclusivamente de palabras cuya categoríagramatical sea artículo, pronombre, adverbio, preposición, conjunción o interjección.

Estas podrán ser parte de un sintagma que constituye un término, pero siempre en presenciade un sustantivo, adjetivo o verbo. En esta operación se obtuvieron también las colocacionesencontradas en un documento y en toda la serie de documentos.

Cabe mencionar que a pesar de que existen en el mercado varios programas comer-ciales y otros no comerciales de extracción de términos así como generadores de concor-dancias, se seleccionaron estos dos programas por razones puramente pragmáticas, ya quecontábamos con la última versión de eXtraTerm y KWIC es accesible de manera gratuita através de Internet. A continuación, la figura 1 muestra las concordancias para el término“concept relation”:

3.3. I denti f icación manual de términos

Es importante enfatizar la necesidad de identificar de manera exhaustiva todos lostérminos utilizados en las normas del ISO/TC37, ya que es indispensable garantizar eluso consistente de cada término en cada norma y en la serie completa. Así, una vez quese contaba con toda la información obtenida a partir de los dos programas (eXtraTerm™yKWIC) se procedió a realizar el análisis manual de los datos con el objeto de identificar los términos que no habían sido identificados por eXtraTerm™ Se analizaron las concor-dancias de cada palabra seleccionada (sustantivo, adjetivo o verbo) para identificar lossintagmas que constituyen un término y se generaron las concordancias correspondien-tes. Por ejemplo, en la figura 1, se presenta una lista de las concordancias del sintagma“concept relation”, y a partir del análisis de las 27 concordancias se pudieron encontrar los siguientes términos: “concept relation” (20), “generic concept relation” (1), “partitiveconcept relation” (1), “associative concept relation” (1), “term-concept relation” (3),“hierarchical concept relation” (1). Esta etapa se pudo realizar ya que se sabía quétérminos habían sido identificados y se tenía el conocimiento especializado necesario para identificar los términos que todavía no estaban registrados. Al terminar estas dosetapas se identificaron 4248 términos. A continuación se produjo una tabla en donde seindica cada término junto con su correspondiente frecuencia total y frecuencia en cada

norma. La figura 2 muestra un subconjunto de los términos identificados, con su correspondiente frecuencia total.




K eyword: concept relation

Keyword Position: 50

(2)Terms ................................... 24 7.2.1 Term-concept relations..........................................................(2) to the following:_identifying concepts and concepts relations;_ analyising and modelling systems on the(2) systems on the basis of identified concepts and concpets relations;_establihishing representations of concept systems(2) by representing them formally or graphically. Concept relations can be represented formally in a list. The formal(2) typical ones. Tree diagram to represent generic concept relations Rake or bracket diagram to represent partitive(2) Rake or bracket diagram to represent partitive concept relations Line with arrowheads at each end to represent(2) arrowheads at each end to represent associative concept relations The nation used throughout this International(4) simplifies the task of defining a concept. 5.4 Concpet relations 5.4.1 Types of concpets relations Concepts do not(4) a concept. 5.4 Concept relations 5.4.1 Types of concept relations Concepts do not exist as isoloated units of thought(5) a system constructed using a combination of the concept relations, see example 17. EXAMPLE 17 5.6 Developing concept(5) definitions for the concepts based on the concept relations;_ attributing designations to each concept: the(5) intensional definition shuold be based on the concept relations determined during analysis. A definition based on a(7) symbols are designations. 7.2 Terms 7.2.1 Term-concept relations A term is a designation consisting of one or more(10) concept 5.4.2.3 concept formation 5,5.1 concept relations 5.4 concept representation 5.1 coordinate concept 5(10) field 5.4.1, example 4 concept formation 5, 5.1 conceept relations 5.4 associative relation 5.4.3, example 15,16,17(10)

term 8.1 term formation 7.3, annex A term concept relations 7.2.1 transparency 7.3.2, example 43 term-concept(10) 7.2.1 transparency 7.3.2, example 43 term-concept relations 7.2.1 term formation 7.3 annex A abbreviated forms(7) (fuel) luiquidity (financial assets) A.6 concept relations DESCRIPTION: A semantic link between concepts. NOTE:(7) A semantic link between concepts. NOTE: Concept relations form the basis for concept systems. Types of (7) form the basis for concept systems. Types of concept relation can include: generic relation partitive relation(7) 6.1 generic relation DESCRIPTION: A hierarchical concept relation in which the intension of the superdinate concept(12) Subgroup 6 Treats data categories that indicate concept relations between pairs of concepts. NOTE - These categories(4) related to concept description Subgroup 6: Concept relation Data category name MARTIF data category(4)

representation Examples (Full normalized form) concept relation A.6.<descrip type =’generic relation’> A term the(4) 10 entry type A.10.11 element working status A.6 concept relation A.10.12 target database* A 6.1 generic relation 4 A(7).........................72 Data category — A.6, Concept relation .................................77 Database category—A(8)10.10 concept-related description ...........A.5 concept relation..............A.6 concept system............................

Total Occurrence (s): 27

Figura 1. Concordancias del término “concept relation”.



María Pozzi118

4. Términos que requieren ser armonizados

La armonización de la terminología en el marco de la normalización implica el usouniforme de términos en una norma y en la serie de normas relacionadas. Esto tambiénsignifica que debe usarse el mismo término para designar un concepto dado y evitar eluso de sinónimos y, siempre que sea posible, atribuir un solo significado a cada término.

Se analizó meticulosamente la lista de los 4248 términos junto con sus concordanciascon el objeto de encontrar usos inconsistentes de los términos, términos con dos o mássignificados, uso de sinónimos, etc. Una vez establecida la lista de términos cuyo uso noes consistente se procedió a clasificarlos de acuerdo con el tipo de problema encontrado.Se obtuvieron los siguientes resultados:

4.1. Uso de más de un término par a designar un concepto

Esta fue la situación más frecuente que se encontró en todas las normas. Se manifestó devarias maneras:

concept model 1

concept position 11concept position category 1concept record 2concept relation 20concept representation 2concept structure 3concept sub-system 1concept system 123concept system category 1concept system layout 1concept-level definition 1concept-orientation of the database 1

concept-oriented work 1concept-related category 1concept-related data 1concept-related data category 1concept-related description 12concept-related information 2conceptual framework 1conceptual information 3conceptual link 1conceptual structure 5

conceptualization 4

Figura 2. Subconjunto de términos identificados en las normas del ISO/TC37




4.1.1. Uso indistinto de formas extendidas y formas cortas de un término

Este fenómeno se encontró a lo largo de todo el corpus. En algunos casos se encontrarontres o más equivalentes para un concepto:

· abbreviated form of a term / abbreviated form of term / abbreviated form;· associative concept relation / associative relation;· blind interchange format / blind format;· term equivalent / equivalent;· hierarchical concept relation / hierarchical relation / hierarchical relationship;· main entry term / main entry;· partitive concept relation / partitive relation / partitive relationship;· short form of term / short form / short term;

· terminological data collection / terminological collection;· terminological data bank / term bank;· word form index / word index;· subject-field expert / subject-matter expert / expert;· subject-field specialist / specialist;· generic concept system / generic system;· generic concept relation / generic relation / generic relationship;· thesaurus descriptor / descriptor;· source reference / source;· terminological source identifier / source identifier;

· string of characters / string;· systematic terminology standard / systematic standard;· repeatable data category / repeatable category;· hierarchical concept system / hierarchical system;· subject field / field;· grammatical gender / gender

4.1.2. Uso de diferentes categorías gramaticales o dos tipos de adjetivos

Algunos conceptos fueron designados con términos correspondientes a diferentes catego-rías gramaticales o bien, a formas diferentes de adjetivos. Las formas más comunesfueron el uso indistinto de sustantivo o adjetivo. Por ejemplo:

· alphabetical ordering / alphabetical order;· bibliographical data / bibliographic data;· bibliographical entry / bibliographic entry;· bibliographical information / bibliographic information;· bibliographical reference / bibliographic reference;



María Pozzi120

· conceptual structure / concept structure;· numerical character / numeric character;· documentation language / documentary language;

· sorting key / sort key;· sorting value / sort value;· spelling check / spell check;· terminological collection / terminology collection;· terminological entry / terminology entry;· terminological database / terminology database;· terminological file / terminology file;· terminological record / terminology record;· terminological work / terminology work;· terminological product / terminology product

4.1.3. Uso de sinónimos

Se encontraron formas alternativas para designar un concepto tanto en cada norma comoen el conjunto de ellas. En ocasiones, hasta cinco sinónimos coexisten en esta serie denormas. Algunos ejemplos:

· alphabetical arrangement / alphabetical ordering / alphabetical order;· associative concept relation / associative relation / pragmatic relation / thematic relation;

· blind interchange format / blind sharing format / blind format;· classification structure / classification system;· data category / category / data-category / data element type;· note / comment / remark;· compressed form / reduced form;· concept structure / conceptual structure / concept system / system of concepts;· continuous alphabetical sequence / letter by letter alphabetisation / letter-by-letter ordering;· country code / country identifier / country symbol;

· degradation / stem search;· delimiter / separator;· deprecated term / rejected term;· subject field / field / domain;· equivalent / term equivalent / foreign equivalent / equivalent of a term / equivalent term;· expanded form / full form / expansion;· expert / specialist / subject-field expert / subject-field specialist / subject-matter expert;· false calque / false loan translation / false friend / nonequivalent / faux amis;




· fixed phrase / set phrase entry / set-phrase;· generic identifier / tag name / Generic Identifier / GI;· head term / main entry term;

· language code / language identifier / language symbol;· language for special purposes / special language;· neologism / neoterm / new term;· partitive concept relation / partitive relation / partitive relationship / whole-part relation / part-whole relation;· generic concept relation / generic relation / generic relationship / generic-specific relation / genus-species relation;· terminological dictionary / technical dictionary

4.1.4. Uso de variantes ortográficas

Se encontraron variantes ortográficas tanto en cada norma como en la serie de normasanalizadas. Se hace énfasis en el uso o ausencia del “o”. Por ejemplo:

· superordinate term / super-ordinated term;· data category / data-category;· core structure module / core-structure module / core structure-module;· data category specification / data category-specification / data-category specification;· data constraint specification / data-constraint specification;· data modeling / data modelling;

· language planning qualifier / language-planning qualifier;· meta data category / meta data-category;· meta model / meta-model / Meta-model;· MSC core structure module / MSC core-structure module;· multiword term / multi-word term;· nonstandardized term / non-standardized term / nonstandardised term;· nontextual illustration / non-textual illustration;· standard-text / standard text

4.1.5. Uso de diferentes estructuras sintácticasEn ocasiones algunos conceptos se expresaron mediante términos sinónimos construidoscon diferentes estructuras sintácticas. En todos los casos las estructuras utilizadas fue-ron N

1 + N

2y las formas alternativas fueron N

2 + of + (the/a) + N

1. Por ejemplo:

· attribute value / value of the attribute;· concept system / system of concepts;· publication date / date of publication;



María Pozzi122

· term equivalence / equivalence of terms;· terminology management / management of terminology;· variable-length record / record of variable length;

· term status / status of a term;· term type / type of term

4.2. Uso de términos con más de un signi f icado

Se encontraron algunos términos con más de un significado, como en el caso de:

· broader concept / superordinate concept: como el concepto genérico· broader concept / superordinate concept: como el concepto comprehensivo

· narrower concept / subordinate concept: concepto específico· narrower concept / subordinate concept: concepto partitivo

· data collection: una colección de datos· data collection: acto de colectar datos

· data entry: una entrada de datos· data entry: acto de introducir los datos

· field: campo en una estructura de base de datos

· field: campo del conocimiento

· terminology collection: una colección de términos· terminology collection: acto de colectar terminología

· terminology: conjunto de términos de un campo del conocimiento· terminology: la disciplina

4.3. Términos con inconsistencia conceptual

Algunos términos presentaron problemas conceptuales:

· meaning of a concept: los conceptos no tienen significado, solo los términos tienensignificado.

· entry concept: aunque las colecciones terminológicas generalmente están orientadasal concepto, el concepto en sí no puede ser la entrada; la entrada está determinada por el término o de manera muy poco frecuente, por la definición.




9 En terminología, se reconocen los siguientes tipos de definiciones: - definiciones intensionales y defini-ciones extensionales.

10 La definición extensional es la descripción de un concepto mediante la enumeración de todos los con-ceptos subordinados bajo un criterio de subdivisión.

11 Concepto que es ya sea un concepto genérico o un concepto comprehensivo.12 Concepto superordinado es un concepto en un sistema jerárquico que se puede subdividir en un número de conceptos subordinados.13 Concepto más amplio es un concepto en un sistema jerárquico que se localiza dos o más niveles supe-

riores de abstracción que el concepto que se está analizando.

· related concept: mientras que related concept se entiende en las normas 704, 10241,1087-1 y 12200 como dos conceptos relacionados de cualquier manera, ya sea median-te una relación jerárquica o asociativa, la norma 12620 estipula que: “related concept”

es un concepto que está relacionado con otro por una relación asociativa. Esto contra-dice las otras normas.

· extensional definition: La norma 704 establece claramente que: “In terminology, thefollowing types of definitions are recognized: – intensional definitions and – extensionaldefinitions” 9. Esta norma les da a ambos tipos de definición la misma categoría. Por otra parte, la norma 1087-1 establece que: “extensional definition is a description of a concept [no una definición] by enumerating all of the subordinate concepts under one criterion of subdivision”10. Más aún, el diagrama del sistema conceptual para elcampo de la terminología incluido al final de la norma 1087-1 hace explícito que la

“definición extensional” es un concepto coordinado de “designación” y de “defini-ción”, pero no es un concepto coordinado de “definición intensional”, como lo afirmala norma 704. Esto se puede apreciar en la figura 3.

· superordinate concept / broader concept: La norma 1087-1 trata ambos términoscomo sinónimos: “concept which is either a generic concept or a comprehensiveconcept”11 mientras que la norma 12620 los trata como diferentes términos que co-rresponden a diferentes conceptos: “superordinate concept is a concept in a hierarchicalsystem that can be subdivided into a number of lower-ranking concepts” 12 ; “broader concept is a concept two or more levels of abstraction higher than subject concept ina hierarchical concept system”13.




Patrón sintácticoAJ + SS + SSS + S + SAJ + S + SAJ + AJ + SS + PR + SVAJS + PR + S + SS + PR + AJ + SS + S + S + SAJ + S + S + SS + PR + AR + SAJ + S + AJ

Frecuencia1220979911274247113757556393025201212

Ejemploconceptual structureconcept systemconceptdata category namealphabetical terminology standarddiscontinuous alphabetical sequencesystem of conceptsdisplaymonodirectionalharmonization of term systemsformat of terminological entrydata category specification modulemaster data constrain specificationequivalent of a term

broader term generic

5. Patrones sintácticos de los términos

Para asegurar la selección del término más apropiado durante el proceso de armoniza-ción y para establecer los lineamientos para la creación de términos nuevos en el campode la terminología, se analizaron los patrones sintácticos de los 4248 términos. Se encon-traron 41 patrones sintácticos de los cuales 15 dan cuenta del 96.26% de los términos ylos restantes tienen una frecuencia menor o igual a 10. Los 15 patrones sintácticos másfrecuentes se muestran en la tabla 1.

Tabla 1. Patrones más frecuentes encontrados en la terminología de las normas determinología, donde AJ = adjetivo, AR = artículo, S = sustantivo, PR = preposicióny V = verbo

Esta tabla muestra algunos resultados interesantes:

· Los tres primeros patrones sintácticos dan cuenta del 73.21% de todos los términos,lo que significa que casi uno de cada cuatro términos corresponde a un adjetivo segui-do de un sustantivo, dos sustantivos o un sustantivo.

· Como era de esperarse, la mayor parte de los términos se forman mediante sustantivos,adjetivos o una combinación de ambos mientras que otras categorías gramaticales seencuentran en menor proporción y en general combinadas con sustantivos o adjetivo;

sólo el 1.74% corresponde a verbos.· Los términos de la forma N

1 + N

2 son más comunes que sus equivalentes de la forma

N2+ of + (a/the) + N

1, como en el caso de “concept system” con una frecuencia de

123 comparado con “system of concepts” que apareció sólo 5 veces.· La mayoría de los términos utilizados en las normas del ISO/TC37 tienden a ser

cortos, lo que significa que más del 92% están compuestos de hasta tres palabras.· Los términos compuestos de varias palabras tienden a utilizarse más en forma abre-

viada, por ejemplo, “machine-readable terminology interchange format” se conocemás como “MARTIF”, y términos que contienen términos que se usan normalmente



María Pozzi126

en forma abreviada además de una o más palabras, no se expresan en su forma desa-rrollada, por ejemplo, “MARTIF attribute”, “ASCII sequence”, “MSC core structuremodule”, etc.

El proceso de selección de los términos armonizados tomará en cuenta los patrones sintácticosmás comunes en esta terminología.

6. Trabajo futuro

La identificación de términos que se utilizan en la serie de normas del ISO/TC37 y querequieren ser armonizados constituye el primer paso para lograr una consistencia abso-luta entre todos estos documentos y cumplir así las directivas de la ISO. Lograr el usoarmonizado y consistente de toda la terminología es de particular importancia para elComité técnico ISO/TC37, ya que por un lado, fue el propio ISO/TC37 quien propuso ladirectiva correspondiente al uso apropiado de la terminología en los documentos técni-cos de la ISO y, por el otro, las normas producidas por el ISO/TC37 hacen explícita lametodología para que quienes las aplican puedan manejar consistentemente su termino-logía, ya sea en el marco de la normalización internacional, regional o nacional, o encualquier otro ámbito, por lo que resulta indispensable que los documentos producidos por el ISO/TC37 cumplan las reglas establecidas en sus propios documentos. La realiza-ción de este proyecto hará posible que el ISO/TC37 corrija los errores de consistenciacometidos en el pasado y asegure –hasta donde sea posible– que en el futuro todos losdocumentos utilicen la terminología de manera consistente.

Una vez compilada la lista de términos que necesitan armonizarse, la responsabi-lidad de discutir y solucionar cada caso será del grupo de trabajo quien deberá proponer el uso de una sola alternativa, asignar un significado a cada término y solucionar los casosde inconsistencia conceptual. La solución propuesta en cada caso deberá tomar en cuentavarios criterios aquí mencionados, como la frecuencia de uso de una u otra forma, yaque cuando el uso de un término está extendido, generalmente no es conveniente cam- biarlo; la corrección lingüística, sin errores de ortografía como en el caso del uso delguión, y usando la forma de escritura del inglés británico (tal como lo ordenan lasdirectivas de la ISO); y la economía, tratando de seleccionar términos cortos más quelargos.

Esta etapa del proyecto se concluyó satisfactoriamente. El ISO/TC37 cuenta en laactualidad con una lista de todos los términos que han sido utilizados en los documentostécnicos del comité, los términos que fueron usados de manera inconsistente han sidoidentificados y están en vías de solución.

La segunda y última etapa no será responsabilidad exclusiva de la coordinadora del proyecto, como hasta ahora, sino que participarán los líderes de proyecto, coordinadores delos grupos de trabajo correspondientes, así como los secretarios de cada subcomité y losmiembros del “ISO/TC37 Advisory Group”. Se espera terminar antes de la próxima reunióndel TC37, en agosto de 2004, en donde se rendirá el informe final del proyecto.




7. Comentarios finales

La compilación de esta lista hubiera sido en extremo difícil si no hubiera sido por la dispo-nibilidad del software específico para la identificación de términos así como para la obtención deconcordancias ordenadas alfabéticamente y por frecuencia. El corpus consiste exclusiva-mente de las normas del ISO/TC37 que están vigentes, lo que lo caracteriza por ser un producto cerrado en un momento determinado. Las nuevas versiones de las normasexistentes y las normas nuevas que se produzcan deberán reflejar el uso consistente dela terminología.

La importancia de este proyecto dentro del ISO/TC37 así como en el marco generaldel la ISO es evidente ya que por una parte podrá utilizarse como modelo para armonizar o normalizar la terminología de cualquier campo del conocimiento ya sea en el seno dellos comités técnicos de la ISO o fuera de ellos. Por otra parte, la lista de todos los

términos utilizados en las normas del ISO/TC37 serán integrados en una base de datos quecontendrá la terminología de la terminología y servirá de referencia para la elaboraciónde nuevos documentos y, en el futuro próximo, para la elaboración de un vocabulario de laterminología.

Referencias

ISO/IEC Directives Part 3: Rules for the structure and drafting of International Standards,(1997) 3rd Edition.

NOM – Z – 13 Guía para la redacción, estructuración y presentación de las normas oficialesmexicanas, (1994) México: SECOFI.

Ley Federal sobre Metrología y Normalización (1997) México: SECOFI.

Trados GmbH (2002) eXtraTerm User´s Guide – Internet.

Tsukamoto, S. (2001) KWIC User’s Manual Version 4.6.




El rol de las predicaciones verbales en la extracción automática deconceptos

Rodrigo AlarcónGerardo Sierra

Instituto de Ingeniería, UNAM

In specialised texts, there are some recurrent typographical and syntactic patterns that authors use to define a term. Some of these syntactic patterns are verbal predicationsthat function as connectors between terms and definitions. In this paper we analyse therole of the verbal predications involved in definitional contexts of specialised texts inSpanish, in order to develop a system capable of extracting definitional contexts.

Palabras clave: contexto definitorio, terminótica, Precision & Recall, lingüística computacional, ingenieríalingüística.

Fecha de recepción del manuscrito: marzo del 2003

Rodrigo Alarcón y Gerardo SierraGrupo de Ingeniería Lingüística, Instituto de Ingeniería, UNAMTorre de Ingeniería, Circuito Interior, 04510 México D. F.correos electrónicos: [email protected], [email protected].

Se ha observado que cuando un autor define un término en un texto especializado,utiliza una serie de patrones léxicos que ayudan a resaltar visual y gramaticalmente la presencia del término que define. Uno de los elementos más comunes en estos patrones son los verbos que conectan al término con su definición y que aquí definiremos como predicaciones verbales. En este artículo se analizan estas predicaciones con el fin de

establecer reglas y restricciones que nos permitan desarrollar un sistema de recupera-ción automática de contextos definitorios.



R. Alarcón / G. Sierra130

1. Introducción

La terminografía es la práctica de elaborar diccionarios de términos especializados,esto es, unidades léxicas que pertenecen a un área específica de conocimiento. Esta práctica puede realizarse en tres etapas, las cuales corresponden a la identificación delos términos característicos del dominio en cuestión, al análisis conceptual de los tér-minos y al análisis del uso de los términos en su contexto. (Meyer, 2001)

Para llevar a cabo este trabajo se puede consultar a especialistas del área, directa-mente, o bien pueden consultarse textos correspondientes al dominio que se estudia. En estesentido, uno de los esfuerzos de la terminología computacional o terminiótica, radica endesarrollar herramientas que faciliten el análisis de textos con fines terminográficos.

En el Grupo de Ingeniería Lingüística, de la UNAM, se ha desarrollado una inves-tigación con el fin de elaborar una herramienta para la identificación automática de los

posibles conceptos de un texto especializado, esto es, los términos y sus definiciones.Esta investigación se basa en esfuerzos previos como la identificación sistemáticade definiciones a partir de patrones léxicos y metalingüísticos (Pearson, 1998), el aná-lisis de Operaciones Metalingüísticas Explícitas (Rodríguez, 1999) y el análisis deContextos ricos en conocimiento (Meyer, 2001).

Con estas investigaciones se ha podido determinar que en los textos especializadosse utiliza una variedad de patrones que permiten identificar la presencia de un posiblecontexto definitorio. En esta investigación, por contexto definitorio entenderemos todoaquel fragmento textual donde se aporta la información necesaria para definir a un término.

2. Objetivos

El objetivo principal de este artículo es presentar un análisis de las predicaciones verba-les encontradas en un corpus de documentos especializados en el área de ingeniería. Dichas predicaciones se encontraron al clasificar los distintos patrones léxicos en el corpus.

Ahora bien, el estudio y clasificación de las predicaciones verbales es el primer paso para desarrollar un sistema computacional basado en reglas y restricciones, que seacapaz de identificar los posibles contextos definitorios de un documento especializado.

Primero se expondrán los patrones recurrentes encontrados en dichos contextos.

En seguida se presentará una metodología para expandir el paradigma inicial de predicaciones verbales. Finalmente se presentará una evaluación de los verbos encon-trados en las predicaciones.

3. Patrones recurrentes en contextos definitorios

Las investigaciones previas de Meyer [2001] y Rodríguez [1999] nos permitieron deli-mitar qué elementos tendría que poseer como mínimo un fragmento textual para poder ser considerado como un contexto definitorio.



131El rol de las predicaciones verbales...

Se considera que la definición puede aportar información de varios tipos. Puede presentar la fórmula de una definición aristotélica: Definición = Género próximo + Diferencia específica, que en la fórmula de Meyer está dada como X = Y + caracterís-

ticas distintivas; puede aportar información que permita clasificar al término dentro deuna clase general, esto es, su hiperónimo o merónimo; o bien puede proporcionar infor-mación acerca de la función del término.

Por otro lado, en los contextos definitorios es común encontrar elementos estilísticosy sintácticos empleados por lo autores. Estos elementos sirven para resaltar los constituyen-tes de los contextos definitorios. Nosotros definimos que pueden ser marcas tipográficas o bien predicaciones pragmáticas o predicaciones verbales. En algunos casos, las marcastipográficas, al igual que las predicaciones verbales, funcionan como enlace entre eltérmino y la definición.

3.1. El corpus de análisis

Se utilizó un corpus de 25 textos especializados en las áreas de logística, transporte,sistemas expertos y estructuras bioclimáticas, pertenecientes a la ingeniería. Los textosfueron provistos por académicos y estudiantes del Instituto de Ingeniería de la UNAM, yse compone esencialmente por tesis, informes a patrocinadores y artículos en congresos.

En estos documentos, por su naturaleza, se incluye un apartado (introducción, presentación o bien un capítulo específico) que funciona como marco conceptual y en elcual se definen los conceptos esenciales para la comprensión del texto. Esta fue una delas características principales que se consideraron como criterios básicos de selección,ya que nos permitió tener una mayor seguridad de encontrar no sólo términos especiali-zados, sino también definiciones.

3.2. Metodología

Se determinó que los contextos definitorios pueden representarse mediante secuenciasdenominadas patrones. Estos patrones se clasificaron en cuatro formas distintas, quevan de simples a complejas: patrones tipográficos, patrones sintácticos, patrones mixtosy patrones compuestos.

Para representar cada secuencia se utilizaron los siguientes símbolos: T (término),D (definición), mt (marca tipográfica), PV (predicación verbal) y PP (predicación prag-mática). T y D son los elementos mínimos de un contexto definitorio y se unen medianteuna PV o una mt. A su vez, las mt pueden ser características de T y D. Para representar la unión de estos elementos en secuencias se utilizó el signo “+”, en tanto la combinaciónde dos elementos se representa contiguamente. En la siguiente tabla se muestra un ejemplo.




Tabla 1. Ejemplo de patrones

3.3. Patrones tipográficos

La tipografía de un texto sirve al lector como ayuda visual para identificar fácilmentealgún elemento importante y diferenciarlo del resto del texto común, por ejemplo los

términos y sus definiciones.En algunos casos se define un término sin la necesidad de emplear algún verbo quefuncione como conector. Sintácticamente, los verbos son sustituidos por signos de pun-tuación tales como dos puntos, punto y seguido o coma.

De esta forma, el primer grupo de patrones que se consideró es aquél donde seutiliza alguna marca tipográfica para resaltar la presencia del término y/o la definición,y donde se sustituye al verbo que une a los elementos constitutivos por algún signo de puntuación. A este grupo le denominamos patrones tipográficos y constituyen las formasmás simples encontradas, ya que se asemejan a un tipo de definición que se presenta en undiccionario.

Tabla 2. Ejemplos de patrones tipográficos

En los dos primeros contextos, el término aparece en negritas o en mayúsculas, y ladefinición en cursivas. En estos dos patrones se observa que el verbo es sustituido por dos puntos o punto y seguido. En el tercer ejemplo se presenta el término en comillas y ladefinición aparece después de un salto de párrafo, representado mediante el símbolo ¶.Para nuestra investigación, el salto de párrafo se consideró como un símbolo tipográficoimportante ya que nos permitió definir aquellas estructuras donde el término se presentaen un título o una viñeta, y la definición en el párrafo siguiente.

Patrón

T mt + mt + D mt

T mt + mt + D mt

T mt + mt + D

Contexto definitorio

Diseño: Desarrollo de configuraciones para la resolución de algún

problema en base y sujetándose a sus restricciones.

DESASTRE. Perturbación de la actividad normal que ocasiona pér-

didas o daños extensos o graves.

“Impactos agregados sociales” ¶ Los que impactan a la sociedad,

produciendo, por ejemplo, la perturbación de las relaciones familiares

PatrónT mt + PP + PV + D


La energía primaria, por definición, es aquel recurso ener-

gético que no ha sufrido transformación alguna, con excepciónde su extracción. En este caso se encuentran el petróleo crudo,

el gas asociado...




Patrón

PV + T + D

T + PP + PV

+ D

PP + T + PV

+ D


Se considera como protección civil a la actividad solidaria de los diversos secto-res que integran a la sociedad…

Un soporte logístico de plataforma, de manera general, se define como un

territorio equipado para el desarrollo de actividades logísticas…

De acuerdo con esta conceptualización, los daños probables se definen como el

riesgo que corre el SA por ser expuesto al…

3.4. Patrones sintácti cos

Analizamos los contextos que no presentan ninguna marca tipográfica pero que utilizanuna forma verbal o una forma pragmática para identificar que dicho fragmento corresponde a un contexto definitorio, y definimos a estas secuencias comopatrones sintácticos.

Se identificó que en estos patrones suelen combinarse las predicaciones pragmáticascon las predicaciones verbales, dando como resultado, hasta el momento, las siguien-tes posibilidades de combinación:

(PP/PV) + T/D + (PP/PV) + D/T + (PP)

Tabla 3. Ejemplos de patrones sintácticos

Podemos observar que cada contexto carece de marcas tipográficas para resaltar eltérmino o la definición; sin embargo, los elementos que resaltan el carácter definitorio de

estos fragmentos son de tipo sintáctico, esto es las predicaciones verbales se consideracomo y se define como, así como las predicaciones pragmáticas de manera general y deacuerdo con.

3.4.1. Predicaciones pragmáticas

Un contexto definitorio puede contener, además de la definición, otro tipo de informa-ción relevante para la comprensión del término, la que Rodríguez define como informaciónsemántico – pragmática.

Definimos que esta información pragmática, en general, nos permite distinguir que

el fragmento textual corresponde a un contexto definitorio. Esta información está enrelación con el uso y tratamiento del término, su introducción dentro del texto, y todaaquella información que nos proporciona una base para entender al término dentro del con-texto en el cual aparece. Consideramos a esta información como predicaciones pragmáticas.

El estudio profundo de estas predicaciones se tiene contemplado en la siguiente etapade la investigación, donde se expandirá y evaluará el paradigma correspondiente. Por elmomento, cabe señalar que dentro de estas predicaciones se encuentran frases adverbiales(de manera general ), frases prepositivas (en términos generales) y palabras simples (definición, concepto, término) que se identifican como palabras metalingüísticas.




Las predicaciones pragmáticas constituyen otro de los elementos que nos permitenreconocer la presencia de un contexto definitorio dentro del texto. Es de reconocer queestas formas pertenecen a un paradigma estructural amplio, ya que su composición

puede variar de acuerdo a formas estructurales o estilísticas utilizadas por cada autor.Tabla 4. Ejemplos de predicaciones pragmáticas

El término El nombre deDe manera general De acuerdo conDefinición El concepto deUn aspecto fundamental de En su acepción más amplia

3.4.2. Predicaciones verbales

Las predicaciones verbales sirven para unir directamente al término con su definición.Esta característica funcional es la que las distingue de los demás elementos sintácticosde los contextos definitorios.

Los verbos y formas verbales que se emplean en los contextos corresponden a loque se ha denominado como verbos metalingüísticos. Esta clasificación aplica común-mente para verbos como definir , describir , denominar , etc., verbos que por su naturalezase emplean para referirse al propio lenguaje.

Para nuestros fines, tomamos en cuenta la estructura de las predicaciones verbales yconsideramos que se clasifican en dos grupos: las formas simples y las formas compuestas.

La característica principal de las formas simples es que en ellas existe un sujetoque define o predica algo sobre un término, o bien el término funciona como sujeto grama-tical del contexto definitorio. Entre estas formas se encontraron las siguientes: entende-mos, ocurre, afirma que, etc.

En las formas compuestas suele emplearse el pronombre se para construir formas verbales que permiten, de manera impersonal, predicar algo sobre un término.Estas formas se representan, generalmente, mediante el pronombre se + verbo conjugado+ partícula, donde el orden puede ser aleatorio, y la partícula puede corresponder a una preposición, a una conjunción o a un adverbio. Las formas más comunes que se encontra-ron fueron: se define como, se concibe como, se refiere a, etc.

El paradigma verbal se expandió tomando en cuenta los criterios estructuralesseñalados, lo cual nos permitió determinar qué verbos y formas verbales ofrecen unamayor seguridad al momento de extraer automáticamente candidatos a contextos definitorios.La metodología y los resultados se presentan más adelante. La expansión del paradig-ma tomando en cuenta criterios semánticos se tiene contemplada dentro de la segundaetapa de la investigación.




Formas personales

Afirma queComprendeConsiste enConsta deConstituyeCorresponde aDefine aIncluyeOcurre

Formas impersonales

Se basa enSe concibe comoSe conoce (como/con)Se considera (como)Se define comoSe denomina (como)Se encarga deSe refiere aSe utiliza (para/en)

Patrón

T mt + PV + D

T mt + PV + D

PP + T + PV + D mt

PV + T mt + D


a. Canal de comercialización es el conjunto de actores y actividades queinteractúan para que un bien producido…

- Las actividades se definen como los elementos principales de una acción…

Según G. Malagón (1996, p.18) un hospital se define como: “una parte

integrante de la organización médica, cuya función es la de proporcionar

a la población…

Se entiende por paradigma una forma epistemológica que, como instrumento

cognoscitivo, permite diferenciar la…

Tabla 5. Ejemplos de predicaciones verbales

3.5. Patrones mixtos

Hasta ahora hemos explicado los dos elementos que caracterizan a un contexto definitorioy que son la tipografía y la sintaxis. Los dos grupos de patrones mencionados anterior-mente utilizan una de estas características por separado. Cuando estas característicasse mezclan en el contexto definitorio fueron denominados como patrones mixtos.

Estos patrones presentan una estructura más sólida, ya que utilizan elementos que permiten resaltar visual y gramaticalmente la presencia de un contexto definitorio.

Se observa que en los dos primeros ejemplos se utiliza una marca tipográfica enel término y además se emplean las predicaciones ser y se definen como para unir altérmino con la definición. El último ejemplo presenta al término en cursivas y se utilizala predicación verbal se entiende por . En el tercer ejemplo se utiliza una predica-ción pragmática, según + (autor) y una predicación verbal se define como; ladefinición presenta dos marcas tipográficas: comillas y negritas. Cabe mencionar que aquí se considera el autor como un elemento característico del contexto definitorio

Tabla 6. Ejemplos de patrones mixtos




3.6. Patrones compuestos

El último grupo de patrones que se consideró fue aquel donde en un mismo contextodefinitorio se definen dos o más términos. Se le nombró patrones compuestos.

Hasta el momento, se encontró que este grupo puede presentar dos formas distin-tas. En la primera, un contexto definitorio sirve para definir dos o más términos que por lo general se presentan en un orden que se señala mediante alguna predicación pragmá-tica. La segunda forma es aquella donde la definición de un término sirve como uncontexto definitorio para otro término y su correspondiente definición.

Estos patrones son las formas más complejas que se encontraron, ya que en suestructura se incluye un mayor número de referencias anafóricas. En total se presenta-ron 9 patrones mixtos distintos, en un total de 9 ocurrencias.

El primer ejemplo corresponde al primer grupo, donde en un mismo contexto

definitorio se definen los términos gestión correctiva y gestión planificada. A continua-ción de la presentación de estos términos, en el contexto se emplean dos formas pragmáticasequivalentes a una referencia anafórica y que sirven para reconocer el término al cuál serefiere la definición. Estas predicaciones corresponden, en el ejemplo citado, a lasformas la primera y la segunda.

Tabla 7. Ejemplos de patrones compuestos

En el segundo ejemplo podemos observar que se define el término calamidad , y dentrode su definición se emplea otro término, sistema afectable, que a su vez recurre a la predicación pragmática en este caso para introducir su propia definición.

4. Expansión del paradigma de predicaciones verbales

Hasta ahora, hemos presentado una tipología para agrupar los distintos patrones encon-trados en los textos de ingeniería. Dentro de estos patrones encontramos los sintácticos,aquellos que emplean una predicación verbal para unir al término con la definición.

Ahora bien, para determinar qué predicaciones verbales nos ofrecen una mayor seguridad al momento de buscar contextos definitorios, elaboramos una metodologíadonde el primer paso constituye la expansión del paradigma de dichas predicaciones.

T1 y T2 + PP + PV + D1 + PP+ PV + D2

PV + T1 + D1 + PP + T2 + D2

A su vez, en el proceso de gestión se distinguen dos modalidades polares y complementarias: la gestión correctiva y la planificada.La primera modalidad trata de mantener al objeto conducido en un

estado dado o de optimizar su operación, (…) La segunda, secaracteriza por preestablecer un estado futuro deseado del objetoconducido, como objetivo…

Se considera calamidad todo acontecimiento que pueda impactar elsistema afectable, en este caso la central y sus alrededores, inclu-yendo la mina Carbón II...




1 Para mayor referencia véase la página del CREA: http://corpus.rae.es/creanet.html

Esta expansión se realizó tomando en cuenta que los verbos encontrados suelen unirsecon determinadas partículas (preposiciones, artículos y adverbios), y nos permitió determi-nar cuáles de ellas se unen con ciertos verbos en contextos definitorios, y cuáles se unen

con los mismos verbos en otro tipo de fragmentos textuales.

4.1. El Corpus de Referencia del Español Actual

En esta etapa se utilizó el Corpus de Referencia del Español Actual (CREA), de la RealAcademia Española. Este corpus se seleccionó debido al criterio de representatividadde sus textos 1.

4.2. Metodología

Analizamos en el CREA las 33 predicaciones verbales encontradas. Como ejemplos, eneste artículo presentamos la expansión y evaluación de 10 verbos: denominar , definir , enten-der , conocer , referir , comprender , consistir , permitir , representar e incluir .

La búsqueda se realizó mediante los siguientes operadores y criterios restrictivosque permite el CREA:

· Operadores

- Dist/ núm . Donde núm equivale al número máximo de distancia en palabras que puede haber entre cada elemento de la búsqueda. De esta forma, si la búsqueda esdescribedist/3determina; la palabradescribe debe aparecer a una distancia no mayor detres de la palabra determina.

- Comodín (*) Se utiliza para buscar cualquier número de caracteres unidos a una palabra flexionada. De esta forma, la búsqueda de la forma describ* dará comoresultado palabras como describir, describe, describen, describiría, describi-mos, etc.

- Y , O , Y NO . Estos operadores permiten buscar conjuntos de palabras, así como buscar una palabra sin que en el fragmento recuperado aparezca otra especifi-

cada. Por ejemplo: definir Y describir deberá recuperar ambas palabras; definir O describir deberá recuperar cualquiera de las dos palabras; definir Y NOdescribir deberá recuperar únicamente definir .




· Criterios restrictivos

– Medio: Libros y revistas

– Geográfico: México

– Tema 1: Ciencias y tecnologías

En todos los resultados de las consultas se analizaron los primeros 25 casos recuperados por el CREA. Esto se realizó tomando en cuenta los criterios de representatividad delcorpus. Cuando los resultados obtenidos fueron notablemente inferiores a 25 casos,los criterios restrictivos se ampliaron a:

– Geográfico: México y España

– Tema 1.- Ciencias y tecnologías

– Tema 2.- Ciencias sociales

Cuando el resultado era mayor a 300 casos se aplicó un filtro que permite disminuir elnúmero de ejemplos de cada documento, conservando la representatividad de los resul-tados. Esto es, el filtro 1/10 recuperó uno de cada 10 ejemplos de un mismo texto. Se utilizó la casilla Mantener documentos, la cual funciona para conservar al menos unejemplo de cada texto donde se encontró la búsqueda, y se utilizó la casilla Agrupacio-nes, por medio de la cual se pueden encontrar las partículas adyacentes a la forma que

se busca.En resumen, en el CREA se buscó cada predicación verbal para determinar qué partículas se agrupan con los verbos en los contextos definitorios. Enseguida se analizó por separado cada agrupación y se determinó cuántos fragmentos recuperados correspondían acontextos definitorios.

4.3. Resul tado

A continuación se presenta una tabla con ejemplos de las búsquedas y los resultadosobtenidos. La casilla FORMA corresponde a la predicación verbal buscada. La casilla

CD’s corresponde al número de contextos definitorios encontrados sobre el total defragmentos textuales recuperados.

Las formas impersonales se buscaron utilizando el operador Dist/3. Esta distancia seconsideró ya que la estructura recurrente de las formas impersonales es: pronombre se +verbo conjugado + partícula; sin embargo, entre el pronombre se y el verbo conjugado pueden aparecer otros pronombres o verbos auxiliares.

Podemos observar que las predicaciones verbales que recuperaron un mayor númerode contextos definitorios fueron se denomina, se define, y se entiende. Las formas querecuperaron un menor número de contextos definitorios fueron representa e incluye.




FORMAse dist/3 denomin*

se dist/3 (defin* Y NO definitiv*)se dist/3 (entiend* O entend*)se dist/3 conoc*se dist/3 refier*comprende*consist* Y NO (consistente* O consis-tencia*)

permit*represent* Y NO representant*Inclu*

CD’s23/25

20/2510/256/254/253/253/25

2/251/251/25

Tabla 8. Ejemplos de búsquedas realizadas en el CREA

Una vez que se obtuvo estos resultados se realizó una búsqueda de las agrupacionesencontradas para cada predicación verbal. De igual forma se determinó cuántos contex-tos definitorios se encontraron sobre el total de fragmentos recuperados.

En la siguiente tabla se presentan los resultados de las agrupaciones encontradas.

Tabla 9. Ejemplos de agrupaciones encontradas

FORMAse le denominase denomina + artindef.

se denomina + art def.se define comose define por se puede definir se define + art def.se le definese debe definir se ha logrado definirlosse entiende + art def.se entiende comose entiende por se entiende cuandose conoce comose le* conocese conoce* conse refiere* ase refiere* + art def.comprende + artcomprende desdeconsiste enConsiste básicamente enPermiterepresenta aincluye a

CD’s15/150/1

0/08/82/22/21/21/10/10/16/72/31/11/1

24/2520/205/96/250/282/41/1

19/255/6

16/253/54/15




Podemos observar que en el caso del verbo denominar no se encontró ningún contextodefinitorio cuando al verbo le sigue algún artículo indefinido o definido. Lo mismoocurrió en el caso del verbo referir . Las formas se debe definir y se ha logrado definirlos

tampoco dieron como resultado algún contexto definitorio.Por otro lado, las formas se le denomina, se define como, se entiende + art def. y se conoce como, recuperaron un número alto de contextos definitorios.

Así, se pudo delimitar qué formas no ofrecen la seguridad de presentarse en uncontexto definitorio, y qué formas son comunes para conectar a un término con su definición.

En resumen, con este análisis pudimos expandir el número de partículas que suelenunirse con ciertos verbos en los contextos definitorios, y pudimos eliminar aquellasformas que nos ofrecen otro tipo de fragmentos textuales.

5. Evaluación del paradigma de predicaciones verbales

Una vez que analizamos cada predicación verbal y determinamos qué formas son recu-rrentes en los contextos definitorios, evaluamos las predicaciones en un nuevo corpus dedocumentos especializados.

Con esta evaluación identificamos sistemáticamente qué predicaciones verbalesnos ofrecen una mayor grado de confiabilidad al momento de buscar contextos definitorios.

5.1. El corpus de evaluación

El corpus de evaluación consistió en 10 documentos en formato electrónico igualmente

provistos por investigadores y estudiantes del Instituto de Ingeniería. En este corpus se en-cuentran tesis, informes a patrocinadores y artículos en congresos.

5.2. Metodología

Para llevar a cabo esta evaluación se buscaron manualmente los contextos definitoriosque presentaron alguna predicación verbal, de forma que se excluyeron aquellos contex-tos donde sólo se utilizaban marcas tipográficas.

Por otro lado, y tomando en cuenta los resultados de la búsqueda en el CREA, se

desarrolló un “macro” en el programa Word. Esta función nos permitió buscar automáticamente las formas verbales expandidas en el CREA y recuperar párrafosdonde se presentara alguna de estas predicaciones.

Así, pudimos obtener tres cifras que corresponden al número de contextos definitoriosencontrados manualmente, al número de fragmentos textuales encontrados automáticamentedonde se presenta alguna predicación verbal, y de estos fragmentos, el número decontextos definitorios encontrados.




De esta forma, se evaluaron las predicaciones utilizando unas medidas comunes para determinar la efectividad de un sistema de recuperación de información. Estasmedidas se denominan Recall & Precision. En nuestra investigación pueden entender-

se de la siguiente forma:· Recall corresponde al número de PV relevantes recuperadas automáticamente,

sobre el número de PV relevantes encontradas manualmente.· Precision corresponde al número de PV relevantes encontradas automáticamente

sobre el número total de PV encontradas automáticamente.

PV corresponde a predicaciones verbales, y relevante quiere decir que el fragmento recupe-rado dio como resultado un contexto definitorio. Estas dos medidas nos dan como resultadovalores entre 0 y 1. Un valor más cercano a 1 indica que se ha obtenido un mejor

resultado.

5.3. Resul tados

A continuación se presenta una tabla con los resultados obtenidos en la evaluación de las predicaciones verbales.

Tabla 10. Resultados de precisión & recall

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Precision

R e c a l l

Formas simplesFormas compuestas- - - - - - - - -




Podemos observar en la gráfica que se describen dos curvas correspondientes a lasformas simples y compuestas. Estas últimas obtuvieron mejores resultados al acercarseal máximo valor de Recall, a pesar de que su Precision disminuyó considerablemente,

dependiendo del verbo empleado en el contexto definitorio.En general puede observarse que nuestra metodología nos permitió recuperar ungran número de contextos definitorios presentes en el corpus estudiado; sin embargo, seobtuvo una gran cantidad de “ruido”, esto es, algunos verbos obtuvieron un buen resultado tantode Recall como de Precision: denominar , conocer , entender y permitir , mientras que en otroscasos, como referir e incluir , se encontró un valor alto de recall, aunque el valor de precisionfue sumamente bajo. En estos últimos dos casos se recuperó automáticamente un númerogrande de los contextos definitorios encontrados manualmente; sin embargo, la mitad (0.54)o más de la mitad (0.32) de los párrafos recuperados automáticamente no son con-textos definitorios.

Cabe señalar que hasta ahora se han buscado de manera aislada las distintas predicaciones que se encontraron y expandieron en el corpus de análisis y en el CREA.Si tomamos en cuenta que además de las predicaciones verbales existen otro tipo deelementos característicos en los contextos definitorios y se elabora un sistema que per-mita buscar una combinación de estos elementos, podremos entonces depurar los resul-tados. Con lo cual se tendrá una mayor seguridad de que los fragmentos textuales que serecuperen sean contextos definitorios.

6. Conclusiones y trabajo futuro

A través de esta investigación hemos determinado una parte esencial de las reglas yrestricciones necesarias en la elaboración de un sistema de extracción conceptual.Las reglas corresponden a las secuencias que conforman los contextos definitorios,mientras que las restricciones corresponden a la estructura de las predicaciones verba-les que deben tomarse en cuenta (es decir, las combinaciones válidas de verbos más partículas).

Si bien hemos definido parte de las reglas y restricciones, aún se necesitancubrir algunos puntos esenciales para el desarrollo del sistema. Estos puntos corresponden a un análisis más profundo de los siguientes elementos constitutivos:

· Predicaciones verbales. A pesar de que en esta investigación se expandió y evaluó el paradigma de las predicaciones verbales, es necesario contar con un número mayor deverbos que se empleen a un nivel definitorio. Es indudable que tratar de encontrar todos los verbos que pueden funcionar como conectores entre un término y una defini-ción es una tarea sumamente costosa, en cuanto a tiempo y esfuerzo humano se refiere.Sin embargo, para simplificar esta tarea se propone que la búsqueda de verbos definitoriosse base en secuencias recurrentes; por ejemplo fórmulas como: T + verbo + partículagramatical + D; T + se + partícula gramatical + verbo + D.




· Predicaciones pragmáticas. De la misma forma en que estudiamos el paradigmaverbal, el paradigma de las predicaciones pragmáticas también deberá expandirse yevaluarse. Para ello, deberá realizarse un estudio profundo de las estructuras recurren-

tes de estas formas, con el fin de tratar de delimitar patrones sintácticos de formación.· Términos. Se deberá realizar un análisis de estudios donde se determinen las estruc-turas sintácticas recurrentes de los términos. Si bien hemos encontrado algunasestructuras recurrentes como SN + SP, aún es necesario considerar un mayor númerode patrones de formación que siguen estos elementos constitutivos.

· Definiciones. Al igual que en el caso de los términos, es necesario realizar unasíntesis de estudios donde se muestren las estructuras sintácticas comunes en lasdefiniciones. Asimismo, se debe tratar de delimitar lo más específicamente posibletodos los tipos de definiciones que pueden existir. Esto último está en relación con la probabilidad de extraer automáticamente las relaciones conceptuales presentes en un

contexto definitorio.

Cabe mencionar que nuestra investigación también comprende otras áreas de estu-dio del procesamiento del lenguaje natural, las cuales no impactan directamente sobreel desarrollo de nuestro sistema, pero resultan útiles para poder simplificar algunos problemas específicos. Tal es el caso de las relaciones anafóricas que se presentan enlos patrones compuestos. Al respecto, Meyer menciona que un problema recurrente en laidentificación automática de contextos ricos en conocimiento es que en los textos reales lostérminos no se repiten una y otra vez. En su lugar se utilizan pronombres, términos genéri-cos o variantes de los términos.

Esto nos lleva a considerar que si bien no necesitamos realizar estudios profundos sobrerelaciones anafóricas, sí es indispensable estar al tanto de los avances en esta área deinvestigación, ya que en algún momento servirán para mejorar nuestra metodología.

Finalmente, debe tomarse en cuenta que para desarrollar un sistema de extracciónconceptual se necesita un corpus que permita buscar no sólo unidades léxicas, sinotambién marcas tipográficas. En este sentido, el Grupo de Ingeniería Lingüística seencuentra desarrollando un Corpus de Ingeniería, donde se utilizarán etiquetas XML para representar las distintas marcas tipográficas encontradas en los contextos definitorios,tales como notas al pie de página, encabezado, autor, siglas, etc., lo cual nos permitirádesarrollar un sistema de búsqueda integral.




Referencias

DAVIDSON, L. (1997) Knowledge extraction technology for terminology. M.A. Thesis, OT:U NIVERSIDAD DE Ottawa: Universidad de Ottawa.

MEYER, I. (2001) “Extracting Knowledge-rich contexts for terminography”. En Recent advancesin computational terminology, Didier Bourigault (ed.). Amsterdam: John Benjamin’s, 279-302.

PEARSON, J. (1998) Terms in context . Amsterdam: John Benjamin’s.RODRÍGUEZ, C. (1999) Operaciones metalingüísticas explícitas en textos de especialidad.

Treball de Recerca. Instituto Universitario de Lingüística Aplicada, Barcelona: UniversidadPompeu Fabra.

RODRÍGUEZ, C. (2000) “Extraction of knowledge about terms from indications of metalinguisticactivity in texts”. En Conference on intelligent text processing and computational linguistics.

Proceedings, Alexander Gelbuhk (ed.). México: Instituto Politécnico Nacional.RODRÍGUEZ, C. (2002) “Automatic extraction of non-standard lexical data for a metalinguistic

information database”. En Lecture Notes in Computer Science, Alexander Gelbukh (ed.).Berlin: Springer.

AgradecimientosAgradecemos al CONACyT (R37712-A) y a la DGAPA-UNAM (IN402900) por su apoyo para eldesarrollo de este proyecto.




Tratamiento automático de textos en español

Luis Villaseñor, Aurelio López, Manuel Montes

Laboratorio de Tecnologías del Lenguaje, INAOE

Claudia VázquezFacultad de Filosofía y Letras, BUAP

Palabras claves: tecnologías del lenguaje, tratamiento del lenguaje natural, extracción de información,búsqueda de información, español de México.

Luis Villaseñor, Aurelio López y Manuel Montes.Laboratorio de Tecnologías del Lenguaje del Instituto Nacional de Astrofísica, Óptica y Electrónica.Luis Enrique Erro No. 1, Sta. María Tonantzintla, Puebla, Méxicocorreos electrónicos: [email protected], [email protected] y [email protected].

Claudia VázquezFacultad de Filosofía y Letras de la Benemérita Universidad Autónoma de Puebla4 sur, No. 104, Centro,Puebla, Méxicocorreo electrónico: [email protected].

Fecha de recepción del manuscrito: marzo del 2003

The overwhelming presence of computers in our daily life has changed our way of working and communicating among us. This, along with the emergence of Internet -that enormousnet that ties together all the world- has given birth to the so-called society of information.This society is based on the capacity of communication and distribution of information that offers that worldwide net. Of course, the central element of this communication is thehuman language and basically the available resources are, in their great majority, texts,that is, documents in a written form. The present work describes the efforts that our group carries out in the field of the automatic processing of written documents. For thisaim, we introduce the situation of the Spanish language in the world of Internet; we place

our work in relation to other language technologies; and finally we describe the processesinvolved in this automatic processing.



Villaseñor / López / Montes / Vázquez146

La avasallante presencia de las computadoras en nuestra vida diaria ha cambiado nues-tra forma de trabajar y de comunicarnos. Aunada a la aparición de Internet –esa enormered que enlaza a todo el mundo– ha nacido la llamada sociedad de la información. Esta sociedad está cimentada en la capacidad de comunicación y distribución de informaciónque nos brinda esa red mundial. Por supuesto, el elemento central de esta comunicación esel lenguaje humano y básicamente los recursos disponibles son, en su gran mayoría,textos, es decir, documentos en forma escrita. El presente trabajo describe los esfuerzosque nuestro grupo realiza en el campo del tratamiento automático de documentos escri-tos. Para ello, presentamos la situación del idioma español en el mundo de Internet;ubicamos nuestro trabajo con relación a otras tecnologías del lenguaje; y finalmentedescribimos los procesos en que consiste este tratamiento automático.



147Tratamiento automático de textos en español

1. Antecedentes

En nuestros días, debido a los desarrollos en medios de comunicación y de almacena-miento, existe más información disponible de la que somos capaces de leer, ya nodigamos de analizar con suficiente detalle para darle un uso específico. Tras la apari-ción de Internet y de otros soportes electrónicos, millones de personas alrededor delmundo comparten diariamente grandes volúmenes de información. Lo anterior nos llevaa una situación en la cual dicho volumen de información crece día a día, lo que nos impidetener una idea global sobre la información relacionada con algún problema. Lo cotidianoes que debamos hacer juicios o tomar decisiones con la información parcial y fragmen-tada con la que contamos.

Aún cuando diversos tipos de información están disponibles en la actualidad, uno deellos sigue predominando, el lenguaje escrito. Es decir, el lenguaje escrito continúa siendo

un elemento clave en la llamada sociedad de la información.

Figura 1. Los lenguajes usados en Internet al 2001 (Martín 2000)

Las ciencias y las tecnologías que nos han permitido tener como nunca tanta informacióndisponible, no han resuelto por completo los problemas asociados a la selección, búsqueday análisis de la misma. En particular, las bases de datos, una de las áreas de investigaciónen computación en que más se ha trabajado y que tiene que ver con el manejo de “informa-ción” estructurada, no resuelve los problemas. Lo anterior debido a que, por un lado seencargan de manejar, como su nombre lo indica, datos, es decir no administran informa-ción. Por otro lado, como se ha observado, la información se encuentra principalmenteexpresada como lenguaje escrito (texto), con todas las complejidades que esto implica para su manejo y acceso.




1.1. El idioma español en la sociedad de la inf ormación

El idioma español es hablado por aproximadamente 400 millones de personas, incluyendotodas sus variedades fonéticas. Sin embargo, la influencia hoy en día de nuestro idioma enla sociedad de la información es mínima, como puede observarse en la figura 1. Estasituación se estima que irá gradualmente cambiando. La figura 2 nos muestra una pro-yección al 2005 de la penetración que tendrán las principales lenguas en Internet (Mar-cos 2000).

Figura 2. Evolución del número de usuarios de Internet (en millones)

Desgraciadamente la ciencia y, más concretamente, la tecnología asociada al tratamientodel idioma español no se ha desarrollado con el ímpetu necesario. Nos encontramos con unenorme rezago tecnológico que sólo podrá resolverse a través de la participación decidi-da del mundo hispanohablante. Defender una mayor presencia de contenidos propios enespañol no tiene por qué ser un reclamo de tipo nacionalista. En realidad se trata de unacuestión de supervivencia económica y cultural absolutamente legítima que afecta a todoslos países hispanohablantes. Si queremos crecer en las redes y sacar partido de una comu-nidad de 400 millones de personas, no sólo es importante incrementar los contenidos enespañol, también es indispensable crear herramientas propias capaces de tratar la infor-mación expresada en nuestro idioma. Es por ello indispensable el desarrollo de una infra-estructura tecnológica para el tratamiento y la interpretación automática de lainformación que se exprese en lenguaje español.

Cabe hacer mención de la responsabilidad de México en la búsqueda de soluciones aesta problemática. México es el país hispano hablante más poblado con cerca de 100 millonesde habitantes sin contar la enorme presencia de los emigrantes mexicanos en E. U. A., unacomunidad de más de 20 millones de personas.

Idioma

Español Japonés Alemán F rancés Chino

Por tugués Otros I nglés

Total no i ngleses

Total

2000

21392217311125

192.9211

391

2001 E

28483022601581225278

503

2005 E

85105583825040132320820

1140

Población

Total3321259872885170

-5005780

6085

Penetración

en 200526%84%59%53%28%24%

-64%15%

18%




El desarrollo de las tecnologías del lenguaje permitirá acceder, gestionar, inter-cambiar y analizar la información contenida en documentos digitales (textos, videos,grabaciones) escritos o hablados en español. Este desarrollo es un proyecto

interdisciplinario que deberá integrar el trabajo, experiencia y conocimiento de loslingüistas mexicanos con el trabajo, experiencia y conocimiento de especialistas enciencias de la computación.

2. Las tecnologías del lenguaje

Las tecnologías del lenguaje son el conjunto de conocimientos y medios involucrados enel tratamiento automático del medio de transmisión de información más complejo denuestro planeta: el lenguaje humano (Cole et al. 1996). El lenguaje humano existe tantoen forma oral como escrita. Mientras que la forma oral es el modo de comunicación más

antiguo y natural, la forma escrita es usada para conservar y transmitir el conocimientohumano. Las tecnologías del lenguaje, de habla y texto, procesan o producen expresionesen estos dos tipos de formas del lenguaje. A pesar de esta división, el lenguaje tieneaspectos que son compartidos entre el habla y el texto tal como los diccionarios, lagramática, significado de las oraciones, etc. Por otro lado una gran parte de las tecnologíasdel lenguaje no pueden reducirse únicamente a las tecnologías del habla o del texto. Entreesas tecnologías encontramos las que ligan el lenguaje al conocimiento. Nosotros nosabemos cómo el lenguaje, el conocimiento y el pensamiento están representados en elcerebro humano; sin embargo, las tecnologías del lenguaje proponen sistemas formalesde representación que ligan el lenguaje a conceptos y tareas del mundo real. Además, ellenguaje humano incluye otros modos de comunicación. Por ejemplo, el habla se combi-na con ademanes indicativos y expresiones faciales; los textos digitales presentan combinaciones con imágenes y sonidos; una película además de la imagen puede contener lenguaje en forma oral o escrita, etc. De esta manera, las tecnologías del lenguajeincluyen muchas otras tecnologías que facilitan el procesamiento de la comunicaciónmultimodal y de los documentos multimedia.

A continuación se describen brevemente algunas áreas de aplicación de dichossistemas. Posteriormente se explican varias de las principales tecnologías del lenguajeque hacen posibles dichas aplicaciones.

2.1. Aplicaciones de las tecnol ogías del lenguaje

El propósito de las tecnologías del lenguaje es crear productos de software con algúngrado de conocimiento del lenguaje humano, que permitan mejorar la interacción hom- bre-máquina. El desarrollo de dichos productos se basa en los siguientes planteamientos:

Las tecnologías amigables deben de escuchar y hablar. Uno de los objetivos de lastecnologías del lenguaje es la creación de modos de interacción más cercanos a la comu-nicación humana. Si un sistema automático es capaz de conversar con un ser humano




para solucionar una tarea, la herramienta se convertirá en asistente en la resolucióndel problema. Por supuesto, una conversación está restringida a un dominio específico pero nada impide tener numerosos asistentes, tantos como tareas existan. Ejemplos de

este tipo de tareas son: la consulta de bases de datos (p. e. obtener información sobre lacartelera cinematográfica, el saldo de mi cuenta en el banco, etc.) o, el control de mecanis-mos (p. e. el control de una videocasetera o de una caldera).

Las máquinas deben facilitar la comunicación entre personas. Las tecnologíasdel lenguaje también ayudan a las personas a comunicarse entre sí independientemente desus lenguas maternas. En este caso, el problema central, y que precisamente es uno de losobjetivos iniciales de las tecnologías del lenguaje, es la traducción automática entre dife-rentes lenguajes. Actualmente sólo se tienen resultados modestos, pero que a pesar deello ya son un gran soporte para los traductores humanos. La aplicación de las tecnolo-gías de lenguaje relacionadas con la traducción automática tendrá un gran impacto

social y económico. Por ejemplo, es bien sabido que el principal cuello de botella delcomercio electrónico es la comunicación entre clientes y vendedores.

El lenguaje es la fábrica de la Web. El rápido crecimiento de Internet, acompañadodel surgimiento de la sociedad de la información, estableció nuevos retos a las tecnolo-gías del lenguaje. Básicamente, se requiere de software que permita navegar, filtrar y procesar el contenido de documentos web. Las tecnologías del lenguaje destinadas aestas tareas son y serán de gran importancia porque sólo a través de ellas, la informacióndigital disponible en línea puede ser transformada en conocimiento colectivo. El conte-nido multilingüe de la web constituye un reto adicional para las tecnologías de lenguaje.Sólo los sistemas multilingües para la administración de información podrán traspasar las barreras del lenguaje para el comercio electrónico, educación y cooperación internacional.

2.2. Princi pales tecnologías del lenguaj e

Los siguientes párrafos exponen brevemente el problema al que enfrentan las principa-les tecnologías del lenguaje.

Reconocimiento del habla. El lenguaje hablado (señal acústica) es reconocido ytransformado a una representación escrita (texto).

Síntesis de voz. Se trata de la operación inversa del reconocimiento del habla. Las

expresiones en lenguaje hablado son producidas a partir de texto (en sistemas texto avoz), o a partir de las representaciones internas de las oraciones.Clasificación de textos. El objetivo es determinar automáticamente la clase o

categoría temática de un texto. Esto se realiza a partir de un análisis léxico del texto,y del uso de conjuntos de textos de entrenamiento manualmente clasificados.

Generación automática de resúmenes. Aquí el objetivo es seleccionar las porcionesmás significativas de cada texto, y con ellas construir un resumen. La generación deresúmenes se complica cuando tiene que realizarse con base en una petición específica.




Búsqueda de información textual. En la también llamada recuperación de información,el problema a resolver es obtener los textos de una colección inicial que mejor casancon la petición dada por una persona con una necesidad de información y solo esos. Los

documentos candidatos (recuperados) se ordenan basándose en su relevancia estimada. Extracción de información. Las piezas de información predeterminadas en un textoson descubiertas y marcadas para su extracción. Estas piezas extraídas pueden ser: lasfechas, nombres de lugares o personas, o relaciones tanto simples como complejas,como por ejemplo, precios de artículos o participantes en un accidente.

Sistemas de diálogo. En este caso el sistema puede sostener un diálogo con elusuario humano, en el cual, el usuario solicita información o realiza una compra, unareservación u otro tipo de transacción.

Traducción automática. Tecnologías que traducen textos o asisten a traductoreshumanos. Típicamente estas tecnologías usan grandes cantidades de textos, en conjunto

con sus traducciones manuales de tal forma que sea factible hacer una adecuada traducciónde palabras, frases y oraciones.

El carácter multidisciplinario en la búsqueda de soluciones en estas áreas es inhe-rente. Para cada una de estas áreas es necesario contar con una gran cantidad de recur-sos y métodos elaborados en diferentes disciplinas. Éstos van desde métodoscomputacionales como: algoritmos diseñados específicamente para el análisis sintáctico; pasando por técnicas estadísticas, especialmente útiles en el reconocimiento del habla yla recuperación de información; hasta conocimientos lingüísticos indispensables para eltratamiento de los fenómenos del lenguaje.

3. Buscando información en textos en español

El trabajo realizado hasta ahora en nuestro laboratorio está principalmente relacionado altratamiento de la información textual, en particular Búsqueda (BI) y Extracción de Información(EI). El objetivo es lograr que una persona con ayuda de una computadora pueda obtener reportes, no únicamente de textos previamente estructurados o de bases de datos expresa-mente diseñadas, sino de documentos escritos libremente en español. Para ello, es necesariodar a la computadora los elementos necesarios: (i) que le permitan identificar los documentosque discuten el tema en cuestión, y (ii) para identificar y obtener la información de interés de

dichos documentos, con la creación resultante de una base de datos con la información extraída.En el área de tratamiento de información en forma escrita ha habido desarrollos impor-tantes para hacer filtrado, extracción, organización, búsqueda y análisis de la información. No obstante, estos avances han sido hechos principalmente para el inglés. Para el caso deinformación expresada en español existe un rezago importante. Las técnicas y herramientasexistentes para otros idiomas no son inmediatamente aplicables a nuestro idioma. Este panorama nos enfrenta con la urgente necesidad de contribuir en la investigación y desarrollode métodos y procedimientos para la gestión de documentos escritos en español.




Para ejemplificar lo anterior, presentamos un caso en particular: la búsqueda de infor-mación sobre desastres en nuestro país. Normalmente esta información es reportada através de los diarios y hoy en día, gracias a Internet, podemos acceder a dichos reportes

desde nuestra computadora personal. Sin embargo, hojear cada periódico para encontrar información específica demandaría de un esfuerzo enorme. Aún en el caso de buscar infor-mación sencilla y concreta, por ejemplo, cuándo y dónde tocó las costas mexicanas elhuracán Isidore, requeriría el revisar varias notas periodísticas de varios días.

El laboratorio de Tecnologías del Lenguaje del INAOE trabaja actualmente en un proyecto que aborda esta problemática. La principal motivación para esto es que, comoes sabido, nuestro país es especialmente vulnerable a incidentes que causan daños mate-riales y humanos. De ahí que propongamos alcanzar como un producto adicional de losesfuerzos de investigación, un almacén o repositorio de información de desastres quehan ocurrido en el siglo XXI, desde su inicio hasta el período de vigencia del proyecto.

Lo anterior junto con un sistema prototipo que ponga en práctica los logros del proyecto para estudios de prospección y prevención. La definición de los datos importantes aextraer de cada siniestro corresponde a los establecidos por la Red de Estudios Socialesen Prevención de Desastres en América Latina (www.desinventar.org). Por ejemplo,fecha y lugar de ocurrencia, duración y magnitud, y efectos tales como el número demuertos y damnificados, y el número de viviendas destruidas y dañadas, etc.

El primer paso involucra localizar y obtener notas como la siguiente de los perió-dicos accesibles a través de Internet:

“El huracán Isidore perdió fuerza y fue clasificado como tormenta tropi-

cal, y dejó en la península de Yucatán 300 mil personas damnificadas y eldeceso de una persona por imprudencia, pues pretendió hacer composturaseléctricas a la intemperie y se electrocutó, dio a conocer Carmen Segura,coordinadora general de Protección Civil de la Secretaría de Gobernación.“Indicó que el gobierno federal dispuso para los estados perjudicados una primera partida de 30 millones de pesos del Fondo Nacional de Desastres, yse enviaron a territorio yucateco tres contenedores con productos para aten-der la emergencia por vía terrestre, debido a las dificultades para hacerlo por aire.“A su paso por Yucatán, el meteoro dejó damnificadas a 65 mil personas,

de las cuales 80 se refugiaron en 240 albergues, según reportes prelimina-res que ofreció el gobierno de esa entidad, mismo que atribuyó a Isidoretres fallecimientos.“Detalló que por el huracán se perdió en 60 por ciento la capacidad deofrecer servicios de electricidad, agua potable y telefonía en Mérida, don-de la tercera parte de las calles se inundaron.”

A partir de esta nota se extraen datos específicos que describen el desastre (véase latabla 1). Gracias a este tipo de fichas descriptivas se irá conformando una base de datosde desastres.




La búsqueda es la manera en que cualquier persona, por más casual que sea,confronta el caos que percibe al aproximarse a un sistema con millones de elementos deinformación y trata de entenderlos. Este es precisamente el caso que afrontamos cada vez

que nos sentamos frente a nuestra computadora personal e intentamos buscar en la Web.Por supuesto, en la actualidad los sistemas automáticos de búsqueda facilitan enormementeesta tarea (Brewer 2001). Las respuestas de estos sistemas de búsqueda son sólo aproxima-ciones al documento que buscamos, pero el nivel de aproximación es asombroso si partimosdel hecho que los sistemas de búsqueda “no entienden” los documentos, únicamente se basanen la presencia y frecuencia de los elementos léxicos por nosotros buscados.

En el contexto de nuestro interés, no es inmediato especificar “desastres” paraobtener notas relevantes dado que muy pocas de las noticias detallando huracanes, erup-ciones, derrames químicos o inundaciones, hacen mención de que se trata de un desastre.Entonces, tendríamos que aproximar la máquina de búsqueda con una lista de palabras

del tipo de desastres de interés como la listada anteriormente.Aun suponiendo que únicamente estamos interesados en un sólo tipo de desastres,

nos tenemos que enfrentar a una de las desventajas de las técnicas prevalecientes basadasen palabras clave o términos. Por ejemplo, al utilizar únicamente la palabra “huracán” enun buscador de Internet actual, seguramente obtendremos una enorme variedad derespuestas, éstas incluirán los documentos que discurren sobre la perturbación atmos-férica, al igual que documentos que informan sobre un equipo de fútbol o publicitan unatelenovela. Depender exclusivamente de palabras aisladas en la búsqueda de informaciónsiempre nos enfrentará al problema de la ambigüedad. Sin embargo, si se ofrece un contextomás amplio de los términos que se dan para búsqueda, por ejemplo “daños causados por huracán” o “club de fútbol Huracán”, se eliminaría esta ambigüedad.

El uso de un contexto para hacer la búsqueda de información (Finkelsteinet al. 2002)es una área que pretendemos investigar, principalmente en la información no estructurada.En esta dirección debe proponerse también una forma de integrar este uso con consultastradicionales en bases de datos.

3.2. La extracción de información

El objetivo principal de la Extracción de Información (EI) es el procesamiento de textos

escritos libremente con el fin de encontrar información útil con respecto a un dominio deinterés predeterminado. La información extraída es entonces transformada a una repre-sentación fuertemente estructurada. En contraste con la búsqueda de información, la EIdebe recorrer cada texto encontrando secciones relevantes para obtener la información útil(Grishman 1997). Esto implica que un sistema de este tipo debe conocer los mecanismosque estructuran el lenguaje escrito. Por supuesto, es imposible pensar en un sistemacapaz de “comprender” cualquier tipo de texto. Por el momento, dos fuertes restriccio-nes son aplicadas en este tipo de sistemas: (i) el dominio de interés está predeterminado deantemano, es decir, sólo extraeremos cierto tipo de información de textos previamente selec-




cionados; y (ii) el análisis sintáctico del texto se hace de manera parcial, enfocando nuestrosesfuerzos en “patrones sintácticos” que sean los más probables a responder a nuestras nece-sidades de información.

Figura 3. Arquitectura general de un sistema de Extracción de Información

La figura 1 muestra la arquitectura clásica de un sistema de EI (Cardie 1997). Los párrafos subsecuentes describen brevemente los elementos centrales de esta arquitectura.

1) Etiquetado en partes de la oración. Durante esta fase se fragmenta el texto en

unidades elementales —normalmente al nivel de palabras— y se asocia a cada uni-dad una etiqueta que describe su morfología y/o función gramatical en el texto.

2) Análisis sintáctico parcial . Esta etapa tiene por objetivo la identificación de frasesnominales, frases verbales, frases preposicionales y otras estructuras sintácticas simples. Durante o posteriormente a este análisis se identifican entidades cuya funciónsemántica es relevante al tema de interés. La diferencia principal entre este aná-lisis parcial y un análisis sintáctico clásico radica en que no se desea construir unárbol sintáctico completo de cada frase del texto. El análisis sintáctico parcial sóloanaliza fragmentos de texto que pueden ser reconocidos con un alto nivel de confianza.

3) Extracción sobre la base de patrones. Durante esta etapa el sistema identifica, a partir de un catálogo de patrones lingüísticos del tema en cuestión, los elementos relevantes.Estos elementos son extraídos y depositados en una plantilla descriptiva del evento.

4) Resolución de la correferencia. La correferencia es un fenómeno muy común en eltexto escrito. Para determinar la mayor cantidad de elementos descriptivos de unevento dependemos de resolver las relaciones correctas entre las diferentes frasesque refieren a éste. Fenómenos como la anáfora deben resolverse en este paso.

Plantillas

Etiquetado departes de la

oración

El meteoro dejó

damnificadas a 65 mil

personas, de las cuales

80 se refugiaron en 240albergues, según

reportes preliminares

que ofreció el gobierno

de esa entidad, mismo

el_ARTDMSmeteoro_NCMS/2

dejo_VLIS1P/2damnificadas_VLIS3P/3

a_CC/2 65_CARDXP

mil_ARTDNS/2

personas_NCFP

Análisissintáctico

parcial

El meteoro: frase nominal/sujeto

dejó:

frase verbal

damnificadas a 65 mil personas: frase nominal/objeto

Frase:

Información extraída

El meteoro:evento: (natural)

damnificadas a 65 mil personas :

damnificados: 65 000

Generaciónde plantillas

El huracán Isidore perdiófuerza y fue clasificado...

El meteoro dejódamnificados...

Resolución

de lacorreferencia

Extracción

en base apatrones




Aunque parezca sorprendente, la EI ya ha alcanzado niveles que la convierten enuna tecnología viable para aplicaciones reales. Es cierto que aún falta mucho por reco-rrer para alcanzar niveles semejantes a analistas especializados en tareas de extracción

de información. Pero, también es cierto, que la tarea de extracción de información parael ser humano común es una actividad difícil.Por mencionar algunos ejemplos de la EI en el mundo real tenemos: i) el resumen

de expedientes médicos extrayendo diagnósticos, síntomas, terapias, etc. (Soderland et al. 1995); ii) el análisis de transcripciones de cables informativos de radio y televisión para encontrar y resumir actividades terroristas (MUC-4 1992; MUC-3 1991); iii) laclasificación automática de documentos legales (Holowczak & Adam 1997). Por otrolado, un número creciente de aplicaciones para Internet usan la tecnología de EI. Algu-nos ejemplos incluyen: i) la creación de bases de datos sobre propuestas de empleo a partir de foros de discusión, portales electrónicos y anuncios clasificados; ii) la creación de

bases de datos sobre información meteorológica a partir de páginas Web (Soderland 1997).Como es de imaginar, los sistemas antes mencionados son para el tratamiento de

textos en inglés. Los esfuerzos encaminados al tratamiento del español son pocos (Cardeñosaet al. 2000, Subirats & Ortega 2002).

4. Trabajo reciente en el laboratorio de tecnologías del lenguaje

A continuación presentamos detalles del trabajo realizado hasta ahora, en las áreas de búsqueda y extracción de información, dentro del contexto del proyecto “Recolección,Extracción, Búsqueda y Análisis de Información a partir de Textos en español” llevadoa cabo en el laboratorio de Tecnologías del Lenguaje.

4.1. Recolección de información

El objetivo de esta primera etapa del proyecto es la construcción automática de unvolumen de noticias sobre desastres naturales en México. Así pues, en ella nos enfoca-remos básicamente en localizar y obtener notas que describan tanto el fenómeno naturalcomo los daños ocasionados por éste. Un ejemplo de este tipo de notas es mostrada en párrafos anteriores (véase la sección 3).

Para llevar a cabo esta tarea son necesarios los siguientes dos puntos:· Un sistema de navegación automática, capaz de monitorear sitios Web de periódicos en línea, para la recolección de notas periodísticas, y· Un clasificador de texto que seleccione de entre toda la colección acumulada, las notas relevantes con información sobre algún tipo de desastre natural.

Para efectos de esta presentación enfocaremos nuestra atención sobre el segundo punto:el clasificador de textos.




4.1.1. La clasificación de textos

En los párrafos subsecuentes explicaremos uno de los experimentos realizados para deter-minar los criterios más adecuados para seleccionar notas relevantes al tema de desastresnaturales. Cabe mencionar que por el momento, únicamente trabajaremos tres desas-tres naturales: huracán, inundación y sequía. Dado que esta operación de clasificacióndeberá ser realizada por una computadora, deseamos encontrar criterios de selección senci-llos basados en la información léxica de las notas y tratar de evitar el arduo trabajo deanalizar un texto para “comprender” su significado. Para lograr esto, fue necesariorecopilar una colección para “entrenar” nuestro clasificador. El entrenamiento consisteen determinar automáticamente los elementos léxicos que mejor discriminan un textorelevante de uno irrelevante. Este conjunto de entrenamiento fue recolectado manualmentey se utilizó el periódico Reforma (www.reforma.com) como fuente de información inicial.

De este sitio se recopilaron noticias relacionadas (tanto relevantes como irrelevantes) conlos fenómenos naturales de huracán, inundación y sequía, correspondientes a los últimosdos años. Las noticias relevantes incluyen información del fenómeno natural, mientras quelas catalogadas como irrelevantes contienen palabras o frases usadas comúnmente en ladescripción de un fenómeno natural pero que se usan en contextos muy diferentes. Por ejemplo, la palabra huracán en el contexto de “el presidente está en el ojo del huracán”.

El experimento descrito a continuación se basa en un conjunto de entrenamientoformado por 375 documentos, de los cuales el 11.5 % son noticias relevantes y el 88.5 %restante son irrelevantes. Básicamente, este experimento considera varias estrategiasde extracción de características léxicas de los documentos, en particular, las estrate-

gias de reducción de dimensionalidad conocidas como umbral en la frecuencia y ganan-cia en la información. Igualmente se consideraron dos métodos de clasificación: elmétodo simple de Bayes y el de vecinos más cercanos.

4.1.2. Extracción de características

El primer paso en la búsqueda de criterios léxicos de clasificación es la caracterizaciónde cada documento a partir de las palabras que encontramos en él. Por supuesto, no todaslas palabras son elementos discriminantes, así el primer paso es la determinación de un

conjunto de palabras o características léxicas pertinentes. Los pasos que se siguieron paradeterminar el conjunto de características más adecuado fueron: (i) pre-procesamiento,eliminando todas las marcas o vocablos irrelevantes, (ii) indexado de los documentos denuestro corpus de entrenamiento, para determinar el número y frecuencia de los elementosléxicos, y (iii) reducción del conjunto de características a un número adecuado para mejo-rar los tiempos de cómputo, pero sin perder precisión en la capacidad de selección.

Pre-procesamiento. El propósito de esta etapa es reducir el tamaño de los documentos elimi-nando las partes de los textos que dan poca información sobre su contenido, es decir, que carecende significado temático. El proceso realizado a cada uno de los documentos fue el siguiente:




· Eliminación de etiquetas HTML – debido a que las notas son recuperadas de portales Web, es necesario eliminar las etiquetas incrustadas en el documento que indican a un navegador como mostrarlo en pantalla. Por supuesto, estas etiquetas no proporcinan

información útil en nuestra tarea de clasificación.· Eliminación de símbolos de puntuación.· Eliminación de palabras vacías. Estas son sobre todo aquellas partículas como prepo siciones o artículos.· Reducción de palabras a su raíz. Por ejemplo “desconocer”, “desconocerlos” y “des- conocía” tienen la raíz léxica “desconoc”.

La reducción en tamaño de cada documento fue en promedio aproximadamente del 52 %de su tamaño original.

Indexado. El proceso de indexado está basado en el modelo vectorial con pesado booleano.Durante este proceso se encontraron 310,498 instancias léxicas en el conjunto de entre-namiento, con un vocabulario de 29,710 palabras. Además la frecuencia de ocurrenciade los términos en el vocabulario varía entre 1 y 977.

Reducción de dimensionalidad. Desde el punto de vista computacional manejar un vocabulario de 29,710 palabras provocará problemas en los tiempos de respuesta. Basándonosen la idea intuitiva de que no todas estas palabras son necesarias para una correcta clasifica-ción, aplicamos dos métodos para reducir este conjunto de características: basándonos enla frecuencia del término, y en la ganancia en la información (IG) (Sebastiani 1999). La

elección de estos métodos se debe a que han revelado encontrarse entre los más efectivos(Yang y Pedersen 1997).

En los experimentos realizados se eliminaron los términos cuya frecuencia fue menor a diez ocurrencias, dando como resultado una reducción en el vocabulario, dejando sólo2550 términos, y posteriormente se eliminaron los términos cuya IG fue cero. Es decir,sólo se tomaron los términos que dan información útil para la predicción de clases. Elresultado fue un vocabulario de sólo 214 términos para el espacio de características, loque refleja que solo el 0.7% del vocabulario es útil para la predicción de las clases. Lostérminos del vocabulario con mayor ganancia en la información fueron: meteorología(0.1327), tropical (0.1215), sequía (0.1105), viento (0.0974) y agua (0.0942).

4.1.3. Métodos de clasificación

Con base en los resultados reportados en la bibliografía reciente (Sebastiani 1999), seseleccionaron los métodos tradicionales de vecinos más cercanos y clasificador simplede Bayes. Ambos algoritmos han mostrado ser de los mejores en la tarea de clasifica-ción de textos. El clasificador de vecinos más cercanos es un método basado en ejemplos o instancias, donde no se construye ninguna descripción de las categorías, más bien se utilizan directamente los ejemplos del conjunto de entrenamiento ya suminis-




trados para determinar la clasificación de ejemplos no vistos. Es decir, para decidir siun nuevo ejemplo pertenece a determinada categoría, se verifica si un cierto número deejemplos ya dados y muy cercanos al nuevo ejemplo (vecinos), también pertenecen a la

misma clase. El clasificador simple de Bayes es un método de tipo probabilístico queaplica, como su nombre lo indica, el teorema de Bayes con una suposición de independen-cia entre las coordenadas del vector representando los documentos. De esta forma, elobjetivo de la clasificación es la estimación de los parámetros de una distribución de probabilidad que describa el conjunto de entrenamiento.

4.1.4. Resultados

Los resultados que se presentan en las siguientes tablas consideran los métodos de vecinosmás cercanos y clasificador simple de Bayes. Asimismo analizan el efecto de aplicar

reducción de dimensionalidad con las técnicas de umbral en la frecuencia y ganancia enla información al conjunto de características.

Para comparar y evaluar la efectividad de los clasificadores se usaron varios mé-todos. El primer método fue la validación cruzada con 10 subconjuntos (10 Fold CrossValidation) (Mitchell 1997; Witten y Frank 2000). En la tabla 2 se presentan los porcen-tajes de aciertos y fallos de cada clasificador usando validación cruzada.

Tabla 2. Evaluación a través de la validación cruzada

Simple de

Bayes

97.06 %

2.93 %

Umbral en la frecuencia

Frec > 10

Umbral en la frecuencia

Frec > 10 y

Ganancia en la información

IG > 0

Vecinos más

cercanos

(K=1)

90.93 %

9.06 %

Simple de

Bayes

93.3 %

6.6 %

Vecinos más

cercanos

(K=1)

92.8 %

7.2 %

Instancias clasificadas

correctamente

Instancias clasificadas

incorrectamente




Como puede observarse en la tabla 2 los criterios para reducir la dimensionalidadresultaron adecuados; sin importar qué clasificador usemos los resultados fueron mejoresal usar los dos criterios conjuntamente. También puede observarse en la tabla 2 que el

clasificador basado en el método simple de Bayes es el que mejor resultados obtuvo ennuestro contexto, con una tasa de clasificación muy alentadora del 97 %.La tabla 3 presenta la matriz de confusión de los resultados obtenidos para el mejor

caso (clasificador simple de Bayes usando umbral en la frecuencia y ganancia en la infor-mación para reducción de la dimensionalidad). En esta matriz, la diagonal principal refleja las instancias clasificadas correctamente, y los valores fuera de la diagonal representanlos documentos mal clasificados indicando a qué categoría erróneamente fueron asociados.Al observar estos datos, es interesante notar que el clasificador no confunde documentosrelevantes entre ellos, es decir, no clasifica una nota sobre huracán en inundación. De estamanera podemos afirmar que no sólo la tasa de clasificación es muy alentadora, sino además,

la calidad en la clasificación de los textos es notable pues los errores sólo se cometieron alconsiderar un documento relevante en la categoría no relevante.

Tabla 3. Matriz de confusión

Otro método de evaluación de un clasificador de textos es usando las medidas de precisióny “recuerdo” (Lewis 1991). Ambas medidas son tradicionalmente usadas en la recupera-ción de información. La precisión expresa en que medida el clasificador toma una deci-

sión correcta al ubicar cualquier documento en la clase que le corresponde. El “recuerdo”refleja cuántos de todos los documentos de una clase son clasificados en ella. Las tablas4 y 5 muestran los resultados obtenidos con ambos clasificadores.

Podemos observar que el algoritmo simple de Bayes es mejor clasificando correc-tamente los documentos de cualquiera de las clases, cuando se toma en cuenta la ganan-cia de información. Asimismo, muestra un mejor “recuerdo” que los demás, es decir nos garantiza mejor la clasificación de los documentos de cualquiera de las clases.

Huracán

Inundación

Sequía

No relevante

Huracán

15

0

0

1

Inundación

0

5

0

0

Sequía

0

0

14

1

No

relevante

3

2

4

330




Tabla 4. Evaluación de vecinos más cercanos

Tabla 5. Evaluación de simple de Bayes

4.2. Extracción de in formación

A diferencia de la clasificación de textos, en la EI es necesario hacer un análisis lingüís-

tico más profundo de los documentos. Como se vio en la sección 3.1., es necesario hacer un análisis sintáctico parcial , así como un análisis para resolución de la correferencia. Nuestro enfoque difiere del tradicional al agregar una etapa inicial al esquema clásico dela EI. Básicamente esta nueva etapa consiste en la búsqueda de patrones léxicos.

Como se mencionó en la sección anterior, el análisis léxico es el más sencillodesde el punto de vista automático. Es por ello de gran interés la definición de mecanis-mos que exploten al máximo la información léxica dejando los menos puntos a resolver através de los otros dos análisis subsecuentes. Los párrafos siguientes describen este nuevomecanismo propuesto para el máximo aprovechamiento de la información léxica en la EI.

Umbral en la

frecuenciaFrec > 10

Ganancia en la

informaciónIG > 0

Precisión0.88910.667

0.912

“Recuerdo”

0.4440.1430.111

0.994

Precisión0.84610.6

0.939

“Recuerdo”

0.611 0.714 0.333

0.982

ClaseHuracán

InundaciónSequía No

relevante

Umbral en lafrecuenciaFrec > 10

Ganancia en lainformación

IG > 0

Precisión100.9330.932

“

Recuerdo

”

0.278 0 0.778 0.997

Precisión0.93810.9330.973

“

Recuerdo

”

0.8330.7140.7780.994

ClaseHuracánInundación

Sequía No relevante




4.2.1. Un método de EI basado en técnicas de clasificación de textos

Se espera que éste método extraiga la mayor cantidad de información interesante de cadaevento desastroso (fecha, lugar, duración, magnitud, número de muertos, etc.), usando

únicamente información léxica. La idea de base de este método es la búsqueda automá-tica de patrones léxicos que envuelven los datos que se desean extraer. Para encontrar estos patrones también serán usados clasificadores de texto. En este caso, en lugar detener documentos relevantes y no relevantes, tendremos frases o segmentos de frasesrelevantes dado el dato que se desea extraer.

Para lograr esto debemos contar con un conjunto de entrenamiento, es decir, frases osegmentos de frases identificados como relevantes o irrelevante. El proceso de construcciónde tal conjunto de entrenamiento consiste en identificar y anotar todos los datos deseados deun conjunto de documentos relevantes. Por supuesto, la anotación de estos textos debe reali-zarse de forma manual con criterios bien definidos. Un ejemplo de un texto anotado semuestra a continuación:

El huracán <N> Isidore </N> dejó en la península de <L> Yucatán</L> <D> 300 mil </D> personas damnificadas y el deceso de <M>una </M> pe rsona.

Cada una de la etiquetas encierra alguno de los datos deseados e indica la categoría a la que pertenece. Por ejemplo, en este caso tenemos la etiqueta <N> para indicar el nombre delfenómeno, <L> para el lugar, <D> para la cantidad de damnificados, y <M> parala cantidad de personas fallecidas.

A partir de este conjunto de entrenamiento etiquetado, el clasificador obtendrá todoslos posibles patrones léxicos para cada una de las categorías. La figura 2 ilustra estemétodo. Una vez obtenidos los criterios de selección estaremos en posibilidad deextraer la información deseada en nuevos documentos. Para ello primero se identifican,mediante la aplicación de expresiones regulares, los datos candidatos a ser extraídos (fe-chas, cantidades, nombres propios), y después el clasificador seleccionará los datos apropiados para finalmente almacenarlos en el campo correspondiente de la base de datos desalida.

Cabe resaltar que este método es de gran valía pues al ser automático encuentra de

manera exhaustiva todos y cada uno de los patrones posibles. Por otro lado, el métodotiene como gran inconveniente la necesidad de corpus anotados. Es claro que paraenfrentar el problema de la extracción de información de manera integral son necesa-rios mecanismos para resolver fenómenos comunes en el lenguaje escrito, como por ejemplo, la anáfora. Por supuesto este método no pretende resolver este tipo de proble-mas. Sin embargo, para contextos sencillos con un lenguaje limitado o especializado, él podrá extraer el máximo de información de una manera relativamente sencilla.




Figura 4. Diagrama de EI basado en clasificadores de texto

5. El reto del tratamiento automático del lenguaje

Como puede observarse, la solución de la búsqueda y la extracción de información debeapoyarse en desarrollos tanto de la lingüística como de las ciencias computacionales.De hecho, la lingüística computacional es una disciplina que enlaza estos mundos yexplora posibles soluciones al “entendimiento” del lenguaje por una computadora.

Tradicionalmente esta búsqueda ha explorado dos caminos. El primero utilizando teo-rías que intentan explicar cómo el ser humano comprende y usa el lenguaje; y el segundo

concentrando sus esfuerzos —dada la complejidad del problema— en la identificación de patrones repetitivos presentes en el lenguaje sin aspirar a encontrar una explicación de suuso. Desde el punto de vista de la creación de sistemas automáticos, el primer camino esdemasiado ambicioso siendo casi imposible desde el punto de vista computacional. Elsegundo camino reduce el lenguaje únicamente a la ocurrencia de secuencias de palabras. Esta propuesta puede implementarse fácilmente en un sistema computacional perocon resultados insuficientes. Actualmente, la línea divisoria entre ambos caminos esmenos clara, dado que cada vez se proponen más mecanismos que mezclan y balanceanestos dos enfoques.

N: El huracán X dejó en...

L: península de X 300 mil...

Etapa 1: Entrenamiento

El huracán <N> Isidore </N>

dejó en la península de <L>

Yucatán</L> <D>300 mil<D>

personas damnificadas y el

deceso de <M>una</M>

persona

N-gramas

CT

El huracán Isidore dejó en la

península de Yucatán 300 mil

personas damnificadas y el

deceso de una persona

Etapa 2: Prueba

S1: El huracán X dejó en

S2: península de X 300 mil

S1 = NS2 = L

Nombre: Isidore

Lugar: Yucatán

CT

Análisis de

Expresiones

Regulares




Por ejemplo, en el caso de la extracción de información, durante el etiquetado en partesde la oración, un proceso estadístico decide sobre qué etiqueta asignar a cada palabra.Por supuesto, para ello fue necesario “entrenar” al etiquetador , es decir, alimentarlo con

el mayor número de ejemplos posibles de cada una de las palabras del vocabulariodeseado para calcular sus contextos de ocurrencia. Los ejemplos de muestra deben ser etiquetados por ojos expertos que determinan la etiqueta que mejor describe la funciónde la palabra en ese contexto. En el primer caso, tenemos un proceso que a partir de unatabla de probabilidades designa la etiqueta, no obstante, el cálculo de esas probabilidadesse hizo a partir de recursos analizados desde un punto de vista lingüístico.

Esta historia se repite en otras ramas de las tecnologías del lenguaje. La construc-ción de un sistema automático empieza por un estudio lingüístico de un fenómeno en particular del lenguaje sobre un conjunto de textos escogidos. En cada ocasión que dichofenómeno se presenta se etiqueta. Enseguida, aplicamos un proceso en la búsqueda de

propiedades recurrentes que describan dicho fenómeno. A partir de estos patrones estamosen posibilidad de tratar el lenguaje de manera automática.

Hasta el momento, como se ha demostrado para otros lenguajes, es posible tratar de esta manera fenómenos sencillos del lenguaje, y es muy probable que los límites deesta técnica sean rápidamente alcanzados. Sin embargo, aun para este tratamiento “sen-cillo” queda mucho por hacer para el español.

6. Conclusiones

Hasta ahora esta breve exposición de la problemática que aborda el tratamiento dellenguaje escrito, es sólo un somero panorama de las enormes posibilidades y el gran retoa enfrentar en el tratamiento automático del lenguaje. Es clara la gran importancia y elenorme compromiso que tenemos para defender nuestro lenguaje y nuestra cultura enlos medios electrónicos.

Es claro que las soluciones propuestas a este problema recaen en nuestro conocimientode cómo el ser humano produce y comprende el lenguaje. Nuestro trabajo no pretenderesolver esta gran pregunta, pero al proponer modelos que emulen mecanismos propios dellenguaje humano nos ayudará a descubrir y describir formalmente sus propiedades ocultas.A largo plazo, nuestra meta es la creación de poderosas aplicaciones con capacidades

lingüísticas, ello favorecerá, por supuesto, el entendimiento del lenguaje humano.Por otro lado, a pesar de que los resultados hasta ahora alcanzados están lejos de presentar la habilidad humana para el manejo del lenguaje, ellos son muy alentadores.Existen sistemas que demuestran su enorme utilidad, por ejemplo, los sistemas de dictadoo los buscadores de información en la Web capaces de manipular enormes cantidades dedocumentos.

En resumen, esta tarea no es nada fácil y no podrá ser resuelta con algunos esfuer-zos aislados. En este campo interdisciplinario es necesario trabajar conjuntamente,lingüistas e informáticos, compartiendo nuestras experiencias y conocimientos. Es por




eso de gran importancia unir nuestros esfuerzos tanto en la construcción de recursoslingüísticos, necesarios para ambas disciplinas, así como, de herramientas que sirvan,tanto para validar teorías lingüísticas que afronten problemas propios del español de

México, como para la construcción de sistemas de uso práctico.

Referencias

BREWER E.A. (2001) “When everything is searchable”, Communications of the ACM , March2001, Vol. 44, No. 3: 53-55.

CARDEÑOSA, J., IRAOLA, L. & TOVAR, E. (2000) “Author extraction: a test experiencefor flexible information. Flexible query systems, recent advances”. Proceedings de la 4ª conferencia internacional sobre sistemas de consultas flexibles, FQAS’2000, Physica-Verlag, 2000: 255—266.

CARDIE C. (1997) “Empirical methods in information extraction”, AI Magazine, Winter 1997: 65-79.

COLE, R. A., MARIANI, J., USZKOREIT, H., ZAENEN, A. & ZUE, V. (1996) Surveyof the state of the art in human language technology . 1996. http://cslu.cse.ogi.edu/HLTsurvey/

FINKELSTEIN L., GABRILOVICH E., MATIAS Y., RIVLIN E., SOLAN Z., WOLFMANG. & RUPPIN E. (2002) “Placing search in context: the concept revisited”, ACM TOIS ,January 2002, Vol. 20 No. 1: 116-131.

GRISHMAN R. (1997) Information extraction. Techniques and challenges. Rome: Springer-Verlag, Lecture Notes in Artificial Intelligence.

HOLOWCZAK, R. & ADAM, N. (1997) “Information extraction-based multiple-categorydocument classification for the global legal information network”. In Proceedings of theninth conference on innovative applications of artificial intelligence, Menlo Park, CA.AAAI: 1013-1018.

LEWIS, D. (1991) “Evaluating text categorization”. Proceedings of the speech and natural language workshop, Asilomar, CA, Feb. 1991.

MARCOS MARÍN, F. A. (2000) “La lengua española en Internet”. En El español en el mundo. Anuario 2000 del Instituto Cervantes. http://cvc.cervantes.es/obref/anuario/anua-rio_00/

MARTÍN MAYORGA, D. (2000) “El español en la sociedad de la información”. En El español en el mundo. Anuario 2000 del Instituto Cervantes. http://cvc.cervantes.es/obref/anuario/anuario_00/

MITCHELL, TOM M. (1997) Machine learning . McGraw-Hill.Muc-3 (1991) Proceedings of the third message-understanding conference (MUC-3). San Fran-

cisco, CA: Morgan Kaufmann.Muc-4 (1992) Proceedings of the fourth message-understanding conference (MUC-4). San

Francisco, CA: Morgan Kaufmann.




SEBASTIÁN, F. (1999) Machine learning in automated text categorization: a survey. TechnicalReport IEI-B4-31-1999. Istituto di Elaborazione dell’Informazione.

SODERLAND, S., ARONOW, D., FISHER, D., ASELTINE, J. & LEHNERT, W. (1995)

Machine learning of text-analysis rules for clinical records. Technical report, TE39,Boston, Mass: Department of Computer Science, University of Massachusetts.SODERLAND, S. (1997) “Learning to extract text-based information from World Wide Web”.

In Proceedings of the third international conference on knowledge discovery and datamining , 251-254. Menlo Park, CA: AAAI Press.

SUBIRATS, C, & ORTEGA, M. (2002). “EXTRACCIÓN AUTOMÁTICA DE INFOR-MACIÓN DE GRANDES CORPUS”. En J. de Kock y C. Gómez (eds). La lingüísticade corpus: aplicaciones. Salamanca: Ediciones Universidad de Salamanca.

WITTEN, Ian H. And FRANK, E. (2000) data mining: practical machine learning tools and techniques with Java implementations. Sydney: Morgan Kaufmann. 2000.

YANG, Y. And PEDERSEN, J. P. (1997) “Feature selection in statistical learning of textcategorization”. 14th International Conference on Machine Learning.

linguistic a 38

Documents