curso de traducción automática de lenguas naturales
TRANSCRIPT
![Page 1: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/1.jpg)
César Antonio Aguilar
Facultad de Lenguas y Letras
04/09/2015
Curso de traducción automática
de lenguas naturales
![Page 2: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/2.jpg)
Síntesis de la clase pasada (1)
En la clase pasada, vimos de manera general cómo se relaciona el cálculo de probabilidades con la traducción automática. En concreto, el uso de probabilidades nos ayuda a diseñar tanto un modelo del lenguaje como un modelo de traducción:
![Page 3: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/3.jpg)
Ahora bien, para aprovechar al máximo la aplicación de métodos estadísticos, nos conviene usar colecciones de datos lingüísticos que nos digan algo sobre el comportamiento de una lengua. A estas colecciones de datos las llamamos corpus lingüísticos:
Síntesis de la clase pasada (2)
Al respecto, en esta clase tratemos de definir qué es un corpus lingüístico,
considerando sus métodos de anotación, así como algunos ejemplos en
ínea.
![Page 4: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/4.jpg)
Para la lingüística contemporánea, el diseño y uso de corpus
lingüísticos se ha convertido en una cuestión importante. Joaquim
Llisterri, un fonetista catalán, ofrece el siguiente argumento:
“La función central de los
corpus lingüísticos (o CLs) es
establecer la relación entre la
teoría y los datos, lo que
permite hacer hipótesis
pertinentes respecto al
funcionamiento de una lengua
natural”.
Corpus lingüísticos (1)
http://liceu.uab.es/~joaquim/home.html
![Page 5: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/5.jpg)
A grandes rasgos, un
corpus lingüístico podemos
definirlo como una
recopilación de un conjunto
de materiales escritos y/o
hablados, la cual nos sirve
para hacer análisis
lingüísticos. Los corpus
son representativos y se
organizan bajo criterios
específicos.
Regularmente se
encuentran en soporte
informático, pues su
contenido llega a ser
extenso (p. e., millones de
palabras).
Corpus lingüísticos (2)
![Page 6: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/6.jpg)
Entrando en detalles, un
corpus se concibe como un
modelo que representa una
realidad lingüística, por lo
que ofrece una base
empírica que muestra el
funcionamiento de una
lengua natural.
En un plano estadístico
debe ser neutral, esto es,
proporcional respecto a las
muestras que se tomen.
Por ello, es un instrumento
reutilizable para distintos
tipos de análisis.
Corpus lingüísticos (2)
![Page 7: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/7.jpg)
Corpus lingüísticos (3)
Algunos criterios para clasificar distintos tipos de corpus:
![Page 8: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/8.jpg)
Corpus lingüísticos (4)
¿Qué cosa no es un corpus?:
![Page 9: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/9.jpg)
Corpus lingüísticos (5)
¿Cómo se construye un corpus?:
![Page 10: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/10.jpg)
Corpus lingüísticos (6)
![Page 11: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/11.jpg)
Anotación textual (1)
![Page 12: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/12.jpg)
Anotación textual (2)
![Page 13: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/13.jpg)
Anotación textual (3)
![Page 14: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/14.jpg)
Anotación textual (4)
![Page 15: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/15.jpg)
Head/Body (1)
La cabeza (o Head), es un conjunto de descriptores que resumen la
información contenida en una página WEB:
![Page 16: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/16.jpg)
Head/Body (2)
En cambio, el Body ya es la estructuración de los contenidos de tal página:
![Page 17: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/17.jpg)
Ordenar/clasificar (1)
![Page 18: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/18.jpg)
Ordenar/clasificar (2)
![Page 19: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/19.jpg)
Ordenar/clasificar (3)
![Page 20: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/20.jpg)
Ordenar/clasificar (4)
![Page 21: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/21.jpg)
Ordenar/clasificar (5)
![Page 22: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/22.jpg)
Ordenar/clasificar (6)
![Page 23: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/23.jpg)
Ordenar/clasificar (7)
![Page 24: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/24.jpg)
Ordenar/clasificar (8)
![Page 25: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/25.jpg)
Ordenar/clasificar (9)
![Page 26: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/26.jpg)
Sistemas de etiquetado XML
![Page 27: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/27.jpg)
Etiquetado morfo-sintáctico (1)
![Page 28: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/28.jpg)
Etiquetado morfo-sintáctico (2)
![Page 29: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/29.jpg)
Funciones de los corpus con anotado POST (1)
![Page 30: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/30.jpg)
Funciones de los corpus con anotado POST (2)
![Page 31: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/31.jpg)
En resumen, podemos decir que un corpus lingüístico es una herramienta útil
para desarrollar modelos de lenguas naturales específicas. Y si contamos
con corpus pertenecientes a distintas lenguas, podemos entonces delinear
un modelo de traducción:
http://corpora.linguistik.uni-erlangen.de/demos/CQP/cqpdemo.html
El proyecto Open Corpus
Workbench (CWB) es
interesante en este sentido
porque nos permite contrastar
corpus pertenecientes a varios
idiomas. Un ejemplo de esto
es un corpus generado a partir
de documentos pertenecientes
a la Unión Europea.
Funciones de los corpus con anotado POST (3)
![Page 32: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/32.jpg)
Intentemos con estos ejemplos:
Veamos qué podemos hacer con el CWB. Probemos primero con el
corpus dedicado a la obra de Charles Dickens. Para ello, necesitamos
aprender algunos criterios de consulta, p. e., el uso de expresiones
regulares para delimitar nuestros patrones de búsqueda.
Funciones de los corpus con anotado POST (4)
![Page 33: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/33.jpg)
¿Qué podemos obtener usando estos patrones? Veamos el primer caso,
gentleman, identificando con qué palabras se combinan, las cuales
están marcadas con anotado morfosintáctico:
Funciones de los corpus con anotado POST (5)
![Page 34: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/34.jpg)
¿Cómo es la distribución de esta palabra a lo largo de este corpus?
Veamos:
Funciones de los corpus con anotado POST (5)
![Page 35: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/35.jpg)
Pregunta: ¿qué se les ocurre que podríamos hacer con estos
datos?
Funciones de los corpus con anotado POST (6)
Finalmente, ¿cuál es la frecuencia de uso de gentleman en este
corpus? La respuesta es:
![Page 36: Curso de traducción automática de lenguas naturales](https://reader036.vdocuments.pub/reader036/viewer/2022070104/62bc576fb54dab52ba3f16ec/html5/thumbnails/36.jpg)
Blog del curso:
http://cesaraguilar.weebly.com/curso-de-
procesamiento-del-lenguaje-natural.html
Gracias por su atención