lenguaje natural

90
INTELIGENCIA INTELIGENCIA ARTIFICIAL ARTIFICIAL LENGUAJE NATURAL LENGUAJE NATURAL Profesora: Evelia Daniel

Upload: jr04020402

Post on 29-Oct-2015

30 views

Category:

Documents


0 download

TRANSCRIPT

INTELIGENCIA ARTIFICIALINTELIGENCIA ARTIFICIAL

LENGUAJE NATURALLENGUAJE NATURAL

Profesora: Evelia Daniel

ObjetivosObjetivos

Comprender  qué  es  el  procesamiento  del lenguaje  natural (PLN)  y  su  aplicación  a  las necesidades  de  la  sociedad

 actual.

Asimilar  los  fundamentos  teóricos  del procesamientoautomático  de  las  lenguas(la  ambigüedad).

Conocer  los  módulos  que  componen  cualquier aplicación  del  PLN:  análisis  léxico,  sintáctico,  semántico  ypragmático.

Conocer  y  analizar  las  aplicaciones  del  PLN  más importantes  en  la  actualidad.

Resumen HistóricoResumen HistóricoSe suele considerar el Estructuralismo

(Saussure,1916) como el primer intento serio de introducir la Lingüística como disciplina con un contenido científíco. El Estructuralismo, por otra parte, trascendía de lo puramente lingüístico para incorporar contenidos filosóficos y antropológicos.

Resumen HistóricoResumen Histórico

Primeros tiempos (1950-65)– Traducción automática => ALPAC– Gramática transformativa (Chomsky)– Recuperación de información

Ampliación de perspectivas (1960-70)– Sistemas de respuesta a preguntas (BASEBALL)– Resolución de problemas (STUDENT)– Consulta (ELIZA)

Resumen HistóricoResumen Histórico

Desarrollo de formalismos (1965-70)– Augmented Transition Network, ATN (1960)– Gramática de casos (1975)– Dependencia conceptual (1972)– Semántica procedimental (1968)– Red semántica (1968)

Hitos de los 70– SHRDLU (1972)– LUNAR (1972)

Resumen HistóricoResumen Histórico

Expansión de dominios de aplicación (1970-85)

– Interfaces a BDs (LADDER/LIFER, 1977)– Aprendizaje asistido por computadora (SCHOLAR,

1970)– Automatización de oficinas (SCHED, 1978)– Programación automática (NLPQ, 1976)– Procesamiento de textos científicos

Resumen HistóricoResumen Histórico

Tendencias actuales (1985-)– Implementaciones independientes del dominio

– Resurgimiento de la traducción automática

• METEO (1977)

– Comercialización del PLN ROBOT/INTELLECT (1977) INQUERY (1990), Oracle ConText Cartridge (1997) BABYLON (1997) VIAVOICE (1998)

Resumen HistóricoResumen Histórico

Tendencias actuales (1985-)– Proliferación de formalismos (1970-)

Sintaxis (gramáticas basadas en restricciones) Semántica (gramática de Montague)

– Intensificación del empiricismo Aplicación del aprendizaje automático

– Nuevos dominios de aplicación Internet/Web => traducción automática, recuperación de

información Bibliotecas digitales

Historia Historia Las primeras aplicaciones del PLN se dieron durante el período

de 1940-1960, teniendo como interés fundamental la traducción automática. Los experimentos en este sector, basados en la substitución de palabra por palabra, obtuvieron resultados rudimentarios.

El hito fundamental, sin embargo, en el nacimiento de la lingüística computacional fue la aportación de Chomsky que en 1965 (Aspects) sentó las bases de la Gramática Transformacional Generativa. La Gramática Generativa especifica, en forma precisa, qué combinación de los elementos básicos son permisibles (gramaticales) para cada uno de los niveles de descripción lingüística.

HistoriaHistoria En los años sesenta los intereses se desplazan hacia la

comprensión del lenguaje. La mayor parte del trabajo realizado en este período se centró en técnicas de análisis sintáctico.

Hacia los setenta la influencia de los trabajos en inteligencia artificial fue decisiva, centrando su interés en la representación del significado. Como resultado se construyó el primer sistema de preguntas-respuestas basado en lenguaje natural.

De esta época es Eliza, que reproducía las habilidades conversacionales de un psicólogo. Para ello recogía patrones de información de las respuestas del cliente y elaboraba preguntas que simulaban una entrevista.

HistoriaHistoria

Las limitaciones de la Teoría Estándar en su aplicación práctica, especialmente el limitar la interpretación semántica a la estructura profunda, condujeron a Chomsky a una reformulación de su teoría y a proponer en 1970 la llamada Teoría Estándar Extendida

HistoriaHistoria

También de principios de los 70 es la Semántica Generativa (Lako , Fillmore). El

propio Fillmore creó las Gramáticas de Casos, origen de las Redes Semánticas, que tanto éxito han tenido en I.A. como mecanismo de Representación del Conocimiento.

HistoriaHistoria

Entre los años 70 y 80, ya superados los primeros experimentos, se hacen intentos de construir programas más fiables. Aparecen numerosas gramáticas orientadas a un tratamiento computacional, y experimenta notable crecimiento la tendencia hacia la programación lógica.

En el campo de la Sintaxis hay que acudir nuevamente a Chomsky que en 1983 propuso su teoría de la Reacción y Ligadura

HistoriaHistoria

En Europa surgen intereses en la elaboración de programas para la traducción automática. Se crea el proyecto de investigación Eurotra, que tenía como finalidad la traducción multilingüe. En Japón aparecen equipos dedicados a la creación de productos de traducción para su distribución comercial.

HistoriaHistoria

Los últimos años se caracterizan por la incorporación de técnicas estadísticas y se desarrollan formalismos adecuados para el tratamiento de la información léxica.

Se introducen nuevas técnicas de representación del conocimiento cercanas a la inteligencia artificial, y las técnicas de procesamiento utilizadas por investigadores procedentes del área de la lingüística e informática son cada vez más próximas. Surgen así mismo intereses en la aplicación de estos avances en sistemas de recuperación de información con el objetivo de mejorar los resultados en consultas a texto completo.

La inteligencia humana abarca muchas habilidades, incluyendo la habilidad para percibir y analizar escenas visuales y la habilidad pare entender o generar lenguaje

Lenguaje: Sistema de signos complejos y estructurados.

Qué es el LenguajeQué es el Lenguaje Un lenguaje es un conjunto de oraciones, que

usualmente es infinito y se forma con combinaciones de palabras. Es necesario que esas combinaciones sean correctas (sintáxis) y tengan sentido (semántica)

Un lenguaje es la función que expresa pensamientos y comunicaciones entre la gente. Esta función es llevada a cabo por señales y vocales (voz) y posiblemente por signos escritos (escritura)

Concepto de procesamiento Concepto de procesamiento del lenguaje naturaldel lenguaje natural

El PLN se concibe como el reconocimiento y utilización de la información expresada en lenguaje humano a través del uso de sistemas informáticos.

El Procesamiento del Lenguaje Natural (PLN) es una parte esencial de la Inteligencia Artificial que investiga y formula mecanismos computacionalmente efectivos que faciliten la interrelación hombre-maquina y permitan una comunicación mucho más fluida y menos rígida que los lenguajes formales y sistemas de menús utilizados tradicionalmente.

Procesador Lingüístico: traduce del Lenguaje Natural (LN) a una representación formal equivalente.

Existen volúmenes inmensos de información en LN

Se realizan operaciones sobre la información tales como búsqueda, comparación, traducción, …

Los computadores son más capaces de procesar la información que las personas, pero, ¿son capaces de entenderla?

En su estudio intervienen diferentes disciplinas tales como lingüística, ingeniería informática, filosofía, matemáticas y psicología. Debido a las diferentes áreas del conocimiento que participan, la aproximación al lenguaje en esta perspectiva es también estudiada desde la llamada ciencia cognitiva.

La razón básica para incluir el T.L.N. dentro de la I.A. es el que la comprensión del lenguaje natural se considera una forma clara de comportamiento inteligente.

A medida que las exigencias de calidad en el T.L.N. han aumentado, la necesidad de utilizar Fuentes de Conocimiento extensas y complejas y de emplear tratamientos no estrictamente algorítmicos ha dado lugar a una utilización creciente de la I.A

Tanto desde un enfoque computacional como lingüístico se utilizan técnicas de inteligencia artificial

Todo sistema de Procesamiento del Lenguaje Natural intenta simular un comportamiento lingüístico humano; para ello debe tomar conciencia tanto de las estructuras propias del lenguaje, como de un conocimiento general acerca del universo de discurso.

De esta forma, una persona que participe en un dialogo sabe como pueden combinar las palabras para formar una oración, conoce los significados de las mismas, sabe cómo éstas afectan el significado global de la oración y poseen un conocimiento del mundo en general que permite participar de la conversación.

Así el problema principal del Lenguaje Natural se puede resumir en una palabra: Ambigüedad.

Herramientas de la I.A. en el T.L.N.1. Sistemas de Representación del Conocimiento tanto basados en Lógica

(usados en los niveles sintáctico y lógico), como en Redes Semánticas (Modelos de actantes, Gramáticas de casos) o en Modelos de Objetos Estructurados, Frames (Modelos de Representación conceptual y léxica, formas complejas de inferencia, herencia, etc ).

2. Sistemas de Planificación (Planificación de diálogos, generación en lenguaje natural a partir de planes, generación de explicaciones, etc ).

3. Sistemas de Búsqueda Heurística (Estrategias de análisis sintáctico, cooperación sintaxis/semántica, etc ).

4. Sistemas de Razonamiento (Búsqueda de referentes, resolución de anáforas, determinación del ámbito de los cuanticadores, etc ).

5. Sistemas de representación y razonamiento aproximado e incierto (cuanticadores difusos, información incierta, lógica de modalidades, analizadores probabilísticos, etc).

6. Lenguajes de Programación Declarativos y estructuras de datos

Para comprender el lenguaje natural es necesario analizarlo desde la comprensión y representación de los siguientes componentes. El PLN tiene una serie de fases o niveles de análisis:

Análisis morfológico-lexico

Análisis sintáctico

Análisis semántico

Análisis contextual o función pragmática:

Siendo los dos últimos los más difíciles de representar, ya que no vasta con un simple automatismo, sino que, además, se requiere de conocimientos.

La mayor complejidad radica en la interpretación de la oración dentro de un contexto, ya que una misma oración puede tener diferentes interpretaciones en dependencia del contexto y aquí juega un papel importante no sólo el poder de análisis sino también el escurridizo y travieso sentido común, con quien tantas veces han tenido que vérselas los investigadores de la IA, sin mucho éxito.

Análisis morfológico-lexicoAnálisis morfológico-lexico

Transforma la secuencia de caracteres de entrada en una secuencia de unidades significativas haciendo uso del diccionario y reglas morfológicas. La palabra bien escrita.

NIVEL LEXICO (Morfología)

Estudia las palabras de forma independiente:– cómo reconocerlas y producirlas.– no tiene en cuenta estructuras ni como aparecen en la

frase.

Palabras: elementos constructivos básicos de todos los lenguajes tanto escritos como hablados.

Objetivo: determinación de los tipos de palabras, componentes de las palabras y cómo se produce la construcción de palabras.

Análisis morfológico-lexicoAnálisis morfológico-lexico Diccionarios: lista de palabras de una lengua,

junto con diversas informaciones: morfología, definición, etimología, estadísticas, …

Lexicón: forma típica de la entrada de los diccionarios que contiene información fonológica, morfológica, sintáctica y semántica

Formalismo de representación para codificar los datos

Ejemplos: los bilingües o multilingües recogen la correspondencia entre distintas lenguas

Análisis morfológico-lexicoAnálisis morfológico-lexico

Diccionarios electrónicos: – Elementales: Léxico desplegado (inmanejable)– Lengua de expresión compleja: el lexicón

proporciona la raíz y la información gramatical asociada, y un componente morfológico genera las posibles formas (ayuda a inferir funciones sintácticas)

Análisis sintácticoAnálisis sintáctico

Análisis sintáctico: Analiza la secuencia de unidades léxicas y produce una representación de su estructura (árbol, red, ...). El orden correcto de la oración.

Análisis sintácticoAnálisis sintáctico

NIVEL SINTÁCTICO (Sintaxis)

Estudia como se relacionan entre sí las palabras y como se estructuran (estudia las relaciones entre palabras).

Uso de modelos computacionales (gramáticas formales) y algoritmos de análisis.

Análisis sintácticoAnálisis sintáctico Las estructuras sintácticas se construyen con una

gramática, una especificación mediante reglas de reescritura de las estructuras permitidas en el lenguaje.

El tipo más común de gramáticas son las de contexto libre (CFGs)

CFG: es una cuádrupla (N,T,R,S)– N = conjunto de símbolos No-Terminales– T =conjunto de símbolos Terminales– R= conjunto de Reglas de la forma– S = axioma (No-Terminal)

Análisis semánticoAnálisis semántico

A partir de la estructura generada por el proceso sintáctico genera otra estructura o forma lógica asociada que representa el significado o sentido de la sentencia. El significado de la oración.

Análisis semánticoAnálisis semántico

Las herramientas básicas para el desarrollo de teorías semánticas proceden de la lógica y de las reglas de inferencia que se construyan, igualmente de la representación del conocimiento (información).

La semántica estudia el significado del texto y desarrolla los métodos para formar este significado a través de una serie de representaciones sintácticas de las oraciones.

Análisis semánticoAnálisis semántico

NIVEL SEMÁNTICO (Semántica)

Estudia las relaciones funcionales entre las estructuras sintácticas (qué función realizan: sujeto, objeto directo, ...) y trata de dotarlas de significado.

Dos visiones:– significado de las palabras componentes (semántica léxica).– significado de la combinación de esos componentes (semántica

composicional). En resumen: Estructura de la Sentencia + Significado de las

Palabras Significado de la Sentencia. Uso de técnicas de representación del conocimiento.

Análisis contextual o función Análisis contextual o función pragmáticapragmática

Utiliza la forma lógica o estructura semántica de la fase anterior para desarrollar la interpretación final de la oración, en función de las circunstancias de contexto. La dependencia del contexto.

Análisis contextual o función Análisis contextual o función pragmáticapragmática

NIVEL PRAGMÁTICO Y DE DISCURSO

Estudia como interpretar las estructuras semánticas en relación al contexto.

Necesidad de conocimiento de sentencias anteriores y de resolución de referencias.

Necesidad de conocimiento de mundos (dominios de discurso, entornos).

Análisis contextual o función Análisis contextual o función pragmáticapragmática

La pragmática estudia cómo las intenciones del autor del texto están expresadas en el texto, es decir, en un contexto dado

Análisis léxico o Morfológico Análisis Sintáctico Análisis Semántico Análisis pragmático o contextual

Problemas GeneralesProblemas Generales

Ambigüedad: Léxica, sintáctica, …Conocimiento lingüístico: conocimiento

léxico y conocimiento generalConocimiento extralingüístico:

información obvia omitida– Diccionarios de relaciones entre objetos y de

escenarios de las relaciones típicas– Métodos de aprendizaje semiautomático

Problemas GeneralesProblemas Generales Variabilidad de los lenguajes

– Hay conceptos teóricos válidos en unos idiomas y en otros no.

– Se deben diferenciar dentro de un mismo idioma a) dialectos y b) formas escritas vs formas orales.

coste computacional

– algoritmos y técnicas complejas computacionalmente.– dificulta aplicaciones prácticas.

Problemas GeneralesProblemas Generales Escasez de recursos léxicos

– necesidad de conocimiento lingüístico (colecciones de textos, gramáticas, muestras de voz...).

– ausencia de estándares.– en especial para español/gallego.

Alta dependencia del dominio

– desarrollos específicos para una aplicación (ej no es lo mismo extraer información de un periódico que de un boletin oficial).

– difícil extrapolar resultados.

Carácter interdisciplinar (distinta visión e intereses).

Fuentes de ambigüedad

Ambiguo: que admite distintas interpretaciones. Homonimia: dos palabras con misma forma que

tienen distintos significados.– Homografía: capital, banco,– Homofonía: Ola/Hola, As/Has, Cocer/Coser.

Polisemia: una palabra con múltiples significados.– El hombre desciende del mono y el mono desciende del

árbol.

Ambigüedad: polisemia y Ambigüedad: polisemia y homonimia.homonimia.

Una expresión lingüística es ambigua cuando puede significar cosas distintas. La ambigüedad es una característica típica de los lenguajes naturales.

La ambigüedad en el lenguaje escrito ocurre cuando varias palabras, o expresiones, que mantienen significados diferentes se expresan con los mismos signos gráficos.

Por ejemplo la palabra "banco", que puede referirse a un mueble para sentarse o a un establecimiento financiero.

En el lenguaje oral sería cuando se da el mismo sonido para distintos significados.

Ambigüedad: polisemia y Ambigüedad: polisemia y homonimiahomonimia

La ambigüedad puede denominarse homonimia o polisemia.

Se dice que hay homonimia cuando las palabras con idéntica grafía pero diferente significado no tienen ninguna relación de significado entre sí.

Ejemplo de homonimia es el que se da entre las palabras "nada", como forma verbal del verbo nadar, y "nada" como palabra que designa la ausencia de algo.

En cambio la ambigüedad se denomina polisemia cuando las palabras que

mantienen la misma grafía, aunque distinto significado, sí tiene una relación significativa entre si.

Ejemplo de polisemia sería el que se establece entre las palabras "pico" referido al pájaro, o "pico" referido a la cima de la montaña. Ambas significan distinto pero mantienen una relación común de significado: la prolongación alargada en forma de cono.

Ambigüedad: polisemia y Ambigüedad: polisemia y homonimia.homonimia.

Ya sea debido a la homonimia, o a la polisemia, podemos encontrarnos que ciertas expresiones del lenguaje natural son ambiguas.

Respecto al tipo de expresiones la ambigüedad se divide en equivocidad y anfibología. Cuando el segmento lingüístico ambiguo es una sola palabra hablamos de equivocidad.

Por ejemplo el término "hombre" puede designar al ser humano en general o al subconjunto de los varones. O la palabra "gato" puede querer referirse al animal o una herramienta para levantar pesos.

Si el segmento lingüístico ambiguo es una oración se denomina anfibología:

Por ejemplo, la oración "El libro de Torrente Ballester es rojo" puede querer designar un libro escrito por Torrente Ballester, o un libro de su propiedad.

Otro ejemplo podría ser "El perro de Paulov es muy listo", que puede estar refiriéndose a un perro cuyo propietario sea Paulov, o bien estar llamando a Paulov "perro".

Ambigüedad: polisemia y Ambigüedad: polisemia y homonimia.homonimia.

La ambigüedad que permite el lenguaje natural puede provocar que argumentos incorrectos pasen por correctos.

Un ejemplo de esto es el argumento del encubierto. Ese argumento dice lo siguiente: "tú no conoces a esa persona cubierta por un velo, pero esa persona es tu padre; luego tú no conoces a tu padre."

Ese argumento es un caso de anfibología que se basa en que la oración "tú no conoces a esa persona cubierta por un velo" puede significar dos cosas:

a. Tú no conoces a esa persona por estar cubierta por un velob. Tú no conoces a esa persona independientemente de que lleve o no velo.

Cuando se nos dice "tú no conoces a esa persona cubierta por un velo" entendemos que esa premisa es verdadera porque estamos entendiendo el significado

a., pero cuando se concluye: "luego tú no conoces a tu padre" se está concluyendo a partir del significado

b.El lenguaje natural, al permitir las expresiones ambiguas ya sean polisémicas u homónimas, oscurece la forma lógica de los argumentos pudiendo llevarnos a error.

Sinonimia. Sinonimia. Inicialmente podría afirmarse que la sinonimia no debiera ser un factor que distorsione de forma grave las

argumentaciones, aunque es claro que introduce una redundancia que contribuye a la oscuridad del lenguaje.

El principal problema de la sinonimia quizá se encuentre en las dificultades que presenta precisar con claridad su significado.

Lo primero sería distinguir las expresiones sinónimas de aquellas expresiones que meramente se estén refiriendo a las mismas cosas.

Para que dos expresiones sean sinónimas deben de estar refiriéndose a las mismas cosas o hechos, pero aunque eso es necesario que ocurra, aún no es suficiente

Por ejemplo, la expresión "el autor de las Novelas Ejemplares" y la expresión "el autor del Quijote" designan al mismo individuo —Cervantes. Pero que ambas expresiones se refieran al mismo sujeto no las hace sinónimas; es decir, las expresiones significan cosas distintas, sólo que, casualmente, designan al mismo sujeto.

Durante siglos se consideró que el primer lucero que se podía ver en el cielo por las mañanas —lucero matutino— era un astro distinto del primer lucero de la tarde —lucero vespertino—, con el tiempo se comprobó que ambas expresiones se referían al mismo objeto —Venus— aunque cada una signifique algo distinto.

Ambigüedad en los niveles de análisis

Ambigüedad a nivel semántico

La perra de mi vecina me ladró.

a) mi vecina realmente tiene una perra

b) no tengo un buen trato con mi vecina

Ambigüedad en los niveles de análisis

Ambigüedad a nivel pragmáticoLlego a las ocho. Esperame.

Ambigüedad a nivel de discursoAmbigüedad a nivel de discurso

Tomé el alfajor del escritorio y lo comí.

a) Tomé el alfajor que estaba en el escritorio y comí el alfajor.

b) Tomé el alfajor que estaba en el escritorio y comí el escritorio.

Ambigüedad léxica:

1. Se sentó en el banco 2. Entró en el banco y fue a la ventanilla 3. El avión localizó el banco y comunicó su posición.

Qué tipo de conocimiento hay que utilizar y cómo debemos utilizarlo para conjeturar que (probablemente) la aparición de banco.en (1) se refiere a un mueble que eventualmente sirve para sentarse, mientras que la aparición en (2) se refiere a una oficina en la que una entidad financiera realiza operaciones a través de una ventanilla y la aparición en (3) se refiere, una vez examinado el contexto, a un banco de pesca...?

Ambigüedad sintáctica:

La vendedora de periódicos del barrio– Queremos indicar aquí que la vendedora es del

barrio o bien son los periódicos los que son del barrio?

Pedro vió al hombre en lo alto de la montaña con unos prismáticos– Era el hombre o Pedro (o ambos) quien estaba

en la montaña?– Quién llevaba (o usaba) los prismáticos?

Ambigüedad semántica:

Pedro dió un pastel a los niños– Uno para todos?– Uno a cada uno?

A lo mejor depende del tamaño (del pastel, no de Pedro ni de los niños)

¿Se puede resolver la ambigüedad?

Juan mató al carpincho con la escopeta.– No puede ser el carpincho quien lleve la

escopeta.

Puse la camisa en la lavadora y la lavé.– Las lavadoras lavan. La ropa se lava.

Se requiere conocimiento del mundo.

ModelosModelos

AlgoritmosAlgoritmos

Búsquedas en espacios de estados:– buscar en un espacio de posibles secuencias

fonológicas la correcta para una entrada dada– buscar en un espacio de árboles de análisis sintáctico el

correcto para una entrada dada

Programación dinámica:– convertir un autómata finito en una expresión regular

equivalente

FORTALEZAS Y DEBILIDADESFORTALEZAS Y DEBILIDADES Ahorro de dinero, al no tener que pagarle a un traductor bilingüe. [Rusell]

Un traductor humano puede acelerar su trabajo de traducción de dos a cuatro veces. [Rusell]

Escritos resultantes más claros y legibles. [Rusell]

Existen considerables costos de arranque en todo proyecto de traducción automatizada. [Rusell]

La traducción es difícil, porque se requiere un profundo conocimiento del texto, y para ello es necesario un profundo conocimiento de la situación que se esta comunicando. [Rusell]

Muchas veces el usuario nunca podrá saber qué frase de una consulta es correcta y cuál no es de la incumbencia del sistema.

Uno de los grandes problemas del PLN se produce cuando una expresión en LN posee más de una interpretación, es decir, cuando en el lenguaje de destino se le pueden asignar dos o más expresiones distintas.

AplicacionesAplicaciones

Comprensión del lenguaje Ayuda en preparación de texto Búsqueda y minería de texto Interfaces en LN Traducción automática Procesamiento de voz Generación de texto Conducción del diálogo

Más aplicaciones

Recuperación de información.• Verificadores de gramática y estilo.• Categorización de documentos.• Respuesta a preguntas.• ...

Traducción AutomáticaTraducción Automática

Interés hacia fines años 40’ y años 50’ En particular del Ruso al Inglés (Guerra Fría). Famosa leyenda urbana:

– (Original) "The spirit is willing, but the flesh is weak." (El espíritu es fuerte pero la carne es débil)

– (Doble traducción) "The vodka is strong, but the meat is rotten." (El vodka está bueno pero la carne es muy mala)

Traducción AutomáticaTraducción Automática

¿Actualmente? (Original) El día que las vacas vuelen. (Doble Traducción - Babelfish de Altavista) El día que las vacas vuelan. (Doble Traducción - Google) El día que las vacas lo

vuelan. Ofrecen “gist translation” (traducción de lo esencial) Tasa de error entre 20% y 30% Aplicaciones comerciales: un traductor profesional cobra 20 U$S la hora para mejorar el sistema.

Resumen AutomáticoResumen Automático

Idea central: "condensación del contenido de la información de un documento para el beneficio de un lector" (Mani 2001).

Primeros trabajos de Luhn (1958) y Edmunson (1960):– Basados en métodos estadísticos.– Extraen las oraciones más importantes.– Frecuencia de términos. Peso de oraciones.

Los trabajos en el área resurgen a fines de los años 90’

Extracción de Información

Objetivo: mapear una colección de documentos a una base de datos estructurados.

Motivaciones:– Permitir búsquedas complejas: quiero trabajos en

restauración en Manchester que paguen por lo menos 1200 al mes.

– Permitir consultas estadísticas: ¿el número de trabajos en restauración creció en los últimos cinco años?

– Sistemas de Vigilia.

Extracción de Información

AplicacionesAplicacionesProcesamiento de texto escrito.

Ayudas a la producción de texto.– correctores ortográficos y gramaticales (por ej. de estilo) y OCR.

Traducción automática de textos.

Extracción de información desde informes, etc...– generación de resúmenes.

Clasificación, recuperación y filtrado de documentos y mensajes.– buscadores WEB.– filtros de correo.

Generación de informes textuales a partir de bases de datos estándar.

En los tres últimos casos, muchas de estas aplicaciones pueden realizarse (y de hecho es normal) sin usar técnicas de PLN.

AplicacionesAplicaciones

2. Interacción Hombre-Máquina.

Interfaces en lenguaje natural.– para BBDD.– aplicaciones educativas.

Reconocimiento y síntesis de voz.– servicios de atención a clientes.– control de máquinas por la voz.– interfaces para discapacitados.

Hemos de tener en cuenta, por otra parte, que buena parte de las aplicaciones del T.L.N. actúan como interfaz de Sistemas Inteligentes en los cuales se integran.

Buena parte de los sistemas de representación de conocimiento e información que se utilizan al tratar el lenguaje natural deben tener en cuenta esta doble función.

Dos son las grandes áreas de aplicación de los Sistemas de T.L.N: las aplicaciones basadas en diálogos y las basadas en el tratamiento masivo de información textual.

La razón de ello es, obviamente, económica: la interacción persona/máquina se ha convertido en el punto fundamental de la mayoría de las aplicaciones informáticas. El desarrollo de formas cada vez más sosticadas de dispositivos de interacción (los llamados multimedia) y el acceso a la informática de una gama cada vez mayor de usuarios abundan en este interés.

Los volúmenes de información textual que se manejan están creciendo en forma exponencial planteando problemas cada vez mayores de tratamiento. Las necesidades de traducción, formateo, resumen, indiciación, corrección, etc de cantidades ingentes de textos, con niveles de exigencia de calidad crecientes, ha hecho que se haya vuelto la vista hacia el lenguaje natural como fuente (parcial) de soluciones.

CADA TIPO DE APLICACIÓN ANALIZA HASTA UN NIVEL DISTINTO

Recuperación de Información: léxico y algo de sintáctico.

Extracción de Información: Sintáctico (no profundo) y Semántico.

Traducción Automática: Sintáctico y/o Semántico.

ConclusiónConclusión

El lenguaje es un aspecto humano fundamental, Relacionado con la inteligencia, Medio de Comunicación, Almacenamiento del conocimiento humano

ConclusiónConclusión

Surgió por tanto la necesidad de resolver ambigüedades sintácticas y semánticas, y asimismo la consideración de información contextual.

La carencia de un orden de la estructura oracional en algunas lenguas, y la dificultad para obtener una representación tanto sintáctica como semántica, fueron los problemas más relevantes. Afrontándolos se dio paso a una concepción más realista del lenguaje en la que era necesario contemplar las transformaciones que se producen en la estructura de la frase durante el proceso de traducción.

ConclusiónConclusión

El procesamiento del lenguaje natural (PLN), área de investigación en continuo desarrollo, se aplica en la actualidad en diferentes actividades como son la traducción automática, sistemas de recuperación de información, elaboración automática de resúmenes, interfaces en lenguaje natural, etc. Si bien en los últimos años se han realizado avances espectaculares, los fundamentos teóricos del PLN se encuentran todavía en estado de desarrollo.

ConclusiónConclusión

Conjunto de métodos y técnicas eficientes desde un punto de vista computacional para la comprensión y generación de lenguaje natural.

ConclusiónConclusión

PLN = Lingüística Computacional (LC)

LC:– campo multidisciplinario de la lingüística y de la

computación.– estudio científico del lenguaje con el fin de elaborar

modelos de éste o de ciertos fenómenos específicos.– involucra a lingüistas, informáticos, lógicos, psicólogos

cognitivos…

ConclusiónConclusión

Por ejemplo, con la creación de interfaces inteligentes el usuario dispondría de la facilidad para interactuar con el ordenador en lenguaje natural. Asimismo, el uso de técnicas de PLN puede tener un alto impacto en la gestión documental y en los sistemas de traducción automática.

No obstante, la complejidad implícita en el tratamiento del lenguaje comporta limitaciones en los resultados y, por tanto, aplicaciones en áreas de conocimiento concretas y con un uso restringido del lenguaje.

ConclusiónConclusión

El estudio del lenguaje natural se estructura normalmente en 4 niveles de análisis: morfológico, sintáctico, semántico y pragmático.

Además se pueden incluir otros niveles de conocimiento como es la información fonológica, referente a la relación de las palabras con el sonido asociado a su pronunciación; el análisis del discurso, que estudia cómo la información precedente puede ser relevante para la comprensión de otra información; y, finalmente, lo que se denomina conocimiento del mundo, referente al conocimiento general que los hablantes han de tener sobre la estructura del mundo para mantener una conversación.

ConclusiónConclusión En vista a conocer estas técnicas de representación y

procesamiento, es necesario tener en cuenta una doble dimensión: se trata por una parte de un problema de representación lingüística, y por otra de un problema de tratamiento mediante recursos informáticos.

El uso de técnicas computacionales procedentes especialmente de la inteligencia artificial no aportaría soluciones adecuadas sin una concepción profunda del fenómeno lingüístico. Por otra parte, las gramáticas utilizadas para el tratamiento del lenguaje han evolucionado hacia modelos más adecuados para un tratamiento computacional.

ConclusiónConclusión

Aún siendo evidente que los obstáculos a superar en el estudio del tratamiento del lenguaje son considerables, los resultados obtenidos y la evolución en los últimos años sitúan al PLN en posición para liderar una nueva dimensión en las aplicaciones informáticas del futuro: los medios de comunicación del usuario con el ordenador pueden ser más flexibles y el acceso a la información almacenada más eficiente.

El Lenguaje como El Lenguaje como Codificador-DescodificadorCodificador-Descodificador