inteligencia artificial introducción a la comprensión del lenguaje natural
DESCRIPTION
Inteligencia Artificial Introducción a la comprensión del lenguaje natural. Primavera 2009 profesor: Luigi Ceccaroni. Objetivos generales. Conocer el ámbito del PLN y sus principales aplicaciones - PowerPoint PPT PresentationTRANSCRIPT
Inteligencia Artificial Introducción a la comprensión del
lenguaje natural Primavera 2009
profesor: Luigi Ceccaroni
2
Objetivos generales
• Conocer el ámbito del PLN y sus principales aplicaciones
• Comprender la problemática asociada a la comprensión del LN y los niveles de análisis sintáctico y semántico
• Conocer las bases de la programación del análisis con gramáticas de cláusulas definidas (DCGs)
2
3
Ámbitos del PLN
• El PLN consiste en construir sistemas computacionales capaces de comprender i generar lenguaje humano en todas sus formas.
• Para esto se necesita:– Saber cómo las personas generan expresiones
correctas y comprensibles – Conocer cómo las personas comprenden
expresiones de otras personas– Ser capaces de formalizar el conocimiento y los
procesos necesarios de manera que sean tratables por un sistema computacional
3
4
Interdisciplinariedad
• Disciplinas asociadas al PLN:– Inteligencia artificial
• Representación del conocimiento• Razonamiento• Aprendizaje
– Lingüística computacional– Teoría de lenguajes formales
• Compiladores
4
5
Comprensión y generación
• Son las dos operaciones básicas de las interfaces en LN.
• La consulta y la respuesta pueden ser en lenguaje oral: speech recognition and synthesis 5
EmisorComprensión
Generación
Consulta
Respuesta
Sistema de PLN
Actuación
6
Comprensión y traducción
• En lugar de texto puede haber una intervención oral. 6
Texto LN origen
Representacióninterna texto
LN origen
Comprensión Generación
Transformación (traducción)
Texto LN destino
Representacióninterna texto LN destino
7
Comprender el LN
• La comprensión exige:– Extraer el significado individual de las
palabras– Comprender las relaciones entre las palabras– Referir el significado literal al contexto de
actuación del sistema
• Todo esto se alcanza a través de un análisis de los componentes del lenguaje a diferentes niveles.
7
8
Aplicaciones
• Traducción y resumen automáticos• Extracción de información a partir de textos• Interfaces y sistemas de diálogo• Sistemas de consulta telefónica• Clasificación y filtro de documentos, email• Question answering• Web semántica• Búsqueda de información en Internet
8
9
Ejemplo de análisis
“Em parlarà sens dubte de la reestructuració urbana a Barcelona”
•Ejemplos de cosas que hay que detectar: – Palabras individuales: em, parlarà, sens...– El papel (categoría) de las palabras en la
frase: nombre, nombre propio, nombre compuesto, verbo, artículo...
– La relación entre categorías (papel sintáctico) para establecer el significado global: sujeto, objeto directo...
9
10
Niveles de análisis
• Fonológico• Textual• Morfológico• Léxico• Sintáctico• Lógico• Semántico• Pragmático• Ilocutivo 10
11
Niveles de análisis
• Fonológico– Se aplica en el procesamiento del lenguaje
oral.– Es el tratamiento de los sonidos para detectar
unidades de expresión (palabras).
11
12
Niveles de análisis
• Textual– Filtrado de información no relevante: los
textos a tratar vienen a menudo acompañados de otros materiales que deben ser eliminados o extraídos (por ejemplo, si la fuente de información es una página web, diferentes tipos de marcas que definen las características de visualización de la página).
12
13
Niveles de análisis
• Textual– Segmentación y localización de unidades
tratables: • El texto debe ser segmentado en fragmentos que
puedan tratarse de forma hasta cierto punto independiente (párrafos, oraciones, intervenciones de diversos interlocutores...).
• Las unidades básicas de tratamiento son las palabras; localizar las palabras ortográficas es sencillo si el espacio o los signos de puntuación actúan como separadores.
13
Niveles de análisis
• Textual– Localización de unidades tratables
• Métodos basados en localización de marcas de puntuación: “.”, “?”, “!”, ”…”
• Problemas: ?– siglas– iniciales
1414
15
Niveles de análisis
• Morfológico– La morfología estudia la estructura de las palabras y
su relación con las categorías del lenguaje. – El objetivo del análisis morfológico automático es
llevar a cabo una clasificación morfológica de las palabras.
– Por ejemplo, el análisis de la palabra gatos resulta en
gato+Noun+Masc+Pl,
que nos indica que se trata de un sustantivo plural con género masculino y que su forma normalizada (lema) es gato.
15
16
Niveles de análisis
• Morfológico– Versión simple: utilización de formarios (listas
de formas con información morfológica y los lexemas correspondientes)•Morfemas = lexemas (o raíz) o gramemas
16
Lexemacant
Gramemao
es
a
em
en
17
Niveles de análisis
• Morfológico– Analizadores morfológicos:
• Diccionarios de morfemas:– de raíces (lexemas), de sufijos, de prefijos, de infijos
• Morfotáctica: reglas de combinación de morfemas• Variaciones fonológicas: cambios al combinar
morfemas (ej., ploure, plovisquejar)
17
18
Niveles de análisis
• Léxico– Distingue entre palabras ortográficas y
palabras gramaticales.– Obtiene información léxica de diccionarios,
ontologías...
18
19
Niveles de análisis
• Léxico– Detecta unidades de significado
• Reconoce y fragmenta adecuadamente las palabras: “/Parlarà/ /sens dubte/ /de/ /les/ /reestructuracions/ /urbanes/ /a/ /Sant Cugat/”
– Recoge información útil y facilita las fases de análisis posterior• Asocia categorías gramaticales a las unidades
léxicas
• Asocia información semántica a las unidades léxicas (uso de ontologías y diccionarios)
• Detecta y clasifica entidades con nombre propio (named entity recognition, NER)
19
20
Niveles de análisis
• Léxico– Correspondencia palabras ortográficas/gramaticales
• Detecta, por ejemplo, los casos siguientes:– “dóna-m’ho”, “dímelo” (1 p. ortográfica, 3 p.
gramaticales)– “sens dubte”, “sin embargo” (2 p. ortográficas, 1 p.
gramatical)
– Homonimia• Misma forma, diferentes categorías gramaticales
– “roda” (verbo, 3a persona), “roda” (nombre) -> conexión con sintaxis
– Polisemia• Misma forma y categoría, diferentes sentidos
– p.e.: “banco”20
21
Niveles de análisis
• Léxico– Sigles
• ““Un cop s’ha generat un PCB es pot enviar a una cua Un cop s’ha generat un PCB es pot enviar a una cua FIFO”FIFO”
• ““The cell’s DNA sample was identified by PRC, a process The cell’s DNA sample was identified by PRC, a process approved by the official UBI approved by the official UBI””
– Abreviatures• ““El Dr. Pirvo va parlar del Tract. del Lleng. Natural…”El Dr. Pirvo va parlar del Tract. del Lleng. Natural…”
– Fórmules i mesures• ““Afegir dos mg de DM-oxano i guardar dins d’un vial de Afegir dos mg de DM-oxano i guardar dins d’un vial de
PVC”PVC”• ““Si tenim en compte que Si tenim en compte que xx==yy*2 + *2 + kk, on , on kk és una és una
constant...”constant...”
– Volum d’informació 21
22
Niveles de análisis
• Ambigüedad léxica – “Pinchó la rueda de delante”
• “rueda” puede ser nombre o verbo (part-of-speech tagging - POS-tagging)
– “Vio el banco”• “banco” puede ser el mueble para sentarse, la entidad
financiera o un grupo de peces (word sense disambiguation - WSD)
22
Ejemplo
“Quina es la capital de França?”
• Resultado del análisis morfológico:
23
quina quin DT0FS00 quina NCFS000 és ésser VMIP3S0 la el TDFS0 ell PP3FSO00 la I capital capital AQPCS00 capital NCFS000 capitalNCMS000 de de SPS00 França frança NP00000-loc ? ? Fit
Ejemplo
“Quina es la capital de França?”
• Resultado del POS-tagging:
24
quina quin DT0FS00 és ésser VMIP3S0 la el TDFS0 capital capital NCFS000 de de SPS00 França frança NP00000-loc ? ? Fit
Niveles de análisis
• Utilización de lexicones– “Diccionarios léxicos”– Reúnen información útil para reconocer y
categorizar las palabras y su ubicación en el texto.
2525
Lexemacant-
Informaciócantar
V / Infinitiu-o/-es/-a/-em/-eu/-en
Problemática: representación
• Decidir el tipo de información que contiene:– Categoría sintáctica
• determinante, proposición, nombre propio, sustantivo, verbo, etc.
• Problema de la granularidad (verbo -> transitivo/intransitivo)
– Propiedades sintácticas de concordancia• género (masculino/femenino)• número (singular/plural) • persona (primera, segunda...)• caso (acusativo, dativo...)
• Otras propiedades sintácticas:– Tipo de complemento del verboTipo de complemento del verbo– Preposiciones que acepta una palabraPreposiciones que acepta una palabra
• Categoría semántica• Información morfológica
– DerivaciónDerivación: : prefijos/infijos/sufijosprefijos/infijos/sufijos
plov + -isquej- + ar
re- + estructura + -cio + -ns
prefijo raíz sufijo sufijo
Problemática: representación
Problemática: representación
– Información léxica
re- + estructura + -cio + -ns
prefijo raízsufijo
sufijo
repeticiónnombre
plural
Problemática: representación
– Información léxica
plov + -isquej- + ar
raízinfijo
diminutivo
sufijo
infinitivo
30
Niveles de análisis• Sintáctico
– Reconoce, extrae y representa estructuras sintácticamente válidas (o inválidas):
Els gat vell menja bacallà
El gata menja bacallà
El gat menja bacallà
| | | |
Det Noun Verb Noun
SN SV
F 30
31
Niveles de análisis
• Ambigüedad sintáctica– “El vendedor de diarios del barrio” (prepositional-
phrase attachment - PP-attachment)– “Vio un hombre con unos prismáticos”
31
32
Niveles de análisis
• Lógico– Extrae y representa el significado literal de
una oración a través de un lenguaje formal: cálculo de predicados de primer orden (CP1), ontologías, mapas conceptuales...
– En el caso de CP1, expresiones en términos de predicados, variables, funciones, constantes, conectivas lógicas...
“El gat menja bacallà”
existen x, y (Gat(x) & Bacallà(y) & Menja(x,y))32
Niveles de análisis
• Semántico– Interpretación de la forma lógica: Relación de les entidades
lógicas (constantes, variables, términos) con el mundo real (o su representación)
– El gato es un felino, el bacalao es un pez comestible, el actor de comer tiene que ser un ser vivo...
– Extraer sentido global a partir de sentidos individuales y relaciones
• Ambigüedad semántica– “Dio un pastel a los niños”
• Puede ser 1 a todos o 1 a cada niño
– “Las ideas verdes duermen furiosamente”
Niveles de análisis
• Pragmático– Interpretación en un contexto determinado
(incorpora referencias implícitas)• “Le dio un libro”• “No les gustó”
– Relación con el resto del discurso• “L’avió va detectar el banc”• “El gat vell” (perro viejo)
Niveles de análisis
• Ilocutivo– Problema de asignación de intenciones
•“Los platos están sucios” – ¿Es una frase declarativa neutra?– ¿Es una invitación a la acción? (¡Lávalos!)– ¿Es un reproche? (Siempre los dejas sucios y
me toca lavarlos a mí)