el tratamiento computacional de los niveles de análisis lingüístico

Upload: roberto-garcia-patron

Post on 25-Feb-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    1/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 1/25

    El tratamiento computacional de los niveles de anlisislingstico

    El proceso de anlisis del textoNivel morfolgico

    LematizacinStemmingAnlisis morfolgico

    Nivel sintctico

    TokenizacinSegmentacin en frasesAnlisis sintctico

    Nivel semntico

    Desambiguacin de sentidosInterpretacin de las relaciones semnticas

    Nivel discursivo

    Estructura textualSegmentacin del textoTratamiento de fenmenos relacionados con la coherencia textual

    Procesamiento del lenguaje natural: trabajos generales

    Procesamientodel lenguaje natural: manuales

    El proceso de anlisis del texto

    http://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#textbookshttp://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#General_references
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    2/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 2/25

    Anlisis del texto en el procesamiento del lenguaje natural.

    Mart, M. A. (2003). Introduccin. In M. A. Mart (Ed.), Tecnologas del lenguaje(pp. 9-29). Barcelona: EditorialUOC.

    Nivel morfolgico

    Lematizacin

    Herramienta:

    Lematizador.Lemmatiser.

    Segmentacin de una palabra para separar la raz (lexema) de los morfemas de flexin.

    Lema: forma de citacin de una palabra (p. ej., el lema de leamoses leer).

    Lematizacin: asignacin, en forma de etiqueta, de lema (o forma cannica) a unapalabra tal y como la encontramos en el discurso textual (p. 285).

    Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.

    Permite relacionar con un mismo lema todas las formas flexionadas de una palabra.

    http://books.google.es/books?id=-YTPHHZY0SkChttp://books.google.es/books?id=-YTPHHZY0SkChttp://liceu.uab.cat/~joaquim/language_technology/NLP/proceso_analisis.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    3/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 3/25

    Molino de Ideas. (2012). Lematizador.MolinoLabs. Madrid: Molino de Ideas. Consultado enhttp://www.molinolabs.com/lematizador.html

    La lematizacin aporta una mayor flexibilidad en las bsquedas en textos.

    Bsqueda de la forma sermonear en el CORPES XXI.

    Real Academia Espaol. (2013). CORPES XXI. Corpus del Espaol del Siglo XXI. Madrid: Real Academia Espaola.Consultado en http://www.rae.es/recursos/banco-de-datos/corpes-xxi

    Bsqueda del lema sermonear en el CORPES XXI.

    Real Academia Espaol. (2013). CORPES XXI. Corpus del Espaol del Siglo XXI. Madrid: Real Academia Espaola.Consultado en http://www.rae.es/recursos/banco-de-datos/corpes-xxi

    http://www.rae.es/recursos/banco-de-datos/corpes-xxihttp://liceu.uab.cat/~joaquim/language_technology/NLP/Corpes_lema.jpghttp://www.rae.es/recursos/banco-de-datos/corpes-xxihttp://liceu.uab.cat/~joaquim/language_technology/NLP/Corpes_forma.jpghttp://www.molinolabs.com/lematizador.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_3.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_2.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_4.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/rematar_Molino_1.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    4/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 4/25

    Stemming

    Herramienta:

    Stemmer.

    En el proceso conocido comostemmingse busca la raz (stem) de la palabra para utilizarla enaplicaciones relacionadas con la extraccin de informacin.

    Stemming: proceso por el que se truncan las palabras de los documentos antes deindexarlos, con el objetivo de identificar palabras con la misma raz (p. 286).

    Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.

    For IR purposes, it doesnt usually matter whether the stems generated are genuinewords or not thus, computation might be stemmed to comput provided that (a)different words with the same base meaning are conflated to the same form, and (b)

    words with distinct meanings are kept separate. An algorithm which attempts toconvert a word to its linguistically correct root (compute in this case) is sometimescalled a lemmatiser.

    Hooper, R. y Paice, C. (2005). What is stemming? The Lancaster stemming algorithm. Lancaster: School ofComputing and Communications, Lancaster University.

    Stemmingusually refers to a crude heuristic process that chops off the ends of wordsin the hope of achieving this goal correctly most of the time, and often includes the

    removal of derivational affixes.Lemmatizationusually refers to doing things properlywith the use of a vocabulary and morphological analysis of words, normally aiming toremove inflectional endings only and to return the base or dictionary form of a word,which is known as the lemma. If confronted with the tokensaw, stemming mightreturn justs, whereas lemmatization would attempt to return eitherseeorsawdepending on whether the use of the token was as a verb or a noun. The two may alsodiffer in that stemming most commonly collapses derivationally related words,whereas lemmatization commonly only collapses the different inflectional forms of alemma.

    Manning, C. D., Raghavan, P. y Schtze, H. (2008). Stemming and lemmatization.Introduction toinformation retrieval. Cambridge: Cambridge University Press. Consultado en http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

    http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.htmlhttp://books.google.es/books?id=-YTPHHZY0SkC
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    5/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 5/25

    Snowball. (s.f.). Snowball - Demo.Snowball. Consultado en http://snowball.tartarus.org/demo.php

    Snowball. (s.f.). Spanish stemming algorithm.Snowball . Consultado enhttp://snowball.tartarus.org/algorithms/spanish/stemmer.html

    Olalla, I. (2010). A Catalan stemming algorithm.Snowball. Consultado enhttp://snowball.tartarus.org/algorithms/catalan/stemmer.html

    Demostracin de varios sistemas destemming:

    Perkins, J. (s. f.). Stemming and lemmatization with Python NLTK - Demo.PythonNLTK demos for Natural Language Text Processing. San Francisco, CA. Consultado enhttp://text-processing.com/demo/stem/

    Anlisis morfolgico

    Herramienta:

    Analizador morfolgico.Etiquetador morfolgico.POS (part of speech) tagger.Tagger.

    Segmentacin automtica de la palabra en sus componentes morfolgicos: anlisis

    Asignacin automtica de la categora lxica (parte de la oracin) de una palabra en funcindel contexto en el que aparece: etiquetado.

    Informacin sobre las categoras gramaticales expresadas por los morfemas gramaticales

    http://text-processing.com/demo/stem/http://snowball.tartarus.org/algorithms/catalan/stemmer.htmlhttp://snowball.tartarus.org/algorithms/spanish/stemmer.htmlhttp://snowball.tartarus.org/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/Snowball_angles.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    6/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 6/25

    presentes en la palabra: etiquetado.

    Anlisis morfolgico: proceso que da como resultado las posibles interpretacionesmorfolgicas de una palabra.

    Etiquetador (morfosintctico): programa informtico, en el mbito de la lingstica decorpus, que permite la asignacin automtica de una etiqueta (tagen ingls) de su

    categora gramatical a cada palabra (pp. 282-3).Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.

    Se trata de un recurso prcticamente resuelto desde un punto de vista tanto tcnicocomo terico. Estos analizadores, desarrollados en general en entornos universitarios,cubren prcticamente la totalidad de fenmenos lingsticos y obtienen resultadosmuy buenos tanto en eficiencia pueden llegar a analizar 60 000 palabras porsegundo como en cobertura y precisin, que se sita entorno al 98 % de acierto.

    Mart, M. A. y Taul, M. (2011). La Academia y la investigacin universitaria en las tecnologas de lalengua. En S. Senz y M. Alberte (Eds.),El dardo en la Academia. Esencia y vigencia de las academias de lalengua espaola(Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado enhttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit

    Maria Antnia Mart Mariona Taul

    Operaciones necesarias para el anlisis morfolgico:

    el programa debe ser capaz de efectuar tres acciones, relativamente independientes: determinar qu categora (o cules categoras) puede tener cada palabra,

    decidir cul de estas categoras en la adecuada en el contexto en que aparece cada

    palabra, y asignar a cada palabra analizada la informacin morfolgica que le corresponde.

    Estas tres acciones en que subdividimos el proceso de anlisis morfolgico se puedenrealizar gracias a tres operaciones bsicas (dos, si omitimos la tercera):

    bsqueda en el lxico, desambiguacin, e

    incorporacin de la informacin morfolgica (pp. 223-4).

    Badia, T. (2003). Tcnicas de procesamiento del lenguaje. En M. A. Mart (Ed.), Tecnologas del lenguaje.

    Barcelona: Editorial UOC.

    http://books.google.es/books?id=-YTPHHZY0SkChttp://clic.ub.edu/ca/membreshttp://clic.ub.edu/ca/membreshttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edithttp://books.google.es/books?id=-YTPHHZY0SkC
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    7/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 7/25

    Toni Badia

    Bsqueda en el lxico

    Se realiza sobre un diccionario con todas las formas expandidas de las palabras (diccionariode formas desplegadas) y con la informacin correspondiente a la categora lxica (parte dela oracin).

    Moreno, A. y Guirao, J. M. (s.d.). Grampal. Madrid: Laboratorio de Lingstica Informtica, Universidad Autnomade Madrid. Consultado en http://www.lllf.uam.es/ESP/Grampal.html

    Herramientas para la generacin automtica de las formas flexionadas correspondientes a

    un lema.

    Analizadores y generadores morfolgicos en lnea

    Proceso de desambiguacin

    Decisin sobre la categora lxica (parte de la oracin) de la palabra en funcin de sucontexto de aparicin.

    Cada noche que bajo1a la calle, el msico bajo2toca el bajo3bajo4la luna.bajo1: verbobajo1: adjetivo

    bajo2: nombrebajo3: preposicin

    http://liceu.uab.cat/~joaquim/language_technology/HLT/HTL_NLP_recursos.html#NLP_Morphologyhttp://www.lllf.uam.es/ESP/Grampal.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_Grampal.jpghttp://www.upf.edu/dtcl/personal/temps_complet/bmt.html
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    8/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 8/25

    JQ-MS: adjetivo calificativo - masculino singular.

    P: preposicin.

    IULA. (s.d.). Demostraci de les eines danlisi del CT sobre text lliure.Recursos - Corpus i eines. Barcelona: InstitutUniversitari de Lingstica Aplicada, Universitat Pompeu Fabra. Consultado en http://eines.iula.upf.edu/cgi-bin/hectorwww/hectormain.pl

    Moreno, A. y Guirao, J. M. (s.d.). Grampal. Madrid: Laboratorio de Lingstica Informtica, Universidad Autnomade Madrid. Consultado en http://www.lllf.uam.es/ESP/Grampal.html

    Informacin morfolgica

    Requiere la definicin de etiquetas (tags) consistentes en categoras o en rasgos quepermitan describir los fenmenos morfolgicos propios de cada lengua.

    El conjunto de etiquetas (tag set) empleado se conoce como etiquetario.

    http://www.lllf.uam.es/ESP/Grampal.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_frase_Grampal.jpghttp://eines.iula.upf.edu/cgi-bin/hectorwww/hectormain.plhttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_IULA.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    9/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 9/25

    Etiquetario empleado en Grampal.

    Moreno, A. y Guirao, J. M. (s.d.). Etiquetario. Grampal. Madrid: Laboratorio de Lingstica Informtica,Universidad Autnoma de Madrid. Consultado en http://cartago.lllf.uam.es/grampal/grampal.cgi?m=etiquetario

    Padr, L. (s.d.). Etiquetas EAGLES para el espaol.FreeLing 3.1. An open-source suite oflanguage analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de laParla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

    Padr, L. (s.d.). Etiquetes EAGLES per al catal.FreeLing 3.1. An open-source suite oflanguage analyzers. Barcelona: TALP - Tecnologies i Aplicacions del Llenguatge i de laParla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-ca.html

    http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-ca.htmlhttp://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.htmlhttp://cartago.lllf.uam.es/grampal/grampal.cgi?m=etiquetariohttp://liceu.uab.cat/~joaquim/language_technology/NLP/etiquetario_Grampal_2.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/etiquetario_Grampal_1.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    10/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 10/25

    Mtodos estadsticos

    The rule-based methods used for the POS tagging problem began to be replaced bystochastic models in the early 1990s. The major drawback of the oldest rule-basedsystems was the need to manually compile the rules, a process that requires linguisticbackground. Moreover, these systems are not robust in the sense that they must bepartially or completely redesigned when a change in the domain or in the language

    occurs. Later on a new paradigm, statistical natural language processing, has emergedand offered solutions to these problems. As the field became more mature, researchersbegan to abandon the classical strategies and developed new statistical models.

    Several people today argue that statistical POS tagging is superior to rule-based POStagging. The main factor that enables us to use statistical methods is the availability ofa rich repertoire of data sources: lexicons (may include frequency data and otherstatistical data), large corpora (preferably annotated), bilingual parallel corpora, andso on. By using such resources, we can learn the usage patterns of the tag sequencesand make use of this information to tag new sentences. (p. 240).

    Gngr, T. (2010). Part-of-speech tagging. En N. Indurkhya y F. J. Damerau (Eds.),Handbook of naturallanguage processing(2nd ed., pp. 205-235). Roca Baton, FL: Chapman & Hall/CRC, Taylor & Francis.

    Tunga Gngr

    Los sistemas de anlisis y etiquetado morfolgico basados en tcnicas estadsticas requierenun corpus de entrenamiento previamente etiquetado.

    Las etiquetas en un texto nuevo se asignan en funcin de las probabilidades de aparicin enun determinado contexto en funcin de la informacin presente en el corpus deentrenamiento.

    SPS00: preposicin simple.AQ0MS0: adjetivo calificativo masculino singular.

    NCMS000: nombre comn masculino singular.VMIP1S0: verbo principal indicativo presente primera persona singular.

    Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php

    http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_Freeling.jpghttp://www.cmpe.boun.edu.tr/~gungort/http://books.google.es/books?id=nK-QYHZ0-_gC
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    11/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 11/25

    Perkins, J. (s. f.). Tagging, chunking & Named Entity Recognition with NLTK - Demo.Python NLTK demos for Natural Language Text Processing. San Francisco, CA.Consultado en http://text-processing.com/demo/tag/

    Analizadores y generadores morfolgicos en lnea

    Nivel sintctico

    Tokenizacin

    Herramienta:

    Tokenizador.Tokeniser.

    Dos conceptos bsicos:

    Tipo: clase de elementos.

    Token: forma concreta que pertenece a una clase.

    Las nias salen ahora y los nios saldrn maana.

    6 tipos: l- (las, los), ni- (nias, nios), sal- (salen, saldrn), ahora, maana, y.

    9 tokens: las, los, nias, nios, salen, saldrn, ahora, maana, y.

    La tokenizacin es un proceso de segmentacin previo al anlisis sintctico.

    Incluye el tratamiento de todos los elementos de un texto: signos de puntuacin,expresiones numricas, smbolos, etc.

    Tokenization

    The process of segmenting running text into words and sentences.Electronic text is a linear sequence of symbols (characters or words or phrases).

    Naturally, before any real text processing is to be done, text needs to be segmentedinto linguistic units such as words, punctuation, numbers, alpha-numerics, etc. Thisprocess is called tokenization.

    In English, words are often separated from each other by blanks (white space), but notall white space is equal. Both Los Angeles and rock n roll are individual thoughtsdespite the fact that they contain multiple words and spaces. We may also need toseparate single words like Im into separate words I and am.

    Tokenization is a kind of pre-processing in a sense; an identification of basic units tobe processed.

    Trim, C. (23 de enero de 2013). The art of tokenization.Language Processing. Consultado enhttps://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en

    https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=enhttp://liceu.uab.cat/~joaquim/language_technology/HLT/HTL_NLP_recursos.html#NLP_Morphologyhttp://text-processing.com/demo/tag/
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    12/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 12/25

    Xerox. (2014). Tokenization.Linguistic tools, Open Xerox. Xerox Corporation. Consultado enhttp://open.xerox.com/Services/fst-nlp-tools/Consume/Tokenization-175

    Perkins, J. (s. f.). Word tokenization with Python NLTK - Demo.Python NLTK demosfor Natural Language Text Processing. San Francisco, CA. Consultado en http://text-

    processing.com/demo/tokenize/

    Segmentacin en frases

    Splitting.

    http://text-processing.com/demo/tokenize/http://open.xerox.com/Services/fst-nlp-tools/Consume/Tokenization-175http://liceu.uab.cat/~joaquim/language_technology/NLP/Tokenization_Xerox_fr_2.jpghttp://liceu.uab.cat/~joaquim/language_technology/NLP/Tokenization_Xerox_fr_1.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    13/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 13/25

    Herramienta:

    Segmentador de frasesSplitter.

    Divisin de un texto en frases.

    Problemas planteados por los signos de puntuacin que no constituyen una frontera de

    frase.

    Lager, T. (s.d.). Simple Sentence Splitter. Department of Philosophy, Linguistics and Theory of Science, Universityof Gothenburg : Gteborg. Consultado en http://www.ling.gu.se/~/lager/mogul/sentence-splitter/index.html

    Anlisis sintctico

    Herramienta:

    Analizador sintctico.Syntactic parser.Parser.

    Anlisis sintctico: anlisis que intenta determinar la validez de una expresin(normalmente respecto a una gramtica) y de obtener su estructura sintctica

    Proceso que da como resultado un rbol sintctico, el cual representa la estructura deconstituyentes de una frase

    Parser: analizador sintctico (pp. 282, 285).

    Mart, M. A. (Ed.). (2003). Tecnologas del lenguaje. Barcelona: Editorial UOC.

    El desarrollo de los analizadores sintcticos tiene como objetivo establecer lasrelaciones estructurales y de dependencia entre las palabras dentro de la frase. Elanlisis consiste bsicamente en la identificacin de sintagmas o constituyentes y en laanotacin de los mismos con sus funciones correspondientes. Se trata de un recursoque, aunque obtiene resultados con un nivel de acierto respetable, todava no se

    considera resuelto.

    Mart, M. A. y Taul, M. (2011). La Academia y la investigacin universitaria en las tecnologas de lalengua. En S. Senz y M. Alberte (Eds.),El dardo en la Academia. Esencia y vigencia de las academias de lalengua espaola(Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado en

    https://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edithttp://books.google.es/books?id=-YTPHHZY0SkChttp://www.ling.gu.se/~/lager/mogul/sentence-splitter/index.htmlhttp://liceu.uab.cat/~joaquim/language_technology/NLP/splitter_Lager.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    14/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 14/25

    https://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit

    Maria Antnia Mart Mariona Taul

    El anlisis sintctico automtico clsico se basa en gramticas derivadas de las gramticaslibres de contexto (CFG, context free grammars) o gramticas de estructura de frase (phrase-structure grammars).

    O SN SVSN (Det) N Adj

    SV V SNDet el

    N gato | salmnAdj negro | ahumado

    V come

    Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php

    http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_Freeling.jpghttp://clic.ub.edu/ca/membreshttp://clic.ub.edu/ca/membreshttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    15/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 15/25

    Daedalus. (s.d.). Analizador morfosintctico.Stilus. Madrid: Daedalus - Data, Decisions and Language, S.A.

    Consultado en http://www.mystilus.com/Analizador_morfosintactico

    SFN. (s.d.). Parser.SFN, Spanish Framenet. An online lexical resource and its application to Spanish NLP. Bellaterra -Berkeley, CA: Universitat Autnoma de Barcelona - International Computer Science Institute. Consultado enhttp://spanishfn.org/tools

    http://spanishfn.org/toolshttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_SFN.jpghttp://www.mystilus.com/Analizador_morfosintacticohttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_Stilus.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    16/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 16/25

    VISL. (2014). Spanish - Machine analysis - Tree Structure. Visual Interactive Syntax Learning. Odense: Institute ofLanguage and Communication, University of Southern Denmark. Consultado enhttp://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.php

    Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php

    http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_frase_Freeling.jpghttp://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/gato_VISL.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    17/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 17/25

    Daedalus. (s.d.). Analizador morfosintctico.Stilus. Madrid: Daedalus - Data, Decisions and Language, S.A.Consultado en http://www.mystilus.com/Analizador_morfosintactico

    Anlisis sintctico superficial

    Shallow parsing.Partial parsing.Chunking.

    Fragmentos (chunks)

    I begin with an intuition: when I read a sentence, I read it a chunk at a time. Forexample, the previous sentence breaks up something like this:

    (1) [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at atime]

    These chunks correspond in some way to prosodic patterns. It appears, for instance,that the strongest stresses in the sentence fall one to a chunk, and pauses are most

    likely to fall between chunks. Chunks also represent a grammatical watershed of sorts.The typical chunk consists of a single content word surrounded by a constellation offunction words, matching a fixed template.

    Abney, S. (1989). Parsing by chunks. En C. Tenny (Ed.), The MIT Parsing Volume, 1988-89. Cambridge,MA: Center for Cognitive Science, Massachusetts Institute of Technology. Consultado enhttp://www.vinartus.net/spa/89d.pdf

    Steven Abney

    http://www.vinartus.net/spa/http://www.vinartus.net/spa/89d.pdfhttp://www.mystilus.com/Analizador_morfosintacticohttp://liceu.uab.cat/~joaquim/language_technology/NLP/bajo_frase_Stilus.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    18/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 18/25

    Segmentacin y etiquetado de tokensy fragmentos (chunks) (sintagmas nominales).

    Bird, S., Klein, E., y Loper, E. (2009).Natural language processing with Python. Analyzing text with the NaturalLanguage Toolkit. Sebastopol, CA: OReilly Media.

    Representacin en rbol de la estructura de fragmentos (chunks).

    Bird, S., Klein, E., y Loper, E. (2009).Natural language processing with Python. Analyzing text with the NaturalLanguage Toolkit. Sebastopol, CA: OReilly Media.

    Anlisis sintctico superficial.Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php

    Perkins, J. (s. f.). Tagging, chunking & Named Entity Recognition with NLTK - Demo.Python NLTK demos for Natural Language Text Processing. San Francisco, CA.Consultado en http://text-processing.com/demo/tag/

    Anlisis sintctico profundo

    Deep parsing.Full parsing.

    http://text-processing.com/demo/tag/http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/simple_parsing_FreeLing.jpghttp://books.google.es/books?id=KGIbfiiP1i4Chttp://liceu.uab.cat/~joaquim/language_technology/NLP/segmentacio_token_chunk_arbre.jpghttp://books.google.es/books?id=KGIbfiiP1i4Chttp://liceu.uab.cat/~joaquim/language_technology/NLP/segmentacio_token_chunk.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    19/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 19/25

    Anlisis sintctico profundo.

    Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php

    Anlisis de dependencias

    Dependency parsing.

    Anlisis de dependencias.

    Padr, L. (s.d.). Demonstration.FreeLing 3.1. An open-source suite of language analyzers. Barcelona: TALP -Tecnologies i Aplicacions del Llenguatge i de la Parla, Universitat Politcnica de Catalunya. Consultado enhttp://nlp.lsi.upc.edu/freeling/demo/demo.php

    Mtodos estadsticos

    The application of statistical methods to parsing started in the 1980s, drawing onwork in the area of corpus linguistics, inspired by the success of statistical speechrecognition, and motivated by some of the perceived weaknesses of parsing systems

    http://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/dependency_parsing_FreeLing.jpghttp://nlp.lsi.upc.edu/freeling/demo/demo.phphttp://liceu.uab.cat/~joaquim/language_technology/NLP/full_parsing_FreeLing.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    20/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 20/25

    rooted in the generative linguistics tradition and based solely on hand-built grammarsand disambiguation heuristics. In statistical parsing, these grammars and heuristics arewholly or partially replaced by statistical models induced from corpus data. Bycapturing distributional tendencies in the data, these models can rank competinganalyses for a sentence, which facilitates disambiguation, and can therefore afford toimpose fewer constraints on the language accepted which increases robustness.Moreover, since models can be induced automatically from data, it is relatively easy to

    port systems to new languages and domains, as long as representative data sets areavailable.Against this, however, it must be said that most of the models currently used instatistical parsing require data in the form of syntactically annotated sentencesatreebankwhich can turn out to be quite a severe bottleneck in itself, in some wayseven more severe than the old knowledge acquisition bottleneck associated with large-scale grammar development. Since the range of languages and domains for whichtreebanks are available is still limited, the investigation of methods for learning fromunlabeled data, particularly when adapting a system to a new domain, is therefore animportant problem on the current research agenda. Nevertheless, practically all high-

    precision parsing systems currently available are dependent on learning from treebankdata, although often in combination with hand-built grammars or other independentresources (pp. 263-4).

    Nivre, J. (2010). Statistical parsing. En N. Indurkhya y F. J. Damerau (Eds.),Handbook of naturallanguage processing(2nd ed., pp. 237-266). Roca Baton, FL: Chapman & Hall/CRC, Taylor & Francis.

    Joakim Nivre

    Analizadores sintcticos en lnea

    Nivel semntico

    Los procesos y recursos necesarios para el anlisis semntico se encuentran en unestado de desarrollo menos avanzado que los existentes para el anlisis sintctico y, enconsecuencia, los resultados que se obtienen son todava parciales. El tratamiento delsignificado implica, en mayor o menor medida, incluir conocimiento sobre el mundoen las aplicaciones que se han descrito. Por esta razn el tratamiento del significado sehace especialmente difcil, ya que los humanos no somos conscientes del tipo deconocimiento que est en juego en este proceso. Existen muchas teoras sobre qu es el

    significado y cmo se puede representar, pero ninguna de ellas es satisfactoria nicomputacionalmente tratable de manera completa. Es por ello que en este nivel deproceso la tecnologa se limita a los aspectos ms tratables del problema.

    Mart, M. A. y Taul, M. (2011). La Academia y la investigacin universitaria en las tecnologas de la

    http://liceu.uab.cat/~joaquim/language_technology/HLT/HTL_NLP_recursos.html#NLP_Syntaxhttp://stp.lingfil.uu.se/~nivre/http://books.google.es/books?id=nK-QYHZ0-_gC
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    21/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 21/25

    lengua. En S. Senz y M. Alberte (Eds.),El dardo en la Academia. Esencia y vigencia de las academias de lalengua espaola(Vol. 2, pp. 1195-1242). Barcelona: Melusina. Consultado enhttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit

    Maria Antnia Mart Mariona Taul

    Desambiguacin de sentidos

    WSD, Word Sense DesambiguationDSA, Desambiguacin Semntica Automtica.

    Asignacin del sentido de una palabra polismica en funcin del contexto en el que seencuentra.

    Proceso en el mbito de la semntica lxica.

    La desambiguacin semntica automtica requiere disponer de recursos lingsticos:

    lxicos computacionales;

    redes lxico-semnticas;corpus desambiguados para el entrenamiento del sistema:

    corpus sin desambiguar para el aprendizaje por parte del sistema.

    Interpretacin de las relaciones semnticas

    Proceso en el mbito de la semntica oracional.

    Establecimiento de las relaciones semnticas entre predicado y argumentos: asignacin de

    papeles semnticos.

    Anlisis semntico mediante Boxer de The cat eats the fish.

    Bos, J. (s. f.). Boxer output for sentences.Demonstration, C&C tools. Sidney. Consultado enhttp://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo

    http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demohttp://liceu.uab.cat/~joaquim/language_technology/NLP/cat_Boxer.jpghttp://liceu.uab.cat/~joaquim/language_technology/HLT/tecnol_ling_recursos.html#Redes_lexico_semanticashttp://clic.ub.edu/ca/membreshttp://clic.ub.edu/ca/membreshttps://docs.google.com/file/d/0B6N0v65RwfFSN1RBWGtWVmpLTXc/edit
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    22/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 22/25

    Anlisis semntico mediante Boxer de The fish eats the cat.

    Bos, J. (s. f.). Boxer output for sentences.Demonstration, C&C tools. Sidney. Consultado enhttp://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo

    Nivel discursivo

    Estructura textual

    Anlisis de la estructura y de la organizacin del texto.

    Procesamiento automtico de textos con una estructura prototpica: resmenes de artculoscientficos, prospectos de frmacos.

    Segmentacin del texto

    Divisin automtica del texto en partes correspondientes a los temas y los subtemas tratadosen cada parte.

    Segmentacin basadas en los cambios de elementos lxicos que corresponden a cada cambiode tema.

    The approach assumes that a particular set of lexical items is in use during the courseof a given subtopic discussion and, when the subtopic changes, a significantproportion of the vocabulary changes too. The method assumes three broad categoriesof lexical items to be found within a text:

    (1) words that occur frequently throughout the text, which are often indicative of itsmain topic(s);

    (2) words that are less frequent but more uniform in distribution, which do notprovide much information about the divisions between discussions;

    (3) groups of words that are clumped together with high density in some parts of thetext and low density in other parts. These groups of words are indicative of subtopicstructure.

    The problem of subtopic segmentation is thus the problem of determining where theseclusters of words in the third category begin and end (p. 603).

    Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook ofcomputational linguistics and natural language processing(pp. 599-629). Chichester: Wiley-Blackwell.

    http://books.google.es/books?id=zBmom42eWPcChttp://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demohttp://liceu.uab.cat/~joaquim/language_technology/NLP/fish_Boxer.jpg
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    23/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 23/25

    Ruslan Mitkov

    (Fuente: http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computers)

    Tratamiento de fenmenos relacionados con la coherencia textual

    Descripcin formalizada de las relaciones entre los elementos que forman un texto.

    Teora de la Estructura Retrica (RST,Rethorical Structure Theory)

    Mann, W. C. y Taboada, M. (2014). Rhetorical Structure Theory. Burnaby, BC: SimonFraser University. Consultado en http://www.sfu.ca/rst/

    Ttulo y resumen del principio de un artculo deScientific American

    Preparacin: texto que se presentar al lector o que lo prepara para interpretar el texto quese presentar.Fondo: texto del que se facilita la comprensin o que facilita la comprensin.Elaboracin: informacin bsica o informacin adicional.Contraste: opcin entre dos elementos.

    Mann, W. C. y Taboada, M. (2014). Rhetorical Structure Theory. Burnaby, BC: Simon Fraser University. Consultadoen http://www.sfu.ca/rst/

    Teora del centrado (Centering Theory)

    The main idea of centering theory (Grosz et al., 1983; 1995) is that certain entitiesmentioned in an utterance are more central than others and this imposes constraintson the use of referring expressions and in particular on the use of pronouns. It isargued that the coherence of a discourse depends on the extent to which the choice of

    the referring expressions conforms to the centering properties (pp. 607-8).Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook ofcomputational linguistics and natural language processing(pp. 599-629). Chichester: Wiley-Blackwell.

    http://books.google.es/books?id=zBmom42eWPcChttp://www.sfu.ca/rst/http://liceu.uab.cat/~joaquim/language_technology/NLP/RST_lactosa.gifhttp://www.sfu.ca/rst/http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computershttp://pers-www.wlv.ac.uk/~le1825/
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    24/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti co

    http://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html 24/25

    Ruslan Mitkov

    (Fuente: http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computers)

    (1) Esta noche, Clara estaba consultando el correo mientras Sofa hablaba por telfono;luego, ella se fue a hacer la cena.

    (2) Esta noche, Sofa estaba consultando el correo mientras Clara hablaba por telfono;luego, ella se fue a hacer la cena.

    Clara y Sofa son compaeras de piso y viven en un pequeo apartamento en Barcelona.

    Todas las noches, Sofa se hace la remolona a la hora de hacer la cena, con lo que Clarasiempre termina preparndola. Pero a Clara no le importa, porque a ella le encantacocinar. De hecho, ha seguido varios cursos de cocina, uno de ellos especializado en cocinaindia. Adems, por las maanas Clara tiene mucho tiempo libre para poder hacer lacompra. Por eso, Clara siempre elige con cuidado los ingredientes con los que preparar lacena. Esta noche, Sofa estaba consultando el correo mientras Clara hablaba por telfono;luego, ella se fue a hacer la cena.

    Clara y Sofa son compaeras de piso y viven en un pequeo apartamento en Barcelona.Todas las noches, Sofa se hace la remolona a la hora de hacer la cena, con lo que Clara

    siempre termina preparndola. Pero a Clara no le importa, porque a ella le encantacocinar. De hecho, ha seguido varios cursos de cocina, uno de ellos especializado en cocinaindia. Adems, por las maanas Clara tiene mucho tiempo libre para poder hacer lacompra. Por eso, Clara siempre elige con cuidado los ingredientes con los que preparar lacena. Esta noche, Clara estaba consultando el correo mientras Sofa hablaba por telfono;luego, ella se fue a hacer la cena.

    Llisterri, J. y Rello, L. (2012). La interfaz entre prosodia y discurso en la resolucin de la anfora pronominalen espaol. En T. Jimnez Juli, B. Lpez Meirama, V. Vzquez Rozas, y A. Veiga (Eds.), Cum corde et in nova

    grammatica. Estudios ofrecidos a Guillermo Rojo(pp. 465-475). Santiago de Compostela: Universidade de

    Santiago de Compostela. Consultado enhttp://liceu.uab.cat/~joaquim/publicacions/Llisterri_Rello_Prosodia_Anafora_12.pdf

    Resolucin de la anfora

    The process of determining the antecedent of an anaphor is called anaphoraresolution. In anaphora resolution the system has to determine the antecedent of theanaphor. For identity-of-reference nominal anaphora, any preceding NP which iscoreferential with the anaphor is considered as the correct antecedent . . .

    The process of automatic resolution of anaphors consists of the following main stages:

    (1) identification of anaphors, (2) location of the candidates for antecedents, and (3)selection of the antecedent from the set of candidates on the basis of anaphoraresolution factors (p. 614).

    Mitkov, R. (2010). Discourse processing. En A. Clark, C. Fox, y Lappin; Shalom (Eds.), The handbook of

    http://books.google.es/books?id=zBmom42eWPcChttp://liceu.uab.cat/~joaquim/publicacions/Llisterri_Rello_Prosodia_Anafora_12.pdfhttp://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computershttp://pers-www.wlv.ac.uk/~le1825/
  • 7/25/2019 El Tratamiento Computacional de Los Niveles de Anlisis Lingstico

    25/25

    31/1/2016 El tr atam iento com putaci onal de l os ni vel es de anl isi s l ingsti cocomputational linguistics and natural language processing(pp. 599-629). Chichester: Wiley-Blackwell.

    Ruslan Mitkov(Fuente: http://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computers)

    El problema de los pronombres cero.

    La Constitucin EspaolaiiFue refrendada por el pueblo espaol el 6 de diciembre de 1978.

    El que est obsesionado con que todo el mundo piensa mal es Javier.

    Rello, L. (2010).Elliphant: a machine learning method for identifying subject ellipsis and impersonal constructionsin Spanish(Tesis de mster, University of Wolverhampton - Universitat Autnoma de Barcelona). Consultadoen http://www.luzrello.com/Projects_files/luz_rello_master_thesis_elliphant_20101201.pdf

    Procesamiento del lenguaje natural: trabajos generales

    Procesamiento del lenguaje natural: manuales

    El tratamiento computacional de los niveles de anlisis lingsticoJoaquim Llisterri, Departament de Filologia Espanyola, Universitat Autnoma de Barcelonahttp://liceu.uab.cat/~joaquim/language_technology/NLP/PLN_analisis.html

    Last updated: 10/11/15 12:07

    This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 License.

    http://creativecommons.org/licenses/by-nc-sa/3.0/http://creativecommons.org/licenses/by-nc-sa/3.0/http://liceu.uab.cat/~joaquim/home.htmlhttp://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#textbookshttp://liceu.uab.cat/~joaquim/language_technology/HLT/HLT_Gen_Bib.html#General_referenceshttp://www.luzrello.com/Projects_files/luz_rello_master_thesis_elliphant_20101201.pdfhttp://lvtc.webs.uvigo.es/blog/natural-language-processing-brains-computershttp://pers-www.wlv.ac.uk/~le1825/http://books.google.es/books?id=zBmom42eWPcC