reunião pln-br 2008 renata vieira. introduÇÃo a unisinos concentrou atividades relacionadas à...
TRANSCRIPT
Reunião PLN-BR 2008Renata Vieira
INTRODUÇÃO
A UNISINOS concentrou atividades relacionadas à anotação lingüística de corpus com ênfase em anotação semântica e de discurso. As atividades desenvolvidas e os resultados principais são apresentadas a seguir.
Relatório PLN-BR 2008
1) Elaboração do esquema de anotação XCES Um esquema XML para anotação lingüística seguindo o
padrão XCES foi definido para incorporar anotações de diferentes níveis lingüísticos (sintáticas, de correferência e estruturais).
<struct type="token" from="0" to="1"> <feat name="id" value="t1"/> <feat name="base" value="A"/></struct>....<struct type="token" from="30" to="31"> <feat name="id" value="t7"/> <feat name="base" value="."/></struct>
Arquivo de Codificação das palavras
XCES
<struct type="pos"> <feat name="id" value="pos1"/> <feat name="class" value="art"/> <feat name="gender" value="F"/> <feat name="number" value="S"/> <feat name="canon" value="o"/> <feat name="complement" value="artd"/> <feat name="tokenref" value="t1"/> </struct>....<struct type="pos"> <feat name="id" value="pos6"/> <feat name="class" value="adj"/> <feat name="gender" value="F"/> <feat name="number" value="P"/> <feat name="canon" value="verde"/> <feat name="tokenref" value="t6"/> </struct>
<struct type="text" from="t1" to="t7"/><struct type="sentence" from="t1" to="t7"/> <feat name="id" value="s1"/> <feat name="head" value="t5"/></struct>...<struct type="NP" from="t5" to="t6"> <feat name="id" value="phr3"/> <feat name="function" value="p"/> <feat name="head" value="t5"/></struct>
Arquivo de Informações Estruturais Sintagmáticas
Arquivo de Informações Morfológicas
XCES
<struct type="segment" from="t1" to="t7"/> <feat name="id" value="seg1"/> <feat name="parent" value="gr1"/> <feat name="relname" value="elaboration"/></struct>...<struct type="group"/> <feat name="id" value="gr1"/> <feat name="parent" value="gr2"/> <feat name="relname" value="elaboration"/> <feat name="reltype" value="momonuc"/></struct>
<struct type="markable" from="t1" to="t2"/> <feat name="id" value="markable_1"/> <feat name="status" value="new"/></struct>...<struct type="markable" from="t7" to="t7"/> <feat name="id" value="markable_2"/> <feat name="status" value="old"/> <feat name="is_anaph" value="indirect"/> <feat name="pointer" value="markable_1"/></struct> Arquivo de Relações Retóricas
Arquivo de Informações Anafóricas
Relatório PLN-BR 2008
Um Relatório Técnico descrevendo o esquema elaborado foi escrito. Um pôster sobre questões relacionadas à anotação foi apresentado.
(Souza et al., 2006).
Relatório PLN-BR 2008
2) Elaboração de conversores TigerXML para XCES Markables para XCES
O conversor do formato RST não foi desenvolvido.
Relatório PLN-BR 2008
3) Elaboração de guias de instrução para anotação de correferência de corpus
Diretrizes de anotação foram elaboradas para preparar anotadores para anotação de um sub-corpus do PLN-BR contendo informações de correferência. Um Relatório Técnico foi escrito (Coellho et al., 2006).
Relatório PLN-BR 2008
Construção de corpus anotado Summ-it
Um sub-corpus foi construído e anotado com informações de correferência e relações retóricas (Collovini et al., 2007). O corpus serve de base para pesquisas desenvolvidas em dissertações de mestrado.
Summ-it
O corpus é formado por 50 textos jornalísticos do caderno de ciências retirados da Folha de São Paulo e disponibilizado através do projeto PLN-BR.
Construção do Corpus: Anotação Manual de Correferência 10 anotadores treinados Cada texto foi anotado por 2 pessoas e avaliado por um
anotador sênior. Processamento pelo PALAVRAS: informações
morfossintáticas Geração de Sumários Automáticos: GistSumm e SuPor-2 Construção de Sumários Manuais [Coelho, 2007] Anotação RST
Relatório PLN-BR 2008
5) Experimentos de resolução de correferência
Alguns experimentos envolvendo corpus anotado com informação de correferência foram realizados (Collovini and Vieira, 2006; Collovini and Vieira, 2006a; Collovini and Vieira, 2006b). Esses experimentos apontam para a necessidade de balanceamento de corpus e inclusão de informação semântica para resolução de correferência. Uma próxima fase de anotação irá contemplar a anotação semântica com base no Frame-Net.
Relatório PLN-BR 2008
6) Experimentos com uso de informação semântica
Experimentos de classificação de expressões referenciais foram realizados, avaliando os ganhos de aprendizado quando informações semânticas são consideradas (Coelho et al., 2006a; Vieira et al., 2006; Ribeiro et al., 2007).
Atividades previstas para 2008
1) Construção de interfaces para uso do Parser Palavras e conversores de formatos
2) Elaboração da documentação do conversor de formatos Tiger para XCES
3) Anotação Frame-Net do Summ-it
ACROPOS - Automatic Coreference ResOlution system for POrtugueSe
José Guilherme Souza
Renata Vieira
Objetivo
Resolução Automática Correferência Aprendizado de Máquina: Árvores de Decisão Baseado no Trabalho de Soon et al. 2001 Primeira abordagem de resolução automática de
correferência de sintagmas nominais de qualquer tipo para língua portuguesa.
O sistema seleciona, classifica e agrupa as expressões para montagem das cadeias.
ACROPOS
Treino
Classe Precisão Cobertura F-Measure
Anafórica 78,8 40,1 53,1
Não Anafórica 91,1 98,3 94,5
Teste
Classe Precisão Cobertura F-Measure
Anafórica 78,6 48 59,6
Não Anafórica 92,5 98 95,1
Resultados
ACROPOS
Treino
Classe Precisão Cobertura F-Measure
Anafórica 77,7 74,7 76,2
Não Anafórica 75,76 78,5 77
Teste
Classe Precisão Cobertura F-Measure
Anafórica 33 72,7 45,4
Não Anafórica 94,9 77,4 85,2
Resultados - Balanceamento
ACROPOS
MUC
Sistema Precisão Cobertura F-Measure
ACRoPos 97,14 45,11 57,96
ACRoPos Balanceado 90,30 63,16 74,08
Soon et. al 67,3 58,6 62,6
B3
Sistema Precisão Cobertura F-Measure
ACRoPos 99,31 62,87 76,76
ACRoPos Balanceado 96,20 73,49 83,14
Soon et. al 78,4 58 65,6
Resultados: Análise das Cadeias
ONTOLP: CONSTRUÇÃO SEMI-AUTOMÁTICA DE ONTOLOGIAS A PARTIR DE TEXTOS DA LÍNGUA PORTUGUESA
Mestrando: Luiz Carlos
Orientadora: Renata Vieira
INTRODUÇÃO (OBJETIVO)
Propor e avaliar técnicas para a construção automática de ontologias a partir de textos da língua portuguesa com base em técnicas já desenvolvidas para outras línguas
METODOLOGIA PROPOSTA
Corpus XCES
Extração de Termos
Organização Hierárquica dos
Termos
Taxonomia
•Formato XCES:•Token•PoS
•Morfológico•Semântico (tags semânticas)
•Phrase•Sintático
METODOLOGIA (EXTRAÇÃO DE TERMOS)
Classe GramaticalNúcleo do Sintagma Nominal
Rel. Freq. tf-idf NC-Value
Extração de Termos Simples
Filtro por Grupos Semânticos
Seleção por Grupos Semânticos
N-Grama Sintagma NominalPadrões Morfossintáticos
Extração de Termos Complexos
Rel. Freq. tf-idf NC-ValueC-Value
Rel. Freq.
Corpus XCES
Extração de Termos
Organização Hierárquica dos
Termos
Taxonomia
METODOLOGIA (ORGANIZAÇÃO HIERÁRQUICA DOS TERMOS)
Termos Complexos
Padrões de Morin/Jacquemin
Padrões de Hearst
Corpus XCES
Extração de Termos
Organização Hierárquica dos
Termos
Taxonomia
ONTOLP
Armazenadoem Disco
Armazenadoem Memória
Armazenadoem Memória
Armazenadaem Memória
Módulo de Importação do
Corpus (API XCES)
Módulo de Filtro por Grupos SemânticosMódulo de
Extração de Termos Simples
Módulo de Extração de
Termos Complexos
Módulo de Organização por
Termos Complexos
Módulo de Organização baseada
nos Padrões de Hearst e
Morin/Jacquemin
Protégé
CONSIDERAÇÕES FINAIS
Principal Dificuldade: Escassez de recursos de avaliação
Principais Contribuições: Avaliação do uso de informações semânticas
na construção de ontologias para o Português Criação de uma ferramenta de uso geral para
auxílio ao processo de construção de ontologias
Desenvolvimento dos módulos de avaliação automática das etapas executadas
CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS
Mestrando: Patricia Nunes Gonçalves
Orientadora: Renata Vieira
Foco do Trabalho
O foco deste trabalho é na análise e na recuperação da coesão referencial nos sumários extrativos que utilizam a escolha de sentenças de maior relevância do texto para compor o sumário.
OBJETIVOS
Objetivo geral é enriquecer os sumários extrativos com a aplicação de resolução de correferência utilizando a recuperação de expressões referenciais mais completas nos textos-fonte.
Tarefas Realizadas: Geração de Sumários Automáticos – GistSumm e SuPor-2 Realizar a revisão da coesão referencial automática
desses sumários Avaliar os sumários revisados de forma automática –
Rouge Avaliar os sumários revisados de forma subjetiva Realizar experimentos usando anotação automática de
correferência.
FERRAMENTAS E RECURSOS
Palavras [Bick,2002] MMAX[Muller and Strube, 2000] GistSumm[Pardo,2005] Supor-2[Leite,2007] Corpus Summ-it[Collovini et al, 2007] Rouge[Lin, 2004]
Programa de Pós-Graduação em Computação Aplicada 31
EXEMPLO
[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.
[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).
[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.
[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.
[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.
[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.
[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.
[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.
CIENCIA_2000_6389
Programa de Pós-Graduação em Computação Aplicada 32
EXEMPLO
[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.
[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).
[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.
[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.
[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.
[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.
[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.
[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.
CIENCIA_2000_6389
Programa de Pós-Graduação em Computação Aplicada 33
EXEMPLO
[S1]A discussão sobre a biotecnologia nacional está enviesada, pois está sendo entendida como sinônimo de transgenia.
[S2]A opinião é do agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina).
[S3]Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.
[S4]Com ela, aumentou-se a produção de moranguinho, no sul do país, de 3,2 kg para 60 kg por hectare.
[S5]Para o agrônomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condições da agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.
[S6]O presidente da Embrapa (Empresa Brasileira de Pesquisa Agropecuária), Alberto Portugal, salientou que a empresa busca soluções para os problemas da agricultura nacional.
[S7]Ele citou o exemplo de pesquisas que, por meio de engenharia genética, buscam obter mamão livre de vírus e feijão também resistente a vírus, culturas de interesse para exportação e consumo interno.
[S8]Portugal disse que os agronegócios correspondem a 25% do PIB brasileiro e que a biotecnologia é fundamental para manter a competitividade da agricultura.
CIENCIA_2000_6389
Programa de Pós-Graduação em Computação Aplicada 34
RESULTADO
Sumário Automático
Sumário CorrigidoO agrônomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina) citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.
Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.
CIENCIA_2000_6389
Programa de Pós-Graduação em Computação Aplicada 35
RESULTADO
Sumário Automático
Sumário CorrigidoO agrônomo Miguel Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.
Guerra citou a micropropagação de vegetais (produção de mudas em laboratório, feita para evitar doenças e selecionar vegetais saudáveis) como exemplo de biotecnologia de baixo custo.
CIENCIA_2000_6389
Utilizando 1º Aposto
MÉTODOS
Utiliza sistema de pontuação. Métodos implementados para pontuação:
Maior Sintagma - Sars (sigla em inglês para síndrome respiratória aguda grave)
Primeiro Sintagma da Cadeia - a proteína beta-amilóide.... a proteína..... ela...
Possui Aposto - a gripe de 1918, a chamada gripe espanhola
Possui Proprio – Jonas Perales do Laboratório de Toxinologia
EXPERIMENTOS
GistSumm
Supor-2
QTDE CADEIAS CORPUS
QTDE CADEIAS NO SUMÁRIO
QTDE.
TROCAS
TX COMPRESS. ORIG.(%)
TX COMPESS. CORRIG(%)
SOMA 586 330 89 - -
MÉDIA 11,72 6,60 1,78 25,30 28,36
QTDE CADEIAS CORPUS
QTDE CADEIAS NO SUMÁRIO
QTDE.
TROCAS
TX COMPRESS. ORIG.(%)
TX COMPESS. CORRIG(%)
SOMA 586 338 75 - -
MÉDIA 11,72 6,76 1,5 23,14 25,52
AVALIAÇÃO AUTOMÁTICA - ROUGE
GistSumm
SuPor-2
GISTSUMM-ORIGINAL GISTSUMM-CORRIGIDO
COBERTURA PRECISÃO F-MEASURE COBERTURA PRECISÃO F-MEASURE
MÉDIA 45,59 54,90 49,26 50,85 54,74 52,28
SUPOR-2-ORIGINAL SUPOR-2-CORRIGIDO
COBERTURA PRECISÃO F-MEASURE COBERTURA PRECISÃO F-MEASURE
MÉDIA 48,37 63,07 54,33 53,15 64,08 57,36
AVALIAÇÃO SUBJETIVA -INFORMATIVIDADE
GistSumm
Supor-2
EXPERIMENTOS
Sistema de Resolução Automática de Correferência
ANOTAÇÃO MANUAL ANOTAÇÃO AUTOMÁTICA
Nº CADEIAS
NO CORPUS
Nº CADEIAS
NO SUMÁRIO
NUM. TROCAS Nº CADEIAS
NO CORPUS
Nº CADEIAS
NO SUMÁRIO
NUM. TROCAS
SOMA 586 330 89 393 (67%) 194 (58%) 34 (40%)
MÉDIA 11,72 6,60 1,78 7,86 3,88 0,72
EXPERIMENTOS
Sistema de Resolução Automática de Correferência
Rouge
Precisão Cobertura F-measure
Originais 45,59 54,94 49,26
Cadeias
Manuais
50,85 54,74 52,28
Cadeias
Autom.
54,60 47,03 49,96
CONSIDERAÇÕES FINAIS
Enriquecimento dos sumários extrativos
Manutenção da coesão referencial dos sumários
Primeira abordagem para língua portuguesa
Construção de uma interface para usuários
WordNet Affect BR: base lexical de emoções para a língua portuguesa
Mestrando: Paulo Pasqualotti
Orientadora: Renata Vieira
Objetivos Construir uma base lexical de emoções para a
língua portuguesa denominada de WordNet Affect BR;
Propor uma ferramenta de chat com o reconhecimento das palavras de emoção presentes no diálogo entre usuários e sua representação visual por meio de imagens;
Fundamentação PLN e Computação Afetiva
Reconhecer e representar palavras de emoção. Teoria psicológica cognitiva de emoções
Modelo OCC: as emoções surgem a partir da avaliação cognitiva que um sujeito faz a partir da desejabilidade de um evento, das ações de agentes e da atratividade dos objetos.
Recursos WordNet WordNet Affect
Metodologia Criação da base; Tradução das palavras; Validação.
Ferramenta de Chat: “Emoticon”
WordNet Affect BR
289 palavras: adjetivos e substantivos; Possibilidades de estender a base
Metáforas; Bigramas, trigramas, expressões completas; Palavras regionais, gírias, ...; Gênero (a/o), número(s/p); Conjugação de verbos; Primitiva e derivadas; Caracteres “emoticons”: :-) ; ...
Avaliação
Imagens representando palavras de emoções Formulário para avaliação da imagem quanto ao seu
significado de emoções, representando o grupo de palavras.
ADJETIVOS: arrependido, contrito, penitente, pesaroso;
SUBSTANTIVOS: arrependimento, auto-reprovação, compunção, consciência pesada, culpa, penitência , remorso, sentimento de culpa.
Avaliação
Resultados
Índice de concordância
73%
22%
5%Concorda
Parcial
Discorda
Publicações
Publicações - 2006 Instruções para anotação de relações anafóricas e referência
dêitica. Autores: Jorge Cesar Coelho, Sandra Collovini e Renata Vieira. Relatório Técnico. 2006
Resolving Portuguese Nominal Anaphora. Autores: Jorge Cesar Coelho, Vinicius Muller, Sandra Collovini, Renata Vieira e Lucia Rino. PROPOR 2006
Learning Discourse-new References in Portuguese Texts. Autores: Sandra Collovini e Renata Vieira. WCC 2006.
Análise de Expressões Referenciais em Corpus Anotado da Língua Portuguesa. Autores: Sandra Collovini e Renata Vieira. CTDIA 2006
Anáforas nominais definidas: balanceamento de corpus e classificação. Autores: Sandra Collovini e Renata Vieira. TIL 2006
Proposta de um Esquema de Anotação Lingüística para Construção de Corpora Anotados da Língua Portuguesa – Autores: José Guilherme Souza, Patricia Nunes Gonçalves e Renata Vieira. TIL 2006
Semantic tagging for resolution of indirect anaphora. Autores:Renata Vieira; Eckhard Bick; Jorge César Coelho; Vinicius Muller; Sandra Collovini; José Guilherme de Souza; Lúcia Rino. SIGdial 2006.
Publicações 2007
Summ-it: um corpus anotado com informações discursivas visando à sumarização automática – Autores: Sandra Collovini de Abreu, Thiago Carbonel, Jorge Cesar Coelho, Juliana Fuchs, Lucia Rino e Renata Vieira. TIL 2007.
Informações Semânticas na Identificação de Anáforas Indiretas e Associativas. Autores: Luiz Carlos Ribeiro, Sandra Collovini, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira. TIL 2007
Publicações
PROPOR 2008 CorrefSum: Referencial Cohesion Recovery in Extractive
Summaries - Autores: Patricia Nunes Gonçalves, Lucia Rino, Renata Vieira
Using Semantic Prototypes for Discourse Status Classification Autores: Sandra Collovini, Luiz Carlos Ribeiro Junior, Patricia Nunes Gonçalves, Vinicius Muller e Renata Vieira
Automatic Coreference Resolution Applied to Portuguese Autores: José Guilherme C. de Souza, Patricia Nunes Gonçalves e Renata Vieira
SEMISH 2008 OntoLP: um Sistema de Auxilio à Engenharia de Ontologias
baseado em Textos da Língua Portuguesa - Autores: Luiz Carlos Ribeiro Jr e Renata Vieira