1 grupo sadis sumarização automática & modelagem do discurso pln-br maio2008 sumarização...
TRANSCRIPT
1
Grupo SADisSumarização Automática & Modelagem do Discurso
PLN-Br Maio2008
Sumarização Automática para a Tarefa de Recuperação de Informação Textual
Relação entre SA e RI
PLN-Br Maio2008 2
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 2
Perspectiva inicial
• 2 protótipos extrativos – GistSumm (PARDO et al., 2003; PARDO, 2005)– SuPor (MÓDOLO, 2003; RINO E MÓDOLO,
2004)
• 1 protótipo fundamental– RHeSumaRST (SENO, 2004; SENO & RINO,
2005)
PLN-Br Maio2008 3
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 3
Tarefas previstas
• Prototipação e avaliação de um buscador baseado em extratos topicais
• Verificação das características que interferem na busca
• Validação do GistSumm e suas variações no contexto da RI
PLN-Br Maio2008 4
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 4
Sistemas em perspectiva
• RecEG– Batista Jr., W.S. (2006). Dissertação de Ms
• ExtraWeb– Pedreira-Silva, P. (2006). Dissertação de Ms
PLN-Br Maio2008 5
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 5
RecEG
• Recuperação baseada em Extratos Genéricos– GistSumm (PARDO et al., 2003; Pardo, 2005)– Pseudo-relevance feedback
• Plataforma: Java
PLN-Br Maio2008 6
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 6
RecEG
1. RDoc
2. RExt
3. RDocExt
4. RFGenS
5. RFQBS
6. RFQBM
7. RFFullDoc
• CLEF 2005• Batista Jr. & Rino (2007)
– Revista Iberoamericana de Inteligencia Artificial
• Batista Jr. & Rino (2006)– TIL2006
PLN-Br Maio2008 7
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 7
ExtraWeb
• SA de textos da WEB– Apoio (ou substituição) à RI
• Ontologia do Yahoo para o PORT– Subconjunto refinado manualmente a partir de
corpus
PLN-Br Maio2008 8
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 8
Perspectivas encaminhadas (2006-)
• Modelo extrativo– SuPor SuPor-2
• Daniel Leite – IC, Ms (2008)
– IdealXtractor• Rodolfo Golombieski – ITI/PLN-Br (2007)
• Fundamental– RHeSumaRST RHeSuma-2– RHeSuma-2 VeinSum
• Thiago Carbonel – Ms (2007)• Élen Tomazela – Ms (2007)
– RAPM• Amanda Chaves – Ms (2007)
PLN-Br Maio2008 9
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 9
SuPor-2
Consistência e aplicabilidade
• Várias técnicas clássicas de AM (WEKA)• Múltiplas features do modelo do SuPor, otimizadas• Múltiplas features (SuPor-2 e Redes Complexas)
• Categorização de Textos via extratos • GoogleSets™ + SuPor-2
• Fonte de informação para construção de extratos
• Fuzzy• Supor-2 Fuzzy: Sistema Híbrido para SA extrativa
PLN-Br Maio2008 10
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 10
SuPor-2 (retreino do SuPor)
System ROUGE NGram(1,1)
SuPor-2 0,5839*TextRank+Thesaurus 0,5603TextRank+Stem+StopwordsRem 0,5426
… …Baseline 0,4963… …
* Mihalcea and Tarau (2004)
Mihalcea (2005) – TeMário
PLN-Br Maio2008 11
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 11
SuPor-2 & Redes Complexas
• Features do SuPor-2 (Leite&Rino, 06) + features de redes complexas (Antiqueira, 07)– 37 sistemas distintos
• Método automático de seleção de features (Correlation Feature Selection – Hall, 2000)
• 4 classificadores: Bayes, SVM, C4.5 e Regressão Logística
• Resultados ligeiramente superiores– SuPor-2 (0,5839)– TextRank (Mihalcea,2005)
PLN-Br Maio2008 12
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 12
SuPor-2 & Categorização de Textos
• Categorizar os extratos é menos custoso que o texto original
• Extratos– “seletores” de atributos importantes
• Avaliação– Corpus Jornal MT (855 textos de 5 categorias)– 3-fold cross validation– Stemmer Orengo
• Sumarizar para categorizar piora• Resultados ruins tb com GistSumm
PLN-Br Maio2008 13
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 13
SuPor-2 & GoogleSets
• GoogleSets (http://labs.google.com/sets)– Determinação de grupos similares de palavras
• Em conjunto com o TextRank (Mihalcea, 2005) Enriquecer o cálculo de similaridades do TextRank
– Originalmente medida dos co-senos• Thesaurus já havia sido utilizado (Leite et al., 2007)
com bons resultados
• GoogleSets não trouxe melhora significativa para o PORT– Verificar potencial para INGL
PLN-Br Maio2008 14
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 14
SuPor-2 Fuzzy
• Híbrido– Sistema de Classificação Fuzzy + Algoritmos Genéticos para
Treino
• Parte das features do SuPor-2 (12 ao todo)• Classificação Fuzzy
– Abordagem de Pittsburgh– Utilizada para avaliar sentenças candidatas
• Treino dirigido pelas medidas da ROUGE-1– Sistema retroalimentado pela medida ROUGE-1 dos extratos
que produz
• Em fase de ajustes no treino visando melhores resultados
PLN-Br Maio2008 15
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 15
SuPor-2
• Leite & Rino (2008)– PROPOR’2008
• Leite, Rino, Pardo & Nunes (2007)– Workshop on TextGraphs-2, NAACL2007
• Leite & Rino (2006)– IBERAMIA/SBIA'2006
• Leite & Rino (2006)– TIL’2006, Poster
PLN-Br Maio2008 16
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 16
IdealXtractor: Geração dos extratos ideais
Extratos ideais– Dados de referência para avaliações automáticas de
SA
PLN-Br Maio2008 17
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 17
IdealXtractorMedida do Cosseno (Salton, 1989)
K-means (Leader & Kohonen)
PLN-Br Maio2008 18
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 18
Extrato IdealTeMário-2006
PLN-Br Maio2008 19
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 19
IdealXtractor: Perspectivas
• Comparar extratos ideais– IdealXtractor– GEI (Thiago Pardo)
• Usar extratos ideais para avaliação de outros sistemas extrativos
PLN-Br Maio2008 20
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 20
VeinSum (pós RHeSuma-2)
• Reimplementação do RheSumaRST• Formato de entrada mais adequado a
acoplamentos as demais módulos de um sistema completo de SA
• Sumários nos limites da taxa de compressão• Utilização adequada do domínio de
acessibilidade referencial– Implementação da Teoria das Veias (Cristea et al.,
1998)
PLN-Br Maio2008 21
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 21
VeinSum
ÁrvoreRST
AddVeinsÁrvore
RSTanotada com veins e acc
MarcuRank Ranqueamento
RankSum
PLN-Br Maio2008 22
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 22
VeinSum
• Corpus Summ-it– Subconjunto de 12 textos (Collovini et al., 2007)– Apenas SNs definidos
• Corpus anotado com CCRs– Guidelines e ferramenta de suporte: MMAX
(Müller & Strube, 2001)– Anotação em XML
• Corpus anotado com estruturas retóricas (RST) – Guidelines (Carlson & Marcu, 2001)– Ferramenta de suporte: RSTTool (O´Donnel, 2000)
PLN-Br Maio2008 23
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 23
VeinSum
• Informatividade– Avaliação subjetiva– ROUGE-1
PLN-Br Maio2008 24
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 24
PLN-Br Maio2008 25
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 25
AVALIAÇÃO DA INFORMATIVIDADE – MEDIDA ROUGE
PLN-Br Maio2008 26
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 26
VeinSum
• Collovini et al. (2007)• Carbonel, Pelizzoni & Rino (2007)
– TIL2007
• Pelizzoni, Carbonel & Rino (2006)– LREC 2006– Alignment for Black-Box Evaluation
• Carbonel et al. (2006)– TIL2006
• Várias outras– GEL, INPLA, SILEL
PLN-Br Maio2008 27
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 27
RAPM
• Algoritmo de Mitkov algorithm– AR do PORT– Indicadores de antecedentes de Mitkov
• Adaptados ao PORT
• Gêneros distintos– Thiago Coelho – Ms
• Algoritmo de Lappin e Leass
– Corpora jurídico, literário e jornalístico
PLN-Br Maio2008 28
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 28
RAPM: Avaliação geral
8 versões diferentes
Taxa de sucesso (%)
RAPM_8 67,01
RAPM_3 66,02
RAPM_6_NNP 64,94
RAPM_6_PN 63,40
RAPM_2 62,50
RAPM_5 61,45
RAPM_4 61,21
RAPM_6_SP 60,26
PLN-Br Maio2008 29
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 29
RAPM vs. Algor. Lappin & Leass
Corpus RAPM_8 Coelho (2005)
Jornalístico 67,01 43,56
Literário 38 31,32
Jurídico 54 35,15
Taxa de sucesso (%)
PLN-Br Maio2008 30
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 30
RAPM: Avaliação geral
8 versões diferentes
RAPM_8
• FNP = First NP• LR = Lexical Reiteration• INP = Indefinite NP• PNP = Prepositional NP• RD = Referential Distance • SP = Syntactic Parallelism• NNP = Nearest NP• PN = Proper Noun
PLN-Br Maio2008 31
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 31
RAPM
• Chaves &Rino (2008)– PROPOR’2008
• Chaves & Rino (2007)– VI Encontro de Lingüística de Corpus
PLN-Br Maio2008 32
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 32
Síntese: Produção escrita
• Participação em concursos– CLEF 2005
• Artigos revistas (1)• Revista Iberoamericana de Inteligencia Artificial
• Artigos conferências internacionais– PROPOR2008, NAACL2007,
IBERAMIA/SBIA'2006, LREC2006 (5)
• Artigos conferências nacionais– TIL2006 (3)– TIL2007 (2)
• Outras (GEL, INPLA, SILEL)
PLN-Br Maio2008 33
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 33
Síntese: Sistemas automáticos
• Sumarizadores extrativos (n, n>4)• Gerador de extrato ideal (1)
• Sumarizador fundamental (1)• Resolvedor de anáforas pronominais (1)
PLN-Br Maio2008 34
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 34
Síntese: Corpora
• Summ-it em suas diversas formas– Manualmente anotado com infos referenciais– Manualmente anotado com RST
• Árvores RST dos 50 textos do Summ-it• Adição de conhecimento especialista (RhetDB)
– Árvores RST dos 50 textos do Summ-it com infos subjetivas do analista de discurso, especialista em RST
– Extratos (grupos de 50)• VeinSum, GistSumm, SuPor-2
PLN-Br Maio2008 35
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 35
Síntese: Realizado vs. proposta original
Foco em RI• Abandonada (temporariamente, talvez)
• Novas perspectivas– Aprimoramento dos sumarizadores automáticos
extrativos– Exploração de novos métodos extrativos– Produção de dados e recursos diversos
– Proposta de novo sumarizador profundo (RST + Teoria das Veias)
PLN-Br Maio2008 36
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 36
Perspectivas futuras
Foco em RI– Talvez?
• Tarefas de avaliação mais robustas e escaláveis• Perspectiva de construção de um sumarizador
fundamental completo– Acoplamento do VeinSum ao DiZer?
• Agregação de conhecimento e experiência– Grupo da PUC-RS– Grupo do ICMC-USP
PLN-Br Maio2008 37
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 37
FIMFIM
PLN-Br Maio2008 38
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 38
SuPor-2 para Categorização de Textos
C4.5Naive-Bayes
72.950894.379470
-94.847850
79.039896.604230
79.391196.60420*
Taxa de AcertoTaxa de Compressão
PLN-Br Maio2008 39
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 39
Élen
• Objetivo: Utilizar as etiquetas semânticas provenientes do parser PALAVRAS (Bick, 2000) para o reconhecimento automático de termos co-referentes em prol da manutenção coesiva em sumários produzidos automaticamente.
• Tarefas realizadas até o momento– Investigação das etiquetas providas pelo parser;– Levantamento de possíveis problemas de
reconhecimento automático de Cadeias de Co-referência (CCRs);
PLN-Br Maio2008 40
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 40
Problemas encontrados até o momento
• não existe uma ontologia pronta que mostre a real hierarquia entre as etiquetas;– ex.: como se dará o reconhecimento entre itens
como: alvo (Labst) e mira (act-d)?• Inconsistências entre etiquetas;
– ex: gás carbônico (cm-chem) e CO2 (mat)• A maioria das entidades mencionadas utilizadas no
corpus Summ-it (Collovini, 2007) não é etiquetada pela ferramenta;– ex: Brasil (sem etiqueta); Tailândia (inst)
instituição;
PLN-Br Maio2008 41
Gru
po S
AD
isS
um
ari
zação A
uto
máti
ca
& M
od
ela
gem
do D
iscu
rso
PLN-Br Maio2008 41
Problemas encontrados até o momento
• Desambiguação “ineficiente”;– ex: a física nuclear Eva Maria – física (domain)
• Impossibilidade de uso da WordNet-Br para a identificação de hipônimos e hiperônimos, sendo que a sua base de dados só engloba os verbos até o momento; – ex: canídeos (Adom) e cachorros (Azo)
• Alguns itens lexicais não são identificados corretamente como uma única unidade;– ex: vaso sangüíneo é etiquetado como: vaso
(container) e sangüíneo não recebe etiqueta