![Page 1: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/1.jpg)
Sistemas de Pergunta e Resposta
Equipe:Artur Luis do Nascimento
Eudes Pimentel CanutoMarcelo Victor Calado de Sousa Costa
Márcio Bernardino Fernandes Lima da Cunha
![Page 2: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/2.jpg)
Roteiro
• Introdução• Motivação• Histórico • Sistemas de Pergunta-Resposta• Sistemas de Pergunta-Resposta
Atuais• Estudo de Caso• Conclusão
![Page 3: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/3.jpg)
Introdução
• Um sistema de Pergunta-Resposta é um programa capaz de receber como entrada uma pergunta em linguagem natural e retornar a resposta esperada.
• A base de dados pesquisada pode conter dados estruturados ou documentos sem nenhuma estruturação.
![Page 4: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/4.jpg)
Motivação
• O usuário deseja fazer uma pergunta em linguagem natural e obter a resposta correta no contexto do documento onde ela ocorre.
• Os engenhos de busca convencionais negligenciam a semântica da pergunta e dos documentos indexados, o que os torna inadequados para esse tipo de aplicação.
![Page 5: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/5.jpg)
Histórico
• Em 1965, vários sistemas de Pergunta-Resposta foram analisados:– Front-ends em Linguagem Natural para
Bancos de Dados• Ex: Baseball, Lunar
– Sistemas de Diálogo Interativo• Ex: Jupiter
– Compreensão de Texto• QUALM
• Normalmente usavam bases proprietárias
![Page 6: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/6.jpg)
Recuperação de Informação
• É o processo de recuperar de uma base documentos relevantes.
• RI está relacionada com sistemas de pergunta-respostas.
• Sistemas de RI retornam documentos, e não respostas objetivas.
![Page 7: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/7.jpg)
Recuperação de Informação
• RI é relevante para sistemas de pergunta-resposta por dois motivos principais:– As técnicas tradicionais de RI foram
estendidas para não só retornar documentos relevantes.
– A comunidade de RI desenvolveu uma sólida metodologia para avaliação dos seus sistemas.
![Page 8: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/8.jpg)
Extração de Informação
• Consiste em uma atividade de preencher templates pré-definidos a partir de documentos em linguagem natural.
• EI pode ser vista como uma forma limitada de sistemas de pergunta-resposta.
![Page 9: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/9.jpg)
Arquitetura Genérica
Usuário
Documentos
Referências aos Documentos
Consulta
Trechos Candidatos
Representação da Pergunta
Representação da Pergunta
Resposta
Pergunta
Análise da Pergunta
Seleção de Documentos Candidatos
Pré-Processamento da Coleção de Documentos
Extração das Respostas
Contrução do Resultado
Coleção de Documentos
Modelo do Usuário
Contexto do Diálogo
Documentos Pré-Processados
Resposta Candidata
![Page 10: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/10.jpg)
Análise da Pergunta
• A pergunta precisa ser convertida num formato (ou em alguns formatos).
• A pergunta pode ser interpretada: – No contexto de um diálogo em
andamento.– Sob a óptica de um modelo do usuário
que o sistema eventualmente possua.
![Page 11: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/11.jpg)
Análise da Pergunta
Usuário
Documentos
Referências aos Documentos
Consulta
Trechos Candidatos
Representação da Pergunta
Representação da Pergunta
Resposta
Pergunta
Análise da Pergunta
Seleção de Documentos Candidatos
Pré-Processamento da Coleção de Documentos
Extração das Respostas
Contrução do Resultado
Coleção de Documentos
Modelo do Usuário
Contexto do Diálogo
Documentos Pré-Processados
Resposta Candidata
![Page 12: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/12.jpg)
Pré-Processamento da Coleção de Documentos
• A coleção de documentos precisa ser processada a priori para que seja convertida num formato adequado para o processamento em tempo real.
![Page 13: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/13.jpg)
Pré-Processamento da Coleção de Documentos
Usuário
Documentos
Referências aos Documentos
Consulta
Trechos Candidatos
Representação da Pergunta
Representação da Pergunta
Resposta
Pergunta
Análise da Pergunta
Seleção de Documentos Candidatos
Pré-Processamento da Coleção de Documentos
Extração das Respostas
Contrução do Resultado
Coleção de Documentos
Modelo do Usuário
Contexto do Diálogo
Documentos Pré-Processados
Resposta Candidata
![Page 14: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/14.jpg)
Seleção de Documentos Candidatos
• Um subconjunto do total dos documentos da base é selecionado.
![Page 15: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/15.jpg)
Seleção de Documentos Candidatos
Usuário
Documentos
Referências aos Documentos
Consulta
Trechos Candidatos
Representação da Pergunta
Representação da Pergunta
Resposta
Pergunta
Análise da Pergunta
Seleção de Documentos Candidatos
Pré-Processamento da Coleção de Documentos
Extração das Respostas
Contrução do Resultado
Coleção de Documentos
Modelo do Usuário
Contexto do Diálogo
Documentos Pré-Processados
Resposta Candidata
![Page 16: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/16.jpg)
Extração das Respostas
• Através da utilização de representações adequadas da pergunta e de cada documento candidato, as respostas candidatas são extraídas e repassadas ao módulo seguinte.
![Page 17: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/17.jpg)
Extração das Respostas
Usuário
Documentos
Referências aos Documentos
Consulta
Trechos Candidatos
Representação da Pergunta
Representação da Pergunta
Resposta
Pergunta
Análise da Pergunta
Seleção de Documentos Candidatos
Pré-Processamento da Coleção de Documentos
Extração das Respostas
Contrução do Resultado
Coleção de Documentos
Modelo do Usuário
Contexto do Diálogo
Documentos Pré-Processados
Resposta Candidata
![Page 18: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/18.jpg)
Construção do Resultado
• Esse módulo recebe as respostas candidatas e deve ordená-las.
• O resultado que é retornado ao usuário pode ser influenciado: – Pelo contexto de um possível diálogo
em andamento.– Pelo modelo do usuário que o sistema
eventualmente tenha.
![Page 19: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/19.jpg)
Construção do Resultado
Usuário
Documentos
Referências aos Documentos
Consulta
Trechos Candidatos
Representação da Pergunta
Representação da Pergunta
Resposta
Pergunta
Análise da Pergunta
Seleção de Documentos Candidatos
Pré-Processamento da Coleção de Documentos
Extração das Respostas
Contrução do Resultado
Coleção de Documentos
Modelo do Usuário
Contexto do Diálogo
Documentos Pré-Processados
Resposta Candidata
![Page 20: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/20.jpg)
Sistemas de Pergunta-Resposta Atuais
• As primeiras pesquisas na área de Pergunta-Resposta foram desenvolvidas em meados dos anos 60.
• Desde então, pesquisas na área com focos diferentes foram realizadas.
![Page 21: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/21.jpg)
Sistemas de Pergunta-Resposta Atuais
• Atualmente, a maior parte das pesquisas na área tem um escopo bem definido:– Desenvolver sistemas capazes de responder
as perguntas dos usuários através de busca numa coleção de documentos não-estruturados.
• Essa tendência é motivada principalmente pelas competições anuais organizadas pelo TREC.
![Page 22: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/22.jpg)
Arquitetura de Sistemas de PR Atuais
• Dois módulos normalmente não estão presentes:– Contexto do Diálogo– Modelo do Usuário
• Não são necessários para que os tipos de perguntas que os sistemas tratam atualmente sejam respondidas.
![Page 23: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/23.jpg)
Contexto do Diálogo
• O Sistema deve guardar informações relativas as perguntas anteriores.
• Exemplo:– Quando foi o decretado o impeachment de
Fernando Collor?• Em 1992.
– Qual foi a importância da participação popular para isso?
• ...
![Page 24: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/24.jpg)
Modelo do Usuário
• Busca da informação baseada no perfil do usuário.
• Exemplo:– Um usuário que em seu perfil é fã de futebol
faz a seguinte pergunta ao sistema:• Quem foi o campeão brasileiro de 1987?
– SPORT
![Page 25: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/25.jpg)
Arquitetura de Sistemas de PR Atuais
• Tem o objetivo de responder uma pergunta mediante pesquisa em uma base de documentos não-estruturados.
• Geralmente apresentam 7 módulos:– Análise da Pergunta, Pré-Processamento da
Coleção de Documentos, Seleção de Documentos Candidatos, Extração das Respostas e Construção do Resultado.
• Como foi destacado anteriormente, não costumam possuir os módulos que armazenam o contexto do diálogo em andamento e o modelo do usuário.
![Page 26: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/26.jpg)
Arquitetura de Sistemas de PR Atuais
Usuário
Documentos
Referências aos Documentos
Consulta
Trechos Candidatos
Representação da Pergunta
Representação da Pergunta
Resposta
Pergunta
Análise da Pergunta
Seleção de Documentos Candidatos
Pré-Processamento da Coleção de Documentos
Extração das Respostas
Contrução do Resultado
Coleção de Documentos
Documentos Pré-Processados
Resposta Candidata
![Page 27: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/27.jpg)
Análise da Pergunta
Análise
da
Pergunta
Pergunta Representação da Pergunta
Usuário
• Entrada: uma pergunta expressa em linguagem natural realizada pelo usuário e taxonomia de tipos.
• Saída: uma ou mais representações da pergunta, que serão usadas em fases subseqüentes.– Identificação de sua taxonomia.
Taxonomia de Tipos
![Page 28: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/28.jpg)
Análise da Pergunta
• Como forma de simplificar o processamento, podem-se impor restrições à linguagem utilizada.
• Utilizando um subconjunto da linguagem natural, com limitações sobre o vocabulário e a sintaxe.
• Apresentando ao usuário um formulário com campos pré-definidos, através do qual ele deve construir sua pergunta.
Simplifica enormemente o processo de interpretação da pergunta.Limita bastante a expressividade das perguntas que o usuário pode formular.
![Page 29: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/29.jpg)
Análise da Pergunta
• Classificação da pergunta de acordo com uma taxonomia de tipos semânticos da entidade procurada pela pergunta.
• Determinação de novas restrições sobre a entidade de resposta. Por exemplo:– Identificação de palavras-chave na pergunta
que serão usadas no processo de casamento com sentenças que contêm as respostas candidatas;
– Identificação de relações (sintáticas e semânticas) que podem existir entre uma entidade na resposta candidata e entidades presentes na pergunta.
![Page 30: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/30.jpg)
Taxonomia de Tipos de Pergunta
• Servem para classificar as perguntas dos usuários no sistema.
• Pode ser complexa ou simples:– Sendo essa escolha uma decisão de projeto
que deve ser analisada pela equipe de pesquisa e desenvolvimento do sistema.
• Devem ser suficientemente genéricas para cobrir todas as possíveis perguntas dos usuários.
![Page 31: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/31.jpg)
Taxonomia de Tipos de Pergunta
• As perguntas são classificadas de acordo com essa lista segundo dois métodos:– indução de regras de decisão – um algoritmo heurístico baseado em regras
• Exemplos de categorias:• Pessoa• Lugar• Data• Numero• Definição• Organização• ...
![Page 32: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/32.jpg)
Taxonomia de Tipos de Pergunta
Exemplo de taxonomia de tipos complexa apresentada por Pasça e Harabagiu
![Page 33: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/33.jpg)
Taxonomia de Tipos de Pergunta
• Construção de taxonomia de tipos complexas envolve vários passos, além da utilização de ferramentas léxico-semânticas como o WoedNet.
![Page 34: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/34.jpg)
Classificação da Pergunta
• Uma vez criada uma taxonomia dos possíveis tipos de pergunta, é necessário um algoritmo para efetivamente realizar a classificação.
• Uma abordagem bastante intuitiva para a classificação é observar a principal palavra interrogativa da pergunta, a wh-word.
• Por exemplo:– quando indica a procura por uma data– onde por um lugar– quem por uma pessoa– ...
![Page 35: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/35.jpg)
Classificação da Pergunta
• Entretanto, essa abordagem pode não ser suficiente, já que várias das wh-words, como qual ou que, não contêm muita informação sobre o tipo semântico da resposta. Por exemplo:– Qual o nome da capital da Itália?– Qual é o carro mais rápido do mundo?– Qual era a nacionalidade de Che Guevara?
• São iniciadas pela mesma wh-word (“qual”)• Porém procuram por uma entidade diferente:
– Lugar– Objeto– Nacionalidade,
![Page 36: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/36.jpg)
Classificação da Pergunta
• Para isso são necessárias técnicas para classificação da pergunta:– Técnicas Heurísticas– Técnicas Baseadas em Aprendizagem de
Máquina
![Page 37: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/37.jpg)
Técnicas Heurísticas
• A maioria dos trabalhos na área de Pergunta-Resposta utiliza abordagens essencialmente heurísticas para a classificação das perguntas.
• Essa técnica apresenta a vantagem de ter uma implementação bastante simples e um alto grau de precisão na classificação.
• O framework geral de algoritmos baseados nessas técnicas será mostrado a seguir:
![Page 38: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/38.jpg)
Técnicas Heurísticas – Passo 1
• Através da análise da wh-word da pergunta, tentar inferir imediatamente o tipo de resposta esperado.
• Através dessa regra de associação simples é possível classificar perguntas iniciadas por wh-words que são boas discriminantes, como:– ‘por que’ (indica uma razão) – ‘onde’ (lugar) – ‘quando’ (data)– ...
![Page 39: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/39.jpg)
Técnicas Heurísticas – Passo 2
• Caso o tipo não possa ser completamente determinado no Passo 1, através da utilização de um parser, o núcleo do primeiro sintagma nominal da pergunta após a wh-word é extraído de forma a se determinar a que classe ele está associado.
• Exemplo:– Qual é a capital do Brasil?– O sintagma nominal após a wh-word é “... é a
capital do Brasil”, cujo núcleo é “capital”.– Através da utilização de uma ferramenta que
consegue mapear palavras em tipos semânticos, um sistema de Pergunta-Resposta poderia classificar a pergunta acima na classe “Lugar”.
![Page 40: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/40.jpg)
Técnicas de Aprendizagem de Máquina
• Apesar da aplicação de técnicas heurísticas, como aquelas apresentadas na seção anterior, ser uma abordagem clássica para o problema de classificação da pergunta, existem trabalhos que propõem técnicas diferentes.
• Utilizada, tanto para construção da taxonomia de tipos quanto para a classificação das perguntas.
![Page 41: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/41.jpg)
Técnicas de Aprendizagem de Máquina
• A taxonomia é construída em dois níveis de hierarquia:– O primeiro nível, mais genérico, possibilita
que a classificação seja realizada mais facilmente
– As classes definidas no segundo nível provêem uma especificação mais precisa das categorias.
• O classificador pode utilizar um conjunto de treinamento com cerca de 6.000 perguntas manualmente classificadas.
![Page 42: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/42.jpg)
Outras Etapas de Análise da Pergunta
• Uma vez identificado o tipo da entidade procurada, o restante do processo de análise da pergunta se resume a identificar restrições adicionais a que as respostas candidatas deverão satisfazer.
• Esse processo pode ser realizado através da extração de palavras-chave do restante da pergunta, que serão usadas no casamento da pergunta com as sentenças que contêm as respostas candidatas.– Esse conjunto de palavras-chave pode,
adicionalmente, ser expandido através do uso de sinônimos ou palavras relacionadas
![Page 43: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/43.jpg)
Pré-Processamento da Coleção de Documentos
• Como as perguntas devem ser processadas em tempo real através de pesquisas em coleções de documentos de texto da ordem dos gigabytes, um pré processamento off-line dos dados é necessário.
• Alto custo da estrutura computacional necessária para se manter uma base com as informações vindas desse pré-processamento.
• O processamento sobre a coleção de documentos geralmente é realizada por engenhos de busca.
![Page 44: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/44.jpg)
Seleção de Documentos Candidatos
• Responsável pela identificação dos documentos que provavelmente contém a resposta para a pergunta do usuário
• Escolha do tipo de engenho de busca
![Page 45: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/45.jpg)
Seleção de Documentos Candidatos
• Principais componentes desse módulo
– Construtor de Queries• responsável por construir queries eficazes a partir
da pergunta do usuário, que serão enviadas ao(s) engenho(s) de busca utilizado(s).
– Seletor de Trechos• deve selecionar, a partir dos documentos
recuperados, as passagens que mais provavelmente contêm as respostas.
![Page 46: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/46.jpg)
Construtor de Queries
•Papel fundamental em qualquer sistema de pergunta-resposta
•Deve ser capaz de recuperar documentos onde a resposta procurada ocorra sob diversas construções diferentes
![Page 47: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/47.jpg)
Construtor de Queries
• Modificação de Verbos• Expansão de Termos• Remoção de Palavras Irrelevantes
(Stopwords)• Identificação de Termos Compostos• Reescrita da Pergunta
![Page 48: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/48.jpg)
Modificação de Verbos
• Em perguntas em inglês com um verbo auxiliar “do” e um verbo principal, a resposta deve ocorrer num trecho que contém o verbo principal na forma conjugada. Ex.: “When did Nixon visit China?”
• Dessa forma, uma query poderia ser construída com os termos “Nixon visited China in...”.
![Page 49: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/49.jpg)
Expansão de Termos
• Dada uma pergunta, é possível que os trechos de documentos com sua resposta contenham sinônimos de termos usados na pergunta, ou palavras semanticamente relacionadas a esses termos
• Por exemplo, se uma pergunta foi identificada como sendo da categoria INTERVALO DE TEMPO, os seguintes termos são adicionados à query: horas, minutos, semanas, ...
![Page 50: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/50.jpg)
Remoção de Palavras Irrelevantes (Stopwords)
• Palavras como pronomes, artigos, preposições, conjunções e interjeições são removidas
• Além da exclusão de stopwords, pode haver também a exclusão de palavras comuns
![Page 51: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/51.jpg)
Identificação de Termos Compostos
• Alguns termos compostos, como os substantivos próprios, são atômicos e devem ser tratados dessa forma
• Esses termos podem ser identificados através de:– Identificação de expressões entre
aspas ou iniciadas por letra maiúscula na pergunta
– Identificação de sintagmas nominais. Ex.: “What is question answering?” -> “question answering”
![Page 52: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/52.jpg)
Reescrita da Pergunta
• É feita através da movimentação das palavras, cujo objetivo é achar a ordem em que a resposta poderá ocorrer
• Duas formas de movimentações:– Entre sujeito e verbo auxiliar
• Ex.: “Who was the first American in space?” ->“was the first American in space” e
“the first American in space was”
– Entre sujeito e verbo• Ex.:“Who shot JFK?” -> “shot JFK”
![Page 53: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/53.jpg)
Seleção de Trechos Candidatos
• É necessário que se selecionem os trechos dos documentos selecionados que serão posteriormente processados, em busca de possíveis respostas para a pergunta do usuário
• Pode ser realizada de duas formas: – Utilização dos resumos de documentos
retornados pelos engenhos de busca – Busca, no documento inteiro, de trechos
que foram julgados importantes.
![Page 54: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/54.jpg)
Busca de Trechos Candidatos no Documento
• A identificação desses trechos é feita através de variações da seguinte técnica: define-se uma janela de tamanho fixo e ordenam-se as janelas de acordo com a quantidade de termos importantes que elas contêm
• Quantidade de termos importantes– Regras simples– Métodos mais sofisticados como idf
(inverse document frequency)
![Page 55: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/55.jpg)
Utilização de Resumos dos Engenhos de Busca
• Diversos sistemas de Pergunta-Resposta utilizam apenas os resumos retornados pelos engenhos de busca para localizar respostas para a pergunta do usuário
• Principais Vantagens– Eficiência– O processo de identificação de trechos
candidatos é simplificado
![Page 56: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/56.jpg)
Extração das Respostas
• Deve ser capaz de efetuar a identificação de possíveis respostas nos trechos selecionados.
• Existem duas tendências neste módulo– Baseada no uso de técnicas e
ferramentas lingüísticas– Baseada no uso de padrões superficiais
de texto
![Page 57: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/57.jpg)
Técnicas Lingüísticas
• Uma das técnicas lingüísticas mais utilizadas é, através do uso de named entity recognizers.Ex.:Pergunta: Quem é o presidente da Venezuela?Trecho Candidato: Hugo Chávez, atual presidente da Venezuela, é conhecido por...
![Page 58: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/58.jpg)
Técnicas Baseadas em Padrões de Texto
• Os trechos candidatos são comparados com uma série de indicadores (padrões) pré-definidos, que têm pesos associados previamente
• Esses padrões têm estrutura similar à de expressões regulares adicionando-se elementos correspondentes a listas de termos
![Page 59: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/59.jpg)
Técnicas Híbridas
• Há um problema com o uso de padrões puramente textuais
• Têm surgido trabalhos com o objetivo de tornar a técnica de padrões mais genérica. São usadas ferramentas de processamento de linguagem natural, como named entity recognizers em conjunto com padrões
![Page 60: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/60.jpg)
Construção do Resultado
• Tem como função construir uma lista ordenada com as respostas candidatas, de acordo com a probabilidade de cada uma ser a correta. Apresenta duas técnicas:– Normalização das respostas– Ordenamento das respostas
![Page 61: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/61.jpg)
Normalização das Respostas
• Respostas candidatas semanticamente idênticas (ou equivalentes) podem estar escritas de formas diferentes
• Torna-se necessária a normalização (único formato) dessas respostas para posteriormente elas serem ordenadas
![Page 62: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/62.jpg)
Ordenamento das Respostas
• Técnicas– Votação– Votação + Outras Técnicas
• Associação de pesos ao trecho que contém a resposta candidata
• Conceito de qualidade ou autoridade dos documentos (Google)
• ...
• Apresentação da resposta
![Page 63: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/63.jpg)
Pergunte!Uma Interface em Português para
Pergunta-Reposta na Web
![Page 64: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/64.jpg)
Pergunte!
• Sistema PR voltado para Língua Portuguesa
• Trabalho de Mestrado de Juliano RabeloCIn – UFPE 2004
• Utiliza a Web como fonte de informação
![Page 65: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/65.jpg)
Arquitetura do Pergunte!
![Page 66: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/66.jpg)
Módulo de Análise da pergunta
• Entrada: Uma pergunta em linguagem natural sem restrições– Como o sistema não possui módulos de perfil do
usuário nem de suporte a diálogo a pergunta submetida não é acompanhada de entradas implícitas.
• Saída: Conjunto de representações da pergunta que serão utilizadas nos estágios subseqüentes.– Classe da pergunta – Termos atômicos– Classes morfológicas das palavras
![Page 67: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/67.jpg)
Exemplo do processamento do módulo
![Page 68: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/68.jpg)
Detalhamento do módulo 1/3
•Classificação das Perguntas–Definição da Taxonomia de Tipos
•12 categorias: Localização, Data, Quantidade, Razão, Porque_Famoso, Modo, Definição, Tradução, Função, Abreviação, Abreviação_Expansão e Nome
–O classificador de perguntas
![Page 69: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/69.jpg)
Detalhamento do Módulo 2/3
• POS-Tagging– Atribuição de classes morfológicas – POS-Tagger treinado para português- Utilização dentro do próprio módulo
(classificação) e no módulo de seleção de documentos candidatos (Const. De Queries)
– Diversas técnicas de implementação de POS-Taggers:
• Baseadas em métodos estatísticos• Modelos de Markov• Árvores de decisão estatísticas• Baseadas em regras
![Page 70: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/70.jpg)
Detalhamento do Módulo 3/3
• Identificação de termos atômicos– Utilização de Heurísticas para
determinação dos termos– Representação da pergunta desse
submódulo serve de entrada para os módulos:
• Seleção de documentos candidatos• Módulo de extração de respostas
– Alguns termos sem identificação• Solução: Utilização de ferramentas linguísticas como
parsers ou NP-Chunkers.
![Page 71: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/71.jpg)
Módulo de Seleção de Documentos Candidatos
![Page 72: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/72.jpg)
Módulo de Seleção de Documentos Candidatos
• Iteração com os engenhos de busca
• Construção de Queries– Papel fundamental em qualquer
sistema de Pergunta-Resposta– Construção de várias queries
diferentes• Reescrita da Pergunta• Termos atômicos • Termos simples
Ordem de relevância
![Page 73: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/73.jpg)
Módulo de Seleção de Documentos Candidatos
• Várias queries• Reescrita da pergunta (mais restritivas, porém mais
precisas)– Ex: Qual é o princípio ativo do Tylenol?– “é o princípio ativo do Tylenol”– “o princípio ativo do Tylenol é”– “o princípio ativo do Tylenol”
• Termos atômicos– Ex: Quem escreveu “O Encontro Marcado”?– “escreveu” AND “O Encontro Marcado”
• Termos simples– “escreveu” AND “Encontro” AND “Marcado”
![Page 74: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/74.jpg)
Módulo de Seleção de Documentos Candidatos
• Seleção de trechos– Utilização de resumos ou dos
documentos inteiros
– Identificação de trechos dos documentos retornados que serão utilizados no Módulo de extração de respostas.
– Uso de stoplist
![Page 75: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/75.jpg)
Módulo de Extração das Respostas
![Page 76: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/76.jpg)
Módulo de Extração das Respostas
• Usa a abordagem de padrões de texto– Não precisa de ferramentas lingüísticas
(parsers, taggers, WordNet...)– Obteve os melhores resultados nas
competições do TREC
• Padrões estáticos• Padrões dinâmicos
![Page 77: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/77.jpg)
Padrão Estático
• Pergunta: Onde está localizado o Cristo Redentor? (tipo: Localização)
• Trecho Candidato: “Construído em 1931, o Cristo Redentor fica no topo do morro do Corcovado, no Rio de Janeiro.”
• Alguns padrões correspondentes ao tipo Localização:– fica no “RESPOSTA”– se situa na “RESPOSTA”– estão localizados em “RESPOSTA”
![Page 78: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/78.jpg)
Padrão Dinâmico
• Pergunta: Quem é o recordista mundial dos 100 metros rasos? (tipo: Nome)
• Queries do tipo Reescrita da Pergunta:– “é o recordista mundial dos 100 metros rasos”– “O recordista mundial dos 100 metros rasos é”– “O recordista mundial dos 100 metros rasos”
• Trecho candidato: “Tim Montgomery, o recordista mundial dos 100 metros rasos, foi o primeiro atleta a alcançar a marca de...”
• Padrões dinâmicos construídos para a pergunta acima:– “RESPOSTA” é o recordista mundial dos 100 metros rasos– o recordista mundial dos 100 metros rasos é “RESPOSTA”– “RESPOSTA” o recordista mundial dos 100 metros rasos– o recordista mundial dos 100 metros rasos “RESPOSTA”
![Page 79: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/79.jpg)
Módulo de Construção do Resultado
![Page 80: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/80.jpg)
Módulo de Construção do Resultado
• Normalização das respostas
– Clustering das respostas candidatas• Baseado no Modelo do Espaço de Vetores
– Centróide + medida do co-seno• Datas agrupadas de maneira especial
– Ordenamento das respostas
![Page 81: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/81.jpg)
Protótipo
• Seguiu a arquitetura apresentada• Orientado a objetos em Java• Reusabilidade, extensibilidade e
modularidade• Metodologia de desenvolvimento
baseada em conceitos de XP• Alguns padrões de projeto foram
aplicados
![Page 82: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/82.jpg)
Testes
• Corpus de 417 perguntas criado a partir do TREC 11– A tradução procurou manter o nível de
dificuldade– Perguntas literalmente traduzidas
• When was the telegraph invented? • Quando o telégrafo foi inventado?
– Perguntas com pequenas adaptações• How high is Mount Kinabalu?• Qual a altura do Monte Kinabalu?
– Perguntas inteiramente reformuladas• What is the democratic party symbol?• Qual é o símbolo do PT?• What river is called “China’s Sorrow”?• Que rio é chamado de “Rio da Integração Nacional”
![Page 83: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/83.jpg)
Resultados
•Classificador de perguntas: 99,04% de acertos
–Taxonomia simples
•Sistema:
Respostas Pergunte! usando
Certas Erradas Sem Resposta
Docs. Completos 250 (59,95%) 82 (19,66%) 85 (20,38%)
Descrição 226 (54,19%) 99 (23,74%) 92 (22,06%)
![Page 84: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/84.jpg)
Conclusão
![Page 85: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/85.jpg)
Contribuições
• Criação do primeiro sistema de Pergunta-Resposta em português na Web– Pode ser estendido ou reutilizado como
um framework em sistemas de Pergunta-Resposta em português
• Construção de um corpus de perguntas em português
![Page 86: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/86.jpg)
Dificuldades encontradas
• Falta de um corpus em português• Limitação de recursos lingüísticos• Poucos documentos em português
na Web• Dificuldades de ordem técnica
– Diversas ferramentas foram utilizadas: JTidy, HttpClient, Castor, jUnit...
![Page 87: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/87.jpg)
Perguntas
?
![Page 88: Sistemas de Pergunta e Resposta Equipe: Artur Luis do Nascimento Eudes Pimentel Canuto Marcelo Victor Calado de Sousa Costa Márcio Bernardino Fernandes](https://reader036.vdocuments.pub/reader036/viewer/2022062404/552fc142497959413d8df7aa/html5/thumbnails/88.jpg)
OBRIGADO!