aquisição de relações semânticas a partir de textos da ... · há uma relação entre o artigo...
TRANSCRIPT
Aquisição de Relações Semânticas a partir de
Textos da Wikipédia
Wellington Franco¹, Vládia Pinheiro², Marcelino Pequeno¹, Vasco
Furtado²
1Departamento de Computação – Universidade Federal do Ceará –
Campus do Pici – 60455-760 – Fortaleza – CE – Brasil
2Laboratório de Engenharia do Comhecimento – Universidade de
Fortaleza – Av. Washington Soares, 1321 – 60811-905 – Fortaleza, CE
– Brasil
{jwellingtonfranco,marcel}@lia.ufc.br,
{vladiacelia,vasco}@unifor.br
Abstract. In this paper we propose a method for acquiring
semantic relations between concepts from the text of
Wikipedia documents, which makes use of an existing implicit
knowledge in hypermedia systems: links between articles. The
main distinguishing feature of the proposed method is
independent of pre-defined regular expressions, using links to
define the arguments of relations and identifying redundant
relations. The evaluation per 100 thousand Wikipedia articles
demonstrated the feasibility of the proposed method and the
results outperformed the state of the art.
Resumo. Neste artigo propomos um método para aquisição
de relações semânticas entre conceitos, a partir do texto de
documentos da Wikipédia, que faz uso de um conhecimento
implícito existente em sistemas hipermídia: os links entre
artigos. O principal diferencial do método proposto é a
independência de expressões regulares pré-definidas, o uso de
links para definição dos argumentos das relações e a
identificação de relações redundantes. A avaliação realizada
em 100 mil artigos da Wikipédia demonstrou a viabilidade do
método proposto e os resultados suplantaram o estado da
arte.
1 Introdução
Um dos desafios das pesquisas da área de Processamento de Linguagem Natural (PLN)
é prover recursos semântico-linguísticos que expressem conhecimento de mundo.
Desafio ainda maior quando consideramos a língua portuguesa [Pardo, Caseli e Nunes
2009]. Segundo [Kay 2005, p.19], há o consenso de que a compreensão de textos por
sistemas computacionais depende tanto de conhecimento de mundo como de
conhecimento linguístico. A geração de uma base de conhecimento completa,
consistente e correta, para o conhecimento genérico próprio ao senso comum representa
um desafio ainda maior do que quando lidamos com o conhecimento circunscrito a um
domínio específico.
Uma solução promissora é utilizar a Wikipédia como fonte de conhecimento
devido a confiabilidade, dinamicidade e abrangência de seu conteúdo. A Wikipédia é
uma enciclopédia multilíngue, colaborativa e com qualidade editorial comparável às
enciclopédias tradicionais [Kittur and Kraut, 2008]. Em português, a Wikipédia possui
cerca de 760 mil artigos. Muitos trabalhos propõem abordagens para aquisição de
conhecimento que utiliza a informação estruturada da Wikipédia, como os infoboxes e a
árvore de categorias [Auer and Lehmann 2007, Suchanek et al. 2008], porém o
conteúdo conceitual descrito em forma textual na enciclopédia não é capturado.
Métodos e técnicas para extração de informações de textos de documentos poderiam ser
adaptadas para extrair conhecimento dos artigos da Wikipédia. As técnicas mais
proeminentes são aprendizado de máquina [Wu and Weld 2010] e casamento de padrões
de expressões regulares [Stoutenburg et al. 2009]. O ReVerb [Fader et al. 2011], em
particular, propõe o uso de restrições léxicas, expressões regulares, e um conjunto de
features, para suplantar problemas como extração de relações pouco informativas,
irrelevantes e incoerentes. No entanto, ReVerb baseia-se na definição de features
através de aprendizagem supervisionada (portanto, necessita de um processo manual de
anotação de um conjunto de treinamento), e não identifica relações redundantes.
Neste trabalho nos propomos a superar esses obstáculos, Apresentamos um
método para aquisição de relações semânticas entre conceitos, a partir do texto de
documentos da Wikipédia, que faz uso de um conhecimento implícito existente na
Wikipédia e em sistemas hipermídia: os links entre artigos. Ao longo do texto descritivo
de um artigo da Wikipédia aparecem links para outros artigos que são evidências de que
há uma relação entre o artigo corrente e o outro artigo referenciado pelo link. O método
proposto objetiva capturar a relação semântica expressa entre os artigos, o corrente e o
artigo chamado por um link, identificando relações similares através de uma medida de
similaridade semântica.
O artigo está organizado como descrito a seguir. Na seção 2, comentamos os
trabalhos relacionados existentes. Na seção 3, descrevemos o método de aquisição de
relações semânticas proposto. Na seção 4, apresentamos a avaliação realizada em uma
base de 100 mil artigos da Wikipédia e os resultados obtidos. Por fim, na seção 5,
concluímos este trabalho e discutimos algumas possibilidades para futuro
desenvolvimento.
2 Trabalhos Relacionados
Trabalhos para aquisição de conhecimento a partir da Wikipédia podem ser
divididos em dois grupos. No primeiro grupo, abordagens utilizam a estrutura da
Wikipédia como fonte de informação (p.ex. infoboxes e a árvore de categorias). A
principal desvantagem destes trabalhos é que desconsideram o conteúdo nos textos dos
artigos da Wikipédia como fonte de conhecimento. Os trabalhos a seguir são
representativos deste primeiro grupo.
A DBPedia1 é uma base semântica construída a partir da Wikipédia que
disponibiliza na Web o seu conteúdo através do formato Resource Description
1 http://wiki.dbpedia.org/About
Framework (RDF) [Beckett and McBride 2004]. O método de aquisição de
conhecimento utilizado neste projeto realiza a extração a partir do Infobox da
Wikipédia. Por exemplo, o infobox de um país traz informações como: população,
extensão geográfica, localização, etc. Na DBPedia o conceito Brasil tem a propriedade
PopulatedPlace/areaTotal, cujo valor é extraído do respectivo infobox. O projeto YAGO
[Suchanek et al. 2008] consistiu na construção automática de uma base de
conhecimento pela combinação das categorias e infoboxes da Wikipédia com as
relações taxonômicas da WordNet [Miller 1995]. Cada synset da WordNet é uma classe
na base Yago, e a hierarquia entre categorias da Wikipédia corresponde a relação de
hiperonímia na WordNet. Por exemplo, na Wikipédia tem-se a categoria “Povo norte-
americano no Japão”, a qual é associada como subClassOf da classe Pessoa da
WordNet. [Miller 1995] construiu um extrator de conceitos utilizando a estrutura da
Wikipédia. [Xavier and de Lima 2012] utiliza as categorias da Wikipédia para a
extração de novos conceitos, e os links entre conceitos da mesma categoria ou sub-
categoria para extração de relações genéricas do tipo “relacionado a”.
No segundo grupo estão as abordagens que exploram o conteúdo textual dos artigos
e os links existentes entre eles como fonte de informação. Semantic Wiki [Völkel et al.
2006] é uma extensão da Wikipédia que descreve semanticamente as ligações entre
artigos e seus links. Por exemplo, no artigo sobre a cidade de Londres tem-se o seguinte
texto: Londres é a capital da Inglaterra e do Reino Unido2, e o Semantic Wiki anota a
relação semântica ao lado do link: Londres é a capital da [[capital of::Inglaterra]] e do
[[capital of::Reino Unido]]. [Stoutenburg et al. 2009] propõe a extração de relações
entre links de artigos utilizando expressões regulares para detectar seis tipos de relações:
isA, partOf, bornOnDate, diedOnDate, bornIn e locatedIn. A definição de expressões
regulares para um conjunto restrito de relações, obviamente são adequadas para fins
específicos e, embora apresente boa precisão (em torno de 80%), possui baixa cobertura
de tipos de relações semânticas.
Wikipedia-based Open IE (WOE) [Wu and Weld 2010] propõe a extração
automática de relações do tipo (arg1, relacao, arg2) utilizando técnicas de aprendizado
supervisionado em um conjunto de exemplos etiquetados manualmente. Embora não
restrinja o conjunto de relações semânticas a serem extraídas, apresentam em torno de
36% de relações pouco informativas ou incoerentes. ReVerb [Fader et al. 2011] também
é um sistema aberto para extração de informações (Open IE System), pois não requer
um vocabulário pré-especificado. ReVerb propõe um conjunto de expressões regulares e
restrições lexicais visando reduzir a extração de relações pouco informativas,
irrelevantes e incoerentes, como as geradas por WOE. Nele pode-se definir três
expressões regulares para sintagmas verbais: (i) um verbo; (ii) um verbo seguido
imediatamente de uma preposição; (iii) um verbo seguido de nomes, adjetivos,
advérbios, e finalizando com uma preposição. Por exemplo, a partir da sentença de
entrada Hudson was born in Hampstead, which is a suburb of London, ReVerb extrai as
seguintes relações (Hudson, was born in, Hampstead) e (Hampstead, is a suburb of,
London). A aplicação pura de padrões sintáticos pelo ReVerb faz com que seu nível de
precisão seja baixo. Para melhorar este resultado, ReVerb adota 9 features ad hoc para
2 Os termos em negrito e sublinhados são links no artigo da Wikipédia
definir uma função de confiança, aprendida por um classificador. Testes comparativos
entre o ReVerb, WOE e TextRunner [Yates et al. 2007] indicaram melhoria na curva de
precisão e cobertura. As principais desvantagens do ReVerb são a dependência de
expressões regulares pré-definidas, a necessidade de análise de features para a função
de confiança para outras línguas, exigindo um processo de anotação de corpus, além de
não identificar tipos de relações redundantes. [Speer and Havasi 2012] relatam que 65%
das extrações incorretas extraídas pelo ReVerb foram casos em que o mesmo não soube
identificar corretamente os argumentos da relação.
3 Método de Aquisição Automática de Relações Semânticas
Nesta seção detalhamos um método automático de extração de relações semânticas a
partir de textos em linguagem natural presentes nos artigos da Wikipédia. As relações
extraídas expressam um relacionamento semântico entre dois conceitos c1 e c2 e podem
ser representadas na forma (c1, relacao, c2).
O principal diferencial do método proposto é a independência de expressões
regulares pré-definidas, o uso de links para definição dos argumentos das relações e a
identificação de relações redundantes. Para além destas vantagens, o método proposto
não aplica técnicas de aprendizagem supervisionada, cuja necessidade de anotação de
corpus é sempre um gargalo para avanços nas pesquisas em PLN para língua
portuguesa. A figura 1 apresenta o método proposto com as seguintes etapas: Mineração
e Seleção de Sentenças, Clusterização de Sentenças, e Aquisição de Relações
Semânticas.
Figura1:Método de Aquisição Automática de Relações Semânticas.
3.1 Mineração e Seleção de Sentenças
O objetivo desta etapa é separar e analisar as sentenças do texto de entrada (documento
da Wikipédia), gerando um conjunto de sentenças candidatas. Na primeira atividade é
realizada a preparação do documento de entrada com a aplicação de regras e parâmetros
específicos, tais como: qual segmento do texto de entrada a ser processado,
delimitadores de trechos a serem descartados, escolha de um domínio específico, etc.
Essas regras são definidas e adaptadas pelo usuário do método. A figura 2 apresenta o
artigo Agricultura e em destaque o primeiro parágrafo do mesmo. Uma regra poderia
definir, por exemplo, que o primeiro parágrafo deve ser o segmento do texto a ser
processado, pois este, em geral, apresenta uma descrição sucinta do conceito
referenciado no artigo, contendo as informações mais relevantes. Outra regra poderia,
por exemplo, definir que trechos de textos entre parênteses devem ser descartados. No
exemplo da Figura 2, não será descartado nenhum trecho do primeiro parágrafo, caso
esta última regra seja usada.
Figura 2. Screenshot do artigo Agricultura da Wikipédia em português com seu
primeiro parágrafo em destaque.
Na segunda atividade, é realizada a análise e extração de sentenças entre a
expressão que nomeia o artigo (o nome do artigo) e os links presentes no documento
preparado. Na Wikipédia, diversos links são inseridos ao longo do texto de um artigo,
os quais indiciam uma relação entre o artigo corrente e outro artigo referenciado pelo
link. Por exemplo, na Figura 2, no primeiro parágrafo do artigo Agricultura tem-se o
trecho ”Agricultura é o conjunto de técnicas utilizadas para cultivar plantas...” e a
existência dos links (sublinhados) técnicas e plantas, indiciam que há uma relação entre
Agricultura e estes conceitos, expressa pelo segmento de texto entre eles. Para extração
das sentenças, o texto é analisado por um POS tagger, que realiza a análise
morfossintática do texto, ou seja, a separação (tokenização) e classificação das palavras
e expressões (Part Of Speech) do texto. Em seguida, são extraídas sentenças do texto de
entrada no formato <artigo> <segmento_texto> <link>, onde:
<artigo> é a expressão que nomeia o artigo da Wikipédia, geralmente ocorre
no início do texto;
<segmento_texto> é o texto entre o artigo e um link, que expressa uma relação
entre <artigo> e <link>. As palavras são registradas em sua forma canônica;
<link> é a expressão marcada como um link para outro artigo da Wikipédia.
Por fim, são removidas as stop words de <segmento_texto>. Stop words são
palavras muito frequentes, que não possuem valor semântico, servindo apenas como
elementos estruturadores de uma sentença (tais como artigos, conjunções, etc) [Silva
and Ribeiro 2003]. Do texto acima, são extraídas as seguintes sentenças: (1)
<agricultura> <ser conjunto de> <técnica>; (2) <agricultura> <utilizar para cultivar>
<planta>.
Na última atividade desta etapa, realiza-se a seleção de sentenças candidatas para
extração de relações semânticas. Critérios de seleção podem ser aplicados, tais como:
existências de verbos (obrigatório), substantivos comuns, advérbios, adjetivos, ou
preposições (opcionais) em <segmento_texto>; número limite de termos em
<segmento_texto>; <artigo> e/ou <link> não sejam nomes próprios. Por exemplo, a
restrição do número limite de termos advém do fato de que <segmento_texto> com um
número excessivo de termos, por exemplo 10 (dez), indica uma complexidade estrutural
na sentença que dificultaria o processo de aquisição de conhecimento. Por exemplo, a
sentença extraída “<Arqueologia> <incluir em campo de estudo intervenção fazer por
homem em> <meio ambiente>“ é complexa o suficiente para ser classificada.
3.2 Clusterização das sentenças
Nessa etapa do método, o objetivo é identificar grupos de sentenças similares usando
algoritmos de clusterização [Veyssieres and Plant 1998]. Nosso argumento é que
muitas tipos de relações semânticas são expressas por <segmento_texto> similares e
devem ser adquiridas como relações semânticas de mesmo tipo. Na atividade de geração
de clusters considera duas medidas de similaridade entre segmentos de texto
<segmento_texto> s1 e s2. A primeira é a medida sintática Sin(s1,s2), que calcula a
porcentagem de termos idênticos em s1 e s2, descartando-se as preposições. Por
exemplo, para s1=<transmitir por> e s2=<transmitir>, como a preposição “por” é
descartada de s1, Sin(s1,s2)=1 (ou 100%). A segunda medida utilizada é a medida semântica Sem(s1,s2) (1), que define o quão
dois segmentos de textos são semanticamente similares pela média ponderada do
somatório das similaridades semânticas entre conceitos de s1 e s2. A medida proposta é
independente de qualquer medida de similaridade semântica entre conceitos. Esta
independência é interessante devido ao método proposto poder ser aplicado a qualquer
base de conhecimento.
(1) Sem(s1, s2) =
Onde:
Ɵtj é o valor de similaridade semântica entre os conceitos representados pelos
termos de T1 e T2, onde:
tj = (t1, t2), tal que t1 ∈ T1 e t2 ∈ T2
T1 é o conjunto de termos de s1
T2 é o conjunto de termos de s2
T1 x T2: produto cartesiano entre termos da mesma classe gramatical
(substantivo x substantivo, verbo x verbo) de T1 e T2
qi é a quantidade de elementos de cada classe gramatical em T1 x T2, por
exemplo, quantidade de substantivos e de verbos.
Pi é o peso da i-ésima classe gramatical
n é a quantidade de classes gramaticais em T1 x T2
Para exemplificar, sejam as seguintes sentenças candidatas “<mastigação> <obter>
<bolo alimentar>” e “<célula> <adquirir> <herança genética>”, com s1 = <obter> e s2
= <adquirir>. Aplicando os dados abaixo na fórmula (1), tem-se que Sem(s1,s2), = 95%.
T1 x T2 = { (obter, adquirir) }, pois T1 = {obter} e T2 = {adquirir}
q1 = 1, pois existe somente um par da classe gramatical verbo
P1 = 3, peso arbitrado para a classe gramatical dos verbos
n = 1, pois T1 e T2 possuem somente termos da classe gramatical dos verbos
Ɵtj = 95%, valor de similaridade entre “obter” e “adquirir” calculado pela
InferenceNet.
O algoritmo de clusterização de sentenças, apresentado a seguir, agrupa pares de
conceitos c1 e c2 relacionados por <segmento_texto> semanticamente similares a partir
de um valor de corte (p.ex. 95%) ou similaridade sintática = 100%.
3.3 Aquisição de relações semânticas
Na última etapa do método, o objetivo é a aquisição final de relações semânticas
da forma (c1, relacao, c2) para uma base de conhecimento B. A entrada desta etapa são
clusters Cli, cada um sendo identificado com um conjunto Si de <segmento_texto>
similares e contendo n pares de conceitos (ck,cl). Inicialmente, somente clusters com
mais de k pares de conceitos são pré-selecionados, pois representam tipos de relações
com muitos distintos argumentos. Em [Fader et al. 2011], experimentos mostraram que
k=20 é um valor ótimo para eliminar clusters com relações muito específicas.
O próximo passo é definir a relacaoi que melhor representa o conjunto Si de cada
cluster cli ∈ Cli. Como dito, o método proposto é independente de base
desconhecimento B, podendo, por exemplo, ser aplicado para bases como ConceptNet
[Speer and Havasi 2012], WordNet [Miller 1995] e InferenceNet [Pinheiro et al. 2010].
Todas estas propõem um conjunto finito e bem controlado de tipos de relações
semânticas. Por exemplo, a ConceptNet 5.0 [Speer and Havasi 2012] contém 54 tipos
de relações, tais como: partOf, locationOf, motivationOf. O conjunto de tipos de
relações pré-definidas de B é utilizado como parâmetro desta atividade. Para o conjunto
Si de <segmento_texto> similares, é selecionado aquele sj ∈ Si com maior valor de
similaridade com algum tipo de relação semântica pré-definido de B. Ao final, para
cada cluster cli ∈ Cli, é definido relacaoi = sj. Por último, são geradas as relações
semânticas (ck, relacaoi, cl) para cada par de conceitos (ck,cl), contido em Cli.
Exemplificando, seja o seguinte cluster <localizar entre;localizar em;localizar
a;localizar;estar localizar em>. O <segmento_texto> = localizar possui o maior valor
de similaridade com o tipo de relação locationOf, pré-definido nas bases InferenceNet e
ConceptNet.
4 Avaliação
O objetivo da avaliação foi investigar (1) qual a qualidade do conteúdo extraído pelo
método proposto, ou seja, se as relações semânticas extraídas de fato contribuirão para
evolução de bases de conhecimento, e (2) se a identificação de relações redundantes
otimiza a quantidade de relações extraídas. Para esta avaliação, o método foi
implementado e aplicado para aquisição de relações para a base InferenceNet [Pinheiro
et al. 2010] e utilizou o parser FreeLing 3.0 [Padró and Stanilovsky 2012]. No entanto,
o método pode ser aplicado para outras bases de conhecimento e pode ser utilizado
outro analisador morfossintático para língua portuguesa. Para processamento da
Wikipédia em português utilizou-se a ferramenta WikipediaMiner [Milne and Witten
2012].
O InferenceNet [Pinheiro et al. 2010] contém relações semânticas de senso comum
e inferencialistas sobre conceitos e sentenças, expressos em língua portuguesa e língua
inglesa. InferenceNet é representada por uma rede semântica de conceitos interligados
por relações inferenciais que expressam as situações de uso dos conceitos. Esta rede
obedece à visão holística de que conhecer um conceito é conhecer suas relações, na
forma de premissas ou conclusões, com outros conceitos. Por exemplo, na rede
semântica do conceito “crime” tem-se, por exemplo, uma relação inferencial de pós-
condição (crime, efeitoDe, culpa).
A metodologia de avaliação contemplou os seguintes passos:
1. Seleção aleatória de 100 mil artigos da Wikipédia;
2. Execução do método proposto para aquisição de relações para base
InferenceNet. Os dados gerados, parâmetros, regras e ferramentas utilizadas
são descritos na Tabela 1;
3. Avaliação humana das relações semânticas extraídas. Desenvolvemos uma
aplicação Web que selecionava aleatoriamente 20 relações semânticas dentre
as 12.362 relações adquiridas neste experimento. As relações eram
apresentadas em linguagem natural para facilitar a leitura dos avaliadores.
Avaliadores humanos foram convidados a participar via e-mail ou redes
sociais e foram orientados sobre a metodologia de avaliação. Os avaliadores
eram homens e mulheres, com idade entre 20 e 50 anos. Para completar a
avaliação eles deveriam classificar as sentenças quanto a veracidade das
mesmas: “Verdadeira”, “Parcialmente Verdadeira”, “Eu não sei”, “Vaga ou
Parcialmente Falsa”, “Falsa.”.
4. Resultados foram coletados e analisados.
Etapa do método Entrada Saída Parâmetros
Mineração e Seleção de Sentenças
100.000 artigos da Wikipédia
143.395 sentenças
33.985 sentenças
21.802 sentenças
- Somente 1
o.parágrafo
analisado
- Parser FreeLing
- Seleção de sentenças com V,N e PREP
- artigos/links de nomes comuns
- Sentenças com <= 3 termos
Clusterização de Sentenças
21.802 sentenças candidatas
287 clusters - SimSem da InferenceNet [Pinheiro et al.
2009]
Aquisição de Relações Semânticas
287 clusters
64 clusters
12.362 relações
- Seleção de clusters com >=20 elementos
Tabela 1. Dados gerados, parâmetros, regras e ferramentas utilizadas em cada etapa do
método.
Após 48h com a aplicação Web disponível, 80 avaliadores julgaram 1395 relações
semânticas distintas e 295 relações em duplicidade (relações avaliadas por mais de um
avaliador). Foram computados os somatórios de relações avaliadas em cada classe da
avaliação. Para as relações avaliadas por mais de um humano, foi contabilizada somente
a avaliação no pior caso. Como resultado, 76% das relações semânticas foram avaliadas
como “verdadeiras” ou “parcialmente verdadeiras”. Neste cômputo foram
desconsideradas as respostas da classe “Não sei”. Consideramos este resultado
promissor, pois suplantou o resultado médio do algoritmo ReVerb que obteve precisão
de 75%. Além disso, o método aqui proposto eliminou uma das principais causas de
incorretude do ReVerb – a identificação incorreta dos argumentos de uma relação. Isto
foi possível pelo uso da estrutura de links ao longo do artigo da Wikipédia como indício
de quais conceitos estão sendo, de fato, relacionados pelo texto.
Em outro experimento, foram gerados clusters somente pela igualdade sintática
entre dois <segmento_texto>, ou seja, eram considerados redundantes apenas quando os
<segmento_texto> eram idênticos. Esta abordagem é a mesma utilizada pelo ReVerb.
Neste caso, foram gerados 881 clusters e 94 destes com mais de 20 pares de conceitos
(argumentos) relacionados. Assim, apenas 5312 relações semânticas foram extraídas e
geradas para a base de conhecimento InferenceNet. A estratégia proposta neste trabalho
utiliza a similaridade semântica para identificar tipos de relações redundantes,
possibilitando que um número menor de clusters sejam formados e com clusters que
relacionam mais pares de conceitos. Pela similaridade semântica, foram gerados 287
clusters e 64 com mais de 20 pares de conceitos (argumentos), gerando, assim, um
número maior de relações semânticas (12.362, conforme Tabela 1).
5 Conclusão
Neste trabalho propomos um método aberto para aquisição de conhecimento a partir de
textos dos artigos da Wikipédia. A revisão de trabalhos relacionados indicaram que as
técnicas mais proeminentes são aprendizagem de máquina, que exige a anotação de
corpus, casamento de padrões de expressões regulares e restrições lexicais. ReVerb, por
exemplo, define três expressões regulares para sintagmas verbais. A aplicação pura de
padrões sintáticos pelo ReVerb faz com que seu nível de precisão seja baixo. Para
melhorar este resultado, ReVerb adota features ad hoc para definir uma função de
confiança, aprendida por um classificador. Destacamos as seguintes desvantagens do
ReVerb: dependência de expressões regulares pré-definidas, necessidade de análise de
atributos para a função de confiança para aplicação em outras línguas, e a não
identificação de tipos de relações redundantes. Além disso, apresenta uma deficiência
na identificação correta dos argumentos da relação semântica entre dois conceitos.
O método, aqui proposto, permite a aquisição de relações semânticas entre
conceitos, a partir do texto de documentos da Wikipédia, aproveitando-se dos links entre
artigos para identificar os argumentos da relação. Adicionalmente, prescinde da
definição prévia de expressões regulares e de um processo oneroso de anotação de
corpus. Visando a otimização a aquisição de conhecimento, identifica tipos de relações
similares através de uma medida de similaridade semântica.
O método foi utilizado em um corpus da Wikipédia em português de 100 mil
artigos e 12.632 relações semânticas foram geradas para a base de conhecimento
InferenceNet. Um grupo de 80 avaliadores humanos analisou a veracidade de 1395
relações semânticas, selecionadas aleatoriamente. Os resultados obtidos indicaram que a
acurácia do método é de 76%, superior ao estado da arte. Além disso, a etapa de
clusterização de tipos de relações por similaridade semântica permite a aquisição de um
maior número de relações. Como trabalhos futuros, esperamos melhorar o algoritmo de
aquisição de sentenças para segmentos de textos complexos e uma avaliação extrínseca
do conhecimento adquirido.
Referências [Auer et al. 2007] Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak,
R., and Ives, Z. (2007). Dbpedia: A nucleus for a web of open data. The Semantic
Web, pages 722–735. [Auer and Lehmann 2007] Auer, S. and Lehmann, J. (2007). What Have
Innsbruck and Leipzig in Common? Extracting Semantics from Wiki Content. In
The Semantic Web: Research and Applications, pages 503–517. Springer.
[Beckett and McBride 2004] Beckett, D. and McBride, B. (2004). RDF/XML
syntax specification (revised). W3C recommendation, 10.
[Bick 2000] Bick, E. (2000). The Parsing System “Palavras”: Automatic
Grammatical Analysis of Portuguese in a Constraint Grammar Framework.
Aarhus University Press Aarhus, Denmark.
[Fader et al. 2011] Fader, A., Soderland, S., and Etzioni, O. (2011). Identifying
Relations for Open Information Extraction. In Proceedings of the Conference on
Empirical Methods in Natural Language Processing, pages 1535-1545.
Association for Computational Linguistics.
[Gregorowicz and Kramer 2006] Gregorowicz, A. and Kramer, M. A. (2006). Mining
a Large-scale Term-concept Network from Wikipedia. MITRE Corporation, 202.
[Kay 2005, p.19] Kay, M. (2005). The Oxford Handbook of Computational Linguistics.
Mitkov, R(ed). Computational Linguistics 30(1), pages 17-22.
[Kittur and Kraut 2008] Kittur, A. and Kraut, R. (2008). Harnessing the Wisdom of
Crowds in Wikipedia: Quality Through Coordination. In Proceedings of the 2008
ACM conference on Computer supported cooperative work, pages 37–46. ACM.
[Kohl et al. 1998] Kohl, K., Jones, D., Berwick, R., and Nomura, N. (1998).
Representing Verb Alternations in Wordnet. WordNet. An Electronic Lexical
Database, pages 153–178.
[Miller 1995] Miller, G. (1995). WordNet: a Lexical Database for English.
Communications of the ACM, 38(11), pages 39-41.
[Milne and Witten 2012] Milne, D. and Witten, I. H. (2012). An open-source toolkit for
mining wikipedia. Artificial Intelligence.
[Nakayama et al. 2007] Nakayama, K., Hara, T., and Nishio, S. (2007). A Thesaurus
Construction Method from Large Scaleweb Dictionaries. In Advanced Information
Networking and Applications, 2007. AINA’07. 21st International Conference on,
pages 932–939. IEEE.
[Padró and Stanilovsky 2012] Padró, L. and Stanilovsky, E. (2012). Freeling 3.0:
Towards Wider Multilinguality. In Proceedings of Language Resources and
Evaluation (LREC). European Language Resources Association.
[Pardo et al. 2009] Pardo, T., Caseli, H., and Nunes, M. (2009). Mapeamento da
Comunidade Brasileira de Processamento de Lìnguas Naturais. In The
Proceedings of the 7th Brazilian Symposium in Information and Human Language
Technology-STIL, pages 1–21.
[Pei et al. 2008] Pei, M., Nakayama, K., Hara, T., and Nishio, S. (2008). Constructing
a Global Ontology by Concept Mapping Using Wikipedia Thesaurus. In
Advanced Information Networking and Applications-Workshops, 2008. AINAW
2008. 22nd International Conference on, pages 1205–1210. IEEE.
[Pinheiro 2010] Pinheiro, V. SIM: Um Modelo Semântico Inferencialista para
Expressão e Raciocínio em Sistemas de Linguagem Natural. Phd Thesis,
Universidade Federal do Ceará. 2010.
[Pinheiro et al. 2010] Pinheiro, V., Pequeno, T., Furtado, V., and Franco, W.
(2010). InferenceNet.Br: Expression of Inferentialist Semantic Content of the
Portuguese Language. In PROPOR, volume 6001 of Lecture Notes in Computer
Science, pages 90–99. Springer.
[Pinheiro et al. 2009] Pinheiro, V., Pequeno, T., Furtado, V., and Nogueira, D.
(2009). Semantic Inferentialist Analyser: Um Analisador Semântico de Sentenças
em Linguagem Natural. In Proceedings of the 7th Brazilian Symposium in
Information and Human Language Technology. Brasil, STIL ’09.
[Silva and Ribeiro 2003] Silva, C. and Ribeiro, B. (2003). The Importance of Stop
Word Removal on Recall Values in Text Categorization. In Neural Networks,
2003. Proceedings of the International Joint Conference on, volume 3, pages
1661–1666. IEEE.
[Speer and Havasi 2012] Speer, R. and Havasi, C. (2012). Representing general
relational knowledge in Conceptnet 5. In International Conference on Language
Resources and Evaluation (LREC), pages 79–86.
[Stoutenburg et al. 2009] Stoutenburg, S., Kalita, J., and Hawthorne, S. (2009).
Extracting Semantic Relationships between Wikipedia Articles. In Proc. 35th
International Conference on Current Trends in Theory and Practice of Computer
Science.
[Suchanek et al. 2008] Suchanek, F., Kasneci, G., and Weikum, G. (2008). Yago: A
Large Ontology from Wikipedia and Wordnet. Web Semantics: Science, Services
and Agents on the World Wide Web, 6(3), pages 203–217.
[Suchanek et al. 2007] Suchanek, F. M., Kasneci, G., and Weikum, G. (2007). Yago:
a core of semantic knowledge. In Proceedings of the 16th international conference
on World Wide Web, pages 697–706. ACM.
[Veyssieres and Plant 1998] Veyssieres, M. P., & Plant, R. E. (1998).
Identification of vegetation state and transition domains in California’s hardwood
rangelands. University of California.
[Völkel et al. 2006] Völkel, M., Krötzsch, M., Vrandecic, D., Haller, H., and
Studer, R. (2006). Semantic wikipedia. In Proceedings of the 15th international
conference on World Wide Web, pages 585–594. ACM.
[Wu and Weld 2010] Wu, F. and Weld, D. S. (2010). Open Information Extraction
using Wikipedia. In Proceedings of the 48th Annual Meeting of the Association
for Computational Linguistics, pages 118–127. Association for Computational
Linguistics.
[Xavier and de Lima 2012] Xavier, C. C. and de Lima, V. L. S. (2012). A
Method for Automatically Extracting Domain Semantic Networks from
Wikipedia. In Computational Processing of the Portuguese Language, pages 93–
98. Springer.
[Yates et al. 2007] Yates, A., Cafarella, M., Banko, M., Etzioni, O., Broadhead,
M., and Soderland, S. (2007). Textrunner: open information extraction on the web.
In Proceedings of Human Language Technologies: The Annual Conference of the
North American Chapter of the Association for Computational Linguistics:
Demonstrations, pages 25–26. Association for Computational Linguistics.