wordnet: relações semânticas e métricas de associação/semelhança seminário doutoral nuno...
TRANSCRIPT
![Page 1: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/1.jpg)
WordNet: Relações Semânticas e Métricas de Associação/Semelhança
Seminário Doutoral
Nuno Seco
![Page 2: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/2.jpg)
Estrutura da Apresentação
Relações de Semântica Lexical Objecto de Estudo
WordNet
Métricas de Semelhança no WordNet Base de Conhecimento Lexical Corpus Teoria de Informação Dicionários
![Page 3: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/3.jpg)
WordNet
É uma BCL inspirada em teorias psico-
linguísticas.
Divisão em categorias sintácticas
Substantivos
Verbos
Advérbios
Adjectivos
Taxonomia de substantivos estava(??) particionada
em 9 domínios diferentes. (evento, emoção, processo,
etc)
![Page 4: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/4.jpg)
Organização dos Termos
Termos estão organizados em SynSets
(Synomym Sets): {car.1, auto.1, automobile.1, machine.1, motorcar.1}
a motor vehicle with four wheels; usually propelled by an
internal combustion engine; "he needs a car to get to work"
![Page 5: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/5.jpg)
Relações Semânticas
As relações são estabelecidas entre synsets.
car.1 motorcycle.1
veículo.2
![Page 6: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/6.jpg)
Relações Semânticas
Hyperonímia/Hiponímia (substantivos, verbos)
Meronímia (substantivos) Substância
substância_de(lenhina, madeira) Membro
membro_de(jogador, equipa) Parte
parte_de(pata, gato)
Sinonímia (todas as cat.)
![Page 7: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/7.jpg)
Relações Semânticas
Antonímia (todas as cat. “lexical”)
Atributo (substantivoadjectivo) peso(leve), peso(pesado)
Domínio (todas) Categoria
topico_de(guerra, militar) Região
região_de(saratoga, nova_york)
![Page 8: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/8.jpg)
Relações Semânticas
Causais (verbos) causa(matar, morrer)
Implicação (verbos) Implica(ressonar, dormir)
Derivação (adverbioadjectivo, “lexical”) derivado_de(somente, só)
![Page 9: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/9.jpg)
Emprega uma visão de “Homonímia Forte”
{duck.1} -- small wild or domesticated web-footed
broad-billed swimming bird usually having a
depressed body and short legs.
{duck.3} -- flesh of a duck (domestic or wild).
Representam diferentes dimensões do mesmo
conceito.
![Page 10: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/10.jpg)
A Taxonomia
A utilização de relações de hiperonímia é
uma forte componente do WordNet. 65% das relações (substantivos) são de
hiperonímia/hiponímia
Permite uma estruturação eficiente dos
conceitos. Considere a organização de um super-mercado.
![Page 11: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/11.jpg)
Teoria Diferenciadora
A preocupação é fornecer atributos que distingam um conceito do seu hiperónimo.
Wine
ForitifiedWine
PortWine
fermented juice (of grapes especially)
wine to which alcohol has been added
sweet dark-red desset wine from Portugal
![Page 12: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/12.jpg)
Teoria Construtiva
Um conjunto de conceitos primitivos. São utilizados para construir novos conceitos
Exemplo: HowNet -- Base de Conhecimento Lexical para o
Chinês
YanJun Yan –Sábio
Jun - Bonito
800 conceitos primitivas 110,000 conceitos
![Page 13: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/13.jpg)
Associação Semântica
Utilizado em motores de pesquisa como métrica de “ranking”.
Utilização de algoritmos de Criatividade Computacional. Geração de Conceitos
Detecção de “Malapropisms” Concerto vs. Conserto Coro vs. Couro Intercessão vs. Intersecção
![Page 14: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/14.jpg)
Semelhança e Associação Semântica
São coisas diferentes mas normalmente não é feita a distinção na literatura.
Qual dos pares é mais semelhante?
Carro --- Pára-choques Carro --- Bicicleta
![Page 15: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/15.jpg)
Semelhança e Associação Semântica
gasolina
pneu
carro
camião
mota
Entidades Relacionadas
Entidades semelhantes
pára-choques
![Page 16: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/16.jpg)
Tipos de Abordagens
Baseado nas relações da BCL
Baseado nas estatísticas derivadas de Corpus
Baseado na “Teoria da Informação”
Abordagem híbrida (BCL, Corpus)
Baseado em Dicionários (nas definições)
![Page 17: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/17.jpg)
Base de Conhecimento Lexical
A Base de Conhecimento pode encarada como um grafo.
A Z
A associação semântica é calculado em função do número de arcos que separem dois conceitos.
![Page 18: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/18.jpg)
Base de Conhecimento Lexical
Alguns refinamentos a esta estratégia:
Só utilizar alguns tipos de relações
Por exemplo: Hyperonímia (semelhança)
Atribuição de pesos às relações
![Page 19: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/19.jpg)
Baseado em Corpus
Extracção de Co-ocorrências de palavras.
Informação Mútua:
Compara a probabilidade de x e y co-ocorrerem com a probabilidade de ocorrerem independentemente.
)()(
),(log),( 2
yPxP
yxPyxI
![Page 20: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/20.jpg)
Baseado em Corpus
Vector Space Model Para cada palavra cria-se um vector contendo
as frequências das palavras que co-ocorrem com a primeira.
Latent Semantic Analysis (LSA)
![Page 21: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/21.jpg)
Teoria de Informação
Na realidade são abordagens híbridas Utilizam BCL Corpus Restringem-se às relações hiperonímia
(semelhança). Tentam quantificar a informação que um conceito
expressa.
Noção Base Quantidade de Informação (“Information Content”)
)(log)( 2 cPcIC
![Page 22: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/22.jpg)
Teoria de Informação
A
B C
D FE
G
P(A) = P’(A) + P(B) + P(C)
P(B) = P’(B) + P(D) + P(E)
P(D) = P’(B) + P(G)
P(A) ≈ 1 IC(A) ≈ 0
IC mede a especificidade de um dado conceito
![Page 23: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/23.jpg)
Teoria de Informação
Métrica de Resnik
)),((),( 2121 cchiperICccsim
veículo
carro mota
![Page 24: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/24.jpg)
Teoria de Informação
Métrica de Lin
)()(
)),((2),(
21
2121
cICcIC
cchiperICccsim
))((2)()(),( 2,12121 cchiperICcICcICccdistjcn
Métrica de Jiang e Conrath
![Page 25: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/25.jpg)
Teoria de Informação
IC mede a especificidade de um termo.
Então porque não utilizar o número de hipónimos de um termo como medida de especificidade?
1)(log)( 2 chypocIC
![Page 26: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/26.jpg)
Dicionários
Utiliza as definições dos dicionários Algoritmo de Lesk
Intercessão dos termos contidos nas definições reflecte a associação dos mesmos.
Banco – “instituição financeira que realiza operações mercantis relacionados com o dinheiro ou com os títulos e valores que o representam”
Cheque – “título de crédito que enuncia uma ordem de pagamento da soma nele inscrita”
Banjeree and Pedersen Utilizam as definições na vizinhança de cada termo no
WordNet para desambiguar.
![Page 27: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/27.jpg)
Estudo Comparativo
Averiguar a semelhança entre pares de palavras.
car automobile lad brother
gem jewel journey car
journey voyage oracle monk
boy lad cemetery woodland
coast shore food rooster
asylum madhouse coast hill
magician wizard forest graveyard
midday noon shore woodland
furnace stove monk slave
food fruit coast forest
bird cock lad wizard
bird crane chord smile
tool implement glass magician
brother monk noon string
crane implement rooster voyage
![Page 28: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/28.jpg)
Estudo Comparativo
Algortimo Correlação
Leacock and Chodorow 0,82
Hirst St. Onge 0,68
Banjeree and Pedersen 0,37
Wu and Palmer 0,74
LSA 0,72
Resnik 0,77
Lin 0,80
Jiang and Conrath -0,81
Resnik* 0,77
Lin* 0,81
Jiang and Conrath* 0,84
![Page 29: WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco](https://reader035.vdocuments.pub/reader035/viewer/2022062700/552fc163497959413d8e9f85/html5/thumbnails/29.jpg)
WordNet: Relações Semânticas e Métricas de Associação/Semelhança
Seminário Doutoral
Nuno Seco