mapeamento de thesauri
DESCRIPTION
Mapeamento de Thesauri. Daniela F. Brauner. Agenda. Introdução Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta. Introdução. Interoperabilidade. Milhares de provedores de informação (fontes de dados): Esquemas diferentes - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/1.jpg)
Mapeamento de Thesauri
Daniela F. Brauner
![Page 2: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/2.jpg)
Agenda
• Introdução
– Interoperabilidade
– Mapeamentos
• Em nível de esquema
• Em nível de dados
• Abordagens existentes
• Abordagem proposta
![Page 3: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/3.jpg)
Introdução
• Milhares de provedores de informação (fontes de dados):
– Esquemas diferentes
– Categorias diferentes para classificação dos dados (≠ thesauri)
• Solução proposta:
– Dados estruturados
– Ontologias para descrever a semântica
– Computadores capazes de “entender” estes dados
– (mesma proposta da Web Semântica!)
• ...e os problemas continuam:
– Natureza descentralizada da Web
– Cada provedor de informação usando sua própria ontologia
Interoperabilidade
![Page 4: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/4.jpg)
Introdução
• Busca por “city” no Swoogle
• 722 resultadosi.e. definições diferentes
Interoperabilidade
![Page 5: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/5.jpg)
Introdução
ADL GazetteerGEOnet
Find all cities called
“Rio de Janeiro”
Mapeamentos
![Page 6: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/6.jpg)
Introdução
ADL GazetteerGEOnet
Mediator
GEOnet Wrapper
ADL Wrapper
Basic Architecture of A Data Integration System
Find all cities called
“Rio de Janeiro”
Mapeamentos
![Page 7: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/7.jpg)
Introdução
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333?
?? ?
GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
? ?
• Schema-level mapping
Mapeamentos
Find all cities called
“Rio de Janeiro” • Data-level mapping
![Page 8: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/8.jpg)
Abordagens existentes
• ILA [Etzioni, 2000]
• SEMINT [Syan et al., 2000]
• AnchorPrompt [Musen and Noy, 2001]
• Cupid [Madhavan et al., 2001]
• LSD [Doan et al., 2001]
• SimilarityFlooding [Melnik et al., 2002]
• PROM [Doan et al., 2003]
• GLUE [Doan et al., 2003]
• CATO [Felicissimo, 2004]
• iMAP [Dhamankar et al., 2004]
• ...
![Page 9: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/9.jpg)
Administrative areaPopulated placesPolitical areasCountriesCitiesCapitals...
ADL
FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp
AREA area ADM1 first-order administrative divisionADM2 second-order administrative divisionADM3 third-order administrative divisionADM4 fourth-order administrative divisionADMD administrative divisionADMF administrative facilityPPL populated placePPLA seat of a first-order administrative divisionPPLC capital of a political entityPPLL populated localityPPLQ abandoned populated placePPLR religious populated placePPLS populated placesPPLW destroyed populated placePPLX section of populated place...
GEOnet
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
• Utilizando os nomes dos termos
![Page 10: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/10.jpg)
Cities
Populated places
Capitals
Administrative area
Political areas
Countries
ADL
FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start
Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
OpenCyc
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
IndependentCountry
• Utilizando as estruturas das árvores
![Page 11: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/11.jpg)
Cities
Populated places
Capitals
Administrative area
Political areas
Countries Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
Exemplos: Instância ADL OpenCyc
Rio Grande, RS – Brazil Populated Places City
Smithers, BC – Canada Populated Places City
Rio de Janeiro, RJ – Brazil Populated Places City
São Paulo, SP – Brazil Populated Places City
Cardiff – Wales Populated Places CapitalCityOfRegion
Asmara – Eritrea Capitals CapitalCityOfRegion
Rome – Italy Capitals CapitalCityOfRegion
Brussels – Belgium Capitals CapitalCityOfRegion
ADL OpenCyc
Abordagens existentes
IndependentCountry
?
![Page 12: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/12.jpg)
Abordagens existentes
• Estratégia de tradução do Google
– Sistema “aprende” através de traduções existentes
“My name is Daniela. I am 26 years old.”
“Mein name ist Daniela. Ich bin 26 Jahre alt.”
“Meu nome é Daniela. Eu tenho 26 anos.”
“Mi nombre es Daniela. Yo tengo 26 años.”
http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de
http://www.inf.puc-rio.br/~dani/eshttp://www.inf.puc-rio.br/~dani/br
![Page 13: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/13.jpg)
Abordagens existentes
• 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos
hieróglifos
egípcio
demótico
(Copta)
grego
http://www.thebritishmuseum.ac.uk
![Page 14: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/14.jpg)
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
– Removemos algumas stop-words
– Mapeamos conceitos com maior ocorrência de palavras em comum
Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
Bay
a coastal indentation between two
capes or headlands, larger than a cove
but smaller than a gulf?
![Page 15: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/15.jpg)
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
Peninsula
an elongate area of land projecting into
a body of water and nearly surrounded
by water
GEOnet(4) Peninsula: land, body, water, surrounded(3) Island: land, surrounded, water(2) Pool: body, water
≠Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
![Page 16: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/16.jpg)
Waterfall
a perpendicular or very steep descent
of the water of a stream
Waterfall
perpendicular or very steep falls of
water in the course of a stream.
Abordagens existentes
• Utilizando representação formal
– Criamos 3 ontologias: ADL, GEO e concepts
![Page 17: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/17.jpg)
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
![Page 18: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/18.jpg)
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
• Etapas:1. Levantamento dos dados
a. Definição dos conjuntos de treinamento e teste
2. Treinamento a. Cruzamento das instâncias de treinamento (definir freqüências)
b. Cálculo das probabilidades de alinhamento
3. Teste e validação
![Page 19: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/19.jpg)
Abordagens existentes
Etapas concluídas:
1. Conjunto de exemplos:
– Instâncias brasileiras:
• ADL: 17.991
• GEOnet: 87.608
2. Treinamento:
– Instâncias mapeadas pelos valores de LAT/LON
– 221 pares identificados (~16%)
– Ex:
– Termos dos thesauri:
• ADL: 210
• GEOnet: 642
Combinações possíveis: 134.820
ADL (a) GEOnet (b) nab P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
P( b | a ) =nab
na
![Page 20: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/20.jpg)
Abordagem proposta
• Mediador “espertinho”
(utilizando técnicas de aprendizagem de máquina)
• Aprende em 2 momentos:
– A priori (offline)
– A posteriori (runtime)
• Aprende a partir de:
– Consultas dos usuários
– Análise das respostas das consultas dos usuários
![Page 21: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/21.jpg)
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Select populated places From ADL Within “-54, -34 -52.5, -33”
Ahááá!!!PPL ≡
PopulatedPlaces
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Select populated places From ADL Within “-54, -34 -52.5, -33”
![Page 22: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/22.jpg)
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das respostas das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Cache
ADL GEOnet n P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
![Page 23: Mapeamento de Thesauri](https://reader031.vdocuments.pub/reader031/viewer/2022013012/56814374550346895daff325/html5/thumbnails/23.jpg)
Mapeamento de Thesauri
Daniela F. Brauner