casamento de esquemas iago raphael vasconcelos marinho
TRANSCRIPT
Casamento de EsquemasIAGO RAPHAEL VASCONCELOS MARINHO
Roteiro Motivação
Objetivos
Conceitos fundamentais
Técnicas
Ferramentas atuais
Desafios
Motivação Aplicações
◦ Aplicações web: alinhar catálogos de produtos.◦ Web semântica: alinhar ontologias◦ Bancos de dados: primeiro passo no processo de mapear instâncias de um esquema para instâncias de
outro.◦ Ex.: Mapeamento objeto-relcional
◦ Aplicações médicas
Motivação Aplicações
◦ Aplicações web: alinhar catálogos de produtos.◦ Web semântica: alinhar ontologias◦ Bancos de dados: primeiro passo no processo de mapear instâncias de um esquema para instâncias de
outro.◦ Ex.: Mapeamento objeto-relcional
◦ Aplicações médicas
Operação complexa!
Motivação Aplicações
◦ Aplicações web: alinhar catálogos de produtos.◦ Web semântica: alinhar ontologias◦ Bancos de dados: primeiro passo no processo de mapear instâncias de um esquema para instâncias de
outro.◦ Ex.: Mapeamento objeto-relcional
◦ Aplicações médicas
Operação complexa!
Por envolver diversos modelos de dados e domínios de aplicação, o problema deve ser estudado de forma genérica.
ObjetivosIntroduzir o problema
de casamento de esquemas;apresentar as abordagens
e ferramentas para resolvê-lo.
Conceitos fundamentais Esquema
◦ Descrição em linguagem formal◦ Conjunto de elementos que se relacionam◦ Ex.: SQL Schema, XML Schema, descrição de ontologia
Operação de “casamento” (matching):◦ Toma dois esquemas como entrada e devolve um mapeamento (correspondências entre os elementos).◦ Mapeamento é expresso em sintaxe específica◦ Problema: encontrar correspondências entre elementos de dois esquemas!
TécnicasTaxonomia
TécnicasAbordagens iniciais…
◦ Casamento linguístico (Linguistic matching)◦ Algoritmos de processamento e casamento entre strings◦ Substrings, tokenização, stemização
TécnicasAbordagens iniciais…
◦ Casamento linguístico (Linguistic matching)◦ Algoritmos de processamento e casamento entre strings◦ Substrings, tokenização, stemização
◦ Uso de informações adicionais!◦ Dicionários, tesauros (dicionário de ideias afins)
TécnicasAbordagens iniciais…
◦ Casamento baseado em estrutura◦ Grupos de elementos com estrutura semelhante◦ Relacionamentos semelhantes
TécnicasAbordagens iniciais…
◦ Casamento baseado em estrutura◦ Grupos de elementos com estrutura semelhante◦ Relacionamentos semelhantes
◦ Casamento baseado em restrições◦ Ex.: Correspondência UF/Estado: restritos a {AC, AL, …., TO}
TécnicasAbordagens iniciais…
◦ Casamento baseado em instâncias
TécnicasAbordagens iniciais…
◦ Casamento baseado em instâncias
◦ Casamento baseado em regras◦ Lógica de primeira ordem
TécnicasNovos tipos de informação…
TécnicasNovos tipos de informação…
◦ Baseado no uso: interpretação de logs de consulta a bancos de dados, para detectar como os usuários relacionam os esquemas.
TécnicasNovos tipos de informação…
◦ Baseado no uso: interpretação de logs de consulta a bancos de dados, para detectar como os usuários relacionam os esquemas.
◦ Interface gráfica: permite ao usuário navegar pelas correspondências, visualizá-las e corrigi-las.
TécnicasNovos tipos de informação…
◦ Baseado no uso: interpretação de logs de consulta a bancos de dados, para detectar como os usuários relacionam os esquemas.
◦ Interface gráfica: permite ao usuário navegar pelas correspondências, visualizá-las e corrigi-las.
◦ Top-k matching: “melhores matches” são apresentados ao usuário.
TécnicasNovos tipos de informação…
◦ Baseado no uso: interpretação de logs de consulta a bancos de dados, para detectar como os usuários relacionam os esquemas.
◦ Interface gráfica: permite ao usuário navegar pelas correspondências, visualizá-las e corrigi-las.
◦ Top-k matching: “melhores matches” são apresentados ao usuário.
◦ Matching incremental: usuário seleciona um elemento do esquema e algoritmo devolve melhor correspondência (ou melhores, como no top-k).
TécnicasCasamento de esquemas de grande porte?...
TécnicasCasamento de esquemas de grande porte…
◦ Matching em paralelo
◦ Baseado em partições
◦ Redução do espaço de busca
◦ Otimizações diversas: matrizes de similaridade, otimizações no casamento de strings
TécnicasCorrespondências com tags…
◦ Tagging semântico◦ Correspondências são marcadas quanto ao seu sentido◦ Ex.: igualdade
◦ Tagging condicional◦ Correspondências válidas apenas quando um elemento assume certo valor◦ Ex.: “code” equivale a “ISRC” somente para “music”
Ferramentas atuais Comparação (2011)
Ferramentas atuais COMA
Ferramentas atuais Harmony
Ferramentas atuais Agreement-maker
Ferramentas atuais Benchmarking: XBenchMatch
Ferramentas atuais Benchmarking: XBenchMatch
Desafios Facilitar o reuso de mapeamentos
Melhoria da visualização gráfica dos mapeamentos
Referências http://dbs.uni-leipzig.de/file/10yearBestPaper-BernsteinMadhavanRahm.pdf
http://disi.unitn.it/~p2p/RelatedWork/Matching/FabienDuchateau_540.pdf
http://dbs.uni-leipzig.de/file/VLDBJ-Dec2001.pdf
http://research.microsoft.com/pubs/69875/tr-2001-58.pdf