mineração de dados espaciais - dcc.ufmg.brclodoveu/files/2009_1_bdg_semin/mineracao de d… ·...

Post on 01-Feb-2018

218 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

B A N C O D E D A D O S G E O G R Á F I C O S

M A R C O N I D E A R R U D A P E R E I R A

Mineração de Dados Espaciais

Roteiro

July 1, 09

•  Introdução

•  Mineração de Dados

•  Estado da Arte

•  Artigo apresentado

•  Conclusão

2

KDD e Mineração de Dados

July 1, 09

  Descoberta de Conhecimento em Bases de Dados – KDD   “o processo de extração não-trivial de conhecimento prévio implícito

e demais informações potencialmente úteis, tais como regras de conhecimento, restrições, padrões a partir dos dados de uma base de dados” (PIATETSKY-SHAPIRO; FRAWLEY, 1991)

  Aplicada em Sistemas:   Comerciais: Conhecimento de cliente, identificação de seguimento de

mercado   Industriais: Avaliação de Equipamentos, Detecção de Fraudes   Educacionais: Identificação de perfis de Alunos   Geográficos: Identificação de melhores locais para instalação de

equipamentos de transmissão e distribuição de energia

3

Etapas do KDD

July 1, 09

4

Mineração de Dados Geográficos

July 1, 09

  Dados Geográficos apresentam particularidades:   A posição geográfica é um atributo importante   Podem sofrer alterações com o passar do tempo;   A vizinhança participa ativamente das alterações ocorridas com os

dados;   Possuem informações textuais e gráficas (geometria);   Informações iguais muitas vezes são encontradas em escalas

diferentes;   Possuem diferentes formas de representação, algumas padronizadas

(OPENGIS, 2009) outras não.

  A comunidade científica ainda não explora profundamente essas particularidades em tarefas de Mineração de Dados   A grande maioria dos trabalhos preocupa-se com a visualização dos

dados

5

Estado da Arte

July 1, 09

  Poucos trabalhos realizam Mineração de Dados explorando satisfatoriamente os aspectos Geográficos   (HAN et al, 1997): GeoMiner – Primeiro sistema que lida com

extração e avaliação de Regras de Associação Geográficas  Trabalha com OLAP, GMQL

  (ESTER et al, 2000): Grafo de Vizinhança, com caminhos e primitivas de manipulação  Clusterização, Regras de Associação (80% das cidades estão perto

de rios), Classificação, Detecção de tendência Geográfica (aumento de aluguel por bairro)

6

Estado da Arte

  (WU; LU, 2002): Utilização de informações geográficas para determinação de alocação de equipamentos de Transmissão e Distribuição de energia  Utiliza informações geográficas (distâncias, densidades), mas não

explora as informações georeferenciadas

  (LOUREIRO et al, 2005): Mecanismo automático para busca de parâmetros de classificação utilizando AG   Identifica quais parâmetros utilizar em ferramentas da biblioteca

Weka: Árvore de Decisão J48, Redes Bayesianas, Redes Neurais e K-nn

July 1, 09

7

Estado da Arte

July 1, 09

8

  (SILVA et al, 2006): Framework web de manipulação de informações geográficas multidimensionais para a tomada de decisão - GOLAPA  Data warehouse, OLAP, Visualização

  (BOGORNY, et al, 2006): Weka-GDPM – Extensão da API Weka para manipulação de dados geográficos   Interoperabilidade de dados através de padrões OGC, implementa

algumas operações espaciais (interseção, distância, cruzamento dentre outras)

 Não especializa as ferramentas para exploração dos dados geográficos

“Weka-GDPM – Integrating Classical Data Mining Toolkit to Geographic Information Systems”

  Atributos espaciais possuem três tipos de relações (Bogorny, 2006 aput Güting, 1994):   distância: Baseadas na distância euclidiana   direção: baseadas na ordem em que as características espaciais são alocadas no

espaço   topológica: baseadas no tipo de interseção entre as características espaciais:

  Equal, Disjoint, Touches, Within, Overlaps, Crosses, Contains, Covers, CoveredBy

  O artigo foca em relações topológicas e de distância 7/1/09

9

Processamento

  São escolhidas todas as instâncias t (e.g. Belo Horizonte) de uma entidade alvo T (e.g. Cidades)

  São escolhidas todas instâncias o (e.g. Rio das Velhas) de um conjunto S de entidades relevantes O (e.g. Rio, Rodovia, Ferrovia) que possuem algum relacionamento espacial com T.

  Os relacionamentos espaciais entre todas as instâncias de T com cada todas as entidades S.

  Duas granularidades são consideradas nesse trabalho: instâncias (e.g. BH) e entidades (e.g. Cidade)

7/1/09

10

Relacionamentos Topológicos

  Relacionamentos topológicos são mutuamente exclusivos no nível de instâncias   entre duas instâncias de um entidades só existe uma relação

topológica

  Exemplo de relacionamentos computados tendo como alvo a entidade cidade.

7/1/09

11

Relacionamentos Topológicos

  Relacionamentos no nível de entidades são computadas baseadas nos relacionamentos de cada instância   Se houver relacionamento entre as instâncias, eles são

explicitados. Caso contrário usa-se o “?”

7/1/09

12

Relacionamentos de Distância

  Relacionamentos de distância são computados de acordo com parâmetros fornecidos pelo usuário (distancia_1 e distancia_2)   Distancia <= distancia_1 : Muito Próximo   distancia_1 <= Distancia < distancia_2 : Próximo   “Longe” não é considerado, pois pode ser considerado como não

próximo.

7/1/09

13

Weka-GDPM

  Foi implementada uma extensão no software weka para implementar a extração de padrões espaciais

  A entidade alvo e as demais entidades são escolhidas

7/1/09

14

Weka-GDPM

  A extensão implementada gera uma estrutura tabular entendida pelo weka   mapeia os relacionamentos geográficos em descrições textuais   gera um arquivo .arff

  Aplica algoritmos clássicos de Mineração de Dados para extrair conhecimento

7/1/09

15

7/1/09

16

Bibliografia

July 1, 09

  Bogorny, V.; Palma, A. T.; Engel, P.M.; Alvares, L.O.; “Weka-GDPM – Integrating Classical Data Mining Toolkit to Geographic Information Systems” In: SBBD Workshop on Data Mining Algorithms and Aplications(WAAMD'06), Florianopolis, Brasil, Out. 16-20, (2006). pp.9-16.

  Ester, M.; Kriegel, A. F. H. P.; Sander, J. “Spatial Data Mining: Database Primitives, Algorithms and Efficient DBMS Support” Data Mining and Knowledge Discovery, Vol. 4, N. 3-4, p.193–216, 2000. <http://www.springerlink.com/content/n5687066m7388n78/fulltext.pdf>. Acessado em 17 Fev. 2009.

  Güting, R.H.; “An introduction to spatial database systems” , The VLDB Journal, Vol. 3, N. 4, p. 357-399, Oct, 1994, <http://dx.doi.org/10.1007/BF01231602>

  Han, J.; Koperski, K.; Stefanovic, N.; “GeoMiner: A System Prototype for Spatial Data Mining” in: SIGMOD Special Interest Group on Management Of Data, Arizona, EUA, 1997. pp. 553-556.

17

Bibliografia

  Loureiro, S.M.; Margoto, L.R.; Varejão, F.M.; Queiroga, R.M.; “Um mecanismo automático para busca de parâmetros de técnicas de classificação utilizando algoritmos genéticos ” in: V ENIA - Encontro Nacional de Inteligência Artificial, São Leopoldo/RS, Brasil, 22 a 29 de Julho, 2005. pp. 712-721

  OpenGIS. www.ogc.org acessado em Janeiro de 2009.

  Piatetsky-Shapiro, G.; Frawley, W. J.; “Knowledge Discovery in Databases.” AAAI/MIT Press, 1991.

  Silva, J.; Times, V. C.; Salgado, A. C. “An Open Source and Web Based Framework for Geographic and Multidimensional Processing” Proceedings of the 2006 ACM symposium on Applied computing, p63 – 67, 2006.

  Wu, H. C.; Lu, C. N.; “A Data Mining Approach for Spatial Modeling in Small Area Load Forecast”, IEEE Transactions on Power Systems, Vol. 17. No. 2, p. 516-521, Mai, 2002. <http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=1007927>. Acessado em 17 Fev. 2009

July 1, 09

18

top related