link mining

44
Link Mining Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães

Upload: isolde

Post on 06-Feb-2016

42 views

Category:

Documents


0 download

DESCRIPTION

Link Mining. Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães. Roteiro. Definição Data Mining Link Mining Atividades envolvendo Link Mining Desafios de Link Mining. Dados. Quantidade de Dados Evolução dos recursos computacionais - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Link Mining

Link Mining

Dayvid Victor Rodrigues de OliveiraGuilherme Ramalho Magalhães

Page 2: Link Mining

Roteiro

• Definição– Data Mining– Link Mining

• Atividades envolvendo Link Mining

• Desafios de Link Mining

Page 3: Link Mining

Dados

• Quantidade de Dados– Evolução dos recursos computacionais– Quantidade de informação dobra a cada 20 meses

Page 4: Link Mining
Page 5: Link Mining
Page 6: Link Mining

Data Mining

• Consiste em técnicas para transformar grande quantidade de dados em informações consistentes, para detectar relacionamentos sistemáticos.

Page 7: Link Mining

Data Mining

• Estatística• Recuperação da informação• Inteligência artificial• Reconhecimento de padrões

Page 8: Link Mining

Data Mining

• Exemplo

Page 9: Link Mining

Link Mining

• Refere-se a técnicas de mineração que explicitamente considera os tipos de links quando constrói modelos preditivos ou descritivos dos dados relacionados.

Page 10: Link Mining

Link Mining• Conjunto de Dados do Mundo Real:– Multi-relacionais, heterogêneos e semi-estruturado

• Link Mining– Nova área de pesquisa emergente resultante da interseçào

de pesquisa em redes social e análise de links, hipertexto e mineração na web, aprendizado relacional e programação lógica indutiva e mineração de grafos.

Page 11: Link Mining

Dados relacionados

• Dados heterogêneos, multi-relacional representados como um grafo ou rede– Nós são objetos

• Podemos ter diferentes tipos de objetos• Objetos tem atributos• Objetos podem ter rótulos ou classes

– Arestas são links• Podemos ter diferentes tipos de links• Links podem ter atributos• Links podem ser direcionados e não necessariamente

precisam ser binários

Page 12: Link Mining

Domínios de Exemplo

• Dados Web• Dados Bibliográficos• Dados epidemiológicos

Page 13: Link Mining

Exemplo: Dados Bibliográficos Ligados

P2

P4

A1

P3

P1

I1 P2

P4

P3

P1

I1

Links:CitaçãoCo-CitaçãoAutor deAttributos:

Objects:PapersAuthorsInstitutions

Afiliação de autorCategorias

Page 14: Link Mining

Atividades Link MiningRelacionadas a Objetos Relacionadas a Links Relacionadas a Grafos

Ranking de objetos baseado em links Predição de links Descoberta de

subgrafos

Classificação de objetos baseado em links Estimar Cardinalidade Classificação de grafos

Detectão de grupos Modelos geradores de grafos

Resolução de entidades (Identificação de Objetos)

Page 15: Link Mining

Ranking de Objetos baseado em Links

• Ordenar um Conjunto de Objetos a partir de um grafo

• Principais algoritmos:– Page Rank– HITS

Page 16: Link Mining

Ranking – Page Rank

Page 17: Link Mining

Ranking - HITS

• Hubs e Authorities– Hubs: Linka várias Authorities– Authorities: São linkadas por vários Hubs

Page 18: Link Mining

Classificação de Objetos baseada em links

• Predizer a categoria de um objeto baseado em seu atributos, seus links e também os atributos dos objetos ligados.

• WEB: Predizer a categoria de uma página web, baseada em palavras que ocorrem na página, links entre páginas, texto principal, tags html, etc.

Page 19: Link Mining

Classificação de Objetos baseada em links

• Cite: Predizer o tópico de um paper baseado na ocorrência de palavras, citações e co-citações

• EPI: Predizer tipo de doenças baseadas em características das pessoas; Predizer a idade de um indivíduo baseado nas idades das pessoas que entraram em contato com ele e o tipo da doença.

Page 20: Link Mining

Detecção de Grupos

• Agrupar os nós do grafo em grupos cujos integrantes possua características em comum;

• Exemplo:– Determinar nichos de mercado

• Técnicas:– Blockmodeling– Spectral graph partitioning

Page 21: Link Mining

1

2

3

4

5

6

Clientes

Produtos

IdososMulheres 14-17 anos

Homens 18-26 anos

Page 22: Link Mining

Identificação de Objeto

• Predizer quando dois objetos são o mesmo, baseado em seus atributos a seus links (record linkage, eliminição de duplicações)

• WEB: predizer quando dois sites são mirrors de um outro.

• Cite: Predizer quando duas citações são referenciadas para o mesmo paper.

• EPI: Predizer quando duas vertentes de doenças são as mesmas.

Page 23: Link Mining

Predizer Tipo de Link

• Predizer o tipo ou propósito do Link• Web: Predizer links patrocinados e links de

navegação; Predizer um relacionamento advisor-advisse

• cite: Predição se um co-autor é também um orientador

• Epi: Predizer se o contato é familiar, profissional ou conhecido

Page 24: Link Mining

Predizer existência de Links

• Predizer se um Link existe entre dois objetos• WEB: predizer se haverá um link entre duas

páginas• Cite: predizer se um paper citará outro paper• EPI:Predizer quem são os contatos de um

paciente

Page 25: Link Mining

Predição de links

• Predizer a existência de um link entre duas entidades baseado nos atributos dos objetos e outros links observados;

• Problema de classificação binário: para qualquer dois objetos potencialmente linkados oi e oj, predizer quando lij é 1 ou 0.

• Abordagens:– Propriedades estruturais da rede;– Informações dos atributos.

25

Page 26: Link Mining

Predição de links

• Exemplo:– Friend Finder do

Facebook– Prever relações de

amizade entre membros de uma rede social

– Relações existentes mas não observadas

26

Page 27: Link Mining

Predição de links

• Exemplo:– Recomendações do

Amazon– Prever compra de novos

produtos com base no histórico de compras

– Relações ainda não existentes (nesse caso, de compra de produtos)

27

Page 28: Link Mining

Estimar cardinalidade de links I

• Predizer o número de links de um objeto

• WEB: predizer a authoratativeness de uma página baseada no número de links internos; Identificando hubs baseado no número de links externos

• Cite: predizer o impacto de um paper baseado no número de citações

• EPI: predizer a infecciosidade de uma doença baseada no número de pessoas diagnosticadas

Page 29: Link Mining

Estimar cardinalidade de links II• Predizer o número de objetos alcançados ao longo de um

caminho a partir de um objeto• Importante para estimar o número de objetos que será

retornado por uma consulta

• WEB: Predizer o número de páginas retornadas por crawling um site

• Cite: predizer o número de citações de um autor particular em um journla específico

• EPI: Predizer o número de contatos mais velhos para um paciente particular

Page 30: Link Mining

Descoberta de subgrafos

• Encontrar subgrafos comuns ou interessantes em um conjunto de grafos;

• Uso– Classificação de grupos;– Identificação de padrões;– Identificação de regras associadas.

• Fases:– Geração de candidatos;– Matching.

• Teste de isomorfismo dos subgrafos

30

Page 31: Link Mining

Descoberta de subgrafos

• Exemplo:– Identificação de padrões de relacionamento

31

Page 32: Link Mining

Classificação de grafos

• Categorizar um grafo inteiro como uma instância positiva ou negativa de um conceito;

• Um dos primeiros problemas de data mining a empregar técnicas de AM;

• Não há necessidade de inferência coletiva -> independentemente gerado;

• Programação lógica indutiva: mineração de características do grafos utilizando descoberta de subgrafos

32

Page 33: Link Mining

Modelos geradores de grafos

• Dado um conjunto de grafos, como podemos gerar novos grafos que são partes da distribuição do conjunto original?

• Exemplo:– Expressões faciais

33

Page 34: Link Mining

Modelos geradores de grafos

• 2 passos:1. Contrução de um modelo estatístico do conjunto

de grafos que capture as presentes variações estruturais subjacentes;

2. A partir desse modelo, gerar novos exemplos que são partes da distribuição do conjunto original.

34

Page 35: Link Mining

• Grafos em constante mudança

Desafios

Page 36: Link Mining

Desafios

• Combinar técnicas

1

2

3

4

5

6

Clientes Produtos

36

Page 37: Link Mining

Desafios

• Combinar técnicas

1

2

3

4

5

6

Clientes Produtos

Detectar grupos

37

Page 38: Link Mining

Desafios

• Combinar técnicas

1

2

3

4

5

6

Clientes ProdutosIdosos

Mulheres 14-17 anos

Homens 18-26 anos 38

Page 39: Link Mining

Desafios

• Combinar técnicas

1

2

3

4

5

6

Clientes Produtos

Previsão de links

Idosos

Homens 18-26 anos

Mulheres 14-17 anos

39

Page 40: Link Mining

Desafios

• Análise de dados gigantescos

40

Page 41: Link Mining

Conclusão

• Muitos domínios são melhores descritos hoje como uma coleção de dados linkados de objetos heterogênos relacionados;

• Link mining é uma nova e excitante área de pesquisa em data mining que explora os links entre as instâncias dos dados;

41

Page 42: Link Mining

Conclusão

Relacionadas a Objetos Relacionadas a Links Relacionadas a Grafos

Ranking de objetos baseado em links Predição de links Descoberta de

subgrafos

Classificação de objetos baseado em links Classificação de grafos

Detectão de grupos Modelos geradores de grafos

Page 43: Link Mining

Referências

• Link mining: a survey. Getoor L., Diehl C. SIGKDD Explor. Newsl., Vol. 7, No. 2. (December 2005), pp. 3-12

• M. Kuramochi and G. Karypis. Frequent subgraph discovery.In ICDM, pages 313–320, 2001.

• http://blog.hubspot.com/blog/tabid/6307/bid/6050/The-Ultimate-List-100-Twitter-Statistics.aspx

43

Page 44: Link Mining

Dúvidas