latinoware2012

85
ORGANOGRAFOS Reorganizando seu Conteúdo Digital Rodrigo Dias Arruda Senra IC-Unicamp / Globo.com Latinoware 2012 - IX Conferência Latino-Americana de Software Livre

Upload: rodrigo-senra

Post on 18-Dec-2014

329 views

Category:

Technology


0 download

DESCRIPTION

Organografos: Reorganizando seu conteúdo digital. A era digital está nos inundando de informação. Hierarquias são os padrões cognitivos que nos permitem reduzir o espaço de informação para uma dimensão compatível com nossos limites cognitivos. Nossas ferramentas de gerenciamento de conteúdo digital usam e abusam de hierarquias, mas há muito o que melhorar. Não temos mecanismos para avaliar a qualidade de uma organização, construímos intuitivamente hierarquias estáticas, e somos incapazes de compartilhar facilmente nossos critérios organizacionais. Nesta palestra, discutiremos estes temas e uma nova abordagem de organização de informação digital que permita a construção de hierarquias dinâmicas, contextuais, reconfiguráveis e compartilháveis.

TRANSCRIPT

Page 1: Latinoware2012

ORGANOGRAFOSReorganizando seu

Conteúdo Digital

Rodrigo Dias Arruda SenraIC-Unicamp / Globo.com

Latinoware 2012 - IX Conferência Latino-Americana de Software Livre

Page 2: Latinoware2012

Apenas um rapaz latino americano...

• Desenvolvedor e Projetista de Software(no mercado desde 1996, hoje na Globo.com )

• Engenheiro de Computação Graduação-MSc-(PhD em dez 2012) IC-Unicamp

• Entusiasta de FLOSS(atuante na comunidade desde 1999)

2

Page 3: Latinoware2012

Roteiro

• Provocação Filosófica• Motivação• Problemas• Organografos • Organicer (preview)

3

Page 4: Latinoware2012

ProvocaçãoFilosófica

Page 5: Latinoware2012

Os Primeiros Nerds

5

Page 6: Latinoware2012

Os Primeiros Nerds

5

Page 7: Latinoware2012

Os Primeiros Nerds

5

Page 8: Latinoware2012

Os Primeiros Nerds

5

Page 9: Latinoware2012

Os Primeiros Nerds

5

Page 10: Latinoware2012

Os Primeiros Nerds

5

Page 11: Latinoware2012

Os Primeiros Nerds

http://www.ciencialivre.pro.br Informação ampla e irrestrita

5

Page 12: Latinoware2012

Motivação

Page 13: Latinoware2012

7

Page 14: Latinoware2012

7

Organization

Hierarchies

Automation

Clustering

Classification

Data Sharing

EvaluationDatabases

Classification

Information Extraction

Information Retrieval

CognitionDigital Libraries

Content Management

RDF

XML

RSS

Semantic Web

Personal Desktop

User Interfaces

Visualization

k-Means

Nearest Neighbors

Support Vector Machines

Neural Nets

Naïve Bayes

Jaccard

DiceCosine

Matching Wrappers

Taxonomy

Tagging

Folksonomy

Social Networks

Syndication

Feeds

Organographs

Python

Javascript

Go

NoSQL

Mongo

CouchDB

Fapesp

CNPq

CAPES

INCT

Crescenzi

Chen

Hull Sebastiani

Sokal

Page 15: Latinoware2012

8

Page 16: Latinoware2012

8

Quantos conceitos ?

Page 17: Latinoware2012

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Page 18: Latinoware2012

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

Page 19: Latinoware2012

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Page 20: Latinoware2012

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

Page 21: Latinoware2012

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

Quais são relevantes para mim agora ?

Page 22: Latinoware2012

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

Quais são relevantes para mim agora ?

...

Page 23: Latinoware2012

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

Quais são relevantes para mim agora ?

...[Miller 1956] regra 7±2: capacidade cognitiva é limitada

Page 24: Latinoware2012

9

OrganizationHierarchies

Automation

ClusteringClassification

Data Sharing

Evaluation

Databases

Classification

Information Extraction

Information Retrieval

Cognition

Digital LibrariesContent Management

RDFXML

RSS

Semantic Web

Personal Desktop

User Interfaces

Visualization

k-Means

Nearest Neighbors

Support Vector Machines Neural Nets

Naïve Bayes

Jaccard

Dice

Cosine

Matching

Wrappers

Taxonomy

TaggingFolksonomy

Social Networks

Syndication

Feeds

Organographs

PythonJavascript

GoNoSQLMongoCouchDB

Fapesp

CNPq

CAPES

INCT

CrescenziChen

Hull

Sebastiani

Sokal

Page 25: Latinoware2012

10

Page 26: Latinoware2012

Problemas

Page 27: Latinoware2012

12

Qual das categorias abaixo é a que melhor acomoda o objeto acima ?

Page 28: Latinoware2012

13

Vermelhos ? Triangulos ? Relacionados ?

Motivação

Page 29: Latinoware2012

Uma breve história no tempo

14

Page 30: Latinoware2012

Uma breve história no tempo

14

Page 31: Latinoware2012

Uma breve história no tempo

14

Page 32: Latinoware2012

Uma breve história no tempo

14

Page 33: Latinoware2012

Uma breve história no tempo

14

Page 34: Latinoware2012

Uma breve história no tempo

14

Page 35: Latinoware2012

Uma breve história no tempo

14

Page 36: Latinoware2012

Uma breve história no tempo

14

Page 37: Latinoware2012

Uma breve história no tempo

14Muito mais difícil que

Page 38: Latinoware2012

O que há de errado ?

15

Page 39: Latinoware2012

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

Page 40: Latinoware2012

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

Page 41: Latinoware2012

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

Page 42: Latinoware2012

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência

Page 43: Latinoware2012

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência

5. Organização não é reutilizável

Page 44: Latinoware2012

Objetivos

Page 45: Latinoware2012

Objetivos

1. Avaliar hierarquias criadas manualmente

2. Reorganizar conteúdo dinamicamente

3. Reutilizar organização

Page 46: Latinoware2012

Avaliar Hierarquias

17

Page 47: Latinoware2012

Avaliar Hierarquias

17

muito conteúdo junto

Page 48: Latinoware2012

Avaliar Hierarquias

17

muito conteúdo junto

duplicado, deslocado

Page 49: Latinoware2012

Avaliar Hierarquias

17

muito conteúdo junto

muitos agregadores

duplicado, deslocado

Page 50: Latinoware2012

Avaliar Hierarquias

17

muito conteúdo junto

muitos agregadores

duplicado, deslocado

profundo demais

Page 51: Latinoware2012

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011

Autor

Data de Publicação

Page 52: Latinoware2012

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011

Autor

Data de Publicação Autor

Data de Publicação

Page 53: Latinoware2012

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011 Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2008

2011

Alice

Autor

Data de Publicação Autor

Data de Publicação

Page 54: Latinoware2012

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011 Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2008

2011

Alice

Autor

Data de Publicação Autor

Data de Publicação

a TAREFA é importante!

Page 55: Latinoware2012

Reutilizar organização

19

Page 56: Latinoware2012

Reutilizar organização

19

Page 57: Latinoware2012

Reutilizar organização

19

Page 58: Latinoware2012

Organografos

Page 59: Latinoware2012

Metodologia

21

coleção

Page 60: Latinoware2012

Metodologia

21

coleção

organizar

Page 61: Latinoware2012

Metodologia

21

coleção

organizar

avaliar

Page 62: Latinoware2012

Metodologia

21

coleção

organizar

avaliar

reorganizar

Page 63: Latinoware2012

Metodologia

21

coleção

organizar

avaliar

reorganizar

compartilhar

Page 64: Latinoware2012

22

Page 65: Latinoware2012

22

Organografos

... são artefatos que tornam explícito como organizar informação digital no contexto de uma tarefa específica.

Page 66: Latinoware2012

Organographs

23

O = <Hin(V,E), forg, Hout(V,E)>

Hin(V,E), Hout(V,E): Input and Output Hierarchies

forg: FHil(vagg,vagg) + FCat(vagg,vcnt)

vagg

vcnteagg

ecnt

notation

Page 67: Latinoware2012

NLP

Autor doOrganofrafo

MLDomínio

Papéis

OntologiasClassificadoresExtração de

Informação

Algoritmos

SimilaridadeOrganografo

Algoritmos de Visualização

24

Iteradores

Data Container UX

Autoria de Organografo

Tarefa !

Page 68: Latinoware2012

25

Estrutura de um Organografo

Hierarquia de Entrada:• localização ( URL )• Navegação (crawler/iterador)

Hieraquia de Saída:• localização (URL) • política de visualização

Transformação:• política de extração de informação• Remapeamento da estrutura hierarquica (FHil)

• Política de categorização (FCat)

Page 69: Latinoware2012

Hierarquia de Origem

HierarquiaResultante

Usuário do Organografo

Índice deFacetas

Pre-processamento

Extração

Navegação daHierarquia

Workflow de Transformação

Execução de Organografo

FCat() FHil()

Visualização

Iterador

Page 70: Latinoware2012

27

ImplementaçãoCrawler:

filesystem, relational DB, OO DB, Web Extração de Informação:

patterns,dictionaries, rules, probabilities, templates/wrappers Medidas de Similaridade:

matching, dice, jaccard, overlap, cosineOntologias:

ACM subject headings, Qualis Index, SKOSClassificadores:

decision trees, naïve bayes, max. entropyVisualização:

user-mode filesystem(fuse, dokan), InfoVis toolkit (Web)

Page 71: Latinoware2012

Example

28

Page 72: Latinoware2012

Example

29

Coleção de Entrada

Task: extração info

Task: transformação

Task: visualização

Page 73: Latinoware2012

acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’)

organograph: input: collection(‘file:///some/local/dir/docs’) output: collection(‘rodsenra@dropbox:/output’) id: ‘docs by year’ level: label: format(‘YYYY’, input.Vcnt.publication_date) level: classifier: naive_bayes(classes=acmccs98.Vagg[1], train=acmccs98.Vagg[2:] + acmccs98.Vcnt) label: classifier.class

Page 74: Latinoware2012

Organicer

Page 75: Latinoware2012

Organicer

32

Page 76: Latinoware2012

Organicer

32

Page 77: Latinoware2012

Organicer

32

Page 78: Latinoware2012

Organicer

32

Page 79: Latinoware2012

Organicer

32

Page 80: Latinoware2012

Conclusão

Page 81: Latinoware2012

Trabalhos Relacionados•Topic Modeling

LSA, LDA, Hierarchical Bayesian Blei 201; Blei, Ng, & Jordan, 2003; Griffiths & Steyvers, 2002; 2003; 2004; Hofmann, 1999; 2001

• Personal Information Management CALO, UMEA, X-COSIM, Haystack, UpLib, Iris

Zimmermann 2005; Arndt 2007; Lansdale 1988; Kaptelinin 2003; Janssen & Popat 2003; Karger et al 2003

• Semantic DesktopNepomuk, SEMSOCGiannakidou et al 2008; Groza et al 2007

• Fundamental ResearchClassification; Clusterization; NLP; Information Extraction

Page 82: Latinoware2012

Resumo

• Organografos: metodologia, arquitetura,utilização

• Capturar a tarefa por trás de uma organização

• Avaliar, reorganizar e compartilhar.

35

Page 83: Latinoware2012

Agradecimentos

• Laboratório de Sistemas de Informação (IC-Unicamp)

http://www.lis.ic.unicamp.br• Brazilian Institute for Web Science Research

http://webscience.org.br• Globo.com

36

Page 85: Latinoware2012

Obrigado a todos pela atenção.

Rodrigo Dias Arruda Senrahttp://rodrigo.senra.nom.br

[email protected]

As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.

Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Em caso de alterações, favor consultar o autor.

Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright.