análise das palestras do pythonbrasil [6]

Post on 18-Dec-2014

1.974 Views

Category:

Technology

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

My lecture at PythonBrasil about Data mining applied on the lectures of Python Brasil. Lighting talk - PythonBrasil - Curitiba -22/10/2010

TRANSCRIPT

Marcel Caraciolo - @marcelcaraciolo

Mineração de Palestras

1

Quem é Marcel ?

Marcel Pinheiro Caraciolo - @marcelcaraciolo

Mestrando em Ciência da Computação no CIN/UFPE na área de mineração de dados

Diretor de Pesquisa e Desenvolvimento na Orygens

Membro e Moderador da Celúla de Usuários Python de Pernambuco (PUG-PE)

Minhas áreas de interesse: Computação móvel e Computação inteligente

Meus blogs: http://www.mobideia.com (sobre Mobilidade desde 2006) http://aimotion.blogspot.com (sobre I.A. desde 2009)

Jovem Aprendiz ainda nas artes pythonicas.... (desde 2007)

Sergipano, porém Recifense.

2

Como comecei esta análise ?

20 hrs atrás no Hotel....

3

Scraping do PythonBrasil

Mini-Crawler para extrair as palestras aprovadasurllib2,BeautifulSoap, regex...

4

Dilema

Esses dados são Públicos ??

Não ? Podemos negociar ein ...

5

Alguns dados interessantes

6

48 Palestras aceitas2160 minutos de Palestras

7

Ou seja

=˜388.800 tweets postados

8

Ou assistir

Todas temporadas Big Bang Theory

Toda a Saga Star Wars 2x

9

Na nossa língua agora...

Zerar Super Mario 216 x

http://video.google.com/videoplay?docid=-8297067084319900351&q=mario#

10

Na nossa língua agora...

Abrir o Eclipse 2 vezes!

11

Total de Pontos recebidos: 4812

12

Convertendo em votos

Não dava para eleger Tiririca, mas

Mas veja conseguimos um número perfeito!

4812 MB = Capacidade de um DVD!

13

Palestra Hackeada

Dinf & C3SL infra estrutura - 999 vontos

Apelão mesmo!

14

Distribuição das palestras

Ainda precisamos distribuir melhor o nível das

palestras!

Avançado2%

Intermediario56%

Basico42%

AvançadoIntermediarioBasico

15

Distribuição das palestras

16

Temas mais frequentes

Temas relacionados a desenvolvimento, dados, sistemas, linguagem,ferramentas, django

A partir dos resumos

17

Temas mais frequentes

Mas como ver a distribuição dos temas

18

Temas mais frequentes

Mas ainda fica difícil de distinguir!

19

Distribuição das palestras

Utilizado o algoritmo de clustering K-means

Ferramenta de visualização em Python UbiGraph

DEMO

20

Distribuição das palestrasFerramenta de visualização UbiGraph

Inteligencia Artificial

HardwareWeb (Django e AppEngine)

Empreendorismo

Padrões e Práticas

Ferramentas

Testes

Mineração de Dados

http://ubietylab.net/ubigraph/

21

RESUMO

Excelente nível de palestras!

Submetam seus trabalhos, vocês podem estar aqui também!

Engaje, colabore e divulgue!

22

Marcel Caraciolo - @marcelcaraciolo

Mineração de Palestras

23

Marcel Caraciolo - @marcelcaraciolo

Mineração de Palestras

23

top related