treinamento hadoop - dia1
Post on 04-Jul-2015
585 Views
Preview:
DESCRIPTION
TRANSCRIPT
Treinamento Hadoop
Alexandre Uehara
● Analista Desenvolvedor (E-commerce)
● Coordenador Trilha Big Data (TDC 2013
São Paulo, TDC 2014 Florianópolis)
http://www.thedevelopersconference.com.
br/tdc/2013/saopaulo/trilha-bigdata#programacao
● Geek e nerd, trabalha com Python,
Java, C, BigData, NoSQL, e outras
coisas mais que aparecem no dia a dia
NossaAgenda:
7 dias!!!
Dia 1:IntroduçãoConceitos Básicos Big Data→ O que é?→ 4 V's→ Por que agora?→ Onde Usar?
→ Desafio→ BI x Big Data→Profissional de Big Data→ Ferramentas→ Dicas
Dia 2 e 3:Map Reduce e Hadoop→ História (Google)→ ConceitoMapReduce→ Hadoop→ Cases
Dia 4Outras
Ferramentas→ Ecossistema→ Ferramentas → Distribuições Hadoop→ Hadoop na Nuvem
→ NoSQL Tipos → NoSQL Exemplos → Data Science → Machine Learning
Dia 5, 6 e 7Hands-on
→ Python→ Hadoop
Por favor
Perguntem…
Não fiquem com dúvidas
Aproveitem!!!
E, o que é Big Data?
"Das 65 empresas brasileiras
entrevistadas, três em cada
quatro organizações têm
atividades em andamento e uma
em cada quatro ou está com um
projeto piloto ou em
implementação de projeto,
enquanto as restantes ainda
lutam para entender a
tecnologia e suas aplicações."
IBM and Oxford University
Antes de mais nada:
"Big Data não é
nenhuma ferramenta,
nenhuma tecnologia
é um CONCEITO."
“Big data se trata de um conceito, no
qual o foco é o grande armazenamento de
dados e maior velocidade. Podemos dizer
que o big data se baseia em 4V’s
velocidade, volume, variedade e valor”
Wikipediahttp://pt.wikipedia.org/wiki/Big_data
VOLUME:
O Big Data envolve
modelos de
persistência da
ordem de petabytes ou
zetabytes de dados
geralmente não
estruturados
VELOCIDADE
Processamento
de dados
Armazenamento
Análise de
dados
VARIEDADE:
Dados não estruturados
Dados semi-estruturados
Diferentes fontes
Diferentes formatos
VALOR
Objetivo do
Negócio
Benefício
Tomada de
decisão
Por que agora?
90% dos dados
disponíveis no
mundo foram
gerados apenas
nos dois anos
anteriores.
IDC Digital Universe
8 bits:
IDC Digital Universe
8 bits: 1 byte
IDC Digital Universe
8 bits: 1 byte
1024 bytes:
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes:
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes:
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes:
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
1014 terabytes:
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
1014 terabytes: 1 petabyte
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
1014 terabytes: 1 petabyte
1024 petabytes:
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
1014 terabytes: 1 petabyte
1024 petabytes: 1 exabyte
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
1014 terabytes: 1 petabyte
1024 petabytes: 1 exabyte
1024 exabytes:
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
1014 terabytes: 1 petabyte
1024 petabytes: 1 exabyte
1024 exabytes: 1 zetabyte
IDC Digital Universe
8 bits: 1 byte
1024 bytes: 1 kilobyte
1024 kilobytes: 1 megabyte
1024 megabytes: 1 gigabyte
1024 gigabytes: 1 terabyte
1014 terabytes: 1 petabyte
1024 petabytes: 1 exabyte
1024 exabytes: 1 zetabyte
Ou seja até 2015:
quase 8 zetabytes
IDC Digital Universe
• Processadores mais
rápidos
• Alta capacidade de
memória acessível
• Novas tecnologias de
armazenamento e
processamento desenhadas
especialmente para grandes
volumes de dados,
incluindo dados não
estruturados
• Processamento paralelo,
clustering, virtualização,
grandes ambientes de grid,
alta conectividade e
grandes resultados.
• Computação em nuvem e
outras alocações de
recursos flexíveis
Tecnologia
Mas onde
usar?
Sistema de
Recomendações
GPS
GPS
Cidades
Inteligentes
http://exame.abril.com.br/tecnologia/noticias/5-cidades-que-usam-big-data-para-melhorar-vida-dos-
moradores
Internet of
Things
Redes Sociais
Mercado Financeiro:
conhecer o consumidor,
análise de dados para identificar os riscos de
mercado
Google Flu Trends - http://www.google.org/flutrends/br/#BR
Big Data:
capturar,
armazenar,
buscar,
compartilhar,
analisar e
visualizar
Maior desafio:
Maior desafio:
Privacidade
Maior desafio:
"Ao mesmo tempo em que estamos animados com
as novas perspectivas de negócio
possibilitadas pela coleta exaustiva de
dados, também estamos preocupados com o
fato de muitas empresas armazenarem grande
quantidade de dados pessoais
desnecessariamente. Defendemos que as
empresas adotem uma atitude de
“datensparsamkeit” e armazenem apenas o
mínimo de informações pessoais necessárias
sobre seus clientes."
http://thoughtworks.fileburst.com/assets/technology-radar-
jan-2014-pt.pdf
BI x Big Data
"O Big Data é uma evolução do
BI, e ambos devem caminhar
juntos no futuro."
Carlos Tunes, líder de soluções de SW
para Business Analytics da IBM Brasil
"A diferença é o dinamismo,
multiplicidade e o tamanho"
Big Data
não vai "matar"
o BI
'Data Warehouse' será
necessário para armazenar
dados estruturados
Previsão:
BI servirá para casos
específicos, enquanto o Big
Data permitirá uma leitura
mais geral da situação
Ou seja:
Como se BI fosse a foto e o Big
Data o filme – algo mais completo,
que permite agregar todos os bancos de
dados estruturados e os não
estruturados, como vídeos, imagens e
textos.
Quem é o profissional de Big Data?
Cientista de Dados
(Data Scientist)
Que
ferramenta
preciso
aprender?
E se eu quiser saber mais?
IBM Big Data Univeristy
http://bigdatauniversity.com/courses/
Coursera
https://www.coursera.org/
● Big Data in Education,
● Web Intelligence and Big Data,
● Machine Learning,
● Introduction to Recommender Systems, etc...
EDX
https://www.edx.
org/course/caltechx/cs1156x/learning-data/1120
Learning From Data
Real-Time Big Data Analytics:
Emerging Architecture
Hadoop: The Definitive
Guide
Big Data Now: 2012
Edition
Alguns links
● http://www.thedevelopersconference.com.br/tdc/2013/saopaulo/trilha-bigdata#programacao
● http://www.infoq.com/bigdata/
● http://www.infoq.com/br/bigdata
● http://blog.matthewrathbone.com/2013/01/05/a-quick-guide-to-hadoop-map-reduce-frameworks.html
● http://developer.yahoo.com/hadoop/tutorial/
● http://blog.mortardata.com/post/40602271238/7-books-to-supercharge-your-data-education
● http://hortonworks.com/hadoop-training/register-for-hadoop-training/
● https://education.emc.com/guest/campaign/data_science.aspx
E, mais 2
dicas...
Alexandre Uehara
@AleUehara
linkedin.com/in/aleuehara
uehara.alexandre@gmail.com
slideshare.net/aleuehara
top related