bigadata casese opotunidades

58
BigData – Cases e oportunidades Alessandro de Oliveira Binhara Data Scientist – Horton Works System Integrator [email protected]

Upload: alessandro-binhara

Post on 14-Jan-2017

123 views

Category:

Software


0 download

TRANSCRIPT

Page 1: Bigadata casese opotunidades

BigData – Cases e

oportunidadesAlessandro de Oliveira Binhara

Data Scientist – Horton Works System Integrator

[email protected]

Page 2: Bigadata casese opotunidades

Agenda

O que é BigData e BI ?

O que é um Cientista de Dados ?

Porque e quando usar Bigdata ?

Cases e Aplicações

Oportunidades

Ferramentas

Page 3: Bigadata casese opotunidades
Page 4: Bigadata casese opotunidades

Por que??? BigData ??? CloudComputing??

Em 2001 : Centenas de milhares de dólares para sequenciar um Gene

Atualmente: menos de 6 mil dólares por Gene

Atualmente o sequenciamento gerar cerca de 50petabyte de dados.

1 semana para decodificar 1 Gene

Atualmente: Se Faz o sequenciamento de 100 Gene por dia

Page 5: Bigadata casese opotunidades

O que é BigData ?

Page 6: Bigadata casese opotunidades

O que é Um Cientista de Dados ?

O cientista de dados é um especialista em análise de

informações. A característica mais importante desse

profissional, portanto, é a capacidade analítica. Por isso,

quem tem uma sólida formação em matemática e lógica,

como engenheiros, economistas, estatísticos e

matemáticos, é forte candidato a se sair bem na carreira.

“Ter um consistente background em matemática é

fundamental, senão a pessoa tem que suar muito para

preencher a lacuna", diz o professor Renato Souza,

responsável pelo mestrado de modelagem matemática da

informação, da Fundação Getulio Vargas do Rio de Janeiro

(FGV-RJ), lançado em 2011.Salário mediano anual em

milhares de dólares dividido

pelos grupos identificados.

Fonte: O'Reilly.

Page 7: Bigadata casese opotunidades

Curiosidades sobre ZetaBytes

Page 8: Bigadata casese opotunidades

Não confunda os conceitos

CloudComputing – computação em nuvem

BigData – Armazenamento e Processamento de Grandes

Volumes de Dados

BI Businnes Inteligence – Apresentar a informações de

forma clara, sendo a fonte de inteligencia para os

negocios

Cientista de Dados – é a pessoa capaz de orquestrar todos

esses conceitos apresentando o valor que a empresa quer

das informações

Page 9: Bigadata casese opotunidades

Porque e Quando ?

Page 10: Bigadata casese opotunidades

Oportunidades

Page 11: Bigadata casese opotunidades

Stack de BigData

Page 12: Bigadata casese opotunidades

Database

Page 13: Bigadata casese opotunidades

Player Limits

Oracle 6T

MariaDB 6T

Postegres 3T

Mysql 3T

SQLServer 1T

*AWS Instance

ACID

Page 14: Bigadata casese opotunidades

Player Limits

Oracle 6T

MariaDB 6T

Postegres 3T

Mysql 3T

SQLServer 1T

*AWS Instance

ACID

Page 15: Bigadata casese opotunidades

Player Limits

Oracle 6T

MariaDB 6T

Postegres 3T

Mysql 3T

SQLServer 1T

*AWS Instance

ACID ACID

Page 16: Bigadata casese opotunidades

ACID ACID

Page 17: Bigadata casese opotunidades

Book

albuns

jeans

produtc

Product

Type:Book

titulo

Price

autor

pages

Product

Type:jeans

Id

Price

Detail

Model

Size

length

Product

Type:Album

Id

Price

track list

track 01

track 02

...

Page 18: Bigadata casese opotunidades

Compartivo

SQL

Banco Relacional

Escalabilidade vertical

Terabytes

RAID, HDs rápidos

Mais dados, troque o servidor

BigTable

Escalabilidade horizontal

Petabytes

CPU Rápida/ Baixo custo

Padrão, HDs duráveis

Mais dados, adicione mais

servidores

Page 19: Bigadata casese opotunidades

Bigatable is a sparse, distributed persistence

multidimensional sorted map.

PETABYTES

Page 20: Bigadata casese opotunidades

O que map reduce ? Estratégia de dividir para conquistar

MapReduce é um modelo de programação e implementação associados

para o processamento e geração de grandes conjuntos de dados (Jeffrey

Dean e Sanjay Ghemawat, 2004)

Baseado em um modelo de programação funcional (como Lisp, Ml, etc)

Processamento de dados base em batch

A abstração limpa para programadores

Paralelização automática e distribuição

Tolerância a falhas

Page 21: Bigadata casese opotunidades

MapReduce

Page 22: Bigadata casese opotunidades

O que é Hadoop ?

O Apache Hadoop é um projeto desenvolvimento como open-source software para escalável , confiável e com processamento distribuído.

Um sistema escalável e confiável para armazenamento compartilhado e análises.

Ele automaticamente trata da replicação de dados e das falhas em cada nó.

Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados

Permite que os aplicativos usem petabytes de dados em paralelo.

Page 23: Bigadata casese opotunidades

Bigdata é o mundo do cobertor curto...

Page 24: Bigadata casese opotunidades
Page 25: Bigadata casese opotunidades

Processamento

MapReduce 2 (yarn)

Apache Spark

Apache TEZ

Apache Storm

Page 26: Bigadata casese opotunidades

BigTable

HBASE

Cassandra

Page 27: Bigadata casese opotunidades

SQL/DB

Spark SQL

Impala

Hive

Presto

Page 28: Bigadata casese opotunidades

Data Flow

Flume (logs, files)

Sqoop (sync,sql)

Kafka (msg)

Nifi (proc/dist)

Page 29: Bigadata casese opotunidades

Suporte e administração

Oozie (workflow,sched)

Zookeeper(coord,config)

Ambari (monitor, managing)

Page 30: Bigadata casese opotunidades

Outros

PIG, jaql, hive

Mahout, Mlib, H2O

Solar

Zepelin

Page 31: Bigadata casese opotunidades

Visão Geral das Tecnologias

Page 32: Bigadata casese opotunidades

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

Sistemas de recomendação, IA

Analista Cloud

Page 33: Bigadata casese opotunidades

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

sistemas de recomendação, IA

Analista Cloud

BigData Developer

Page 34: Bigadata casese opotunidades

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

sistemas de recomendação, IA

Analista Cloud

Bigdata Arquitect

BigData Developer

Page 35: Bigadata casese opotunidades

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado

Linguagem R

Matemática / Estatistica

Sistemas de recomendação, IA

Analista Cloud

Data Cientist

Bigdata Arquitect

BigData Developer

Page 36: Bigadata casese opotunidades

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

Sistemas de recomendação, IA

Analista Cloud

Data Cientist

Bigdata Arquitect

BigData Developer

DBA – Analista de Negócio

Page 37: Bigadata casese opotunidades

Mercado em crescimento

Amazon.com + Amazon AWS (+260mil funcionários)

75 mil vagas empregos aberto no mundo

Receita 107 Bilhões

Valor atual $317 Bilhões

Chamath Palihapitiya, fundador da Social Capital, empresa de investimentos norte-americana, afirmou hoje (4) que a Amazon, de Jeff Bezos, pode estar por trás de um novo conglomerado avaliado em mais de US$ 3 trilhões.

Apple $521 bilhões

Google $480 bilhões

Microsoft $238Bilhões

Page 38: Bigadata casese opotunidades

Hadoop no FaceBook

Cluster em produção

4800 cores, 600 máquina, 16GB por máquina – Abril/2009

8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009

4 SATA discos de 1 TB por máquina

2 níveis de rede hierarquica, 40 máquinas por rack

Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009

Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB

raw storage.

Atualmente eles moveram 30PB de para um novo Cluster

Todos os dias o Facebook recebe 380milhões de novas fotos

Page 39: Bigadata casese opotunidades

Cluster no Yahoo

É investidor da HortonWorks

Atualmente o Yahoo tem um cluster com mais de 42mil máquinas

Page 40: Bigadata casese opotunidades

Uso Comum do Hadoop – Case ...

1. SocialEntenda como seus clientes se sentem sobre a sua marca

e produtos – agora

2. ClickstreamCapturar e analisar as pistas de dados visitantes do site e

otimizar seu site

3. Sensor/MachineDescobrir padrões nos dados que fluem automaticamente

a partir de sensores e máquinas remotas

4. GeolocationAnalisar dados baseados em localização para gerenciar as

operações onde ocorrem

5. Server LogsLog de pesquisa para diagnosticar falhas no processo e

prevenir violações de segurança

6. Unstructured (text, video, pictures, etc..)Compreender padrões de texto através de milhões de

produtos de trabalho não estruturados: páginas web, e-

mails, vídeos, fotos e documentos

Valor

Page 41: Bigadata casese opotunidades

Imagine....

Page 42: Bigadata casese opotunidades

BigData na Netflix....

How Netflix Uses Analytics To Select Movies, Create Content, and Make

Multimillion Dollar Decisions

“There are 33 million different versions of Netflix.”

– Joris Evers, Director of Global Communications

Sistema de Recomendação:

Since 75% of viewer activity is based on these suggestions, I’d say it works pretty

well for them.

https://blog.kissmetrics.com/how-netflix-uses-analytics/

Page 43: Bigadata casese opotunidades

Metricas da Netflix When you pause, rewind, or fast forward

What day you watch content (Netflix has found people watch TV shows during the week

and movies during the weekend.)

The date you watch

What time you watch content

Where you watch (zip code)

What device you use to watch (Do you like to use your tablet for TV shows and your

Roku for movies? Do people access the Just for Kids feature more on their iPads, etc.?)

When you pause and leave content (and if you ever come back)

The ratings given (about 4 million per day)

Searches (about 3 million per day)

Browsing and scrolling behavior

Netflix also looks at data within movies. They take various “screen shots” to look at “in

the moment” characteristics. Netflix has confirmed they know when the credits start

rolling; but there’s far more to it than just that. Some have figured these

characteristics may be the volume, colors, and scenery that help Netflix find out what

users like.

Page 44: Bigadata casese opotunidades

House o Cards

A netflix sabia que:

Muitos usuários assistiram a David Fincher dirigiu o filme The Social

Networkfrom começo ao fim.

A versão britânica de "House of Cards" tem sido bem assistida.

Aqueles que assistiram a versão britânica "House of Cards" também

assistiram filmes de Kevin Spacey e/ou filmes, dirigidos por David

Fincher.

Cada um desses 3 fatores sinérgicos tinha que conter um determinado

volume de usuários.A Netflix tinha um monte de usuários com todos os

3 fatores.

O seriado trouxe em 2 milhões de novos assinantes nos EUA no

primeiro trimestre de 2013, que foi um aumento de 7% trouxe em

1 milhão de novos assinantes de outras partes do mundo.

Em relação ao trimestre anterior. De acordo com The Wire

Atlântico, estes 3 milhões de assinantes quase pagou o custo de

House of Cards.

Page 45: Bigadata casese opotunidades

Seria Stranger Things uma obra de

arte do algoritmo da Netflix?

Desta vez temos uma série que costurou ET com Conta Comigo,

Alien com Carrie,

Contatos Imediatos do Terceiro Grau com Evil Dead,

Goonies com Poltergeist,

Além da Imaginação com Chamas da Vingança...

Tudo isso estrelado por dois dos atores mais populares da década perdida: Winona Ryder e Matthew Modine.

Page 46: Bigadata casese opotunidades

Sistema de recomendação

Page 47: Bigadata casese opotunidades

Sistema de Recomendação

Sistema de Recomendação de Produtos

Vitrines inteligentes para lojas online

Aumento em 60% o volume de faturamento das lojas

Cluster com 70nós

Mais de 1.5 milhões de transações por segundo

Page 48: Bigadata casese opotunidades

Case Uniter

Problema: Inadimplência X Evasão

180 mil alunos

Crescimento de 40 milhões registros por dia

1,5 trilhões de registro em SQLServer

Comparações do passado/presente

Evolução dos pagamentos atrasados

Reflexo sob o sistema acadêmico

Processamento em tempo hábil

O HADOOP Cluster HortonWorks Com isso a demanda de relatórios que

depende de pesquisa histórica

Volume total 12 Trilhões de registros

Tempo médio de busca 20s algumas

instantâneas.• Com combinações de nome de aluno,

disciplinas, turmas, cursos, data de entrada e

saída, data da informação, títulos emitidos,

renegociações, data de pagamento, valor de

titulo, valor pago.

SQLServer com base local de 600GB

Base no Hadoop é de 10TB

Page 49: Bigadata casese opotunidades

Sistema

BigData China

Page 50: Bigadata casese opotunidades

Captura e Processamento dos Vídeos

As imagens são capturadas e processadas em

tempo real.

Podemos notar as marcações realizadas pelo

software de análise.

Ele consegue identificar os carros em movimentos

e verificar várias infrações, como :

Velocidade acima de 10% do limite

Velocidade acima de 20% do limite

Avanço de Sinal

Caminhão fora de horário

Sobre a faixa de pedestre

Page 51: Bigadata casese opotunidades

Case AGENT - Central inteligente de

Trânsito Semáforo inteligente

Page 52: Bigadata casese opotunidades

Exemplo de Relatório

asd

Page 53: Bigadata casese opotunidades

Demonstração HortonWorks

Gera sentimento em relação o IronMan 3

Coleta do Stream do Twitter

Dados do Twiter são salvos pelo flume no hadoop

Com uma tabela de classificação de sentimento

É processada a base e gerar informações a respeito do filme

Page 54: Bigadata casese opotunidades
Page 55: Bigadata casese opotunidades
Page 56: Bigadata casese opotunidades

TreinamentosPresencias, On-line e Semipresenciais

Curso: Apache Hadoop Essencial (8horas )

Curso: Introdução ao Futuro Cientista de Dados (8h)

Curso: DataScientist e BigData for Bussines (16h)

Curso: Apache Hadoop Fundamental (24h)

Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)

Treinamento Apache Sqoop (8h)

Treinamento Apache Cassandra (16h)

Treinamento HBase (16h)

Treinamento Hive (16h)

Treimento Mahout (16h)

Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout(30h)

Curso de Splunk (16h)

Curso Pig e Pig Latin (16h)

Curos de Programaçao em MapReducecom Java e C# (16h)

Curso de Flume (16h)

Page 57: Bigadata casese opotunidades
Page 58: Bigadata casese opotunidades

Perguntas ???

[email protected]

@binhara

www.azuris.com.br