bigadata casese opotunidades

Post on 14-Jan-2017

123 Views

Category:

Software

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

BigData – Cases e

oportunidadesAlessandro de Oliveira Binhara

Data Scientist – Horton Works System Integrator

binhara@azuris.com.br

Agenda

O que é BigData e BI ?

O que é um Cientista de Dados ?

Porque e quando usar Bigdata ?

Cases e Aplicações

Oportunidades

Ferramentas

Por que??? BigData ??? CloudComputing??

Em 2001 : Centenas de milhares de dólares para sequenciar um Gene

Atualmente: menos de 6 mil dólares por Gene

Atualmente o sequenciamento gerar cerca de 50petabyte de dados.

1 semana para decodificar 1 Gene

Atualmente: Se Faz o sequenciamento de 100 Gene por dia

O que é BigData ?

O que é Um Cientista de Dados ?

O cientista de dados é um especialista em análise de

informações. A característica mais importante desse

profissional, portanto, é a capacidade analítica. Por isso,

quem tem uma sólida formação em matemática e lógica,

como engenheiros, economistas, estatísticos e

matemáticos, é forte candidato a se sair bem na carreira.

“Ter um consistente background em matemática é

fundamental, senão a pessoa tem que suar muito para

preencher a lacuna", diz o professor Renato Souza,

responsável pelo mestrado de modelagem matemática da

informação, da Fundação Getulio Vargas do Rio de Janeiro

(FGV-RJ), lançado em 2011.Salário mediano anual em

milhares de dólares dividido

pelos grupos identificados.

Fonte: O'Reilly.

Curiosidades sobre ZetaBytes

Não confunda os conceitos

CloudComputing – computação em nuvem

BigData – Armazenamento e Processamento de Grandes

Volumes de Dados

BI Businnes Inteligence – Apresentar a informações de

forma clara, sendo a fonte de inteligencia para os

negocios

Cientista de Dados – é a pessoa capaz de orquestrar todos

esses conceitos apresentando o valor que a empresa quer

das informações

Porque e Quando ?

Oportunidades

Stack de BigData

Database

Player Limits

Oracle 6T

MariaDB 6T

Postegres 3T

Mysql 3T

SQLServer 1T

*AWS Instance

ACID

Player Limits

Oracle 6T

MariaDB 6T

Postegres 3T

Mysql 3T

SQLServer 1T

*AWS Instance

ACID

Player Limits

Oracle 6T

MariaDB 6T

Postegres 3T

Mysql 3T

SQLServer 1T

*AWS Instance

ACID ACID

ACID ACID

Book

albuns

jeans

produtc

Product

Type:Book

titulo

Price

autor

pages

Product

Type:jeans

Id

Price

Detail

Model

Size

length

Product

Type:Album

Id

Price

track list

track 01

track 02

...

Compartivo

SQL

Banco Relacional

Escalabilidade vertical

Terabytes

RAID, HDs rápidos

Mais dados, troque o servidor

BigTable

Escalabilidade horizontal

Petabytes

CPU Rápida/ Baixo custo

Padrão, HDs duráveis

Mais dados, adicione mais

servidores

Bigatable is a sparse, distributed persistence

multidimensional sorted map.

PETABYTES

O que map reduce ? Estratégia de dividir para conquistar

MapReduce é um modelo de programação e implementação associados

para o processamento e geração de grandes conjuntos de dados (Jeffrey

Dean e Sanjay Ghemawat, 2004)

Baseado em um modelo de programação funcional (como Lisp, Ml, etc)

Processamento de dados base em batch

A abstração limpa para programadores

Paralelização automática e distribuição

Tolerância a falhas

MapReduce

O que é Hadoop ?

O Apache Hadoop é um projeto desenvolvimento como open-source software para escalável , confiável e com processamento distribuído.

Um sistema escalável e confiável para armazenamento compartilhado e análises.

Ele automaticamente trata da replicação de dados e das falhas em cada nó.

Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados

Permite que os aplicativos usem petabytes de dados em paralelo.

Bigdata é o mundo do cobertor curto...

Processamento

MapReduce 2 (yarn)

Apache Spark

Apache TEZ

Apache Storm

BigTable

HBASE

Cassandra

SQL/DB

Spark SQL

Impala

Hive

Presto

Data Flow

Flume (logs, files)

Sqoop (sync,sql)

Kafka (msg)

Nifi (proc/dist)

Suporte e administração

Oozie (workflow,sched)

Zookeeper(coord,config)

Ambari (monitor, managing)

Outros

PIG, jaql, hive

Mahout, Mlib, H2O

Solar

Zepelin

Visão Geral das Tecnologias

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

Sistemas de recomendação, IA

Analista Cloud

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

sistemas de recomendação, IA

Analista Cloud

BigData Developer

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

sistemas de recomendação, IA

Analista Cloud

Bigdata Arquitect

BigData Developer

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado

Linguagem R

Matemática / Estatistica

Sistemas de recomendação, IA

Analista Cloud

Data Cientist

Bigdata Arquitect

BigData Developer

O que eu preciso saber para trabalhar com bigdata

TCPIP, Redes, Instraestrutura

Linux / UNIX

Bash

Cloud Computin (Azure, AWS etc)

Data Ingestion, Flume, HDFS

Java, MapReduce , Yarn, TEZ

Estrutura de Dados, SQL, HIVE, Sqoop, Dataware House

Bussines Inteligence

Java , Scala, Python

Processamento de Streaming , Spark, Kafka

Maquinas de aprendizado,

Linguagem R

Matemática / Estatistica

Sistemas de recomendação, IA

Analista Cloud

Data Cientist

Bigdata Arquitect

BigData Developer

DBA – Analista de Negócio

Mercado em crescimento

Amazon.com + Amazon AWS (+260mil funcionários)

75 mil vagas empregos aberto no mundo

Receita 107 Bilhões

Valor atual $317 Bilhões

Chamath Palihapitiya, fundador da Social Capital, empresa de investimentos norte-americana, afirmou hoje (4) que a Amazon, de Jeff Bezos, pode estar por trás de um novo conglomerado avaliado em mais de US$ 3 trilhões.

Apple $521 bilhões

Google $480 bilhões

Microsoft $238Bilhões

Hadoop no FaceBook

Cluster em produção

4800 cores, 600 máquina, 16GB por máquina – Abril/2009

8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009

4 SATA discos de 1 TB por máquina

2 níveis de rede hierarquica, 40 máquinas por rack

Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009

Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB

raw storage.

Atualmente eles moveram 30PB de para um novo Cluster

Todos os dias o Facebook recebe 380milhões de novas fotos

Cluster no Yahoo

É investidor da HortonWorks

Atualmente o Yahoo tem um cluster com mais de 42mil máquinas

Uso Comum do Hadoop – Case ...

1. SocialEntenda como seus clientes se sentem sobre a sua marca

e produtos – agora

2. ClickstreamCapturar e analisar as pistas de dados visitantes do site e

otimizar seu site

3. Sensor/MachineDescobrir padrões nos dados que fluem automaticamente

a partir de sensores e máquinas remotas

4. GeolocationAnalisar dados baseados em localização para gerenciar as

operações onde ocorrem

5. Server LogsLog de pesquisa para diagnosticar falhas no processo e

prevenir violações de segurança

6. Unstructured (text, video, pictures, etc..)Compreender padrões de texto através de milhões de

produtos de trabalho não estruturados: páginas web, e-

mails, vídeos, fotos e documentos

Valor

Imagine....

BigData na Netflix....

How Netflix Uses Analytics To Select Movies, Create Content, and Make

Multimillion Dollar Decisions

“There are 33 million different versions of Netflix.”

– Joris Evers, Director of Global Communications

Sistema de Recomendação:

Since 75% of viewer activity is based on these suggestions, I’d say it works pretty

well for them.

https://blog.kissmetrics.com/how-netflix-uses-analytics/

Metricas da Netflix When you pause, rewind, or fast forward

What day you watch content (Netflix has found people watch TV shows during the week

and movies during the weekend.)

The date you watch

What time you watch content

Where you watch (zip code)

What device you use to watch (Do you like to use your tablet for TV shows and your

Roku for movies? Do people access the Just for Kids feature more on their iPads, etc.?)

When you pause and leave content (and if you ever come back)

The ratings given (about 4 million per day)

Searches (about 3 million per day)

Browsing and scrolling behavior

Netflix also looks at data within movies. They take various “screen shots” to look at “in

the moment” characteristics. Netflix has confirmed they know when the credits start

rolling; but there’s far more to it than just that. Some have figured these

characteristics may be the volume, colors, and scenery that help Netflix find out what

users like.

House o Cards

A netflix sabia que:

Muitos usuários assistiram a David Fincher dirigiu o filme The Social

Networkfrom começo ao fim.

A versão britânica de "House of Cards" tem sido bem assistida.

Aqueles que assistiram a versão britânica "House of Cards" também

assistiram filmes de Kevin Spacey e/ou filmes, dirigidos por David

Fincher.

Cada um desses 3 fatores sinérgicos tinha que conter um determinado

volume de usuários.A Netflix tinha um monte de usuários com todos os

3 fatores.

O seriado trouxe em 2 milhões de novos assinantes nos EUA no

primeiro trimestre de 2013, que foi um aumento de 7% trouxe em

1 milhão de novos assinantes de outras partes do mundo.

Em relação ao trimestre anterior. De acordo com The Wire

Atlântico, estes 3 milhões de assinantes quase pagou o custo de

House of Cards.

Seria Stranger Things uma obra de

arte do algoritmo da Netflix?

Desta vez temos uma série que costurou ET com Conta Comigo,

Alien com Carrie,

Contatos Imediatos do Terceiro Grau com Evil Dead,

Goonies com Poltergeist,

Além da Imaginação com Chamas da Vingança...

Tudo isso estrelado por dois dos atores mais populares da década perdida: Winona Ryder e Matthew Modine.

Sistema de recomendação

Sistema de Recomendação

Sistema de Recomendação de Produtos

Vitrines inteligentes para lojas online

Aumento em 60% o volume de faturamento das lojas

Cluster com 70nós

Mais de 1.5 milhões de transações por segundo

Case Uniter

Problema: Inadimplência X Evasão

180 mil alunos

Crescimento de 40 milhões registros por dia

1,5 trilhões de registro em SQLServer

Comparações do passado/presente

Evolução dos pagamentos atrasados

Reflexo sob o sistema acadêmico

Processamento em tempo hábil

O HADOOP Cluster HortonWorks Com isso a demanda de relatórios que

depende de pesquisa histórica

Volume total 12 Trilhões de registros

Tempo médio de busca 20s algumas

instantâneas.• Com combinações de nome de aluno,

disciplinas, turmas, cursos, data de entrada e

saída, data da informação, títulos emitidos,

renegociações, data de pagamento, valor de

titulo, valor pago.

SQLServer com base local de 600GB

Base no Hadoop é de 10TB

Sistema

BigData China

Captura e Processamento dos Vídeos

As imagens são capturadas e processadas em

tempo real.

Podemos notar as marcações realizadas pelo

software de análise.

Ele consegue identificar os carros em movimentos

e verificar várias infrações, como :

Velocidade acima de 10% do limite

Velocidade acima de 20% do limite

Avanço de Sinal

Caminhão fora de horário

Sobre a faixa de pedestre

Case AGENT - Central inteligente de

Trânsito Semáforo inteligente

Exemplo de Relatório

asd

Demonstração HortonWorks

Gera sentimento em relação o IronMan 3

Coleta do Stream do Twitter

Dados do Twiter são salvos pelo flume no hadoop

Com uma tabela de classificação de sentimento

É processada a base e gerar informações a respeito do filme

TreinamentosPresencias, On-line e Semipresenciais

Curso: Apache Hadoop Essencial (8horas )

Curso: Introdução ao Futuro Cientista de Dados (8h)

Curso: DataScientist e BigData for Bussines (16h)

Curso: Apache Hadoop Fundamental (24h)

Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)

Treinamento Apache Sqoop (8h)

Treinamento Apache Cassandra (16h)

Treinamento HBase (16h)

Treinamento Hive (16h)

Treimento Mahout (16h)

Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout(30h)

Curso de Splunk (16h)

Curso Pig e Pig Latin (16h)

Curos de Programaçao em MapReducecom Java e C# (16h)

Curso de Flume (16h)

Perguntas ???

Binhara@azuris.com.br

@binhara

www.azuris.com.br

top related