ebookbigdata

65
O grande livro de Big Data Um guia prático para tirar o seu primeiro projeto de Big Data do papel.

Upload: girleno

Post on 18-Dec-2015

11 views

Category:

Documents


1 download

DESCRIPTION

Big data

TRANSCRIPT

  • O grande livro de Big DataUm guia prtico para tirar oseu primeiro projeto de Big Datado papel.

  • ContedoIntroduo

    O que voc precisa saber Por que a maioria das empresas implementa projetos de Big DataPor que os projetos de Big Data falham Como fazer o seu projeto de Big Data funcionar

    Escolha do projeto certoComo seria o projeto certo Considere o impacto Projetos tticos de Big Data: Alguns exemplos A jornada bsica do Big Data

    Defina as suas metasAs metas de negciosMetas de TI

    Defina as necessidades de dadosQuais so os dados que voc precisa?Cinco consideraes essenciais em relao aos dados

    Dica: Clique para acessar a seo

    Parte B: Sua estratgia

    Parte C: Sua cadeia de suprimentos de Big Data descomplicada3

    4

    5

    67 10

    1213151719

    23

    242527

    293033

    Sua equipeCinco lies essenciais para a criao da equipeImplemente a governana de dados As habilidades que voc tem e aquelas de que precisa

    Suas ferramentasNoes bsicas sobre as ferramentas de Big Data

    Seus processosOs oito Big Data

    Sua arquiteturaPrimeiros passos: Sua rea restritaA arquitetura ideal do Big Data

    Seu plano de projetoSeu plano de projeto

    Seguindo em frente

    Prximos passos

    Sobre a Informatica

    36

    37384245

    4748

    5253

    565759

    6061

    63

    64

    65

    Parte A: Como se preparar

    2 | O grande livro de Big Data da Informatica

  • Poucas tendncias tecnolgicas foram to comentadas quanto o Big Data.

    E, ao mesmo tempo, poucas tendncias tecnolgicas ofereceram s empresas tanto potencial de transformao. Desde que o software comeou a envolver processos de negcios completos, na virada do sculo, uma coisa ficou clara: os dados mudam o modo como trabalhamos.

    claro que, com grandes expectativas, tambm vm grandes desiluses. E, no caso do Big Data, com certeza j vimos bons conselhos e informaes erradas difundidos na mesma medida. Infelizmente, como este admirvel mundo novo de dados infinitos ainda bem recente, todo esse barulho deixou muita gente confusa.

    Este livro tem o objetivo de desfazer essa confuso.

    O segredo blindar a sua estratgia e execut-la de forma pragmtica. Este livro servir como um guia prtico na sua jornada, esteja voc comeando uma iniciativa especfica e ttica ou planejando um esforo mais estrutural para toda a empresa.

    Vamos nos aprofundar.

    Como ser grande

    3 | O grande livro de Big Data da Informatica

  • O que voc precisa saberAntes de falarmos sobre as especificidades do seu prprio projeto, veja algumas questes que a maioria dos profissionais que esto trabalhando com Big Data gostaria de ter ficado sabendo antes de comearem seus projetos.

    2

    4

    6

    8

    10

    12

    14

  • Quando as empresas decidem que vo se dedicar ao Big Data, o motivo geralmente um dos descritos a seguir.

    Ao tentar melhorar suas anlises, as empresas percebem que, para isso, precisaro analisar uma quantidade de dados significativamente maior. Geralmente, uma unidade de negcio (por exemplo, marketing) comea essas iniciativas. O processo torna evidente que possvel envolver os produtos em uma camada de servios, fornecendo uma anlise (quase sempre em tempo real) capaz de ajudar os clientes a usar os produtos de maneira mais eficiente e infalvel.

    As empresas querem fazer as coisas de maneira mais rpida, melhor e mais barata usando o Big Data para comunicar todas as decises relacionadas a uma unidade de negcio ou a um processo especfico.

    Percebem que o Big Data essencial para todas as unidades de negcio da organizao e tentam estabelecer as bases para uma viso centralizada em dados, em todo o seu universo.

    Elas sabem que precisam comear um projeto de Big Data antes que seja tarde demais, mas ainda no sabem realmente o que fazer. O objetivo aprender e experimentar.

    Todos esses aspectos so timos motivos para se interessar por Big Data. Mas, se quiser garantir que os seus projetos resistam ao teste do tempo (e da anlise multidepartamental), voc ter que ser muito claro sobre qual desses motivos melhor representa o seu interesse.

    Por que a maioria das organizaes implementa projetos de Big Data

    O que voc precisa saber

    6 | O grande livro de Big Data da Informatica

  • Uma pesquisa1 descobriu que 55% de todos os projetos de Big Data no so concludos e muitos outros ficam aqum dos objetivos. Embora essa taxa de desistncia no seja atpica em um estgio to inicial de uma tendncia de tecnologia, seria insensato no aprender as lies que esses projetos podem ensinar. Vamos analisar os quatro principais motivos para o fracasso de projetos de Big Data.

    Metas vagas O motivo de falha mais citado na pesquisa foi o escopo impreciso do projeto. Muitas empresas tm como meta projetos ambguos,(ambguos demais, vale ressaltar), com objetivos no muito claros, e que falham quando elas precisam fazer escolhas difceis sobre o que ou no importante.

    Se envolver com Big Data s para ter um projeto de Big Data a receita para o desastre. As complexidades desses projetos exigem um compromisso firme com a obteno de um determinado resultado. Sem a certeza das metas, isso no possvel.

    Por que os projetos de Big Data falham

    1

    1. www.informationweek.com/software/information-management/vague-goals-seed-big-data-failures/d/d-id/1108384

    O que voc precisa saber

    7 | O grande livro de Big Data da Informatica

  • 2 3

    Expectativas mal administradas Todo o entusiasmo em torno do Big Data gera algumas expectativas muito perigosas sobre o que o projeto pode proporcionar. Por mais que seja tentador fazer promessas a curto prazo, importante manter uma viso realista do que se pode esperar do projeto, quanto tempo isso vai levar e a quantidade de esforos necessrios para chegar l.

    Quando a expectativa de impacto e insights muito alta, voc se pega navegando em terabytes de annimos e desconhecidos procura de ouro. Quando a expectativa de resultados no realista, voc acaba buscando prazos e oramentos que no so justos.

    Atrasos e demoras nos projetos Apesar dessa disciplina ser bem nova para as empresas, no novidade que a maioria dos projetos de Big Data acaba custando caro ou demorando muito. Normalmente, isso resultado de uma mistura de expectativas mal administradas e de vises inadequadas sobre como construir uma arquitetura dimensionvel.

    Quando raros e caros desenvolvedores de Hadoop Java so contratados e encarregados de implementaes gigantescas com codificao manual, as empresas logo percebem que impossvel sair do ambiente de rea restrita sem erros. Como resultado, os projetos de Big Data acabam definhando como um experimento cientfico e nunca saem do laboratrio.

    O que voc precisa saber

    Por que os projetos de Big Data falham

    8 | O grande livro de Big Data da Informatica

  • 4Incapacidade de dimensionar J difcil encontrar cinco timos desenvolvedores Hadoop Java. Mas, quando os projetos aumentam e precisam se ajustar a 30 desenvolvedores Java em um nico ano, as coisas podem chegar ao limite. O pior no o custo da oportunidade de clusters Hadoop no usados; o custo da oportunidade e do tempo perdidos.

    Muito frequentemente, as empresas buscam a convenincia do curto prazo em vez da sustentabilidade a longo prazo. Embora seja precipitado de nossa parte sugerir que sempre possvel evitar a troca de um pelo outro, nunca demais enfatizar a importncia da viso de longo prazo. Para que os seus dados sejam protegidos e gerenciados adequadamente, voc precisa sempre supervisionar as implicaes de longo prazo do seu projeto.

    Os quatro motivos do fracasso do Big Data so preocupantes e muito comuns. Por isso, vamos falar sobre como possvel evit-los e construir uma implementao duradoura.

    O que voc precisa saber

    Por que os projetos de Big Data falham

    9 | O grande livro de Big Data da Informatica

  • Como fazer o seu projeto de Big Data funcionarComo a maioria dos projetos de Big Data falha por falta de clareza e devido incapacidade de demonstrar a funcionalidade da iniciativa, voc mesmo deve se responsabilizar por isso para trazer foco e comprovao ao seu projeto. Seguem trs dicas teis para garantir que o seu projeto j comece dando certo e continue em operao.

    Defina objetivos claros e administre as expectativas

    Se voc no sabe qual deve ser a meta do seu projeto, pense nos objetivos que definiu para a infraestrutura de dados existente.

    Se a sua organizao j precisa de dados para determinados processos de negcios (como deteco de fraudes ou anlise de mercado), pense em como o Big Data pode melhorar ou valorizar esses processos. Em vez de abordar um problema totalmente novo, voc deve ter como alvo melhorar um processo ou projeto j existente.

    Sem um foco claro e um valor perceptvel aos usurios de negcios, o projeto estar condenado ao fracasso.

    Defina as mtricas que comprovam o valor do projeto

    Mtricas claramente definidas e que se ajustem aos objetivos podem evitar uma grande quantidade de problemas. Ao definir metas realistas que podem ser medidas, todos ao seu redor conseguiro ver o progresso que voc est obtendo.

    O mais importante: eles sabero que voc tem como objetivo o longo prazo. Pergunte a si mesmo como voc pode medir o impacto do seu projeto no contexto das suas metas.

    Isso crucial, pois os usurios de negcios precisaro de ajuda para racionalizar compromissos de curto prazo, e as metas mensurveis ajudam a provar que voc est proporcionando mais valor do que eles imaginam.

    1 2

    O que voc precisa saber

    10 | O grande livro de Big Data da Informatica

  • Seja estratgico sobre ferramentas e codificao manual Evite a tentao de codificar tudo manualmente diretamente no Hadoop. Lembre-se de que o objetivo aqui no construir uma implementao de trabalho manual a partir do zero; o objetivo entregar o valor do Big Data para a sua organizao.

    Em vez de tentar codificar manualmente cada integrao, limpar cada conjunto de dados e codificar manualmente todas as anlises, voc deve analisar ferramentas e automao para ajudar a acelerar esses processos.

    O mais importante no cair na armadilha de desperdiar talentos de desenvolvimento de Java, raros e caros, em aspectos que no podem ser dimensionados ou transferidos para outros funcionrios. A sua funo tomar decises estratgicas sobre a implantao de recursos escassos, de forma a atingir seus objetivos.

    Adote ferramentas que possam aumentar a produtividade da equipe de desenvolvimento por meio do aproveitamento das habilidades e do conhecimento da qualidade dos seus dados de ETL existentes e de especialistas em Business Intelligence, enquanto libera os especialistas em Java para trabalhar na lgica especfica para a qual no h ferramentas disponveis.

    Alm disso, como as tecnologias do tipo Hadoop evoluem a cada dia, vale a pena considerar uma camada de abstrao que possa lhe proteger das constantes mudanas nas especificaes das tecnologias subjacentes. Acima de tudo, lembre-se de que as habilidades necessrias so escassas, mas as ferramentas esto sempre disponveis.

    3

    O que voc precisa saber

    Como fazer o seu projeto de Big Data funcionar

    11 | O grande livro de Big Data da Informatica

  • Escolha do projeto certoSob a perspectiva dos desafios que voc enfrentar, vamos analisar agora o que voc deve fazer para escolher o projeto certo para a sua organizao.

  • Se a sua organizao est ansiosa por mudanas e j aceitou que ser preciso ter uma estrutura abrangente de governana de dados para melhorar a forma como eles trabalham, provavelmente voc poder ignorar esta seo. Por outro lado, se voc est pensando em um projeto ttico e especfico, que pode ser adaptado posteriormente para a empresa como um todo, continue lendo.

    O projeto certo tem estes quatro componentes.

    Valor demonstrvel

    O projeto certo aquele em que o valor compartilhado de maneira igual entre a TI e a unidade de negcio que voc est tentando ajudar. Isso significa proporcionar um valor claro para um departamento, uma unidade de negcio ou um grupo, de forma que eles possam ver.

    Patrocnio

    Os executivos que aderirem sua viso sero essenciais para o sucesso do projeto. Os projetos de Big Data precisam de defensores e patrocinadores em altos cargos, que estejam dispostos a defender o trabalho que voc est fazendo.

    Portanto, se voc sabe que pode construir anlises excelentes para a logstica, mas o nico executivo que aderiu foi o gerente de fbrica, pense novamente. Se o marketing o seu defensor, trabalhe para apoiar os requisitos de anlise de marketing. No d para forar ningum a mudar. Siga a influncia e extraia o mximo de valor possvel.

    Como seria o projeto certo

    1 2

    Escolha do projeto certo

    13 | O grande livro de Big Data da Informatica

  • Um efeito de jogo de boliche

    A importncia estratgica do seu primeiro projeto ttico vital. Alm de provar, sem sombra de dvida, que o Big Data pode ajudar a unidade de negcio que voc est apoiando, bom se certificar de que o valor possa ser comunicado facilmente para a empresa em geral.

    Portanto, ao escolher o seu primeiro projeto, faa isso de maneira estratgica.

    Depois de ter demonstrado o valor do Big Data para o seu departamento de marketing, por exemplo, ser mais fcil conquistar a adeso das equipes de logstica que talvez estejam reticentes.

    Habilidades transferveis

    Como dissemos no ltimo ponto, preciso que o valor do seu primeiro projeto ajude a convencer os outros departamentos da empresa. Para isso, preciso se certificar de que voc pode aprender as habilidades, as capacidades e as lies certas do seu primeiro projeto. Mais enfaticamente, preciso garantir que tudo isso seja documentado para que voc possa transferir conhecimento para o prximo projeto. Lembre-se, se a sua meta o sucesso, ento voc j est se preparando para futuros projetos.

    Portanto, prepare-se para dimensionar, de modo que voc possa lidar com mais projetos no futuro. No se trata apenas de dimensionar o seu cluster. Trata-se de dimensionar habilidades e operaes. Voc vai precisar encontrar mais especialistas de Java/Hadoop ou encontrar maneiras de extrair mais dos recursos que j tem.

    3 4

    Escolha do projeto certo

    Como seria o projeto certo

    14 | O grande livro de Big Data da Informatica

  • Considere o impacto

    Quando for escolher qual ser o seu prximo projeto, voc tambm ter que pensar em como isso afetar a organizao. H trs aspectos gerais que devem influenciar a sua deciso de buscar o projeto certo de Big Data.

    Custo e interrupo

    No nvel mais bsico, o custo do projeto se baseia no tempo e no dinheiro que sero necessrios para torn-lo realidade. Na verdade, preciso considerar tambm a possvel interrupo que isso causar.

    s vezes, a interrupo processual por exemplo, quando as unidades de negcio so usadas para armazenar os dados e no se sentem vontade em abrir mo do controle deles para uma estrutura centralizada de governana de dados.

    Outras vezes, est relacionada com a tecnologia e as habilidades ou seja, quando voc precisa integrar novas tecnologias infraestrutura existente e reorganizar ou atualizar as capacidades para fazer isso.

    Seja qual for o caso, voc deve prever, reconhecer e certificar-se de que quer minimizar a interrupo ou informar por que isso importante.

    1

    Escolha do projeto certo

    15 | O grande livro de Big Data da Informatica

  • Considere o impacto

    Cronograma de benefcios e impacto Ao considerar o incio de diferentes projetos, a tendncia que voc se volte aos que podem oferecer o mximo de impacto e melhoria aos negcios. Mas tambm importante considerar a natureza do impacto nos negcios. O projeto proporcionar a maior parte do valor no curto ou no longo prazo?

    Mais importante: quando os usurios de negcios vero os resultados nos negcios? Por exemplo, voc poderia introduzir o gerenciamento de dados mestres no data warehouse e melhorar radicalmente a eficincia de Business Intelligence. Mas esse valor s ser sentido quando os analistas de negcios perceberem que no precisaro limpar os dados financeiros novamente.

    Recursos e restries

    Tendo em conta a anlise dos dois ltimos fatores, considere os recursos sua disposio. Ns abordaremos isso com mais detalhes posteriormente. Por enquanto, basta lembrar que, naturalmente, voc quer que o seu projeto oferea mais retorno do que o dinheiro investido.

    Atingir essa meta funciona nos dois sentidos. Por um lado, voc tem como meta o mximo impacto nos negcios. Mas tambm preciso ser estratgico na hora de gastar o oramento. Embora seja tentador construir uma equipe de cientistas de dados similar equipe do Google, h realmente recursos suficientes para tanto? Fazer escolhas inteligentes sobre as ferramentas e o nmero de funcionrios ser fundamental para o sucesso do seu projeto.

    2 3

    Escolha do projeto certo

    16 | O grande livro de Big Data da Informatica

  • Projetos tticos de Big Data: Alguns exemplosH uma grande variedade de aplicativos para Big Data. Por mais emocionante que seja, isso tambm se torna um pouco assustador para as pessoas que no tm certeza quanto ao projeto certo para comear. Aqui est uma lista de projetos tticos de Big Data que vimos nossos clientes empreenderem.

    Se voc ainda no tem certeza sobre qual projeto deve ser iniciado primeiro pela organizao, considere os seguintes exemplos para ter uma ideia melhor do que o Big Data pode oferecer para a sua empresa.

    Anlise de risco e portflio

    Recomendaes de investimento

    Financeiro

    Programas de veculos conectados

    Manuteno preditiva

    Fabricao

    Previses de resultados de pacientes

    Custo total do tratamento

    Descoberta de medicamentos

    Assistncia mdica

    Seguro sade Intercmbios Otimizao

    tributria Deteco de

    fraudes

    Setor pblico

    Envolvimento de clientes proativos

    Servios baseados em localizao

    Varejo

    Rastreamento de comportamento em jogo

    Opes de vendas cruzadas e adicionais

    Mdia

    Escolha do projeto certo

    17 | O grande livro de Big Data da Informatica

  • O que alguns de nossos clientes buscam

    Confira o modo como alguns de nossos clientes descrevem seus esforos especficos. Este o tipo de foco que voc deve buscar.

    Uma grande empresa de tecnologia no Vale do Silcio tem como objetivo economizar mais de US$ 10 milhes em custos do data warehouse que no para de crescer utilizando uma combinao de Hadoop e uma tecnologia tradicional de data warehouse para diminuir o crescimento do custo total por terabyte.

    Um grande fabricante na rea de transportes est buscando reduzir a taxa de consumo de combustvel de seus veculos em 1% ao longo dos prximos 10 anos. Ele tambm pretende reduzir as emisses txicas de carbono aumentando os perodos de manuteno em 10% e melhorando a quilometragem em 1%.

    Um fabricante envolvido com locomotivas pretende liberar uma milha adicional por hora em rotas dirias para que seus clientes possam economizar at US$ 200 milhes por ano.

    Uma empresa global de servios de pagamentos est tentando aumentar os negcios digitais em 30% atravs do aumento da personalizao do cliente, tudo parte de uma estratgia de Big Data denominada otimizao omni-channel de varejo.

    Essas so algumas grandes vitrias para qualquer equipe de Big Data.

    Escolha do projeto certo

    Projetos tticos de Big Data: Alguns exemplos

    18 | O grande livro de Big Data da Informatica

  • A jornada bsica do Big Data

    Se voc estiver pronto para construir as bases para uma abordagem de Big Data para toda a empresa, os trs passos seguintes sero essenciais para a sua jornada.

    Na verdade, mesmo que esteja planejando apenas alguns projetos tticos de Big Data, necessrio considerar estes trs passos. Cada um essencial para a integridade fundamental da organizao centrada em dados. Na verdade, para obter o mximo custo/benefcio, siga estas etapas na ordem.

    Otimizao do data warehouse

    Isso implica optar pelo armazenamento e processamento de dados na plataforma mais econmica. Muitas vezes, isso comea com a retirada de dados brutos ou pouco usados e de cargas de trabalho de ETL do hardware caro de data warehouse.

    O objetivo evitar atualizaes onerosas do seu data warehouse e comear a usar hardware e estruturas de computao distribuda mais econmicos, como o Hadoop, para que voc esteja preparado para lidar com o volume, a variedade e a velocidade do Big Data.

    1

    Escolha do projeto certo

    19 | O grande livro de Big Data da Informatica

  • Um lago de dados gerenciados

    Um lago de dados gerenciados um local nico para gerenciar a oferta e a demanda de todos os seus dados. A palavra-chave aqui gerenciar. O objetivo converter a confuso multiestruturada em informaes confiveis e seguras, adequadas sua finalidade.

    Isso significa criar um lago de dados que refine, governe e domine os dados. Porm, preciso ter uma viso antecipada muito boa para chegar l, pois necessrio incorporar polticas de governana de dados e processos estratgicos rigorosos. Sem eles, o lago corre o risco de se transformar basicamente em um pntano de dados.

    Inteligncia operacional em tempo real

    Aqui, voc cria as tecnologias (interfaces de envolvimento, aplicativos que consomem muitos dados e anlises) necessrias para acessar, analisar e entregar todos os dados. Os aplicativos criados aqui devem ser fceis de usar e entregar as informaes que os usurios precisam.

    Pode ser uma interface para os representantes de atendimento ao cliente que monitoram o comportamento dos clientes atravs de vrios canais e identificam aqueles com maior probabilidade de rotatividade nas prximas duas semanas.

    2 3

    Escolha do projeto certo

    A jornada bsica do Big Data

    20 | O grande livro de Big Data da Informatica

  • Uma jornada de trs passos

    Como j dissemos, para obter a melhor relao custo/benefcio, recomendamos seguir trs passos, na ordem apresentada.

    Reduza os custos de infraestrutura e reforce a arquitetura da empresa.

    Otimizao do data warehouse

    Crie um nico local para gerenciar a demanda e a oferta de dados.

    Lago de dados gerenciados

    Entregue aplicativos avanados que forneam as informaes de que as pessoas precisam.

    Anlise em tempo real

    Escolha do projeto certo

    21 | O grande livro de Big Data da Informatica

  • A jornada bsica do Big DataComo nossos clientes definem seus objetivos fundamentais

    At mesmo projetos bsicos devem ser especficos sobre o que esto tentando construir. Embora a especificidade aqui talvez no seja relacionada aos custos e ao tempo economizados, ela se aplica aos limites do que est sendo exatamente construdo. Considere os seguintes exemplos de projetos de infraestrutura de Big Data dos nossos clientes.

    Uma organizao global que conduz centenas de milhes de transaes financeiras em centenas de pases construiu um hub de dados de toda a empresa. O objetivo fazer a anlise do Big Data e identificar as principais macrotendncias e padres na interao com os clientes.

    Uma grande empresa de tecnologia construiu uma anlise em nuvem de toda a empresa para reduzir o tempo de introduo no mercado de produtos orientados por dados, incluindo novos conjuntos de dados em anlises a serem usadas nas unidades de negcio.

    Uma organizao de consultoria financeira global criou uma infraestrutura lgica de data warehouse para garantir a disponibilizao de informaes consistentes em todas as plataformas padro (incluindo Hadoop, bancos de dados operacionais e data warehouses tradicionais) que esto sendo usadas pela organizao.

    Em resumo: Grandes jogadas causam grandes impactos, mas exigem as bases certas.

    Escolha do projeto certo

    22 | O grande livro de Big Data da Informatica

  • Parte B: Sua estratgiaAgora vamos ser prticos e analisar os requisitos especficos para o seu prximo (ou primeiro) projeto de Big Data.

  • 101m75mph

    276m70mph

    501m69mph

    136m72mph

    411m67mph

    59855mph

    Defina as suas metasPegue o lpis. Como j dissemos, a causa nmero um de falhas em projetos de Big Data a falta de objetivos claros. Agora, precisamos garantir que o projeto que voc tem em mente no se perca em ambiguidades.

  • Vamos comear com os negcios, porque esses objetivos devero ter precedncia sobre as metas de TI se voc quiser total apoio para o seu projeto.

    Seja o mais especfico possvel ao estabelecer as metas de negcios a serem alcanadas pelo projeto. E lembre-se de estabelecer metas cujo impacto seja mensurvel.

    Por exemplo, no caso da interface de servio ao cliente que prev a rotatividade de clientes, as metas para esse projeto no devem ser listadas de forma vaga, como, por exemplo, melhorar a experincia do cliente.

    Quanto mais claras forem suas metas, maiores sero suas chances de atingi-las. Uma meta superfocada vale mais que cinco metas vagas.

    As metas de negcios

    Defina as suas metas

    25 | O grande livro de Big Data da Informatica

  • As metas de negcios

    Liste, em ordem de importncia, as metas do seu projeto de Big Data que digam respeito aos negcios e aos usurios de negcios. Fique vontade para inserir menos ou mais metas. Por exemplo, reduzir a rotatividade de clientes

    Defina intervalos de tempo mnimo e mximo para cada meta a ser alcanada. Por exemplo, de trs a seis meses

    Agora, para cada meta, escreva uma medida de sucesso que possa ser usada para determinar se a meta foi alcanada. Idealmente, essas medidas devem ser mtricas disponveis ou seus respectivos clculos. Por exemplo, reduzir a taxa de rotatividade mdia mensal em X%

    Qual deve ser a durao do seu projeto de Big Data?

    Seu projeto de Big Data deve demorar o tempo que for necessrio para que seja plenamente efetivo. Em nossa experincia, o mbito do projeto determina o horizonte de tempo.

    Ns trabalhamos com clientes que entregaram projetos tticos em menos de trs meses. E trabalhamos com clientes que passaram trs anos produzindo programas bsicos.

    Para projetos mais longos, lembre-se de ter como objetivo demonstrar o valor do projeto a cada seis meses. Se adotar uma abordagem gil, recomendvel mostrar as diferentes fases e marcos como projetos menores.

    Uma coisa certa: voc no deve tentar adivinhar esse prazo. Estime o tempo de entrega com base em sua experincia e na experincia de outras pessoas que tenham realizado anteriormente projetos semelhantes. Se no souber para quem pedir orientao, voc sempre poder entrar em contato conosco.

    Defina as suas metas

    26 | O grande livro de Big Data da Informatica

  • Metas de TI

    Agora vamos analisar as metas de TI relacionadas ao seu projeto.

    (Lembre-se: se o objetivo do seu projeto for melhorar as condies de trabalho ou agiliz-lo, ser bem difcil sensibilizar os usurios de negcios. Por isso, as metas de TI devem ser comunicadas junto com as metas que os usurios de negcios esto esperando.)

    Pare, colabore e escute

    Escrevemos este livro para que voc possa iniciar seu projeto de Big Data, no importando se voc trabalha na rea de negcios ou em TI. Em ambos os casos, no use adivinhaes para suas metas. Se precisar de orientaes especficas sobre quais metas escolher, procure um parceiro com a experincia necessria e comece a trabalhar em colaborao agora.

    O sucesso do seu projeto depende de colaboraes estratgicas.

    Liste, em ordem de importncia, as metas do seu projeto de Big Data que digam respeito TI. Fique vontade para inserir menos ou mais metas. Por exemplo, estabelecer processos para coleta, limpeza, criao de dados mestres e armazenamento de dados de clientes globais em tempo real, dados de utilizao de cartes de crdito, dados de grfico sociais e indicadores de taxa de rotatividade

    Defina as suas metas

    27 | O grande livro de Big Data da Informatica

  • Metas de TI

    Defina intervalos de tempo mnimo e mximo para cada meta a ser alcanada. Por exemplo, de dois a quatro meses

    Agora, para cada meta, escreva uma medida de sucesso que possa ser usada para determinar se a meta foi atingida. Idealmente, essas medidas devem ser mtricas disponveis ou seus respectivos clculos. Por exemplo, a taxa de previso de rotatividade exata de X%

    Defina as suas metas

    28 | O grande livro de Big Data da Informatica

  • Defina as necessidades de dadosAgora que j definimos as metas especficas dos seus esforos de Big Data, vamos direto ao ncleo do projeto: os dados em si. Seja qual for o projeto, voc ter que pensar de maneira estratgica sobre quais informaes so necessrias, quais conjuntos de dados atendem a essa necessidade, como obter esses dados e como us-los.

  • Primeiro, vamos analisar a finalidade mais bsica do seu projeto de Big Data: as informaes que voc est tentando fornecer organizao. Responda s seguintes perguntas o mais especificamente possvel.

    Quais so os dados que voc precisa?

    Para atingir as metas de negcios descritas anteriormente, o que os usurios de negcios precisam saber para tomar uma deciso fundamentada? Por exemplo, quais dos clientes mais valiosos so suscetveis rotatividade e quais comportamentos se correlacionam rotatividade

    Para proporcionar esse conhecimento, quais dados podem ser usados? Por exemplo, o histrico de compras do cliente, os dados de reviso, a taxa de compras, a taxa de desistncia, a taxa de rejeio, a qualidade do atendimento ao cliente

    Defina as necessidades de dados

    30 | O grande livro de Big Data da Informatica

  • Quais so os dados que voc precisa?Quais sistemas de origem contm esses conjuntos de dados? Por exemplo, registros de atendimento ao cliente, mtricas de desempenho do produto, banco de dados de atividade do cliente, gerenciamento de dados mestres de clientes

    Alm dos dados j mencionados, h outras informaes que podem proporcionar contexto ou valor adicional s suas anlises? Por exemplo, dados de pesquisa de atendimento ao cliente, anlise de concorrentes, dados meteorolgicos, dados sociais

    Defina as necessidades de dados

    31 | O grande livro de Big Data da Informatica

  • Quais so os dados que voc precisa?Entre os conjuntos de dados que no posso acessar atualmente, quais deles podem conter dados contextuais adicionais? Por exemplo, dados sociais de terceiros, dados de mercado de terceiros, dados meteorolgicos

    A busca por dados obscuros

    Ao considerar os conjuntos de dados aos quais voc no tem acesso, no se limite aos dados externos sua organizao. O Gartner descobriu que a maioria das empresas usa apenas 15% dos seus dados2. A Appfluent, uma empresa que faz anlise estatstica sobre a utilizao de data warehouse, descobriu que entre 30% a 70% dos dados de um data warehouse esto inativos.

    O restante fica escondido em silos de difcil alcance e localizao, cujos custos de utilizao so altos, em arquivos legados e em repositrios de dados. Isso no seria um problema se voc j no estivesse pagando para armazenar todos esses dados.

    Ao procurar os dados de que precisa, vale a pena comear por aqueles que a sua organizao j tem.

    2. Site do Gartner: www.gartner.com/technology/topics/ big-data.jsp

    Defina as necessidades de dados

    32 | O grande livro de Big Data da Informatica

  • Cinco consideraes essenciais em relao aos dadosAps esboar os dados que vai procurar, voc ter uma viso mais clara dos desafios especficos do Big Data. Em especial, h cinco elementos-chave que devem ser considerados antes de avanar muito, pois eles determinaro o que precisar ser feito para cada conjunto de dados, bem como para o conjunto de dados de Big Data.

    Prepare-se para o volume

    Voc ter que se preparar para lidar com a enormidade dos dados que sero necessrios. Usando dimenses, classifique os dados com base nos seus respectivos valores (por exemplo, transaes de clientes), uso (frequncia de acesso), tamanho (gigabytes, terabytes), complexidade (dados de mquinas, dados relacionais, vdeo etc.) e quem tem permisso para acess-los (apenas seus especialistas de dados ou qualquer usurio ocasional de negcios).

    Um inventrio completo e organizado dos seus dados ajudar a determinar como gerenciar tudo isso. Avalie sua capacidade atual de armazenamento e processamento e procure as formas mais econmicas e eficientes de torn-la dimensionvel.

    1

    Defina as necessidades de dados

    33 | O grande livro de Big Data da Informatica

  • Cinco consideraes essenciais em relao aos dados

    Responsabilize-se pela variedade O aspecto mais desafiador do Big Data a grande variedade de formatos e estruturas que voc ter que conciliar em suas anlises. Ser preciso integrar vrias fontes se quiser incluir novos tipos e estruturas de dados (sociais, sensores, vdeo) s fontes com as quais voc j est acostumado (relacionais, mainframes legados).

    Tentar codificar manualmente cada integrao to complicado que poderia consumir todo o tempo e os recursos disponveis. Aproveite ao mximo as ferramentas de integrao e qualidade de dados disponveis para acelerar o processo para tarefas mais importantes.

    Administre a velocidade

    A combinao dos dados de streaming em tempo real e dos seus dados histricos geralmente aumenta a capacidade de previso da anlise. Assim, alguns dos dados que voc deseja s podero ser teis se estiverem constantemente fluindo nos sistemas.

    Na verdade, a maioria das anlises em tempo real precisa se basear em dados de streaming muitas vezes, a partir de diferentes fontes, em diferentes formatos. Prepare seu projeto com uma tecnologia analtica de streaming e uma infraestrutura lgica para gerenciar todos os dados.

    2 3

    Defina as necessidades de dados

    34 | O grande livro de Big Data da Informatica

  • Cinco consideraes essenciais em relao aos dados

    Garanta a veracidade No importa o grau de importncia de suas anlises, elas no valero nada se as pessoas no puderem confiar razoavelmente nos dados que conseguirem. Quanto mais dados voc analisar, mais importante ser manter um alto nvel de qualidade dos dados.

    Para que os dados sejam adequados finalidade, voc precisa conhecer essa finalidade. Se um especialista de dados estiver procurando padres em dados agregados do cliente, a preparao necessria ser mnima. Por outro lado, os dados de relatrios financeiros e da cadeia de suprimentos devero ser altamente editados, limpos e certificados para obter preciso e conformidade. Crie categorias baseadas na quantidade de preparao necessria, o que abrange desde dados brutos at um repositrio de dados mestres altamente editado, contendo dados limpos, confiveis e fidedignos.

    Pense na conformidade

    Os vrios conjuntos de dados com os quais voc lidar viro com diferentes condies e requisitos de segurana. Para cada conjunto de dados, preciso considerar o que ser necessrio para torn-los annimos com base em polticas de segurana. Quantidades imensas de dados iro se proliferar por toda a empresa em centenas de repositrios de dados. Entenda onde os dados confidenciais residem e lembre-se de proteg-los na fonte por meio de criptografia e, em seguida, controle quem tem acesso a eles.

    Alm do arquivamento seguro e inteligente de dados confidenciais, faa o mascaramento dos dados com regras predefinidas sempre que migr-los ou inseri-los nos ambientes de desenvolvimento e teste. Aplique essas cinco consideraes a cada conjunto de dados que administrar e, assim, voc estar preparado mais realistamente para o grande desafio relacionado aos dados.

    4 5

    Defina as necessidades de dados

    35 | O grande livro de Big Data da Informatica

  • Parte C: Sua cadeia de suprimentos simples de Big DataOs mtodos tradicionais de Business Intelligence e data warehouse no dimensionveis o suficiente para atender s necessidades das iniciativas de Big Data. Agora, veremos como voc pode dimensionar a equipe, os processos e a infraestrutura.

  • Sua equipe de Big Data representa o seu maior desafio e a sua maior oportunidade. Voc precisa de um bom equilbrio entre pessoas que entendem as metas de negcios e pessoas que podem executar suas exigncias tcnicas.

    Sua equipe

  • Cinco lies essenciais para a criao de equipesA maioria das organizaes subestima o nvel de habilidade necessrio aplicao bem-sucedida de uma nova tecnologia como o Hadoop.

    As estruturas de dados distribudos so muito difceis de gerenciar. Das habilidades Java necessrias para desenvolver em Hadoop s novas habilidades em cincias de dados a serem contratadas, ser necessrio obter muitas novas habilidades para que o projeto realmente decole.3

    Quando comear a montar sua equipe, lembre-se de incorporar as seguintes lies estratgia de contratao.

    3. Hadoop, Python e NoSQL lideram o grupo para tarefas de Big Data", InfoWorld, 5 de maio de 2014: www.infoworld.com/t/it-jobs/hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884

    Sua equipe

    38 | O grande livro de Big Data da Informatica

  • Cinco lies essenciais para a criao de equipes Use as habilidades dos profissionais que voc contratou

    Um dos maiores erros que as empresas cometem quando contratam especialistas de dados e analistas quantitativos pedir que faam o trabalho pesado. Quando os seus recursos mais qualificados gastam todo o tempo em integraes de dados que exigem codificao manual e na limpeza de dados, voc no s os deixa frustrados, como tambm no aproveita as habilidades que foram to difceis de encontrar.

    Concentre as habilidades raras em tarefas que realmente precisam delas. Voc no quer que os seus melhores profissionais peam demisso e certamente no quer que eles percam tempo com um trabalho que pode muito bem ser feito com ferramentas.

    Pense estrategicamente sobre a composio da equipe

    Se tudo der certo, o projeto crescer em escopo e recursos. Pense de maneira estratgica agora e poupe-se da difcil conscientizao de que voc no pode executar determinados processos com a rapidez necessria porque h um nmero limitado de pessoas com as habilidades necessrias, at mesmo no Vale do Silcio.

    Se o seu projeto crescer em escopo, quais so as competncias que voc pode razoavelmente esperar encontrar a tempo de atender s suas necessidades? Por exemplo, especialistas de dados so infinitamente mais difceis de encontrar, treinar e contratar do que desenvolvedores.4

    O equilbrio da sua equipe fundamental. Voc est procurando a combinao certa de experincia em gerenciamento de dados conquistada com trabalho duro e do entusiasmo para aprender novas ferramentas. Alm disso, preciso encontrar o equilbrio entre pessoas com habilidades tcnicas e aquelas com a experincia de domnio necessria para construir os modelos certos.

    1 2

    4. Big Datas High-Priests of Algorithms (Big Data - Os bispos dos algoritmos), Wall Street Journal, 8 de agosto de 2014: http://online.wsj.com/articles/academic-researchers-find-lucrative-work-as-big-data-scientists-1407543088

    Sua equipe

    39 | O grande livro de Big Data da Informatica

  • Alinhe as metas do seu projeto no incio e depois as comunique

    Um dos erros mais comuns que as empresas cometem ao contratar uma nova equipe esquecer de comunicar as verdadeiras metas do projeto. Da primeira entrevista at o trabalho em si, preciso ficar claro o que voc est tentando oferecer aos usurios de negcios. Potencialize o apoio dos executivos para divulgar a misso e compartilhar histrias de sucesso, bem como problemas.

    Sem um controle firme do valor comercial do seu projeto, os novos contratados correm o risco de achar que s precisam pensar nas metas de TI do projeto.

    Quando a sua equipe aumenta, a necessidade de gerenci-la tambm aumenta

    Diferentemente de uma nova tecnologia que pode ser implantada, implementada e integrada de forma objetiva, o novo pessoal precisa se acostumar ao local de trabalho, ao trabalho que esto fazendo e s razes por que esto fazendo esse trabalho. No importa se voc ou outra pessoa: algum precisa abraar o desafio do gerenciamento que uma nova equipe exige.

    Elementos como cultura e coerncia no podem ser subestimados. Pense muito e com calma sobre como integrar as novas contrataes em seus processos. Talvez voc no consiga trein-los para as habilidades, mas com certeza pode ajud-los a serem melhores integrantes da equipe.

    Cinco lies essenciais para a criao de equipes

    3 4

    Sua equipe

    40 | O grande livro de Big Data da Informatica

  • Sua equipe no pode ficar parada

    As tecnologias de Big Data esto surgindo todos os dias. E as que j existem esto evoluindo rapidamente. Este um momento bastante emocionante para as empresas que so corajosas o suficiente para adotar as prticas recomendadas anteriormente. Mas representa tambm o desafio definitivo de comear antes dos concorrentes.

    As habilidades da equipe precisam evoluir com a mesma velocidade das mudanas que esto ocorrendo no mundo. A boa notcia que o que mais motiva os melhores profissionais o desafio de chegar primeiro. O desafio est em oferecer o treinamento e o debate necessrios para continuar aumentando as habilidades dessas pessoas e as suas prprias.

    Cinco lies essenciais para a criao de equipes

    5

    A importncia de ser estratgico

    Uma escolha importante que voc far vrias vezes a possibilidade de criar seus recursos usando ferramentas automatizadas ou integraes manuais.

    A codificao manual lhe oferece um controle completo e preciso sobre o que voc est construindo. Muitas vezes, isso inestimvel e necessrio; por exemplo, quando voc escreve um script complexo para extrair metadados de uma forma que ainda no possvel.

    As ferramentas, por outro lado, oferecem mais agilidade e a capacidade de repetir o mesmo processo de forma sustentvel. Para tarefas como a integrao e a qualidade dos dados, isso essencial, porque significa que voc no est forando os seus analistas e especialistas superinteligentes para fazer o trabalho pesado.

    Seja realista sobre os seus recursos. Se no pode montar uma equipe to grande e genial como a do Google, no desperdice seus escassos recursos tentando.

    Sua equipe

    41 | O grande livro de Big Data da Informatica

  • Se (e quando) estiver montando um trabalho de Big Data mais bsico, coloque em prtica a estrutura processual para governana de dados. Na verdade, mesmo que o seu projeto de Big Data tenha como meta entregar valor para um nico departamento, considere a criao de uma pequena equipe de governana de dados para poder aprender a lidar com os desafios exclusivos desse tipo de grupo.

    Essencialmente, a equipe de governana de dados o quadro formal de executivos responsvel por supervisionar a abordagem de dados da empresa. Mas tambm deve incluir responsveis pelo gerenciamento de dados pessoas de departamentos especficos que tenham a tarefa de gerenciar os dados provenientes de uma unidade de negcio especfica.

    De fato, alguns de nossos clientes atribuem funes de responsabilidade pelo gerenciamento de dados com base no domnio de dados. Isso significa que uma pessoa fica responsvel pelos dados de produtos, enquanto outra fica responsvel pelos dados de clientes e assim por diante.

    Implemente a governana de dados

    Sua equipe

    42 | O grande livro de Big Data da Informatica

  • Tenha como meta criar processos capazes de garantir que a sua estrutura de governana de dados seja mais uma ajuda do que uma dificuldade. Trabalhe ativamente para assegurar que isso no se transformar em sobrecarga burocrtica para tanto, garanta que todos estejam empenhados em atingir os mesmos objetivos,e nos mesmos prazos.

    Sua estrutura de governana de dados deve conter estas cinco caractersticas.

    Interfuncional

    Um conselho de governana de dados formado por pessoas diferentes com funes semelhantes ser ineficaz. O objetivo criar um conselho que possa representar as opinies e as necessidades exclusivas de cada unidade de negcios que o seu projeto de Big Data dever apoiar.

    Comunicativa

    Sem uma boa comunicao entre as funes, os departamentos e os domnios, o projeto pode se perder na burocracia e nos mal-entendidos. Isso acontece com mais frequncia do que se imagina. Certifique-se de que todas as preocupaes sejam resolvidas ou tratadas adequadamente.

    Sua equipe

    1 2

    Implemente a governana de dados

    43 | O grande livro de Big Data da Informatica

  • Eficiente

    O seu processo interfuncional no deve ser uma barreira. Ser preciso ter bastante agilidade para que o projeto de Big Data tenha xito. Portanto, crie regras de relatrios de automao e exceo sempre que possvel e adote ferramentas de colaborao para manter os canais de comunicao abertos e adequados.

    Comprometida

    Lembre-se de comunicar com eficincia as metas principais do seu projeto e certifique-se de que todos os envolvidos na estrutura de governana de dados estejam comprometidos com essas metas. Metas em comum ajudam a guiar o seu pensamento de governana e as suas decises.

    Centralizada

    O maior desafio de uma estrutura de governana de dados quando voc precisa priorizar as metas de uma unidade de negcios sobre as outras que esto sendo representadas no conselho. Garanta que as suas decises contemplem o benefcio a longo prazo de todo o conselho, mesmo que isso signifique benefcios de curto prazo para uma nica unidade de negcio.

    Sua equipe

    3 4 5

    Implemente a governana de dados

    44 | O grande livro de Big Data da Informatica

  • Hora de pegar o lpis novamente. Agora que voc conhece as vrias ciladas e oportunidades subjetivas que a nova equipe apresentar, vamos analisar como essa equipe na realidade.

    A pgina a seguir lista funes de Big Data com base em cargos para os quais j vimos nossos clientes contratarem. Considerando o pessoal realmente disponvel e a durao esperada para o projeto (conforme inserido na seo iniciada na pgina 24), liste quantas pessoas voc precisa contratar.

    As habilidades que voc tem e aquelas de que precisa

    Sua equipe

    45 | O grande livro de Big Data da Informatica

  • A funo Algum j pode executar essa funo?

    Eu preciso contratar algum para essa funo

    Com base na quantidade de tempo disponvel, eu preciso contratar X pessoas

    Especialista de dados

    Especialista em domnios

    Analista de negcios

    Analista de dados

    Engenheiro de dados

    Administrador de banco de dados

    Arquiteto corporativo

    Arquiteto de soluo de negcios

    Arquiteto de dados

    Responsvel pelo gerenciamento de dados

    Desenvolvedor de ETL (integrao de dados)

    Desenvolvedor de aplicativos

    Desenvolvedor de painis de controle

    Modelador de estatsticas

    Outro

    Outro

    Outro

    Outro

    Outro

    ou ou

    A necessidade de um pensamento integrado

    Quando sair em busca de novos integrantes para a equipe, no se limite a pessoas com as qualificaes adequadas. No se engane: encontrar pessoas com as qualificaes adequadas j um desafio em si. Mas voc tambm precisa buscar pessoas que tenham vontade de sintetizar as metas de negcios e as capacidades tcnicas.

    Cada vez mais, ouvimos de clientes sobre como importante que as pessoas que se unem aos seus projetos de Big Data possam ser capazes de entender a realidade dos negcios e trabalhar com uma cincia de dados complexos. Esse tipo de pensamento integrado importantssimo e difcil de encontrar. Vale a pena investir em treinamento.

    Sua equipe

    46 | O grande livro de Big Data da Informatica

  • 41523

    10356

    98276

    10392

    4562318456

    63002

    60303

    15234

    Como j discutimos vrias vezes, as ferramentas utilizadas desempenham uma funo estratgica na execuo do seu projeto de Big Data. Nesta seo, vamos analisar as ferramentas que voc tem e aquelas de que precisa.

    Suas ferramentas

  • Em nossa experincia, as seguintes ferramentas so essenciais para a arquitetura necessria aos projetos de Big Data (discutiremos a arquitetura em mais detalhes posteriormente). Claro que as suas metas e os seus recursos devem determinar a combinao das tecnologias necessrias ao seu projeto especfico.

    Veja esta lista de ferramentas e coloque um para as mais importantes e mais estrategicamente relevantes ao seu projeto especfico.

    Ingesto de dados

    O processo de consumir os dados necessrios de forma adequada, eficiente e metdica.

    Carga de lotes Voc acessa todos os tipos de dados de que precisa e dimensiona com eficincia o desempenho da carga de lotes nos repositrios de dados?

    Captura de dados de mudanas Voc captura as alteraes feitas nos dados dos sistemas de origem sem afet-los?

    Fluxo de dadosVoc coleta dados de forma confivel em tempo real e os transmite nos repositrios de dados?

    Arquivamento Voc arquiva e compacta dados que no so usados com frequncia, garantindo fcil acesso aos dados arquivados, se necessrio?

    Noes bsicas sobre as ferramentas de Big Data

    Suas ferramentas

    48 | O grande livro de Big Data da Informatica

  • Noes bsicas sobre as ferramentas de Big DataVeja esta lista de ferramentas e coloque um para as mais importantes e mais estrategicamente relevantes ao seu projeto especfico.

    Gerenciamento de dados

    Todas as polticas, processos e prticas necessrias para gerenciar adequadamente a eficcia, a preciso, a confiabilidade e a disponibilidade dos dados.

    Integrao de dados Voc consegue preparar e consolidar vrias estruturas e fontes em um conjunto de dados consistente para anlise?

    Qualidade de dados Voc consegue, de forma confivel, limpar os dados, deduplicar e remover os erros?

    Segurana de dados Voc descobre e protege os dados em todos os repositrios de dados, atribuindo para isso regras sobre uso, acesso e permisses?

    Mquina virtual de dados Voc consegue criar uma camada de abstrao para os dados que combine vagamente o processamento de dados no ambiente de implantao subjacente?

    Gerenciamento de dados mestres Voc armazena uma verso consolidada, completa e fidedigna da verdade para vrios domnios de dados?

    Estrutura distribuda de dadosVoc usa tecnologias como o Hadoop para dimensionar de forma econmica suas necessidades de armazenamento e processamento?

    Data warehouse Voc tem uma tecnologia de data warehouse que possa lidar com os requisitos de desempenho, uso e dimensionamento para anlises e integraes de Big Data com infraestruturas Hadoop?

    Suas ferramentas

    49 | O grande livro de Big Data da Informatica

  • Veja esta lista de ferramentas e coloque um para as mais importantes e mais estrategicamente relevantes ao seu projeto especfico.

    Noes bsicas sobre as ferramentas de Big Data

    Entrega de dados

    Processo de envio dos dados necessrios aos sistemas e aplicativos que precisam deles.

    Carga de lotes Voc dimensiona com eficincia a carga de lotes de dados entre os sistemas de origem, anlise e back-end operacionais?

    Fluxo de dados em tempo real Voc oferece fluxo de dados em tempo real para sistemas de aplicativos, anlises e back-end que precisam disso?

    Hub de integrao de dados Voc disponibiliza dados usando uma abordagem como o modelo de publicao e assinatura para evitar a proliferao de integraes ponto a ponto?

    Visualizao de dados Voc entrega dados dos seus sistemas sem sobrecarreg-los?

    Processamento baseado em eventos Voc capaz de detectar, analisar e reagir a ameaas, oportunidades e outros eventos crticos de negcios em tempo real?

    Suas ferramentas

    50 | O grande livro de Big Data da Informatica

  • Veja esta lista de ferramentas e coloque um para as mais importantes e mais estrategicamente relevantes ao seu projeto especfico.

    Anlise

    As ferramentas e os processos que transformam dados brutos em insights, padres, previses e clculos sobre o domnio que voc est analisando.

    Visualizao Voc pode apresentar dados e resultados de maneira a facilitar a compreenso e o entendimento?

    Anlise avanada Voc consegue aplicar algoritmos analticos avanados aos seus conjuntos de dados para fazer clculos complexos?

    Aprendizado de mquinaVoc consegue aplicar sofisticados algoritmos de aprendizado de mquina para identificar padres e fazer previses em um nvel para o qual no tem a largura de banda manual compatvel?

    Entre essas ferramentas e tecnologias, algumas ferramentas como a integrao de dados, a qualidade de dados e o gerenciamento de dados mestres so to essenciais sua jornada de Big Data que realmente no vale a pena recri-las. O prazo e os recursos necessrios criao dessas ferramentas com suas prprias mos no vale as preciosas habilidades e horas de trabalho do seu projeto de Big Data.

    Lembre-se das metas do seu projeto; elas no incluem criar tudo de maneira personalizada.

    Noes bsicas sobre as ferramentas de Big Data

    Suas ferramentas

    51 | O grande livro de Big Data da Informatica

  • Seus processos Vamos nos aprofundar nos processos reais de que voc precisar para lidar com o Big Data. Seus processos especficos sero exclusivos para suas metas e necessidades, mas esta seo pode dar uma viso geral sobre o que esperar e o que voc aprender.

  • Por experincia, podemos dizer que as metodologias geis so uma excelente abordagem para projetos de Big Data. Elas garantem que voc gerencie as expectativas, aprenda com os erros e faa a iterao do caminho para os melhores processos. Mesmo assim, a abordagem do projeto depende inteiramente de voc e da sua situao.

    De qualquer maneira, os oito passos a seguir se mostraro essenciais cadeia de suprimentos do Big Data. No importa como voc cuide disso. Voc e a sua equipe devem estabelecer processos eficazes para estas etapas.

    Acessar os dados

    Seu primeiro desafio ser adquirir todos os dados de que precisa. Em alguns casos, isso implicar a captura de dados de streaming e, em outros, significar extrair dados de um banco de dados. Configure processos gerenciveis e que possam ser repetidos para garantir o armazenamento desses processos de acordo com o uso que far deles.

    Integrar os dados

    O desafio mais complexo do Big Data envolve a variedade de estruturas e formatos de dados. Para que a sua anlise seja conduzida de forma sustentvel, voc precisar configurar um processo de integrao e normalizao de todos esses dados. Idealmente, isso deve usar um processamento que seja o menos manual possvel.

    Os oito Big Data

    Seus processos

    1 2

    53 | O grande livro de Big Data da Informatica

  • Limpar os dados

    Para que a sua anlise seja confivel, preciso garantir a limpeza dos dados a fim de eliminar duplicaes, erros, imprecises e dados incompletos. O processo deve garantir que analistas e especialistas mais qualificados no fiquem o tempo todo fazendo o trabalho errado.

    Criar dados mestres

    Uma forma de manter uma fonte confivel de dados limpos e integrados estabelecer um processo de criao de dados mestres. O objetivo criar uma coleo avanada de dados consolidados, organizada por domnio (como produtos, clientes etc.) e repleta de insights de Big Data, e que, assim, possa alimentar todos os outros sistemas.

    Proteger os dados

    Aqui, voc estabelecer dois processos bsicos. O primeiro ser sobre como definir as regras e as prticas de segurana que cada conjunto de dados exige. O segundo ser sobre como detectar dados confidenciais e mascar-los de forma persistente ou dinmica para garantir que essas regras e prticas recomendadas sejam aplicadas de maneira consistente.

    Os oito Big Data

    3 4 5

    Seus processos

    54 | O grande livro de Big Data da Informatica

  • Analisar os dados

    O processo de anlise depender dos analistas, das ferramentas de anlise e das necessidades relacionadas s metas. A mentalidade de descoberta iterativa e melhoria contnua desempenhar um papel crucial nesse caso, pois esse processo dever ficar melhor, mais rpido, mais barato e mais dimensionvel ao longo do tempo e com uma experincia maior.

    Analisar as necessidades de negcios

    Esta etapa crtica, mas quase sempre esquecida. Configure um processo claro para a anlise das necessidades dos negcios, mesmo quando estiver analisando os dados. Isso muito importante porque, caso voc desacelere o ritmos dos negcios, poder isolar seus esforos e minimizar o impacto nos prprios negcios.

    Operacionalizar o insight

    Como j discutimos no incio deste livro, o impacto do seu projeto de Big Data nos negcios precisa ser sentido. Crie pipelines automatizados para as respostas que voc encontrar e os entregue aos usurios de negcios que mais precisam deles. Por exemplo, os dados sobre os clientes com maior probabilidade de rotatividade devem ser disponibilizados aos agentes de atendimento ao cliente por meio de um painel de controle. Lembre-se de incorporar um ciclo de feedback tambm, assim poder ver como o insight recebido.

    Os oito Big Data

    6 7 8

    A importncia da documentao

    Tenha como meta dominar esses oito passos e o seu projeto de Big Data avanar na direo certa. O objetivo estabelecer processos claros, repetveis, dimensionveis e com melhorias contnuas. Para isso, a documentao desses processos e as melhorias contnuas so vitais para a equipe.

    As habilidades, os recursos e as lies do seu projeto de Big Data devem ser transferveis e comunicadas com frequncia.

    Seus processos

    55 | O grande livro de Big Data da Informatica

  • 264

    93

    62

    78

    157

    187

    654

    362

    92

    40

    468

    50

    61

    Sua arquitetura Para que a cadeia de suprimentos de Big Data seja enxuta e eficaz, preciso garantir que a arquitetura seja slida e construda de maneira estratgica. Nesta seo, vamos discutir como deve ser uma arquitetura de Big Data ideal e como implant-la a sua em uma abordagem em fases.

  • Para comear a criar a arquitetura do seu projeto de Big Data, o ponto de partida mais lgico a criao de um ambiente de desenvolvimento em uma rea restrita, na qual voc possa usar dados de teste para garantir a viabilidade da arquitetura. Ao fazer isso, lembre-se de levar em considerao as seguintes lies.

    Comece pequeno

    Comeando com uma rea restrita bem definida sobre a qual tenha total controle, voc conseguir fazer a interao do caminho para uma implementao mais bem-sucedida. Comece a trabalhar o mais rapidamente possvel e a documentar as lies aprendidas em cada iterao.

    Tamanho importante

    A principal diferena entre a rea restrita e a implementao real o ambiente de produo, que ser muito maior. Isso exigir um tratamento automatizado para ingerir, integrar, limpar e distribuir a sada. Portanto, ser preciso ter uma estrutura muito mais robusta, alm de componentes e processos comprovada e verdadeiramente confiveis e flexveis em um ambiente de produo dinmico.

    Primeiros passos: Sua rea restrita

    Sua arquitetura

    57 | O grande livro de Big Data da Informatica

  • Faa o mascaramento antes de testar

    Quando as organizaes usam dados de teste, elas geralmente usam uma variante dos dados de produo dinmicos para garantir que os formatos e as estruturas representem o ambiente dinmico. Infelizmente, se esses dados no forem mascarados de forma adequada, os dados confidenciais podero ficar expostos em um ambiente de teste totalmente inseguro.

    No se perca na traduo

    Uma das fontes mais comuns de atrasos e desvios oramentrios onerosos dos projetos de Big Data decorre do fato de que os erros de codificao manual (que se perderam na rea restrita) voltam a assombrar a equipe quando a arquitetura ativada. Assim, se voc codificar manualmente partes significativas da arquitetura, espere o refatoramento de vrios cdigos para atender aos requisitos no nvel de produo e administre as expectativas adequadamente. Como alternativa, use ferramentas de produtividade e automao para evitar a necessidade de refatorar o cdigo e os erros.

    Primeiros passos: Sua rea restrita

    Sua arquitetura

    58 | O grande livro de Big Data da Informatica

  • O diagrama a seguir representa nossa recomendao para criar a arquitetura ideal de tecnologia e processos de Big Data.

    Entrega de dados

    Carga de lotes

    Hub de integrao de dados

    Virtualizao de dados

    Processamento em tempo real

    e baseado em eventos

    Ingesto de dados

    Carga de lotes

    Captura de dados de alteraes

    Streaming de dados

    Arquivamento

    Bancos de dados relacionais Mainframe Documentos e e-mails Mdia social, dados de

    terceiros e arquivos de log Sensor de mquina Nuvem pblica Nuvem privada

    Fontes de dados

    A arquitetura ideal do Big Data

    Integrao de dados Qualidade de dados Mquina virtual de dados Segurana de dados Gerenciamento de dados

    mestres Armazenamento

    dimensionvel (por exemplo, Hadoop)

    Data warehouse

    Gerenciamento de dados

    Visualizao Aplicativos mveis Anlise Business Intelligence Painis em tempo real

    Aplicativos

    Sua arquitetura

    59 | O grande livro de Big Data da Informatica

  • Seu plano de projetoAgora, ns j analisamos todos os aspectos da sua jornada de Big Data. O prximo passo usar este plano de projeto como um guia estrutural para gerenciar um projeto de Big Data, do lanamento implementao.

  • Use este modelo de plano de projeto como uma estrutura para documentar os detalhes e os diferentes elementos do seu projeto de Big Data. Depois, use o documento compilado como uma maneira de obter a adeso necessria do restante da sua organizao. Ele tambm ser til quando voc abordar parceiros externos.

    Seu plano de projeto

    Seu plano de projeto

    Identificar as metas de TI e de negcios

    Definir as medidas de sucesso

    Identificar as informaes necessrias

    Identificar os dados e as origens para entreg-los

    Estgio 1: A estratgia Estgio 2: Os dados

    61 | O grande livro de Big Data da Informatica

  • As pessoas O Avaliar as habilidades necessrias

    O Avaliar as habilidades existentes

    O processo O Acessar os dados O Integrar os dados O Limpar os dados O Criar dados mestres O Proteger os dados O Analisar os dados O Analisar as necessidades de negcios

    As ferramentas O Computao distribuda (por exemplo, Hadoop)

    O Qualidade de dados O Integrao de dados O Gerenciamento de dados mestres

    O Mascaramento de dados O Visualizao O Anlise de streaming O Anlise O Aprendizado de mquina

    Desenvolver painis

    Automatizar processos para entrega de dados

    Definir um processo de feedback

    Estgio 3: A cadeia de suprimentos Estgio 4: Operacionalizar o insight

    Seu plano de projeto

    Seu plano de projeto

    62 | O grande livro de Big Data da Informatica

  • Use as listas de verificao, os princpios e as diretrizes que descrevemos neste livro para trazer o potencial do Big Data para a sua organizao. Seja qual for o tamanho do seu projeto, agora temos certeza de que voc estar melhor equipado para lidar com os vrios desafios deste projeto.

    Lembre-se: seja estratgico em relao aos seus recursos e mantenha um foco preciso no desenvolvimento de processos e habilidades que sejam transferveis, dimensionveis e estejam em constante aperfeioamento. Se voc mantiver uma viso de longo prazo ao realizar esse projeto, poder preparar a sua organizao para anlises aprimoradas e decises mais fundamentadas por um longo tempo.

    De muitas maneiras, seu primeiro projeto de Big Data ser inesquecvel. A partir dos erros que podero ocorrer para criar uma equipe , voc estar pronto para uma jornada de imenso valor estratgico para a sua empresa.

    Ao navegar e evitar as muitas ciladas que discutimos, e se mantiver um forte compromisso com a sua viso desse projeto, voc ser capaz de mudar a forma como a organizao funciona.

    Isso vai ser o mximo!

    Seguindo em frente

    63 | O grande livro de Big Data da Informatica

  • Se voc um desenvolvedor da Informatica, poder ser um desenvolvedor de Hadoop. Nossos testes de software, conectores e servios de Big Data colocaro voc no caminho certo.

    Prximos passos

    Pronto para comear a colocar em prtica o que aprendeu?

    64 | O grande livro de Big Data da Informatica

  • Sobre a InformaticaAjudamos as empresas a gerenciar dados para que elas possam extrair deles um valor de negcios mensurvel. E estamos ajudando algumas das maiores empresas do mundo a encontrar os erros mais comuns de gerenciamento de dados para que alcancem o sucesso em projetos repetveis e dimensionveis de Big Data.

    Vamos conversar.

    IN18-1014-2730