apostila v02
Post on 17-Dec-2015
67 Views
Preview:
DESCRIPTION
TRANSCRIPT
-
Cludio Lcio 1
Business Intelligence
Cludio Lcio 2
Business Intelligence
Apresentao
Cludio Lcio Mestre em informtica PUC MG, Especialista em estatstica UFMG, Bacharel em
cincia da computao; 15 anos de experincia em BI/BA atuando em projetos para clientes do cenrio
nacional: Arcelor Mittal Tubaro, Banco Mercantil do Brasil, BDMG, BMG, CEMIG, EDS, FIAT, GM do Brasil, Mendes Jnior, Localiza, SEBRAE-SC,SUDECAP, Telefnica, Oi, Vale, VIVO, VMM Votorantim Minerao e Metais.
Treinamenos ministrados para vrias empresas: Assurant, Athos Pharma, Banco do Brasil, Best Forecast, BM&F,Caixa Econmica, CEMIG, E-Lucid, GM do Brasil, HDI Seguros, Mapfre, Martima Seguros, Telemar, Telemig Celular e Unibanco ;
Pg.: 1
-
Cludio Lcio 3
Business Intelligence
Agenda
Introduo conceitos e definies
Conceitos de DW e Modelagem
ETC e Integrao de dados e Conceitos OLAP
Novas tendncias: Big Data, Governana de dados, cincia de dados
Inteligncia computacional: Minerao de dados e Otimizao
Cludio Lcio 4
Business Intelligence
Avaliaes e Frequncia
Chamadas;
Trabalhos em sala valendo 30%
Estudo de caso de uso BI na indstria;
Modelagem Dimensional de dados ;
Exemplo de processo de carga de BI;
Restante dos pontos ser com um trabalho proposta, idealmente, pelo prof. Barbieri.
Pg.: 2
-
Cludio Lcio 5
Business Intelligence
Avaliaes e Frequncia
Trabalho a ser desenvolvido off-class, valendo 70% , sobre assunto a ser distribudo em aula: Resumo de entendimento, por grupo sobre:
BI em dados no-estruturados; BI em Gerncia de Projetos; Big data e DW; MDM; BI-gil; Requisitos em projetos de BI; BI-Tempo real-BIRT; Outro assunto relacionado, a ser aprovado com o
Professor;
Cludio Lcio 6
Business Intelligence
Avaliaes e Frequncia
RE-Resumo de entendimento:
Trabalho em Word com no mnimo 12 pginas, incluindo texto e grficos. Contm identificao do curso, Grupo, nome completo dos participantes do Grupo, ndice e referncias consultadas. Enviar em digital um dia antes da ltima aula (ver slide seguinte).
Entregar um PPT, com o RE visando uma apresentao na ltima aula. Enviar em digital um dia antes e entregar em papel na ltima aula.
Pg.: 3
-
Cludio Lcio 7
Business Intelligence
Recomendaes de Bibliografia - Barbieri Ver artigos no CD-distribudo:
Artigos de MDM
Artigos de Qualidade de Dados
Artigo de BI aplicado em GP
Ver outras referncias
Cludio Lcio 8
Business Intelligence
Recomendaes de Bibliografia - Barbieri Livros de cabeceira:
Numerati-Stephen Baker-Ed.ARX Fala sobre as diversas tcnicas em desenvolvimento, visando mapear os perfis,
atitudes, grupos, recursos humanos, clientes,etc atravs da anlise do comportamento digital(internet) da sociedade
Final Jeopardy-Man versus Machine- Stephen Baker-Ed. HMH-ingls Sistema desenvolvido pela IBM para reteno de informaes gerais e que
concorreu no programa de QUEST de maior audincia nos EUA (e venceu). CLICK-Bill Tancer-Editora Globo
O que milhes de pessoas esto fazendo on-line e por que isso importante. O comportamento do mundo na internet. Os dados e seus tratamentos
Livros tcnicos Business Intelligence-Um enfoque gerencial para a inteligncia de negcios-
Efraim Turban,Ramesh Sharda,Jay Aronson e David King-Editora bookman Data Quality-The Accuracy Dimension-Jack Olson (ingls) Data Warehouse Design-Modern Principles and Methodologies-Matteo Golfarelli e
Stefano Rizzi(ingls) Brandwashed-Martin Lindstrom, editora Crown Publishing Group, 2011
Pg.: 4
-
Cludio Lcio 9
Business Intelligence
Recomendaes de Bibliografia - BarbieriReferncias
Prova ICCP-CDMP/DAMA/TDWIInstitute for Certification of Computing Professionals
Dama-Data Management AssociationTDWI-The Data Warehousing Institue
Livros: Improving Data Warehouse and Business Information Quality-Larry
English-Editora Wiley Publishing,1999 Management Information Systems for the Information Age-Stephen Haag
e Maeve Cummings, Editora McGraw Hill, 2010 A Managers Guide to Data Warehousing, Laura Reeves, Editora Wiley
Publishing, 2009 The New Era of Enterprise Business Intelligence, Mike Beere, Editora
IBM Press, 2011 The Dama Guide to Data Management Body of Knowledge(Dama
DMBOK Guide) Modern Systems Analysis and Design, Jeffrey Hoffer,Joey George e Joe
Valacich-Pearson Education Inc, 2011
Cludio Lcio 10
Business Intelligence
Recomendaes de Bibliografia - BarbieriReferncias
Novas tendncias BI
Livros: BI2-Business Intelligence-Modelagem e Qualidade-Carlos
Barbieri-Editora Elsevier,2011 Agile Data Warehouse Design-Lawrence Corr e Jim Stagnitto-
Editora Decision Press-2011 Agile DataWarehousing Project Management-BI systems using
Scrum-Ralph Hughes-Morgan Kauffman-2013 Agile DataWarehousing-Ralph Hughes-Editora iUniverse Inc,
2008 Agile Analytics-Ken Collier-Editora Addison Wesley, 2012 Star Schema- The complete reference-Christopher Adamson-
Editora McGraw Hill, 2010
Pg.: 5
-
Cludio Lcio 11
Business Intelligence
Recomendaes de Bibliografia - BarbieriReferncias
Novas tendncias BI
Livros: BI2-Business Intelligence-Modelagem e Qualidade-Carlos
Barbieri-Editora Elsevier,2011 Agile Data Warehouse Design-Lawrence Corr e Jim Stagnitto-
Editora Decision Press-2011 Agile DataWarehousing Project Management-BI systems using
Scrum-Ralph Hughes-Morgan Kauffman-2013 Agile DataWarehousing-Ralph Hughes-Editora iUniverse Inc,
2008 Agile Analytics-Ken Collier-Editora Addison Wesley, 2012 Star Schema- The complete reference-Christopher Adamson-
Editora McGraw Hill, 2010
Cludio Lcio 12
Business Intelligence
Recomendaes de Bibliografia - Barbieri
Carlos Barbieri:
Blog do Barbi (Carlos Barbieri)http://blogdobarbi.blogspot.com/
Twitter: CarlosBarbieriFB:Carlos Barbieri
Pg.: 6
-
Cludio Lcio 13
Business Intelligence
Recomendaes de Bibliografia Modelagem de dados, ETL e OLAP
Barbieri, Carlos. BI2-Business Intelligence, Modelagem e Qualidade. 2011.Ed.: Elsevier. Pag.:416.
Kimball, Ralph; Ross, Margy. Data Warehouse Toolkit (The): Guia Completo para Modelagem Dimensional; 2002; Ed.: Campus; ISBN:85-352-1129-2.
Metodologia para DW
Kimball, Ralph. The Data Warehouse Lifecycle Toolkit. Ed.: John Wiley & Sons. ISBN: 9780470149775; Pg.: 636.
Textos complemmentares do TDWI;
BI e Competitividade das empresas
Davenport, Thomas; Harris, Jeanne; Morison, Robert. Analytics at Work: Smarter Decisions, Better Results. 2010; Ed.: Harvard Business Press; ISBN: 978-1422177693; Pg.: 240;
Data Mining /Estatstica e Otimizao
Berthold, Michael; Borgelt, Christian; Hppner, Frank; Klawonn, Frank. Guide to Intelligent Data Analysis: How to Intelligently Make Sense of Real Data. 2010. Ed.: Springer;ISBN: 978-1-84882-259-7. Pg. 398.
Pesquisa Operacional: 170 Aplicaes em Estratgia, Finanas, Logstica, Produo, Marketing e Vendas. 2007; Ed. LTC; ISBN: 139788521615590; Pg.:528.
Stevenson, William. Estatstica Aplicada a Administrao. 1997. Ed.:HARBRA.Pg.:498.
Pg.: 7
-
Cludio Lcio 1
Business Intelligence
Introduo: conceitos e definies
Cludio Lcio 2
Introduo: conceitos e definies
Agenda
Contexto do BI
Aplicao do BI
Utilizaes e Tecnologia
Componentes tpicos de uma soluo BI
Pg.: 8
-
Cludio Lcio 3
Introduo:conceitos e definies
Contexto BI
Cludio Lcio 4
Introduo conceitos e definies
Ambiente de informao empresarial - tpico
Pg.: 9
-
Cludio Lcio 5
Introduo conceitos e definies
Ambiente de informao empresarial - tpico
0%
20%
40%
60%
80%
100%
Percentual do tempo consumido com:Anlise dos dados
Transformao e preparao dos dados
Extrao dos dados dos sistemas origem
Cludio Lcio 6
Introduo conceitos e definies
Sintomas que indicam quando o BI uma boa soluo: Dificuldade na obteno de informaes estratgicas
atualizadas; Dificuldade de apurar, acompanhar e comparar os indicadores
de desempenho empresarial; Descrdito das informaes - os nmeros da empresa no
batem entre as reas; No uniformidade de conceitos na organizao (produto,
margem, etc); Dificuldade ou demora para obteno de informaes histricas; Dificuldade de integrao e cruzamento das informaes
internas e externas organizao; Manipulao excessiva de arquivos e planilhas para obteno
da informaes gerenciais; Forte dependncia da rea de TI para a obteno de informao
para anlises gerenciais previstas ou no previstas.
Pg.: 10
-
Cludio Lcio 7
Introduo conceitos e definies
Ambiente de informao empresarial tpico
Como acontece o processo de obteno de informao gerencial na sua empresa ???
Cludio Lcio 8
Introduo conceitos e definies
Business Intelligence o processo de transformar dados em informaes para, atravs de anlises, transformar essas informaes em conhecimento que contribui para uma efetiva tomada de deciso.
Grupo Gartner
Mais pragmaticamente:
Informao na palma da sua mo, no formato que voc deseja
Informao correta, no tempo certo.
Deciso subsidiada por fatos e dados.
Pg.: 11
-
Cludio Lcio 9
Introduo conceitos e definies
Ambiente de informao empresarial Mudana de paradigma
0%
20%
40%
60%
80%
100%Anlise dos dados
Transformao e preparao dos dados
Extrao dos dados dos sistemas origem
Percentual do tempo consumido com:
Cludio Lcio 10
Introduo conceitos e definiesAmbiente de informao empresarial Mudana de paradigma
Aplicativos Operacionais Business Intelligence
Viso do atual e do real Viso histrica e de tendncia
Soluo para requisitos conhecidos
Permitir a identificao de fatos desconhecidos
Abrangncia restrita Abrangncia ampla
Informao produzida por profissionais de informtica
Informao produzida pelo prprio usurio
Alto custo e tempo para obteno da informao
Informao obtida com baixo custo e em tempo real
Informao disponvel a poucos usurios
Informao democratizada
Pg.: 12
-
Cludio Lcio 11
Introduo:conceitos e definiesAplicao do BI
Cludio Lcio 12
Aplicao do BI
- O contexto do negcio determina a natureza da aplicao do BI. - O contexto do negcio orienta sobre as formas de alinhar resultados de um projeto de BI com os objetivos empresariais: Diretrizes: Definies que so estrategicamente
importantes no posicionamento do negcio para atingir objetivos de curto ou longo prazo;A definio de diretrizes claras um dos fatores para o sucesso de um projeto de BI;
Objetivos: Itens mensurveis que devem ser alcanados para garantir a efetividade da diretriz estabelecida;
Estratgias: So planos de ao, ou seja, descrevem como a empresa ir atingir os objetivos estabelecidos;
Pg.: 13
-
Cludio Lcio 13
Aplicao do BI
Cludio Lcio 14
ROI - Retorno sobre o Investimento
TCO - Custo total de propriedade
Aplicao do BI
ResultadosResultados
obtidos com asaes adotadas
EstratgiaPlano de aespara alcanar os
objetivos
DiretrizesAtuao de foras
que demandam aes empresariais
ObjetivosResultados
desejados a partirde aes
DiretrizesAtuao de foras
que demandam aes empresariais
AoDeciso,
Inovao, insight
ConhecimentoNovas crenas, experincias e
evidncias
DiretrizesAtuao de foras
que demandam aes empresariais
InformaoFatos e
medies
DadosDescritivo,
qualitativo ouquantitativo.
Valor Agregado
ao NegcioObjetivo da Aplicao do BI
Implementao da estratgia empresarial
Cultura analtica (decises baseadas em dados)
Pg.: 14
-
Cludio Lcio 15
Aplicao do BI
Mtricas de negcios e indicadores
Mtricas: Refere-se uma medida numrica que representa um processo
ou assunto do negcio. Normalmente visto em vrias ticas ou dimenses.
Indicadores: Pode ser considerado uma mtrica com caractersticas
particulares (obrigatrias para um indicador);Estas caractersticas so: meta e faixa de valores;Outras caractersticas: forma de visualizao, tendncia e
alertas;Vrios tipos, como: quanto maior melhor, quanto menor
melhor, intervalos dentre outros;Apresentao de mtricas, indicadores e dashboards
Cludio Lcio 16
Aplicao do BIGerenciamento baseado em mtricas - Aplicao direta de BI
Alguns processos ou mtodos de gerenciamentos so aplicaes diretas do uso de indicadores e mtricas. Este ambiente propcio para o BI:
SCM (Supply Chain Management) = modelo de gesto que
utiliza medidas internas e externas de processos envolvendo clientes e fornecedores.EX.:
taxa de ocupao de mquina,qualidade do produto, qualidade do material, previso de demanda, taxa de entrega, taxa de devoluo.
BAM (Business Activity Monitoring/Management) = modelo
de gesto que utiliza mtricas de atividades em um negcio. EX.:
Nmero de visitas a clientes,nmero de respostas de campanhas de marketing, interrupes de servios, paradas da linha de produo.
Pg.: 15
-
Cludio Lcio 17
Aplicao do BI
Gerenciamento baseado em mtricas - Aplicao direta de BI CRM (Customer Relantionship Management) = modelo de
gesto que utiliza mtricas externas especficas para clientes EX.:
Satisfao de cliente, valor do cliente, taxa de reteno do cliente, itens de preferncias do cliente, fidelidade do cliente, taxa de recompra, taxa de reconquista
BSC (Balanced Scorecard) = uma metodologia de medio e gesto de desempenho.
EX.: Decomposto em objetivos, indicadores, metas e iniciativas,nas quatro dimenses de negcio:
Financeira;Clientes;Processos internos;Aprendizado e crescimento.
Cludio Lcio 18
Introduo:conceitos e definiesUtilizaes e Tecnologia
Pg.: 16
-
Cludio Lcio 19
Utilizaes e Tecnologia
Utilizaes
Utilizao Descrio
Inteligncia aplicada em clientes
Maximizar o valor do cliente, conhecer melhor o perfil dos clientes, entender a satisfao e como reter os clientes.
Inteligncia aplicada em Mercado
Entender o mercado de forma integrada: competidores, clientes, fornecedores, produtos e metas.
Inteligncia aplicada em Vendas
Planejar e implementar estratgias de vendas, aplicando controle e garantindo melhoria contnua no processo de venda.
Inteligncia aplicada na cadeia de suprimentos
Melhoria e monitorao de processos da cadeia, desde a entrada do pedido at a entrega do produto/servio.
Inteligncia aplicada em sistemas de e-commerce
Antecipar padres de comportamento, fazer recomendaes automticas de produtos, indicar tendncias de compras
Inteligncia aplicada sistemas produtivos
Auxiliar na previso de demanda e otimizao do sistema produtivo, melhoria de estocagem, utilizao de matria-prima.
Cludio Lcio 20
Utilizaes e TecnologiaTecnologias
Tecnologia -Termos Descrio
DSS Decision Support Systems
Sistema para tomada de deciso. Utilizado para decises tticas.
EIS Executive information Systems
Deciso gerencial, baseado em indicadores e dashboards. Implementao da mtodo baseado em mtricas.
OLAP Online Analytical Processing
Ferramentas para suportar anlises multidimensionais, ou mltiplas vises. Tipicamente utilizado por usurios chaves para explorar dados.
Query & Reporting Prover acesso rpido e fcil aos dados do negcio. Funcionalidades de explorao de dados e compartilhamento.
ETC Extrao transformao e carga
Ferramentas para manipular dados quanto a sua extrao, transformao, limpeza, qualidade e carga.
ODS Operational Data Store
Prover servios de dados com base nos processos de operao para sistemas e para gerao de relatrios.
Minerao de dados Descobrir padres de ocultos em um grande volume de dados, fornecendo novas ideias e insights sobre o negcio.
Otimizao Utilizao de modelos matemticas para obteno de solues melhores ou timas.
Pg.: 17
-
Cludio Lcio 21
Utilizaes e Tecnologia
SAS e IBM Vdeos -
Cludio Lcio 22
Introduo:conceitos e definiesComponentes tpicos de uma soluo BI
Pg.: 18
-
Cludio Lcio 23
Componentes tpicos de uma soluo BI
Fonte: TDWI
Cludio Lcio 24
Componentes tpicos de uma soluo BI
Fonte: TDWI
Pg.: 19
-
Cludio Lcio 25
Componentes tpicos de uma soluo BIComponentes Descrio
Processos ETL Componente responsvel por todo os servios relacionados a manipulao de dados: movimentao, extrao, carga, limpeza, qualidade dentre outros;
Data Warehouse Repositrio central de dados corporativos da organizao. Contm tambm um estrutura que comporta metadados
Data mart Repositrio especfico de dados, tambm integrado, mas que mantm as particularidades especficas de um determinado assunto.
Anlises/OLAP/Dashboard/Indicadores
Camada da soluo responsvel por entregar/visualizao das informaes para os diversos pblicos-alvo da soluo.
Portal Corporativo Local de fcil acesso de informaes e dados. Congrega funcionalidade de dados estruturados e dados no estruturados. a 'ponta da pirmide' na apresentao de um soluo BI.
Modelos Mining Camada analticas que prov novos insights a partir de um grande volume de dados.
Pg.: 20
-
Cludio Lcio 28
Qualidade de dados e BI - Barbieri
A pergunta que se faz: Como ter uma boa estratgia de negcios
num cenrio onde a qualidade dos dados(insumos para a s informaes) no controlada e garantida?
Ter Bancos de Dados, DataWarehousing, DataMarts, Analytics, etc suficiente?
Casamento BI+Qualidade essencial!!
Pg.: 21
-
Cludio Lcio 29
Qualidade de dados e BI - Barbieri
QUALIDADE DOS DADOS
PESQUISA DA PWC-PRICE WATERHOUSECOOPERS, REALIZADA EM 600 CORPORAES EM TODO O MUNDO, REVELA QUE APENAS 41% DELAS ESTO CONFIANTES NA QUALIDADE DE SEUS DADOS E 17% CONFIA EM DADOS DE TERCEIROS
Cludio Lcio 30
Qualidade de dados e BI - BarbieriAPLICAES
BIVAREJO
9800 LOJAS-29 paises, 400 lojas/ano, US 5bi de impostos, > 2 MILHES EMPREGADOS-100.000.000 DE CLIENTE
FATURAMENTO:405 BI US$(2010), OU SEJA 2,4 %DO PIB DOS USA. SE FOSSE UM PAIS O SEU PIB SERIA > QUE 90% DOS PAISES.
LUCRO DE US$ 8 BI(3 * PETROBRS) COMPRA 10% DE TUDO QUE A CHINA VENDE AOS USA POSSUI O SEGUNDO MAIOR COMPUTADOR DO
PLANETA(MENOR QUE O PENTGONO) X PETABYTES DE DADOS-DW DESDE 1988-investe alto em Dados SAM WALTON: TODAS AS COISAS MAIS SIGNIFICATIVAS DA
MINHA VIDA EU COPIEI DE ALGUM DEVIDO AO KMART(J QUEBROU) Novo modelo de negcios: espreme os fornecedores- 15 a 20% mais
barato que a concorrncia(repassa direto a diferena do que ganha com FN, para os clientes). Reduz a inflao americana em 1%(deflao)
Pg.: 22
-
Cludio Lcio 31
Qualidade de dados e BI - Barbieri
GRANDE EXEMPLO DE USO DE BI SEGREDO
GESTO COM TECNOLOGIA DE INFORMAO CONTROLE DE LUCRATIVIDADE DE CADA ITEM ACELERAO DA ROTAO DO ESTOQUE ELIMINAO DE MERCADORIAS SEM SADAS
EXEMPLO; COMPRA DE UMA LATA DE MASSA DE TOMATE EM
QUALQUER LOJA DO WAL-MART(INCLUSIVE AS 21 DO BR) INFORMAO VIAJA 13.000 KM PARA O DB DE
ARKANSAS(BENTONVILLE) ENVIO DE INFORMAO PARA O CENTRO DE
DISTRIBUIO EM SP-REPOSIO DAQUELE LATA
Cludio Lcio 32
Qualidade de dados e BI - Barbieri
GRANDE EXEMPLO DE USO DE BI SEGREDO
GESTO COM TECNOLOGIA DE INFORMAO CONTROLE DE LUCRATIVIDADE DE CADA ITEM ACELERAO DA ROTAO DO ESTOQUE ELIMINAO DE MERCADORIAS SEM SADAS
EXEMPLO; COMPRA DE UMA LATA DE MASSA DE TOMATE EM
QUALQUER LOJA DO WAL-MART(INCLUSIVE AS 21 DO BR) INFORMAO VIAJA 13.000 KM PARA O DB DE
ARKANSAS(BENTONVILLE) ENVIO DE INFORMAO PARA O CENTRO DE
DISTRIBUIO EM SP-REPOSIO DAQUELE LATA
Pg.: 23
-
Cludio Lcio 33
Qualidade de dados e BI - Barbieri
GRANDE INVESTIMENTO EM TECNOLOGIA DE INFORMAO
MAIOR DB DO PLANETA QUE GERA O MAIOR DW DO PLANETA
30 X MAIOR QUE TODO O CONTEDO DA BIBLIOTECA DO CONGRESSO DOS EUA N TRILHES DE DADOS( n TERABYTES) DW DO WAL-MART=600 Tb-1 Petabyte-TERADATA
INFORMAES GERENCIAIS PERFIL DE CONSUMIDOR-SAMS CLUBE DIAS MAIS PROPCIOS PARA COMPRA DE PRODUTO X POR
CONSUMIDOR TIPO Y INVESTIMENTOS TOTAIS DE MAIS DE 2/3 BI DE DLARES
DESDE 88 S EM 2002 APLICOU 400 MI DE DLARES
Cludio Lcio 34
Qualidade de dados e BI - Barbieri
CV, DOCUM ENT OS DE PROJET OS,
MOSTRAM SEUS PERFS DE
HABILIDADES E EXPERINCIAS
AS AGENDAS ON-LINE
M OSTRANDO AS SUAS
ATIVIDADES PROFISSIONAIS E COM QUEM SE
REUNEM
VIA CEL UL ARES E NOTE BOOKS CAPTURAM
SEUS MOVIMENTOS
DE COMUNICAO EMPRESARIAL
E -m ails , Twitter , chamadas telefn icas etc, DEFINEM SUAS REDES SOCIAISOUTLOOK(DE QUEM , PARA QUEM, CPIA
OCULTA?, NATUREZA DO VNCULO
Em setembro de 2004 , o furaco Frances se
aproximava das costas da Flrida
A equipe de BI do Wal Mart especialista em anlises
preditivas a tpicas: Quais seriam os produtos de ma ior consumo e que mereceriam cuidado da rea
de logstica da empresa , nas regies atingidas?
Analisaram os dados de
consumos,
registrados no DW, relativo passagem do outro Furaco-
Charley, em agosto de 2004
Verificaram que o perfil de consumo durante o furaco anterior(Charley)
apontava para dados no bvios. No era
lanterna, pregos,reforo de portas e janelas,etc
Verificaram que havia tido um
consumo
extraordinrio de cerveja (fase pr-
tufo) e de torta de morango(strawberry
tarts, na fase ps tufo. Essa tinha
sido consumida 7 x mais que a mdia
Rea lizaram um movimento
gigantesco de logstica , com
deslocamento de frotas de caminhes gigantes, contendo esses dois produtos ,
para as reas ameaadas.
Ganharam muito dinheiro!
Poder da Informao
Pg.: 24
-
Cludio Lcio 35
Atividade
1- Leitura do CASE FIAT Discusses aps a leitura
ReflexoExiste diferena entre sistemas operacionais e um sistema que apoia a tomada de decises? possvel compreender o que Business Intelligence? possvel compreender as vantagens de uma soluo de Business Intelligence? possvel compreender e decidir quando aplicar uma soluo de Business Intelligence?
Pg.: 25
-
Cludio Lcio 1
Business Intelligence
Conceitos de DW
Cludio Lcio 2
Conceitos de DW
Agenda
Contexto do DW
Conceitos sobre DW
Componentes DW
Modelagem dimensional de dados
Comentrios e recomendaes sobre projetos de DW
Pg.: 26
-
Cludio Lcio 3
Introduo:conceitos e definies
Contexto do DW
Cludio Lcio 4
Contexto do DW
Suporte a deciso 'Soluo comum adotada pelas empresas'
Forte acoplamento entre sistemas do nvel operacional e gerencial
Pg.: 27
-
Cludio Lcio 5
Contexto do DW
Suporte a deciso 'Soluo comum adotada pelas empresas'
Fatos comumente observados: Dados no esto adequados para suporte deciso; Sistemas de suporte deciso desenvolvidos ad-hoc; Longo tempo de espera; No apresentam histrico necessrio (para analisar sazonalidades, por exemplo, ou mesmo histrico de clientes);
Cludio Lcio 6
Contexto do DW
Ambiente de Aplicaes Operacionais: Do suporte s funes associadas execuo do negcio da empresa, como por exemplo:
- Sistemas ERPs; - Sistemas supervisrios para aquisio de dados- SCADA;- Sistemas de execuo de manufatura - MES
Fazem a roda dos negcios girar
Suporte Deciso: Do suporte ao processo de tomada de deciso empresarial.
Auxiliam o entendimento sobre como a roda dos negcios esta girando, ou como poderia girar melhor.
Pg.: 28
-
Cludio Lcio 7
Contexto do DW
Ambiente Operacional (Transacional)
Tipo de processamento: OLTP (On Line Transaction Processing)
Baseado em transaes; Voltado para velocidade e automao de funes operativas. Ex.: Emitir notas fiscais, Faturar cliente, Retirar material da expedio, dentre outros; No prioridade mantes informaes histricas; Atualizaes e consultas em grande nmero; Trabalha com baixo nvel de detalhe(granularidade);
Cludio Lcio 8
Contexto do DW
Ambiente de Suporte Deciso (Analtico)
Tipo de processamento: OLAP(On Line Analytical Processing) Necessidade de ver o dado sob diferentes perspectivas: visualizaes dinmicas; comum haver operaes de agregao e cruzamentos de diversos tipos de dados; Atualizao dos dados feito em 'lotes'; Dados histricos so relevantes; Consistncia e qualidade dos dados fundamental;
Pg.: 29
-
Cludio Lcio 9
Contexto do DW
Requisitos de ambientes operacionais e analticoOLTP
- Tempo de Resposta;- ACID (Atomicidade, Consistncia, Isolamento e Durabilidade);- Recuperao de Falhas;- Muitos usurios concorrentes;
OLAP- Consultas complexas, no antecipadas;- Gerenciamento de 'enormes' volumes de dados;- Necessidade de examinar o dado em diferentes nveis de detalhe;- Necessidade de acesso a dados de fontes de dados diversas;- Flexibilidade, facilidade de navegao
Cludio Lcio 10
Contexto do DW
OLAP x OLTP
Pg.: 30
-
Cludio Lcio 11
Contexto do DW
Porque um ambiente de Data Warehouse?
Integrar dados de mltiplas fontes;Facilitar o processo de anlise sem gerar impactos para o ambiente de dados operacionais;Melhor desempenho (tempo de resposta) para consultas e anlisesObter dados com qualidade e estrutura propcia para o processo de anlise;Atender diferentes tipos de necessidades dos usurios; Flexibilidade e agilidade para atender novas anlises;Reteno de dados histricos permitindo anlises temporais (explorao de sazonalidade);
Cludio Lcio 12
Introduo:conceitos e definies
Conceitos sobre DW
Pg.: 31
-
Cludio Lcio 13
Conceitos sobre DWConceito: Data Warehouse
O Data Warehouse uma estrutura de dados que otimizada para a distribuio. uma coleo de dados integrados e histricos oriundas de mltiplas sistemas operacionais. Tambm prov acesso para os usurios finais para suportar uma viso corporativas de dados. TDWI
Cludio Lcio 14
Conceitos sobre DWConceito: Data Warehouse
Um data warehouse uma coleo de dados orientada por assunto, integrada, varivel no tempo, e no-voltil, usada no apoio aos processos de tomada de deciso gerenciais. W.H. Inmon
Pg.: 32
-
Cludio Lcio 15
Conceitos sobre DWConceito: Data Warehouse
Orientada por assunto: organizada em torno dos principais assuntos (temas, entidades) do negcio, tais como financeiro, suprimentos, vendas, etc;
Integrada: construda a partir de mltiplas fontes, potencialmente Heterogneas;
Varivel no tempo:o tempo sempre uma dimenso importante para o DW, que geralmente acumula dados de um perodo histrico mais longo;
No voltil: os dados no DW no sofrem atualizaes constantes. Via de regra, dados carregados no DW no so (constantemente) alterados.
Cludio Lcio 16
Conceitos sobre DWPragmaticamente: Data Warehouse
Banco de dados com informaes gerenciais;
Carregado a partir de bancos de dados transacionais, fontes de dados externas e/ou no estruturadas;
Dividido por assunto;
Modelado de uma nova maneira, objetivando facilitar a elaborao de consultas;
No consiste apenas em dados, mas tambm em um conjunto de ferramentas para consultar, analisar e apresentar informaes;
Geralmente utiliza o perodo da noite como janela de carga;
Pg.: 33
-
Cludio Lcio 17
Conceitos sobre DWData Mart
um sub-conjunto de dados de um Data Warehouse, referentes a um assunto em especial ou diferentes nveis de sumarizao que focalizam uma ou mais reas especficas.
O Data Warehouse no nada mais do que a unio dos data marts que o constituem. Ralph Kimball et al.
Cludio Lcio 18
Conceitos sobre DWData Warehouse Diferenas conceituais
Fonte: TDWI
Pg.: 34
-
Cludio Lcio 19
Conceitos sobre DWData Warehouse Abordagens para construo
- Top-down: criao de um DW contendo todos os dados corporativos e, posteriormente, feita a segmentao do DW em reas menores por assunto, gerando assim os Data Marts.
- Botton-up: inicia-se a construo por uma rea, ou Data Mart. A partir da visualizao dos primeiros resultados, parte para outra rea e assim sucessivamente, at resultar em um Data Warehouse.
- Planejar corporativamente e construo incremental;
Cludio Lcio 20
Introduo:conceitos e definies
Componentes DW
Pg.: 35
-
Cludio Lcio 22
Conceitos sobre DWStaging Area - Conceito
- rea onde os dados so colocados aps a extrao a partir dos sistemas de origem;
- Mantm apenas uma foto parcial, temporria ou permanente dos dados dos sistemas fontes;
- Dedicada para a integrao de dados e no disponvel para os usurios finais do DW;
- Isolamento de dados brutos que so extrados das fontes e so acessveis para o processo de extrao ou talvez para analistas de negcios;
Pg.: 36
-
Cludio Lcio 23
Conceitos sobre DWStaging Area - Motivaes para uso
- Reduzir a sobrecarga de acessos aos sistemas fontes. Acesso ao sistema fonte pode ser feito uma nica vez, as leituras necessrias para o armazenamento dos dados do DW so realizadas a partir da Staging Area;
- Recuperao de falhas sem reiniciar todo processo. Aps a gravao dos dados na Staging Area no necessrio acessar o sistema fonte novamente no caso de falha.
- Os dados da Staging Area so teis para validar a integridade da informao do DW quando o sistema fonte sobrescreve o histrico.
Cludio Lcio 24
Conceitos sobre DWOperational Data Store ODS - Conceito
- Base de dados que integra dados de mltiplas fontes,para facilitar anlises e relatrios. Ou mesmo para facilitar a integrao entre sistemas legados;
- ODS semelhante ao DW: ambos so orientados por assunto e integrados;
- Pode ser uma base separada do DW ou pode ser um componente do mesmo.
Pg.: 37
-
Cludio Lcio 25
Conceitos sobre DWOperational Data Store ODS - Diferenas DW
VolatilidadeTransaes no sistema transacional so replicados no ODS. ODS voltil prpria para o conceito near real time;
Frequncia da informaoO ODS possui dados correntes, que no ultrapassem as ltimas 24 horas ou 1 ms, por exemplo;
Granularidade e detalhes de camposO ODS possui dados detalhados (telefone, endereo) com estruturao no dimensional e DW possui dados sumarizados;
RelatriosUtilizado para gerar relatrios operacionais, como por exemplo, listagens detalhadas .
Cludio Lcio 26
Conceitos sobre DWODS - Motivaes de uso
- Necessidade de uma base para consultas em tempo quase real;
- Necessidade de uma base acessvel no ambiente organizacional que no orientada para aplicaes e possui aspecto relativo a integrao;
- Necessidade de relatrios para decises tticas que envolvem diferentes bases de dados e que devem ser near real time ;
Pg.: 38
-
Cludio Lcio 27
Introduo:conceitos e definies
Modelagem Multidimensionalde dados
Cludio Lcio 28
Modelagem Multidimensional de dados
Contexto Modelagem multidimensional para BI
Requisitos de informao definidos
Modelagem de dados
Pg.: 39
-
Cludio Lcio 29
Modelagem Multidimensional de dados
Modelagem Tpica para dados ER (Entidade Relacionamento)
- Facilita a atualizao de registros;
- Alta desempenho para processamento transacional;
- Torna as transaes simples e determinsticas;
- Foi responsvel pelo sucesso dos sistemas transacionais com os SGBDR;
- Modelos de dados corporativos tendem a possuir centenas e at milhares de tabelas.
Cludio Lcio 30
Modelagem Multidimensional de dados
Porque no usar a modelagem ER para o DW?
- Modelo de dados de difcil entendimento e memorizao pelo usurio;
- Dificuldade dos programas de consulta para suporte a deciso em Modelos ER genricos (ferramentas OLAP ou Query/Reporting);
- A modelagem ER vai contra uma das premissas do DW: Recuperao de dados intuitiva e com alto desempenho
Pg.: 40
-
Cludio Lcio 31
Modelagem Multidimensional de dados
Modelagem Dimensional
- uma tcnica que visa apresentar os dados de forma padronizada, intuitiva, permitindo a sua recuperao com alto desempenho;
- Voltado para a flexibilidade e alta performance para extrao de informaes;
- de simples entendimento pelos usurios;
- mais sintonizado com o negcio;
- composto por uma tabela de FATO cercada por um conjunto de tabelas chamadas DIMENSES;
Cludio Lcio 32
Modelagem Multidimensional de dados
Modelagem Dimensional
Pg.: 41
-
Cludio Lcio 33
Modelagem Multidimensional de dados
Modelagem Dimensional - Dimenses
Dimenses so perspectivas ou entidades sobre as quais a organizao deseja avaliar os dados;
- Correspondem aproximadamente a diferentes aspectos do problema, ou a temas segundo os quais os dados podem ser sumarizados e apresentados;
- Seus atributos so usados como restries para as consultas;
- Possui relacionamentos hierrquicos;
- Exemplos: Tempo, Loja/filial, Produto, Cliente, Local
Cludio Lcio 34
Modelagem Multidimensional de dados
Modelagem Dimensional - Fatos
Os fatos so medidas que indicam combinaes de elementos das dimenses;
- Objeto de curiosidade do usurio ou aquilo que de foco da ateno do usurio;
- Fatos so tipicamente numricos e aditivos;
- Fatos so recuperados em conjunto de centenas, milhares ou at milhes de registros atravs de funes estatstica descritiva (soma, mdia, mx., min., etc.);
- Exemplos: Vendas, preos, custo, Clientes atendidos, etc.
Pg.: 42
-
Cludio Lcio 35
Modelagem Multidimensional de dados
Modelagem Dimensional - Exemplo
Cludio Lcio 36
Modelagem Multidimensional de dados
Modelagem Dimensional - Fatos
- O modelo dimensional organizado em torno de um tema central: mtricas ou indicadores. No exemplo, venda (valor, quantidade, custo);
- A granularidade da tabela de fatos a deciso mais importante a tomar na construo do DW:
Dimenso tempo: Dia? Ms? Trimestre? Dia da semana?Dimenso produto: Produtos individuais? Famlias de produtos?Dimenso local: Cidade? Estado?
- A granularidade das tabelas de fatos iro determinar o volume de dados no DW ;
Pg.: 43
-
Cludio Lcio 37
Modelagem Multidimensional de dados
Modelagem Dimensional - Exemplo
- Dimenses: Local, Item, Tempo- Fato: valor das vendas, em milhares de R$- Granularidade: tempo-> trimestre; local-> cidade; item-> tipo
Cludio Lcio 38
Modelagem Multidimensional de dados
Modelagem Dimensional - Hierarquias- Uma hierarquia de conceitos define uma sequncia de
mapeamentos entre um conjunto de conceitos mais especficos para conceitos mais gerais - Permite obter fatos em mltiplos nveis de granularidade:
- Podem existir mltiplas hierarquias para cada dimenso
Pg.: 44
-
Cludio Lcio 39
Modelagem Multidimensional de dados
Modelagem Dimensional - Hierarquias
-
Cludio Lcio 40
Modelagem Multidimensional de dados
Modelagem Dimensional - viso multidimensional- O cubo apenas uma metfora visual;
Pg.: 45
-
Cludio Lcio 41
Modelagem Multidimensional de dados
Modelagem Dimensional - viso multidimensional- uma representao intuitiva. Todas as dimenses coexistem
para todo ponto no cubo e so independentes umas das outras;
Cludio Lcio 42
Modelagem Multidimensional de dados
Modelagem Dimensional - Agregaes- Os cubos pressupes dados pr-calculados , ou seja, no h
necessidade de nenhuma computao no momento de consumo dos dados;
Pg.: 46
-
Cludio Lcio 43
Modelagem Multidimensional de dados
Modelagem Dimensional - Exemplo
1 - Identificar o Processo de Negcio; Para o Processo de Negcio voc deve ser capaz de:2 - Identificar as Dimenses;3 - Identificar a granularidade;
4 - Identificar os fatos;
Caso do Supermercado- Cadeia de mais de 300 lojas espalhadas por 5 estados;- Os produtos esto agrupados por Departamento;- Nmero mdio de Itens expostos nas prateleiras por loja: 60.000;- Os produtos esto identificados por Cdigo de Barra e os Caixas possuem leitores para eles;- Promoes de Produtos podem ser feitas atravs de cupons, anncio nas gndolas, etc.
Cludio Lcio 44
Modelagem Multidimensional de dados
Modelagem Dimensional - Exemplo
Necessidade- Conhecer as vendas dirias de cada loja, para avaliar a movimentao dos produtos, bem como avaliar o impacto das promoes ou ajustes de preos nas vendas.
2 - Identificar as Dimenses;.
Dimenso DATA
Dimenso Promoo
Dimenso Loja
Dimenso Produto
Pg.: 47
-
Cludio Lcio 45
Modelagem Multidimensional de dados
Modelagem Dimensional - Exemplo
3 - Identificar a granularidade.
Cludio Lcio 46
Modelagem Multidimensional de dados
Modelagem Dimensional - Exemplo
4 - Identificao dos fatosQuais foram as vendas semanais para a categoria Cerveja durante a Promoo das Finais do Campeonato Brasileiro, no estado de M.G., no ms de Dezembro ?
.
Pg.: 48
-
Cludio Lcio 47
Business Intelligence
Comentrios e recomendaes sobre projetos de DW
Cludio Lcio 48
Comentrios e recom. sobre projetos de DW
Projeto - Estruturao
- A construo de um Data Warehouse deve ser visto como um Projeto, ou seja, preciso avaliar custo, tempo, prazo, riscos, escopo:
- necessrio um conjunto de atividades bem definidas;
- Ppeis e responsabilidades devem ser claramente comunicados e definidos?
- importante definir e acompanhar um plano de comunicao. Todo projeto dever ser alinhado com a estratgia do negcio ;
- Existem algumas empresas que definem um estrutura o BICC(Business Intelligence Competence Center);
Pg.: 49
-
Cludio Lcio 49
Comentrios e recom. sobre projetos de DW
Projeto Resumo de fases simplificado
- 1. Planejamento: Definir o escopo, planejamento, recursos necessrios, tarefas e entregas, prazos;
- 2. Levantamento e definio dos requisitos de dados: Entendimento do negcio do cliente e de duas necessidades, definio de quais informaes sero fornecidas no DW;
-3 Modelagem dimensional e criao do banco de dados fsico: Gera um modelo final formado por tabelas fato e tabelas dimenso;
Cludio Lcio 50
Comentrios e recom. sobre projetos de DW
Projeto Resumo de fases simplificado
- 4. Mapeamento de dados e suas transformaes: Identificar os sistemas fonte, mapear a fonte para o destino, especificar as transformaes necessrias, definir a estratgia e periodicidade de atualizao das informaes;
- 5. Extrao e carga de dados: Construo e teste dos procedimentos de extrao, transformao e carga de dados;
-6. Automatizar os processos do DW: Automatizar processos de carga, rotinas de backup, etc;
Pg.: 50
-
Cludio Lcio 51
Comentrios e recom. sobre projetos de DW
Projeto Resumo de fases simplificado
- 7. Criar o conjunto inicial de relatrios: Definir, construir e testar os relatrios;
- 8. Teste e validao de dados: envolvimento intensivo dos usurios
- 9. Treinamento: vrios tipos de treinamentos, usurios avanados e bsico
- 10. Implantao e suporte ao usurio final: apoio a novas questes no negcio (suporte e centro de informao)
- 11. Manuteno e crescimento: definio de equipe de sustentao e acoplamento com as mudanas no negcio
Cludio Lcio 52
Comentrios e recom. sobre projetos de DW
Projeto Fatores de sucessoO sucesso do DW pode ser facilitado por:
- Patrocinadores- Metodologia- Boa seleo de dados ou poltica de qualidade de dados- Abordagem e ambiente adequados- Plataforma de hardware e software- Treinamento da Equipe de TI
- interessante que os primeiros resultados estejam disponveis a curto prazo. importante traduzir rapidamente as necessidades do negcio em uma especificao que possa ser construda em etapas;- Construir um DW que possa ser expandido, mantendo nveis
aceitveis de desempenho para grandes volumes de dados;- Video : Droga Raia e Volks
Pg.: 51
-
Cludio Lcio 54
Gerncia de projetos - BarbieriFCS de Projetos de BI
54
Requisitospoucosclaros
DadosIncorretos
incompletos
Baixo envolvimento
dosUsurios finais
Resultadostardios
Gerncia deMudanas
falha
Aderncia e privacidade
negligenciados
Falha na documentao
Projeto de Hardware
inadequado
Oramento inadequado
Falha em GREReqtos de BI: KPI,Indicadores, aspectos analticos,etc
Falha em GREBaixa participao do FN de Reqtos
Projetos monolticosResultados somente no finalFalha de abordagem de ciclos doProjetos-GPR
Falha em GPRGerncia de Riscos (GRI)Falha em GRE
Requisitos NFCNo funcionais
Falha em GPRDocumentao
Falha em GPRRecursos de HDW
Falha em GPRRecursos Financeiros
Adaptado deDez razes mais frequentes para o fracasso do BIManuel de Pino-IB IbriaCIO-28/06/11-cio.uol.com.br/gesto
Falha GD/DQ
FCS= Fatores crticos de sucesso
Pg.: 52
-
Pg.: 53
-
Pg.: 54
-
Cludio Lcio 60
Atividade1- Entrega de trabalho
Discusses aps a leitura
ReflexoOs componentes de um DW so uma forma para estruturar os dados de um projeto de BI? possvel compreender os componentes de um DW?A modelagem dimensional uma representao mais simples para o processo de extrao de informao por parte do usurio?
Pg.: 55
-
Cludio Lcio 1
Business Intelligence
Processos ETL e OLAP
Cludio Lcio 2
Processos ETL e OLAP
Agenda
ETL
Introduo
Projeto ETL
Documentao ETL
Ferramentas de ETL e suas caractersticas
OLAP
Introduo
Funcionalidades e facilidades OLAP
Ferramentas OLAP e suas caractersticas
Pg.: 56
-
Cludio Lcio 3
Processos ETLIntroduo
Cludio Lcio 4
Introduo
- Um dos desafios da implantao de um DW a integrao dos dados de fontes heterogneas e complexas, padronizando informaes, mantendo sua consistncia;
- A maioria dos projetos gasta a maior parte do tempo e dos esforos nessa fase (cerca de 70% do tempo);
- O sucesso do DW depende, em grande parte, da eficincia e eficcia do processo de ETL;
- Tipicamente os processos ETL mantm e possuem regras de negcio -> implicam na confiabilidade e assertividade dos dados no DW ou BI;
Pg.: 57
-
Cludio Lcio 5
Introduo
ETL ou ETC Extrair, transformar e carregar
- Processo em Data Warehouse que involve:- Extrair dados de fontes externas;- Transform-los para adequar s necessidades do negcio ou implementar as regras do negcio; - Carreg-los para dentro do Data Warehouse;
Cludio Lcio 6
Introduo
ETC - Extrao
- A primeira parte do processo ETL extrair os dados dos sistemas origem;
- muito comum que o processo de extrao leia os dados do sistema fonte e grave na Staging Area;
- Na grande maioria existem diferentes fontes de informao. Exemplo: SAP-ECC, ORACLE, DB2, SQL SERVER, XML, dentre outros;
- Fontes comuns so bases de dados relacionais, flat-files (arquivos textos contendo os dados das tabelas) ou at mesmo planilhas eletrnicas;
Pg.: 58
-
Cludio Lcio 7
Introduo
ETC - Transformao
- A fase de transformao consiste em aplicar uma srie de regras ou funes sobre os dados extrados.
- Pode acontecer de no ser necessrio a realizao de transformaes a partir de uma fonte de dados.
- Exemplo de transformaes:- Traduzir valores codificados (ex: M para Masculino e F para Feminino e no DW ser 1 para Masculino e 2 para Feminino); - Criar um novo valor calculado (ex. Valor_venda = qtd * preo_unitrio);- Realizar joins cruzando dados de mltiplas origens (lookup, merge, etc);- Sumarizando mltiplas linhas de dados (ex. total de vendas para cada regio);- Pivot: transformar mltiplas colunas em mltiplas linhas ou vice versa;
Cludio Lcio 8
Introduo
ETC - Carga
- Nesta fase os dados so gravados no Data Warehouse.
- Pode-se carregar os dados no DW, utilizando a forma de atualizao mais adequada:
Inicial carga de histrico at chegar no perodo atual;Incremental acontece de acordo com a periodicidade de atualizao (granularidade) diariamente, semanalmente, hora em hora;Completa acontece somente uma vez;
Pg.: 59
-
Cludio Lcio 9
Processos ETLProjeto ETL
Cludio Lcio 10
Projeto ETL
Processamento de dimenses
- Ocorre antes da carga das tabelas de fatos, uma vez que estas so dependentes ;
- Algumas dimenses so carregadas simplesmente sobrescrevendo os dados antigos com dados atuais;
- Dimenses mais complexas podem necessitar da gesto de histricos, bem como ter um rastreamento de todas das alteraes que os dados sofreram;
- Somente alguns tipos especiais de dimenses necessitam de tratamento para grandes volumes de dados;
Pg.: 60
-
Cludio Lcio 11
Projeto ETL
Processamento de fatos
- So mais demoradas devido ao volume de dados;
- Exigem programas de carga mais eficientes: projeto orientado para estrutura de arquivos correta;
- Recuperam os dados das dimenses para consistncia de chaves primrias;
- Ocorre depois da carga das tabelas de dimenses das quais depende;
- Na maioria das vezes sofrem insero. Operaes de update so usadas para acertos e devem ser evitadas na medida do possvel;
Cludio Lcio 12
Projeto ETL
Dicas Projeto ETL
- Analisar os dados fontes;
- Identificar os mapeamentos de dados;
- Especificar as rotinas de ETL determinando a lgica de converso dos dados;
- Determinar o melhor caminho para o transporte dos dados fontes para o DW antes de iniciar a construo das rotinas de ETL .Possibilitar maior produtividade, evitando atrasos e retrabalho;
Pg.: 61
-
Cludio Lcio 13
Processos ETLDocumentao ETL
Cludio Lcio 14
Documentao ETL
ETL Disponibilizao dos dados
- Para a aumentar a chance de sucesso do processo ETL, documentao extremamente recomendvel;
- O mapa de carga o documento que congrega as transformaes que sero implementadas e as regras de negcio utilizadas nas cargas dos dados;
- Outra documentao importante a estratgia de carga que alm de descrever especificidades de cada processo, tambm auxilia na encadeamento lgico dos vrios processos de carga;
Pg.: 62
-
Cludio Lcio 15
Documentao ETL
Mapa de carga
Cludio Lcio 16
Documentao ETL
Mapa de carga
Pg.: 63
-
Cludio Lcio 17
Processos ETLFerramentas de ETL e suas caractersticas
Cludio Lcio 18
Ferramentas de ETL e suas caractersticas
Ferramentas ETL - Caractersticas
- Existem ferramentas que proporcionam mais produtividade e qualidade ao processo de integrao. ;
- O processo ETL trabalhoso, complexo e detalhado, mesmo com o auxlio das melhores ferramentas de ETL;
- Para que a integrao de dados seja bem sucedida, preciso escolher uma ferramenta que oferea funcionalidades capazes de atender os requisitos do processo de ETL;
- Para escolher a ferramenta adequada, necessrio fazer um comparativo entre as opes para identificar aquela que melhor atende o projeto(melhor custo/benefcio);
Pg.: 64
-
Cludio Lcio 19
Ferramentas de ETL e suas caractersticas
Ferramentas ETL - Caractersticas
- H solues com custo zero de aquisio, pois vm embutidas em um SGBD, como por exemplo o SSIS no SQL Server ou Data Integrator no ORACLE; Para estes casos ETL ou ELT ?
- Pode tambm ser utilzados os recursos dos prprios banco de dados, como PL/SQL (Oracle) ou T-SQL(SQL SERVER). No entanto, estes podem ser limitados, exigindo uma maior codificao dos processos;
- Alm disso, podem ser restritas, j que geralmente fornecido suporte apenas ao SGBD que as acompanham, enquanto as ferramentas ETL completas podem fornecer suporte a diversos tipos de arquivos e SGBDR;
Cludio Lcio 20
Ferramentas de ETL e suas caractersticas
Ferramentas ETL - Mercado
IBM Data Stage Informatica Power Center
MS SSIS
ORACLE Data Integrator
Pg.: 65
-
Cludio Lcio 21
Ferramentas de ETL e suas caractersticas
Pontos a considerar em uma ferramenta ETL
- Arquitetura Geral: Plataforma de execuo do produto: pode restringir a capacidade de expanso sem adicionar mais servidores quando houver crescimento do volume de dados;
- Extrao e Carga de Dados: Suporte nativo aos principais SGBDs, bem como suporte a conexo via drivers no nativos(OLE/DB; ODBC; JDBC) para um vasto conjunto de bancos de dados;
- Integrao de Dados: Suporte a diversos formatos de dados, incluindo COBOL, ASCII, Excel e XML. Nvel de integrao com aplicaes de terceiros, incluindo sistemas de ERP;
Cludio Lcio 22
Ferramentas de ETL e suas caractersticas
Pontos a considerar em uma ferramenta ETL
-Administrao: Apresentar administrao centralizada, ou seja, preciso ter um nico lugar para visualizar o processo ETL, mesmo se as tarefas estiverem executando em diferentes plataformas de origem e destino e diferentes sistemas operacionais;
- Ambientes grficos de interface com o usurio;
- Concorrncia e Segurana: Nmero de possveis usurios e desenvolvedores concorrentes;
-Tratamento de Erros: Recuperao de falhas: se ocorrer algum erro a ferramenta ETL capaz de voltar o sistema a um estado consistente conhecido;
Pg.: 66
-
Cludio Lcio 23
Ferramentas de ETL e suas caractersticas
Pontos a considerar em uma ferramenta ETL
-Gerenciamento de Metadados: Repositrio de metadados centralizado contendo no mnimo informaes relativas a fontes de dados, destinos e transformaes;
- Performance: Caractersticas que permitem processamento distribudo e particionado para obter uma performance melhor;
- Programao de Execuo de Tarefas: Habilidade de programar a execuo de sesses ETL em um determinado tempo ou evento;
Cludio Lcio 24
Ferramentas de ETL e suas caractersticas
Pontos a considerar em uma ferramenta ETL
- Continuidade-Capacidade de suportar o nvel de processamento em caso de crescimento de origens, destinos e volumes de dados;-Facilidade de desenvolver e modificar tarefas e rotinas;-Frequncia e complexidade das atualizaes do produto;-Capacidade de suporte para o crescimento da plataforma.;
- Performance: Caractersticas que permitem processamento distribudo e particionado para obter uma performance melhor;
Pg.: 67
-
Cludio Lcio 25
Atividade1- Entrega de trabalho
Discusses aps a leitura e atividade
ReflexoQuais pontos so importantes para considerar na escolha de uma ferramenta ETL? Qual a importncia da documentao em um projeto ETL?Performance em um projeto ETL, pode ser um fator preponderante para o sucesso? Imagine um projeto de carga com atualizaes de 15 em 15 minutos;Qualidade de dados importante?
Cludio Lcio 26
Business Intelligence
OLAP Acesso a dados
Pg.: 68
-
Cludio Lcio 27
OLAP Acesso a dados
Agenda
Introduo
Funcionalidades e facilidades OLAP
Ferramentas OLAP e suas caractersticas
Cludio Lcio 28
OLAP Acesso a dados
Introduo
Pg.: 69
-
Cludio Lcio 29
Introduo
Definio- OLAP (OnLine Analytical Processing) uma categoria de tecnologia de software que possibilita a visualizao dos dados armazenados, segundo um grande nmero de pontos de vista, atravs de acessos rpidos, consistentes e interativos;
- Processa os dados de um DW ou DM fornecendo respostas rpidas para consultas analticas complexas;
- A ferramenta OLAP, ou de acesso a dados, o que realmente d vida ao DW. Outras ferramentas: Business Discovery,Query e Reporting;
Cludio Lcio 30
Introduo
OLAP
- O DW a base para os servios OLAP;- OLAP transforma os dados de um DW em estruturas multi-dimensionais
- Permite a anlise de dados fazendo operaes como um cubo mgico
Pg.: 70
-
Cludio Lcio 31
Introduo
Cubos
- Cubos so estruturas multidimensionais que armazenam dados para componente OLAP;
- Uma variedade de cruzamentos dimensionais, clculos e agregaes so possveis com os cubos, e as dimenses so utilizadas para o 'pivot' dos relatrios;
Cludio Lcio 32
IntroduoCubos
- Uma das vantagens do modelo OLAP o uso 'abusivo' de agregaes;
- Denomina-se agregao ao processo de pr-calcular os dados atravs dos nveis das hierarquias para diminuir os tempos de resposta nos processos de busca de informao;
- Em resumo: As agregaes so resumos de dados pr-calculados que melhoram o tempo de resposta pelo simples motivo de ter as respostas prontas antes de receber as perguntas.
Pg.: 71
-
Cludio Lcio 33
IntroduoCubos
- A porcentagem de agregao determina a proporo ou profundidade at onde so realizados os pr-clculos;
Cludio Lcio 34
IntroduoCubos
- Caractersticas das agregaes: - As agregaes permitem melhorar os tempos de resposta - Requerem armazenamento adicional - Caso no forem controladas podem provocar uma
exploso nos requisitos de armazenamento
Pg.: 72
-
Cludio Lcio 35
OLAP Acesso a dados
Funcionalidades e facilidades OLAP
Cludio Lcio 36
Funcionalidades e facilidades OLAP
Consultas e o acesso
- Aps montar o cubo, os usurios podem realizar diferentes operaes para poder visualizar e analisar seus dados;
- As ferramentas apresentam as seguintes funcionalidades:Drill - Down Drill - Up Slice e Dice (Filtro)Rotao Consolidao
Pg.: 73
-
Cludio Lcio 37
Funcionalidades e facilidades OLAPFuncionalidades
- Drill - Down e Up - uma tcnica pela qual o usurio pode navegar entre as hierarquias de uma dimenso agrupando (Drill-up) ou desagrupando (Drill-down) os dados. - O drill down e o dril up servem para navegar pelas dimenses do cubo; - Drill up vai do detalhe para o geral e Drill down do geral para o detalhe.
Cludio Lcio 38
Funcionalidades e facilidades OLAPFuncionalidades
- Slice and Dice - O Slice acontece ao selecionar um membro em particular de uma dimenso. Cria-se uma espcie de "fatia" (slice) do cubo original;
- O Dice acontece ao selecionar vrios membros de vrias dimenses forma-se um sub-cubo, cubo menor (dice).
- Tanto o Slice quanto o Dice so formas particulares de Filtro. ;
Pg.: 74
-
Cludio Lcio 39
Funcionalidades e facilidades OLAPFuncionalidades
- Pivot and Unpivot - Rotao: Seleciona a ordem de visualizao das dimenses, gira o cubo de acordo com as suas dimenses;
- Na ferramentas de visualizao transforma: linhas colunas ou colunas linhas;
Cludio Lcio 40
Funcionalidades e facilidades OLAPFuncionalidades
- Roll-up - Consolidao (Roll-Up): Calcula as medidas em funo de agrupamentos, realiza o reclculo da medida de acordo com os nveis das hierarquias;
Pg.: 75
-
Cludio Lcio 41
Funcionalidades e facilidades OLAPFuncionalidades
- Exemplo de funcionalidades tabela dinmica - MS-EXCEL
Cludio Lcio 42
OLAP Acesso a dados
Ferramentas OLAP e suas caractersticas
Pg.: 76
-
Cludio Lcio 43
Ferramentas OLAP e suas caractersticas
Formas de armazenamento
- As ferramentas podem ser classificadas pela forma como armazenam os cubos. Os conceitos de armazenamento existentes so MOLAP, ROLAP e HOLAP:
- MOLAP - OLAP Multidimensional;- ROLAP - OLAP Relacional; - HOLAP - OLAP hbrido;
Cludio Lcio 44
Ferramentas OLAP e suas caractersticas
Formas de armazenamento
MOLAP
- No modo de armazenamento MOLAP (OLAP Multidimensional) uma cpia dos dados de origem do cubo, junto com as suas agregaes armazenam-se em uma estrutura multidimensional;- Oferece excelente rendimento e compresso de dados. - Apresenta melhor tempo de resposta, dependendo apenas da porcentagem das agregaes do cubo; -Apresenta estrutura otimizada para maximizar o rendimento das consultas; - Geralmente este mtodo muito apropriado para cubos com uso frequente devido sua rpida resposta.
Pg.: 77
-
Cludio Lcio 45
Ferramentas OLAP e suas caractersticas
Formas de armazenamento
ROLAP
- No modelo ROLAP toda a informao do cubo, dados, e agregaes so armazenadas em um banco de dados relacional;- utilizado para economizar espao de armazenamento quando se trabalha com grandes conjuntos de dados consultados com pouca frequncia;- considerado quando existe a necessidade de captar mudanas imediatamente;- Tambm considerado quando h grandes conjuntos de dados que no so consultados frequentemente.
Cludio Lcio 46
Ferramentas OLAP e suas caractersticas
Formas de armazenamento
HOLAP
- HOLAP (OLAP hbrido) combina atributos do MOLAP e do ROLAP;- Da mesma forma que o MOLAP, o HOLAP armazena as agregaes em uma estrutura multidimensional e os dados detalhados em um banco de dados relacional, da mesma forma que no armazenamento ROLAP;Usos comuns de HOLAP: - Cubos que requerem resposta rpida; - Quando existem sumarizaes baseadas em uma grande quantidade de dados de origem; - Soluo com o compromisso de reduzir o espao ocupado sem prejudicar totalmente o rendimento das consultas.
Pg.: 78
-
Cludio Lcio 47
Ferramentas OLAP e suas caractersticas
Formas de armazenamento
Comparaes
Cludio Lcio 48
Ferramentas OLAP e suas caractersticas
Formas de armazenamento
Comparaes
Pg.: 79
-
Cludio Lcio 49
Ferramentas OLAP e suas caractersticas
Ferramentas OLAP - Mercado
SAP-BO SAS Web Report Studio e Portal
MS Reporting Services e Analysis Services
IBM - Cognos
Cludio Lcio 50
OLAP Acesso a dadosReflexo
Quais so as funcionalidades que uma ferramenta OLAP proporciona para o usurio ? Porque as ferramentas OLAP apresentam , via de regra, um excelente desempenho para consulta?Quais as formas de armazenamento dos dados nas ferramentas OLAP? E quais so suas diferenas?As agregaes so importantes para as ferramentas OLAP?
Pg.: 80
-
Cludio Lcio 1
Business Intelligence
Business Analytics - Minerao de dados e Otimizao
Cludio Lcio 2
Data Mining
Agenda
Definies
Tarefas de Data Mining
Tcnicas para Data Mining e Anlise Estatstica
Aplicaes Genricas e Ferramentas
Otimizao
Pg.: 81
-
Cludio Lcio 3
Business Analytics - Minerao de dados
Definies
Cludio Lcio 4
Definies
Processo de KDD (Knowledge Discovery in Databases)
Pg.: 82
-
Cludio Lcio 5
Definies
Data Mining
- Explorao de dados de quaisquer naturezas por meio de tcnicas quantitativas em busca de padres e/ou regras significativas.
Cludio Lcio 6
Definies
Data Mining
- Encontrar regras (modelos) para prever o comportamento futuro ;- Baseado no comportamento passado (histrico, fatores/ variveis que influenciam);- As regras so aplicadas sobre novos dados (scoring).
Pg.: 83
-
Cludio Lcio 7
Definies
Etapas do processo de Data Mining
Cludio Lcio 8
Business Analytics - Minerao de dados
Tarefas de Data Mining
Pg.: 84
-
Cludio Lcio 9
Tarefas de Data Mining
Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio 10
Tarefas de Data Mining
Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Pg.: 85
-
Cludio Lcio 11
Tarefas de Data Mining
Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio 12
Tarefas de Data Mining
Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Pg.: 86
-
Cludio Lcio 13
Tarefas de Data Mining
Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio 14
Tarefas de Data Mining
Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Pg.: 87
-
Cludio Lcio 15
Business Analytics - Minerao de dados
Tcnicas para Data Mining e Anlise Estatstica
Cludio Lcio 16
Tcnicas para Data Mining e Anlise Estatstica
Data Mining
-Anlise de Cluster- Anlise de Sries Temporais- rvores de Deciso- Redes Neurais Artificiais- Outras
Pg.: 88
-
Cludio Lcio 17
Tcnicas para Data Mining e Anlise Estatstica
Anlise de Cluster
- A Anlise de Cluster consiste em identificar parties naturais do conjunto de dados a partir de medidas de associao ou distncia entre os elementos da populao.
Tarefas: Segmentao Associao Classificao Sumarizao e visualizao
Cludio Lcio 18
Tcnicas para Data Mining e Anlise Estatstica
Anlise de Cluster
Pg.: 89
-
Cludio Lcio 19
Tcnicas para Data Mining e Anlise Estatstica
Anlise de Cluster: K-Mdias
Cludio Lcio 20
Tcnicas para Data Mining e Anlise Estatstica
Anlise de Cluster: K-Mdias
RapidMiner
Pg.: 90
-
Cludio Lcio 21
0
10
20
30
40
10 20 30 40
nm
ero
de ite
ns
vend
idos
meses
Tcnicas para Data Mining e Anlise Estatstica
Modelos de previso
- Modelos matemticos capazes de prover estimativas pontuais e intervalares para demandas futuras com base no histrico de demandas, levando em conta tendncias e sazonalidades.
Tarefas: Previso
Cludio Lcio 22
Tcnicas para Data Mining e Anlise Estatstica
Modelos de previso - Exemplo
- Histrico de vendas dos ltimos 50 meses do item X.
Pg.: 91
-
Cludio Lcio 23
Tcnicas para Data Mining e Anlise Estatstica
Modelos de previso - Exemplo
- Histrico de vendas dos ltimos 50 meses do item X.
Cludio Lcio 24
Tcnicas para Data Mining e Anlise Estatstica
Modelos de previso - Exemplo
- Serie temporal com previso e intervalo de confiana
Pg.: 92
-
Cludio Lcio 25
Tcnicas para Data Mining e Anlise Estatstica
rvores de deciso
- As rvores de deciso so usadas para prever a associao / classificao de entidades em classes com base em variveis explicativas categricas.
Tarefas: Classificao Associao Segmentao
Cludio Lcio 26
Tcnicas para Data Mining e Anlise Estatstica
rvores de deciso - Exemplo
- Y = 1 Responderam a campanha 0 No Responderam a campanha
RapidMiner
Pg.: 93
-
Cludio Lcio 27
Tcnicas para Data Mining e Anlise EstatsticaTcnicas Consideraes - Existem vrios outras tcnicas como: - SVM - Deteco de anomalias - Regresso Linear e Logstica - Anlise de associao - Text Mining
- Cada tcnica especfica os algoritmos que so utilizados para conduzir operaes de Data Mining e adapta-se melhor a alguns problemas que a outros- impossvel a existncia de um mtodo de Data Mining universalmente melhor.- Um mesmo problema pode ser resolvido com a utilizao de duas tcnicas diferentes, e uma mesma tcnica pode ser aplicada a tarefas ou problemas distintos;
Cludio Lcio 28
Business Analytics - Minerao de dados
Aplicaes genricas e Ferramentas
Pg.: 94
-
Cludio Lcio 29
Aplicaes genricas e FerramentasAlguns exemplos de uso:
- Controle de risco de crdito e inadimplncia;- Previso de demandas / estoques;- Segmentao de mercado;- Deteco de fraudes;- Sistemas de recomendao; - Anlise de sentimentos na Web;- Minerao de textos (anlise de satisfao dos clientes);Alguns outros exemplos da Inteligncia Artificiale Aprendizagem de mquina- Watson - IBM;- Deciso automatizada com redes neuronais artificiais;
Cludio Lcio 30
Aplicaes genricas e FerramentasFerramentas para Minerao de dados e Aprendizado de mquina:
Fonte: http://www.kdnuggets.com/polls/2011/tools-analytics-data-mining.html
Pg.: 95
-
Cludio Lcio 31
Business Analytics - Otimizao
Viso Geral
Cludio Lcio 32
Melhoria de deciso com otimizao
Agenda
O que a Pesquisa Operacional?
Histria da PO
Exemplos da utilizao
Classes de problemas
Mas o que um modelo de otimizao??
Pg.: 96
-
Cludio Lcio 33
O que a Pesquisa Operacional?
Segundo o INFORMS
A disciplina de aplicao de mtodos analticos avanados que ajudam na tomada de melhores decises. A Cincia do Melhor
Em outras palavras
Atravs da aplicao de mtodos cientficos, tais como anlise de dados, criao de modelos matemticos e propostas inovadoras, profissionais de Pesquisa Operacional desenvolvem informaes com base cientfica que fornecem insight e ajudam na tomada de decises.
Melhoria de deciso com otimizao
Cludio Lcio 34
Histria da PO
Nasceu na Segunda Guerra Mundial
Lderes militares britnicos convidaram matemticos, estatsticos, fsicos e engenheiros a resolverem problemas militares;
Estes, atravs da aplicao da matemtica e do mtodo cientfico, forneceram respostas inovadoras que auxiliaram os militares britnicos em vrios aspectos;
Melhoria de deciso com otimizao
Pg.: 97
-
Cludio Lcio 35
Histria da PO
Principais contribuies durante a guerra
Na Inglaterra:
Tamanho de comboios martimos
Reforo na proteo das aeronaves
Estratgias para ataques noturnos
Nos EUA:
Logstica do exrcito
Escalonagem de treinamentos
Melhoria de deciso com otimizao
Cludio Lcio 36
Histria da PO
Aps Segunda Guerra Mundial
Boom econmico
Similaridade entre problemas militares e de negcio
Aplicao bem-sucedida na indstria e no governo
Expanses tcnicas e metodolgicas
Surgimento do computador
Melhoria de deciso com otimizao
Pg.: 98
-
Cludio Lcio 37
Exemplos da utilizao
Sears, Roebuck & Co. (EUA)
Servio de entrega
1.000 veculos de entrega
4 milhes de entregas por ano
21.000 produtos (mveis, eletrodomsticos)
Servio de manuteno
12.000 veculos de manuteno
15 milhes de chamadas por ano
Melhoria de deciso com otimizao
Cludio Lcio 38
Exemplos da utilizao
Requisitos da soluo:
Respeitar horrio dos clientes
Minimizar custos
Maximizar diversas mtricas, incluindo satisfao do cliente
Numa receita anual de $3 bilhes, economia inicial de $9 milhes, economias anuais de $42 milhes
Melhoria de deciso com otimizao
Pg.: 99
-
Cludio Lcio 39
Classes de problemas
Problemas de roteamento, ou seja, qual a melhor rota para:
Entrega de mercadorias?
Entrega de carros?
Entrega de containers?
Problemas de rede, ou seja, qual a melhor rede (desenho) para :
Rede de dados?
Transporte pblico?
Cadeia de suprimentos?
Melhoria de deciso com otimizao
Cludio Lcio 40
Classes de problemas
Problema de localizao, ou seja, onde localizar:
Um ponto de venda ?
Agncias de carros ?
Centros de distribuio ?
Problema de agendamento e sequncia, ou seja, qual o melhor agendamento em :
Para atendentes em um call center ?
Operrios em uma indstria?
Tarefas uma industria ?
Melhoria de deciso com otimizao
Pg.: 100
-
Cludio Lcio 41
Classes de problemas
Outros tipos de mtodos utilizados:
Teoria da deciso
Modelos de competio;
Modelos de substituio (reposio);
Modelos de estoque (teoria dos estoques);
Modelos de filas;
Tcnicas de simulao;
Mtodos heursticos.
Melhoria de deciso com otimizao
Cludio Lcio 42
Classes de problemas
A busca de uma soluo envolve
Formular o problema
Observar o sistema
Formular o modelo matemtico do problema
Verificar o modelo e us-lo para predio
Selecionar uma alternativa conveniente
Apresentar resultados e concluses organizao
Implementar e avaliar recomendaes
Melhoria de deciso com otimizao
Pg.: 101
-
Cludio Lcio 43
Mas o que um modelo de otimizao??
Variveis de deciso
Objetivo
Restries
Problema da Fbrica de Automveis
Seucarro Inc. deve produzir 1000 automveis Beta. A empresa tem quatro fbricas. Devido a diferenas na mo de obra e avanos tecnolgicos, as plantas diferem no custo de produo unitrio de cada carro.
Elas tambm utilizam diferentes quantidades de matria-prima e mo de obra O custo de operao, o tempo necessrio de mo de obra e o custo de matria-prima para produzir uma unidade de cada carro em cada uma das fbricas esto evidenciados na tabela a seguir.
Melhoria de deciso com otimizao
Cludio Lcio 44
Mas o que um modelo de otimizao??
Problema da Fbrica de Automveis
No entanto existem a seguintes restries:
Existem 3200 horas de mo de obra no total;
Existem 4000 unidades de material que podem ser alocados s quatro fbricas;
Um acordo trabalhista assinado requer que pelo menos 250 carros sejam produzidas na fbrica 3
Deciso: Como produzir os 1000 carros com o menor custo??
Melhoria de deciso com otimizao
Pg.: 102
-
Cludio Lcio 45
Mas o que um modelo de otimizao??
Problema da Fbrica de Automveis
Alguns detalhes da soluo:
Cada xi representa a quantidade de carros em cada fbrica;
Existem 3200 horas de mo de obra no total;
Existem 4000 unidades de material que podem ser alocados s quatro fbricas;
Um acordo trabalhista assinado requer que pelo menos 250 carros sejam produzidas na fbrica 3;
Este modelo pode ser resolvido no Excel - SOLVER
Melhoria de deciso com otimizao
Solver Excel
Pg.: 103
-
Cludio Lcio 1
Business Intelligence
Novas Tendncias
Cludio Lcio 2
Novas Tendncias
Agenda
Big Data
Cincia de dados
No SQL/New SQL
BIRT (Barbieri)
MDM (Barbieri)
Pg.: 104
-
Cludio Lcio 3
Novas TendnciasBig Data
Cludio Lcio 4
Big Data
BigData:
Pg.: 105
-
Cludio Lcio 5
Big Data
BigData:
Cludio Lcio 6
Big Data
BigData:
Pesquisa da IDC/EMC apontam um volume de
dados na web em 2020 de 35 Zettabytes;
3 ou 4 Vs: Variedade, Velocidade, Volume
+ Valor para os negcios
Pg.: 106
-
Cludio Lcio 7
Big Data
Big Data, valor agregado para os negcios: Uma rede de supermercados manter todo o histrico de compras de clientes
por produtos, assim como sua rota (RFID) de compra nas lojas;
Uma rede de locadoras de carro ir reter dados do GPS existente em seus carros. A ideia entender como os clientes utilizam os carros e oferecer pacotes de descontos de acordo com o uso;
O Tribunal de Justia do estado deseja estruturar todos os seus processos, permitindo buscas por advogado, juzes, relatores, redatores, palavras chaves, tipo de causa e outros;
Um atacadista deseja cruzar o histrico de 5 anos de compras de cada um de seus clientes por produto(novas oportunidades de vendas): 5.000 produtos * 100.000 clientes * 1825 dias = 912.500.000.000
Cludio Lcio 8
Big Data
McKinsey, Maio de 2011. Artigo: Big Data: The next frontier for innovation, competition, and productivity. Fonte: http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation
Big Data, valor agregado para os negcios:
Pg.: 107
-
Cludio Lcio 9
Big Data
Big Data Desafios - Negcios:
Mudana de cultura
Pesquisa da Capgemini indica que 60% do CEOs usam anlise de dados para auxiliar a tomada de deciso
Governana por 'instinto' Governana baseada em dados;
Valor para os dados Reter e armazenar dados massivos no traz retorno para os negcios;
No basta ferramentas bonitas...
necessrio achar o valor dos dados produtos de dados;
Cludio Lcio 10
Big Data
Big Data Desafios - Tcnico:
Processamento de volume de dados em milissegundos;
Armazenar e acessar grandes quantidades de dados. Adicionalmente: tolerncia a falhas e poltica de backups aceitveis;
Manipulao eficiente de grandes volumes de dados envolve processamento paralelo e recuperao de falhas em curto espao de tempo;
Gerenciamento e manuteno de metadados para dados semi-estruturados e no estruturados gerados de forma contnua por diversos tipos de fontes;
Pg.: 108
-
Cludio Lcio 11
Big Data
Big Data Definio
So dados em uma escala, distribuio, diversidade e velocidade que necessitam novas arquiteturas tecnolgicas e novas formas de anlises para ento propiciar insights que so fontes de valor para o negcio;
McKinsey, Maio de 2011. Artigo: Big Data: The next frontier for innovation, competition, and productivity. Fonte: http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation
Cludio Lcio 12
Big Data - Hadoop
Histrico: Processamento intensivo era feito em hardware especializado
(processadores, cache, discos e memria);
A Web e o Big Data exigem processamento intensivo, mas em outra estrutura de hardware:
Centenas ou milhares de computadores em rede (ns);
Operao destes computadores de forma mais ou menos independente;
Cada um dos ns um 'commodity hardware' custo reduzido;
A estrutura em geral tolerante a falhas;
Utilizam sistemas de arquivos especializados;
Pg.: 109
-
Cludio Lcio 13
Big Data - Hadoop
Organizao fsica da estrutura: A organizao fsica destas mquinas pode seguir este
exemplo:
Ns so armazenados em racks (8-64 em um rack);
Os ns em um rack so conectados via rede (gigabit Ethernet);
Conjuntos de racks so disponveis na estrutura formando uma espcie de cluster;
A conexo entre os racks tambm pode ser otimizada;
Quanto maior o nmero de racks ou ns, maior a probabilidade falha (de um dos ns);
Cludio Lcio 14
Big Data - Hadoop
Organizao fsica da estrutura: A organizao fsica destas mquinas pode seguir este
exemplo:
Pg.: 110
-
Cludio Lcio 15
Big Data - Hadoop
Computao nesta estrutura: Clculos computacionais nesta estrutura podem levar minutos
ou mesmo horas;
Os clculos no podem ser reiniciados toda vez que um componente (rack ou n de execuo) falha;
Proposta de soluo:
Arquivos armazenados de forma redundante (Distributed File System - DFS);
Clculos devem ser divididos entre os ns, de forma que se algum n falhar, somente o trabalho atribudo ao n deve ser
Cludio Lcio 16
Big Data - Hadoop
Sistemas de arquivos distribudos - DFS: Caractersticas DFS:
As informaes dos blocos e replicas controlado utilizando metadados e com um figura central no cluster: 'name node' ou 'master node';
Name node:
Gerencia o sistema de arquivos(rplicas, blocos, ns e racks): abrir, fechar, renomear arquivos;
Gerencia o acesso dos clientes ao arquivos;
Os outros ns do cluster so chamados de 'data node' ou 'slave node':
Executam as operaes enviados pelo 'Name node': criao, excluso e replicao de blocos;
Pg.: 111
-
Cludio Lcio 17
Big Data - Hadoop
Sistemas de arquivos distribudos - DFS: Caractersticas DFS:
Cludio Lcio 18
Big Data - Hadoop
Sistemas de arquivos distribudos - DFS: Caractersticas DFS:
Possuem regras de sistemas de arquivos: rack, 'data node',namespaces, diretrios e arquivos;
Alm disto o DFS gerencia os blocos e sua distribuio/replicao nos 'data nodes';
Padro de rplicas 1/3(fora do rack) e 2/3(no rack);
O 'name node' periodicamente recebe um relatrio de blocos do 'data node';
Pg.: 112
-
Cludio Lcio 19
Big Data - Hadoop
Sistemas de arquivos distribudos - DFS: Caractersticas DFS:
Cludio Lcio 20
Big Data - Hadoop
O Algoritmo Map Reduce
Origens: Patente original do Google, mas utilizado em vrias outros
sistemas de computao paralela;
A ideia derivada da programao funcional:
Map e reduce so dois tipos de funes comuns;
Map:
Aplica um funo ou operao para cada elemento em uma lista; Ex.: multiplicao por 2;
[1,2,3,4] Map function [2,4,6,8,]
No altera o dado original. Evita o principio 'Shared Data';
Pode ser executado de forma paralela;
Pg.: 113
-
Cludio Lcio 21
Big Data - Hadoop
O Algoritmo Map Reduce Origens: A ideia derivada da programao funcional:
Reduce:
uma funo de agrupamento ou compresso;
Aplica uma funo em conjunto de dados reduzindo para um simples valor;
Pode ser executado de forma paralela;
Ex.: [2,4,6,8,] Reduce function [20]
Cludio Lcio 22
Big Data - Hadoop
O Algoritmo Map Reduce Origens:
De forma geral:
O algoritmo pode ser usado sempre que houver uma lista;
Para cada elemento da lista uma funo que a transforme;
Outra funo que possa ser aplicada ao conjunto de dados transformados de forma a agreg-los;
Pg.: 114
-
Cludio Lcio 23
Big Data - Hadoop
O Algoritmo Map Reduce Detalhes de funcionamento:
A implementao do algoritmo utilizada para realizar computao no DFS para arquivos 'grandes' e com execuo tolerante a falha;
necessrio escrever as duas funes: Map e reduce;
O sistema lida com os demais detalhes:
Execuo paralela;
Coordenao de tarefas (Map e reduce);
Lidar com a tolerncia a falhas;
Cludio Lcio 24
Big Data - Hadoop
O Algoritmo Map Reduce Detalhes de funcionamento:
Pg.: 115
-
Cludio Lcio 25
Novas TendnciasNoSQL/ NewSQL
Cludio Lcio 26
NoSQL/NewSQL
Bancos de dados NoSQL mais adequada para BigData:
Alto desempenho;
Escalabilidade para web;
Anlise de grande volume de dados;
Aderente a computao nas nuvens:
Escalabilidade ao custo acessvel a medida que o volume de dados aumenta;
Solues NoSQL so oferecidas como servios web ;
Pg.: 116
-
Cludio Lcio 27
NoSQL/NewSQL
Bancos de dados NoSQL NoSQL - Definio:
Not Only SQL (not only RDBMS);
Um conjunto de produtos e tecnologias para lidar com o paradigma de dados da Web;
Cludio Lcio 28
NoSQL/NewSQL
Bancos de dados NoSQL NoSQL Mudana de paradigma:
SQL NoSQLDados organizados em tabelas Dados no so organizados apenas em tabelas:
rvores, grafos, pares chave-valor. Melhor estrutura para resolver o problema.
Foco no servidor: I/O, memria, cache e CPU. Abordagem principal: Escalabilidade vertical.
Problema distribudo. Nmero de CPUs de acordo com problema. Abordagem principal: Escalabilidade horizontal.
Utiliza cdigo procedural e gerenciamento de estado para gerenciamento de transaes.
Utiliza programao funcional e algoritmos Map Reduce para particionar o problema em tarefas independentes.
Analistas de dados fazem modelos lgicos e fsicos para construir esquemas de dados precisos de acordo com os padres da corporao.
Analistas esto preparados para carregar dados a medida que eles surgem e adaptam esquemas de acordo com a necessidade.
Todas as transaes seguem o preceito ACID. Todos os relatrios so consistentes
Utiliza o preceito ACID quando necessrio mas o foco no bloquear escritas. O sistema eventualmente consistente (dados em processamento).
Pg.: 117
-
Cludio Lcio 29
Novas TendnciasCincia de dados
Cludio Lcio 30
Cincia de dados
Definio
Tambm conhecida com Business Analytics ou Competitive Intelligence;
uma rea que busca extrair valor agregado (significado) a partir de dados e apresent-los de maneira clara e simples para tomada de decises;
Cincia de dados Estatstica ???
Envolve outras reas de conhecimento
Pg.: 118
-
Cludio Lcio 31
Cincia de dados
Fonte: http://en.wikipedia.org/wiki/Data_scienceAcesso em: 27/02/2013
Cludio Lcio 32
Cincia de dados
Pg.: 119
-
Cludio Lcio 33
Cincia de dados
Definio
muito difcil encontrar uma pessoa com todas as habilidade necessrias;
A cincia de dados deve ento ser praticada como um time multidisciplinar;
Alguns acreditam que o cientista de dados uma evoluo para os analistas de informao;
Cludio Lcio 34
Cincia de dados
Fonte: http://emcbigdataschool.nce.ufrj.br/index.php/speakers-and-schedule/slides.htmlAcesso em: 27/02/2013
Pg.: 120
-
Cludio Lcio 35
Cincia de dados
A certificao da EMC2
E20-007 Data Science and Big Data Analytics Tpicos:
Cludio Lcio 36
Cincia de dados
A certificao da EMC2
Tpicos
Pg.: 121
-
Cludio Lcio 37
Cincia de dados
Resumo:
uma evoluo do analista de informaes: rumo a uma cultura de tomada de deciso baseada em fatos e dados;
Deve ser feita por um time; O termo ainda esta se materializando....
Cludio Lcio 38
Novas TendnciasBIRT (Barbieri)
Pg.: 122
-
Cludio Lcio 39
BIRT (Barbieri)
BIRT
Nova tendncia de anlise de streams de dados
Produo de big data e necessidade de anlise em tempo real
Pedgios, Controle de trnsito, controles de movimentao de mercadorias por RFID
Aplicado tambm na indstria de telecom, mercado financeiro(bolsas), Sade,etc
Pg.: 123
-
Cludio Lcio 42
Novas TendnciasMDM (Barbieri)
Pg.: 124
-
Cludio Lcio 43
MDM (Barbieri)
MDM Conceito relacionado aos Dados Mestres,
encontrados em todas as empresas Clientes , Produtos, Locais, Contas,etc Viso de AD sobre esses dados(rebate dos anos
80) Viso de ABD sobre os dados(rebate dos anos 70) Integrao e Qualidade dos dados fundamentais da
empresa Parte da GD
GD
Planejar
Executar
Verificar
Agircorretivament
e
Cludio Lcio 44
MDM (Barbieri)
Aplicativo 1
D1
Aplicativo 2
D1
Cenrio 1: Redundncia:a)Vrios aplicativos lem e atualizam o Dado Mestre 1 redundado nos seus domniosb)Ambiente sem controle e gerncia de DM e sem poltica de GDc)Sabor de redundncia de antigamente
MDM-Conceito
Pg.: 125
-
Cludio Lcio 45
MDM (Barbieri)
Aplicativo 1
DM1
Aplicativo 2 Aplicativo 3
Arquitetura: Consolidaoa)Faz importao batch para um ambiente integradorb)Realiza a consolidao e integraoc)Exporta batch para ambientes desejados(targets)d)No envolve replicao(subscrio)e)Normalmente usado para BI(sabor ETC,ETL)
DM1Consolidao eIntegrao
DM1 DM1Da do n o mestre
Viso consolidada
Importao
Exporta para sistemas targets
MDM-ArquiteturasConsolidao
GD
Planejar
Executar
Verificar
Agircorretivament
e
Ambiente Integrador
Cludio Lcio 46
MDM (Barbieri)
Aplicativo 1
Diretrio
Aplicativo 2
Aplicativo Mantenedor dodiretrio
Arquitetura: Diretrio/Registry:a)Um diretrio contm informaes das Entidades e atributos do DM nas diversas fontesb)No diretrio existem apontadores globais para cada DM, com servios de pesquisa e busca c)Permite a criao de uma viso virtual dinamicamente montada e normalmente read-only, realizada via consulta federada(sabor EII-Enterprise Information Integration)
Viso virtual montada dinamicamente(RO)
MDM-ArquiteturasDiretrio/Registry
Pg.: 126
-
Cludio Lcio 47
MDM (Barbieri)
Aplicativo 1
DM1
Aplicativo 2 Aplicativo 3
Arquitetura :Coexistnciaa) Cada Sistema mantm os seus dadosb) Permite referncia cruzadas entre eles e possibilitaa pesquisa e busca de outros dados mestres em outras fontes, atravs de SOA-serviosc)No caso o aplicativo 1, l e atualiza os seus DM e podebuscar outro DM em outro aplicativo(x)d)Vulnervel se houver redundncia no controlada entre os DMe)Funciona se tiver sabor de BD particionados
DMxAplicativo x
DM2 DM3
MDM-ArquiteturasCoexistncia
Cludio Lcio 48
MDM (Barbieri)
Aplicativo 1 Aplicativo 2 Aplicativo 3
Arquitetura: Centralizao/Transao:a)Vrios aplicativos lem o Dado Mestre 1 via serviosb)Um aplicativo Mantenedor l e atualizac)Garante uma poltica centralizada de MD, com autorizao concedida via GDd)Permite o conceito de transao, com integridade transacional entre diversos processos e)Sabor: BD centralizadoOBS: Impacto na alterao de todas asinterfaces dos aplicativos, para leremo DM ao invs de lerem seus arquivos
DM1Aplicativo xmantenedor
MDM-ArquiteturasCentralizao/Transao
Pg.: 127
-
Cludio Lcio 49
MDM (Barbieri)
DATAMART
FONTES-MDM-DADOS OPERACIONAIS
EXTRAO
CARGA
Transformao:Profiling: Limpeza, Combinao, Classificao, AcertoBanco de Regras, Padronizao, Regras probabilsticas, analisadores fonticos
Metadados
MDM
Catlogo
Servidor MDM
Clericals,Zona cinzenta
ERP
Distribuio
MDM
Governana
Golden Records
Glossrio
Termos,classificao de domnio,relacionamentos entreTermos,owners-gestores de info(DG),Busca de metadados por palavras,pedaos,etcRastreabilidade(Data Lineage)
RelatriosETL do BI(Dim)
Cludio Lcio 50
MDM (Barbieri)
REA DE STAGING
DATAMART
DADOS OPERACIONAIS
QUERY/REPORTOLAP;
MINING
FERRAMENTASTRABALHAM NOS DMARTS
Assunto1 Assunto2 Assunto3
Data Mart Data Mart
Mining
DATAMARTData Mart
EXTRAO
CARGA
top related