banco de dados para concursos públicos · 2019-11-18 · banco de dados para concursos públicos...
TRANSCRIPT
Banco de Dados para concursos públicos Minicurso Aula 3
Prof. Diogo Santana
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
2 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Olá, seja bem-vindo(a) à aula 3 do Minicurso de Banco de Dados para concursos públicos.
SUMÁRIO
INFORMAÇÕES INICIAIS .................................................................................. 2
CONTEÚDO DA AULA 3 .................................................................................... 3
1. Data Warehouse e OLAP ........................................................................... 4
2. Conceitos de Mineração de Dados ............................................................ 10
3. Banco de Dados NoSQL e Tecnologia Big Data ........................................... 14
ESQUEMAS E RESUMOS DA AULA .................................................................... 22
QUESTÕES COMENTADAS .............................................................................. 28
QUESTÕES SEM COMENTÁRIOS ...................................................................... 36
GARARITO ................................................................................................... 41
INFORMAÇÕES INICIAIS
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
3 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
@prof.diogosantana
Prof. Diogo Santana
Diogo Santana
Caso você deseje acompanhar as atualidades relacionadas ao estudo desta
disciplina, siga minhas mídias sociais:
CONTEÚDO DA AULA 3
Nesta aula, será abordado o tópico “Conceitos e Fundamentos de Business
Intelligence”, exigido pelos editais que cobram a disciplina Banco de Dados.
Padronização de siglas
- Processamento analítico on-line – OLAP
- Processamento de Transação em Tempo Real – OLTP
- Data Warehouse – DW
- Data Marts - DM
- Não Apenas SQL (Not Only SQL) - NoSQL
- Business Intelligence - BI
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
4 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
1. Data Warehouse e OLAP
O termo Business Intelligence (ou inteligência do negócio) surgiu na
década de 1980 intitulado pelo Gartner Group para nomear as atividades
gerenciais que engloba os processos de organização, coleta, transformação,
analise e monitoramento de informações para subsidiar a tomada de decisão.
Também pode ser conhecido como sistemas de apoio a decisão ou
sistema de informações gerenciais, o importante é ter em mente que
ajudam os principais tomadores de decisões de uma organização com dados de
nível mais alto (analítico) em decisões complexa e importantes.
Definimos na nossa primeira aula do minicurso que banco de dados é uma
coleção de dados relacionados e um sistema de banco de dados é o conjunto do
banco de dados com o seu software de gerenciamento (SGBD).
Assim, um Data Warehouse (DW) também é uma coleção de
informações, bem como um sistema de suporte a decisão, contudo existe uma
distinção clara entre um DW e um banco de dados tradicional.
Os bancos de dados tradicionais que podem ser
relacionais, orientados a objetos, em rede ou
hierárquicos são pensados para processarem transações
como rotina, por isso também são conhecidos como
sistema para Processamento de Transações em
Tempo Real – OLTP (Online Transaction Processing).
Já os DW são otimizados para recuperação de dados e
não para processamento de transação de rotina, eles
são chamados de sistema de Processamento Analítico Online – OLAP (Online
Analytical Processing).
Portanto, os bancos de dados OLAP permitem realizar consultas muito
rápidas e diretas dos dados analíticos armazenados em Data Warehouse e Data
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
5 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Marts (DM), que por sua vez é um banco de dados analítico semelhante ao DW,
mas com um escopo definido por assunto de modo mais restrito.
Portanto, Bill Inmon que pode ser considerado o pai dos DW, define DW
como uma coleção de dados orientada a assunto, integrada, não volátil, variável
no tempo para o apoio às decisões da gerência.
Os DW pode ser desenvolvido sob duas óticas, a primeira do Bill Inmon
numa abordagem TOP-DOWN afirmando que uma empresa possui apenas um
DW empresarial armazenado na 3° forma normal e que os DM buscam
informações no DW.
Já na segunda abordagem BUTTOM-UP é feita por Ralph Kimball
afirmando que um DW é a união de todos os DM da empresa, e que a informação
está em modelo multidimensional desnormalizada.
Processamento de transações
Banco de Dados tradicionais
OLTPOtimizados para recuperação de dados
Data Warehouse
OLAP
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
6 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Os modelos de dados de banco de dados tradicionais (OLTP) são baseados
no modelo relacional que nada mais é do que representar os dados em tabelas
de duas dimensões (Linha e Coluna).
Para os DW que são banco de dados (OLAP) voltado para recuperação de
dados, a sua estrutura de dados armazena dos dados em forma agregada assim
facilitando a sua recuperação e o modelo de dados adotado é o modelo
multidimensional.
Os modelos multidimensionais tiram proveito dos relacionamentos
inerente nos dados para preencher os dados em matrizes multidimensionais
chamados de cubos de dados, isso se possuírem três dimensões, ou hipercubos
de dados se possuírem mais de três dimensões.
Esses relacionamentos inerentes nos dados significa a correspondência
de um fato (indicador) inerente aos negócios com as suas dimensões
(categoria) relevantes para a sua análise.
Assim, eventos relevantes para a análise do desempenho do negócio
(Exemplo: Quantidade de Vendas, ou de acessos a um site, ou atendimento de
clientes) se relacionam com as categorias que desejamos analisar (Exemplo:
trimestre ou semestre; ou um determinado Estado ou Município; ou um
determinado tipo de cliente).
InmonApenas um DW corporativo
servindo de fonte de informações
Normalizado
Kimball
Um DW é a união de todos os DM da corporação.
Informação armazenada em modelo multidimensional
(desnormalizada).
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
7 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
As especificações dos níveis ou categorias dentro de uma dimensão é
conhecida como hierarquia ou granularidade, por exemplo, na dimensão
tempo podemos ter as seguintes categorias: Ano, Semestre, Trimestre, Mês etc.
Os fatos são as informações importantes para a gestão, podem ser
números ou valores resultantes de cálculos, agregações, ou qualquer outra
operação para indicar o desempenho de uma empresa, um departamento ou
qualquer outra unidade de negócio.
Já as dimensões são as formas como os tomadores de decisão desejam
visualizar o negócio, são informações que dão significado aos valores, ou
medidas, ou métricas determinadas num fato.
Portanto, no modelo multidimensional envolve dois tipos de tabelas, as
tabelas fatos e as tabelas dimensões.
Nas tabelas fatos contém tuplas para cada fato registrado, esse fato
contém alguma variável medida, observada ou aglomerada e são identificadas
com ponteiros para tabelas dimensão.
Já nas tabelas dimensões contém tuplas de atributos da dimensão
(granularidade), assim as tabelas fatos contém os dados e as dimensões
identificam cada tupla nesses dados.
Tabela fatos
Medidas ou indicadores
O que deseja visualizar
Tabela dimensões
Categorias
Formas de visualizar
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
8 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Existem dois modos de como as tabelas fato e dimensão se relacionam, o
primeiro é chamado de esquema estrela (Star Schema) onde todas as medidas
da tabela fato estão relacionadas com todas as dimensões, significando que elas
têm o mesmo nível de granularidade.
Assim, no esquema estrela consiste em uma tabela fato com uma única
tabela para cada dimensão.
Outro modo de relacionar as tabelas fatos e dimensões é através do
esquema floco de neve (Snowflake Schema) que é uma variação do esquema
estrela, são aplicadas regras de normalização nas dimensões de um esquema
estrela que podem gerar tabelas de domínios ou tipos, assim sendo organizadas
em hierarquias.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
9 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
QUESTÃO DE PROVA:
SABESP – Analista de Gestão - Um Analista está trabalhando em um Data
Warehouse − DW que utiliza no centro do modelo uma única tabela que armazena
as métricas e as chaves para as tabelas ao seu redor (que descrevem os dados que
estão na tabela central) às quais está ligada. O esquema de modelagem utilizado
pelo DW, a denominação da tabela central e a denominação das tabelas periféricas
são, respectivamente,
A) floco de neve, base, granulares.
B) estrela, fato, dimensões.
C) constelação, fato, granulares.
D) atomic, base, branches.
E) anel, base, dimensões.
Resolução: Analisando o enunciado da questão percebemos que trata do esquema
estrela e das tabelas fato e dimensão.
Gabarito: B
• todas as medidas da fato estão relacionadas com todas dimensões
• mesmo nível de granularidade
Esquema estrela
• Regras de normalização nas dimensões
• Tabelas de domínio e de tipos
Esquema flocos de neve
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
10 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
2. Conceitos de Mineração de Dados
Um campo de estudo que está ganhando destaque nos últimos anos é a
ciência de dados, apesar de ser uma área de pesquisa que já existe a algumas
décadas, sua popularização veio somente depois do Big Data que estudaremos
ainda nesta aula e do desenvolvimento da Inteligência Artificial.
Agora vamos estudar os conceitos de Mineração de Dados (Data Mining),
como o próprio termo indica, trata-se de técnicas referente a mineração ou
descoberta de novas informações em termos de padrões ou regras com base em
grande quantidade de dados.
A diferença entre BI e Mineração de Dados consiste que o BI basicamente
utiliza dados anteriores para encontrar retrospectiva e descrever tendências do
negócio. Já a Mineração de Dados é uma forma exploratória com o objetivo de
analisar dados passados e atuais em busca de previsão de dados futuros.
Business Intelligence
Dados passados
Encontrar restropectivas e
descrever tendências
Mineração de Dados
Dados passados e atuais
Previsão de dados futuros
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
11 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
A descoberta de conhecimento nos bancos de dados – KDD (Knowledge
Discovery in Database) normalmente abrange mais do que a mineração de
dados, o processo de descoberta de conhecimento compreende seis fases:
➢ Seleção de dados: seleciona dados sobre itens específicos ou categorias
de itens.
➢ Limpeza de dados: pode corrigir dados inválidos ou eliminar registros
incorretos.
➢ Enriquecimento: normalmente melhora os dados com fontes de
informação adicionais.
➢ Transformação ou codificação de dados: Podem ser feitas para reduzir
a quantidade de dados através de agrupamentos, por exemplo.
➢ Mineração de dados: São usadas para extrair diferentes regras e
padrões.
➢ Relatório e exibição da informação descoberta: Podem ser utilizados
diversos formatos como listagens, saídas gráficas, tabelas, tabelas resumo
ou outras visualizações.
Processo de descoberta do conhecimento
Seleção de dados
Limpeza de dados
Enriquecimento
Transformação ou codificação
de dados
Mineração de dados
Relatório e exibição da informação descoberta
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
12 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
A mineração de dados pode incluir análise estatística e otimização restrita,
bem como aprendizado de máquina (Machine Learning), são diversos os
objetivos da mineração de dados, podemos destacar os seguintes:
Previsão
➢ Pode demonstrar como certos atributos dos dados podem se comportar no futuro.
Identificação
➢ Os padrões de dados podem ser usados para identificar a existência de um item, um evento ou uma atividade.
Classificação
➢ A mineração de dados pode particionar os dados de modo que diferentes classes ou categorias possam ser identificadas com base em combinações de parâmetros.
Otimização
➢ Pode otimizar o uso de recursos limitados como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como vendas ou lucros sob determinado conjunto de restrições.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
13 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
QUESTÃO DE PROVA:
PF – Perito Criminal - Acerca de banco de dados, julgue o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da
mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos
de aprendizagem de máquina.
Resolução: Realmente a previsão é um dos objetivos da mineração de dados que
pode utilizar técnicas de estatística, inteligência artificial e algoritmos de
aprendizagem de máquina.
Gabarito: CERTO
O termo conhecimento é interpretado de forma livre como algo que
envolve algum grau de inteligência, o processo que leva os dados brutos da
informação ao conhecimento pode ser realizado utilizando diversas técnicas, as
que mais se destacam são:
Regras de associação
•Estas regras correlacionam a presença de um conjunto de itens com outra faixa de valores para outro conjunto de variáveis.
Hierarquias de classificação
•O objetivo é trabalhar partindo de um conjunto existente de eventos ou transações para criar uma hierarquia de classes.
Padrões sequenciais
•Uma sequência de ações ou eventos é buscada
Padrões dentro de série temporal
•As semelhanças podem ser detectadas dentro de posições de uma série temporal de dados que é uma sequência de dados tomados em intervalos regulares
Agrupamento
•Determinada população de eventos ou itens pode ser particionada (segmentada) em conjuntos de elementos semelhantes.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
14 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
3. Banco de Dados NoSQL e Tecnologia Big Data
Agora vamos estudar os sistemas desenvolvidos com o intuito de gerenciar
massivas quantidade de dados, o termo NoSQL é interpretado como “não apenas
SQL” (Not Only SQL) que o intuito de transmitir a ideia de que muitas aplicações
precisam de sistemas diferentes dos sistemas SQL relacionais tradicionais.
São muitas as características que diferem os sistemas NoSQL dos sistemas
SQL tradicionais, dividimos as características em duas categorias, uma
relacionada aos sistemas distribuídos e outra relacionada a modelos de
dados e linguagem de consulta.
Data Warehouse e Mineração de
Dados
Sistemas Distribuídos NoSQL
•Escalabilidade horizontal
•Disponibilidade, replicação e consistência eventual
•Modelo de replicação
•Partilhamento (Sharding) de arquivos
•Acesso a dados de alto desempenho
Modelos de dados e linguagem de consulta NoSQL
•Não exigência de um esquema
•Linguagens de consulta menos poderosas
•Versionamento
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
15 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Características do NoSQL relacionadas com banco de dados distribuídos
➢ Escalabilidade horizontal: o sistema distribuído é expandido
adicionando mais nós para armazenamento e processamento de dados à
medida que o volume de dados aumenta.
➢ Disponibilidade, replicação e consistência eventual: Muitas
aplicações que utilizam o NoSQL exigem disponibilidade contínua, para
conseguir isso os dados são replicados em dois ou mais nós de maneira
transparente, de modo que, se um nó falhar, os dados ainda estarão
disponíveis nos demais nós, a replicação também pode melhorar o
desempenho de leitura dos dados, no entanto a gravação torna-se mais
complicado sendo necessário usar formas de consistência de dados mais
relaxadas chamadas de consistência eventual.
➢ Modelo de replicação: dois modelos principais de replicação são usados
em sistemas NoSQL: replicação mestre-escravo e mestre-mestre. O
modelo mestre-escravo exige que uma cópia seja a principal e todas as
operações de gravação devem ser aplicadas a cópia principal e, em
seguida, propagadas para as cópias escravas, geralmente usando a
consistência eventual. Já o modelo mestre-mestre permite leituras e
escritas em qualquer uma das réplicas, mas pode não garantir que as
leituras nos nós que armazenam cópias diferentes vejam os mesmos
valores, assim usuários diferentes podem gravar o mesmo item de dados
simultaneamente em diferentes nós do sistema, de modo que os valores
do item ficarão temporariamente inconsistentes.
➢ Partilhamento (Sharding) de arquivos: em muitas aplicações NoSQL,
os arquivos que são coleções de objetos de dados podem ter muitos
milhões de registros (documentos ou objetos) e esses registros podem ser
acessados simultaneamente por milhares de usuários, portanto, não é
prático armazenar o arquivo inteiro em único nó, o Sharding também
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
16 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
conhecido como particionamento horizontal serve para distribuir a
carga do acesso aos registros do arquivo para vários nós. A combinação
de Sharding dos registros do arquivo e replicação dos fragmentos funciona
em conjunto para melhorar o balanceamento de carga, bem como a
disponibilidade de dados.
➢ Acesso a dados de alto desempenho: em muitas aplicações NoSQL é
necessário encontrar registros ou objetos individuais dentre os milhões de
registros de dados ou objetos em um arquivo, para conseguir isso, a
maioria dos sistemas usa umas das duas técnicas: hashing ou
particionamento por intervalo sobre chaves de objeto.
Características do NoSQL relacionadas a modelo de dados e linguagens
de consulta.
➢ Não exigência de um esquema: a flexibilidade de não exigir um
esquema é alcançada em muitos sistemas NoSQL permitindo dados
semiestruturados e autodescritivos, usuários podem até especificar um
esquema parcial em alguns sistemas para melhorar a eficiência do
armazenamento, mas não é preciso que haja um esquema na maioria dos
sistemas NoSQL.
➢ Linguagens de consulta menos poderosas: muitas aplicações que
usam sistemas NoSQL podem não exigir uma linguagem de consulta
poderosa como a linguagem SQL, porque as consultas de pesquisa
(leitura) nesses sistemas NoSQL geralmente localizam objetos únicos em
um único arquivo com base em suas chaves de objetos.
➢ Versionamento: alguns sistemas NoSQL fornecem armazenamento de
múltiplas versões dos itens de dados com os rótulos de tempo (timestamp)
de quando foi criada a versão dos dados.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
17 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Os sistemas NoSQL tem sido categorizado em quatro tipos principais:
➢ Sistemas NoSQL baseados em documentos: estes sistemas
armazenam dados na forma de documentos usando formatos conhecidos,
por exemplo, JSON (JavaScript Object Notation).
➢ Armazenamento de chave-valor do NoSQL: estes sistemas possuem
um modelo de dados simples com base no acesso rápido pela chave ao
valor associado à chave.
➢ Sistemas NoSQL baseado em coluna ou largura de coluna: estes
sistemas particionam uma tabela por coluna em famílias de colunas.
➢ Sistemas NoSQL baseados em grafos: os dados são representados
como grafos e os nós relacionados podem ser encontrados percorrendo
suas arestas por meio de expressões de caminho.
Sistemas NoSQL baseados em documentos
Armazenamento de chave-valor do NoSQL
Sistemas NoSQL baseados em coluna ou
em largura de coluna
Sistema NoSQL baseado em grafos
Categorias dos Sistemas
NoSQL
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
18 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Portanto, podemos considerar os sistemas NoSQL como sistemas de banco
de dados que se concentram no armazenamento e recuperação eficiente de
grandes quantidades de dados “big data”.
O termo Big Data é usado sempre que está envolvido grande quantidade de
dados em alguma análise, assim podemos considerar Big Data legitimamente
quando envolve conjunto de dados cujo tamanho está além da capacidade típica
das ferramentas de software de banco de dados para capturar, armazenar,
gerenciar e analisar dados.
O sistema Big Data se baseia em cinco características conhecidas por 5 V’s:
Volume, Velocidade, Variedade, Veracidade e Valor.
Volume Velocidade Variedade
Veracidade Valor
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
19 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
➢ Volume: Refere-se ao volume total dos dados gerenciado pelo sistema de
Big Data.
➢ Velocidade: Velocidade no qual os dados são criados, acumulados,
ingeridos e processados.
➢ Variedade: Os sistemas Big Data incluem dados estruturados,
semiestruturados e não estruturados.
➢ Veracidade: Está intimamente relacionada à confiança nos dados, eles
têm que ter confiabilidade, ou seja, tem que ser verdadeiros, tem dois
recursos integrados para essa característica que são a credibilidade da
fonte e a adequação ao público alvo.
➢ Valor: O sistema de Big Data tem que agregar valor ao trabalho
desenvolvido.
QUESTÃO DE PROVA:
PF – Perito Criminal - Acerca de banco de dados, julgue o seguinte item.
A mineração de dados se caracteriza especialmente pela busca de informações em
grandes volumes de dados, tanto estruturados quanto não estruturados, alicerçados
no conceito dos 4V’s: volume de mineração, variedade de algoritmos, velocidade de
aprendizado e veracidade dos padrões.
Resolução: Acabamos de estudar que os cinco V’s estão relacionados ao conceito de
Big Data e não mineração de dados, além disso os V’s estão errados.
Gabarito: ERRADO
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
20 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
A principal tecnologia que pode ser considerada um dos pilares do sistema de
Big Data é a ferramenta Hadoop que realiza o processamento de dados
distribuindo-os em diversos computadores (nós) num cluster (computadores
interligados).
O núcleo do ecossistema Hadoop possui três componentes principais que são:
➢ Hadoop Distribuited File System (HDFS): é o sistema de arquivo
distribuídos do Hadoop, sendo projetado para ser executado em um
cluster de hardware comum, ele possui as características de acesso de
alto rendimento a grande conjunto de dados; possui uma arquitetura
mestre-escravo, onde o servidor mestre chamado de NameNode
gerencia a área de armazenamento do sistema de arquivos e os
escravos chamados de DataNodes são executados em um cluster de
maquinas comuns geralmente um por máquina; processamento em
lote (batch); modelo de coerência simples; procedimento de replicação
é usado para fornecer confiabilidade e alta disponibilidade; tráfego de
rede entre as máquinas do cluster é mínimo; e escalabilidade
horizontal.
➢ Hadoop YARN (Yet Another Resourse Negotiator): É responsável por
gerenciar os recursos computacionais do cluster; por distribuir
recursos com base em uma política de escalonamento ou otimização
de uso do cluster; pelo ciclo de vida dos nós do cluster; por rastrear
quando os nós forem desativados, se tornarem inacessíveis ou quando
novos nós se juntarem ao cluster.
➢ Hadoop MapReduce: Realiza processamento dos dados através do
cluster, é orientado a batch (em lote), utiliza o modelo de programação
mapper para transformar dados pelo cluster e reducer para agregar
os dados.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
21 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
HDFS
•Sistema de arquivos do hadoop
•Arquitetura mestre-escravo
•Processamento em lote
•Modelo de coerência simples
•Procedimento de replicação
•Tráfego de rede mínimo entre os nós do cluster
•Escalabilidade horizontal
YARN
•Gerenciar recursos
•Distribuir recursos
•Monitorar o ciclo de vida dos nós do cluster
•Rastrear nós desativados, inacessíveis e novos.
MapReduce
•Processamento de dados no cluster
•Orientado a batch
•Programação para transformar e agregar dados
NoSQL e Tecnologia Big Data
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
22 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
ESQUEMAS E RESUMOS DA AULA
1. Diferença entre o processamento OLAP e OLTP
2. Diferença entre as abordagens de construção do DW
Processamento de transações
Banco de Dados tradicionais
OLTPOtimizados para recuperação de dados
Data Warehouse
OLAP
InmonApenas um DW corporativo
servindo de fonte de informações
Normalizado
Kimball
Um DW é a união de todos os DM da corporação.
Informação armazenada em modelo multidimensional
(desnormalizada).
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
23 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
3. Diferença entre tabela fatos e dimensões
4. Diferença entre os esquemas estrela e flocos de neve
Tabela fatos
Medidas ou indicadores
O que deseja visualizar
Tabela dimensões
Categorias
Formas de visualizar
• todas as medidas da fato estão relacionadas com todas dimensões
• mesmo nível de granularidade
Esquema estrela
• Regras de normalização nas dimensões
• Tabelas de domínio e de tipos
Esquema flocos de neve
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
24 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
5. Diferença entre Business Intelligence e Mineração de dados
6. Fases do processo de descoberta do conhecimento
Business Intelligence
Dados passados
Encontrar restropectivas e
descrever tendências
Mineração de Dados
Dados passados e atuais
Previsão de dados futuros
Processo de descoberta do conhecimento
Seleção de dados
Limpeza de dados
Enriquecimento
Transformação ou codificação
de dados
Mineração de dados
Relatório e exibição da informação descoberta
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
25 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
7. Objetivos do processo de mineração de dados
8. Técnicas de mineração de dados
Previsão
➢ Pode demonstrar como certos atributos dos dados podem se comportar no futuro.
Identificação
➢ Os padrões de dados podem ser usados para identificar a existência de um item, um evento ou uma atividade.
Classificação
➢ A mineração de dados pode particionar os dados de modo que diferentes classes ou categorias possam ser identificadas com base em combinações de parâmetros.
Otimização
➢ Pode otimizar o uso de recursos limitados como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como vendas ou lucros sob determinado conjunto de restrições.
Regras de associação
• Estas regras correlacionam a presença de um conjunto de itens com outra faixa de valores para outro conjunto de variáveis.
Hierarquias de classificação
• O objetivo é trabalhar partindo de um conjunto existente de eventos ou transações para criar uma hierarquia de classes.
Padrões sequenciais
• Uma sequência de ações ou eventos é buscada
Padrões dentro de série temporal
• As semelhanças podem ser detectadas dentro de posições de uma série temporal de dados que é uma sequência de dados tomados em intervalos regulares
Agrupamento
• Determinada população de eventos ou itens pode ser particionada (segmentada) em conjuntos de elementos semelhantes.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
26 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
9. Características que diferenciam os banco de dados NoSQL dos tradicionais
relacional.
10. Sistemas NoSQL
Sistemas Distribuídos NoSQL
• Escalabilidade horizontal
• Disponibilidade, replicação e consistência eventual
• Modelo de replicação
• Partilhamento (Sharding) de arquivos
• Acesso a dados de alto desempenho
Modelos de dados e linguagem de consulta NoSQL
• Não exigência de um esquema
• Linguagens de consulta menos poderosas
• Versionamento
Sistemas NoSQL baseados em documentos
Armazenamento de chave-valor do NoSQL
Sistemas NoSQL baseados em coluna ou em largura
de coluna
Sistema NoSQL baseado em grafos
Categorias de sistemas NoSQL
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
27 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
11. Características do Big Data
12. Componentes do Hadoop
Volume Velocidade Variedade
Veracidade Valor
HDFS
•Sistema de arquivos do hadoop
•Arquitetura mestre-escravo
•Processamento em lote
•Modelo de coerência simples
•Procedimento de replicação
•Tráfego de rede mínimo entre os nós do cluster
•Escalabilidade horizontal
YARN
•Gerenciar recursos
•Distribuir recursos
•Monitorar o ciclo de vida dos nós do cluster
•Rastrear nós desativados, inacessíveis e novos.
MapReduce
•Processamento de dados no cluster
•Orientado a batch
•Programação para transformar e agregar dados
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
28 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
QUESTÕES COMENTADAS
Chegou o momento para fixar o conteúdo da aula. Caso você queira
resolver as questões sem ver o comentário, pule esta parte e vá direto para o
próximo tópico – Questões sem comentários.
1 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - O data warehouse diferencia-
se dos bancos de dados transacionais porque
A) trabalha com dados atuais, mas não com dados históricos.
B) faz uso intenso de operações diárias e de processamento de
transações continuamente.
C) possui milhares de usuários de diferentes níveis hierárquicos dentro
da organização.
D) tem dimensionalidade genérica e níveis de agregação ilimitados.
E) utiliza ferramentas de prospecção e consulta de dados baseadas em
OLTP (on-line transaction processing).
Conforme estudamos na parte teórica da aula, todas as opções têm as
características dos bancos de dados tradicionais, exceto a alternativa
D que são características Data Warehouse ter dimensionalidade
genérica e níveis de agregação ilimitado.
Resposta: D
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
29 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
2 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - Com relação aos modelos de
dados multidimensionais, assinale a opção correta.
A) A principal característica da tabela de fatos é a ausência de dados
redundantes, o que melhora o desempenho nas consultas.
B) Esses modelos são cubos de dados, sendo cada cubo representado
por uma única tupla com vários atributos.
C) Esses modelos proporcionam visões hierárquicas, ou seja, exibição
roll-up ou drill-down.
D) Os modelos de dados multidimensionais dão ênfase à coleta e às
transações de dados.
E) Esses modelos não utilizam processos de transferência de dados, mas
sim acessos nativos do próprio SGBD utilizado.
Analisando as alternativas da questão, por eliminação podemos marcar
a alternativa C como correta, porém trouxe essa questão para
apresentar as técnicas para percorrer dentro da dimensão de roll-up
indo do sentido de menor detalhe da dimensão e drill-down indo para
o sentido de maior detalhe da dimensão.
Resposta C
3 – 2018 – CESPE – FUB – Técnico de Tecnologia da Informação - Julgue o
item a seguir, a respeito de data mining e OLAP.
No data mining, uma regra de associação relaciona a presença de um
conjunto de itens com outra faixa de valores de um outro conjunto de
variáveis.
Perfeito, exatamente como visto na teoria.
CERTO
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
30 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
4 – 2018 – CESPE – TCE-MG – Analista de Controle Externo – Ciência da
Computação - Um dos desdobramentos de big data é o big data analytics,
que se refere aos softwares capazes de tratar dados para transformá-
los em informações úteis às organizações. O big data analytics difere do
business intelligence por
A) priorizar o ambiente de negócios em detrimento de outras áreas.
B) analisar dúvidas já conhecidas para as quais se deseje obter
resposta.
C) analisar o que já existe e o que está por vir, apontando novos
caminhos.
D) dar enfoque à coleta, à transformação e à disponibilização dos dados.
E) analisar o que já existe, definindo as melhores hipóteses.
Estudamos que business Intelligence se restringe a analisar dados do
passado e as técnicas de ciência de dados (mineração) se preocupa em
analisar os dados antigos e atuais para realizar predição de dados.
Resposta C
5 – 2018 – CESPE – PF – Perito Criminal – No que se refere aos conceitos de
estratégias de distribuição de banco de dados, julgue o item que se
segue.
Disponibilidade de um sistema de banco de dados distribuído é, por
definição, a característica de o sistema estar sempre disponível para ser
utilizado imediatamente.
Exatamente, disponibilidade significar o sistema estar sempre
disponível pode ser feito por redundância de dados ou replicação de
dados, por exemplo.
CERTO
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
31 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
6 – 2018 – CESPE – PF – Agente de Polícia – Julgue o item que segue, relativo
a noções de mineração de dados, big data e aprendizado de máquina.
Big data refere-se a uma nova geração de tecnologias e arquiteturas
projetadas para processar volumes muito grandes e com grande
variedade de dados, permitindo alta velocidade de captura, descoberta
e análise.
Realmente o conceito de Big Data refere-se a uma nova geração de
tecnologia em destaque temos o framework do Hadoop, e dentre as
suas características estão o volume, variedade e velocidade.
CERTO
7 – 2018 – CESPE – PF – Perito Criminal – Acerca de banco de dados, julgue
o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um dos
objetivos da mineração de dados, que utiliza a estatística, a inteligência
artificial e os algoritmos de aprendizagem de máquina.
A questão tem razão ao afirmar que a previsão é um dos objetivos da
mineração de dados e a estatística, inteligência artificial e os algoritmos
de aprendizagem de máquina estão entre as técnicas utilizadas pela
mineração de dados.
CERTO
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
32 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
8 – 2018 – CESPE – PF – Perito Criminal – Acerca de banco de dados, julgue
o seguinte item.
A mineração de dados se caracteriza especialmente pela busca de
informações em grandes volumes de dados, tanto estruturados quanto
não estruturados, alicerçados no conceito dos 4V’s: volume de
mineração, variedade de algoritmos, velocidade de aprendizado e
veracidade dos padrões.
O V’s estão relacionados ao conceito de Big Data (Volume, Velocidade,
Variedade, Veracidade e Valor) e não com o conceito de mineração.
ERRADO
9 – 2018 – CESPE – IPHAN – Analista – Julgue o item que se segue, a
respeito de tecnologias de sistemas de informação.
O data warehouse é integrado, não volátil e orientado a assuntos,
contudo, embora lide com dados e os armazene para a tomada de
decisões gerenciadas, não é considerado um banco de dados, pois é
variável em relação ao tempo.
Conforme estudamos na parte teórica, o Data Warehouse é também
considerado um banco de dados.
ERRADO
10 – 2018 – CESPE – IPHAN – Analista – Julgue o item que se segue, a
respeito de arquitetura e tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dados
fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos
de data mining.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
33 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Perfeito, a mineração de dados é uma fase do processo de descoberta
de conhecimento, sendo seu objetivo a descoberta de novas regras e
padrões, bem como de aquisição de conhecimento indutivo.
CERTO
11 – 2018 – CESPE – EBSERH – Analista de Tecnologia da Informação – Julgue
o item que se segue, a respeito de arquitetura e tecnologias de sistemas
de informação. Usualmente, os data Warehouse dão apoio a análises de
série temporal e de tendências, as quais requerem maior volume de
dados históricos do que os que geralmente são mantidos em bancos de
dados transacionais.
Realmente os data warehouse dão apoio a análise de série temporal e
de tendências que requerem um maior volume de dados histórico
inclusive com uma dimensão específica de tempo.
CERTO
12 – 2018 – CESPE – STJ – Técnico Judiciário – Julgue o item que se segue,
acerca de data mining e data warehouse.
O processo de mineração de dados está intrinsecamente ligado às
dimensões e a fato, tendo em vista que, para a obtenção de padrões
úteis e relevantes, é necessário que esse processo seja executado
dentro dos data warehouses.
Não existe essa limitação do processo de mineração de dados ser
executado dentro de data warehouses.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
34 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
ERRADO
13 – 2018 – CESPE – CGM de João Pessoa– Auditor Municipal de Controle Interno
– Com relação à modelagem dimensional e à otimização de bases de
dados para business intelligence, julgue o item subsequente.
Na modelagem multidimensional utilizada em data warehouses para se
prover melhor desempenho, a tabela fato central deve relacionar-se às
suas dimensões por meio da chave primária oriunda da fonte de dados
original. O valor dessa chave deve ser idêntico ao da fonte, para que
tenha valor semântico e garanta que o histórico das transações seja
mantido.
Não existe essa restrição de que a tabela fato deve relacionar-se às
suas dimensões por meio da chave primária oriunda da fonte de dados
original.
ERRADO
14 – 2018 – FCC – TCE RS – Auditor Público Externo – Considerando a teoria
da modelagem dimensional, composta por tabelas dimensão e tabela
fato, utilizada em data warehouses,
A) todas as tabelas dimensão devem possuir o mesmo número de
atributos.
B) o grau de relacionamento da tabela fato para as tabelas dimensão é
de muitos para muitos.
C) a tabela fato não deve possuir atributos do tipo numérico.
D) não há relacionamento entre as tabelas dimensão e a tabela fato.
E) não há limitação quanto ao número de tabelas dimensão.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
35 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
Todas as alternativas não estão de acordo com o exposto na parte
teórica, exceto a alternativa E, pois, realmente não existe essa
limitação quanto ao número de tabelas dimensão.
Resposta E
15 – 2018 – FCC – SABESP – Analista de Gestão – Um Analista está
trabalhando em um Data Warehouse − DW que utiliza no centro do
modelo uma única tabela que armazena as métricas e as chaves para as
tabelas ao seu redor (que descrevem os dados que estão na tabela
central) às quais está ligada. O esquema de modelagem utilizado pelo
DW, a denominação da tabela central e a denominação das tabelas
periféricas são, respectivamente,
A) floco de neve, base, granulares.
B) estrela, fato, dimensões.
C) constelação, fato, granulares.
D) atomic, base, branches.
E) anel, base, dimensões.
Estudamos na parte teórica o esquema estrela que utilizamos uma
única tabela fato para todas as dimensões, que a tabela centra é a
tabela fato e as periféricas são as tabelas dimensões, assim a
alternativa correta é o item B.
Resposta B
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
36 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
QUESTÕES SEM COMENTÁRIOS
1 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - O data warehouse diferencia-
se dos bancos de dados transacionais porque
A) trabalha com dados atuais, mas não com dados históricos.
B) faz uso intenso de operações diárias e de processamento de
transações continuamente.
C) possui milhares de usuários de diferentes níveis hierárquicos dentro
da organização.
D) tem dimensionalidade genérica e níveis de agregação ilimitados.
E) utiliza ferramentas de prospecção e consulta de dados baseadas em
OLTP (on-line transaction processing).
2 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - Com relação aos modelos de
dados multidimensionais, assinale a opção correta.
A) A principal característica da tabela de fatos é a ausência de dados
redundantes, o que melhora o desempenho nas consultas.
B) Esses modelos são cubos de dados, sendo cada cubo representado
por uma única tupla com vários atributos.
C) Esses modelos proporcionam visões hierárquicas, ou seja, exibição
roll-up ou drill-down.
D) Os modelos de dados multidimensionais dão ênfase à coleta e às
transações de dados.
E) Esses modelos não utilizam processos de transferência de dados, mas
sim acessos nativos do próprio SGBD utilizado.
3 – 2018 – CESPE – FUB – Técnico de Tecnologia da Informação - Julgue o
item a seguir, a respeito de data mining e OLAP.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
37 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
No data mining, uma regra de associação relaciona a presença de um
conjunto de itens com outra faixa de valores de um outro conjunto de
variáveis.
4 – 2018 – CESPE – TCE-MG – Analista de Controle Externo – Ciência da
Computação - Um dos desdobramentos de big data é o big data analytics,
que se refere aos softwares capazes de tratar dados para transformá-
los em informações úteis às organizações. O big data analytics difere do
business intelligence por
A) priorizar o ambiente de negócios em detrimento de outras áreas.
B) analisar dúvidas já conhecidas para as quais se deseje obter
resposta.
C) analisar o que já existe e o que está por vir, apontando novos
caminhos.
D) dar enfoque à coleta, à transformação e à disponibilização dos dados.
E) analisar o que já existe, definindo as melhores hipóteses.
5 – 2018 – CESPE – PF – Perito Criminal – No que se refere aos conceitos de
estratégias de distribuição de banco de dados, julgue o item que se
segue.
Disponibilidade de um sistema de banco de dados distribuído é, por
definição, a característica de o sistema estar sempre disponível para ser
utilizado imediatamente.
6 – 2018 – CESPE – PF – Agente de Polícia – Julgue o item que segue, relativo
a noções de mineração de dados, big data e aprendizado de máquina.
Big data refere-se a uma nova geração de tecnologias e arquiteturas
projetadas para processar volumes muito grandes e com grande
variedade de dados, permitindo alta velocidade de captura, descoberta
e análise.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
38 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
7 – 2018 – CESPE – PF – Perito Criminal – Acerca de banco de dados, julgue
o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um dos
objetivos da mineração de dados, que utiliza a estatística, a inteligência
artificial e os algoritmos de aprendizagem de máquina.
8 – 2018 – CESPE – PF – Perito Criminal – Acerca de banco de dados, julgue
o seguinte item.
A mineração de dados se caracteriza especialmente pela busca de
informações em grandes volumes de dados, tanto estruturados quanto
não estruturados, alicerçados no conceito dos 4V’s: volume de
mineração, variedade de algoritmos, velocidade de aprendizado e
veracidade dos padrões.
9 – 2018 – CESPE – IPHAN – Analista – Julgue o item que se segue, a
respeito de tecnologias de sistemas de informação.
O data warehouse é integrado, não volátil e orientado a assuntos,
contudo, embora lide com dados e os armazene para a tomada de
decisões gerenciadas, não é considerado um banco de dados, pois é
variável em relação ao tempo.
10 – 2018 – CESPE – IPHAN – Analista – Julgue o item que se segue, a
respeito de arquitetura e tecnologias de sistemas de informação.
A descoberta de novas regras e padrões em conjuntos de dados
fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos
de data mining.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
39 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
11 – 2018 – CESPE – EBSERH – Analista de Tecnologia da Informação – Julgue
o item que se segue, a respeito de arquitetura e tecnologias de sistemas
de informação.
Usualmente, os data warehouses dão apoio a análises de série temporal
e de tendências, as quais requerem maior volume de dados históricos
do que os que geralmente são mantidos em bancos de dados
transacionais.
12 – 2018 – CESPE – STJ – Técnico Judiciário – Julgue o item que se segue,
acerca de data mining e data warehouse.
O processo de mineração de dados está intrinsecamente ligado às
dimensões e a fato, tendo em vista que, para a obtenção de padrões
úteis e relevantes, é necessário que esse processo seja executado
dentro dos data warehouses.
13 – 2018 – CESPE – CGM de João Pessoa– Auditor Municipal de Controle Interno
– Com relação à modelagem dimensional e à otimização de bases de
dados para business intelligence, julgue o item subsequente.
Na modelagem multidimensional utilizada em data warehouses para se
prover melhor desempenho, a tabela fato central deve relacionar-se às
suas dimensões por meio da chave primária oriunda da fonte de dados
original. O valor dessa chave deve ser idêntico ao da fonte, para que
tenha valor semântico e garanta que o histórico das transações seja
mantido.
14 – 2018 – FCC – TCE RS – Auditor Público Externo – Considerando a teoria
da modelagem dimensional, composta por tabelas dimensão e tabela
fato, utilizada em data warehouses,
A) todas as tabelas dimensão devem possuir o mesmo número de
atributos.
B) o grau de relacionamento da tabela fato para as tabelas dimensão é
de muitos para muitos.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
40 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
C) a tabela fato não deve possuir atributos do tipo numérico.
D) não há relacionamento entre as tabelas dimensão e a tabela fato.
E) não há limitação quanto ao número de tabelas dimensão.
15 – 2018 – FCC – SABESP – Analista de Gestão – Um Analista está
trabalhando em um Data Warehouse − DW que utiliza no centro do
modelo uma única tabela que armazena as métricas e as chaves para as
tabelas ao seu redor (que descrevem os dados que estão na tabela
central) às quais está ligada. O esquema de modelagem utilizado pelo
DW, a denominação da tabela central e a denominação das tabelas
periféricas são, respectivamente,
A) floco de neve, base, granulares.
B) estrela, fato, dimensões.
C) constelação, fato, granulares.
D) atomic, base, branches.
E) anel, base, dimensões.
Banco de Dados para Concursos Públicos
Minicurso
Aula 3
41 de 43 Prof. Diogo Santana www.cdfconcursos.com.br
GARARITO
Referência Bibliográfica:
1. SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. Sistema de banco
de dados. São Paulo: Makron Books, 1999.
2. DATE, C. J. Banco de dados: tópicos avançados. Rio de Janeiro: Campus,
1988.
3. ELMASRI, R.; NAVATHE, S. B.. Sistemas de Banco de Dados. 7a ed.,
Pearson-Addison-Wesley, 2018.
1 2 3 4 5 6 7 8 9 10
D C C C C C C E E C
11 12 13 14 15 16 17 18 19 20
C E E E B
Chegamos ao fim do minicurso de Banco de Dados,
espero que com essas aulas você tenha condições de
verificar a qualidade do nosso material e ainda tenha te
agregado conhecimento para acertar algumas questões
na sua prova de banco de dados.
Desejo boa sorte e bons estudos!