banco de dados para concursos públicos · 2019-11-18 · banco de dados para concursos públicos...

Banco de Dados para concursos públicos Minicurso Aula 3

Prof. Diogo Santana

Banco de Dados para Concursos Públicos

Minicurso

Aula 3

2 de 43 Prof. Diogo Santana www.cdfconcursos.com.br

Olá, seja bem-vindo(a) à aula 3 do Minicurso de Banco de Dados para concursos públicos.

SUMÁRIO

INFORMAÇÕES INICIAIS .................................................................................. 2

CONTEÚDO DA AULA 3 .................................................................................... 3

1. Data Warehouse e OLAP ........................................................................... 4

2. Conceitos de Mineração de Dados ............................................................ 10

3. Banco de Dados NoSQL e Tecnologia Big Data ........................................... 14

ESQUEMAS E RESUMOS DA AULA .................................................................... 22

QUESTÕES COMENTADAS .............................................................................. 28

QUESTÕES SEM COMENTÁRIOS ...................................................................... 36

GARARITO ................................................................................................... 41

INFORMAÇÕES INICIAIS


Minicurso

Aula 3


@prof.diogosantana

Prof. Diogo Santana

Diogo Santana

Caso você deseje acompanhar as atualidades relacionadas ao estudo desta

disciplina, siga minhas mídias sociais:

CONTEÚDO DA AULA 3

Nesta aula, será abordado o tópico “Conceitos e Fundamentos de Business

Intelligence”, exigido pelos editais que cobram a disciplina Banco de Dados.

Padronização de siglas

- Processamento analítico on-line – OLAP

- Processamento de Transação em Tempo Real – OLTP

- Data Warehouse – DW

- Data Marts - DM

- Não Apenas SQL (Not Only SQL) - NoSQL

- Business Intelligence - BI


Minicurso

Aula 3


1. Data Warehouse e OLAP

O termo Business Intelligence (ou inteligência do negócio) surgiu na

década de 1980 intitulado pelo Gartner Group para nomear as atividades

gerenciais que engloba os processos de organização, coleta, transformação,

analise e monitoramento de informações para subsidiar a tomada de decisão.

Também pode ser conhecido como sistemas de apoio a decisão ou

sistema de informações gerenciais, o importante é ter em mente que

ajudam os principais tomadores de decisões de uma organização com dados de

nível mais alto (analítico) em decisões complexa e importantes.

Definimos na nossa primeira aula do minicurso que banco de dados é uma

coleção de dados relacionados e um sistema de banco de dados é o conjunto do

banco de dados com o seu software de gerenciamento (SGBD).

Assim, um Data Warehouse (DW) também é uma coleção de

informações, bem como um sistema de suporte a decisão, contudo existe uma

distinção clara entre um DW e um banco de dados tradicional.

Os bancos de dados tradicionais que podem ser

relacionais, orientados a objetos, em rede ou

hierárquicos são pensados para processarem transações

como rotina, por isso também são conhecidos como

sistema para Processamento de Transações em

Tempo Real – OLTP (Online Transaction Processing).

Já os DW são otimizados para recuperação de dados e

não para processamento de transação de rotina, eles

são chamados de sistema de Processamento Analítico Online – OLAP (Online

Analytical Processing).

Portanto, os bancos de dados OLAP permitem realizar consultas muito

rápidas e diretas dos dados analíticos armazenados em Data Warehouse e Data


Minicurso

Aula 3


Marts (DM), que por sua vez é um banco de dados analítico semelhante ao DW,

mas com um escopo definido por assunto de modo mais restrito.

Portanto, Bill Inmon que pode ser considerado o pai dos DW, define DW

como uma coleção de dados orientada a assunto, integrada, não volátil, variável

no tempo para o apoio às decisões da gerência.

Os DW pode ser desenvolvido sob duas óticas, a primeira do Bill Inmon

numa abordagem TOP-DOWN afirmando que uma empresa possui apenas um

DW empresarial armazenado na 3° forma normal e que os DM buscam

informações no DW.

Já na segunda abordagem BUTTOM-UP é feita por Ralph Kimball

afirmando que um DW é a união de todos os DM da empresa, e que a informação

está em modelo multidimensional desnormalizada.

Processamento de transações

Banco de Dados tradicionais

OLTPOtimizados para recuperação de dados

Data Warehouse

OLAP


Minicurso

Aula 3


Os modelos de dados de banco de dados tradicionais (OLTP) são baseados

no modelo relacional que nada mais é do que representar os dados em tabelas

de duas dimensões (Linha e Coluna).

Para os DW que são banco de dados (OLAP) voltado para recuperação de

dados, a sua estrutura de dados armazena dos dados em forma agregada assim

facilitando a sua recuperação e o modelo de dados adotado é o modelo

multidimensional.

Os modelos multidimensionais tiram proveito dos relacionamentos

inerente nos dados para preencher os dados em matrizes multidimensionais

chamados de cubos de dados, isso se possuírem três dimensões, ou hipercubos

de dados se possuírem mais de três dimensões.

Esses relacionamentos inerentes nos dados significa a correspondência

de um fato (indicador) inerente aos negócios com as suas dimensões

(categoria) relevantes para a sua análise.

Assim, eventos relevantes para a análise do desempenho do negócio

(Exemplo: Quantidade de Vendas, ou de acessos a um site, ou atendimento de

clientes) se relacionam com as categorias que desejamos analisar (Exemplo:

trimestre ou semestre; ou um determinado Estado ou Município; ou um

determinado tipo de cliente).

InmonApenas um DW corporativo

servindo de fonte de informações

Normalizado

Kimball

Um DW é a união de todos os DM da corporação.

Informação armazenada em modelo multidimensional

(desnormalizada).


Minicurso

Aula 3


As especificações dos níveis ou categorias dentro de uma dimensão é

conhecida como hierarquia ou granularidade, por exemplo, na dimensão

tempo podemos ter as seguintes categorias: Ano, Semestre, Trimestre, Mês etc.

Os fatos são as informações importantes para a gestão, podem ser

números ou valores resultantes de cálculos, agregações, ou qualquer outra

operação para indicar o desempenho de uma empresa, um departamento ou

qualquer outra unidade de negócio.

Já as dimensões são as formas como os tomadores de decisão desejam

visualizar o negócio, são informações que dão significado aos valores, ou

medidas, ou métricas determinadas num fato.

Portanto, no modelo multidimensional envolve dois tipos de tabelas, as

tabelas fatos e as tabelas dimensões.

Nas tabelas fatos contém tuplas para cada fato registrado, esse fato

contém alguma variável medida, observada ou aglomerada e são identificadas

com ponteiros para tabelas dimensão.

Já nas tabelas dimensões contém tuplas de atributos da dimensão

(granularidade), assim as tabelas fatos contém os dados e as dimensões

identificam cada tupla nesses dados.

Tabela fatos

Medidas ou indicadores

O que deseja visualizar

Tabela dimensões

Categorias

Formas de visualizar


Minicurso

Aula 3


Existem dois modos de como as tabelas fato e dimensão se relacionam, o

primeiro é chamado de esquema estrela (Star Schema) onde todas as medidas

da tabela fato estão relacionadas com todas as dimensões, significando que elas

têm o mesmo nível de granularidade.

Assim, no esquema estrela consiste em uma tabela fato com uma única

tabela para cada dimensão.

Outro modo de relacionar as tabelas fatos e dimensões é através do

esquema floco de neve (Snowflake Schema) que é uma variação do esquema

estrela, são aplicadas regras de normalização nas dimensões de um esquema

estrela que podem gerar tabelas de domínios ou tipos, assim sendo organizadas

em hierarquias.


Minicurso

Aula 3


QUESTÃO DE PROVA:

SABESP – Analista de Gestão - Um Analista está trabalhando em um Data

Warehouse − DW que utiliza no centro do modelo uma única tabela que armazena

as métricas e as chaves para as tabelas ao seu redor (que descrevem os dados que

estão na tabela central) às quais está ligada. O esquema de modelagem utilizado

pelo DW, a denominação da tabela central e a denominação das tabelas periféricas

são, respectivamente,

A) floco de neve, base, granulares.

B) estrela, fato, dimensões.

C) constelação, fato, granulares.

D) atomic, base, branches.

E) anel, base, dimensões.

Resolução: Analisando o enunciado da questão percebemos que trata do esquema

estrela e das tabelas fato e dimensão.

Gabarito: B

• todas as medidas da fato estão relacionadas com todas dimensões

• mesmo nível de granularidade

Esquema estrela

• Regras de normalização nas dimensões

• Tabelas de domínio e de tipos

Esquema flocos de neve


Minicurso

Aula 3


2. Conceitos de Mineração de Dados

Um campo de estudo que está ganhando destaque nos últimos anos é a

ciência de dados, apesar de ser uma área de pesquisa que já existe a algumas

décadas, sua popularização veio somente depois do Big Data que estudaremos

ainda nesta aula e do desenvolvimento da Inteligência Artificial.

Agora vamos estudar os conceitos de Mineração de Dados (Data Mining),

como o próprio termo indica, trata-se de técnicas referente a mineração ou

descoberta de novas informações em termos de padrões ou regras com base em

grande quantidade de dados.

A diferença entre BI e Mineração de Dados consiste que o BI basicamente

utiliza dados anteriores para encontrar retrospectiva e descrever tendências do

negócio. Já a Mineração de Dados é uma forma exploratória com o objetivo de

analisar dados passados e atuais em busca de previsão de dados futuros.

Business Intelligence

Dados passados

Encontrar restropectivas e

descrever tendências

Mineração de Dados

Dados passados e atuais

Previsão de dados futuros


Minicurso

Aula 3


A descoberta de conhecimento nos bancos de dados – KDD (Knowledge

Discovery in Database) normalmente abrange mais do que a mineração de

dados, o processo de descoberta de conhecimento compreende seis fases:

➢ Seleção de dados: seleciona dados sobre itens específicos ou categorias

de itens.

➢ Limpeza de dados: pode corrigir dados inválidos ou eliminar registros

incorretos.

➢ Enriquecimento: normalmente melhora os dados com fontes de

informação adicionais.

➢ Transformação ou codificação de dados: Podem ser feitas para reduzir

a quantidade de dados através de agrupamentos, por exemplo.

➢ Mineração de dados: São usadas para extrair diferentes regras e

padrões.

➢ Relatório e exibição da informação descoberta: Podem ser utilizados

diversos formatos como listagens, saídas gráficas, tabelas, tabelas resumo

ou outras visualizações.

Processo de descoberta do conhecimento

Seleção de dados

Limpeza de dados

Enriquecimento

Transformação ou codificação

de dados

Mineração de dados

Relatório e exibição da informação descoberta


Minicurso

Aula 3


A mineração de dados pode incluir análise estatística e otimização restrita,

bem como aprendizado de máquina (Machine Learning), são diversos os

objetivos da mineração de dados, podemos destacar os seguintes:

Previsão

➢ Pode demonstrar como certos atributos dos dados podem se comportar no futuro.

Identificação

➢ Os padrões de dados podem ser usados para identificar a existência de um item, um evento ou uma atividade.

Classificação

➢ A mineração de dados pode particionar os dados de modo que diferentes classes ou categorias possam ser identificadas com base em combinações de parâmetros.

Otimização

➢ Pode otimizar o uso de recursos limitados como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como vendas ou lucros sob determinado conjunto de restrições.


Minicurso

Aula 3


QUESTÃO DE PROVA:

PF – Perito Criminal - Acerca de banco de dados, julgue o seguinte item.

Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da

mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos

de aprendizagem de máquina.

Resolução: Realmente a previsão é um dos objetivos da mineração de dados que

pode utilizar técnicas de estatística, inteligência artificial e algoritmos de

aprendizagem de máquina.

Gabarito: CERTO

O termo conhecimento é interpretado de forma livre como algo que

envolve algum grau de inteligência, o processo que leva os dados brutos da

informação ao conhecimento pode ser realizado utilizando diversas técnicas, as

que mais se destacam são:

Regras de associação

•Estas regras correlacionam a presença de um conjunto de itens com outra faixa de valores para outro conjunto de variáveis.

Hierarquias de classificação

•O objetivo é trabalhar partindo de um conjunto existente de eventos ou transações para criar uma hierarquia de classes.

Padrões sequenciais

•Uma sequência de ações ou eventos é buscada

Padrões dentro de série temporal

•As semelhanças podem ser detectadas dentro de posições de uma série temporal de dados que é uma sequência de dados tomados em intervalos regulares

Agrupamento

•Determinada população de eventos ou itens pode ser particionada (segmentada) em conjuntos de elementos semelhantes.


Minicurso

Aula 3


3. Banco de Dados NoSQL e Tecnologia Big Data

Agora vamos estudar os sistemas desenvolvidos com o intuito de gerenciar

massivas quantidade de dados, o termo NoSQL é interpretado como “não apenas

SQL” (Not Only SQL) que o intuito de transmitir a ideia de que muitas aplicações

precisam de sistemas diferentes dos sistemas SQL relacionais tradicionais.

São muitas as características que diferem os sistemas NoSQL dos sistemas

SQL tradicionais, dividimos as características em duas categorias, uma

relacionada aos sistemas distribuídos e outra relacionada a modelos de

dados e linguagem de consulta.

Data Warehouse e Mineração de

Dados

Sistemas Distribuídos NoSQL

•Escalabilidade horizontal

•Disponibilidade, replicação e consistência eventual

•Modelo de replicação

•Partilhamento (Sharding) de arquivos

•Acesso a dados de alto desempenho

Modelos de dados e linguagem de consulta NoSQL

•Não exigência de um esquema

•Linguagens de consulta menos poderosas

•Versionamento


Minicurso

Aula 3


Características do NoSQL relacionadas com banco de dados distribuídos

➢ Escalabilidade horizontal: o sistema distribuído é expandido

adicionando mais nós para armazenamento e processamento de dados à

medida que o volume de dados aumenta.

➢ Disponibilidade, replicação e consistência eventual: Muitas

aplicações que utilizam o NoSQL exigem disponibilidade contínua, para

conseguir isso os dados são replicados em dois ou mais nós de maneira

transparente, de modo que, se um nó falhar, os dados ainda estarão

disponíveis nos demais nós, a replicação também pode melhorar o

desempenho de leitura dos dados, no entanto a gravação torna-se mais

complicado sendo necessário usar formas de consistência de dados mais

relaxadas chamadas de consistência eventual.

➢ Modelo de replicação: dois modelos principais de replicação são usados

em sistemas NoSQL: replicação mestre-escravo e mestre-mestre. O

modelo mestre-escravo exige que uma cópia seja a principal e todas as

operações de gravação devem ser aplicadas a cópia principal e, em

seguida, propagadas para as cópias escravas, geralmente usando a

consistência eventual. Já o modelo mestre-mestre permite leituras e

escritas em qualquer uma das réplicas, mas pode não garantir que as

leituras nos nós que armazenam cópias diferentes vejam os mesmos

valores, assim usuários diferentes podem gravar o mesmo item de dados

simultaneamente em diferentes nós do sistema, de modo que os valores

do item ficarão temporariamente inconsistentes.

➢ Partilhamento (Sharding) de arquivos: em muitas aplicações NoSQL,

os arquivos que são coleções de objetos de dados podem ter muitos

milhões de registros (documentos ou objetos) e esses registros podem ser

acessados simultaneamente por milhares de usuários, portanto, não é

prático armazenar o arquivo inteiro em único nó, o Sharding também


Minicurso

Aula 3


conhecido como particionamento horizontal serve para distribuir a

carga do acesso aos registros do arquivo para vários nós. A combinação

de Sharding dos registros do arquivo e replicação dos fragmentos funciona

em conjunto para melhorar o balanceamento de carga, bem como a

disponibilidade de dados.

➢ Acesso a dados de alto desempenho: em muitas aplicações NoSQL é

necessário encontrar registros ou objetos individuais dentre os milhões de

registros de dados ou objetos em um arquivo, para conseguir isso, a

maioria dos sistemas usa umas das duas técnicas: hashing ou

particionamento por intervalo sobre chaves de objeto.

Características do NoSQL relacionadas a modelo de dados e linguagens

de consulta.

➢ Não exigência de um esquema: a flexibilidade de não exigir um

esquema é alcançada em muitos sistemas NoSQL permitindo dados

semiestruturados e autodescritivos, usuários podem até especificar um

esquema parcial em alguns sistemas para melhorar a eficiência do

armazenamento, mas não é preciso que haja um esquema na maioria dos

sistemas NoSQL.

➢ Linguagens de consulta menos poderosas: muitas aplicações que

usam sistemas NoSQL podem não exigir uma linguagem de consulta

poderosa como a linguagem SQL, porque as consultas de pesquisa

(leitura) nesses sistemas NoSQL geralmente localizam objetos únicos em

um único arquivo com base em suas chaves de objetos.

➢ Versionamento: alguns sistemas NoSQL fornecem armazenamento de

múltiplas versões dos itens de dados com os rótulos de tempo (timestamp)

de quando foi criada a versão dos dados.


Minicurso

Aula 3


Os sistemas NoSQL tem sido categorizado em quatro tipos principais:

➢ Sistemas NoSQL baseados em documentos: estes sistemas

armazenam dados na forma de documentos usando formatos conhecidos,

por exemplo, JSON (JavaScript Object Notation).

➢ Armazenamento de chave-valor do NoSQL: estes sistemas possuem

um modelo de dados simples com base no acesso rápido pela chave ao

valor associado à chave.

➢ Sistemas NoSQL baseado em coluna ou largura de coluna: estes

sistemas particionam uma tabela por coluna em famílias de colunas.

➢ Sistemas NoSQL baseados em grafos: os dados são representados

como grafos e os nós relacionados podem ser encontrados percorrendo

suas arestas por meio de expressões de caminho.

Sistemas NoSQL baseados em documentos

Armazenamento de chave-valor do NoSQL

Sistemas NoSQL baseados em coluna ou

em largura de coluna

Sistema NoSQL baseado em grafos

Categorias dos Sistemas

NoSQL


Minicurso

Aula 3


Portanto, podemos considerar os sistemas NoSQL como sistemas de banco

de dados que se concentram no armazenamento e recuperação eficiente de

grandes quantidades de dados “big data”.

O termo Big Data é usado sempre que está envolvido grande quantidade de

dados em alguma análise, assim podemos considerar Big Data legitimamente

quando envolve conjunto de dados cujo tamanho está além da capacidade típica

das ferramentas de software de banco de dados para capturar, armazenar,

gerenciar e analisar dados.

O sistema Big Data se baseia em cinco características conhecidas por 5 V’s:

Volume, Velocidade, Variedade, Veracidade e Valor.

Volume Velocidade Variedade

Veracidade Valor


Minicurso

Aula 3


➢ Volume: Refere-se ao volume total dos dados gerenciado pelo sistema de

Big Data.

➢ Velocidade: Velocidade no qual os dados são criados, acumulados,

ingeridos e processados.

➢ Variedade: Os sistemas Big Data incluem dados estruturados,

semiestruturados e não estruturados.

➢ Veracidade: Está intimamente relacionada à confiança nos dados, eles

têm que ter confiabilidade, ou seja, tem que ser verdadeiros, tem dois

recursos integrados para essa característica que são a credibilidade da

fonte e a adequação ao público alvo.

➢ Valor: O sistema de Big Data tem que agregar valor ao trabalho

desenvolvido.

QUESTÃO DE PROVA:

PF – Perito Criminal - Acerca de banco de dados, julgue o seguinte item.

A mineração de dados se caracteriza especialmente pela busca de informações em

grandes volumes de dados, tanto estruturados quanto não estruturados, alicerçados

no conceito dos 4V’s: volume de mineração, variedade de algoritmos, velocidade de

aprendizado e veracidade dos padrões.

Resolução: Acabamos de estudar que os cinco V’s estão relacionados ao conceito de

Big Data e não mineração de dados, além disso os V’s estão errados.

Gabarito: ERRADO


Minicurso

Aula 3


A principal tecnologia que pode ser considerada um dos pilares do sistema de

Big Data é a ferramenta Hadoop que realiza o processamento de dados

distribuindo-os em diversos computadores (nós) num cluster (computadores

interligados).

O núcleo do ecossistema Hadoop possui três componentes principais que são:

➢ Hadoop Distribuited File System (HDFS): é o sistema de arquivo

distribuídos do Hadoop, sendo projetado para ser executado em um

cluster de hardware comum, ele possui as características de acesso de

alto rendimento a grande conjunto de dados; possui uma arquitetura

mestre-escravo, onde o servidor mestre chamado de NameNode

gerencia a área de armazenamento do sistema de arquivos e os

escravos chamados de DataNodes são executados em um cluster de

maquinas comuns geralmente um por máquina; processamento em

lote (batch); modelo de coerência simples; procedimento de replicação

é usado para fornecer confiabilidade e alta disponibilidade; tráfego de

rede entre as máquinas do cluster é mínimo; e escalabilidade

horizontal.

➢ Hadoop YARN (Yet Another Resourse Negotiator): É responsável por

gerenciar os recursos computacionais do cluster; por distribuir

recursos com base em uma política de escalonamento ou otimização

de uso do cluster; pelo ciclo de vida dos nós do cluster; por rastrear

quando os nós forem desativados, se tornarem inacessíveis ou quando

novos nós se juntarem ao cluster.

➢ Hadoop MapReduce: Realiza processamento dos dados através do

cluster, é orientado a batch (em lote), utiliza o modelo de programação

mapper para transformar dados pelo cluster e reducer para agregar

os dados.


Minicurso

Aula 3


HDFS

•Sistema de arquivos do hadoop

•Arquitetura mestre-escravo

•Processamento em lote

•Modelo de coerência simples

•Procedimento de replicação

•Tráfego de rede mínimo entre os nós do cluster


YARN

•Gerenciar recursos

•Distribuir recursos

•Monitorar o ciclo de vida dos nós do cluster

•Rastrear nós desativados, inacessíveis e novos.

MapReduce

•Processamento de dados no cluster

•Orientado a batch

•Programação para transformar e agregar dados

NoSQL e Tecnologia Big Data


Minicurso

Aula 3


ESQUEMAS E RESUMOS DA AULA

1. Diferença entre o processamento OLAP e OLTP

2. Diferença entre as abordagens de construção do DW

Processamento de transações

Banco de Dados tradicionais

OLTPOtimizados para recuperação de dados

Data Warehouse

OLAP

InmonApenas um DW corporativo

servindo de fonte de informações

Normalizado

Kimball

Um DW é a união de todos os DM da corporação.

Informação armazenada em modelo multidimensional

(desnormalizada).


Minicurso

Aula 3


3. Diferença entre tabela fatos e dimensões

4. Diferença entre os esquemas estrela e flocos de neve

Tabela fatos

Medidas ou indicadores

O que deseja visualizar

Tabela dimensões

Categorias

Formas de visualizar

• todas as medidas da fato estão relacionadas com todas dimensões

• mesmo nível de granularidade

Esquema estrela

• Regras de normalização nas dimensões

• Tabelas de domínio e de tipos

Esquema flocos de neve


Minicurso

Aula 3


5. Diferença entre Business Intelligence e Mineração de dados

6. Fases do processo de descoberta do conhecimento

Business Intelligence

Dados passados

Encontrar restropectivas e

descrever tendências

Mineração de Dados

Dados passados e atuais

Previsão de dados futuros

Processo de descoberta do conhecimento

Seleção de dados

Limpeza de dados

Enriquecimento

Transformação ou codificação

de dados

Mineração de dados

Relatório e exibição da informação descoberta


Minicurso

Aula 3


7. Objetivos do processo de mineração de dados

8. Técnicas de mineração de dados

Previsão

➢ Pode demonstrar como certos atributos dos dados podem se comportar no futuro.

Identificação

➢ Os padrões de dados podem ser usados para identificar a existência de um item, um evento ou uma atividade.

Classificação

➢ A mineração de dados pode particionar os dados de modo que diferentes classes ou categorias possam ser identificadas com base em combinações de parâmetros.

Otimização

➢ Pode otimizar o uso de recursos limitados como tempo, espaço, dinheiro ou materiais e maximizar variáveis de saída como vendas ou lucros sob determinado conjunto de restrições.

Regras de associação

• Estas regras correlacionam a presença de um conjunto de itens com outra faixa de valores para outro conjunto de variáveis.

Hierarquias de classificação

• O objetivo é trabalhar partindo de um conjunto existente de eventos ou transações para criar uma hierarquia de classes.

Padrões sequenciais

• Uma sequência de ações ou eventos é buscada

Padrões dentro de série temporal

• As semelhanças podem ser detectadas dentro de posições de uma série temporal de dados que é uma sequência de dados tomados em intervalos regulares

Agrupamento

• Determinada população de eventos ou itens pode ser particionada (segmentada) em conjuntos de elementos semelhantes.


Minicurso

Aula 3


9. Características que diferenciam os banco de dados NoSQL dos tradicionais

relacional.

10. Sistemas NoSQL

Sistemas Distribuídos NoSQL

• Escalabilidade horizontal

• Disponibilidade, replicação e consistência eventual

• Modelo de replicação

• Partilhamento (Sharding) de arquivos

• Acesso a dados de alto desempenho

Modelos de dados e linguagem de consulta NoSQL

• Não exigência de um esquema

• Linguagens de consulta menos poderosas

• Versionamento

Sistemas NoSQL baseados em documentos

Armazenamento de chave-valor do NoSQL

Sistemas NoSQL baseados em coluna ou em largura

de coluna

Sistema NoSQL baseado em grafos

Categorias de sistemas NoSQL


Minicurso

Aula 3


11. Características do Big Data

12. Componentes do Hadoop

Volume Velocidade Variedade

Veracidade Valor

HDFS

•Sistema de arquivos do hadoop

•Arquitetura mestre-escravo

•Processamento em lote

•Modelo de coerência simples

•Procedimento de replicação

•Tráfego de rede mínimo entre os nós do cluster


YARN

•Gerenciar recursos

•Distribuir recursos

•Monitorar o ciclo de vida dos nós do cluster

•Rastrear nós desativados, inacessíveis e novos.

MapReduce

•Processamento de dados no cluster

•Orientado a batch

•Programação para transformar e agregar dados


Minicurso

Aula 3


QUESTÕES COMENTADAS

Chegou o momento para fixar o conteúdo da aula. Caso você queira

resolver as questões sem ver o comentário, pule esta parte e vá direto para o

próximo tópico – Questões sem comentários.

1 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - O data warehouse diferencia-

se dos bancos de dados transacionais porque

A) trabalha com dados atuais, mas não com dados históricos.

B) faz uso intenso de operações diárias e de processamento de

transações continuamente.

C) possui milhares de usuários de diferentes níveis hierárquicos dentro

da organização.

D) tem dimensionalidade genérica e níveis de agregação ilimitados.

E) utiliza ferramentas de prospecção e consulta de dados baseadas em

OLTP (on-line transaction processing).

Conforme estudamos na parte teórica da aula, todas as opções têm as

características dos bancos de dados tradicionais, exceto a alternativa

D que são características Data Warehouse ter dimensionalidade

genérica e níveis de agregação ilimitado.

Resposta: D


Minicurso

Aula 3


2 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - Com relação aos modelos de

dados multidimensionais, assinale a opção correta.

A) A principal característica da tabela de fatos é a ausência de dados

redundantes, o que melhora o desempenho nas consultas.

B) Esses modelos são cubos de dados, sendo cada cubo representado

por uma única tupla com vários atributos.

C) Esses modelos proporcionam visões hierárquicas, ou seja, exibição

roll-up ou drill-down.

D) Os modelos de dados multidimensionais dão ênfase à coleta e às

transações de dados.

E) Esses modelos não utilizam processos de transferência de dados, mas

sim acessos nativos do próprio SGBD utilizado.

Analisando as alternativas da questão, por eliminação podemos marcar

a alternativa C como correta, porém trouxe essa questão para

apresentar as técnicas para percorrer dentro da dimensão de roll-up

indo do sentido de menor detalhe da dimensão e drill-down indo para

o sentido de maior detalhe da dimensão.

Resposta C

3 – 2018 – CESPE – FUB – Técnico de Tecnologia da Informação - Julgue o

item a seguir, a respeito de data mining e OLAP.

No data mining, uma regra de associação relaciona a presença de um

conjunto de itens com outra faixa de valores de um outro conjunto de

variáveis.

Perfeito, exatamente como visto na teoria.

CERTO


Minicurso

Aula 3


4 – 2018 – CESPE – TCE-MG – Analista de Controle Externo – Ciência da

Computação - Um dos desdobramentos de big data é o big data analytics,

que se refere aos softwares capazes de tratar dados para transformá-

los em informações úteis às organizações. O big data analytics difere do

business intelligence por

A) priorizar o ambiente de negócios em detrimento de outras áreas.

B) analisar dúvidas já conhecidas para as quais se deseje obter

resposta.

C) analisar o que já existe e o que está por vir, apontando novos

caminhos.

D) dar enfoque à coleta, à transformação e à disponibilização dos dados.

E) analisar o que já existe, definindo as melhores hipóteses.

Estudamos que business Intelligence se restringe a analisar dados do

passado e as técnicas de ciência de dados (mineração) se preocupa em

analisar os dados antigos e atuais para realizar predição de dados.

Resposta C

5 – 2018 – CESPE – PF – Perito Criminal – No que se refere aos conceitos de

estratégias de distribuição de banco de dados, julgue o item que se

segue.

Disponibilidade de um sistema de banco de dados distribuído é, por

definição, a característica de o sistema estar sempre disponível para ser

utilizado imediatamente.

Exatamente, disponibilidade significar o sistema estar sempre

disponível pode ser feito por redundância de dados ou replicação de

dados, por exemplo.

CERTO


Minicurso

Aula 3


6 – 2018 – CESPE – PF – Agente de Polícia – Julgue o item que segue, relativo

a noções de mineração de dados, big data e aprendizado de máquina.

Big data refere-se a uma nova geração de tecnologias e arquiteturas

projetadas para processar volumes muito grandes e com grande

variedade de dados, permitindo alta velocidade de captura, descoberta

e análise.

Realmente o conceito de Big Data refere-se a uma nova geração de

tecnologia em destaque temos o framework do Hadoop, e dentre as

suas características estão o volume, variedade e velocidade.

CERTO

7 – 2018 – CESPE – PF – Perito Criminal – Acerca de banco de dados, julgue

o seguinte item.

Descobrir conexões escondidas e prever tendências futuras é um dos

objetivos da mineração de dados, que utiliza a estatística, a inteligência

artificial e os algoritmos de aprendizagem de máquina.

A questão tem razão ao afirmar que a previsão é um dos objetivos da

mineração de dados e a estatística, inteligência artificial e os algoritmos

de aprendizagem de máquina estão entre as técnicas utilizadas pela

mineração de dados.

CERTO


Minicurso

Aula 3



o seguinte item.

A mineração de dados se caracteriza especialmente pela busca de

informações em grandes volumes de dados, tanto estruturados quanto

não estruturados, alicerçados no conceito dos 4V’s: volume de

mineração, variedade de algoritmos, velocidade de aprendizado e

veracidade dos padrões.

O V’s estão relacionados ao conceito de Big Data (Volume, Velocidade,

Variedade, Veracidade e Valor) e não com o conceito de mineração.

ERRADO

9 – 2018 – CESPE – IPHAN – Analista – Julgue o item que se segue, a

respeito de tecnologias de sistemas de informação.

O data warehouse é integrado, não volátil e orientado a assuntos,

contudo, embora lide com dados e os armazene para a tomada de

decisões gerenciadas, não é considerado um banco de dados, pois é

variável em relação ao tempo.

Conforme estudamos na parte teórica, o Data Warehouse é também

considerado um banco de dados.

ERRADO


respeito de arquitetura e tecnologias de sistemas de informação.

A descoberta de novas regras e padrões em conjuntos de dados

fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos

de data mining.


Minicurso

Aula 3


Perfeito, a mineração de dados é uma fase do processo de descoberta

de conhecimento, sendo seu objetivo a descoberta de novas regras e

padrões, bem como de aquisição de conhecimento indutivo.

CERTO

11 – 2018 – CESPE – EBSERH – Analista de Tecnologia da Informação – Julgue

o item que se segue, a respeito de arquitetura e tecnologias de sistemas

de informação. Usualmente, os data Warehouse dão apoio a análises de

série temporal e de tendências, as quais requerem maior volume de

dados históricos do que os que geralmente são mantidos em bancos de

dados transacionais.

Realmente os data warehouse dão apoio a análise de série temporal e

de tendências que requerem um maior volume de dados histórico

inclusive com uma dimensão específica de tempo.

CERTO

12 – 2018 – CESPE – STJ – Técnico Judiciário – Julgue o item que se segue,

acerca de data mining e data warehouse.

O processo de mineração de dados está intrinsecamente ligado às

dimensões e a fato, tendo em vista que, para a obtenção de padrões

úteis e relevantes, é necessário que esse processo seja executado

dentro dos data warehouses.

Não existe essa limitação do processo de mineração de dados ser

executado dentro de data warehouses.


Minicurso

Aula 3


ERRADO

13 – 2018 – CESPE – CGM de João Pessoa– Auditor Municipal de Controle Interno

– Com relação à modelagem dimensional e à otimização de bases de

dados para business intelligence, julgue o item subsequente.

Na modelagem multidimensional utilizada em data warehouses para se

prover melhor desempenho, a tabela fato central deve relacionar-se às

suas dimensões por meio da chave primária oriunda da fonte de dados

original. O valor dessa chave deve ser idêntico ao da fonte, para que

tenha valor semântico e garanta que o histórico das transações seja

mantido.

Não existe essa restrição de que a tabela fato deve relacionar-se às


original.

ERRADO

14 – 2018 – FCC – TCE RS – Auditor Público Externo – Considerando a teoria

da modelagem dimensional, composta por tabelas dimensão e tabela

fato, utilizada em data warehouses,

A) todas as tabelas dimensão devem possuir o mesmo número de

atributos.

B) o grau de relacionamento da tabela fato para as tabelas dimensão é

de muitos para muitos.

C) a tabela fato não deve possuir atributos do tipo numérico.

D) não há relacionamento entre as tabelas dimensão e a tabela fato.

E) não há limitação quanto ao número de tabelas dimensão.


Minicurso

Aula 3


Todas as alternativas não estão de acordo com o exposto na parte

teórica, exceto a alternativa E, pois, realmente não existe essa

limitação quanto ao número de tabelas dimensão.

Resposta E

15 – 2018 – FCC – SABESP – Analista de Gestão – Um Analista está

trabalhando em um Data Warehouse − DW que utiliza no centro do

modelo uma única tabela que armazena as métricas e as chaves para as

tabelas ao seu redor (que descrevem os dados que estão na tabela

central) às quais está ligada. O esquema de modelagem utilizado pelo

DW, a denominação da tabela central e a denominação das tabelas

periféricas são, respectivamente,






Estudamos na parte teórica o esquema estrela que utilizamos uma

única tabela fato para todas as dimensões, que a tabela centra é a

tabela fato e as periféricas são as tabelas dimensões, assim a

alternativa correta é o item B.

Resposta B


Minicurso

Aula 3


QUESTÕES SEM COMENTÁRIOS

1 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - O data warehouse diferencia-

se dos bancos de dados transacionais porque

A) trabalha com dados atuais, mas não com dados históricos.

B) faz uso intenso de operações diárias e de processamento de

transações continuamente.

C) possui milhares de usuários de diferentes níveis hierárquicos dentro

da organização.

D) tem dimensionalidade genérica e níveis de agregação ilimitados.

E) utiliza ferramentas de prospecção e consulta de dados baseadas em

OLTP (on-line transaction processing).

2 – 2019 – CESPE – SEFAZ RS – Auditor Fiscal - Com relação aos modelos de

dados multidimensionais, assinale a opção correta.

A) A principal característica da tabela de fatos é a ausência de dados

redundantes, o que melhora o desempenho nas consultas.

B) Esses modelos são cubos de dados, sendo cada cubo representado

por uma única tupla com vários atributos.

C) Esses modelos proporcionam visões hierárquicas, ou seja, exibição

roll-up ou drill-down.

D) Os modelos de dados multidimensionais dão ênfase à coleta e às

transações de dados.

E) Esses modelos não utilizam processos de transferência de dados, mas

sim acessos nativos do próprio SGBD utilizado.

3 – 2018 – CESPE – FUB – Técnico de Tecnologia da Informação - Julgue o

item a seguir, a respeito de data mining e OLAP.


Minicurso

Aula 3


No data mining, uma regra de associação relaciona a presença de um

conjunto de itens com outra faixa de valores de um outro conjunto de

variáveis.

4 – 2018 – CESPE – TCE-MG – Analista de Controle Externo – Ciência da

Computação - Um dos desdobramentos de big data é o big data analytics,

que se refere aos softwares capazes de tratar dados para transformá-

los em informações úteis às organizações. O big data analytics difere do

business intelligence por

A) priorizar o ambiente de negócios em detrimento de outras áreas.

B) analisar dúvidas já conhecidas para as quais se deseje obter

resposta.

C) analisar o que já existe e o que está por vir, apontando novos

caminhos.

D) dar enfoque à coleta, à transformação e à disponibilização dos dados.

E) analisar o que já existe, definindo as melhores hipóteses.

5 – 2018 – CESPE – PF – Perito Criminal – No que se refere aos conceitos de

estratégias de distribuição de banco de dados, julgue o item que se

segue.

Disponibilidade de um sistema de banco de dados distribuído é, por

definição, a característica de o sistema estar sempre disponível para ser

utilizado imediatamente.

6 – 2018 – CESPE – PF – Agente de Polícia – Julgue o item que segue, relativo

a noções de mineração de dados, big data e aprendizado de máquina.

Big data refere-se a uma nova geração de tecnologias e arquiteturas

projetadas para processar volumes muito grandes e com grande

variedade de dados, permitindo alta velocidade de captura, descoberta

e análise.


Minicurso

Aula 3



o seguinte item.

Descobrir conexões escondidas e prever tendências futuras é um dos

objetivos da mineração de dados, que utiliza a estatística, a inteligência

artificial e os algoritmos de aprendizagem de máquina.


o seguinte item.

A mineração de dados se caracteriza especialmente pela busca de

informações em grandes volumes de dados, tanto estruturados quanto

não estruturados, alicerçados no conceito dos 4V’s: volume de

mineração, variedade de algoritmos, velocidade de aprendizado e

veracidade dos padrões.


respeito de tecnologias de sistemas de informação.

O data warehouse é integrado, não volátil e orientado a assuntos,

contudo, embora lide com dados e os armazene para a tomada de

decisões gerenciadas, não é considerado um banco de dados, pois é

variável em relação ao tempo.


respeito de arquitetura e tecnologias de sistemas de informação.

A descoberta de novas regras e padrões em conjuntos de dados

fornecidos, ou aquisição de conhecimento indutivo, é um dos objetivos

de data mining.


Minicurso

Aula 3


11 – 2018 – CESPE – EBSERH – Analista de Tecnologia da Informação – Julgue

o item que se segue, a respeito de arquitetura e tecnologias de sistemas

de informação.

Usualmente, os data warehouses dão apoio a análises de série temporal

e de tendências, as quais requerem maior volume de dados históricos

do que os que geralmente são mantidos em bancos de dados

transacionais.

12 – 2018 – CESPE – STJ – Técnico Judiciário – Julgue o item que se segue,

acerca de data mining e data warehouse.

O processo de mineração de dados está intrinsecamente ligado às

dimensões e a fato, tendo em vista que, para a obtenção de padrões

úteis e relevantes, é necessário que esse processo seja executado

dentro dos data warehouses.

13 – 2018 – CESPE – CGM de João Pessoa– Auditor Municipal de Controle Interno

– Com relação à modelagem dimensional e à otimização de bases de

dados para business intelligence, julgue o item subsequente.

Na modelagem multidimensional utilizada em data warehouses para se

prover melhor desempenho, a tabela fato central deve relacionar-se às


original. O valor dessa chave deve ser idêntico ao da fonte, para que

tenha valor semântico e garanta que o histórico das transações seja

mantido.

14 – 2018 – FCC – TCE RS – Auditor Público Externo – Considerando a teoria

da modelagem dimensional, composta por tabelas dimensão e tabela

fato, utilizada em data warehouses,

A) todas as tabelas dimensão devem possuir o mesmo número de

atributos.

B) o grau de relacionamento da tabela fato para as tabelas dimensão é

de muitos para muitos.


Minicurso

Aula 3


C) a tabela fato não deve possuir atributos do tipo numérico.

D) não há relacionamento entre as tabelas dimensão e a tabela fato.

E) não há limitação quanto ao número de tabelas dimensão.

15 – 2018 – FCC – SABESP – Analista de Gestão – Um Analista está

trabalhando em um Data Warehouse − DW que utiliza no centro do

modelo uma única tabela que armazena as métricas e as chaves para as

tabelas ao seu redor (que descrevem os dados que estão na tabela

central) às quais está ligada. O esquema de modelagem utilizado pelo

DW, a denominação da tabela central e a denominação das tabelas

periféricas são, respectivamente,







Minicurso

Aula 3


GARARITO

Referência Bibliográfica:

1. SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. Sistema de banco

de dados. São Paulo: Makron Books, 1999.

2. DATE, C. J. Banco de dados: tópicos avançados. Rio de Janeiro: Campus,

1988.

3. ELMASRI, R.; NAVATHE, S. B.. Sistemas de Banco de Dados. 7a ed.,

Pearson-Addison-Wesley, 2018.

1 2 3 4 5 6 7 8 9 10

D C C C C C C E E C

11 12 13 14 15 16 17 18 19 20

C E E E B

Chegamos ao fim do minicurso de Banco de Dados,

espero que com essas aulas você tenha condições de

verificar a qualidade do nosso material e ainda tenha te

agregado conhecimento para acertar algumas questões

na sua prova de banco de dados.

Desejo boa sorte e bons estudos!

banco de dados para concursos públicos · 2019-11-18 · banco de dados para concursos públicos...

Documents