descrição e apresentação de dados tabelas: univariadas bivariadas gráficos colunas barras...
TRANSCRIPT
![Page 1: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/1.jpg)
Descrição e Apresentação de Dados
• Tabelas: Univariadas Bivariadas
• GráficosColunasBarrasSetoresLinhaHistogramasPolígono de frequênciasOgivas
![Page 2: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/2.jpg)
Distribuição de frequências:
Variáveis qualitativas nominais: a distribuição de frequências é, simplesmente,
uma lista das categorias ou valores que uma ou mais variáveis apresentam em
conjunto com a quantidade de ocorrências (número) de cada valor ou categoria.
Esta quantidade é denominada de frequência absoluta (No.). Também, podemos
calcular a frequência percentual de cada categoria (%).
Tabela univariada: resume todos os valores ou categorias de uma variável.
Tabela 1: Alunos segundo sexoSexo No. %Feminino 20 69%Masculino 9 31%
Total 29 100%
Apresentação de Dados Qualitativos
![Page 3: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/3.jpg)
20
9
0 5 10 15 20
Feminino
Masculino
Distribuição de alunos segundo o sexo
Feminino69%
Masculino31%
• Gráficos para variáveis Nominais:
Tabela 1: Alunos segundo sexoSexo No. %Feminino 20 69%Masculino 9 31%
Total 29 100%
Apresentação de Dados Qualitativos
![Page 4: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/4.jpg)
Apresentação de dados qualitativos
Idade Feminino Masculino Total
17|---19 2 0 2
10% 0% 7%
19|---21 11 5 16
55% 56% 55%
21|---23 4 2 6
20% 22% 21%
> =23 3 2 5
15% 22% 17%
TOTAL 20 9 29
100% 100% 100%
Sexo
Tabela bi-variada: resume todos os valores ou categorias de duas variáveis.
Tabela 2: Alunos segundo sexo e idade
![Page 5: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/5.jpg)
Tabela bi-variada: resume todos os valores ou categorias de duas variáveis.
Usa o computador?
Sexo
Feminino Masculino TotalSim 55% 21% 76%Não 14% 10% 24%Total 69% 31% 100%
Apresentação de dados qualitativos
Tabela 3: Distribuição de alunos segundo o usa do computador por sexo
![Page 6: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/6.jpg)
Perspectiva dos Funcionários
0%
5%
10%
15%
20%25%
30%
35%
40%
45%
1 2 3 4 5 6 7 8 9 10Perspectiva inicial Perspectiva f inal
Tabela 4: Perspectiva inicial e atual dos funcionários
Escala
Perspectiva Inicial Perspectiva Final
No. % No. %
1 0 0% 0 0%
2 0 0% 0 0%
3 0 0% 0 0%
4 0 0% 0 0%
5 1 3% 0 0%
6 3 10% 1 3%
7 6 20% 4 13%
8 10 33% 5 17%
9 5 17% 8 27%
10 5 17% 12 40%
Total 30 100% 30 100%
•Variáveis Ordinais
Apresentação de dados qualitativos
![Page 7: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/7.jpg)
Distribuição de frequências - dados agrupados - Geralmente trabalhamos com
conjuntos de centenas ou milhares de observações, onde uma análise razoável
torna-se impraticável. Taxa de desistência de
cartões de crédito
CREDICARD
Ponto médioxi
Freq. Absoluta
Freq. Cumulada Crescente
0,0 ├ 10,0 5 1 1
10,0 ├ 20,0 15 10 11
20,0 ├ 30,0 25 15 26
30,0 ├ 40,0 35 7 33
40,0 ├ 50,0 45 0 33
50,0 ├ 60,0 55 0 33
60,0├ 70,0 65 1 34
Total 34
Nestes casos, podemos
construir distribuições de
frequências, agrupando
resultados em classes pré
estabelecidas. As classes
são pequenos intervalos
mutuamente exclusivos.
Apresentação de dados quantitativos
![Page 8: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/8.jpg)
Distribuição da taxa de desistência de cartões de crédito
0
2
4
6
8
10
12
14
16
0 5 15 25 35 45 55 65
Distribuição da taxa de desistência de cartões de crédito
0
2
4
6
8
10
12
14
16
0 5 15 25 35 45 55 65
Curva da distribuição percentual acumulada da taxa de desistência de cartões de crédito
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 5 15 25 35 45 55
Ogiva
Polígono de Freqüências Histograma de Freqüências
![Page 9: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/9.jpg)
Estatísticas Descritivas
•Medidas de tendência central
• Medidas de dispersão
• Medidas separatrizes
![Page 10: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/10.jpg)
Medidas de tendência central:
• Moda
• Mediana
• Média aritmética
?Xt
![Page 11: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/11.jpg)
Idade Freq. absoluta
18 4 19 8 20 9 21 6 22 3 23 6 25 3 26 1 27 1 30 1 38 2 44 1
Total 45
Maior freqüência
Moda = 20
• A moda é o valor que ocorre mais freqüentemente nos dados.
No exemplo abaixo, observamos que a moda é 20. Esta é a idade mais freqüente no grupo de 45 pessoas.
![Page 12: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/12.jpg)
Muitas vezes a moda pode não ser uma boa medida descritiva, dado que para calcular a moda não são usadas todas as observações;
A moda pode não ser um único valor, isto é, as observações podem apresentar mais de uma moda;
Não podemos combinar modas para calcular uma média modal de duas modas separadas na distribuição;
A moda é uma medida volátil, sensível a pequenas mudanças nas observações;
A moda não é afetada por valores extremos (outliers).
As propriedades da moda podem ser resumidas como segue:
![Page 13: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/13.jpg)
A mediana é o valor médio central após ordenarmos os dados em forma ascendente.
(50%) (50%)
![Page 14: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/14.jpg)
Para calcular a mediana devemos realizar os seguintes passos:
• ordenar as observações em forma ascendente;
• identificar o meio ou centro das observações;
• o valor médio central das observações é a mediana.
Algebricamente, a mediana é o valor que ocupa a posição .
Caso a razão não seja um número inteiro, toma-se como
mediana a média dos dois valores de posições mais próximas a
. 2
)1( n
2
)1( n2
)1( n
![Page 15: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/15.jpg)
Na tabela de distribuição de freqüências do exemplo, observamos que o centro das observações está na posição (45+1)/2 = 23,
Idade Freq. absoluta
Freq. Acumulada
18 4 4 19 8 12 20 9 21 21 6 27 22 3 30 23 6 36 25 3 39 26 1 40 27 1 41 30 1 42 38 2 44 44 1 45
Total 45
Observações nas posições 22, 23, 24, ... 27.
Mediana = 21
![Page 16: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/16.jpg)
É possível determinar graficamente a mediana da distribuição de freqüências, usando a curva da freqüência acumulada (ogiva). Para o exemplo, a curva da distribuição percentual acumulada da distribuição de idades é mostrada na figura abaixo
Como no eixo vertical está marcada
a freqüência percentual,localizamos
o valor 50%. Deste ponto puxamos
uma linha na horizontal até a ogiva,
e uma linha vertical até a interseção
com o eixo dos x’s.Assim, a mediana
corresponde à idade de 20 anos.
![Page 17: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/17.jpg)
A mediana não é volátil como a moda.
A mediana, da mesma forma que a moda, não é particularmente sensível a valores extremos.
A mediana toma sempre um único valor.
A mediana é igual a um valor observado se o número de observações (n) é um número ímpar.
A mediana pode ser determinada graficamente.
As propriedades da mediana podem ser resumidas como segue:
![Page 18: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/18.jpg)
Média aritmética
O conceito da média aritmética, ou simplesmente média, é bastante familiar.
Para calcular a média, soma-se todas as observações e divide-se
pelo número de valores somados. Matematicamente, se as n
observações são representadas como: X1, X2, ... Xn, a média
aritmética pode ser escrita como:
que pode ser representada numa forma mais sucinta
n
XXXX n
21
n
XX
![Page 19: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/19.jpg)
5,2245
1012X
No exemplo 2, a idade média é calculada como:
Idade Xi
Freq. Absoluta fi
Xi fi
18 4 72 19 8 152 20 9 180 21 6 126 22 3 66 23 6 138 25 3 75 26 1 26 27 1 27 30 1 30 38 2 76 44 1 44
Total 45 1012
X1f1 = 18 x 4 = 72
X1f1+ X2f2+ ... + X12f12 = 1012
![Page 20: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/20.jpg)
if Xxi 2
Xxi ii fXx2
Taxa de desistencia de
cartões de crédito
CREDICARD
Ponto médioxi
Freq. Absoluta
(desvio) = (desvio)2 =
0,0 ├ 10,0 5 1 -19,7 388,09 388,09
10,0 ├20,0 15 10 125,3 15700,09 157000,9
20,0 ├30,0 25 15 350,3 122710,1 1840651
30,0 ├40,0 35 7 220,3 48532,09 339724,6
40,0 ├50,0 45 0 -24,7 610,09 0
50,0 ├60,0 55 0 -24,7 610,09 0
60,0├70,0 65 1 40,3 1624,09 1624,09
Total 34 2339389
34
2339389
11
2
2
n
fXxS
n
iii
68805,5588 e S = 262,3081.
Desvio padrão para dados em intervalos de classe
![Page 21: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/21.jpg)
As propriedades da média aritmética podem ser resumidas como
segue:
•· Para calcular a média usa-se todas as observações disponíveis.
•· A média é afetada por valores extremos.
•· A média é uma medida estável a pequenas mudanças das
observações.
•· A média não necessariamente será igual a um dos valores
observados.
•· A média não pode ser determinada graficamente.
![Page 22: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/22.jpg)
Medidas de tendência central
Tipo de variávelNominal Ordinal Quantitativo
sModa sim sim simMediana não sim simMédia não não sim
A escolha das medidas de tendência central
![Page 23: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/23.jpg)
Comparação entre as medidas de tendência central:
Posições relativas da média, mediana e moda
(a) Distribuição simétrica Media
Mediana Moda
Média Moda Mediana (c) Distribuições assimétricas negativas
Moda Média Mediana (b) Distribuições assimétricas positivas
![Page 24: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/24.jpg)
Medidas de Dispersão
• Amplitude total dos dados (AT)
AT = Xmax - Xmin.
Esta medida depende apenas do menor e do maior valor
do conjunto de dados. Em geral não é tão boa quanto as
outras medidas de variação que levam em conta todos os
valores.
![Page 25: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/25.jpg)
• Desvio Médio (DM)
O desvio pela diferença
di = (Xi – média)
mede o quão longe o dado está da média. Entretanto, a soma
desses desvios sempre é igual a zero. Assim, uma medida de
dispersão pode ser definida como o módulo dos desvios:
n
XX
n
dDM
ii
![Page 26: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/26.jpg)
• Variância (2, S2)
• Desvio Padrão (, S)
N
XX i
2
2
)(
Outra medida de dispersão é definida como o desvio quadrático (desvio)2.
2SS
1
)( 2
2
n
XX
Si
2
![Page 27: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/27.jpg)
Para Entender o Desvio-Padrão
• Devemos ter em mente que o desvio padrão mede a variação entre
valores.
• Valores próximos uns dos outros originam desvios-padrão menores,
enquanto valores muito afastados uns dos outros dão um desvio-padrão
maior.
• Uma regra prática que utiliza a amplitude para obter uma estimativa
bastante rudimentar do desvio padrão é:
Uma regra prática: Desvio padrão
4
amplitude
![Page 28: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/28.jpg)
Regra empírica: aplicável somente a conjuntos de dados com distribuição aproximadamente simétrica (forma de sino).
68%
95%
99%
3X2X3X 2X XX X
![Page 29: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/29.jpg)
•Coeficiente de Variação (CV)
N
XX i
2
2
)(
n
XX
Onde:
é a média aritmética e
e a variância.
%100
CV %100
X
SCV
1
)( 2
2
n
XX
Si
![Page 30: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/30.jpg)
Outras Medidas de Posição:
• Quartis: Divide a distribuição em 4 partes iguais. Há três quartis denotados por Q1, Q2 e Q3 ,que dividem os dados ordenados em 4
grupos com 25% das observações em cada grupo;
• Decis: Divide a distribuição em 10 partes iguais. Há nove decis, denotados por D1, D2, ... D9 , que dividem os dados em 10 grupos
com cerca de 10% das observações em cada grupo.
• Percentis: Divide a distribuição em 100 partes iguais. Há 99 percentis, que dividem os dados em 100 grupos com cerca de 1% das observações em cada grupo.
![Page 31: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/31.jpg)
700000600000500000400000300000200000C E E
Diagrama em caixas – Box-Plot
Pontos discrepantes
![Page 32: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/32.jpg)
700000600000500000400000300000200000C E E
Diagrama em caixas – Box-Plot
Valores maiores do que Q3 + 1,5(Q3 - Q1) ou menores do que
Q1 - 1,5(Q3 - Q1) são considerado atípicos.
Atípicos
Atípicos
Q1 Q2 Q3
Q3 + 1,5(Q3 - Q1)
Q1 - 1,5(Q3 - Q1)
![Page 33: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/33.jpg)
Valores maiores do que Q3 + 3(Q3 - Q1) ou menores do que
Q1 - 3(Q3 - Q1) são considerados outliers.
700000600000500000400000300000200000C E E
Q1 Q2 Q3
Q3 + 3(Q3 - Q1)
Q1 - 3(Q3 - Q1)
Outliers Outliers
![Page 34: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/34.jpg)
Medidas de Assimetria
Primeiro Coeficiente de Pearson:
Segundo Coeficiente de Pearson:
S
MXAou
MXA o
so
s
13
213 2
QQQAs
Se As < 0 a distribuição é assimétrica negativa;
As = 0 a distribuição é simétrica;
As > 0 a distribuição é assimétrica positiva.
![Page 35: Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras Setores Linha Histogramas Polígono de frequências Ogivas](https://reader036.vdocuments.pub/reader036/viewer/2022062512/552fc16a497959413d8ebedd/html5/thumbnails/35.jpg)
Medidas de CurtoseCurtose é o grau de achatamento de uma distribuição que pode ser medido utilizando o seguinte coeficiente:
Onde: Q1 e Q3 são os quartis, P90 e P10 são os percentis.
1090
13
2 PP
QQK
K < 0,263 a distribuição de freqüências é leptocúrtica.
Se K > 0,263 a distribuição
de freqüências é platicúrtica;
K = 0,263 a distribuição de
freqüências é mesocúrtica;