anÁlise exploratÓria de dados 2ª partemarcelo/aula03cpgcc.pdf · 2015. 2. 25. · 3 medidas de...
TRANSCRIPT
![Page 1: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/1.jpg)
1
ANÁLISE EXPLORATÓRIA DE DADOS – 2ª PARTE
![Page 2: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/2.jpg)
Medidas de síntese
TERCEIRA maneira de resumir um conjunto de dados referente a uma variável quantitativa.
2
Dispersão
Locação
Separatrizes
x % x % x % x %
Forma da distribuição: assimetria, curtose
![Page 3: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/3.jpg)
3
Medidas de síntese
Medidas de tendência central, locação ou de posição: Média Aritmética, Mediana e Moda.
Medidas de dispersão ou de variabilidade: Intervalo, variância, desvio padrão, coeficiente de variação.
Separatrizes: dividem o conjunto em um certo número de partes iguais: quartis, decis, centis.
Medidas de curtose e assimetria: forma da distribuição.
![Page 4: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/4.jpg)
4
Média aritmética simples
CENTRO DE MASSA do conjunto de dados.
SEMPRE há média para um conjunto de dados e ela é ÚNICA.
Pode ser distorcida por valores discrepantes (outliers).
n
x
x
n
i
i 1
![Page 5: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/5.jpg)
5
Média aritmética simples
Deseja-se estudar o número de falhas a cada 10000 mensagens enviadas, considerando três algoritmos diferentes para o envio dos pacotes:
Algoritmo A (8 observações)
20 21 21 22 22 23 23 24
Algoritmo B (8 observações)
16 18 20 22 22 24 26 28
Algoritmo C (7 observações)
15 22 23 23 23 24 24
Média = 22
Média = 22
Média = 22
![Page 6: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/6.jpg)
6
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
A
B
C
Número de falhas
Diagramas de Pontos
Algoritmo
![Page 7: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/7.jpg)
7
Mediana
Divide o conjunto de dados em duas partes iguais: METADE (50%) dos dados é menor do que a mediana e a outra metade é maior do que a mediana.
PMd = (n+1)/2
Elemento que está na posição da mediana.
Se PMd for fracionário: faz-se a média entre os valores nas posições imediatamente anterior e posterior.
![Page 8: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/8.jpg)
8
Mediana
Deseja-se estudar o número de falhas a cada 10000 mensagens, considerando três algoritmos diferentes para o envio dos pacotes:
Algoritmo A (8 observações)
20 21 21 22 22 23 23 24
Algoritmo B (8 observações)
16 18 20 22 22 24 26 28
Algoritmo C (7 observações)
15 22 23 23 23 24 24
Mediana = 22
Mediana = 22
Mediana = 23
![Page 9: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/9.jpg)
9
Separatrizes: Quartis
25% 25%
25%
25%
Q I
Quartil
inferior
M d
mediana
Q S
Quartil
superior
![Page 10: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/10.jpg)
10
Moda
Moda é o valor mais frequente do conjunto de dados. Teoricamente é o valor mais provável.
Única moda, várias modas ou nenhuma moda.
Costuma ser utilizada em conjunção com média e mediana para avaliar a simetria do conjunto de dados.
![Page 11: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/11.jpg)
11
Avaliação de assimetria por média, mediana e moda
MédiaMediana
Moda
freq
ModaMediana
Média
freq.
Moda = Média = Mediana
freq.
Assimétrica
à esquerda
ou negativa
Assimétrica
à direita
ou positiva
Simétrica
![Page 12: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/12.jpg)
12
Avaliação da assimetria por mediana e quartis
25% 25%
25%
25%
Q I
Quartil
inferior
M d
mediana
Q S
Quartil
superior
Assimétrica
à direita
ou positiva
![Page 13: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/13.jpg)
13
Avaliação da assimetria por mediana e quartis
25%
25%
25%
25%
Q I
Quartil
inferior
M d
mediana
Q S
Quartil
superior
Simétrica
![Page 14: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/14.jpg)
14
Como medir a dispersão? Exemplo: A ( 20 21 21 22 22 23 23 24 )
20 21 22 23 24
distância (desvio) em relação à média
Intervalo: diferença entre extremos
![Page 15: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/15.jpg)
15
Desvios
Valores X 20 21 21 22 22 23 23 24
Média X 22
Desvios (X - X) -2 -1 -1 0 0 1 1 2
20 21 22 23 24
-2 -1 0 1 2 Desvios: Soma = 0
![Page 16: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/16.jpg)
16
Desvios quadráticos
Soma
Valores X 20 21 21 22 22 23 23 24 176
Média X 22 -
Desvios X - X -2 -1 -1 0 0 1 1 2 0
Desvios quadráticos
(X-X) 2
4 1 1 0 0 1 1 4 12
![Page 17: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/17.jpg)
17
Variância (S2)
A variância (S2) é uma média dos desvios quadráticos. Por conveniência, usa-se (n-1) no denominador ao invés de n, quando se trata de AMOSTRA!
No exemplo, algoritmo A:
1n
XXS
2
2
S2 = 7
12 = 1,71
![Page 18: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/18.jpg)
18
Desvio padrão
Raiz quadrada positiva da variância.
Possui a mesma unidade que a variável e a média.
No exemplo, algoritmo A:
S = S2
S = 1,71 = 1,31
![Page 19: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/19.jpg)
19
Comparação dos três algoritmos pela média e desvio padrão
Algoritmo falhas X S
A 20 21 21 22 22 23 23 24 22 1,31
B 16 18 20 22 22 24 26 28 22 4,00
C 15 22 23 23 23 24 24 22 3,16
![Page 20: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/20.jpg)
20
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Número de falhas
Algoritmo A
(S = 1,31)
Algoritmo B
(S = 4,00)
Algoritmo C
(S = 3,16)
Diagramas de pontos e valores de S
![Page 21: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/21.jpg)
21
Coeficiente de Variação Percentual
Medida de dispersão relativa.
Permite comparar a dispersão de conjuntos de dados com médias e desvios padrões diferentes.
Indica se os dados estão mais ou menos concentrados em torno da média:
100.%. x
svc
![Page 22: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/22.jpg)
22
Exemplo
X1: 1 2 3
X2: 100 101 102
X3: 100 200 300
média = 2
desvio padrão = 1
coeficiente de variação = 0,5
média = 101
desvio padrão = 1
coeficiente de variação = 0,01
média = 200
desvio padrão = 100
coeficiente de variação = 0,5
![Page 23: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/23.jpg)
23
Escores z (padronizados)
Escore z = (valor - média do conj.) /desvio padrão do conj.
Identificar valores discrepantes (outliers) ou raros e valores “usuais”.
Desigualdade de Chebyshev: pelo menos 75% dos dados estão a até 2 desvios padrões da média, pelo menos 89% dos dados estão a até 3 desvios padrões da média.
![Page 24: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/24.jpg)
24
Escores z
![Page 25: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/25.jpg)
25
Escores z
![Page 26: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/26.jpg)
26
Diagrama em caixas
25%
25% 25%
25%
25% 25% 25%
25%
![Page 27: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/27.jpg)
27
Diagrama em Caixas
![Page 28: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/28.jpg)
28
Assimetria
Quando média e mediana são diferentes: há assimetria.
Medida de assimetria:
3
1
3
)2()1( snn
xxn
Assimetria
n
i
i
Se assimetria = 0, a distribuição é SIMÉTRICA.
Assimetria > 0, a distribuição é assimétrica positiva ou à direita.
Assimetria < 0, a distribuição é assimétrica negativa ou à esquerda
![Page 29: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/29.jpg)
29
Curtose
Medida do “achatamento” da distribuição:
Mesocúrtica: achatamento equivalente ao da curva normal, curtose = 0.
Leptocúrtica: curva afilada, com pico elevado, curtose > 0.
Platicúrtica: curva bem achatada, curtose < 0.
4
1
2
1
2
1
4
)3()2()1(
)1(3)1(
snnn
nxxxxxxnn
Curtose
n
i
i
n
i
i
n
i
i
![Page 30: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/30.jpg)
30
Breakdown
Análise categorizada de uma variável quantitativa (chamada de variável de agrupamento, independente, ou fator):
Comportamento da variável em função dos valores de uma ou mais variáveis qualitativas.
Cálculo de medidas de síntese por grupo definido em função dos valores da variável qualitativa.
Construção de gráficos por grupo definido em função dos valores da variável qualitativa.
![Page 31: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/31.jpg)
31
Breakdown
![Page 32: ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTEmarcelo/Aula03CPGCC.pdf · 2015. 2. 25. · 3 Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética,](https://reader033.vdocuments.pub/reader033/viewer/2022060812/6090ac0068c6f3530270d494/html5/thumbnails/32.jpg)
32
Breakdown Histogram: SALARY: Yearly Salary
SALARY
No o
f obs
DEPART: Bake
10000
15000
20000
25000
30000
35000
40000
45000
50000
0
2
4
6
8
10
12
14
16
18
20
22
24
DEPART: Package
10000
15000
20000
25000
30000
35000
40000
45000
50000
DEPART: Ship
10000
15000
20000
25000
30000
35000
40000
45000
50000
0
2
4
6
8
10
12
14
16
18
20
22
24