introdução à análise de dados ii · estatísticas descritivas de proficiência, por horas de...
TRANSCRIPT
Introdução à Análise de
Dados II
Clécio S. Ferreira
UFJF – Departamento de Estatística
2013
Roteiro
1. Introdução
2. Relações entre variáveis
3. Regressão
4. Testes de Hipóteses
5. Introdução à Probabilidade
Introdução
Introdução
• Apresentação do professor
• Objetivo e ementa da disciplina
Variáveis
- Qualquer característica associada a uma
população
- Classificação de variáveis:
Quantitativa
Qualitativa Nominal Sexo, cor dos olhos
Ordinal Classe social, grau de instrução
Contínua
Discreta
Peso, altura, salário
Número de filhos, nº de carros
Análise Bivariada
Duas variáveis Qualitativas
• Tabelas de Frequências cruzadas
• Gráficos de Barras
• Medidas de Associação
Exemplo:
Quantas horas por semana você trabalha? * Você se considera: Crosstabulation
8208 4944 726 929 243 15050
54,5% 32,9% 4,8% 6,2% 1,6% 100,0%
67,2% 61,1% 59,1% 67,5% 58,3% 64,5%
1086 907 150 142 53 2338
46,4% 38,8% 6,4% 6,1% 2,3% 100,0%
8,9% 11,2% 12,2% 10,3% 12,7% 10,0%
1968 1450 221 214 76 3929
50,1% 36,9% 5,6% 5,4% 1,9% 100,0%
16,1% 17,9% 18,0% 15,6% 18,2% 16,8%
959 786 131 91 45 2012
47,7% 39,1% 6,5% 4,5% 2,2% 100,0%
7,8% 9,7% 10,7% 6,6% 10,8% 8,6%
12221 8087 1228 1376 417 23329
52,4% 34,7% 5,3% 5,9% 1,8% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
Não trabalho
Menos de 20
horas por semana
Entre 20 e 44
horas por semana
Mais de 44 horas
por semana
Quantas
horas por
semana você
trabalha?
Total
Branco Pardo/Mulato Negro Amarelo Indígena
Você se considera:
Total
Gráfico de Barras (1)
Gráfico de Barras (2)
Medidas de Associação para Variáveis
Nominais
• Qui-quadrado (estatística)
Positiva
problema: cresce com o tamanho da amostra;
𝑿𝟐 =
(𝑶𝒊𝒋 − 𝑬𝒊𝒋)𝟐
𝑬𝒊𝒋
𝒌
𝒋=𝟏
𝒓
𝒊=𝟏
,
𝑬𝒊𝒋 =𝒏𝒊.𝒏.𝒋
𝑵, 𝒏𝒊.: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒏.𝒋: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.
𝑶𝒊𝒋: 𝒇𝒓𝒆𝒒𝒖ê𝒏𝒄𝒊𝒂 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂 𝒏𝒂 𝒄é𝒍𝒖𝒍𝒂 𝒊, 𝒋 (𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.
Coeficiente de Contingência (CC)
• CC vai de 0 a 1, teoricamente (o que permite comparação
entre quaisquer associações).
• Medida mais geral de Associação.
• O coeficiente de contingência (CC) é outra forma de
corrigir o qui-quadrado.
• O problema com o CC é que seu valor máximo depende do
tamanho da tabela.
O valor máximo de CC para uma tabela 2 x 2 é 0.707. O valor
máximo de CC para uma tabela 4 x 4 é 0.87.
Recomenda-se usar Phi ou V de Cramér antes que CC.
Coeficiente Phi
• Phi pode variar de 0 até +1.
• Ela é mais apropriada para tabelas de
contingência 2 x 2.
V de Cramer
• Apropriado para tabelas maiores que 2 x 2,
corrige o qui-quadrado e varia de 0 to +1.
• Para tabelas 2 x 2, V de Cramér é igual a
Phi.
• Unicamente para variáveis NOMINAIS
L: num. min(linhas, colunas)
Symmetric Measures
,072 ,000
,042 ,000
,072 ,000
23329
Phi
Cramer's V
Contingency Coef f icient
Nominal by
Nominal
N of Valid Cases
Value Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null
hypothesis.
b.
Exemplo: Horas de Trabalho versus Raça
Chi-Square Tests
120,740a 12 ,000
23329
Pearson Chi-Square
N of Valid Cases
Value df
Asy mp. Sig.
(2-sided)
0 cells (,0%) hav e expected count less than 5. The
minimum expected count is 35,96.
a.
Medidas de Associação para variáveis
ordinais
• Ganho em relação às medidas nominais: Direção
de associação; relação mais forte, pois leva em
conta medida da variável (ORDINAL).
• MEDIDAS SIMÉTRICAS (baseadas em pares
concordantes e discordantes): não fazem distinção
entre variáveis dependentes e independentes
• MEDIDAS DIRECIONAIS (assume uma das
variáveis como dependente e vice-versa):
SOMER'S D (D de SOMER)
Medidas Ordinais
• Correlação de Spearman
• Gamma
• Tau-c de Kendall
• Tau-b de Kendall (mais indicado)
Outras medidas direcionais
• Coeficiente de Incerteza
• Lambda
• Tau de Goodman & Kruskal
Exemplo: Escolaridade do Pai versus Horas de
Trabalho
Até que série seu pai estudou? * Quantas horas por semana você trabalha? Crosstabulation
933 275 456 310 1974
47,3% 13,9% 23,1% 15,7% 100,0%
6,8% 13,1% 12,9% 17,4% 9,4%
3164 796 1505 855 6320
50,1% 12,6% 23,8% 13,5% 100,0%
23,1% 37,9% 42,6% 48,0% 30,0%
2077 381 648 348 3454
60,1% 11,0% 18,8% 10,1% 100,0%
15,2% 18,1% 18,4% 19,5% 16,4%
3511 397 613 203 4724
74,3% 8,4% 13,0% 4,3% 100,0%
25,7% 18,9% 17,4% 11,4% 22,4%
3995 251 308 67 4621
86,5% 5,4% 6,7% 1,4% 100,0%
29,2% 12,0% 8,7% 3,8% 21,9%
13680 2100 3530 1783 21093
64,9% 10,0% 16,7% 8,5% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0%
Nunca estudou
Ensino Fundamental
de 1ª a 4ª série
Ensino Fundamental
de 5ª a 8ª série
Ensino Médio
Faculdade (Ensino
Superior)
Até que série
seu pai
estudou?
Total
Não trabalho
Menos de
20 horas por
semana
Entre 20 e
44 horas por
semana
Mais de 44
horas por
semana
Quantas horas por semana v ocê trabalha?
Total
Exemplo: Escolaridade do Pai versus
Horas de Trabalho
Directional Measures
-,264 ,005 -50,167 ,000
-,324 ,006 -50,167 ,000
-,223 ,004 -50,167 ,000
Sy mmetric
Até que série seu pai
estudou? Dependent
Quantas horas por
semana você
trabalha? Dependent
Somers' dOrdinal by Ordinal
Value
Asy mp.
Std. Errora
Approx. Tb
Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Symmetric Measures
,305 ,000
-,269 ,005 -50,167 ,000
-,231 ,005 -50,167 ,000
-,411 ,008 -50,167 ,000
-,314 ,006 -47,988 ,000c
-,307 ,006 -46,798 ,000c
21093
Contingency Coef f icientNominal by Nominal
Kendall's tau-b
Kendall's tau-c
Gamma
Spearman Correlation
Ordinal by Ordinal
Pearson's RInterv al by Interval
N of Valid Cases
Value
Asy mp.
Std. Errora
Approx. Tb
Approx. Sig.
Not assuming the null hypothesis.a.
Using the asymptotic standard error assuming the null hypothesis.b.
Based on normal approximation.c.
Variável Quantitativa versus Qualitativa
• Gráficos: Box-plot, Histogramas e Ramo-e-
Folhas:
• Podem ser utilizados para comparações entre
diferentes grupos de dados
• Medidas resumo: Estatísticas descritivas
para cada categoria do grupo (médias,
medianas, desvios-padrão, etc.
Box-plot de Proficiência, por Horas de
trabalho, 3ª EM, Matemática
Histogramas de Proficiência, por Horas
de trabalho, 3ª EM, Matemática
Estatísticas Descritivas de Proficiência,
por Horas de trabalho, 3ª EM, Matemática
Statistics
PROFIC
1915 142285 29750 55612 31993
0 0 0 0 0
247,2303 291,2813 262,2107 270,3457 268,2805
47,90209 60,59567 48,42710 46,36295 48,16771
393,85 471,39 451,70 433,99 431,39
207,2467 245,2012 223,7307 232,9810 231,7239
232,6931 283,8920 252,0079 269,3548 267,8545
282,3804 331,7499 294,3062 304,0934 299,2855
Valid
Missing
N
Mean
Std. Dev iation
Maximum
25
50
75
Percent iles
. Não trabalho
Menos de 20
horas por semana
Entre 20 e 44
horas por semana
Mais de 44 horas
por semana
Quantas horas por semana v ocê trabalha?
Duas Variáveis Quantitativas
• Gráfico: Diagrama de Dispersão
• Gráfico de pares ordenados por elementos da
amostra (indivíduos)
• É a maneira mais simples de se estudar a relação
entre duas variáveis quantitativas
• Objetivo:
Ocorrência de tendências (lineares ou não)
Agrupamentos de uma ou mais variáveis
Mudanças de variabilidade de uma variável em relação à
outra
Ocorrência de valores atípicos (‘outliers’)
Exemplo de Correlação (P)
Exemplo de Correlação (N)
Exemplo de Correlação (0)
Exemplo
• Altura (cm) e peso (kg) de crianças até 1 ano
Altura Peso
52 2,95
50 3,15
62 4,58
63 6,50
55 3,50
72 9,50
75 10,13
69 8,57
65 7,10
64 5,60
66 6,90
61 4,50
57 4,30
67 7,89
50 55 60 65 70 75
34
56
78
91
0
Altura
Pe
so
Peso e Altura
• Qual a relação entre o peso e a estatura das
pessoas?
• Percebem-se ‘clusters’ no conjunto de
dados?
• Há diferenças na variabilidade de uma
variável, considerados os valores da outra?
• Há valores atípicos?
Relação entre consumo de proteínas e
natalidade
• Qual relação entre as variáveis?
Pais Consumo de Proteínas Coeficiente de Natalidade
Formosa 4,7 45,6
Malásia 7,5 39,7
Índia 8,7 33,0
Japão 9,7 27,0
Iuguslávia 11,2 25,9
Grécia 15,2 23,5
Itália 15,2 23,4
Bulgária 16,8 22,2
Alemanha 37,3 20,0
Irlanda 46,7 19,1
Dinamarca 56,1 18,3
Austrália 59,9 18,0
Estados Unidos 61,4 17,9
Suécia 62,6 15,0
10 20 30 40 50 60
15
20
25
30
35
40
45
Consumo Proteínas vs Natalidade
Consumo diário de proteínas (g)
Co
eficie
nte
de
na
talid
ad
e
Exemplo
• Interpretação?
• Leituras gráficas
Correlação
• Correlação Positiva:
Se ambas as variáveis crescem no mesmo sentido
• Correlação Negativa:
Se as variáveis crescem em sentidos opostos
• Correlação significativa indica apenas associação
linear entre as variáveis
NÃO INDICA RELAÇÃO DE CAUSALIDADE
Coeficiente de Correlação
• Como quantificar a correlação entre as
variáveis?
Grau de associação
Coeficiente de Correlação de Pearson
• O numerador mede o total da concentração
de pontos pelos quatro quadrantes
• Dá origem uma medida bastante usada
• (notem que n-1 se elimina)
YYXX
XY
n
i
i
n
i
i
n
i
ii
SS
S
yyn
xxn
yyxxn
r
1
2
1
2
1
)(1
1)(
1
1
))((1
1
Notação
: i-ésimo valor observado da variável x
: i-ésimo valor observado da variável y
: média dos valores observados da
variável x (média amostral)
: média dos valores observados da
variável y (média amostral)
ix
x
iy
y
Propriedades de r
• Mede a intensidade de relacionamento linear
• r é adimensional e – 1 ≤ r ≤ 1
r = 1 ou -1 correlação linear perfeita
r = 0 correlação linear nula
• O valor de r não é afetado pela escolha de x
ou y.
Propriedades de r
• A conversão da escala de qualquer das
variáveis não altera o valor de r
• O valor de r não é alterado com a permutação
de valores de x e y.
Diagramas de Dispersão (1)
Diagramas de Dispersão (2)
Diagramas de Dispersão (3)
Existe uma relação de dependência NÃO –LINEAR
entre as variáveis.
X
X^
2
1050-5-10
100
80
60
40
20
0
r = 0,0
Exemplo – Hábito de Fumar
• Dados sobre hábito de fumar entre homens e
mortalidade por câncer de pulmão, na Inglaterra:
Fonte: The Data and Story Library
http://lib.stat.cmu.edu/DASL/
Índice de mortalidade: razão da taxa de mortes sobre a
taxa global de mortes (por câncer de pulmão).
Índice de fumo: razão do número médio diário de
cigarros fumados sobre a média global de cigarros.
Índice de fumo
Índ
ice
de
mo
rta
lida
de
14013012011010090807060
150
125
100
75
50
Hábito de Fumar vs. Câncer de Pulmão
Por grupo ocupacional
r = 0,716
• Percebe-se uma correlação positiva entre
as duas variáveis.
Exemplo
• Relação entre taxa de metabolismo e massa
• Evidências empíricas:
Associação linear e positiva
Associação mais forte entre a mulheres
6560555045403530
2000
1800
1600
1400
1200
1000
Massa (kg)
Ta
xa
Me
tab
olis
mo
(ca
l)
F
M
Sexo
r=0.87
rM=0.59
rF=0.88
• Valores médios dos grupos
MTB > describe c3 c4;
SUBC> by c2;
SUBC> stdev;
SUBC> mean.
Descriptive Statistics: Massa; Taxa Variable Sexo Mean StDev
Massa F 43,03 6,87
M 53,10 6,69
Taxa F 1235,1 188,3
M 1600,0 189,2
• Evidências empíricas:
Variabilidade semelhante entre os grupos;
Poucos homens com peso menor, poucas mulheres com peso
maior
Possíveis influências na correlação:
– Peso;
– Sexo;
– Variável não apresentada
Correlação – Erros Comuns
• Causalidade:
Uma correlação forte (r vizinho de +1 ou –1)
não implica uma relação de causa e efeito.
O fato de duas grandezas tenderem a variar no
mesmo sentido não implica a presença de
relacionamento causal entre elas.
Correlação e Causalidade
Perguntas pertinentes, no caso de correlação
significante entre as variáveis:
• Há uma relação de causa e efeito entre as
variáveis? (x causa y? ou vice-versa)
Ex.: Relação entre gastos com propaganda e
vendas
É razoável concluir que mais propaganda
resulta mais vendas
Correlação e Causalidade (2)
• É possível que a relação entre duas
variáveis seja uma coincidência?
Ex.: Obter uma correlação significante entre
o número de espécies animais vivendo em
determinada área e o número de pessoas
com mais de 2 carros, não garante
causalidade
É bastante improvável que as variáveis
estejam diretamente relacionadas.
Correlação e Causalidade (3) • É possível que a relação das variáveis tenha sido
causada por uma terceira variável (ou uma
combinação de muitas outras variáveis)?
Ex: Tempo dos vencedores das provas masculina e
feminina dos 100 m rasos (numa mesma prova)
Os dados tem correlação linear positiva; é
duvidoso dizer que a diminuição no tempo
masculino cause uma diminuição no tempo
feminino;
A relação deve depender de outras variáveis:
técnica de treinamento, clima, etc.
Correlação e Causalidade (4)
• A flutuação de uma 3ª variável faz com que X e
Y variem no mesmo sentido;
Esta 3ª variável é chamada variável intercorrente
(não-conhecida);
A falsa correlação originada pela 3ª variável é
denominada correlação espúria;
Atividade 1
Noções de Regressão
Regressão e Correlação
• Regressão:
Usa variável(eis) explicativa(s) para
explicar ou predizer comportamento de
variável resposta (quando houver
sentido).
• Correlação:
Trata simetricamente duas variáveis
Regressão
• Variável resposta (Y):
Variável resposta cujo comportamento se
quer explicar
• Variável(eis) explicativa(s) (Xi):
São de interesse caso ajudem a entender,
explicar ou predizer o comportamento de Y.
• O enfoque da regressão é natural quando Y é
aleatória e Xi é controlada ou não-aleatória.
• Variável explicativa
• Variável independente
• Regressor
• Preditor
• Variável exógena
• Variável de controle ou
estímulos
• Variável explicada
• Variável dependente
• Regredido
• Predito
• Variável endógena
• Variável resposta
x Y
Algumas Denominações
Exemplo 1 – Peso/Altura de Estudantes
• Variável resposta: Peso (kg)
• Variável explicativa: Altura (cm)
Tendência linear
Exemplo 2 – Absorção de Oxigênio
• Variável resposta: Absorção de Oxigênio
• Variável explicativa: Ventilação
Ventilação
Ab
so
rçã
o d
e O
xig
ên
io
45004000350030002500200015001000500
160
140
120
100
80
60
40
20
0
Tendência
exponencial
Exemplo 3 – Comprimentos de Fígados
• Variável resposta: Comprimento do fígado (mm)
• Variável explicativa: Tempo de gestação (sem.)
Tempo de Gestação (sem.)
Co
mp
rim
en
to d
o f
íga
do
(m
m)
40353025201510
70
60
50
40
30
20
10
Tendência
não-linear
Outros Padrões (2)
Preço ($ 1.000)
Pe
so
(1
.00
0 lb
)
1750015000125001000075005000
5000
4500
4000
3500
3000
2500
2000
Importante descobrir o que define os grupos
Outros Padrões (3)
Comprimento da pétala
La
rgu
ra d
a p
éta
la
7654321
2,5
2,0
1,5
1,0
0,5
0,0
Variedades diferentes de Flores
Modelo de Regressão
• Relação de regressão:
• Tendência + dispersão residual
• Objetivo: Explicar a variação de Y
(resposta) pelas variáveis de X (variáveis
explicativas)
• Valores atípicos:
Observações muito diferentes do restante dos
dados => modelo não consegue ajustar bem
estes dados
Ajuste de Funções
• Tendência linear:
Para cada mudança de uma unidade em X, Y muda
uma quantidade fixa (β1).
• Tendência quadrática:
Tendência levemente curva
• Modelo linear: linear nos parâmetros
• Modelo não-linear: não linearidade nos parâmetros
Ex:
• Tendência exponencial:
Cada mudança de uma unidade em X, Y muda uma
% fixa
Aplicação: Curvas de crescimento
Se a tendência é exponencial, o gráfico de log(Y)
vs X têm tendência linear
XeY 1
0
x
lnY
4,03,53,02,52,01,51,0
9
8
7
6
5
4
3
2
1
x
Y
4,03,53,02,52,01,51,0
4000
3000
2000
1000
0
Tipos de Regressão Linear
• Simples:
Uma variável independente (explicativa)
• Múltipla:
Duas ou mais variáveis independentes
(explicativas)
Regressão Linear Simples
• Busca-se a equação de uma reta que permita:
Descrever e compreender a relação entre duas
variáveis
Projetar e estimar uma das variáveis em função da
outra.
ii XY 10
Ajuste da Reta
• Qual a reta que se ajusta melhor aos dados?
ou seja quais os valores de β0 e β1?
X
Y
4,03,53,02,52,01,51,0
9
8
7
6
5
4
3
2
1
Método dos Mínimos Quadrados
• Critério:
Escolher β0 e β1 de maneira a tornar
mínima a distância entre a reta e os
pontos
Valores dos parâmetros que minimizam a
soma dos quadrados dos desvios
2
1
)ˆ(
n
i
ii YY
Método dos Mínimos Quadrados (3)
• Resultados das derivadas parciais:
• Relação com coeficiente de correlação:
221
ˆ
ii
iiii
x xn.
yx yxn. =
xx
xy
S
S = 1̂
XY = 10ˆˆ
X
YXY
X
XY
s
sr
s
s =
21̂
Exemplo
• SAEB 99, 4ª série (Português)
• Variável resposta (Y)
Proficiência em Português
• Variável explicativa:
Nível Socioeconômico
Correlação entre proficiência e NSE Correlations
,442
,000
21510
Pearson Correlation
Sig. (2-tailed)
N
NSE
PROFIC
Regressão Simples: Proficiência por
Nível Socioeconômico
Model Summary
,442a ,195 ,195 41,38873
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), NSEa.
ANOVAb
8926900 1 8926899,602 5211,184 ,000a
36843790 21508 1713,027
45770689 21509
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), NSEa.
Dependent Variable: PROFICb.
Coefficientsa
135,102 ,588 229,959 ,000
3,100 ,043 ,442 72,189 ,000
(Constant)
NSE
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: PROFICa.
Interpretação
• Inclinação:
• Quando o NSE aumenta 1 unidade, o aumento estimado na proficiência é de 3.1 pontos.
• As estimativas são mais confiáveis dentro do intervalo de X observado (neste caso, 0 < NSE < 34).
• Intercepto-y
• Seria a proficiência média quando a variável X fosse 0.
MRLS – Adicionando uma variável
binária
Model Summary
,454a ,206 ,206 41,11366
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), sexo, NSEa.
ANOVAb
9371166 2 4685582,990 2771,988 ,000a
36112281 21364 1690,333
45483447 21366
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), sexo, NSEa.
Dependent Variable: PROFICb.
Coefficientsa
139,696 ,645 216,600 ,000
3,126 ,043 ,445 73,028 ,000
-9,465 ,563 -,103 -16,815 ,000
(Constant)
NSE
sexo
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: PROFICa.
Profic. Por NSE e Sexo: Interpretação
• Sexo = 1 (Meninos); 0 (Meninas)
• Controlado o efeito de sexo, o aumento de 1
unidade no NSE aumenta em média 3.1 pontos
na proficiência do aluno.
• Controlado o NSE, as meninas tiram, em
média, 9.5 pontos a MAIS que os meninos.
• MRLS para as meninas
• Profic. = 139.7 + 3.1*NSE
• MRLS para os meninos:
• Profic. = 130.2 + 3.1*NSE
MRLM - Exemplo
• Proficiência dos alunos do 3º EM em
Matemática (sexo: Feminino é a referência)
Coefficientsa
184,787 ,400 462,526 ,000
2,524 ,020 ,274 123,420 ,000
10,949 ,104 ,233 105,150 ,000
12,045 ,206 ,105 58,489 ,000
6,235 ,077 ,144 80,846 ,000
(Constant)
NSE
Escolaridade dos pais
(máxima)
Sexo
Você f az lição de casa
(Nº de horas)?
Model
1
B Std. Error
Unstandardized
Coef f icients
Beta
Standardized
Coef f icients
t Sig.
Dependent Variable: PROFICa.
Model Summary
,492 ,242 ,242 49,31996
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
ANOVAb
1,9E+008 4 47890941,70 19688,286 ,000
6,0E+008 246912 2432,459
7,9E+008 246916
Regression
Residual
Total
Model
Sum of
Squares df Mean Square F Sig.
Dependent Variable: PROFICb.
MRLM da Proficiência dos alunos do
3ºEM em Matemática - Interpretação
• Controladas as demais variáveis:
O acréscimo de 1 unidade no NSE, aumenta, em
média, 2.5 pontos na proficiência.
Alunos cujos pais têm maior escolaridade alcançam
melhor desempenho no exame (em média 11 pontos
por nível).
Meninos tiram, em média, 12 pontos a mais na
prova em relação às meninas.
Quanto maior a dedicação às lições de casa, melhor
o desempenho no exame.
MRLM: Qualidade do Ajuste
• R2 (coeficiente de determinação): Proporção
da variação da var. dependente explicada
pela variação da(s) variável(is)
independente(s); 0 < R2 < 1.
• Etapa posterior ao ajuste: verificação dos
pressupostos do modelo (normalidade,
homogeneidade de variância, baixa
correlação entre as variáveis explicativas,
linearidade, outliers, etc.).
Atividade 2
Testes de Hipóteses
Exemplo do Júri
Réu: Pode ser culpado ou inocente
Juiz: dará a sentença: culpado ou inocente.
Hipótese nula: “réu é inocente!”
Erros possíveis:
Erro I: juiz dar a sentença culpado, quando na
verdade o réu é inocente;
Erro II: juiz dar a sentença inocente, quando na
verdade o réu é culpado;
Qual erro é mais grave?
O que é uma Hipótese
Em Estatística, é uma alegação ou afirmação sobre uma característica de uma população.
Componentes de um
Teste de Hipóteses Formal
Hipótese Nula: H0 Afirmação sobre valor de parâmetro
populacional Deve conter a condição de igualdade =, , ou
Testar a Hipótese Nula diretamente
Rejeitar H0 ou não rejeitar H0
Componentes de um
Teste de Hipóteses Formal
Hipótese Alternativa: H1
Deve ser verdadeira se H0 é falsa
, <, >
‘oposto’ da Hipótese Nula.
Hipóteses Nula e Alternativa no MRLM
• No MRLM, ao incluirmos variáveis
explicativas ao modelo, gostaríamos
de saber se (cada) variável é
significativa (contribui para explicar
a variável dependente) ou não. Ou
seja:
• H0: Beta (coeficiente de regressão da
variável) = 0
• H1: Beta ≠ 0
Nota sobre a Indicação de suas Próprias
Afirmações (Hipóteses)
Se você está fazendo uma pesquisa e deseja usar um teste de hipótese para apoiar sua afirmação, esta afirmação deve ser formulada de maneira que se torne a hipótese alternativa (hipótese de pesquisa).
Nota sobre o Teste de Validade de uma
Afirmação Alheia
A afirmação original às vezes se torna a hipótese nula (porque contém a igualdade) e por vezes passa a ser a hipótese alternativa (porque não contém a desigualdade).
Estatística de Teste
um valor baseado nos dados amostras que é
usado para tomar uma decisão sobre a
rejeição da hipótese nula.
Exemplo: para grandes amostras, testando
afirmações sobre médias populacionais
z = x - µ0
n
Nível de Significância
denotado por
é a probabilidade de rejeitar a Hipótese Nula quando ela é verdadeira.
são comuns as escolhas 0,05; 0,01 e 0,10. (É tipicamente predeterminado)
Conclusões no
Teste de Hipóteses
Testar sempre a hipótese nula
1. Rejeitar a hipótese nula H0
2. Não rejeitar a hipótese nula H0
É necessário formular corretamente a conclusão
final.
Aceitar versus Não Rejeitar
alguns textos usam “aceitar a hipótese nula”.
devemos reconhecer que não estamos provando a hipótese nula.
estamos dizendo que a evidência amostral não é forte o suficiente para recomendar a rejeição da hipótese nula (tal como um júri decidir que não há evidência suficiente para condenar um acusado).
Erro Tipo I
O erro de rejeitar a hipótese nula quando ela é verdadeira.
(alfa) é usado para representar a probabilidade de um erro tipo I.
Exemplo: Rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela média é, de fato, 37ºC.
Erro Tipo II
Erro de não rejeitar a hipótese nula quando ela é falsa.
ß (beta) é usado para representar a probabilidade de um erro tipo II.
Exemplo: Não rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela é, de fato, falsa (a média não é 37ºC).
Erros Tipo I e Tipo II
Verdadeiro Estado da Natureza
Decidimos rejeitar
a hipótese nula
Não rejeitamos a
hipótese nula
A hipótese
nula é
verdadeira
A hipótese
nula é
falsa
Erro tipo I
(rejeição de uma
H0 verdadeira)
Erro tipo II
(não rejeição de
uma H0 falsa)
Decisão
correta
Decisão
correta
Decisão
Controle dos Erros Tipo I e Tipo II
Para fixo, um aumento do tamanho n da
amostra ocasiona uma redução de
Para um tamanho n, fixo, de amostra, uma
diminuição de acarreta um aumento de . Reciprocamente, um aumento de acarreta a diminuição de .
Para reduzir e , deve-se aumentar o tamanho da amostra.
Teste de uma Afirmação
sobre uma Média:
Grandes Amostras
Métodos para conclusão dos testes
1) Método do valor P
2) Intervalos de confiança
3) Método Clássico (não será
focado aqui).
* Os três métodos levam à
MESMA conclusão.
Hipóteses para testar afirmações sobre média populacional
1) A amostra é uma amostra aleatória simples.
2) A amostra é grande (n > 30).
a) Aplica-se o Teorema Central do Limite
b) Pode-se usar a distribuição normal
3) Se é desconhecido, podemos utilizar o
desvio-padrão amostral s como uma
estimativa para .
Estatística de Teste para Afirmações sobre µ quando n > 30
x - µ0 z =
n
Teste de Hipóteses para uma Média
Afirmação: = $ 8.390
H0 : = $ 8.390
H1 : $ 8.390
Exemplo: O Departamento de Agricultura alega que o custo
para se criar uma criança (até 2 anos) é US$ 8.390. Seleciona-se uma amostra com 900 crianças com 2 anos e determina-se que o custo médio é $ 8.275, com desvio-padrão 1.540. Teste a afirmação do Departamento ao nível de significância de 0,05.
Passos:
1,2,3) Identificar a Afirmação, H0, H1
4) Selecionar, se necessário, o nível :
= 0,05
Método do Valor P
para o Teste de Hipóteses
O procedimento encontra a probabilidade
(Valor P ou p-valor) de obter um resultado e
rejeita-se a hipótese nula se esta
probabilidade é muito baixa (menor que o
nível de significância adotado).
Valor P: é a probabilidade de obter um valor da estatística amostral de teste no mínimo tão extremo como o que resulta dos dados amostrais, na suposição de a hipótese nula ser verdadeira.
Resultados amostrais
incomuns.
Diferença significante da
hipótese nula.
Valores P pequenos
(tais como 0,05 ou
menor)
Valor P Interpretação
Os resultados
amostrais não são
incomuns.
Não é uma diferença
significante da
hipótese nula.
Valores P grandes
(acima de 0,05 )
Determinação dos Valores P
A
estatística de
teste está à direita ou
à esquerda do
centro
?
Valor P = área
à esquerda da
estatística de teste
Valor P = 2 vezes
a área à esquerda
da estatística de teste
Valor P = área
à direita da
estatística de teste
Unilateral esquerdo Unilateral direito
À direita À esquerda
Bilateral
Valor P = 2 vezes
a área à direita
da estatística de teste
Que
tipo de teste
?
µ µ µ µ Estatística de teste Estatística de teste Estatística de teste Estatística de teste
Início
Intervalos de Confiança (IC)
• Uma estimativa intervalar de um parâmetro
populacional contém os valores prováveis
daquele parâmetro, calculado a partir de
uma amostra.
• Exemplo: IC para a média populacional, sob
normalidade:
𝑰𝑪𝟎,𝟗𝟓 𝝁 = 𝑿 − 𝟏. 𝟗𝟔
𝝈
𝒏, 𝑿 + 𝟏. 𝟗𝟔
𝝈
𝒏
Conclusão a partir de IC
Se o Intervalo de Confiança obtido através da
amostra contiver o parâmetro testado, não
rejeitamos H0; caso contrário, se o IC não
contiver o parâmetro, rejeitamos H0.
Teste de uma Afirmação
sobre uma Média:
Pequenas Amostras
Hipóteses
* para testar afirmação sobre média populacional
1) A amostra é uma amostra aleatória simples.
2) A amostra é pequena (n 30).
3) O valor do desvio-padrão populacional é desconhecido.
4) A população original tem distribuição essencialmente normal.
Estatística de Teste
Valores Críticos Valores tabelados Distribuição t de
Student.
Graus de liberdade = n -1.
Valores t críticos à esquerda da média são negativos; à direita, positivos.
t = x -µx
s n
Propriedades Importantes da
Distribuição t de Student
1. A distribuição t de Student é diferente para cada tamanho de amostra.
2. A distribuição t de Student tem a mesma forma geral de sino da distribuição normal. Sua forma mais aberta reflete a maior variabilidade esperada em pequenas amostras.
3. A distribuição t de Student tem média t = 0 (tal como a distribuição normal padronizada que tem média z = 0).
4. O desvio-padrão da distribuição t de Student varia com o tamanho da amostra, e é maior do que 1 (ao contrário da distribuição normal
padronizada, em que = 1).
5. À medida que o tamanho n da amostra aumenta, a distribuição t de Student se aproxima da distribuição normal. Para valores de n > 30, as diferenças são tão pequenas que podemos usar os valores críticos z em lugar de elaborar uma tabela muito maior de valores críticos de t. (Os valores na base da Tabela A-3 são iguais aos valores críticos z correspondentes da distribuição normal padronizada.)
Escolha entre a Distribuição Normal e a Distribuição t ao Testar uma Afirmação sobre a Média Populacional µ
n > 30?
A distribuição da
população é essencialmente normal ? (Trace um
histograma)
Não
Sim
Sim
Não
Não
é
conhecido
?
Use a distribuição normal com
x - µx
/ n Z
(Se é desconhecido, use s.)
Use métodos não-paramétricos,
que não exijam uma distribuição
normal.
Use a distribuição normal com
x - µx
/ n Z
(Este caso é raro.)
Use a distribuição t de Student
com x - µx
s/ n t
Início
Teste de uma Afirmação
sobre uma Proporção
Hipóteses
para testar afirmação sobre proporção populacional
1) A amostra é uma amostra aleatória simples.
2) São verificadas as condições para um experimento binomial.
3) As condições np 5 e n(1-p) 5 são ambas satisfeitas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada
por uma distribuição normal com µ = np e
= np(1-p)
Notação
p = proporção populacional (usada na
hipótese nula)
q = 1 - p
n = número de provas
p = x/n (proporção amostral)
p - p
pq
n
z =
Estatística de Teste de uma
Afirmação sobre uma Proporção
Inferências com Base em Duas
Amostras
1. Inferências sobre Duas Médias: Amostras Independentes e Grandes
2. Inferências sobre Duas Médias: Amostras Dependentes
1. Inferências sobre Duas Médias:
Amostras Independentes e Grandes
Definições
Duas Amostras: Independentes
• Os valores amostrais escolhidos de uma população não tem qualquer relação com os valores amostrais extraídos da outra população.
Se os valores de uma amostra estão relacionados com os valores de outra amostra, as amostras são dependentes. Estas amostras são freqüentemente chamadas amostras ligadas ou amostras emparelhadas.
Suposições
1. As duas amostras são independentes.
2. Os tamanhos das duas amostras são
grandes. Ou seja, n1 > 30 e n2 > 30.
3. Ambas as amostras são amostras
aleatórias simples.
Teste de Hipóteses
Estatística de Teste para Duas Médias:
Amostras Independentes e Grandes
(x1 - x2) - (µ1 - µ2) z =
n1 n2 +
1. 2
2 2
Teste de Hipóteses
Estatística de Teste para Duas Médias:
Amostras Independentes e Grandes
e Se e não são conhecidos, utilizar em seu
seu lugar s1 e s2 desde que ambas as
amostras sejam grandes.
P-valor: Usar o valor calculado da estatística de teste
z, e determinar o P-valor através do
procedimento já visto.
Exemplo: Coca versus Pepsi Conjunto de dados fornece pesos (em libras) de
amostras de Coca e Pepsi (regulares). As estatísticas amostrais estão mostradas abaixo. Use o nível de significância de 0,01 para testar a afirmação que o peso médio da Coca regular é diferente do peso médio da Pepsi regular.
Coca Pepsi
n 36 36
x 0,81682 0,82410
s 0,007507 0,005701
Coca Versus Pepsi
Afirmação: 1 2
Ho : 1 = 2
H1 : 1 2
= 0,01
Coca Versus Pepsi
Não rejeitar H0 Rejeitar H0 Rejeitar H0
Z = - 2,575 Z = 2,575 1 - = 0
ou Z = 0
Estatística de Teste para Duas Médias:
Amostras Independentes e Grandes
(0,81682 – 0,82410) - 0 z =
36 +
Coca Versus Pepsi
0,0075707 2 0,005701 2
36
= - 4,63
Afirmação: 1 2
Ho : 1 = 2
H1 : 1 2
= 0,01
Coca Versus Pepsi
Não rejeita H0 Rejeita H0 Rejeita H0
Z = - 2,575 Z = 2,575 1 - = 0
ou Z = 0
Dados
amostrais:
z = - 4,63
Rejeita-se a
Hipótese Nula
Há evidência significativa para apoiar a
afirmação que há uma diferença entre os
pesos médios da Coca e da Pepsi.
Intervalos de Confiança
(x1 - x2) - E < (µ1 - µ2) < (x1 - x2) + E
n1 n2 +
1 2 onde E = z
2 2
Inferências sobre Duas Médias:
Amostras Dependentes
Suposições
1. Os dados amostrais consistem de amostras emparelhadas (amostras dependentes de duas populações).
2. As amostras são amostras aleatórias simples.
3. Se o número de pares de dados amostrais é pequeno (n 30), então a população de diferenças dos valores pareados deve ser
aproximadamente normalmente distribuídas.
sd = desvio-padrão das diferenças d para os
dados amostrais emparelhados.
n = número de pares de dados.
µd = média das diferenças d para a
população de dados emparelhados
d = valor médio das diferenças d para os
dados amostrais emparelhados (igual
à média dos valores de x - y )
Notação para Amostras
Dependentes
t = d - µd
sd
n
Estatística de Teste para Dados Amostrais Emparelhados
T com graus de liberdade = n - 1
Valores Críticos
Se n 30, os valores críticos são determinados através da Tabela t de student.
Se n > 30, os valores críticos são determinados através da Tabela Normal.
Intervalos de Confiança
T com graus de liberdade = n -1
d - E < µd < d + E
onde E = t/2 sd
n
Exemplo:
Alturas Relatadas e Medidas (em polegadas) de
Estudantes
Estudante A B C D E F G H I J K L
Altura 68 74 82,25 66,5 69 68 71 70 70 67 68 70
Relatada
Altura 66,8 73,9 74,3 66,1 67,2 67,9 69,4 69,9 68,6 67,9 67,6 68,8
Medida
Diferença 1,2 0,1 7,95 0,4 1,8 0,1 1,6 0,1 1,4 -0,9 0,4 1,2
outlier
Existem diferenças de alturas relatadas e medidas?
Exemplo – Saída do Excel
Teste para Três ou mais Médias
• ANOVA : ANalysis Of VAriance
• Testa se a média de uma variável de interesse se
difere por grupos da população.
• Hipóteses:
As populações têm a mesma variância.
As amostras são retiradas de populações com
distribuição normal.
As amostras são aleatórias e independentes.
Hipótese nula: as médias são iguais
Hipótese alternativa: Pelo menos uma média é
diferente
Tabela ANOVA (I)
• k grupos
• ni: tamanho da amostra i, i =1,...,k; N: n1+...+nK
• Xij: j-ésima replicação da variável de interesse no i-
ésimo grupo
• : média amostral do grupo i, i=1,...,k
• : média geral (ou grande média) de todas as
observações
• SQT= : Soma de Quadrados Total
• SQD= : Soma de Quadrados Dentro
Tabela ANOVA(II)
• SQE = SQT – SQD: Soma de Quadrados Entre
• Tabela:
• Rejeite a hipótese nula se F for MAIOR que o
quantil 1-α de uma distribuição F com k-1 e N-
k graus de liberdade.
Fonte de Variação
Graus de liberdade
Soma de Quadrados
Quadrado Médio
F
Entre k-1 SQE QME=SQE/(k-1) QME/QMD Dentro N-k SQD QMD=SQD/(N-k) Total N-1 SQT
ANOVA - Exemplo
• Médias de Proficiência, SAEB99, 4ª série,
Português, por Raça
Report
PROFIC
179,1829 9169 48,78049
170,4634 7982 43,64761
151,6980 2229 35,28886
175,9971 1041 46,05428
171,1383 755 46,73425
172,5597 21176 46,13448
Você se considera:
Branco
Pardo/Mulato
Negro
Amarelo
Indígena
Total
Mean N Std. Deviation
ANOVA Table
1421195 4 355298,758 172,336 ,000
43647476 21171 2061,663
45068671 21175
Between Groups
Within Groups
Total
PROFIC * Você
se considera:
Sum of
Squares df Mean Square F Sig.
Atividade 3
Referências
Bibliografia
• Magalhães, M.N. e Lima, A.C.P.L. Noções de
Probabilidade e Estatística. Ed. Edusp, 6ª
edição, 2005.
• Wild, C.J. e Seber, G.A.F. (LTC)
Encontros com o Acaso: um Primeiro Curso de
Análise de Dados e Inferência
• Laponi, J.C. Estatística usando Excel. Ed.
Campus, 4ª edição, 2005.
Apêndice
Introdução à Probabilidade
Probabilidades
• Para variáveis categóricas, discretas ou
contínuas
• Varia entre 0 e 1.
• Soma das probabilidades de cada categoria
é igual a 1.
• (integral, no caso contínuo).
Caso discreto
• Se a variável assume valores {x1, x2,...,xn}
(ou infinitos valores discretos):
• Prob(X=xi)=pi
• 0 < pi < 1
• Soma de todos os pi’s = 1
Caso contínuo
• A probabilidade entre 2 pontos é igual à área sob a
curva, entre os dois pontos e o eixo x.
• Probabilidade no ponto é igual a 0
P{5 ≤ X ≤ 8}
Modelo Binomial
• Variável assume dois valores: “sucesso”
(com probab. p) ou “fracasso” (com probab.
1-p) => Distrib. Bernoulli.
• Em n tentativas independentes de Bernoulli:
X: nº de sucessos nas n tentativas.
X tem distrib. Binomial, com parâmetros n e p.
Abrir Binomial.html
Quando o interesse está em modelar uma var.
de Bernoulli => regressão logística.
Modelo Binomial - Exemplo
• Experimento: lançamento de uma moeda.
• Xi: 1, se der cara no i-ésimo lançamento; 0
se coroa
• X: nº de caras em n lançamentos
(independentes) da moeda.
• * Qualquer variável pode-se transformar em
binária.
Outros modelos discretos (1)
• Exemplo:
• X: nº de acidentes em certo dia em certo
cruzamento (Rio Branco com
Independência)
• Valores de X: 0, 1, 2, ...
• Modelo apropriado: Distrib. de Poisson
(distribuição dos eventos raros, baixa
probabilidade de ocorrência)
• Prob (X=k)=e-λ λk/k!
• Parâmetro λ: taxa de sucesso
Outros modelos discretos (2)
• Exemplo:
• X: nº de tentativas até obter o 1º sucesso
(ex, lançamento de uma bola na cesta de
basquete).
• Valores de X: 1, 2, ...
• Modelos apropriado: Distrib. Geométrica
• Prob (X=k)=(1-p)kp, k=1,2,3,...
Modelos Contínuos
• Existem vários:
• Uniforme, Exponencial , Normal, etc.
http://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%B5es_de_probabilidade
Clicar em cada distribuição, para mostrar os
gráficos.
Função Distribuição Acumulada
• F(x)=P(X≤x)
• Caso Discreto:
• Caso contínuo:
𝑭 𝒙 = 𝑷(𝑿 = 𝒙𝒊)
𝒊:𝒙𝒊≤𝒙
𝑭 𝒙 = 𝒇 𝒙 𝒅𝒙𝒙
−∞
Distribuição Normal
Exploração de Dados Univariados
• Faça sempre um gráfico de seus dados
Em geral, ramo-e-folhas ou um histograma
• Procure um padrão global e desvios acentuados
Outliers
• Calcule um resumo numérico para descrever o
centro e a dispersão
• Às vezes, o padrão global de um grande número
de observações é tão regular que pode ser
descrito por uma curva suave
• Curva descreve toda a distribuição em uma
única expressão
Mais fácil para trabalhar
• A curva é um modelo matemático
descrição matemática idealizada
• Áreas das barras em um histograma
representam contagens (ou proporções)
• Área sob a curva é exatamente 1
• Área sob a curva representa proporção de
observações
área = freqüência relativa
Curvas Normais
• É uma classe importante de curvas de
densidade
• Características:
São simétricas, unimodais e tem forma de sino
Descrevem distribuições normais (gaussianas)
Função de Densidade
O gráfico tem o fomato de sino
Parâmetros da distribuição normal:
• Média ()
• Desvio-padrão () ou variância (2)
Características
Simétrica em torno da média ()
• área antes de = área depois de = 0,5
• média = mediana = moda
Varia de – a +
• Parâmetro de locação:
• Parâmetro de escala: (2)
• ** Erro na figura (à direita: +1S,+2S e +3S)
• Áreas de intervalos
± 68%
± 2 95%
± 3 99,7%
Distribuição Normal Padrão
• Z ~ N(0, 1)
Média () = 0
Desvio-padrão () = 1
• Valores de área tabelados
Tabela Normal Padrão (1)
Tabela Normal Padrão (2)
Distribuição Normal – Cálculo de
Probabilidades
• Seja a variável aleatória Z ~ N(0, 1)
Calcule P{Z < – 1,96}
Roteiro:
• Esboce a curva normal
• Trace uma linha para z = – 1,96
• Verifique a área que se deseja calcular
• Determine a área a partir da tabela
Área sob a curva para Z < – 1,96:
P {Z < – 1,96} = 0,0250
Leitura direta na
Tabela
0
Calcule P{– 1,96 < Z < 1,96}
P{– 1,96 < Z < 1,96} = 0,9750 – 0,0250 = 0,9500
0,0250
Tabela:
P{Z<1,96} = 0,9750
0
• Área sob a curva para Z < 1,96
• Calcule P { Z > 1,96}
Tabela:
P{Z<1,96} = 0,9750
1 – 0,9750 = 0,0250
0
• Probabilidade contida em alguns intervalos
Intervalo Proporção
–1 < Z < 1
–2 < Z < 2
–3 < Z < 3
• Determinar x, tal que P{Z > x} = 0,05
P { Z < 1,65} = 0,9505
P {Z < 1,64} = 0,9495
0,0500
x
Tabela: Valor mais próximo de P{Z<x} = 0,9500
x = 1,645 0
Intervalos Simétricos em Torno de Zero
Proporção Intervalo
90%
95%
99%
Outras Distribuições Normais
• Caso Geral:
Média:
Desvio-padrão:
• Transformação:
• Mesmos procedimentos após transformação
(tabela Normal Padrão)
Conversão na Normal Padrão
• P{ < X < x } = P {0 < Z < z }
X Z
Exemplo
• As alturas de mulheres com 18 a 24 anos de
idade é aproximadamente normal com
média 164 cm e desvio-padrão 6,4 cm.
X: altura de mulheres entre 18 e 24 anos (cm)
X ~ N (164, 6,4)
1. Encontre a proporção de mulheres com altura
inferior a 172 cm
Padronização
Pela tabela
P { Z < 1,25} = 0,8944
P { X < 100} = 0,8944 = 89,44%
2. Qual o valor de altura que delimita 5% das mulheres
mais altas?