introdução à análise de dados ii · estatísticas descritivas de proficiência, por horas de...

Introdução à Análise de

Dados II

Clécio S. Ferreira

UFJF – Departamento de Estatística

2013

Roteiro

1. Introdução

2. Relações entre variáveis

3. Regressão

4. Testes de Hipóteses

5. Introdução à Probabilidade

Introdução

Introdução

• Apresentação do professor

• Objetivo e ementa da disciplina

Variáveis

- Qualquer característica associada a uma

população

- Classificação de variáveis:

Quantitativa

Qualitativa Nominal Sexo, cor dos olhos

Ordinal Classe social, grau de instrução

Contínua

Discreta

Peso, altura, salário

Número de filhos, nº de carros

Análise Bivariada

Duas variáveis Qualitativas

• Tabelas de Frequências cruzadas

• Gráficos de Barras

• Medidas de Associação

Exemplo:

Quantas horas por semana você trabalha? * Você se considera: Crosstabulation

8208 4944 726 929 243 15050

54,5% 32,9% 4,8% 6,2% 1,6% 100,0%

67,2% 61,1% 59,1% 67,5% 58,3% 64,5%

1086 907 150 142 53 2338

46,4% 38,8% 6,4% 6,1% 2,3% 100,0%

8,9% 11,2% 12,2% 10,3% 12,7% 10,0%

1968 1450 221 214 76 3929

50,1% 36,9% 5,6% 5,4% 1,9% 100,0%

16,1% 17,9% 18,0% 15,6% 18,2% 16,8%

959 786 131 91 45 2012

47,7% 39,1% 6,5% 4,5% 2,2% 100,0%

7,8% 9,7% 10,7% 6,6% 10,8% 8,6%

12221 8087 1228 1376 417 23329

52,4% 34,7% 5,3% 5,9% 1,8% 100,0%

100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

Não trabalho

Menos de 20

horas por semana

Entre 20 e 44

horas por semana

Mais de 44 horas

por semana

Quantas

horas por

semana você

trabalha?

Total

Branco Pardo/Mulato Negro Amarelo Indígena

Você se considera:

Total

Gráfico de Barras (1)

Gráfico de Barras (2)

Medidas de Associação para Variáveis

Nominais

• Qui-quadrado (estatística)

Positiva

problema: cresce com o tamanho da amostra;

𝑿𝟐 =

(𝑶𝒊𝒋 − 𝑬𝒊𝒋)𝟐

𝑬𝒊𝒋

𝒌

𝒋=𝟏

𝒓

𝒊=𝟏

,

𝑬𝒊𝒋 =𝒏𝒊.𝒏.𝒋

𝑵, 𝒏𝒊.: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒏.𝒋: 𝒕𝒐𝒕𝒂𝒍 𝒅𝒂 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.

𝑶𝒊𝒋: 𝒇𝒓𝒆𝒒𝒖ê𝒏𝒄𝒊𝒂 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂 𝒏𝒂 𝒄é𝒍𝒖𝒍𝒂 𝒊, 𝒋 (𝒍𝒊𝒏𝒉𝒂 𝒊; 𝒄𝒐𝒍𝒖𝒏𝒂 𝒋.

Coeficiente de Contingência (CC)

• CC vai de 0 a 1, teoricamente (o que permite comparação

entre quaisquer associações).

• Medida mais geral de Associação.

• O coeficiente de contingência (CC) é outra forma de

corrigir o qui-quadrado.

• O problema com o CC é que seu valor máximo depende do

tamanho da tabela.

O valor máximo de CC para uma tabela 2 x 2 é 0.707. O valor

máximo de CC para uma tabela 4 x 4 é 0.87.

Recomenda-se usar Phi ou V de Cramér antes que CC.

Coeficiente Phi

• Phi pode variar de 0 até +1.

• Ela é mais apropriada para tabelas de

contingência 2 x 2.

V de Cramer

• Apropriado para tabelas maiores que 2 x 2,

corrige o qui-quadrado e varia de 0 to +1.

• Para tabelas 2 x 2, V de Cramér é igual a

Phi.

• Unicamente para variáveis NOMINAIS

L: num. min(linhas, colunas)

Symmetric Measures

,072 ,000

,042 ,000

,072 ,000

23329

Phi

Cramer's V

Contingency Coef f icient

Nominal by

Nominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the null

hypothesis.

b.

Exemplo: Horas de Trabalho versus Raça

Chi-Square Tests

120,740a 12 ,000

23329

Pearson Chi-Square

N of Valid Cases

Value df

Asy mp. Sig.

(2-sided)

0 cells (,0%) hav e expected count less than 5. The

minimum expected count is 35,96.

a.

Medidas de Associação para variáveis

ordinais

• Ganho em relação às medidas nominais: Direção

de associação; relação mais forte, pois leva em

conta medida da variável (ORDINAL).

• MEDIDAS SIMÉTRICAS (baseadas em pares

concordantes e discordantes): não fazem distinção

entre variáveis dependentes e independentes

• MEDIDAS DIRECIONAIS (assume uma das

variáveis como dependente e vice-versa):

SOMER'S D (D de SOMER)

Medidas Ordinais

• Correlação de Spearman

• Gamma

• Tau-c de Kendall

• Tau-b de Kendall (mais indicado)

Outras medidas direcionais

• Coeficiente de Incerteza

• Lambda

• Tau de Goodman & Kruskal

Exemplo: Escolaridade do Pai versus Horas de

Trabalho

Até que série seu pai estudou? * Quantas horas por semana você trabalha? Crosstabulation

933 275 456 310 1974

47,3% 13,9% 23,1% 15,7% 100,0%

6,8% 13,1% 12,9% 17,4% 9,4%

3164 796 1505 855 6320

50,1% 12,6% 23,8% 13,5% 100,0%

23,1% 37,9% 42,6% 48,0% 30,0%

2077 381 648 348 3454

60,1% 11,0% 18,8% 10,1% 100,0%

15,2% 18,1% 18,4% 19,5% 16,4%

3511 397 613 203 4724

74,3% 8,4% 13,0% 4,3% 100,0%

25,7% 18,9% 17,4% 11,4% 22,4%

3995 251 308 67 4621

86,5% 5,4% 6,7% 1,4% 100,0%

29,2% 12,0% 8,7% 3,8% 21,9%

13680 2100 3530 1783 21093

64,9% 10,0% 16,7% 8,5% 100,0%

100,0% 100,0% 100,0% 100,0% 100,0%

Nunca estudou

Ensino Fundamental

de 1ª a 4ª série

Ensino Fundamental

de 5ª a 8ª série

Ensino Médio

Faculdade (Ensino

Superior)

Até que série

seu pai

estudou?

Total

Não trabalho

Menos de

20 horas por

semana

Entre 20 e

44 horas por

semana

Mais de 44

horas por

semana

Quantas horas por semana v ocê trabalha?

Total

Exemplo: Escolaridade do Pai versus

Horas de Trabalho

Directional Measures

-,264 ,005 -50,167 ,000

-,324 ,006 -50,167 ,000

-,223 ,004 -50,167 ,000

Sy mmetric

Até que série seu pai

estudou? Dependent

Quantas horas por

semana você

trabalha? Dependent

Somers' dOrdinal by Ordinal

Value

Asy mp.

Std. Errora

Approx. Tb

Approx. Sig.


Using the asymptotic standard error assuming the null hypothesis.b.

Symmetric Measures

,305 ,000

-,269 ,005 -50,167 ,000

-,231 ,005 -50,167 ,000

-,411 ,008 -50,167 ,000

-,314 ,006 -47,988 ,000c

-,307 ,006 -46,798 ,000c

21093

Contingency Coef f icientNominal by Nominal

Kendall's tau-b

Kendall's tau-c

Gamma

Spearman Correlation

Ordinal by Ordinal

Pearson's RInterv al by Interval

N of Valid Cases

Value

Asy mp.

Std. Errora

Approx. Tb

Approx. Sig.


Using the asymptotic standard error assuming the null hypothesis.b.

Based on normal approximation.c.

Variável Quantitativa versus Qualitativa

• Gráficos: Box-plot, Histogramas e Ramo-e-

Folhas:

• Podem ser utilizados para comparações entre

diferentes grupos de dados

• Medidas resumo: Estatísticas descritivas

para cada categoria do grupo (médias,

medianas, desvios-padrão, etc.

Box-plot de Proficiência, por Horas de

trabalho, 3ª EM, Matemática

Histogramas de Proficiência, por Horas

de trabalho, 3ª EM, Matemática

Estatísticas Descritivas de Proficiência,

por Horas de trabalho, 3ª EM, Matemática

Statistics

PROFIC

1915 142285 29750 55612 31993

0 0 0 0 0

247,2303 291,2813 262,2107 270,3457 268,2805

47,90209 60,59567 48,42710 46,36295 48,16771

393,85 471,39 451,70 433,99 431,39

207,2467 245,2012 223,7307 232,9810 231,7239

232,6931 283,8920 252,0079 269,3548 267,8545

282,3804 331,7499 294,3062 304,0934 299,2855

Valid

Missing

N

Mean

Std. Dev iation

Maximum

25

50

75

Percent iles

. Não trabalho

Menos de 20

horas por semana

Entre 20 e 44

horas por semana

Mais de 44 horas

por semana

Quantas horas por semana v ocê trabalha?

Duas Variáveis Quantitativas

• Gráfico: Diagrama de Dispersão

• Gráfico de pares ordenados por elementos da

amostra (indivíduos)

• É a maneira mais simples de se estudar a relação

entre duas variáveis quantitativas

• Objetivo:

Ocorrência de tendências (lineares ou não)

Agrupamentos de uma ou mais variáveis

Mudanças de variabilidade de uma variável em relação à

outra

Ocorrência de valores atípicos (‘outliers’)

Exemplo de Correlação (P)

Exemplo de Correlação (N)

Exemplo de Correlação (0)

Exemplo

• Altura (cm) e peso (kg) de crianças até 1 ano

Altura Peso

52 2,95

50 3,15

62 4,58

63 6,50

55 3,50

72 9,50

75 10,13

69 8,57

65 7,10

64 5,60

66 6,90

61 4,50

57 4,30

67 7,89

50 55 60 65 70 75

34

56

78

91

0

Altura

Pe

so

Peso e Altura

• Qual a relação entre o peso e a estatura das

pessoas?

• Percebem-se ‘clusters’ no conjunto de

dados?

• Há diferenças na variabilidade de uma

variável, considerados os valores da outra?

• Há valores atípicos?

Relação entre consumo de proteínas e

natalidade

• Qual relação entre as variáveis?

Pais Consumo de Proteínas Coeficiente de Natalidade

Formosa 4,7 45,6

Malásia 7,5 39,7

Índia 8,7 33,0

Japão 9,7 27,0

Iuguslávia 11,2 25,9

Grécia 15,2 23,5

Itália 15,2 23,4

Bulgária 16,8 22,2

Alemanha 37,3 20,0

Irlanda 46,7 19,1

Dinamarca 56,1 18,3

Austrália 59,9 18,0

Estados Unidos 61,4 17,9

Suécia 62,6 15,0

10 20 30 40 50 60

15

20

25

30

35

40

45

Consumo Proteínas vs Natalidade

Consumo diário de proteínas (g)

Co

eficie

nte

de

na

talid

ad

e

Exemplo

• Interpretação?

• Leituras gráficas

Correlação

• Correlação Positiva:

Se ambas as variáveis crescem no mesmo sentido

• Correlação Negativa:

Se as variáveis crescem em sentidos opostos

• Correlação significativa indica apenas associação

linear entre as variáveis

NÃO INDICA RELAÇÃO DE CAUSALIDADE

Coeficiente de Correlação

• Como quantificar a correlação entre as

variáveis?

Grau de associação

Coeficiente de Correlação de Pearson

• O numerador mede o total da concentração

de pontos pelos quatro quadrantes

• Dá origem uma medida bastante usada

• (notem que n-1 se elimina)

YYXX

XY

n

i

i

n

i

i

n

i

ii

SS

S

yyn

xxn

yyxxn

r

1

2

1

2

1

)(1

1)(

1

1

))((1

1

Notação

: i-ésimo valor observado da variável x

: i-ésimo valor observado da variável y

: média dos valores observados da

variável x (média amostral)

: média dos valores observados da

variável y (média amostral)

ix

x

iy

y

Propriedades de r

• Mede a intensidade de relacionamento linear

• r é adimensional e – 1 ≤ r ≤ 1

r = 1 ou -1 correlação linear perfeita

r = 0 correlação linear nula

• O valor de r não é afetado pela escolha de x

ou y.

Propriedades de r

• A conversão da escala de qualquer das

variáveis não altera o valor de r

• O valor de r não é alterado com a permutação

de valores de x e y.

Diagramas de Dispersão (1)

Existe uma relação de dependência NÃO –LINEAR

entre as variáveis.

X

X^

2

1050-5-10

100

80

60

40

20

0

r = 0,0

Exemplo – Hábito de Fumar

• Dados sobre hábito de fumar entre homens e

mortalidade por câncer de pulmão, na Inglaterra:

Fonte: The Data and Story Library

http://lib.stat.cmu.edu/DASL/

Índice de mortalidade: razão da taxa de mortes sobre a

taxa global de mortes (por câncer de pulmão).

Índice de fumo: razão do número médio diário de

cigarros fumados sobre a média global de cigarros.










Índice de fumo

Índ

ice

de

mo

rta

lida

de

14013012011010090807060

150

125

100

75

50

Hábito de Fumar vs. Câncer de Pulmão

Por grupo ocupacional

r = 0,716

• Percebe-se uma correlação positiva entre

as duas variáveis.

Exemplo

• Relação entre taxa de metabolismo e massa

• Evidências empíricas:

Associação linear e positiva

Associação mais forte entre a mulheres

6560555045403530

2000

1800

1600

1400

1200

1000

Massa (kg)

Ta

xa

Me

tab

olis

mo

(ca

l)

F

M

Sexo

r=0.87

rM=0.59

rF=0.88

• Valores médios dos grupos

MTB > describe c3 c4;

SUBC> by c2;

SUBC> stdev;

SUBC> mean.

Descriptive Statistics: Massa; Taxa Variable Sexo Mean StDev

Massa F 43,03 6,87

M 53,10 6,69

Taxa F 1235,1 188,3

M 1600,0 189,2

• Evidências empíricas:

Variabilidade semelhante entre os grupos;

Poucos homens com peso menor, poucas mulheres com peso

maior

Possíveis influências na correlação:

– Peso;

– Sexo;

– Variável não apresentada

Correlação – Erros Comuns

• Causalidade:

Uma correlação forte (r vizinho de +1 ou –1)

não implica uma relação de causa e efeito.

O fato de duas grandezas tenderem a variar no

mesmo sentido não implica a presença de

relacionamento causal entre elas.

Correlação e Causalidade

Perguntas pertinentes, no caso de correlação

significante entre as variáveis:

• Há uma relação de causa e efeito entre as

variáveis? (x causa y? ou vice-versa)

Ex.: Relação entre gastos com propaganda e

vendas

É razoável concluir que mais propaganda

resulta mais vendas

Correlação e Causalidade (2)

• É possível que a relação entre duas

variáveis seja uma coincidência?

Ex.: Obter uma correlação significante entre

o número de espécies animais vivendo em

determinada área e o número de pessoas

com mais de 2 carros, não garante

causalidade

É bastante improvável que as variáveis

estejam diretamente relacionadas.

Correlação e Causalidade (3) • É possível que a relação das variáveis tenha sido

causada por uma terceira variável (ou uma

combinação de muitas outras variáveis)?

Ex: Tempo dos vencedores das provas masculina e

feminina dos 100 m rasos (numa mesma prova)

Os dados tem correlação linear positiva; é

duvidoso dizer que a diminuição no tempo

masculino cause uma diminuição no tempo

feminino;

A relação deve depender de outras variáveis:

técnica de treinamento, clima, etc.

Correlação e Causalidade (4)

• A flutuação de uma 3ª variável faz com que X e

Y variem no mesmo sentido;

Esta 3ª variável é chamada variável intercorrente

(não-conhecida);

A falsa correlação originada pela 3ª variável é

denominada correlação espúria;

Atividade 1

Noções de Regressão

Regressão e Correlação

• Regressão:

Usa variável(eis) explicativa(s) para

explicar ou predizer comportamento de

variável resposta (quando houver

sentido).

• Correlação:

Trata simetricamente duas variáveis

Regressão

• Variável resposta (Y):

Variável resposta cujo comportamento se

quer explicar

• Variável(eis) explicativa(s) (Xi):

São de interesse caso ajudem a entender,

explicar ou predizer o comportamento de Y.

• O enfoque da regressão é natural quando Y é

aleatória e Xi é controlada ou não-aleatória.

• Variável explicativa

• Variável independente

• Regressor

• Preditor

• Variável exógena

• Variável de controle ou

estímulos

• Variável explicada

• Variável dependente

• Regredido

• Predito

• Variável endógena

• Variável resposta

x Y

Algumas Denominações

Exemplo 1 – Peso/Altura de Estudantes

• Variável resposta: Peso (kg)

• Variável explicativa: Altura (cm)

Tendência linear

Exemplo 2 – Absorção de Oxigênio

• Variável resposta: Absorção de Oxigênio

• Variável explicativa: Ventilação

Ventilação

Ab

so

rçã

o d

e O

xig

ên

io

45004000350030002500200015001000500

160

140

120

100

80

60

40

20

0

Tendência

exponencial

Exemplo 3 – Comprimentos de Fígados

• Variável resposta: Comprimento do fígado (mm)

• Variável explicativa: Tempo de gestação (sem.)

Tempo de Gestação (sem.)

Co

mp

rim

en

to d

o f

íga

do

(m

m)

40353025201510

70

60

50

40

30

20

10

Tendência

não-linear

Outros Padrões (2)

Preço ($ 1.000)

Pe

so

(1

.00

0 lb

)

1750015000125001000075005000

5000

4500

4000

3500

3000

2500

2000

Importante descobrir o que define os grupos

Outros Padrões (3)

Comprimento da pétala

La

rgu

ra d

a p

éta

la

7654321

2,5

2,0

1,5

1,0

0,5

0,0

Variedades diferentes de Flores

Modelo de Regressão

• Relação de regressão:

• Tendência + dispersão residual

• Objetivo: Explicar a variação de Y

(resposta) pelas variáveis de X (variáveis

explicativas)

• Valores atípicos:

Observações muito diferentes do restante dos

dados => modelo não consegue ajustar bem

estes dados

Ajuste de Funções

• Tendência linear:

Para cada mudança de uma unidade em X, Y muda

uma quantidade fixa (β1).

• Tendência quadrática:

Tendência levemente curva

• Modelo linear: linear nos parâmetros

• Modelo não-linear: não linearidade nos parâmetros

Ex:

• Tendência exponencial:

Cada mudança de uma unidade em X, Y muda uma

% fixa

Aplicação: Curvas de crescimento

Se a tendência é exponencial, o gráfico de log(Y)

vs X têm tendência linear

XeY 1

0

x

lnY

4,03,53,02,52,01,51,0

9

8

7

6

5

4

3

2

1

x

Y

4,03,53,02,52,01,51,0

4000

3000

2000

1000

0

Tipos de Regressão Linear

• Simples:

Uma variável independente (explicativa)

• Múltipla:

Duas ou mais variáveis independentes

(explicativas)

Regressão Linear Simples

• Busca-se a equação de uma reta que permita:

Descrever e compreender a relação entre duas

variáveis

Projetar e estimar uma das variáveis em função da

outra.

ii XY 10

Ajuste da Reta

• Qual a reta que se ajusta melhor aos dados?

ou seja quais os valores de β0 e β1?

X

Y

4,03,53,02,52,01,51,0

9

8

7

6

5

4

3

2

1

Método dos Mínimos Quadrados

• Critério:

Escolher β0 e β1 de maneira a tornar

mínima a distância entre a reta e os

pontos

Valores dos parâmetros que minimizam a

soma dos quadrados dos desvios

2

1

)ˆ(

n

i

ii YY

Método dos Mínimos Quadrados (3)

• Resultados das derivadas parciais:

• Relação com coeficiente de correlação:

221

ˆ

ii

iiii

x xn.

yx yxn. =

xx

xy

S

S = 1̂

XY = 10ˆˆ

X

YXY

X

XY

s

sr

s

s =

21̂

Exemplo

• SAEB 99, 4ª série (Português)

• Variável resposta (Y)

Proficiência em Português

• Variável explicativa:

Nível Socioeconômico

Correlação entre proficiência e NSE Correlations

,442

,000

21510

Pearson Correlation

Sig. (2-tailed)

N

NSE

PROFIC

Regressão Simples: Proficiência por

Nível Socioeconômico

Model Summary

,442a ,195 ,195 41,38873

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), NSEa.

ANOVAb

8926900 1 8926899,602 5211,184 ,000a

36843790 21508 1713,027

45770689 21509

Regression

Residual

Total

Model

1

Sum of

Squares df Mean Square F Sig.

Predictors: (Constant), NSEa.

Dependent Variable: PROFICb.

Coefficientsa

135,102 ,588 229,959 ,000

3,100 ,043 ,442 72,189 ,000

(Constant)

NSE

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig.

Dependent Variable: PROFICa.

Interpretação

• Inclinação:

• Quando o NSE aumenta 1 unidade, o aumento estimado na proficiência é de 3.1 pontos.

• As estimativas são mais confiáveis dentro do intervalo de X observado (neste caso, 0 < NSE < 34).

• Intercepto-y

• Seria a proficiência média quando a variável X fosse 0.

MRLS – Adicionando uma variável

binária

Model Summary

,454a ,206 ,206 41,11366

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), sexo, NSEa.

ANOVAb

9371166 2 4685582,990 2771,988 ,000a

36112281 21364 1690,333

45483447 21366

Regression

Residual

Total

Model

1

Sum of


Predictors: (Constant), sexo, NSEa.


Coefficientsa

139,696 ,645 216,600 ,000

3,126 ,043 ,445 73,028 ,000

-9,465 ,563 -,103 -16,815 ,000

(Constant)

NSE

sexo

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardized

Coeff icients

t Sig.


Profic. Por NSE e Sexo: Interpretação

• Sexo = 1 (Meninos); 0 (Meninas)

• Controlado o efeito de sexo, o aumento de 1

unidade no NSE aumenta em média 3.1 pontos

na proficiência do aluno.

• Controlado o NSE, as meninas tiram, em

média, 9.5 pontos a MAIS que os meninos.

• MRLS para as meninas

• Profic. = 139.7 + 3.1*NSE

• MRLS para os meninos:

• Profic. = 130.2 + 3.1*NSE

MRLM - Exemplo

• Proficiência dos alunos do 3º EM em

Matemática (sexo: Feminino é a referência)

Coefficientsa

184,787 ,400 462,526 ,000

2,524 ,020 ,274 123,420 ,000

10,949 ,104 ,233 105,150 ,000

12,045 ,206 ,105 58,489 ,000

6,235 ,077 ,144 80,846 ,000

(Constant)

NSE

Escolaridade dos pais

(máxima)

Sexo

Você f az lição de casa

(Nº de horas)?

Model

1

B Std. Error

Unstandardized

Coef f icients

Beta

Standardized

Coef f icients

t Sig.


Model Summary

,492 ,242 ,242 49,31996

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

ANOVAb

1,9E+008 4 47890941,70 19688,286 ,000

6,0E+008 246912 2432,459

7,9E+008 246916

Regression

Residual

Total

Model

Sum of



MRLM da Proficiência dos alunos do

3ºEM em Matemática - Interpretação

• Controladas as demais variáveis:

O acréscimo de 1 unidade no NSE, aumenta, em

média, 2.5 pontos na proficiência.

Alunos cujos pais têm maior escolaridade alcançam

melhor desempenho no exame (em média 11 pontos

por nível).

Meninos tiram, em média, 12 pontos a mais na

prova em relação às meninas.

Quanto maior a dedicação às lições de casa, melhor

o desempenho no exame.

MRLM: Qualidade do Ajuste

• R2 (coeficiente de determinação): Proporção

da variação da var. dependente explicada

pela variação da(s) variável(is)

independente(s); 0 < R2 < 1.

• Etapa posterior ao ajuste: verificação dos

pressupostos do modelo (normalidade,

homogeneidade de variância, baixa

correlação entre as variáveis explicativas,

linearidade, outliers, etc.).

Atividade 2

Testes de Hipóteses

Exemplo do Júri

Réu: Pode ser culpado ou inocente

Juiz: dará a sentença: culpado ou inocente.

Hipótese nula: “réu é inocente!”

Erros possíveis:

Erro I: juiz dar a sentença culpado, quando na

verdade o réu é inocente;

Erro II: juiz dar a sentença inocente, quando na

verdade o réu é culpado;

Qual erro é mais grave?

O que é uma Hipótese

Em Estatística, é uma alegação ou afirmação sobre uma característica de uma população.

Componentes de um

Teste de Hipóteses Formal

Hipótese Nula: H0 Afirmação sobre valor de parâmetro

populacional Deve conter a condição de igualdade =, , ou

Testar a Hipótese Nula diretamente

Rejeitar H0 ou não rejeitar H0

Componentes de um

Teste de Hipóteses Formal

Hipótese Alternativa: H1

Deve ser verdadeira se H0 é falsa

, <, >

‘oposto’ da Hipótese Nula.

Hipóteses Nula e Alternativa no MRLM

• No MRLM, ao incluirmos variáveis

explicativas ao modelo, gostaríamos

de saber se (cada) variável é

significativa (contribui para explicar

a variável dependente) ou não. Ou

seja:

• H0: Beta (coeficiente de regressão da

variável) = 0

• H1: Beta ≠ 0

Nota sobre a Indicação de suas Próprias

Afirmações (Hipóteses)

Se você está fazendo uma pesquisa e deseja usar um teste de hipótese para apoiar sua afirmação, esta afirmação deve ser formulada de maneira que se torne a hipótese alternativa (hipótese de pesquisa).

Nota sobre o Teste de Validade de uma

Afirmação Alheia

A afirmação original às vezes se torna a hipótese nula (porque contém a igualdade) e por vezes passa a ser a hipótese alternativa (porque não contém a desigualdade).

Estatística de Teste

um valor baseado nos dados amostras que é

usado para tomar uma decisão sobre a

rejeição da hipótese nula.

Exemplo: para grandes amostras, testando

afirmações sobre médias populacionais

z = x - µ0

n

Nível de Significância

denotado por

é a probabilidade de rejeitar a Hipótese Nula quando ela é verdadeira.

são comuns as escolhas 0,05; 0,01 e 0,10. (É tipicamente predeterminado)

Conclusões no

Teste de Hipóteses

Testar sempre a hipótese nula

1. Rejeitar a hipótese nula H0

2. Não rejeitar a hipótese nula H0

É necessário formular corretamente a conclusão

final.

Aceitar versus Não Rejeitar

alguns textos usam “aceitar a hipótese nula”.

devemos reconhecer que não estamos provando a hipótese nula.

estamos dizendo que a evidência amostral não é forte o suficiente para recomendar a rejeição da hipótese nula (tal como um júri decidir que não há evidência suficiente para condenar um acusado).

Erro Tipo I

O erro de rejeitar a hipótese nula quando ela é verdadeira.

(alfa) é usado para representar a probabilidade de um erro tipo I.

Exemplo: Rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela média é, de fato, 37ºC.

Erro Tipo II

Erro de não rejeitar a hipótese nula quando ela é falsa.

ß (beta) é usado para representar a probabilidade de um erro tipo II.

Exemplo: Não rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela é, de fato, falsa (a média não é 37ºC).

Erros Tipo I e Tipo II

Verdadeiro Estado da Natureza

Decidimos rejeitar

a hipótese nula

Não rejeitamos a

hipótese nula

A hipótese

nula é

verdadeira

A hipótese

nula é

falsa

Erro tipo I

(rejeição de uma

H0 verdadeira)

Erro tipo II

(não rejeição de

uma H0 falsa)

Decisão

correta

Decisão

correta

Decisão

Controle dos Erros Tipo I e Tipo II

Para fixo, um aumento do tamanho n da

amostra ocasiona uma redução de

Para um tamanho n, fixo, de amostra, uma

diminuição de acarreta um aumento de . Reciprocamente, um aumento de acarreta a diminuição de .

Para reduzir e , deve-se aumentar o tamanho da amostra.

Teste de uma Afirmação

sobre uma Média:

Grandes Amostras

Métodos para conclusão dos testes

1) Método do valor P

2) Intervalos de confiança

3) Método Clássico (não será

focado aqui).

* Os três métodos levam à

MESMA conclusão.

Hipóteses para testar afirmações sobre média populacional

1) A amostra é uma amostra aleatória simples.

2) A amostra é grande (n > 30).

a) Aplica-se o Teorema Central do Limite

b) Pode-se usar a distribuição normal

3) Se é desconhecido, podemos utilizar o

desvio-padrão amostral s como uma

estimativa para .

Estatística de Teste para Afirmações sobre µ quando n > 30

x - µ0 z =

n

Teste de Hipóteses para uma Média

Afirmação: = $ 8.390

H0 : = $ 8.390

H1 : $ 8.390

Exemplo: O Departamento de Agricultura alega que o custo

para se criar uma criança (até 2 anos) é US$ 8.390. Seleciona-se uma amostra com 900 crianças com 2 anos e determina-se que o custo médio é $ 8.275, com desvio-padrão 1.540. Teste a afirmação do Departamento ao nível de significância de 0,05.

Passos:

1,2,3) Identificar a Afirmação, H0, H1

4) Selecionar, se necessário, o nível :

= 0,05

Método do Valor P

para o Teste de Hipóteses

O procedimento encontra a probabilidade

(Valor P ou p-valor) de obter um resultado e

rejeita-se a hipótese nula se esta

probabilidade é muito baixa (menor que o

nível de significância adotado).

Valor P: é a probabilidade de obter um valor da estatística amostral de teste no mínimo tão extremo como o que resulta dos dados amostrais, na suposição de a hipótese nula ser verdadeira.

Resultados amostrais

incomuns.

Diferença significante da

hipótese nula.

Valores P pequenos

(tais como 0,05 ou

menor)

Valor P Interpretação

Os resultados

amostrais não são

incomuns.

Não é uma diferença

significante da

hipótese nula.

Valores P grandes

(acima de 0,05 )

Determinação dos Valores P

A

estatística de

teste está à direita ou

à esquerda do

centro

?

Valor P = área

à esquerda da

estatística de teste

Valor P = 2 vezes

a área à esquerda

da estatística de teste

Valor P = área

à direita da

estatística de teste

Unilateral esquerdo Unilateral direito

À direita À esquerda

Bilateral

Valor P = 2 vezes

a área à direita

da estatística de teste

Que

tipo de teste

?

µ µ µ µ Estatística de teste Estatística de teste Estatística de teste Estatística de teste

Início

Intervalos de Confiança (IC)

• Uma estimativa intervalar de um parâmetro

populacional contém os valores prováveis

daquele parâmetro, calculado a partir de

uma amostra.

• Exemplo: IC para a média populacional, sob

normalidade:

𝑰𝑪𝟎,𝟗𝟓 𝝁 = 𝑿 − 𝟏. 𝟗𝟔

𝝈

𝒏, 𝑿 + 𝟏. 𝟗𝟔

𝝈

𝒏

Conclusão a partir de IC

Se o Intervalo de Confiança obtido através da

amostra contiver o parâmetro testado, não

rejeitamos H0; caso contrário, se o IC não

contiver o parâmetro, rejeitamos H0.


sobre uma Média:

Pequenas Amostras

Hipóteses

* para testar afirmação sobre média populacional


2) A amostra é pequena (n 30).

3) O valor do desvio-padrão populacional é desconhecido.

4) A população original tem distribuição essencialmente normal.

Estatística de Teste

Valores Críticos Valores tabelados Distribuição t de

Student.

Graus de liberdade = n -1.

Valores t críticos à esquerda da média são negativos; à direita, positivos.

t = x -µx

s n

Propriedades Importantes da

Distribuição t de Student

1. A distribuição t de Student é diferente para cada tamanho de amostra.

2. A distribuição t de Student tem a mesma forma geral de sino da distribuição normal. Sua forma mais aberta reflete a maior variabilidade esperada em pequenas amostras.

3. A distribuição t de Student tem média t = 0 (tal como a distribuição normal padronizada que tem média z = 0).

4. O desvio-padrão da distribuição t de Student varia com o tamanho da amostra, e é maior do que 1 (ao contrário da distribuição normal

padronizada, em que = 1).

5. À medida que o tamanho n da amostra aumenta, a distribuição t de Student se aproxima da distribuição normal. Para valores de n > 30, as diferenças são tão pequenas que podemos usar os valores críticos z em lugar de elaborar uma tabela muito maior de valores críticos de t. (Os valores na base da Tabela A-3 são iguais aos valores críticos z correspondentes da distribuição normal padronizada.)

Escolha entre a Distribuição Normal e a Distribuição t ao Testar uma Afirmação sobre a Média Populacional µ

n > 30?

A distribuição da

população é essencialmente normal ? (Trace um

histograma)

Não

Sim

Sim

Não

Não

é

conhecido

?

Use a distribuição normal com

x - µx

/ n Z

(Se é desconhecido, use s.)

Use métodos não-paramétricos,

que não exijam uma distribuição

normal.

Use a distribuição normal com

x - µx

/ n Z

(Este caso é raro.)

Use a distribuição t de Student

com x - µx

s/ n t

Início


sobre uma Proporção

Hipóteses

para testar afirmação sobre proporção populacional


2) São verificadas as condições para um experimento binomial.

3) As condições np 5 e n(1-p) 5 são ambas satisfeitas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada

por uma distribuição normal com µ = np e

= np(1-p)

Notação

p = proporção populacional (usada na

hipótese nula)

q = 1 - p

n = número de provas

p = x/n (proporção amostral)

p - p

pq

n

z =

Estatística de Teste de uma

Afirmação sobre uma Proporção

Inferências com Base em Duas

Amostras

1. Inferências sobre Duas Médias: Amostras Independentes e Grandes

2. Inferências sobre Duas Médias: Amostras Dependentes

1. Inferências sobre Duas Médias:

Amostras Independentes e Grandes

Definições

Duas Amostras: Independentes

• Os valores amostrais escolhidos de uma população não tem qualquer relação com os valores amostrais extraídos da outra população.

Se os valores de uma amostra estão relacionados com os valores de outra amostra, as amostras são dependentes. Estas amostras são freqüentemente chamadas amostras ligadas ou amostras emparelhadas.

Suposições

1. As duas amostras são independentes.

2. Os tamanhos das duas amostras são

grandes. Ou seja, n1 > 30 e n2 > 30.

3. Ambas as amostras são amostras

aleatórias simples.

Teste de Hipóteses

Estatística de Teste para Duas Médias:


(x1 - x2) - (µ1 - µ2) z =

n1 n2 +

1. 2

2 2

Teste de Hipóteses



e Se e não são conhecidos, utilizar em seu

seu lugar s1 e s2 desde que ambas as

amostras sejam grandes.

P-valor: Usar o valor calculado da estatística de teste

z, e determinar o P-valor através do

procedimento já visto.

Exemplo: Coca versus Pepsi Conjunto de dados fornece pesos (em libras) de

amostras de Coca e Pepsi (regulares). As estatísticas amostrais estão mostradas abaixo. Use o nível de significância de 0,01 para testar a afirmação que o peso médio da Coca regular é diferente do peso médio da Pepsi regular.

Coca Pepsi

n 36 36

x 0,81682 0,82410

s 0,007507 0,005701

Coca Versus Pepsi

Afirmação: 1 2

Ho : 1 = 2

H1 : 1 2

= 0,01

Coca Versus Pepsi

Não rejeitar H0 Rejeitar H0 Rejeitar H0

Z = - 2,575 Z = 2,575 1 - = 0

ou Z = 0



(0,81682 – 0,82410) - 0 z =

36 +

Coca Versus Pepsi

0,0075707 2 0,005701 2

36

= - 4,63

Afirmação: 1 2

Ho : 1 = 2

H1 : 1 2

= 0,01

Coca Versus Pepsi

Não rejeita H0 Rejeita H0 Rejeita H0

Z = - 2,575 Z = 2,575 1 - = 0

ou Z = 0

Dados

amostrais:

z = - 4,63

Rejeita-se a

Hipótese Nula

Há evidência significativa para apoiar a

afirmação que há uma diferença entre os

pesos médios da Coca e da Pepsi.

Intervalos de Confiança

(x1 - x2) - E < (µ1 - µ2) < (x1 - x2) + E

n1 n2 +

1 2 onde E = z

2 2

Inferências sobre Duas Médias:

Amostras Dependentes

Suposições

1. Os dados amostrais consistem de amostras emparelhadas (amostras dependentes de duas populações).

2. As amostras são amostras aleatórias simples.

3. Se o número de pares de dados amostrais é pequeno (n 30), então a população de diferenças dos valores pareados deve ser

aproximadamente normalmente distribuídas.

sd = desvio-padrão das diferenças d para os

dados amostrais emparelhados.

n = número de pares de dados.

µd = média das diferenças d para a

população de dados emparelhados

d = valor médio das diferenças d para os

dados amostrais emparelhados (igual

à média dos valores de x - y )

Notação para Amostras

Dependentes

t = d - µd

sd

n

Estatística de Teste para Dados Amostrais Emparelhados

T com graus de liberdade = n - 1

Valores Críticos

Se n 30, os valores críticos são determinados através da Tabela t de student.

Se n > 30, os valores críticos são determinados através da Tabela Normal.

Intervalos de Confiança

T com graus de liberdade = n -1

d - E < µd < d + E

onde E = t/2 sd

n

Exemplo:

Alturas Relatadas e Medidas (em polegadas) de

Estudantes

Estudante A B C D E F G H I J K L

Altura 68 74 82,25 66,5 69 68 71 70 70 67 68 70

Relatada

Altura 66,8 73,9 74,3 66,1 67,2 67,9 69,4 69,9 68,6 67,9 67,6 68,8

Medida

Diferença 1,2 0,1 7,95 0,4 1,8 0,1 1,6 0,1 1,4 -0,9 0,4 1,2

outlier

Existem diferenças de alturas relatadas e medidas?

Exemplo – Saída do Excel

Teste para Três ou mais Médias

• ANOVA : ANalysis Of VAriance

• Testa se a média de uma variável de interesse se

difere por grupos da população.

• Hipóteses:

As populações têm a mesma variância.

As amostras são retiradas de populações com

distribuição normal.

As amostras são aleatórias e independentes.

Hipótese nula: as médias são iguais

Hipótese alternativa: Pelo menos uma média é

diferente

Tabela ANOVA (I)

• k grupos

• ni: tamanho da amostra i, i =1,...,k; N: n1+...+nK

• Xij: j-ésima replicação da variável de interesse no i-

ésimo grupo

• : média amostral do grupo i, i=1,...,k

• : média geral (ou grande média) de todas as

observações

• SQT= : Soma de Quadrados Total

• SQD= : Soma de Quadrados Dentro

Tabela ANOVA(II)

• SQE = SQT – SQD: Soma de Quadrados Entre

• Tabela:

• Rejeite a hipótese nula se F for MAIOR que o

quantil 1-α de uma distribuição F com k-1 e N-

k graus de liberdade.

Fonte de Variação

Graus de liberdade

Soma de Quadrados

Quadrado Médio

F

Entre k-1 SQE QME=SQE/(k-1) QME/QMD Dentro N-k SQD QMD=SQD/(N-k) Total N-1 SQT

ANOVA - Exemplo

• Médias de Proficiência, SAEB99, 4ª série,

Português, por Raça

Report

PROFIC

179,1829 9169 48,78049

170,4634 7982 43,64761

151,6980 2229 35,28886

175,9971 1041 46,05428

171,1383 755 46,73425

172,5597 21176 46,13448

Você se considera:

Branco

Pardo/Mulato

Negro

Amarelo

Indígena

Total

Mean N Std. Deviation

ANOVA Table

1421195 4 355298,758 172,336 ,000

43647476 21171 2061,663

45068671 21175

Between Groups

Within Groups

Total

PROFIC * Você

se considera:

Sum of


Atividade 3

Referências

Bibliografia

• Magalhães, M.N. e Lima, A.C.P.L. Noções de

Probabilidade e Estatística. Ed. Edusp, 6ª

edição, 2005.

• Wild, C.J. e Seber, G.A.F. (LTC)

Encontros com o Acaso: um Primeiro Curso de

Análise de Dados e Inferência

• Laponi, J.C. Estatística usando Excel. Ed.

Campus, 4ª edição, 2005.

Apêndice

Introdução à Probabilidade

Probabilidades

• Para variáveis categóricas, discretas ou

contínuas

• Varia entre 0 e 1.

• Soma das probabilidades de cada categoria

é igual a 1.

• (integral, no caso contínuo).

Caso discreto

• Se a variável assume valores {x1, x2,...,xn}

(ou infinitos valores discretos):

• Prob(X=xi)=pi

• 0 < pi < 1

• Soma de todos os pi’s = 1

Caso contínuo

• A probabilidade entre 2 pontos é igual à área sob a

curva, entre os dois pontos e o eixo x.

• Probabilidade no ponto é igual a 0

P{5 ≤ X ≤ 8}

Modelo Binomial

• Variável assume dois valores: “sucesso”

(com probab. p) ou “fracasso” (com probab.

1-p) => Distrib. Bernoulli.

• Em n tentativas independentes de Bernoulli:

X: nº de sucessos nas n tentativas.

X tem distrib. Binomial, com parâmetros n e p.

Abrir Binomial.html

Quando o interesse está em modelar uma var.

de Bernoulli => regressão logística.

Modelo Binomial - Exemplo

• Experimento: lançamento de uma moeda.

• Xi: 1, se der cara no i-ésimo lançamento; 0

se coroa

• X: nº de caras em n lançamentos

(independentes) da moeda.

• * Qualquer variável pode-se transformar em

binária.

Outros modelos discretos (1)

• Exemplo:

• X: nº de acidentes em certo dia em certo

cruzamento (Rio Branco com

Independência)

• Valores de X: 0, 1, 2, ...

• Modelo apropriado: Distrib. de Poisson

(distribuição dos eventos raros, baixa

probabilidade de ocorrência)

• Prob (X=k)=e-λ λk/k!

• Parâmetro λ: taxa de sucesso

Outros modelos discretos (2)

• Exemplo:

• X: nº de tentativas até obter o 1º sucesso

(ex, lançamento de uma bola na cesta de

basquete).

• Valores de X: 1, 2, ...

• Modelos apropriado: Distrib. Geométrica

• Prob (X=k)=(1-p)kp, k=1,2,3,...

Modelos Contínuos

• Existem vários:

• Uniforme, Exponencial , Normal, etc.

http://pt.wikipedia.org/wiki/Distribui%C3%A7%C3%B5es_de_probabilidade

Clicar em cada distribuição, para mostrar os

gráficos.





















Função Distribuição Acumulada

• F(x)=P(X≤x)

• Caso Discreto:

• Caso contínuo:

𝑭 𝒙 = 𝑷(𝑿 = 𝒙𝒊)

𝒊:𝒙𝒊≤𝒙

𝑭 𝒙 = 𝒇 𝒙 𝒅𝒙𝒙

−∞

Distribuição Normal

Exploração de Dados Univariados

• Faça sempre um gráfico de seus dados

Em geral, ramo-e-folhas ou um histograma

• Procure um padrão global e desvios acentuados

Outliers

• Calcule um resumo numérico para descrever o

centro e a dispersão

• Às vezes, o padrão global de um grande número

de observações é tão regular que pode ser

descrito por uma curva suave

• Curva descreve toda a distribuição em uma

única expressão

Mais fácil para trabalhar

• A curva é um modelo matemático

descrição matemática idealizada

• Áreas das barras em um histograma

representam contagens (ou proporções)

• Área sob a curva é exatamente 1

• Área sob a curva representa proporção de

observações

área = freqüência relativa

Curvas Normais

• É uma classe importante de curvas de

densidade

• Características:

São simétricas, unimodais e tem forma de sino

Descrevem distribuições normais (gaussianas)

Função de Densidade

O gráfico tem o fomato de sino

Parâmetros da distribuição normal:

• Média ()

• Desvio-padrão () ou variância (2)

Características

Simétrica em torno da média ()

• área antes de = área depois de = 0,5

• média = mediana = moda

Varia de – a +

• Parâmetro de locação:

• Parâmetro de escala: (2)

• ** Erro na figura (à direita: +1S,+2S e +3S)

• Áreas de intervalos

± 68%

± 2 95%

± 3 99,7%

Distribuição Normal Padrão

• Z ~ N(0, 1)

Média () = 0

Desvio-padrão () = 1

• Valores de área tabelados

Tabela Normal Padrão (1)

Tabela Normal Padrão (2)

Distribuição Normal – Cálculo de

Probabilidades

• Seja a variável aleatória Z ~ N(0, 1)

Calcule P{Z < – 1,96}

Roteiro:

• Esboce a curva normal

• Trace uma linha para z = – 1,96

• Verifique a área que se deseja calcular

• Determine a área a partir da tabela

Área sob a curva para Z < – 1,96:

P {Z < – 1,96} = 0,0250

Leitura direta na

Tabela

0

Calcule P{– 1,96 < Z < 1,96}

P{– 1,96 < Z < 1,96} = 0,9750 – 0,0250 = 0,9500

0,0250

Tabela:

P{Z<1,96} = 0,9750

0

• Área sob a curva para Z < 1,96

• Calcule P { Z > 1,96}

Tabela:

P{Z<1,96} = 0,9750

1 – 0,9750 = 0,0250

0

• Probabilidade contida em alguns intervalos

Intervalo Proporção

–1 < Z < 1

–2 < Z < 2

–3 < Z < 3

• Determinar x, tal que P{Z > x} = 0,05

P { Z < 1,65} = 0,9505

P {Z < 1,64} = 0,9495

0,0500

x

Tabela: Valor mais próximo de P{Z<x} = 0,9500

x = 1,645 0

Intervalos Simétricos em Torno de Zero

Proporção Intervalo

90%

95%

99%

Outras Distribuições Normais

• Caso Geral:

Média:

Desvio-padrão:

• Transformação:

• Mesmos procedimentos após transformação

(tabela Normal Padrão)

Conversão na Normal Padrão

• P{ < X < x } = P {0 < Z < z }

X Z

Exemplo

• As alturas de mulheres com 18 a 24 anos de

idade é aproximadamente normal com

média 164 cm e desvio-padrão 6,4 cm.

X: altura de mulheres entre 18 e 24 anos (cm)

X ~ N (164, 6,4)

1. Encontre a proporção de mulheres com altura

inferior a 172 cm

Padronização

Pela tabela

P { Z < 1,25} = 0,8944

P { X < 100} = 0,8944 = 89,44%

2. Qual o valor de altura que delimita 5% das mulheres

mais altas?

introdução à análise de dados ii · estatísticas descritivas de proficiência, por horas de...

Documents