regressão linear simples

Post on 22-Jun-2015

5.039 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

REGRESSÃO LINEAR

Programa de Pós-Graduação em Ciências da Saúde

Disciplina de Bioestatística

Professor: Paulo N Rocha

paulonrocha@ufba.br

Créditos: Bioestatística: Princípios e Aplicações. Sidia M. Callegari-Jacques.

Introdução Termo regressão à média: Francis Galton 1886

estatura dos filhos em relação à dos pais

Estudo da regressão aplica-se àquelas situações em que há razões para supor uma relação de causa x efeito entre duas variáveis quantitativas e se deseja expressar matematicamente essa relação

Y = variável dependente (resposta)

X = variável independente (explicativa ou preditiva)

Y = A + Bx, onde:Y = variável dependenteA = coeficiente linear (valor de y quando x = 0)B = coeficiente angular (inclinação da reta; acréscimo ou decréscimo em y para cada acréscimo de uma unidade em x)x = variável independente

EQUAÇÃO DA LINHA RETA

Diferentes notações

Livro de Sidia M. Callegari-JacquesY = A + Bx (população)Ŷ = a + bx (amostra, estimativa)

Outros autoresY = α + βx (população)Ŷ = β0 + βx (amostra, estimativa)

μY|X = β0 + βx (amostra, estimativa)

Reta que ilustra a equação y = 10 – 2x

X y

0 10

1 8

2 6

3 4

4 2

5 0

1

B = -2

Gráfico de dispersão

Quantidade de poluente

(ug/ml)

Escore de dano ecológico

1 3

2 6

3 7

4 10

5 10

6 12

A regressão linear simples é um procedimento que fornece equações de linhas retas que descrevem fenômenos em que há uma variável independente apenas

Two-way Scatter Plot

Stata Output

Os pontos experimentais É comum haver variação na variável dependente quando ela

é medida para um certo valor da variável independente

Pontos obtidos por um experimentador dificilmente se colocam exatamente em uma linha

Os desalinhamentos são interpretados como desvios, ao acaso, do comportamento geral do fenômeno

É por isso que se pensa em ajustar uma linha reta a pontos que não estão perfeitamente alinhados

A reta vai representar o comportamento médio dos valores de y à medida que x aumenta de valor

Modelo proposto

Linha reta: Y = A + Bx

Regressão: Y = A + Bx + ε, onde:ε representa a diferença (desvio) entre o

valor observado de y e o esperado pela reta

A linha reta representa o comportamento de valores de y médios esperados para distintos valores de x

Representação gráfica

Note que a variação é a mesma nas 4 subpopulações

Como traçar a reta da regressão? Como obter a melhor reta?

Mão livre: sujeito a erros de julgamento...Método analítico

Como fazer previsões para y a partir de valores conhecidos de x?Processo gráfico: sujeito a errosEquação da regressão

Obtenção da reta de regressão

Reta de regressão verdadeira: seria obtida se fossem conhecidos os valores de x e y para todos os indivíduos da populaçãoAltura verdadeira da reta: parâmetro AInclinação verdadeira da reta: coeficiente de

regressão B

O mais comum é estudar a regressão entre x e y utilizando uma amostra da população de pontosa e b são as estimativas dos parâmetros A e B

Método dos mínimos quadrados

Assim chamado porque garante que a reta obtida é aquela para a qual se tem as menores distâncias (ao quadrado) entre os valores observados (y) e a própria reta

Determinação das quantidades necessárias para obtenção dos coeficientes da reta de regressão

X(μg/ml) Y(dano) XY X2 Y2 Ŷ

1 3 3 1 9 3,72

2 6 12 4 36 5,43

3 7 21 9 49 7,14

4 10 40 16 100 8,86

5 10 50 25 100 10,57

6 12 72 36 144 12,28

Σ 21 48 198 91 438 48,00

Two-way Scatter Plot

Teste de significância da regressão

Etapas do teste de hipóteses da regressão Elaboração das hipóteses estatísticas

H0 : B = 0HA : B ≠ 0

Nível de significânciaα = 0,01

Determinação do valor crítico do testegl = n – 2 t0,01;4 = 4,604

Determinação do valor calculado do teste

Determinação do valor calculado do teste, decisão e conclusão

unidades. 1,71 aumente ecológico

dano o que se-espera poluente, do conc. na g/L 1 de acréscimo cada Para

0,01).( x sobrey de regressão existe que admitimos Logo,

zero.ser deve não (B) alpopulacion regressão de ecoeficient o :Conclusão

.0 ,604,4144,9 Como

padrão)-erros 9 aprox. de é zero e b entre distância (a 144,9187,0

71,1

187,00351,070

46,2

6)21(

91)26(

)19871,1()4802,2(438

)()2(

abaixo aalternativ fórmula a ,)()2(

)ˆ(

4;01,0

2

22

2

2

2

Hrejeita-sett

t

EP

n

xxn

xybyayEP

ouxxn

yyEP

EP

b

EP

Bbt

calc

calc

b

b

b

bbcalc

Stata Output

y = 8

Desvio explicado(ŷi – y)

Desvio não-explicado(yi – ŷi)

Desvio total(yi – y)

Desvio total = (yi – y)

Desvio explicado = (ŷi – y)

Desvio não explicado = (yi – ŷi)

Créditos: Neto, AS

(yi – y)2 = (ŷi – y)2 + (yi – ŷi)2

Soma total dos

quadrados

SST = SSR + SSE

Se medirmos estes desvios para cada yi e ŷi , elevarmos ao quadrado cada desvio, e somarmos os desvios

quadrados, teremos

Soma dos quadrados explicada

Soma dos quadrados não

explicada

Créditos: Neto, AS

SSR k MSR F = = SSE MSE n – k – 1

Teste estatístico

Créditos: Neto, AS

Fonte de variação

SS GL MS F

Regressão linear

SSR k MSR=SSR/k MSR/MSE

Residual SSE n-k-1 MSE=SSE/n-k-1

Total SST n-1

Tabela de análise de variância

Créditos: Neto, AS

COEFICIENTE DE DETERMINAÇÃO

SSR

SST

(ŷi – y) 2

(yi – y) 2r 2 = =

Créditos: Neto, AS

Stata Output

Utilidades da reta de regressão

Representar a dependência de uma variável quantitativa em relação à outra por meio de uma equação simples

Prever valores para a variável dependente y de acordo com valores determinados (inclusive não-observados) da variável independente x.

Pressupostos da regressão linear1. A variável y deve ter distribuição normal (ou

aproximadamente normal)

2. Homocedasticidade (a variação de y deve ser a mesma para cada valor de x)

3. Os pontos no gráfico devem representar uma tendência linear

4. Amostragem independente e aleatória

5. Variável x medida sem erro

Análise de resíduos Os resíduos representam a diferença entre aquilo que foi

observado e o que foi predito pelo modelo de regressão. Resíduo = E = (y - ˆy)

Calculam-se os resíduos para cada valor de y

Desenha-se um gráfico no qual os resíduos são colocados no eixo vertical e os valores esperados de y (ˆy), no horizontal.

Os pontos devem se distribuir de forma equilibrada acima e abaixo da linha imaginária paralela ao eixo x na altura do resíduo zero, formando uma faixa aproximadamente retangular

Residual versus Predicted (RVP) Plot

Gráficos de resíduos

Faixas em forma de curvaViolação ao pressuposto #2Não existe homocedasticidade

Faixas curvasViolação ao pressuposto #3A reta não é o modelo adequado

EXEMPLOS NO SPSS

Fim

top related