tópico 4 regressão linear simples 01

Post on 08-Jul-2015

640 Views

Category:

Education

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

Regressão Linear Simples.

TRANSCRIPT

Ricardo Bruno N. dos SantosProfessor Adjunto da Faculdade de Economia

e do PPGE (Economia) UFPA

Estatística II

UNIVERSIDADE FEDERAL DO PARÁINSTITUTO DE CIÊNCIAS SOCIAIS APLICADAS

FACULDADE DE ECONOMIA

O modelo de Regressão Linear

Simples

A interpretação moderna da

regressãoA análise de regressão se ocupa do estudo dadependência de uma variável, a variável dependente, emrelação a uma ou mais variáveis, as variáveis explanatórias,com vistas a estimar e/ou prever o valor médio (dapopulação) da primeira em termo dos valores conhecidos oufixados (em amostragens repetidas) das segundas.

O modelo de Regressão Linear

Simples

A interpretação moderna da

regressão

O modelo de Regressão Linear

Simples

A interpretação moderna da

regressão

O modelo de Regressão Linear

Simples

A interpretação moderna da

regressão

O modelo de Regressão Linear

SimplesConceito da Função de Regressão Populacional

(FRP)A regressão populacional (RP) indica apenas o valoresperado da distribuição de Y, dado Xi, ou seja, ela aponta quea resposta média de Y varia com X.

𝐸 𝑌 𝑋𝑖 = 𝑓(𝑋𝑖)

Pressupondo que é uma regressão linear teremos:𝐸 𝑌 𝑋𝑖 = 𝛽1 + 𝛽2𝑋𝑖

Nesse caso 1 e 2 são parâmetros conhecidos comointercepto e coeficiente angular

O modelo de Regressão Linear

Simples

O significado do termo linearQual a diferença entre a linearidade das variáveis e a

dos parâmetros?

O modelo de Regressão Linear

Simples

O Erro EstocásticoPodemos expressar o desvio de um valor individual de Y

(Yi) em torno de seu valor esperado, assim temos:𝑢𝑖 = 𝑌𝑖 − 𝐸(𝑌|𝑋𝑖)

Ou então𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖

Onde o desvio ui é uma variável aleatória nãoobservável que assume valores positivos ou negativos.

O termo ui também é conhecido como distúrbioestocástico ou termo de erro estocástico.

O modelo de Regressão Linear

SimplesO Erro Estocástico

𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖

𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖 + 𝑢𝑖 que é a FRP

No entanto, se tomarmos o valor esperado de 𝑌𝑖 =𝐸 𝑌 𝑋𝑖 + 𝑢𝑖 nos dois lados da equação, obtém-se:

Assim, a pressuposição de que a linha de regressãopassa pelas médias condicionais de Y implica que os valoresmédios condicionais de ui são iguais a zero.

( | ) [ ( | )] ( | )

( | ) ( | )

( | ) ( | ) ( | ) 0

i i i i i

i i i

i i i i

E Y X E E Y X E u X

E Y X E u X

E u X E Y X E Y X

O modelo de Regressão Linear

SimplesFunção de regressão Amostral (FRA)

E quando tivermos não uma população, mas sim, apenasamostras de uma população. Na maior parte das situações práticasé impossível trabalhar com dados populacionais. O que teríamosagora são amostras de Y correspondentes a alguns X fixados.

O modelo de Regressão Linear

Simples

Função de regressão Amostral (FRA)

O modelo de Regressão Linear

Simples

Função de regressão Amostral (FRA)Acredita-se que as linhas das FRA representem a linha

da FRP, porém, devido às variações amostrais, elas são, namelhor das hipóteses, aproximações da verdadeira regressãopopulacional.

Como a FRA é uma aproximação da FRP podemosrepresentar a linha de regressão da FRA pela seguintenotação.

Que assim como FRA pode ser representado por1 2ˆ ˆˆ

i iY X

1 2ˆ ˆ ˆ

i i iY X u

O modelo de Regressão Linear

Simples

Função de regressão Amostral (FRA)Assim, nosso principal objetivo passa a ser estimar a

FRP com base na FRA.

O modelo de Regressão Linear

Simples

Função de regressão Amostral (FRA)Fica a pergunta: A partir da FRA pode-se formular um

método ou regra que torne a aproximação entre FRA e FRP o“mais próximo”, possível? Em outras palavras, tornar osestimadores i’s chapéu mais próximos dos verdadeiros i’s.

O Problema da Estimação: O Método

dos Mínimos Quadrados Ordinários

(MQO)

O Método dos Mínimos Quadrados

Ordinários (MQO)Aqui iremos estimar a FRP a partir da FRA da maneira

mais acurada possível.

Recorrendo a FRP de duas variáveis temos:

Porém como a FRP não pode ser observadadiretamente. Temos que estimá-la a partir da FRA:

1 2i i iY X u

1 2ˆ ˆ ˆ

ˆ ˆˆ ,

i i i

i i i i

Y X u

Y u Y Y

sendo o valor estimado de

O Método dos Mínimos Quadrados

Ordinários (MQO)Como determinar a Própria FRA? Para vermos isso,

faremos o seguinte:

Expressamos Yi como:

Ou seja, os resíduos são simplesmente a diferençaentre os valores observados e estimados de Y.

Agora nosso objetivo é estimar a FRA de tal forma quea mesma fique o mais próximo possível do Y observado.

1 2

ˆˆ

ˆ ˆ

i i i

i i

u Y Y

Y X

O Método dos Mínimos Quadrados

Ordinários (MQO)Para tornar o valor de Y observado o mais próximo do

estimado basta adotarmos o seguinte critério:

deve ser o menor possível.

Embora intuitivamente seja um bom critério ele nãofunciona, pois a soma dos resíduos se anulam. Para resolveresse problema utilizamos a soma do quadrado dos resíduos.

ˆˆ ( )i i iu Y Y

22

2

1 2

ˆˆ ( )

ˆ ˆ( )

i i i

i i

u Y Y

Y X

O Método dos Mínimos Quadrados

Ordinários (MQO)O princípio do MQO é escolher os estimadores de

e de tal forma que, para qualquer amostra ou conjunto dedados, a seja a menor possível.

Aplicando um processo de otimização podemos verificar isso,levando em conta que

Considerando

2̂2ˆiu

1 2

2

ˆ ˆ( , )

ˆmin iu

2ˆiu Q

Cálculo dos estimadores por MQO

Pelo método de MQO podemos encontrar osestimadores 𝛽𝑖

′𝑠 da regressão linear simples, essesestimadores são dados por:

𝛽1 = 𝑌 − 𝛽2 𝑋

E

𝛽2 = 𝑋𝑖𝑦𝑖

𝑋𝑖2 − 𝑛 𝑋2

𝑜𝑢 𝛽2 = 𝑥𝑖𝑦𝑖

𝑥𝑖2

Cálculo dos estimadores por MQO

COM BASE NAS FÓRMULAS DOS BETAS CALCULEA REGRESSÃO, OS RESÍDUOS PARA OS DADOS DATABELA ABAIXO:

Cálculo dos estimadores por MQO

MQO: Propriedades Estatísticas do

MQOi) Os estimadores de MQO são expressos unicamente em

termos de quantidades observáveis (isto é, amostra)como X e Y. Portanto, podem ser calculados comfacilidade.

ii) São estimadores pontuais, isto é, dada a amostra, cadaestimador proporciona apenas um único valor (ponto) doparâmetro populacional relevante.

iii) Uma vez obtidas as estimativas de MQO para os dadosamostrais, a linha de regressão amostral pode serfacilmente obtida, tendo as seguintes propriedades:

MQO: Propriedades Estatísticas do

MQOa) Passa pelas médias amostrais de Y e X. Esse fato fica óbvio

pela estimativa de 1.

b) O valor médio do Y estimado, 𝑌 , é igual ao valor médio doY observado para:

𝑌𝑖 = 𝛽1 + 𝛽2𝑋𝑖

= 𝑌 − 𝛽2 𝑋 + 𝛽2𝑋𝑖

= 𝑌 + 𝛽2(𝑋𝑖 − 𝑋)

Somando-se os dois lados da equação e dividindo por nteremos: ˆY Y

MQO: Propriedades Estatísticas do

MQOc) O valor médio dos resíduos 𝒖𝒊 é igual a zero.

iv) Os resíduos 𝒖𝒊 não estão correlacionados ao Yi

previsto.

𝒚𝒊 𝒖𝒊 = 𝜷𝟐 𝒙𝒊 𝒖𝒊

= 𝜷𝟐 𝒙𝒊(𝒚𝒊 − 𝜷𝟐𝒙𝒊)

= 𝜷𝟐 𝒙𝒊𝒚𝒊 − 𝜷𝟐𝟐 𝒙𝒊

𝟐

= 𝜷𝟐𝟐 𝒙𝒊

𝟐 − 𝜷𝟐𝟐 𝒙𝒊

𝟐 = 𝟎

v) Os resíduos 𝑢𝑖 não estão correlacionados com os 𝑋𝑖,isto é 1 2

ˆ ˆ ˆ2 ( ) 0i i i i iY X X u X

MQO: Pressupostos do MQO

1) Modelo de Regressão Linear. O modelo de regressão élinear nos parâmetros.

2) Os valores de X são fixos em amostras repetidas. Ou seja,X é não estocástico.

MQO: Pressupostos do MQO

3) O valor médio do termo de erro ui é zero. Dado ovalor de X, o valor médio, ou esperado, do distúrbio aleatórioui é zero. Ou seja, o valor médio condicional de ui é zero:

Homocedasticidade ou variância igual de ui. A variânciade ui é a mesma para todas as observações, isto é, asvariâncias condicionais de ui são idênticas. Simbolicamente,temos:

( | ) 0i iE u X

2

2

2

var( | ) [ ( | )]

( | ),

i i i i i

i i

u X E u E u X

E u X

em decorrência de 3

MQO: Pressupostos do MQO

MQO: Pressupostos do MQO

5) Não há autocorrelação entre os termos de erro.Dados quaisquer dois valores de X, Xi e Xj (i≠j), a correlaçãoentre quaisquer ui e uj (i≠j) é zero. (MRLM)

6) Ausência de covariância entre ui e Xi ou E(ui|Xi)=0

cov( , | , ) {[ ( )] | }{[ ( )] | }

( | )( | ) 0

i j i j i i i j j j

i i j j

u u X X E u E u X u E u X

E u X u X

cov( , ) [ ( )][ ( )]

( ( ( )), ( ) 0

( ) ( ) ( ), ( )

(

i i i i i i

i i i i

i i i i i

i

u X E u E u X E X

E u X E X E u

E u X E X E u E X

E u X

já que

já que é não estocástico

) ( ) 0

0

i iE u

já que

por hipótese

MQO: Pressupostos do MQO

7) O número de observações n deve ser maior que onúmero de parâmetros a serem estimados. Ou então, onúmero de observações n deve ser maior que o número devariáveis. (MRLM)

8) Variabilidade dos valores de X. Os valores de X emuma dada amostra não devem ser os mesmos. Técnicamente.Var(X) deve ser um número positivo finito.

9) O modelo de regressão está especificado da formacorreta. Ou então, não há viés ou erro de especificação nomodelo empregado na análise empírica.

10) Não há multicolinearidade perfeita. Isto é, não hárelações lineares perfeitas entre as variáveis independentes.(MRLM)

MQO: Precisão nas Estimativas **Como verificamos, cada FRA pode nos fornecer

diferentes valores dos estimadores Betas da regressão, poreste motivo, devemos sempre levar em consideração uma

medida de “confiabilidade” ou precisão dos estimadores 𝛽1 e 𝛽2. Na estatística, a precisão de uma estimativa é medidapelo seu erro padrão (ep). Podemos estimar os erros a partir

das variâncias dos 𝛽, que são:

𝑣𝑎𝑟 𝛽2 =𝜎2

𝑥𝑖2 , 𝑒 𝑒𝑝 𝛽2 =

𝜎

𝑥𝑖2

𝑣𝑎𝑟 𝛽1 = 𝑋𝑖

2

𝑛 𝑥𝑖2 𝜎2 𝑒 𝑒𝑝 𝛽1 =

𝑋𝑖2

𝑛 𝑥𝑖2 𝜎

MQO: Precisão nas EstimativasUma estimativa viável da variância do erro 𝜎2 pode ser

obtida pela Soma do Quadrado dos Resíduos (SQR). Assimtem-se:

𝜎2 = 𝑢𝑖

2

𝑛 − 2

Onde o valor de n-2 é o grau de liberdade e o 𝑢𝑖2 é a

SQR.

MQO: Precisão nas EstimativasPara um melhor entendimento podemos representar a

SQR a partir da seguinte expressão:

𝑢𝑖2 = 𝑦𝑖

2 − 𝛽22 𝑥𝑖

2

Já verificamos que 𝛽2 = 𝑥𝑖𝑦𝑖

𝑥𝑖2 , que substituindo na

expressão acima teremos:

𝑢𝑖2 = 𝑦𝑖

2 − 𝑥𝑖𝑦𝑖

2

𝑥𝑖2

Portanto, podemos afirmar que a SQR é composta pelaSoma de Quadrados Total (SQT= 𝑦𝑖

2) menos a soma de

quadrados explicada (SQE= 𝑥𝑖𝑦𝑖

2

𝑥𝑖2 ).

MQO: Propriedades dos estimadores

(𝜷) – o Teorema de Gauss-MarkovO Teorema de Gauss-Markov é um dos mais importantes

dentre da Econometria, é a partir deste teorema que provamostrês importantes propriedades dos estimadores que garantem aconfiabilidade nas suas estimativas, são elas:

1) É Linear: ou seja, trata-se de uma função linear de umavariável aleatória.

2) É Não Viesado (ou não TENDENCIOSO): ou seja, seu valor

médio ou esperado 𝐸( 𝛽2) é igual ao verdadeiro valor de 𝛽2.

3) Tem VARIÂNCIA MÍNIMA na classe de todos os estimadoreslineares não viesados: um estimador não viesado com a menorvariância é conhecido como ESTIMADOR EFICIENTE.

MQO: Propriedades dos estimadores

(𝜷) – o Teorema de Gauss-MarkovTodo o objetivo por trás da regressão é provar que os

estimadores de MQO são MELNT (Melhor Estimador LinearNão Tendencioso). O Teorema de Gauss-Markov prova isso,logo, essa é a principal finalidade de tal teorema.

Podemos demostrar isso através de um gráfico dedistribuição normal destinado apenas aos estimadores, logo:

MQO: O coeficiente de Determinação R2 –

uma medida da “qualidade do

ajustamento”Na verdade o principal objetivo desse coeficiente é

mostrar o quanto de X consegue explicar em Y, pode-severificar isso no seguinte diagrama de Venn

MQO: O coeficiente de Determinação R2 –

uma medida da “qualidade do

ajustamento”Ou seja considerando a equação em forma dos desvios

(para facilitar o cálculo), pode-se verificar que:𝑦𝑖 = 𝑦𝑖 + 𝑢𝑖

Lembrando que: 𝑦𝑖 = 𝛽2𝑥𝑖 + 𝑢𝑖 e 𝑦𝑖 = 𝛽2𝑥𝑖, seelevarmos os dois lados da primeira equação ao quadrado esomando na amostra, teremos

𝑦𝑖2 = 𝑦𝑖

2 + 𝑢𝑖2 + 2 𝑦𝑖 𝑢𝑖

= 𝑦𝑖2 + 𝑢𝑖

2

= 𝛽22 𝑥𝑖

2 + 𝑢𝑖2

MQO: O coeficiente de Determinação R2 –

uma medida da “qualidade do

ajustamento”Na composição final temos o conceito de que a

SQT=SQE+SQR

Soma de Quadrados Total = Soma de QuadradosExplicada + Soma de Quadrados dos Resíduos.

Isso no gráfico pode ser representado da seguinteforma:

MQO: O coeficiente de Determinação R2 –

uma medida da “qualidade do

ajustamento”Dividindo ambos os lados de SQT por SQT teremos:

1 =𝑆𝑄𝐸

𝑆𝑄𝑇+

𝑆𝑄𝑅

𝑆𝑄𝑇

= 𝑌𝑖 − 𝑌

2

𝑌𝑖 − 𝑌 2+

𝑢𝑖2

𝑌𝑖 − 𝑌 2

Podemos então definir o 𝑟2 como sendo

𝑟2 =𝑆𝑄𝐸

𝑆𝑄𝑇

= 𝑦𝑖

2

𝑦𝑖2 𝑜𝑢 =

𝛽22 𝑥𝑖

2

𝑦𝑖2 𝑜𝑢 =

𝑥𝑖𝑦𝑖2

𝑥𝑖2 𝑦𝑖

2 𝑜𝑢 = 1 − 𝑢𝑖

2

𝑦𝑖2

MQO: O coeficiente de Determinação R2 –

uma medida da “qualidade do

ajustamento”Lembrando do nosso exemplo anterior vamos calcular o

𝑟2

MQO: Um exemplo numérico

Vamos construir a tabela 3.3 do capitulo 3 (seção 3.6)usando o software Gretl. Os dados são referentes as despesasfamiliares de consumo semanal (Y) e renda familiar semanal(X)

top related