estatistica1 activ3 versentrega a_trabalho

29
Disciplina - Estatística I Regressão Actividade de pesquisa Alunos: João Pedro B. C. Silva – 1101485 Ian Downie -1102742 Ano Lectivo 2011/2012

Upload: joao-pedro-silva

Post on 13-Apr-2016

220 views

Category:

Documents


0 download

DESCRIPTION

Trabalho para a disciplina Estatistica 1

TRANSCRIPT

Page 1: Estatistica1 Activ3 VersEntrega A_trabalho

Disciplina - Estatística I

RegressãoActividade de pesquisa

Alunos: João Pedro B. C. Silva – 1101485Ian Downie -1102742Ano Lectivo 2011/2012

Page 2: Estatistica1 Activ3 VersEntrega A_trabalho

1. Introdução

2. Regressão Linear Simples

3. Modelos de Regressão Polinomiais

4. Técnicas de Análise de Variância Aplicadas à Regressão

5. Técnicas de Inferência Aplicadas à Regressão

6. Softwares de Regressão

7. Conclusão

8. Referências

1. Introdução

Actividade 3-Regressão 2 | P á g i n a

Page 3: Estatistica1 Activ3 VersEntrega A_trabalho

A análise de relações com recurso à regressão é uma ferramenta poderosa mas de fácil compreensão e, por estas razões , utiliza-se a regressão em quase todas as áreas de investigação de forma a estudar interacções entre variáveis em análise.

O primeiro passo na construção de uma análise por regressão é a especificação do problema. Se este passo for mal concebido, danificará todo o projecto; portanto, é essencial definir cuidadosamente qual é o problema a que se quer dar resposta. Depois, o investigador tem de identificar os regressores (Xi) que expliquem a variável de resposta (Y) e recolher os dados. Se todos os dados são qualitativos, utilizam-se técnicas de análise de variância para os analisar e as técnicas de análise de covariância se os dados regressors são qualitativos e quantativos.

O modelo que descreve a relação entre os Xi e Y pode ser linear ou não-linear. Este relatório só abordará a regressão linear; no entanto, é necessário clarificar que um modelo não-linear quer dizer que um dos regressores entra no modelo de forma não-linear. Quando a relação entre Xi e Y é não-linear, poderá ser definida como Polinomial, Exponencial, Logistica ou Sinusoidal. É também importante distinguir entre a regressão múltipla, que contém regressores múltiplas e a regressão multivariada que contém mais do que uma variável de resposta. O modelo tem de ser ajustado para os dados da amostra e existem vários métodos para o realizar – aqui consideremos, de forma breve o método dos quadrados mínimos.

O modelo ajustado é a finalidade da regressão; os resultados que advêm podem ser utilizados para: 1) avaliar a importância de regressores individuais; 2) analisar os efeitos de alterações nos regressores e 3) prever valores da variável de resposta. Contudo, antes de podermos tirar conclusões, temos de confirmar que as suposições da regressão não foram violadas.

2. Regressão Linear Simples

Pode-se contemplar a regressão na sua forma simples através da seguinte fórmula:

Esta é uma regressão múlitpla com três variáveis independentes e pode ser simplificada ainda mais para uma regressão com uma só variável independente (Xi). Na regressão múltipla, os coeficientes ( ) das variáveis independentes medem a mudança esperada na variável dependente quando as outras variáveis independentes são constantes. As suposições da regressão linear são:

1) é o intercepto e os descrevem a inclinação da linha de regressão;

2) ;

3) os que correspondem aos pares são independentes;

4) a variância dos erros é constante: (homoscedasticidade).Actividade 3-Regressão 3 | P á g i n a

[1.1]

Page 4: Estatistica1 Activ3 VersEntrega A_trabalho

De forma a simplificar os processos de resolução, é habitual recorrer à forma matricial para a resolução de problemas. Então podemos escrever a equação anterior da seguinte forma:

y1

y2

Myn

1 x1 x1 L x1

1 x2 x2 L x2

M M M M1 xn xn L xn

0

1

Mn

1

2

M n

Agora, considera-se uma forma de derivar os coeficientes de regressão.

I. Ajuste do Modelo

Estimação de Mínimos QuadradosAo derivar estes coeficientes, a prioridade tem de ser a minimização dos erros para que o modelo reflita adequadamente a realidade. Uma vez que os erros de estimação pode ser positivos ou negativos, utilizam-se os valores quadrados de modo a que todos os valores sejam positivos e que a soma dos valores não seja 0.

Chegamos ao mínimo da soma dos erros através da derivação de [1.3]. Disto, podemos concluir

que, para cada coeficiente

^

:

^ X t X 1

X tY

II. O Valor de Regressão Múltipla

A regressão múltipla (regressão com mais do que uma variável independente) é importante porque permite que sejam controlados os efeitos de outras variáveis X quando estamos a investigar os efeitos de uma variável específica.

Actividade 3-Regressão 4 | P á g i n a

[1.2]

[1.3]

[1.4]

Linha de regressão ajustada

Page 5: Estatistica1 Activ3 VersEntrega A_trabalho

Por exemplo, num estudo de Deloitte1 sobre a valoração de parques eólicos, os investigadores construíram o seguinte modelo:

e com base neste modelo, conseguiram controlar os efeitos individuais que projectos em várias fases de desenvolvimento produziram no valor global das iniciativas empresariais.

III. Aumentar as Capacidades do Modelo

Variáveis Dummy e Interacções entre VariáveisEste estudo de Deloitte também ajuda na exemplificação de uma outra característica da regressão múlitpla – a utilização de variáveis dummy. As variáveis dummy são regressores binários que permitem a diferenciação entre subgrupos na amostra. Por exemplo género, raça, possuir uma componente química ou não, etc. Pode-se também acrescentar mais que dois subgrupos com dummies adicionais; neste caso usam-se k-1 variáveis – a variável omitida é a “referência” porque os outros coeficientes das dummies são interpretados através da mudança da média esperada em relação à sua.

O modelo acima demonstra como os autores do estudo aplicaram uma dummy para discriminar entre transacções antes e depois da data especificada e estudar se houve um aumento no valor deste tipo de ativo. O gráfico à direita demonstra o impacto da dummy em que a linha azul representa o modelo de regressão antes da data de referência e a linha verde depois da data. Os investigadores acharam que a redução do valor dos empreendimentos entre os dois períodos foi significante.

1 Deloitte (2011), http://www.deloitte.com/assets/Dcom-Denmark/Local%20Assets/Documents/Udgivelser/Publikationer/CSR_klima_og_cleantech/Valuing_wind_and_solar_developers_January_2011.pdf

Actividade 3-Regressão 5 | P á g i n a

[1.5]

[1.6]

Page 6: Estatistica1 Activ3 VersEntrega A_trabalho

Um outro aspecto interessante neste modelo é a interacção do dummy com uma das variáveis contínua; esta interacção reflete uma redução no valor da transacções maiores e explica o fato de as linhas não serem paralelas. Interacções entre variáveis contínuas também podem ser modeladas; no entanto, o investigador tem sempre de estar atento à base teórica do fenómeno que quer estudar e a possibilidade de perder interpretabilidade de modelos com interacções complexas.

Transformações Não-LinearesFrequentemente a variável dependente que está a ser modelado não obedece a distribuição normal, o que provavelmente terá consequências como a invalidação das distribuições das amostras que fornecem os erros padrão. Nestas situações, recorrem-se às transformações apresentadas no quadro a baixo para normalizá-la.

Transformação Nova Variável Dependente Modelo Novo Aplicação

Logarítmica Z=Xb enviesamento à direita

Exponencial Z=Xb enviesamento à esquerda

Potência Z=Xb enviesamento à direita e à esquerda (quando p>1)

Logística Z=Xb Sempre que Y é uma proporção

IV. Valores Aberrantes

Normalmente, quando há um valor que está muito longe da linha de regressão, é obrigatório examinar a situação e verificar se o valor modifica ou não drasticamente o modelo. Frequentemente, estes valores surgem de erros na amostragem e, apesar da informação perdida, costuma ser melhor retirá-los da regressão. No entanto, se se encontram vários destes valores agrupados, é necessário investigar mais profundamente a razão desta anomalia – talvez indique a omissão de uma variável importante do modelo. No entanto, valores aberrantes podem conter informação muito importante; por exemplo, no contexto do desenvolvimento de novos produtos ou tecnologias, podem apresentar processos mais eficiente ou baratos.

V. Multicolinearidade

A multicolinearidade é um problema que surge quando, dentro da regressão, não é possível

detectar a fonte da variabiliade na variável dependente Y – não se consegue determinar se

ou é o regressor responsável. Isto costuma ocorrer quando existe mais correlação entre as

Actividade 3-Regressão 6 | P á g i n a

Page 7: Estatistica1 Activ3 VersEntrega A_trabalho

variáveis X do que entre cada X e Y. Muitas vezes é possível resolver este problema com observações adicionais, mas mesmo assim é importante estar consciente deste potencial problema que pode introduzir imprecisão na regressão ao nível das estimativas dos coeficientes e os erros padrão.

Alguns sintomas típicos da multicolinearidade são:

1) valores significativos de F mas não de t;

2) variações imprevisíveis nos coeficientes ao introduzir uma nova variável;

3) coeficientes inesperados.

A forma mais simples de lidar com a multicolinearidade é a eliminação de variáveis: se existem duas que explicam o mesmo fenómeno, uma é redundante. Pode-se também, se não se consegue decidir qual variável deve ser excluída, combinar as variáveis correlacionadas. Uma transformação do tipo considerado na secção III deste capítulo pode igualmente ser considerado.

Ott2 (2009) encontrou uma forma de combater a multicolinearidade na regressão realizada para investigar a disposição de pagar dos passageiros aéreos por compensação de carbono (quando o custo do bilhete inclui uma taxa que contribui para compensar pelas emissões do carbono do voo). Ao selecionar os regressores para o modelo, a investigadora decidiu deixar fora “emprego” e “idade”, tendo em consideração que estes seriam demonstrariam um alto grau de multicolinearidade com o regressor dummy para estudante.

VI. Erros Não-Normais e Heteroscedásticos

Outra fonte de imprecisão em regressões são os erros não-normais e heterscedásticos que violam a suposição fundamental de não-enviesamento nos erros.

A deteção deste tipo de erros não-normais é frequentemente realizada com recurso à construção de um gráfico de quantis de forma a comparar a distribuição observada dos erros com a distribuição teórica.

Detecta-se a heterocedasticidade com o auxílio de um gráfico que trace a variância dos erros contra os valores esperados de Y ou contra cada um dos regressores X. Se os erros não são distribuídos aleatoriamente, mas demonstram uma forma – sendo a de um cone a mais clássica – provavelmente isto é uma prova suficiente da presença de heterocedasticidade. A sua consequência principal é que os erros padrão dos coeficientes de regressão não são confiáveis, potencialmente provocando enviesamento na inferência da regressão e resultados errados.

2 Willingness to Pay for Opt-In Offsets in the Voluntary Carbon Market (http://ekoeco.com/Willingness%20to%20Pay%20for%20OptIn%20Offsets%20in%20the%20Voluntary%20Carbon%20Market.pdf)

Actividade 3-Regressão 7 | P á g i n a

Page 8: Estatistica1 Activ3 VersEntrega A_trabalho

Estas situações costumam ter três causas principais. A primeira é um modelo mal especificado que resulta em agrupamentos de erros que não são explicados pelo modelo, por exemplo a função postulada é linear, mas os dados são polinomiais. A segunda é a utilização de uma forma inapropriada para medir a variável dependente. Um exemplo disso é aplicar um modelo de regressão linear quando a variável Y não é contínua mas discreta. A terceira é a omissão de uma variável, o que poderá ser resolvido com a inclusão da variável.

VII. Generalizações

Como foi abordado brevemente na última secção, muitas vezes a regressão linear não serve para modelar a realidade – com frequência por causa da não satisfação das suposições deste tipo de regressão. Embora fiquem um pouco fora do âmbito deste artigo, consideraremos de forma sucinta agora apenas alguns métodos de regressão para ultrapassar algumas dessas dificuldades.

Regressão logísticaA regressão logística é um modelo linear generalizado. Muitas vezes a variável dependente é discreta e não contínua, como a regressão linear simples pressupõe. Se se pretende um resultado da regressão que é binário (0 ou 1) – por exemplo, se uma pessoa ou um negócio é “saudável” ou não – a regressão logística dá-nos a probabilidade de receber um dos dois possíveis resultados. A relação entre a probabilidade e a variável independente pode ser descrita pela fórmula:

.

Regressão MultivariadaA maior parte da regressões estudadas são univariadas, que significa que tem apenas uma variável dependente. A regressão multivariada é uma extensão deste modelo para situações em que há mais do que uma variável dependente.

Uma situação em que pode ser necessária recorrer à regressão mulitvariada é quando se sabe que o erro da regressão é correlacionado com o erro de uma outra regressão. Se não se incluíssem as variáveis na regressão, significaria existir enviesamento por causa das variáveis omitidas e, consequente, uma perda de precisão nos coeficientes.

Nestas situações, cria-se uma distribuição conjunta para a variável independente, como é ilustrado na [1.8]:

Actividade 3-Regressão 8 | P á g i n a

[1.7]

Linha de regressão logística

, 09-01-2012,
Acresentar mais sobre o termo exponencial se houver tempo
Page 9: Estatistica1 Activ3 VersEntrega A_trabalho

Série temporalA regressão de série temporal é a observação repetida de uma variável independente ao longo do tempo. Frequentemente, a técnica é utilizada em disciplinas como a Economia, nas quais um objectivo é estudar as transformações em relações com a passagem do tempo. Um exemplo disso é as alterações observadas no preço de uma mercadoria.

Os dados de série temporal apresentam uma forma de fazer regressão semelhante à da regressão linear. No entanto, problemas como correlações entre erros, a ilegitimidade teórica da relação entre variáveis, poucos dados ou dados ausentes apresentam outros desafios para o investigador.

Existem vários outros modelos e adaptações do modelo de regressão linear simples, mas a base teórica é sempre a regressão linear. O factor mais importante, antes de escolher as técnicas de regressão mais adequadas, é ter em conta o tipo de dados que vão ser analisado e as considerações teóricas da disciplina na qual a regressão vai ser aplicada. Uma outra adaptação da regressão linear simples é o modelo de regressão polinomial que será considerado no próximo capítulo.

3. Modelos de Regressão Polinomiais

I. O que é um Modelo de Regressão Polinomial?

A regressão polinomial é uma técnica estatística que nos permite prever e avaliar o valor de uma variável com base em expressões polinomiais. Na regressão polinomial, a curva de ajuste é dada por uma função polinomial.

Graficamente, a regressão polinomial caracteriza-se pela aproximação aos pontos (xi,yi) através de curvas. As curvas poderão ter as seguintes formas:

Actividade 3-Regressão 9 | P á g i n a

[1.8]

Page 10: Estatistica1 Activ3 VersEntrega A_trabalho

Os modelos de regressão polinomial são úteis quando o investigador conhece a forma como os dados em análise se comportam graficamente. Deste modo, o investigador poderá modelar com maior segurança os dados em análise e as respostas a obter. No entanto, há certos aspectos a ter em conta. A extrapolação pode ser complicada e levar a erros consideráveis. Por vezes não é possível obter garantias sobre o comportamento de elementos da variável que estão fora da zona de dados recolhidos sobre a mesma variável. Isto é, a estimação feita sobre valores que não foram observados, deve ser feita com extrema cautela. Poderá não haver garantia de que o modelo seja apropriado fora da zona de observação.

Actividade 3-Regressão 10 | P á g i n a

Polinómio de grau 2 Polinómio de grau 3

Polinómio de grau 4 Polinómio de grau 5

Extrapolação

Page 11: Estatistica1 Activ3 VersEntrega A_trabalho

O grau a utilizar deverá ser o menor possível. No entanto, o modelo polinomial poderá estar desadequado para alguns valores de da observação. O aumento do grau, em muitos dos casos, não será a solução adequada. Um procedimento eficaz, será a partição da zona de dados observados em subzonas em que se fará uma aproximação por um modelo polinomial diferente.

II. Como Construir um Modelo de Regressão Polinomial?

Um modelo de regressão polinomial é apresentado na seguinte forma:

mn xxxY ...2

210 ,

em que:

i) Y é a variável aleatória dependente (ou de resposta);

ii) xi são as variáveis independentes ou preditoras com i=1,…,n;

iii) βi são os coeficientes de regressão com i=1,…,n.

No entanto, de forma a simplificar os processos de resolução, é habitual recorrer à forma matricial para a resolução de problemas. Então podemos escrever a equação anterior da seguinte forma:

nnmnnn

m

m

n xxx

xxxxxx

y

yy

2

1

1

0

2

2222

1211

2

1

1

11

A complexidade de determinados estudos e pesquisas poderá levar à complexidade do próprio modelo polinomial. Por exemplo, podemos ter uma equação como a seguinte:

21122222

211122110 xxxxxxY

Se fizermos 224113215224

213 ,,,, xxxxxxx e 125 , então a equação

anterior transforma-se da seguinte forma:

55443322110 xxxxxY ,

Actividade 3-Regressão 11 | P á g i n a

Page 12: Estatistica1 Activ3 VersEntrega A_trabalho

que é um exemplo de um modelo de regressão linear múltipla. Então, podemos abordar a regressão polinomial como um caso particular da regressão linear múltipla.

A forma matricial de uma equação de um modelo de regressão linear múltipla é:

nnnknn

k

k

n xxx

xxxxxx

y

yy

2

1

1

0

21

22221

11211

2

1

1

11

Isto é,

XY

em que cada erro aleatório εi tem uma distribuição normal e a estimação de εi considera-se nula.

A estimação dos parâmetros βj é feita através do método dos mínimos quadrados e tem da seguinte forma:

YXXX tt 1^

Assim, o modelo de regressão ajustado será dado pela expressão:

^^Xy

E os resíduos são obtidos através da expressão YYe ˆ .

III. Como Interpretar um Modelo de Regressão (Polinomial ou Múltipla)?

Após a construção do modelo de regressão deve verificar-se o ajustamento deste e a validade estatística dos parâmetros estimados. A forma de o fazer é através do coeficiente de Determinação R2. O coeficiente de determinação assenta no seguinte quociente:

dosTotalSomaQuadragressãodosSomaQuadra Re

Ou

Actividade 3-Regressão 12 | P á g i n a

Page 13: Estatistica1 Activ3 VersEntrega A_trabalho

dosTotalSomaQuadrasiduosdosSomaQuadra Re1

em que,

Soma dos Quadrados devido à Regressão (SQR) =

n

yYX

n

ii

tt

2

;

Soma dos Quadrados do Total (SQT) = n

yYY

n

ii

t

2

1

;

Soma dos quadrados dos resíduos (SQRE) = YXYY ttt .

As análises que podemos efectuar sobre o valor do coeficiente de determinação assentam nos seguintes pressupostos:

i) R2 mede a percentagem da explicação variação da variável dependente pela variação das variáveis independentes;

ii) R2 assume valores no intervalo [0,1];

iii) Quando o valor de SQRE tende para o valor de SQT, então, o quociente SQRE/SQT tende para 1, logo, R² tende para zero. Isto indica um modelo estimado não satisfatório;

iv) Quando SQRE tende para zero, então, SQRE/SQT tende para zero, logo, R² tende

para 1. O que indica um modelo satisfatório.

No caso da regressão múltipla, o coeficiente de determinação é dado pela raiz quadrada de R2, ou seja R. Na regressão múltipla, R também assume valores no intervalo [0,1].

O coeficiente R mede a correlação linear entre Y e Y .

Actividade 3-Regressão 13 | P á g i n a

Page 14: Estatistica1 Activ3 VersEntrega A_trabalho

4. Técnicas de Análise de Variância Aplicadas à Regressão

I. ANOVA

Para avaliarmos a significância do modelo como um todo utilizamos a análise de variância (ANOVA). Para isso, consideremos o Modelo de Regressão Linear Simples com a suposição de que os erros tem distribuição Normal.

A análise de variância é baseada na decomposição da soma de quadrados e nos graus de liberdade associados a variável resposta Y. Isto é, o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média, isto é, podemos escrever como:

)ˆ()ˆ( iiii YYYYYY

Elevando cada componente da expressão anterior ao quadrado e somando para todo o conjunto de observações, obtemos:

n

iii

n

ii

n

ii YYYYYY

1

2

1

2

1

2 )ˆ()ˆ(

A SQT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de que a soma dos desvios em torno da média é zero. De outra forma: um grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional.

A SQE tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois parâmetros são estimados para obter iY .

A SQR tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2 parâmetros); um deles é perdido devido a restrição: .0)ˆ( YYi

A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado médio.

1SQRQMR )2( n

SQEQME )1( nSQTQMT

Tabela da análise de variância para regressão linear simples

Causas de Variação Soma de quadrados Graus de liberdade Quadrado médio

Regressão SQR 1 SQR/1

Erro SQE n-2 SQE/(n-2)

Actividade 3-Regressão 14 | P á g i n a

Page 15: Estatistica1 Activ3 VersEntrega A_trabalho

Total SQT n-1

Considerando o Modelo de Regressão Linear Simples, a análise de regressão estabelece um teste para avaliar o parâmetro β1.As hipóteses a testar são:

0:0:

11

10

HH

O teste a utilizar é QMEQMR

siduosMédiosQuadradosgressãoediosQuadradosM

F Re

Re.

Uma motivação, baseada nas esperanças dos quadrados médios sugere que valores grandes de F conduzam a H1 e valores de F próximos de 1 conduzam a H0. 

Logo, rejeitamos H0 com um nível de significância α se )2,1,1( nFF .

No caso da regressão linear múltipla podemos apresentar a tabela-resumo sobre a análise de variância da seguinte forma:

Tabela da análise de variância para regressão linear múltipla

Causas de Variação Soma de quadrados Graus de liberdade Quadrado médio

Regressão SQR k SQR/k

Erro SQE n-k-1 SQE/(n-k-1)

Total SQT n-1

Para determinar se existe uma relação linear entre Y e X=x1,x2,…,xk colocamos as seguintes hipóteses

0...: 210 kH Vs 0:,...,1:1 jkjH

O teste F é o seguinte QMREQMR

F e 0H será rejeitada se 1, knkFF

II. ANOVA em Contexto

O estudo da Deloitte produziu o seguinte quadro de ANOVA:Actividade 3-Regressão 15 | P á g i n a

Page 16: Estatistica1 Activ3 VersEntrega A_trabalho

Causas de Variação

Soma de quadrados

Graus de liberdade

Quadrado médio

F Valor de P

Regressão 4774717.752 4 1193679.438 278.363894 5.92982E-41

Erro 287309.2526 67 4288.1978

Total 5062027.005 71

O quadrado médio da regressão (1193679.438) é muito maior do que o do erro (4288.1978), o que quer dizer que provavelmente o impacto da capacidade instalada no empreendimento é significante. Para verificar este resultado, podemos utilizar o quociente F desta regressão e compará-lo com o valor da cauda superior da distribuição F. Com = 0.05, F0.05,4,67 = 2.352. Dado que 278.363894 > 2.352, podemos concluir que as médias dos regressores não são iguais.

No entanto, esta demonstração é completamente académica, uma vez que já sabemos que as médias diferentes – regressores diferentes são utilizados para tentar explicar os valores dos empreendimentos. A estatística F é mais relevante quando se pretende investigar as diferenças nas médias entre variáveis independents que são parecidas, por exemplo, decidir qual tipo de roda é mais resistente ou qual tipo de publicidade é mais eficaz.

No entanto, as principais formas de inferência aplicada à regressão tem a sua base nas estatísticas geradas da ANOVA e são investigadas no capitulo que se segue.

5. Técnicas de Inferência Aplicadas à Regressão

Desde que sejam satisfeitas as suposições da regressão, pode-se proceder à inferência. A inferência é tipicamente realizada através: da construção de intervalos de confiança e do teste de hipótese para os parâmetros da regressão; a predição da variável dependente; intervalos de confiança para a média da variável dependente e intervalos de confiança para observações no futuro.

Intervalos de Confiança para os Parâmetros de RegressãoConforme às suposições de regressão, podem-se derivar que os coeficientes têm as seguintes variâncias:

e

Daí, podem-se construídos intervalos de confiança para os coeficientes (embora que não se

saiba , pode ser estimada com s):

Actividade 3-Regressão 16 | P á g i n a

[5.1] e [5.2]

Page 17: Estatistica1 Activ3 VersEntrega A_trabalho

e

t sendo o valor critico da tn-2 distribuição.

Também no artigo de Ott (2009), intervalos de confiança são calculados para os parâmetros da regressão. Destaca-se o coeficiente para uma compensação que seja imposto dedutível; o intervalo de confiança de 95% foi de $1.27 até $15.94, demonstrando a extensão larga que uma potencial compensação desta natureza teria.

Teste de Hipótese para os Parâmetros de Regressão Testa-se para confirmar se uma variável fornece informação útil acerca da variável dependente com a seguinte estatística de teste:

sendo o erro padrão . A estatística de teste vem da distribuição t, com n - k - 1 graus de liberdade. Se a estatística de teste é demasiado grande (positiva ou negativa), rejeita-se a e a variável fica no modelo. Se não pudermos rejeitar , a variável ficará no modelo. No entanto, no que diz respeito a tomada de decisão acerca de qual variáveis deverão ficar num modelo, poderia surgir problemas se se escolhesse esta forma de as testar.

Adicionar uma variável ao modelo de regressão sempre causa um aumento na soma dos quadrados da regressão e um decréscimo na soma dos quadrados do erro. Entretanto, a adição de variáveis regressoras também aumenta a variância do valor ajustado . Por isso, devemos ter cuidado para incluir somente variáveis regressoras que realmente explicam a variável resposta.

Este teste pode ser estendido para : , sendo um número real.

Inferência de PrediçãoPode-se inferir também valores que a variável eventualmente vir a assumir. Por exemplo, conhecendo os valores das variáveis independentes, pode-se inferir o valor médio da variável dependente ou, especificando os valores das variáveis independentes, a predição do modelo para a variável dependente.

Contudo, os valores que a variável independente possa vir a assumir nunca são exactamente os valores que foram previstos. Por esta razão, é vantajoso construir intervalos de confiança para que se possa ter em conta a variação a volta da média. No caso de predição de uma observação, chamam-se intervalos de predição.

Actividade 3-Regressão 17 | P á g i n a

[5.3] e [5.4]

[5.5]

Page 18: Estatistica1 Activ3 VersEntrega A_trabalho

Intervalos de Confiança para a Média da Variável de RepostaDado um vector x*, e tendo em conta a suposição que , a média é:

e o intervalo de confiança é:

no qual t* é o /2 valor crítico superior da distribuição tn-2 e:

Intervalos de Predição para Observações no FuturoSe se pretender prever uma observação y com o vector específico de valores x=x*, a melhor aproximação é:

No entanto, o erro nesta regressão será maior do que na [5.6] porque existe o erro de [5.8] e o de tirar y da distribuição normal; consequentemente, há um “1” adicional em baixo da raiz quadrado. O intervalo de predição é:

e

Katzenstein3 (2008) desenvolveu um modelo para estimar as emissões de geradores de electricidade que utilizam combustíveis fósseis para compensar pela variância na produção de electricidade de geradores solares e eólicos. Os resultados demonstraram que é mais difícil prever com precisão as emissões de óxido de nitrogénio do que dióxido de carbono, uma vez que os intervalos de predição são maiores no primeiro do que no último.

Ao predizer o valor de y, é necessário ter cuidado em não extrapolar valores além da região dos dados originais pois o modelo construído a partir destes dados pode já não ser válido.

3 Air Emissions Due To Wind And

Solar Power (http://pubs.acs.org/doi/abs/10.1021/es801437t)

Actividade 3-Regressão 18 | P á g i n a

[5.6]

[5.7]

[5.8]

[5.9]

[5.10]

[5.11]

Page 19: Estatistica1 Activ3 VersEntrega A_trabalho

6. Softwares de Regressão

Devido à sua popularidade, existem vários softwares que são capazes de realizar regressões. Escolhemos considerar alguns programas que são mais comuns e outros mais especializados de forma a dar uma ideia da diversidade de formatos em que a regressão pode ser realizada. Apesar de não ser abordado, o SAS o SYSTAT destacam-se como ferramentas importantes de regressão.

I. R

O programa R permite ao utilizador fazer uploads de ficheiros de vários formatos (incluindos os de SPSS), desenhar histogramas e outros gráficos com facilidade e realizar regressões.

O comando mais básico para regressão é “glm(outcome ~ predictor1 + predictor2 + predictor3)”. O comando “summary”, quando aplicado à um objecto glm fornece o utilizador com os resultados da regressão. Residuais das regressões podem ser calculados facilmente com o comando “residuals” e depois organizados em gráficos de forma a detectar erros que possam contradizer as suposições da regressão.

Uma vantagem do R, quando comparado com os outros programas, é que é um ambiente para a programação – visto que todos os dados são objectos, pode-se acessar cada um e efectuar qualquer operação necessária nele. Outra vantagem é a facildade com qual o utilizador aprende. Ainda que a aprendizagem demore mais do que outros softwares inicialmente, a similaridade entre os comandos faz com que seja mais fácil adicionar mais competências ao médio prazo.

II. SPSS

Ao contrário do R, que utiliza comandos e objectos, o meio para chegar aos comandos no SPSS é através de janelas que guiem o utilizador pela construção da regressão. Primeiro, no caso de uma regressão linear, selecionam-se as variáveis e depois as formas de exibir os resultados; podem-se escolher ver os coeficientes dos regressores, intervalos de confiança, valores aberrantes, o valor de R2, um quadro ANOVA, e as estatísticas descritivas. Também, dentro deste ambiente, há uma janela que permite a construção de gráficos como, por exemplo, dos erros de forma a verificar a existência de problemas como não-normalidade. Transformações também são facilmente efecutadas neste ambiente; a janela “compute” exibe as opções para as variáveis contínuas e “recode” para as variáveis discretas.

O SPSS é um dos programas mais utilizados para a regressão. Apesar de poder faltar um pouco da flexibilidade que o R tem ao nível de programação, o SPSS é uma boa escolha para quem quiser começar a fazer regressão sem aprender a programar.

Actividade 3-Regressão 19 | P á g i n a

Page 20: Estatistica1 Activ3 VersEntrega A_trabalho

III. MINITAB

O Minitab é um software para a estatística e a regressão é um dos seus componentes importantes.

Sendo programado para a estatística, por redefinição produz os coeficientes, um gráfico da regressão e o R2. Pode-se, sem muita dificuldade, produzir o quadro de ANOVA e os valores aberrantes. Também existem comandos intuitivos para a produção de intervalos de confiança, intervalos de predição, gráficos dos erros e transformações das variáveis.

O Minitab permite que, com relativa facilidade, regressões sejam efectuadas à medida do utilizador, por exemplo com variáveis de interacção ou polinomiais. No entanto, não tem o mesmo grau de programabilidade que é apresentado pelo R.

IV. Excel

Trata-se de um programa extremamente flexível e, embora que não seja programado especificamente para a estatística, permite a realização de regressões.

Antes de poder construir uma regressão, é necessário instalar o “Analysis Toolpak”. Dentro do ambiente do “Analysis Toolpak”, o utilizador pode escolher a opção de regressão. O ambiente é parecido com o do SPSS pois o interface é com janelas e escolhem-se as opções acerca dos regressores, dos gráficos e dos resultados.

Apesar de ter benefícios óbvios como ser um dos programas mais utilizados, no que diz respeito à regressão, o Excel provavelmente não é a melhor escolha. Existem várias razões por isso: em primeiro lugar, não produz coeficientes padronizados; segundo, o Excel não calcula estatísticas de diagnóstico nem produz gráficos de diagnóstico – o utilizador teria de fazer isso sozinho; terceiro, não é fácil expandir as suas funções para as que outros programas têm nem construir regressões que são diferentes da regressão padrão do software.

Em resumo, os softwares como o Minitab e o SPSS apresentam-se como boas soluções para regressões mais padronizadas, mas se o utilizador pretende desenvolver projectos altamente especificados, o R pode ser a escolha mais adequado. Adicionalmente, o facto que o R é disponível gratuitamente na internet torna-o ainda mais aliciante.

7. Conclusão

Devido às limitações de tempo e espaço, este artigo apenas apresenta alguns aspectos-técnicos mais fundamentais para poder realizar uma regressão com êxito. No entanto, apesar de teremos percebido a importância e o poder da análise por regressão, ficámos conscientes das suas limitações – e possíveis abusos - sobretudo no estudo de fenómenos sociais. As suas descrições podem ser demasiadamente simplificadas; as predições podem não corresponder à realidade e as inferências podem ser deduzidas de modelos errados.

Actividade 3-Regressão 20 | P á g i n a

Page 21: Estatistica1 Activ3 VersEntrega A_trabalho

Mesmo aceitando estas limitações da regressão, ao nível da aprendizagem, a oportunidade de investigar a regressão deu aos autores o desejo de aprofundar os seus conhecimentos ainda mais devido ao facto que reconhecem o valor da regressão como uma ferramenta potente, entre outras, para interpretar a realidade.

8. Bibliografia

Regression by Example, S. Chatterjee e A.S. Hadi, John Wiley & Sons Inc, 4th Edition, 2006

Design and Analysis of Experiments, D.C. Montgomery, John Wiley & Sons Inc, 5th Edition, 2001

http://www.princeton.edu/~slynch/soc504/simple_reg.pdf

http://www.princeton.edu/~slynch/soc504/simple_reg2.pdf

http://www.princeton.edu/~slynch/soc504/mult_reg.pdf

http://www.princeton.edu/~slynch/soc504/mult_reg2.pdf

http://www.princeton.edu/~slynch/soc504/expanding_ols.pdf

http://www.princeton.edu/~slynch/soc504/outliers.pdf

http://www.princeton.edu/~slynch/soc504/multicollinearity.pdf

http://www.princeton.edu/~slynch/soc504/nonnormal.pdf

http://www.princeton.edu/~slynch/soc504/altest.pdf

http://www.princeton.edu/~slynch/soc504/generalizations.pdf

(todos consultado no dia 15 de Dezembro)

http://statmaster.sdu.dk/courses/st111/module05/module.pdf (consultado dia 20 de Dezembro)

http://www.stat.berkeley.edu/~thornton/STAT20/lec18slides4.pdf (consultado dia 24 de Dezembro)

http://www.webpages.uidaho.edu/~chrisw/stat401/cireg1s.pdf (consultado dia 24 de Dezembro)

http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/R/

http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/spss9.0/index.html

http://sites.stat.psu.edu/~lsimon/stat462/fa02/minitab/regression.htm, http://www.scientific-computing.com/scwjulaug04review_minitab_systat.html

Actividade 3-Regressão 21 | P á g i n a

Page 22: Estatistica1 Activ3 VersEntrega A_trabalho

http://www.jeremymiles.co.uk/regressionbook/extras/appendix2/excel/index.html

(todos consultado no dia 5 de Janeiro)

Regression Analysis: A Constructive Critique (prefácio), R.A Berk, 2003 (http://escholarship.org/uc/item/8db1942z) (consultado dia 6 de Janeiro)

http://www.portalaction.com.br (consultado em 5,6,7 e 8 de Janeiro de 2012)

Material de apoio disponibilizado pela profª Teresa

Actividade 3-Regressão 22 | P á g i n a