Download - RLS - usando o SPSS

7/31/2019 RLS - usando o SPSS

1/18

[email protected]

1

RREEGGRREESSSSOO LLIINNEEAARRSSIIMMPPLLEESS eexxeemmpplloo uussaannddoo oo SSPPSSSS

O sucesso de um programa de investimento em papis de outros pases depende,

em grande parte, do controle do risco soberano dos pases constantes no portflio.

Um meio de se avaliar o risco atravs da taxa de juros praticada pelo pas. Uma

amostra de 40 pases forneceu os valores anualizados das taxas de risco e de juros

praticadas em 1997.

Analise os dados atravs de um modelo de regresso linear simples construdo

para se estimar o risco soberano esperado do pas em funo da taxa de juros por

ele praticada.

Soluo

Neste caso voc deve fazer a regresso linear, pois se deseja explicar uma varivel

quantitativa (taxa de risco) por meio de outra varivel quantitativa (taxa de juros). Avarivel que voc quer explicar chama-se varivel dependente, ou varivel explicada

(tambm chamada de resposta ou endgena) - Y. A outra conhecida como varivel

independente, ou explicativa (ou exgena) - X.

Ento, a primeira coisa a ser feita nesse tipo de problema identificar quem a

varivel Y (dependente - aquela que voc quer prever, estimar) e quem a varivel X

(aquela que ir ajudar voc a estimar a varivel Y).

Aps digitar os dados, ou abrir o arquivo que contm os dados, no SPSS, deve-se

rodar a regresso.


2/18

[email protected]

2

COMO RODAR A REGRESSO LINEAR SIMPLES NO SPSS

Primeiramente deve-se selecionar ANALYZEREGRESSION

LINEAR

Como temos apenas uma varivel independente (X), a regresso linear simples.

Na prxima tela selecionamos a varivel dependente (Y = taxa de risco) e a varivel

independente (X = taxa de juros).

O mtodo selecionado ser o Enter.


3/18

[email protected]

3

Aps isto, seleciona-se STATISTICS.

Como a regresso SIMPLES, seleciona-se apenas os itens: "estimates","confidence

intervals", "model fit", "descriptives" e "casewise diagnostics".

Obs.: quando o "casewise diagnostics" for selecionado, aparecer: "Outliers outside 3

standards deviations".

Deixe assim. Isso quer dizer que os resduos que estiverem acima ou abaixo de 3

desvios padres sero considerados outliers.

Aps isto selecione CONTINUE.

Selecione ento a tecla PLOTS.

Aqui sero feitos os grficos utilizados para verificar a existncia de outlier (ou valor

influente), e tambm verificar as premissas do modelo.


4/18

[email protected]

4

Selecione para Y o "ZRESID". Ele corresponde ao resduo padronizado.

Para a varivel X selecione "ZPRED". Este o valor de Y estimado padronizado.

Selecione NORMAL PROBABILITY PLOT. Este grfico tambm conhecido como PP-

Plot e ser utilizado para testar a premissa da Normalidade.

Aps isto, selecione CONTINUE.

Selecione ento a tecla SAVE.

Quando selecionamos qualquer item no SAVE, o SPSS ir salvar na base de dados (Data

view) os valores correspondentes aos itens que forem selecionados.


5/18

[email protected]

5

O "Cook's" a distncia de Cook e ser utilizada para se verificar a existncia de

valores influentes. Caso seja prximo ou maior do que 1, ser um valor influente. Isso

significa dizer que existe uma (ou mais) observao que influencia o modelo. Caso essa

observao seja retirada, os valores dos coeficientes sero alterados, o modelo ser

todo alterado.

O "Leverage value" funciona da mesma forma.

O "Studentized delected" ir sinalizar a existncia de um outlier. Para isso seria

necessrio ter a tabela t de Student.

Aps isto selecione CONTINUE e depois OK.

Obs.: no mexa no boto OPTIONS.

A regresso linear simples ser realizada. O prximo passo analisar o seu resultado.


6/18

[email protected]

6

COMO ANALISAR O RESULTADO DA REGRESSO LINEAR

SIMPLES

Sero apresentados aqui todos os quadros que foram gerados pelo SPSS.

Aps cada quadro mencionada a utilidade dele. E, em itlico e azul, feita a anliseestatstica.

Regression

Este quadro apresenta a mdia e o desvio padro de cada varivel. Quanto maior for o

desvio padro em relao mdia, mais dispersa ser a distribuio da varivel,

dificultando a sua estimao (varivel Y). E tambm, caso a varivel X possua disperso

alta, isto ir resultar em uma regresso com estimativas no to boas, se compararmos

com uma regresso na qual a varivel X possui baixa disperso.

Devemos, ento, calcular o CV (coeficiente de variao). O CV calculado dividindo-seo desvio padro pela mdia.

Caso o CV seja maior do que 50%, sugerimos alterao na varivel. Essa alterao pode

ser o logartimo ou a raiz quadrada da varivel. Com isso, a varivel ficar menos

dispersa e o resultado da regresso ser melhor, ou seja, estaremos estimando Y mais

eficientemente.

Para este nosso exemplo, teremos:

Varivel Y - taxa de risco

CV = 15,3 / 32,4 = 0,47

Varivel X - taxa de juros

CV = 22,1 / 63,2 = 0,34

Como os coeficientes de variao da varivel Y e da varivel X so menores do que

50%, considera-se que ambas as variveis no possuem disperso alta. Dessa forma,

no se sugere transformao nas variveis.

Descriptive Statistics

32,4700 15,3355 40

63,2750 22,1824 40

Taxa de Risco

Taxa de Juros

Mean Std. Dev iation N


7/18

[email protected]

7

Esta tabela apresenta as correlaes (de Pearson) entre as variveis.

Como se trata de uma regresso simples, s apresentado o coeficiente de correlao

entre X e Y.

O valor do coeficiente de correlao mede a fora da relao entre duas variveis. O

sinal indica se essa relao diretamente proporcional (sinal positivo) ou

inversamente proporcional (sinal negativo).

Quanto mais prximo de 1 (ou de -1), maior ser a relao linear entre duas variveis.

Costuma-se considerar que a relao alta, quando o coeficiente de correlao est

acima de 0,7 ou 0,8, (ou abaixo de -0,7 ou -0,8). Quando queremos avaliar se o

coeficiente de correlao e alto ou baixo, desconsideramos o sinal.

Neste caso, temos:

O coeficiente de correlao entre as variveis Taxa de Risco e Taxa de Juros igual a

-0,578. Isso indica que a relao entre essas duas variveis inversa, uma vez que o

sinal negativo. Com isso, se a Taxa de Juros subir, a Taxa de Risco ir cair e vice-versa.

Alm disso, considera-se uma relao linear fraca entre as variveis Taxa de Risco e

Taxa de Juros, pois o valor de 0,578 (o mdulo de -0,578) bem inferior a 0,7.

Correlations

1,000 -,578

-,578 1,000

, ,000

,000 ,

40 40

40 40

Taxa de Risco

Taxa de Juros

Taxa de Risco

Taxa de Juros

Taxa de Risco

Taxa de Juros

Pearson Correlation

Sig. (1-tailed)

N

Taxa de Risco Taxa de Juros


8/18

[email protected]

8

Este quadro apresenta o mtodo que foi utilizado para a seleo das variveis nomodelo. Como a regresso simples, o mtodo foi o Enter (o que o SPSS coloca comopadro). Com isso, a VariablesEntered, apenas a Taxa de Juros (X).

No fazemos anlises deste quadro.

Este quadro aparece quando voc seleciona ModelFit no quadro Statistics.

Ele apresenta o coeficiente de correlao (R), em mdulo (ou seja, desconsidera osinal).

A anlise desse coeficiente j foi feita acima, no quadro Correlations.

Na segunda coluna apresentado o R Square.

R Square = R2 coeficiente de determinao.Ele fornece a capacidade preditiva do modelo. Diz qual a proporo da variao totalque explicada pela relao entre X e Y.

O valor do R2 uma das medidas para se escolher o melhor modelo (na regressosimples).

Variables Entered/Removedb

Taxa de

Jurosa , Enter

Model

1

Variables

Entered

Variables

Remov ed Method

All requested v ariables entered.a.

Dependent Variable: Taxa de Riscob.

Model Summaryb

,578a ,334 ,317 12,6777

Model

1

R R Square

Adjusted

R Square

Std. Error of

the Estimate

Predictors: (Constant), Taxa de Jurosa.


102 R


9/18

[email protected]

9

Quanto mais prximo de 1 melhor. Acima de 0,70 j est bom.

No nosso exemplo

Pode-se dizer que 33,4% da variao total explicada pela relao entre Taxa de Juros

e Taxa de Risco.

Esse coeficiente de determinao de 33,4% indica que o modelo possui uma baixa

capacidade preditiva.

A terceira coluna apresenta do R ajustado.

Neste caso no iremos analis-lo, pois ele s til na Regresso Linear Mltipla

(quando temos mais de um X).

A quarta coluna apresenta o Std Error of the Estimate. Ele o desvio padro do

modelo, e usado para compararmos diversos modelos e escolhermos o melhor (oque possuir menor desvio padro).

O desvio padro do modelo a raiz quadrada da varincia residual do modelo (Mean

Square Residual).

A unidade dele a mesma unidade de Y.

No nosso exemplo

O desvio padro do modelo igual a 12,67 %.

Obs.: a unidade das variveis X e Y % (taxa em %).


10/18

[email protected]

10

Neste quadro iremos fazer o teste F. o teste do modelo. Com ele vamos testar se o

modelo completo (com a varivel X) melhor do que o modelo reduzido (s com beta

zero).

O teste F tenta avaliar a importncia relativa dos resduos devido entrada da nova

varivel, sobre os resduos da regresso sem esta varivel. Este teste mais til no

caso de regresso mltipla, quando se pretende escolher as variveis que no conjunto

melhoram o modelo. Quanto maior for o valor de F, maior ser a evidncia da incluso

da varivel X no modelo.

Procedimento para o teste F (na regresso simples):

H0: Y = 0 +

H1: Y = 0 + 1X +

Testamos aqui o modelo reduzido (H0) contra o modelo completo (H1). O alpha no

ser divido por dois, pois a curva do F s tem uma cauda, ele ser sempre positivo.

Compara-se o Sig. (valor-p) com o valor de alpha. Caso o Sig seja menor do que alpha,

rejeita-se H0 e conclui-se que o modelo completo (com a varivel independente)

melhor do que o modelo reduzido (que s contm a mdia).

Caso contrrio, no se rejeita H0, com de significncia, e diz-se que o modelo

reduzido melhor do que o modelo completo.

ANOVAb

3064,405 1 3064,405 19,066 ,000a

6107,519 38 160,724

9171,924 39

Regression

Residual

Total

Model

1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Taxa de Jurosa.



11/18

[email protected]

11

No nosso exemplo

Teste F - teste do modelo

H0: Y =0 +

H1: Y =0 +1X +

Nvel de significncia (alpha) = 5%

Sig = 0,000

Como Sig menor que o nvel de significncia (alpha), rejeita-se H0 e conclui-se que o

modelo completo (o que contm a varivel independente, a varivel Taxa de Juros)

melhor do que o modelo reduzido (o que no contm a varivel Taxa de Juros (X)).

Em outras palavras: existe relao linear entre X e Y.

Outra informao: A varincia residual do modelo igual a 160,72%2.

Esse quadro fornece os coeficientes (beta zero e beta1), com isso, podemos montar omodelo. Temos que olhar para os "Unstandardized Coefficients".

So apresentados, tambm, os intervalos de confiana.

No podemos esquecer-nos de fazer o teste t (teste do coeficiente).

Coefficientsa

57,755 6,128 9,425 ,000 45,350 70,160

-,400 ,092 -,578 -4,366 ,000 -,585 -,214

(Constant)

Taxa de Juros

Model

1

B Std. Error

Unstandardized

Coeff icients

Beta

Standardi

zed

Coeff icien

ts

t Sig. Lower Bound Upper Bound

95% Confidence Interv al for B

Dependent Variable: Taxa de Riscoa.


12/18

[email protected]

12

Faremos, ento:

Varivel X - Taxa de Juros

Teste t para Beta 1 - teste do coeficiente

H0:1 = 0

H1:10

= 0,05

Como Sig (da varivel Taxa de Juros, referente ao coeficiente beta 1) igual a 0,000, ou

seja, menor do que alpha (0,05), rejeita-se H0 e conclui-se que h evidncia de relao

linear entre a Taxa de Juros (X) e a Taxa de Risco (Y).

O modelo linear ser:

= 57,75 - 0,4 (X)

Interpretao do modelo:

Beta zero = 57,75

Se a Taxa de Juros (X) for igual a zero, a Taxa de Risco ser igual a 57,75 %.

Beta 1 = -0,4

A cada unidade adicional na varivel Taxa de Juros (X), a varivel Taxa de Risco

(Y) diminui em 0,4.

(Mesmo no fazendo sentido economicamente falando, uma vez que a relaoest inversa, o modelo este. Talvez o problema esteja no conjunto de pases

da amostra).

Quanto ao intervalo de confiana, podemos dizer que existe 95% de confiana

verdadeiro beta 1 (o beta 1 da populao) pertencer ao intervalo [-0,58 ; -0,21].


13/18

[email protected]

13

Este quadro aparecer quando for diagnosticado algum caso de possvel outlier (ou

valor influente).

Se o resduo padronizado estiver acima de 3 desvios (tanto positivo quanto negativo),a observao ser uma candidata a outlier. Ela poder ser outlier ou valor influente.

No exemplo

O primeiro pas (case 1) possui o resduo padronizado acima de 3. Portanto, ele um

candidato a outlier.

Neste quadro olharemos para o "Std Residual". Se este for menor que -3 ou maior do

que 3, existem candidatos a outlier ou valor influente.

Para isso vamos ver a Cook's Distance, se o Maximum estiver maior de 1 porque

existe alguma (ou algumas) observaes que so valores influentes. Neste caso iremos

Casewise Diagnosticsa

3,309 87,00 45,0476 41,9524

Case Number

1

Std. Residual Taxa de Risco

Predicted

Value Residual


Residuals Statisticsa

19,9124 47,9647 32,4700 8,8642 40

-1,417 1,748 ,000 1,000 40

2,0069 4,0756 2,7719 ,6013 40

19,5241 49,6233 32,4840 8,9571 40

-26,7283 41,9524 -1,20E-15 12,5141 40

-2,108 3,309 ,000 ,987 40

-2,187 3,444 -,001 1,022 40

-28,7676 45,4337 -1,40E-02 13,4149 40

-2,308 4,097 ,020 1,107 40

,002 3,056 ,975 ,850 40

,000 ,492 ,037 ,092 40

,000 ,078 ,025 ,022 40

Predicted Value

Std. Predicted Value

Standard Error of

Predicted Value

Adjusted Predicted Value

Residual

Std. Residual

Stud. Residual

Deleted Residual

Stud. Deleted Residual

Mahal. Distance

Cook's DistanceCentered Leverage Value

Minimum Maximum Mean Std. Dev iation N



14/18

[email protected]

14

at a base de dados (Data view), e na coluna "Coo_1" iremos procurar quem (ou

quem so) essa observao. No caso estudado as observaes so pases.

Se caso o Maximun estiver menor do que 1 porque no existem valores influentes.

Logo, a observao que estiver excedendo 3 desvios padres ser considerada outlier.

No exemplo

Como a distncia de Cook (Cook's Distance) mxima menor do que 1, o pas

Argentina, que possui resduo padronizado acima de 3 desvios, no considerado valorinfluente, mas sim um outlier.

Sugere-se que essa observao seja retirada do banco de dados e que a regresso

linear seja rodada novamente. Com isso, iremos comparar os resultados das duas

regresses (com esta observao e sem ela) e ser muito provvel que os resultados

melhorem (desvio padro do modelo diminua e o R2 aumente).

Resta-nos verificarmos as premissas do modelo!!!

So cinco as premissas a serem verificadas e faremos isso com o auxlio dos grficos

abaixo.

Charts

Normal P-P Plot of Regression Standar

Dependent Variable: Taxa de Risco

Observed Cum Prob

1,00,75,50,250,00

1,00

,75

,50

,25

0,00


15/18

[email protected]

15

Premissas bsicas do modelo:

Devem ser verificadas para assegurar a adequabilidade do modelo.

So elas:1. Linearidade

2. i ~ Normal - Normalidade

3. E(i) = 0

4. 2(i) constante Homocedasticidade

5. cov(i,j) = 0 Independncia

Scatterplot

Dependent Variable: Taxa de Risco

Regr ession Standardized Predicted Value

2,01,51,0,50,0-,5-1,0-1,5

4

3

2

1

0

-1

-2

-3


16/18

[email protected]

16

A primeira a premissa de linearidade. Pode ser verificada pelo teste F. Se rejeitar H0

porque existe relao linear, ento, a premissa foi satisfeita.

Outra forma de verificar usando o grfico dos resduos (Regression Standardized

Residuals) versus valores ajustados, no qual os pontos devem estar distribudos de

forma aleatria (totalmente sem formas definidas). Caso eles estejam em forma de

parbola, a premissa estaria sendo violada, ento, deve-se incluir uma varivel

quadrtica (X2) no modelo, ou buscar novas formas de relao.

A segunda premissa a da normalidade (distribuio Normal). Deve-se observar o

grfico chamado P-P Plot. Caso as observaes estejam na reta ou prximas da reta

diagonal, aceitamos a normalidade. Essa premissa fundamental, pois toda inferncia

feita com base nas distribuies (t, F) que vm da Normal. Se a Normal for violada, os

testes que sero feitos no iro servir pra nada. Se no tiver normalidade, no pode-se

testar os parmetros, realizar o modelo.

A quarta premissa a de homocedasticidade, que o mesmo que dizer que a

varincia dos erros constante. Caso no seja, deve-se usar o mtodo dos mnimosquadrados ponderados. Essa premissa ser observada no grfico dos resduos (na

vertical) versus valores ajustados (na horizontal). Se os pontos estiverem em forma de

buzina porque existe problema e essa premissa est sendo violada.

A premissa da independncia dos erros pode ser observada no mesmo grfico dos

resduos versus valores ajustados. Se os pontos estiverem distribudos aleatoriamente

(sem formas) porque no h problema. Mas caso eles estejam distribudos como

retas paralelas, a premissa estar sendo violada. Esse problema ocorre mais em sries

temporais.


17/18

[email protected]

17

No nosso exemplo:

Premissas bsicas:

1. Linearidade2. Normalidade3. E(i) = 04. Homocedasticidade5. Independncia

A premissa da linearidade foi verificada por meio do teste F. Como rejeitou-se H0,

concluiu-se que existe relao linear entre X e Y;

Por meio do grfico P-P Plot, verificou-se a premissa da Normalidade. Como os pontos

esto bem prximos da linha diagonal (de probabilidade acumulada), a premissa da

Normalidade foi satisfeita.

A homocedasticidade (varincia dos erros constante) foi verificada atravs do

Scattreplot (Valores preditos X Resduos padronizados). Como os pontos no formaram

a figura de um gramofone (buzina), a premissa da homocedasticidade foi satisfeita.

A independncia dos erros foi verificada atravs do Scatterplot (Valores preditos X

Resduos padronizados). Como os pontos no formaram linhas paralelas, a premissa da

independncia foi satisfeita.

................

Ao realizar a regresso linear, constatou-se que existe uma relao linear significativa

entre as variveis Y (Taxa de Risco) e X (Taxa de Juros), para a amostra estudada.

Dessa forma, podemos estimar a Taxa de Risco a partir da Taxa de Juros, atravs do

modelo de regresso linear

= 57,75 - 0,4 X

ou

= 57,75 - 0,4 (Taxa de Juros)


18/18

[email protected]

18

Base de dados

Pas Taxa de Risco (%) Taxa de Juros (%)

Argentina 87,0 31,8

Turquia 74,1 32,6

Brasil 64,8 36,2

Taiwan 53,7 72,9

Portugal 47,5 56,7

Mxico 46,3 43,3

Venezuela 46,0 45,0

Nigria 41,4 30,6

Grcia 39,6 51,9

Filipinas 38,4 29,6

Zimbbue 35,6 24,5

Hong Kong 34,3 69,6

Chile 31,6 38,6

Colmbia 31,5 44,4

Korea 30,7 62,2

ndia 30,0 46,6

Norway 28,3 83,0

Itlia 28,0 75,5

Tailndia 27,0 55,8

Austrlia 26,9 78,2

Malsia 26,7 64,4

Singapura 26,4 77,6

ustria 26,3 83,8

Nova Zelndia 26,3 68,9

Finlndia 26,1 76,0

Japo 25,7 94,5

Espanha 24,8 70,8

Sucia 24,5 79,5

Paquisto 24,4 26,4

Frana 23,8 85,3

Ireland 23,4 66,4Alemanha 23,0 93,4

Blgica 22,0 78,4

Reino Unido 21,8 87,6

Dinamarca 20,6 72,6

Suia 19,6 94,7

Canad 19,2 87,1

Netherlands 18,5 87,6

Jordan 17,6 33,6

EUA 15,4 93,4

Download - RLS - usando o SPSS

Top Related