Download - RLS - usando o SPSS
-
7/31/2019 RLS - usando o SPSS
1/18
1
RREEGGRREESSSSOO LLIINNEEAARRSSIIMMPPLLEESS eexxeemmpplloo uussaannddoo oo SSPPSSSS
O sucesso de um programa de investimento em papis de outros pases depende,
em grande parte, do controle do risco soberano dos pases constantes no portflio.
Um meio de se avaliar o risco atravs da taxa de juros praticada pelo pas. Uma
amostra de 40 pases forneceu os valores anualizados das taxas de risco e de juros
praticadas em 1997.
Analise os dados atravs de um modelo de regresso linear simples construdo
para se estimar o risco soberano esperado do pas em funo da taxa de juros por
ele praticada.
Soluo
Neste caso voc deve fazer a regresso linear, pois se deseja explicar uma varivel
quantitativa (taxa de risco) por meio de outra varivel quantitativa (taxa de juros). Avarivel que voc quer explicar chama-se varivel dependente, ou varivel explicada
(tambm chamada de resposta ou endgena) - Y. A outra conhecida como varivel
independente, ou explicativa (ou exgena) - X.
Ento, a primeira coisa a ser feita nesse tipo de problema identificar quem a
varivel Y (dependente - aquela que voc quer prever, estimar) e quem a varivel X
(aquela que ir ajudar voc a estimar a varivel Y).
Aps digitar os dados, ou abrir o arquivo que contm os dados, no SPSS, deve-se
rodar a regresso.
-
7/31/2019 RLS - usando o SPSS
2/18
2
COMO RODAR A REGRESSO LINEAR SIMPLES NO SPSS
Primeiramente deve-se selecionar ANALYZEREGRESSION
LINEAR
Como temos apenas uma varivel independente (X), a regresso linear simples.
Na prxima tela selecionamos a varivel dependente (Y = taxa de risco) e a varivel
independente (X = taxa de juros).
O mtodo selecionado ser o Enter.
-
7/31/2019 RLS - usando o SPSS
3/18
3
Aps isto, seleciona-se STATISTICS.
Como a regresso SIMPLES, seleciona-se apenas os itens: "estimates","confidence
intervals", "model fit", "descriptives" e "casewise diagnostics".
Obs.: quando o "casewise diagnostics" for selecionado, aparecer: "Outliers outside 3
standards deviations".
Deixe assim. Isso quer dizer que os resduos que estiverem acima ou abaixo de 3
desvios padres sero considerados outliers.
Aps isto selecione CONTINUE.
Selecione ento a tecla PLOTS.
Aqui sero feitos os grficos utilizados para verificar a existncia de outlier (ou valor
influente), e tambm verificar as premissas do modelo.
-
7/31/2019 RLS - usando o SPSS
4/18
4
Selecione para Y o "ZRESID". Ele corresponde ao resduo padronizado.
Para a varivel X selecione "ZPRED". Este o valor de Y estimado padronizado.
Selecione NORMAL PROBABILITY PLOT. Este grfico tambm conhecido como PP-
Plot e ser utilizado para testar a premissa da Normalidade.
Aps isto, selecione CONTINUE.
Selecione ento a tecla SAVE.
Quando selecionamos qualquer item no SAVE, o SPSS ir salvar na base de dados (Data
view) os valores correspondentes aos itens que forem selecionados.
-
7/31/2019 RLS - usando o SPSS
5/18
5
O "Cook's" a distncia de Cook e ser utilizada para se verificar a existncia de
valores influentes. Caso seja prximo ou maior do que 1, ser um valor influente. Isso
significa dizer que existe uma (ou mais) observao que influencia o modelo. Caso essa
observao seja retirada, os valores dos coeficientes sero alterados, o modelo ser
todo alterado.
O "Leverage value" funciona da mesma forma.
O "Studentized delected" ir sinalizar a existncia de um outlier. Para isso seria
necessrio ter a tabela t de Student.
Aps isto selecione CONTINUE e depois OK.
Obs.: no mexa no boto OPTIONS.
A regresso linear simples ser realizada. O prximo passo analisar o seu resultado.
-
7/31/2019 RLS - usando o SPSS
6/18
6
COMO ANALISAR O RESULTADO DA REGRESSO LINEAR
SIMPLES
Sero apresentados aqui todos os quadros que foram gerados pelo SPSS.
Aps cada quadro mencionada a utilidade dele. E, em itlico e azul, feita a anliseestatstica.
Regression
Este quadro apresenta a mdia e o desvio padro de cada varivel. Quanto maior for o
desvio padro em relao mdia, mais dispersa ser a distribuio da varivel,
dificultando a sua estimao (varivel Y). E tambm, caso a varivel X possua disperso
alta, isto ir resultar em uma regresso com estimativas no to boas, se compararmos
com uma regresso na qual a varivel X possui baixa disperso.
Devemos, ento, calcular o CV (coeficiente de variao). O CV calculado dividindo-seo desvio padro pela mdia.
Caso o CV seja maior do que 50%, sugerimos alterao na varivel. Essa alterao pode
ser o logartimo ou a raiz quadrada da varivel. Com isso, a varivel ficar menos
dispersa e o resultado da regresso ser melhor, ou seja, estaremos estimando Y mais
eficientemente.
Para este nosso exemplo, teremos:
Varivel Y - taxa de risco
CV = 15,3 / 32,4 = 0,47
Varivel X - taxa de juros
CV = 22,1 / 63,2 = 0,34
Como os coeficientes de variao da varivel Y e da varivel X so menores do que
50%, considera-se que ambas as variveis no possuem disperso alta. Dessa forma,
no se sugere transformao nas variveis.
Descriptive Statistics
32,4700 15,3355 40
63,2750 22,1824 40
Taxa de Risco
Taxa de Juros
Mean Std. Dev iation N
-
7/31/2019 RLS - usando o SPSS
7/18
7
Esta tabela apresenta as correlaes (de Pearson) entre as variveis.
Como se trata de uma regresso simples, s apresentado o coeficiente de correlao
entre X e Y.
O valor do coeficiente de correlao mede a fora da relao entre duas variveis. O
sinal indica se essa relao diretamente proporcional (sinal positivo) ou
inversamente proporcional (sinal negativo).
Quanto mais prximo de 1 (ou de -1), maior ser a relao linear entre duas variveis.
Costuma-se considerar que a relao alta, quando o coeficiente de correlao est
acima de 0,7 ou 0,8, (ou abaixo de -0,7 ou -0,8). Quando queremos avaliar se o
coeficiente de correlao e alto ou baixo, desconsideramos o sinal.
Neste caso, temos:
O coeficiente de correlao entre as variveis Taxa de Risco e Taxa de Juros igual a
-0,578. Isso indica que a relao entre essas duas variveis inversa, uma vez que o
sinal negativo. Com isso, se a Taxa de Juros subir, a Taxa de Risco ir cair e vice-versa.
Alm disso, considera-se uma relao linear fraca entre as variveis Taxa de Risco e
Taxa de Juros, pois o valor de 0,578 (o mdulo de -0,578) bem inferior a 0,7.
Correlations
1,000 -,578
-,578 1,000
, ,000
,000 ,
40 40
40 40
Taxa de Risco
Taxa de Juros
Taxa de Risco
Taxa de Juros
Taxa de Risco
Taxa de Juros
Pearson Correlation
Sig. (1-tailed)
N
Taxa de Risco Taxa de Juros
-
7/31/2019 RLS - usando o SPSS
8/18
8
Este quadro apresenta o mtodo que foi utilizado para a seleo das variveis nomodelo. Como a regresso simples, o mtodo foi o Enter (o que o SPSS coloca comopadro). Com isso, a VariablesEntered, apenas a Taxa de Juros (X).
No fazemos anlises deste quadro.
Este quadro aparece quando voc seleciona ModelFit no quadro Statistics.
Ele apresenta o coeficiente de correlao (R), em mdulo (ou seja, desconsidera osinal).
A anlise desse coeficiente j foi feita acima, no quadro Correlations.
Na segunda coluna apresentado o R Square.
R Square = R2 coeficiente de determinao.Ele fornece a capacidade preditiva do modelo. Diz qual a proporo da variao totalque explicada pela relao entre X e Y.
O valor do R2 uma das medidas para se escolher o melhor modelo (na regressosimples).
Variables Entered/Removedb
Taxa de
Jurosa , Enter
Model
1
Variables
Entered
Variables
Remov ed Method
All requested v ariables entered.a.
Dependent Variable: Taxa de Riscob.
Model Summaryb
,578a ,334 ,317 12,6777
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), Taxa de Jurosa.
Dependent Variable: Taxa de Riscob.
102 R
-
7/31/2019 RLS - usando o SPSS
9/18
9
Quanto mais prximo de 1 melhor. Acima de 0,70 j est bom.
No nosso exemplo
Pode-se dizer que 33,4% da variao total explicada pela relao entre Taxa de Juros
e Taxa de Risco.
Esse coeficiente de determinao de 33,4% indica que o modelo possui uma baixa
capacidade preditiva.
A terceira coluna apresenta do R ajustado.
Neste caso no iremos analis-lo, pois ele s til na Regresso Linear Mltipla
(quando temos mais de um X).
A quarta coluna apresenta o Std Error of the Estimate. Ele o desvio padro do
modelo, e usado para compararmos diversos modelos e escolhermos o melhor (oque possuir menor desvio padro).
O desvio padro do modelo a raiz quadrada da varincia residual do modelo (Mean
Square Residual).
A unidade dele a mesma unidade de Y.
No nosso exemplo
O desvio padro do modelo igual a 12,67 %.
Obs.: a unidade das variveis X e Y % (taxa em %).
-
7/31/2019 RLS - usando o SPSS
10/18
10
Neste quadro iremos fazer o teste F. o teste do modelo. Com ele vamos testar se o
modelo completo (com a varivel X) melhor do que o modelo reduzido (s com beta
zero).
O teste F tenta avaliar a importncia relativa dos resduos devido entrada da nova
varivel, sobre os resduos da regresso sem esta varivel. Este teste mais til no
caso de regresso mltipla, quando se pretende escolher as variveis que no conjunto
melhoram o modelo. Quanto maior for o valor de F, maior ser a evidncia da incluso
da varivel X no modelo.
Procedimento para o teste F (na regresso simples):
H0: Y = 0 +
H1: Y = 0 + 1X +
Testamos aqui o modelo reduzido (H0) contra o modelo completo (H1). O alpha no
ser divido por dois, pois a curva do F s tem uma cauda, ele ser sempre positivo.
Compara-se o Sig. (valor-p) com o valor de alpha. Caso o Sig seja menor do que alpha,
rejeita-se H0 e conclui-se que o modelo completo (com a varivel independente)
melhor do que o modelo reduzido (que s contm a mdia).
Caso contrrio, no se rejeita H0, com de significncia, e diz-se que o modelo
reduzido melhor do que o modelo completo.
ANOVAb
3064,405 1 3064,405 19,066 ,000a
6107,519 38 160,724
9171,924 39
Regression
Residual
Total
Model
1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Taxa de Jurosa.
Dependent Variable: Taxa de Riscob.
-
7/31/2019 RLS - usando o SPSS
11/18
11
No nosso exemplo
Teste F - teste do modelo
H0: Y =0 +
H1: Y =0 +1X +
Nvel de significncia (alpha) = 5%
Sig = 0,000
Como Sig menor que o nvel de significncia (alpha), rejeita-se H0 e conclui-se que o
modelo completo (o que contm a varivel independente, a varivel Taxa de Juros)
melhor do que o modelo reduzido (o que no contm a varivel Taxa de Juros (X)).
Em outras palavras: existe relao linear entre X e Y.
Outra informao: A varincia residual do modelo igual a 160,72%2.
Esse quadro fornece os coeficientes (beta zero e beta1), com isso, podemos montar omodelo. Temos que olhar para os "Unstandardized Coefficients".
So apresentados, tambm, os intervalos de confiana.
No podemos esquecer-nos de fazer o teste t (teste do coeficiente).
Coefficientsa
57,755 6,128 9,425 ,000 45,350 70,160
-,400 ,092 -,578 -4,366 ,000 -,585 -,214
(Constant)
Taxa de Juros
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardi
zed
Coeff icien
ts
t Sig. Lower Bound Upper Bound
95% Confidence Interv al for B
Dependent Variable: Taxa de Riscoa.
-
7/31/2019 RLS - usando o SPSS
12/18
12
Faremos, ento:
Varivel X - Taxa de Juros
Teste t para Beta 1 - teste do coeficiente
H0:1 = 0
H1:10
= 0,05
Como Sig (da varivel Taxa de Juros, referente ao coeficiente beta 1) igual a 0,000, ou
seja, menor do que alpha (0,05), rejeita-se H0 e conclui-se que h evidncia de relao
linear entre a Taxa de Juros (X) e a Taxa de Risco (Y).
O modelo linear ser:
= 57,75 - 0,4 (X)
Interpretao do modelo:
Beta zero = 57,75
Se a Taxa de Juros (X) for igual a zero, a Taxa de Risco ser igual a 57,75 %.
Beta 1 = -0,4
A cada unidade adicional na varivel Taxa de Juros (X), a varivel Taxa de Risco
(Y) diminui em 0,4.
(Mesmo no fazendo sentido economicamente falando, uma vez que a relaoest inversa, o modelo este. Talvez o problema esteja no conjunto de pases
da amostra).
Quanto ao intervalo de confiana, podemos dizer que existe 95% de confiana
verdadeiro beta 1 (o beta 1 da populao) pertencer ao intervalo [-0,58 ; -0,21].
-
7/31/2019 RLS - usando o SPSS
13/18
13
Este quadro aparecer quando for diagnosticado algum caso de possvel outlier (ou
valor influente).
Se o resduo padronizado estiver acima de 3 desvios (tanto positivo quanto negativo),a observao ser uma candidata a outlier. Ela poder ser outlier ou valor influente.
No exemplo
O primeiro pas (case 1) possui o resduo padronizado acima de 3. Portanto, ele um
candidato a outlier.
Neste quadro olharemos para o "Std Residual". Se este for menor que -3 ou maior do
que 3, existem candidatos a outlier ou valor influente.
Para isso vamos ver a Cook's Distance, se o Maximum estiver maior de 1 porque
existe alguma (ou algumas) observaes que so valores influentes. Neste caso iremos
Casewise Diagnosticsa
3,309 87,00 45,0476 41,9524
Case Number
1
Std. Residual Taxa de Risco
Predicted
Value Residual
Dependent Variable: Taxa de Riscoa.
Residuals Statisticsa
19,9124 47,9647 32,4700 8,8642 40
-1,417 1,748 ,000 1,000 40
2,0069 4,0756 2,7719 ,6013 40
19,5241 49,6233 32,4840 8,9571 40
-26,7283 41,9524 -1,20E-15 12,5141 40
-2,108 3,309 ,000 ,987 40
-2,187 3,444 -,001 1,022 40
-28,7676 45,4337 -1,40E-02 13,4149 40
-2,308 4,097 ,020 1,107 40
,002 3,056 ,975 ,850 40
,000 ,492 ,037 ,092 40
,000 ,078 ,025 ,022 40
Predicted Value
Std. Predicted Value
Standard Error of
Predicted Value
Adjusted Predicted Value
Residual
Std. Residual
Stud. Residual
Deleted Residual
Stud. Deleted Residual
Mahal. Distance
Cook's DistanceCentered Leverage Value
Minimum Maximum Mean Std. Dev iation N
Dependent Variable: Taxa de Riscoa.
-
7/31/2019 RLS - usando o SPSS
14/18
14
at a base de dados (Data view), e na coluna "Coo_1" iremos procurar quem (ou
quem so) essa observao. No caso estudado as observaes so pases.
Se caso o Maximun estiver menor do que 1 porque no existem valores influentes.
Logo, a observao que estiver excedendo 3 desvios padres ser considerada outlier.
No exemplo
Como a distncia de Cook (Cook's Distance) mxima menor do que 1, o pas
Argentina, que possui resduo padronizado acima de 3 desvios, no considerado valorinfluente, mas sim um outlier.
Sugere-se que essa observao seja retirada do banco de dados e que a regresso
linear seja rodada novamente. Com isso, iremos comparar os resultados das duas
regresses (com esta observao e sem ela) e ser muito provvel que os resultados
melhorem (desvio padro do modelo diminua e o R2 aumente).
Resta-nos verificarmos as premissas do modelo!!!
So cinco as premissas a serem verificadas e faremos isso com o auxlio dos grficos
abaixo.
Charts
Normal P-P Plot of Regression Standar
Dependent Variable: Taxa de Risco
Observed Cum Prob
1,00,75,50,250,00
1,00
,75
,50
,25
0,00
-
7/31/2019 RLS - usando o SPSS
15/18
15
Premissas bsicas do modelo:
Devem ser verificadas para assegurar a adequabilidade do modelo.
So elas:1. Linearidade
2. i ~ Normal - Normalidade
3. E(i) = 0
4. 2(i) constante Homocedasticidade
5. cov(i,j) = 0 Independncia
Scatterplot
Dependent Variable: Taxa de Risco
Regr ession Standardized Predicted Value
2,01,51,0,50,0-,5-1,0-1,5
4
3
2
1
0
-1
-2
-3
-
7/31/2019 RLS - usando o SPSS
16/18
16
A primeira a premissa de linearidade. Pode ser verificada pelo teste F. Se rejeitar H0
porque existe relao linear, ento, a premissa foi satisfeita.
Outra forma de verificar usando o grfico dos resduos (Regression Standardized
Residuals) versus valores ajustados, no qual os pontos devem estar distribudos de
forma aleatria (totalmente sem formas definidas). Caso eles estejam em forma de
parbola, a premissa estaria sendo violada, ento, deve-se incluir uma varivel
quadrtica (X2) no modelo, ou buscar novas formas de relao.
A segunda premissa a da normalidade (distribuio Normal). Deve-se observar o
grfico chamado P-P Plot. Caso as observaes estejam na reta ou prximas da reta
diagonal, aceitamos a normalidade. Essa premissa fundamental, pois toda inferncia
feita com base nas distribuies (t, F) que vm da Normal. Se a Normal for violada, os
testes que sero feitos no iro servir pra nada. Se no tiver normalidade, no pode-se
testar os parmetros, realizar o modelo.
A quarta premissa a de homocedasticidade, que o mesmo que dizer que a
varincia dos erros constante. Caso no seja, deve-se usar o mtodo dos mnimosquadrados ponderados. Essa premissa ser observada no grfico dos resduos (na
vertical) versus valores ajustados (na horizontal). Se os pontos estiverem em forma de
buzina porque existe problema e essa premissa est sendo violada.
A premissa da independncia dos erros pode ser observada no mesmo grfico dos
resduos versus valores ajustados. Se os pontos estiverem distribudos aleatoriamente
(sem formas) porque no h problema. Mas caso eles estejam distribudos como
retas paralelas, a premissa estar sendo violada. Esse problema ocorre mais em sries
temporais.
-
7/31/2019 RLS - usando o SPSS
17/18
17
No nosso exemplo:
Premissas bsicas:
1. Linearidade2. Normalidade3. E(i) = 04. Homocedasticidade5. Independncia
A premissa da linearidade foi verificada por meio do teste F. Como rejeitou-se H0,
concluiu-se que existe relao linear entre X e Y;
Por meio do grfico P-P Plot, verificou-se a premissa da Normalidade. Como os pontos
esto bem prximos da linha diagonal (de probabilidade acumulada), a premissa da
Normalidade foi satisfeita.
A homocedasticidade (varincia dos erros constante) foi verificada atravs do
Scattreplot (Valores preditos X Resduos padronizados). Como os pontos no formaram
a figura de um gramofone (buzina), a premissa da homocedasticidade foi satisfeita.
A independncia dos erros foi verificada atravs do Scatterplot (Valores preditos X
Resduos padronizados). Como os pontos no formaram linhas paralelas, a premissa da
independncia foi satisfeita.
................
Ao realizar a regresso linear, constatou-se que existe uma relao linear significativa
entre as variveis Y (Taxa de Risco) e X (Taxa de Juros), para a amostra estudada.
Dessa forma, podemos estimar a Taxa de Risco a partir da Taxa de Juros, atravs do
modelo de regresso linear
= 57,75 - 0,4 X
ou
= 57,75 - 0,4 (Taxa de Juros)
-
7/31/2019 RLS - usando o SPSS
18/18
18
Base de dados
Pas Taxa de Risco (%) Taxa de Juros (%)
Argentina 87,0 31,8
Turquia 74,1 32,6
Brasil 64,8 36,2
Taiwan 53,7 72,9
Portugal 47,5 56,7
Mxico 46,3 43,3
Venezuela 46,0 45,0
Nigria 41,4 30,6
Grcia 39,6 51,9
Filipinas 38,4 29,6
Zimbbue 35,6 24,5
Hong Kong 34,3 69,6
Chile 31,6 38,6
Colmbia 31,5 44,4
Korea 30,7 62,2
ndia 30,0 46,6
Norway 28,3 83,0
Itlia 28,0 75,5
Tailndia 27,0 55,8
Austrlia 26,9 78,2
Malsia 26,7 64,4
Singapura 26,4 77,6
ustria 26,3 83,8
Nova Zelndia 26,3 68,9
Finlndia 26,1 76,0
Japo 25,7 94,5
Espanha 24,8 70,8
Sucia 24,5 79,5
Paquisto 24,4 26,4
Frana 23,8 85,3
Ireland 23,4 66,4Alemanha 23,0 93,4
Blgica 22,0 78,4
Reino Unido 21,8 87,6
Dinamarca 20,6 72,6
Suia 19,6 94,7
Canad 19,2 87,1
Netherlands 18,5 87,6
Jordan 17,6 33,6
EUA 15,4 93,4