anÁlises de regressÃo
DESCRIPTION
ANÁLISES DE REGRESSÃO. Coeficiente de correlação. Coeficiente de correlação linear produto momento, segundo Pearson (r) SPXY = xy -( x y) / n; SQX = x2 - ( x)2 / n; SQY = y2 - ( y)22 / n r: -1 à +1; r: 0, não há correlação linear entre x e y. - PowerPoint PPT PresentationTRANSCRIPT
ANÁLISES DE REGRESSÃO
Coeficiente de correlação
Coeficiente de correlação linear produto momento, segundo Pearson (r)
SPXY = xy -(x y) / n; SQX = x2 - (x)2 / n; SQY = y2 - (y)22 / n
r: -1 à +1; r: 0, não há correlação
linear entre x e y.
1n
)yiy(.1n
)xix(1n
)yiy)(xix(
)yvar()xvar(
)y,xcov(r
22
SQY.SQX
SPXYr
Coeficiente de determinação
r2*100%: fração da variância total de x e y explicada pela relação linear; ajuste da distribuição dos pontos em relação à reta.
teste usado para verificar se a correlação é ou não significativa,
com (n-2)g.l.
,2r1
2nrt
Coeficiente de correlação não paramétrico, segundo Spearman (rS)
variáveis não possuem distribuição normal
xi e yi ordenados por postos (rank), segundo os seus valores (x*i e y*i)
di = x*i - y*i ; n = número de
pares de valores x*i , y*i
nnd6
1sr 3
2i
O coeficiente de correlação linear é influenciado pela presença de valores anômalos (outliers).
Grande diferença entre o coeficiente de correlação linear e o coeficiente de correlação por postos reflete tanto uma relação não-linear como presença de pares de valores extremos.
Regressão linear
Verificado pelo valor de r que ocorre uma significante correlação linear entre duas variáveis há necessidade de quantificar tal relação, o que é feito pela análise de regressão.
Modelo: equação de uma reta que, disposta num sistema de eixos cartesianos, com valores de yi (variável dependente) na ordenada e xi (variável independente) na abcissa, a soma dos quadrados dos desvios verticais dos pontos em relação a ela seja mínima.
equação da reta
Y = a + bX onde yi é o valor estimado para um específico valor
xi; “b” revela a inclinação da reta, ou seja o acréscimo
ou decréscimo do valor de y em relação à x; “a” localiza na ordenada o ponto de interseção da
reta em relação ao sistema de coordenada retangulares.
Utilizando o método dos mínimos quadrados, os valores da equação da reta são determinados por:SQX
SPXYb xbya
niy
y
n
ixx
Eixo maior reduzido
Quando não ocorre dependência entre variáveis não há conhecimento de uma variável
sem erro Desvios verticais dos pontos em
relação à reta: análise de regressão Areas dos triângulos
compreendidos entre os pontos e a reta: eixo maior reduzido
Y = a + bX
sendo o sinal de “b” o do correspondente r
)Sx/Sy(b
2/1]n/2)x(2x
n/2)y(2y[
SQXSQY
b
xbya
Regressão curvilínea
potências crescentes de xi, variável independente e coeficientes
xi e xi2: parábola com um único ponto de inflexão com potências crescentes de xi, curva mais
complexa para ajuste processo por etapas (stepwise)
O modelo para a regressão polinomial de grau k é
...3X3
a2X2
aX1
a0
a*Y
kiX
k...2
iX2iX
1oY
cálculo dos coeficientes de regressão
]Y[1]X[]a[
kii
2ii
ii
i
k
1
0
kki
2ki
1ki
ki
1ki
3i
2ii
ki
2ii
xy
xy
xy
y
a
a
a
xxxx
xxxx
xxxn
Função quadrática
Função cúbica
Regressão múltipla Testa dependências cumulativas de uma única variável dependente em
relação à diversas variáveis independentes: Y = a1A + a2B + a3C + a4D + ...ε
A variância total de Y é em parte "explicada" pelas diversas variáveis X's e
o restante pela variabilidade devido ao erro εA proporção da variância dos Y observados "explicada" por uma equação de regressão ajustada é representada pelo coeficiente de determinação R², variando entre 0 e 1O termo "explicada" tem apenas um significado numérico não implicando necessariamente em um conhecimento causa-efeito sobre o porque da relação existente
É verificada a contribuição pura de cada variável independente por
comparações sucessivas entre os diversos resultados.
Regressão múltipla é multivariada no sentido de que mais de uma variável é medida simultaneamente em cada observação; trata-se, porem de uma técnica univariada, pois o estudo é em relação à variação da variável dependente Y, sem que o comportamento das variáveis independentes, Xs, seja objeto de análise.
1 Grau0 2 Grau0 3 Grau0
LINHA CURVA DE 3 GRAU0PARABOLA
VARIÁVEL2
X X X
Y Y Y
YYY
X X X
Z Z Z
PLANO PARABOLOIDE SUPERFÍCIE DE 3 GRAU0
VARIÁVEL3
Regressão polinomial
superfícies contínuas calculadas por critérios de regressão polinomial, onde Zi é a variável dependente em função linear das coordenadas X-Y dos pontos amostrados e irregularmente distribuídos
o modelo para a representação da superfície pelo método dos polinômios não ortogonais é:
onde zi(X,Y) é a variável mapeada em função das coordenadas xi e yi e ei representa os resíduos, ou seja, a fonte não-sistemática de variação.
)y,x(e...]yxaxayaxaa[)Y,X(z iiiii42i3i2i10i
Análise de superfícies de tendência Separação entre o aspecto estrutural
(determinístico) e o aspécto errático (casual): tendências regionais e pequenas, aparentemente não ordenadas flutuações, que se impõem aos padrões mais gerais.
Detecção de anomalias: resíduos, positivos e negativos, de superfícies de baixo grau.
Modelagem por suavização: verificação da superfície de mais alto grau possível que se ajuste aos dados.
A representação de uma superfície linear é dada por: ii2i10 eyaxaa)Y,X(z
Superfície de grau 1
para o cálculo dos coeficientes ai, dispõe-se os dados num sistema de equações normais
[A] = [XY]-1[Z]
ii
ii
i
1
0
2iiii
ii2i
ii
yz
xz
z
2a
a
a
yyxy
yxxix
yxn
Superfície de grau 2
i2i
iii
i2i
ii
ii
i
1
4i
3ii
2i
2i
3i
2ii
2i
3ii
2i
2ii
3i
2ii
2iii
2i
2ii
3i
4i
2i
3i
2i
3i
2iii
2i
2iiii
2iii
2i
3ii
2ii
2iii
2iii
5
4
3
2
1
0
zy
zyx
zx
zy
zx
z
yyxyxyyxy
yxyxyxyxiyxyx
yxyxxiyxxx
yyxyxyyxy
yxyxxiyxxx
yyxxyxn
b
b
b
b
b
b
procurar tecer considerações apenas em relação à área coberta pelos pontos evitando as extremidades dos mapas, pois a extrapolação pode apresentar distorções;
o número de pontos deve ser maior que o número de coeficientes do polinômio a ser calculado;
o arranjo dos pontos, ainda que irregular, deve ser casual e razoavelmente bem distribuído, evitando agrupamentos;
Quando da inversão da matriz, por programas em microcomputador, podem ocorrer problemas com os resultados obtidos para superfícies de mais alto grau, isso porque em sistemas com valores de diversos dígitos, tipo UTM, a precisão computacional se deteriora exigindo formato de dupla precisão.
Mesmo assim podem ocorrer limitações e, então, a solução é a transformação das coordenadas xi e yi, conforme as equações, que fornecem valores para as coordenadas entre 0 e 1 e não modifica a forma das superfícies:
minmax
mini
xxxx
*x
minmax
mini
yyyy
*y
20 40 60 80
20
40
60
80
20 40 60 80
20
40
60
80
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
Verificação do ajuste das superfícies COEFICIENTE DE DETERMINAÇÃO (r2) Proporção da variação total da variável dependente “zi”
que é explicada pela variação das variáveis independentes “xi” e “yi”
Variação total dos dados: SQT = Z2 – (Z)2/n Variação devido à superfície calculada: SQP = Z*2–
(Z*)2/n Variação devido aos resíduos: SQR = SQT - SQP
Porcentagem de ajuste da superfície: R2 = (SQP/SQT)100
O coeficiente de correlação “r” indica a relação entre variáveis e “r2” indica o quanto uma variável “explica” a outra, ou quanto a superfície calculada se ajusta aos dados espaciais originais.
Exemplo
X1 (km) X
2 (km) Y
10.0 17.0 -665.0
21.0 89.0 -613.0
33.0 38.0 -586.0
35.0 20.0 -440.0
47.0 58.0 -544.0
60.0 18.0 -343.0
65.0 74.0 -455.0
82.0 93.0 -437.0
89.0 60.0 -354.0
97.0 15.0 -142.0
232342
211098
4579
b
b
b
.
1
3169227030482
2703036943539
48253910
2
1
0
96.1
78.4
621
232337
211098
4579
.
000120.0000016.0004931.0
000016.0000129.0006174.0
004931.0006174.0670480.0
X1 (km) X
2 (km) Y Y (m) ( )Y Y (m)
10.0 17.0 -665.0 -606.6 -58.3
21.0 89.0 -613.0 -695.7 82.7
33.0 38.0 -586.0 537.8 -48.1
35.0 20.0 -440.0 -492.8 52.8
47.0 58.0 -544.0 -510.2 -33.7
60.0 18.0 -343.0 -369.2 26.2
65.0 74.0 -455.0 -455.5 0.5
82.0 93.0 -437.0 -411.5 -25.4
89.0 60.0 -354.0 -313.0 -40.9
97.0 15.0 -142.0 -186.1 44.1
1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
9 0
- 7 6 0
- 7 2 0
- 6 8 0
- 6 4 0
- 6 0 0
- 5 6 0
- 5 2 0
- 4 8 0
- 4 4 0
- 4 0 0
- 3 6 0
- 3 2 0
- 2 8 0
- 2 4 0
- 2 0 0
1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
9 0
- 2 0 0- 1 8 0- 1 6 0- 1 4 0- 1 2 0- 1 0 0- 8 0- 6 0- 4 0- 2 002 04 06 08 01 0 01 2 01 4 01 6 01 8 02 0 0