analisis exploratorio de datos - datos...
TRANSCRIPT
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
ANALISIS EXPLORATORIO DE DATOS
Datos Dependientes
Ana Perez [email protected]
8 de noviembre de 2010
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Contenido
1 Introduccion al Analisis de Series Temporales
2 Introduccion a la Estadıstica Espacial
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Contenido
1 Introduccion al Analisis de Series Temporales
2 Introduccion a la Estadıstica Espacial
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
En ocasiones nuestro interes recae en explicar la estructura y preverla evolucion de una o mas variables a lo largo del tiempo.Por ejemplo,series de ındices de precios, demanda de enerbıa, ventas, etc.Veamos un par de ejemplos de series temporales.
Figura de la derecha: Pasajeros mensuales en una lınea aereade los EEUU desde 1949 hasta 1960Figura de la izquierda: Intensidad de color de un productoquımico industrial.
Time
pasa
jero
s
1950 1952 1954 1956 1958 1960
100
200
300
400
500
600
Time
colo
r
0 5 10 15 20 25 30 35
6570
7580
85
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Modelo:
Partimos de una serie Yt, t = 0,±1,±2, .... Donde el subındice tindica el momento en el que es medida la variable Y . La sucesionde variables aleatorias Yt, t = 0,±1,±2, ... s denomina proceso es-tocastico.Existen varios conceptos relacionados con el proceso:Funcion Media:
E [Yt] = µt
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Funcion Covarianza
γt,s = Cov [YtYs] = E [(Yt − µt) (Ys − µs)]
Funcion de Correlacion
ρt,s =Cov [YtYs]
√
V ar [Yt]V ar [Ys]
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Proceso Estacionario
Se define un proceso estacionario o debilmente estacionario si:
La funcion media es constante
La funcion variana es constante
La covarianza entre dos instantes solo depende de ladiferencia de los instantes: γt,t+k = γs,s+k
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Una serie puede ser no estacionaria porque su tendencia varıao porque varıa su funcion de varianza.
Ademas se pueden presentar efectos estacionales que serepiten en ciertos periodos temporales. Por ejemplo siestudiamos la evolucion turismo mensual en Espana durantelos ultimos 10 anos.
Es bueno obtener series estacionarias porque ası es mas facilobtener predicciones de nuevas observaciones, intervalos deconfianza, etc.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
A menudo se supone la siguiente descomposicion de una Serie
Xt = Tt + St + It
Tt representa la tendencia de la serie.
St representa la Estacionalidad.
It representa el termino de variaciones totalmente aleatorias.
En otros casos el modelo que se supone es multiplicativo puro
Xt = Tt × St × It
o mixtoXt = Tt × St + It
Una vez determinado el modelo, nuestro objetivo sera determinar yaislar cada uno de sus elementos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Analisis de la tendencia En algunos casos se supone un modelode regresion entre la tendencia y la variable temporal, por ejemploel de regresion lineal:
Tt = a+ bt.
en este caso se puede recurrir a tecnicas de estimacion del modelode regresion para estimar la tendencia. La mas sencilla el modelo deregresion lineal.Sin embargo en otros casos no es posible formular este modelo ynecesitamos recurrir a metodos No Parametricos como es el caso deaplicar filtros de MEdias Moviles.El metodo vasado en medias moviles consiste en promediar un numeroespecıfico de observaciones de la serie temporal entorno a un valorxt0 . Este proceso se realiza para todos los valores de la serie excep-to para unos pocos de los primeros y de los ultimos, ya que no esposible promediar para ellos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
La longitud del la serie utilizada para promediar se elige de formaque promedie el posible efecto estacional de la serie. Por ejemplo, sitengo series mensuales, necesito promediar 12 meses consecutivos.Para cada t
mt =xt−6 + xt−5 + ...+ xt+6
12
Luego se calcula la diferencia, en el caso de que el modelo sea adi-tivos
st = mt − xt
Si el modelo es multiplicativo
st =mt
xt
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Tecnicas de suavizacion para estimar la tendencia.
Existen otras tecnicas no parametricas basadas en lasuavizacion para calcular la tendencia de la serie.
Los metodos de suavizacion utilizan puntos antes y despuesdel punto dado para estimar mediante un metodo suavizado elvalor de la serie.
Como consecuencia la serie suavizada tendra algunasobservaciones faltantes al principio y al final salvo que seadapte el metodo de suavizacion en esos puntos.
Un metodo que utiliza la funcio de R, stl, es el basado elregresion local ponderada (loess).
Utiliza pesos que reduzcan el efecto de los puntos outlyers.
Estos metodos no requieren de especificar un modelopreviamente.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Una vez calculada la tendencia se procede a calcular la estacionalidadde la serie. En el caso de que el modelo sea aditivo, se calcula laserie sin tendencia como
Xt − Tt = St + It
Luego, Se aplicarıa el suavizador por medias moviles a la serie sintendencia Xt − Tt. De este modo se obtendran los ındices de esta-cionalidad de la serie original.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
En R, podemos introducir los datos correspondientes a una serietemporal en un objeto denominado ”ts”.
> class(AP)
[1] "ts"
> AP
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1949 112 118 132 129 121 135 148 148 136 119 104 118
1950 115 126 141 135 125 149 170 170 158 133 114 140
1951 145 150 178 163 172 178 199 199 184 162 146 166
Este tipo de objetos ya tiene definido el instante en el que comienzala serie, cuando termina y la frecuencia.
> start(AP)
[1] 1949 1
> end(AP)
[1] 1960 12
> frequency(AP)
[1] 12
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Aparte de dibujar la serie en cada instante, como hicimos anteri-ormente, tambien podemos agregar los datos para poder estudiarmejor si existe tendencia o no.En el ejemplo de los pasajeros, podemos agregar y ver mas clara-mente la tendencia.PAra ello es necesario utilizar las funciones aggregate y cycle.
Time
aggr
egat
e(A
P)
1950 1952 1954 1956 1958 1960
2000
3000
4000
5000
1 2 3 4 5 6 7 8 9 10 11 12
100
200
300
400
500
600
Graficos de media anual y boxplots mensuales de los pasajeros.Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Veamos como construir un objeto ”ts”.El archivo MAine contiene la tasa de desempleo mensual del estadode Maine desde Enero de 1996 hasta Agosto del 2006.
Maine.mensual<-(ts(unemploy,start=c(1996,1),freq=12))
Cuando no tengo la serie completa, por ejemplo cotizaciones diariasen bolsa, se utiliza la funcion timeSeries del paquete timeSeries. Aesta funcion hay que proporcionarle un vector con las fechas y lamatriz o vector de datos correspondientes a la serie.Tambien puedo agregar y calcular la serie anual
Maine.anual<-aggregate(Maine.mensual)/12
Time
Mai
ne.m
ensu
al
1996 1998 2000 2002 2004 2006
34
56
Time
Mai
ne.a
nual
1996 1998 2000 2002 2004
3.5
4.0
4.5
5.0
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Estimacion de la tendencia. Una forma basica de estimar la ten-dencia es aplicar modelos de regresion. El modelo mas sencillo es elde regresion lineal.Como se observa una clara heterocedasticidad, aplicamos una trans-formacion logaritmica a la variable que representa el numero depasajeros. A continuacion aplicamos la regresion mınimo cuadratica:
> model1<-lm(log(AP)~time(AP))
> summary(model1)
Call:
lm(formula = log(AP) ~ time(AP))
Residuals:
Min 1Q Median 3Q Max
-0.30858 -0.10388 -0.01796 0.09738 0.29538
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.302e+02 6.539e+00 -35.20 <2e-16 ***
time(AP) 1.206e-01 3.345e-03 36.05 <2e-16 ***
Residual standard error: 0.139 on 142 degrees of freedom
Multiple R-squared: 0.9015, Adjusted R-squared: 0.9008
F-statistic: 1300 on 1 and 142 DF, p-value: < 2.2e-16
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
1950 1952 1954 1956 1958 1960
−2
−1
01
2
time(AP)
rstu
dent
(mod
el1)
1
2
34
5
6
78
9
10
11
1213
14
15
16
17
18
1920
21
22
23
242526
27
28
2930
3132
33
34
35
3637
38
39
4041
42
43
44
45
46
47
484950
515253
54
5556
57
58
59
6061
62
63
6465
66
67
68
69
70
71
72
73
74
757677
78
79
80
81
82
83
848586
878889
90
9192
93
94
95
9697
98
99100101
102
103104
105
106
107
108109
110
111
112113
114
115116
117
118
119
120
121
122
123124
125
126
127128
129
130
131
132133
134
135
136137
138
139140
141
142
143
144
Histogram of rstudent(model1)
rstudent(model1)
Fre
quen
cy
−2 −1 0 1 2
05
1015
2025
3035
Aquı vemos el grafico de los residuos estandarizados estandarizadosası como el histograma.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
0 5 10 15 20
−0.
4−
0.2
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
Series rstudent(model1)
Esta es la funcion de autocorrelacion muestral sobre los residuosestandarizados,comunmente conocida como correlograma.En ella, acada valor de k le asocia la correlacion revelada en la muestra entrela variable y su pasado a distancia k.Nos interesa observar los picos que sobresalen de la banda. Loslımites estan en los puntos −1
n± 2
√
n
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Descomposicion de una Serie
En R, disponemos de la funcion decompose que descompone una se-rie en su tendencia, estacionalidad y parte aleatoria. Lo hace siguien-do el modelo aditivo o multiplicativo mediante el metodo de MediasMoviles. Veamos un ejemplo:
m1<-decompose(log(AP))5.
05.
56.
0
obse
rved
4.8
5.2
5.6
6.0
tren
d
−0.
20.
00.
2
seas
onal
−0.
100.
00
1950 1952 1954 1956 1958 1960
rand
om
Time
Decomposition of additive time series
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Las siguientes instrucciones nos dibujan la tendencia y la estacional-idad en el mismo grafico.
m1$trend
m1$seasonal
ts.plot(cbind(m1$trend,m1$trend+m1$seasonal), lty=1:2)
Time
1950 1952 1954 1956 1958 1960
5.0
5.5
6.0
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Ahora podemos calcular la funcion de autocorrelacion parcial de losresiduos obtenidos por esta descomposicion.Dado que el metodo utilizado es por medias moviles y lo que se hacees suavizar en el ciclo, que tiene longitud 12, no podremos utilizarlas primeras 6 y ultimas 6 observaciones.Por ello se especifica que usemos [6:138]
acf(m1$random[7:138])
5 10 15 20
−0.
20.
00.
20.
4
Lag
AC
F
Series m1$random[7:138]
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
La funcion de autocorrelacion mide la correlacion entre losvalores de la serie distanciados un lapso de tiempo k, esdecir:Cor(Yt, Yt+k
La funcion de autocorrelacion parcial, calcula la correlacionentre parejas de valores separados esa distancia k peroeliminando el efecto debido a la correlacion producida porretardos anteriores a k. Consideramos
Xt = β1Xt−1 + ...+ βk−1Xt−k+1 + βt−kXt−k + Ut
el coeficiente de autocorrelacion parcial de orden k, vienedado por el estimador de βt−k
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
El grafico sugiere la figura del coseno que es caracterıstico de unmodelo autoregresivo de orden 2 o que su componente estacionalno ha sido estimada adecuadamente.Veamos algunos ejemplos basicos de Modelos estocasticos.Ruido Blanco
Una serie de tiempo se define ruido blanco si las variables son in-dependientes e identicamente distribuidas con media cero. Vamos asimularlo
norm<-rnorm(100)
plot(norm,type="o")
acf(norm)
0 20 40 60 80 100
−2
−1
01
2
norm
5 10 15 20
−0.
2−
0.1
0.0
0.1
0.2
AC
F
Series rnorm(100)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Paseo aleatorio
Una serie de tiempo se define como Random Walk”si:
Xt = Xt−1 + ut
Vamos a simularlo
u<-rnorm(500)
x<-u
for(t in 2:500)x[t]<-x[t-1]+u[t]
plot(x,type="o")
acf(x)
0 100 200 300 400 500
−25
−20
−15
−10
−5
0
Index
x
0 5 10 15 20 25
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
Series x
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Otro ejemplo:
> ser<-decompose(Maine.mensual)
> plot(ser)
34
56
obse
rved
3.5
4.5
tren
d
−0.
50.
00.
5
seas
onal
−0.
40.
00.
4
1996 1998 2000 2002 2004 2006
rand
om
Time
Decomposition of additive time series
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
ts.plot(cbind(ser$trend,ser$trend+ser$seasonal), lty=1:2)
acf(ser$random[7:120])
Time
1996 1998 2000 2002 2004 2006
34
56
0 5 10 15 20
−0.
50.
00.
51.
0
Lag
AC
F
Series ser$random[7:120]
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Si realizamos la estimacion no parametrica de la tendencia mediantela funcion stl
plot(stl(Maine.mensual,s.window="per"))
34
56
data
−0.
50.
00.
51.
0
seas
onal
3.5
4.5
5.5
tren
d
−0.
40.
00.
4
1996 1998 2000 2002 2004 2006
rem
aind
er
time
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Modelizacion Box-Jenkins
PROCESOS AUTOREGRESIVOS AR
La serie Xt sigue un proceso autorregresivo de orden p,denominado AR(p) si:
Xt = α1Xt−1 + α2Xt−2 + ...+ αpXt−p + ut
donde ut es el ruido blanco y αi son los parametros delmodelo.
PROCESOS DE MEDIAS MOVILES MA
Un proceso de medias moviles de orde q (MA(q)) es unacombinacion lineal de los q terminos de ruido blanco masrecientes, y esta definido por
Xt = ut + β1ut−1 + β2ut−2 + ...+ βqut−q
La determinacion de estos modelos se realiza a partir de las funcionesde autocorrelacion y autocorrelacion parcial.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Introduccion a la Estadıstica Espacial En terminos muy generalespodemos decir que datos espaciales son todos aquellos que vienenasociados a una localizacion del espacio.En funcion de la obtencion de los datos espaciales, podemos clasificaren:
Localizaciones aleatorias:procesos puntuales (point patterns).
Localizaciones no aleatorias: Tecnicas kriging
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Como ejemplo de Localizaciones aleatorias podemos citar:Ejemplo: Los datos de ubicacion de pino negro japones en una re-gion de un bosque natural en Japon (Diggle (2003)).library(spatstat) # librerıa ’Spatial Point Pattern analysis,model-fitting, simulation, tests’data(japanesepines)data(cells)data(redwood)istat(japanesepines) # analise exploratorio e test Complete Spa-tial Randomness (CSR)
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Procesos Puntuales
El analisis exploratorio de los Procesos Puntuales se centra enla distribucion espacial de los sucesos observados (deteccionde clusters,etc) y sobre la inferencia del modelo subyacente.
CSR - Complete Spatial Randomness Conjunto de testpara detectar si los eventos se distribuyen independientementede forma aleatoria y uniforme en el area de interes. Es decir,no existen regiones con exceso o defecto de sucesos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Ejemplos de datos (librerıa spatstat)
cells
cells: The data record the locations of the centres of 42 biologicalcells observed under optical microscopy in a histological section
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
redwood
redwood: The data represent the locations of 62 seedlings andsaplings of California redwood trees in a square sampling region.They originate from Strauss (1975); the present data are a subsetextracted by Ripley (1977) in a subregion that has been rescaled toa unit square.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
japanesepines
japanesepines:The data give the locations of Japanese black pinesaplings in a square sampling region in a natural forest. The obser-vations were originally collected by Numata (1961).
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
La funcion summary muestra el promedio de la intensidad en laregion de interes.
> summary(japanesepines)
Planar point pattern: 65 points
Average intensity 65 points per square unit (one unit = 5.7
Window: rectangle = [0, 1]x[0, 1]units
Window area = 1 square unit
Unit of length: 5.7 metres
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Ejemplo cells: los datos muestran que la distribucion espaciales regular, no semeja aleatoriedad (proceso biologico encompetencia por el espacio)
Ejemplo redwood las localizaciones parecen estar agrupadas
Ejemplo japanesepines: las localizaciones no muestranagrupamiento ni distribucion regular → posible aleatoriedad.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Funcion G: Distancia al suceso mas cercano: La funcion G midela funcion de distribucion de las distancias desde un suceso arbitrarioa su suceso mas cercano. Esas distancias se definen como di =mın{dij , j = 1, 2, · · · , n} la distancia mas pequena a otro sucesodel i− esimo suceso, entonces su estimacion es
G (r) =# {di : di ≤ r}
n,
donde el numerador es el numero de elementos en el conjunto (detamano n) que tienen una distancia a un suceso menor que r.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Bajo CSR, el valor teorico de la funcion G es aproximadamente
G (r) = 1− exp{
−λπr2}
,
con λ representando la intensidad, es decir, el numero medio de suce-sos por unidad de area. Podemos comparar graficamente la diferenciaentre el valor teorico (bajo CSR) y el estimado, ademas podemosconstruir usando simulacion de Monte-Carlo (y bajo CSR) bandaspuntuales.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Comparativa de la funcion G y su estimacion con las bandas. Ex-traido de Bivand et al. (Bivand 2008), p. 162. La lınea representa
los puntos(
G, G)
. La zona gris representa la envolvente de G al
95 por ciento de confianza.Observando la Figura , corroboramos lo expuesto anteriormente.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Funcion F: Distancia de un punto al suceso mas cercano Rela-cionada con la funcion anterior, consideramos m puntos en la regionespacial (generalmente una rejilla k ∗ k de valores) y definimos lafuncion de distribucion estimada F como
F (x) =# {xi : xi ≤ x}
m,
con xi la distancia del punto i-esimo al suceso mas cercano.Esta funcion es una medida del espacio promedio que queda entresucesos.. Bajo CSR, el valor esperado teorico es aproximadamente:
F (x) = 1− exp{
−λπx2}
como en el caso anterior, podemos comparar graficamente la difer-encia y construir bandas puntuales por Monte-Carlo.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Comparativa de la funcion F y su estimacion con las bandas. Ex-traido de Bivand et al. (Bivand 2008), p. 163.En la Figura , el grafico del centro muestra que los datos estan dentrode las bandas, de acuerdo con la hipotesis CSR, en al izq. muestranun modelo regula y en la der. los puntos parecen agrupados, dadopor los valores bajos de F (x).
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Contar puntos en cuadrantes
Una alternativa, no basada en distancias, consiste en dividir la regionA en m-subregiones, por ejemplo cuadrantes de igual area y usar elnumero de datos por cuadrante para testear CSR. Sea ni el numerode datos en la subregion i, y n = n
m, con n el numero de datos. El
test χ2 de Pearson es
χ2 =m∑
i=1
(ni − n)2
n
con una distribucion χ2m−1
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Una primera descripcion del proceso putnual puede realizarsepor medio de la estimacion de la densidad espacial de losdatos observados.
Otra opcion es estimar la funcion de intensidad del procesopuntual, la cual sera proporcional ala intensidad.
Para ver un estudio mas detallado de las propiedades deprimer y segundo orden se puede ver el trabajo deDiggle(2003) Statistical Analysis of Spatial Point Patterns.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Geoestadıstica Los datos geoestadısticos son aquellos que podrıanser medidos en cualquier lugar pero que tıpicamente se toman me-didas en un numero limitado de localizaciones.Por ejemplo el ph del agua de un lago, la presion barometrica deuna determinada zona, etc.El siguiente ejemplo nos da ubicaciones y concentraciones de metalespesados, junto con otras mediciones recogidas en los entornos delrıo Meuse.
concentración de zinc[113,197.4](197.4,344.9](344.9,602.5](602.5,1053](1053,1839]
concentración de cadmio[0.2,0.4924](0.4924,1.213](1.213,2.986](2.986,7.351](7.351,18.1]
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Parece que la concentracion de zinc es mas alta en torno al rıo. Porello se considera la variable dist que mdide la distancia al rıo.Calculamos el grafico de dispersion del logaritmo de la concentracionde zinc frente a la raiz cuadrada de la distancia. Esta figura revelauna clara tendencia espacial.
sqrt(dist)
log(
zinc
)
5.0
5.5
6.0
6.5
7.0
7.5
0.0 0.2 0.4 0.6 0.8
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Estimamos un modelo lineal de la variable logaritmo de zinc enfuncion de la raiz cuadrada de la distancia al rıo.En el siguiente grafico podemos ver los valores estimados(recentrados)y los resıduos.SE observa que sigue habiendo una clara tendencia espacial en losresiduos. Es necesario profundizar mas en el analisis de estos datos.
fitted.s residuals
[−1.283,−0.7073](−0.7073,−0.1312](−0.1312,0.4448](0.4448,1.021](1.021,1.597]
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
La generalidad del modelo es:Sea s un punto de Rp, el proceso viene definido por
{Z (s) , s ∈ D ⊂ Rp}
El objetivo sera modelar la dependencia espacial entre las observa-ciones.El modo de hacer esto dependera del tipo de observaciones quetengamos
Si tenemos un proceso puntual, la dependencia sera dada porpropiedades de la funcion intensidad.
En Geoestadıstica se buscara modelizar la varianza ocovarianza entre las observaciones.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
El variograma es un grafico que dibuja la semivarianza como funcionde la distancia. El variograma teorico viene dado por
γ (h) = 0,5E (Z (s)− Z (s+ h))2
La estimacion preliminar del variograma con nuestro ejemplo dedatos de zinc es:
distance
sem
ivar
ianc
e
0.2
0.4
0.6
500 1000 1500
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Permite identificar distancias a partir de las cuales seconsidera que los datos son independientes.
Si las variables zs y zs+h son incorreladas, entonces suvariograma es constante. Por ello a partir de una ciertadistanca el variograma se estabiliza.
Efecto pepita o nugget, que a distancias proximas a cero elcovariograma no sea nulo. Esto es propio de variables muyirregulares.
El Rango es la distancia a la cual el variograma se estabiliza.
SILL es el valor que toma una vez estabilizado el variograma.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
Para estimar el variograma existen varias tecnicas
Seguir un metodo parametrico suponiendo un cierto modeloparametrico para el variograma.La funcion vgm del paquete gstat dispone de varios modelosparametricos para realizar la estimacion del variograma.
Utilizar metodos no parametricos.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS
Introduccion al Analisis de Series TemporalesIntroduccion a la Estadıstica Espacial
BIBLIOGRAFIA
Cowpertwait, P.S.P. and Metcalfe,A. V.(2009) IntroductoryTime Series with R. Springer.
Cryer, J.D. and Chan, K.S.(2008). Tyme Series Analysis. Withapplications in R. Springer.
Bivand, R.S, Pebesma, E.J., Gomez-Rubio, V. (2008). AppliedSpatial Data Analysis with R. Springer.
Diggle, P.J. (2003). Statistical analysis of Spatial pointpatterns. Oxford University Press.
Ana Perez Gonzalez ANALISIS EXPLORATORIO DE DATOS