lenguaje r

Upload: yngris-ibarguen

Post on 14-Jul-2015

321 views

Category:

Documents


0 download

TRANSCRIPT

Lenguaje de simulacin R (Paquete Estadstico)Ponentes: Dennis Hernndez Mara layali Luis Dorian Rubn Yutseni Zerpa

IntroduccinConjunto de programas informticos

Son parecido a un paquete ofimtico

Paquetes estadsticos

Diseados para el anlisis

Resolver problemas

Paquete Estadstico R

Programa informtico que resuelve

R es un sistema para anlisis estadsticos y grficos creado por Ross Ihaka y Robert Gentleman. R tiene una naturaleza doble de programa y lenguaje de programacin y es considerado como un dialecto del lenguaje S creado por los Laboratorios AT&T Bell

Potente, flexible y profesional

Caractersticas de RR-project realiza anlisis estadsticos destinados a la investigacin biomdica. R es el nombre del lenguaje desarrollado para dar cauce a los estudios bioinformticos. Est basado en S, un lenguaje familiar para los profesionales de la investigacin. R-project puede asociarse a varias bases de datos y libreras que utilicen lenguajes como Perl, Python, C o Fortran. R hereda de S su orientacin a objetos. Otra de las caractersticas de R es su capacidad grfica, que permite generar grficos con alta calidad. R tambin puede usarse como herramienta de clculo numrico, campo en el que puede ser tan eficaz como otras herramientas especficas tales como , MATLAB.

Ventajas de R

Es gratuito

obtencin de resultados en tiempos muy cortos

descarga e instalacin sencilla

No se necesita tener conocimientos de programacin

Facilidad de uso y manejo

Mltiples aplicaciones

Maneja datos de gran extensin

Desventaja de R

No guarda

Resultados multivariantes (el usuario debe escoger el mas apropiado)

Para interpretacin de los datos se debe tener conocimientos estadsticos

Aplicaciones de R

Desarrollo de series de tiempoInvestigacin de operaciones ( realiza miles de iteraciones por segundo)

Las matemticas financieras

En la bioinformtica En la investigacin biomdica

Aplicaciones de REn Bioconductor, un conjunto de paquetes para el anlisis de datos en genmica

Investigacin de operaciones (realiza miles de iteraciones por segundo) Las matemticas financieras

Rmetrics orientado al anlisis de los mercados financieros y la valoracin de instrumentos de inversin

Demostracin del lenguaje (Series de Tiempo)Primero que nada como bien sabemos la estadstica estudia la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio. Como tambin debemos saber Se requiere de un estudio estadstico cuando el fenmeno que se evala se presenta con regularidad de modo que el uso de frecuencias o repeticiones de la aparicin de las caractersticas sea esencial para el diagnstico de esa realidad local o global. El proceso que estudia el anlisis e interpretacin de los datos se le llama serie temporal o cronolgica la cual es una secuencia de datos, observaciones o valores, medidos en determinados momentos del tiempo, ordenados cronolgicamente y, normalmente, espaciados entre s de manera uniforme. El anlisis de series temporales comprende mtodos que ayudan a interpretar este tipo de datos, extrayendo informacin representativa, referente a los orgenes o relaciones subyacentes como a la posibilidad de extrapolar y predecir su comportamiento futuro

Caso de estudio (Activos del sector bancario, crdito interno en miles de millones de pesos)Ao 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Ene 20045 22196 23536 26076 27334 28201 31186 34576 39547 42634 53073 57626 57913 Feb 20245 22105 23869 26193 27893 28367 31341 34705 39831 43836 53761 60218 58176 Mar 20608 22218 24353 26243 28482 29164 31625 35635 40183 45195 54881 59469 58959 Abr 20677 21990 24377 26277 27505 29680 32288 36163 40531 45555 54922 58902 60604 May 20877 22428 24051 26468 27525 29084 32262 36342 40279 45865 55553 59333 60136 Jun 21193 22391 24375 26877 27195 29718 32524 36775 39899 46216 55985 59345 60234 Jul 21383 22429 24454 26464 27348 29597 32750 36705 40002 46605 56066 58868 58490 Ago 21531 22531 24584 26901 27777 29783 33190 37029 41068 48473 56635 59014 58827 Sep 21757 22585 24777 26892 27885 30274 33793 38105 41431 49124 57244 59304 59309 Oct 22306 22232 24974 26753 28753 30694 34107 38618 41656 50116 56796 60295 60640 Nov 22308 22771 25433 27873 28991 30897 34632 39608 42891 50772 57944 60984 61231 Dic 22417 23360 26249 28222 28817 31477 35044 39586 42922 52098 57936 61147 61552

(Fuente Banco Central de Chile)

Estudio inicial de la serie60

1998

2000

mean(x) 46.23203 median(x) 41.1625 2002 2004 2006 sd(x) 13.37008 Time var(x) 178.7590

2008

2010

2012

La media de ganancias de activos para el periodo objeto de estudio es de 46.23203 millones de dlares. Esta media constituye el llamado nivel de la serie. Se nota que alrededor de los aos 1998 al 2005 las ganancias de activos para el banco se posicionan por encima del nivel y despus del ao 2005 crecen y decrecen de forma muy constante. Adems es muy notable que la serie alcance un nivel mximo en mayo del 2011 con 61.55 de ganancias y un valor mnimo a finales de enero 1998 con 20.045. La desviacin tpica de la serie summary(y) desciende a Median un valor Mean13.37008, de 3rd Qu. Min. 1st Qu. mientras que la varianza asciende a un Max. 20.05 26.27 32.64 37.37 49.37 valor de 178.7590 millones de dlares. 61.55

y 0 10 20 30

40

50

Estadstica Descriptiva de las ganancias de Activos de sector bancariocrdito internomean(x) 46.23203 median(x) 41.1625 sd(x) 13.37008 var(x) 178.7590 summary(y) Min. 1st Qu. Median Mean 3rd Qu. Max. 20.05 26.27 32.64 37.37 49.37 61.55

Grafica 2. Estacionalidad de los datos2

Grafica 3. Residuos de los datos

1

Estac.y

0

Estac.y

-1

-2

1998

2000

2002

2004

2006

2008

2010

20121998 2000 2002 2004 2006 2008 2010 2012

TimeTime

El grafico 2 muestra que la serie presenta estacionalidad regular ya que se observan fluctuaciones que se repiten ao tras ao con duraciones e intensidades similares. El grafico 3 de los residuos de la serie muestra que la varianza no es constante siendo necesario transformar la serie

-2

-1

0

1

2

Anlisis de la serie de tiempo mediante la metodologa de Box Jenkins

Metodologa de Box Jenkins:. El mtodo univariable de Box Jenkins es ampliamente utilizado en la estadstica clsica para la prediccin con series de tiempo de una variable, basado en el proceso Autorregresivo Integrado de Promedio Mvil (ARIMA: Autoregressive Integrated Moving Average). Los Variantes de esta metodologa consideran los modelos de funcin de transferencia, usados para predecir valores de una serie de tiempo, a partir de valores pasados de esa serie y otras series con relacin causal. El Mtodo de Box y Jenkins requiere que la serie sea estacionaria, esto significa que su media, varianza y covarianza permanezcan constantes sin importar el momento en el cual se midan. Para convertir una serie el proceso de diferenciacin. no estacionaria en estacionaria se propone Esta metodologa aplica modelos autorregresivos, de promedio mvil y modelos mixtos. La unin de modelos estacionales con modelos no estacionales conduce a un modelo de gran capacidad de adaptacin que puede reflejar tanto la tendencia como la estacionalidad de una serie.

EstacionariedadGrafico 4. Autocorrelacin simple de Box JenkinsSeries y11 .0

Grafico 5. Autocorrelacin parcial de Box Jenkins

Series y11 .0

0 .5

P a r ti a l A C F 0 .0

ACF

- 0 .5

- 1 .0

0.0

0.5

1.0 Lag

1.5

2.0

2.5

-1 .0 0.0

-0 .5

0 .0

0 .5

0.5

1.0 Lag

1.5

2.0

2.5

Los Grficos 4 y 5 corresponden a los correlogramas simple y parcial de las ganancias de Activos de Sector BancarioCrdito Interno del Banco Central de Chile, se evidencia que la funcin de autocorrelacin muestral simple tiene valores que sobre salen los limites como lo son el (0.0, 1.0, 1.2); mientras que en la funcin de autocorrelacin parcial tambin se evidencia que abundantes valores que sobre salen hacia ambos extremos arriba y abajo los cuales son muy significativos con lo cual se puede concluir que la serie es no estacionaria es decir sus medias y sus varianzas no son constantes en el tiempo.

Estimacin de los parmetrosGrafico 6. Autocorrelacion simple con doble diferenciacinSeries diff(diff(y1), 12)1 .00 .6

Grafico 7. Autocorrelacion parcial con doble diferenciacinSeries diff(diff(y1), 12)

0 .8

ACF

0 .2

0 .0

- 0 .4

-0 .2

- 0 .6

- 0 .4

- 0 .2

P a r tia l A C F 0 .0 0 .2

0 .4

0 .6

0 .4

0.5

1.0 Lag

1.5

0.0

0.5 Lag

1.0

1.5

Grafico 8 Periodograma del modelo seleccionadoSeries: diff(diff(y1))10 . 00 . 0 0 .2 0 .4 06 . 08 .

1

2

3 frequency

4

5

6

Por lo expuesto anteriormente se aplica el modelo ARIMA para los cuales se tomaron como muestras las siguientes combinaciones para encontrar el mejor modelo de ajuste entre ceros y unos teniendo en cuenta determinar el mejor valor se debe tomar en cuenta el valor absoluto del cociente entre los parmetros y la desviacin estndar sea mayor a dos.Combinaciones posibles ARIMA para encontrar el mejor modelo m1=arima(y1,c(1,1,1),list(order=c(0,1,1),PERIOD=12)) m2=arima(y1,c(0,1,1),list(order=c(0,1,1),PERIOD=12)) m3=arima(y1,c(1,0,1),list(order=c(0,1,1),PERIOD=12)) m4=arima(y1,c(1,1,0),list(order=c(0,1,1),PERIOD=12)) Combinaciones posibles ARIMA para encontrar el mejor modelo m5=arima(y1,c(0,0,0),list(order=c(0,1,1),PERIOD=12)) m1=arima(y1,c(1,1,1),list(order=c(0,1,1),PERIOD=12)) m6=arima(y1,c(0,0,0),list(order=c(0,0,1),PERIOD=12)) m2=arima(y1,c(0,1,1),list(order=c(0,1,1),PERIOD=12)) m7=arima(y1,c(1,0,0),list(order=c(1,0,1),PERIOD=12)) m3=arima(y1,c(1,0,1),list(order=c(0,1,1),PERIOD=12)) m8=arima(y1,c(1,0,1),list(order=c(1,0,1),PERIOD=12)) m4=arima(y1,c(1,1,0),list(order=c(0,1,1),PERIOD=12)) m9=arima(y1,c(0,0,1),list(order=c(1,1,1),PERIOD=12)) m5=arima(y1,c(0,0,0),list(order=c(0,1,1),PERIOD=12)) m10=arima(y1,c(0,0,0),list(order=c(1,1,1),PERIOD=12)) m6=arima(y1,c(0,0,0),list(order=c(0,0,1),PERIOD=12)) m11=arima(y1,c(0,0,0),list(order=c(0,0,0),PERIOD=12)) m7=arima(y1,c(1,0,0),list(order=c(1,0,1),PERIOD=12)) m8=arima(y1,c(1,0,1),list(order=c(1,0,1),PERIOD=12)) m9=arima(y1,c(0,0,1),list(order=c(1,1,1),PERIOD=12)) m10=arima(y1,c(0,0,0),list(order=c(1,1,1),PERIOD=12)) m11=arima(y1,c(0,0,0),list(order=c(0,0,0),PERIOD=12))

Estudiando las distintas combinaciones anteriormente clasificaron las siguientes combinacionesARIMA(1,0,1)(0,1,1)ARIMA (1,0,0)(1,0,1)

ARIMA (1,0,1)(1,0,1)ARIMA (0,0,0)(0,0,0)

Grafico 9. diagnostico del modelo ARIMA(ARIMA(1,0,1)(0,1,1))Standardized Residuals1 -3 1998 -1

2000

2002

2004 Time

2006

2008

2010

ACF of Residuals1 .0 A F C -0 .2 0 .4

0.0

0.5 Lag

1.0

1.5

p values for Ljung-Box statistic0 0 0 .0 .4 .8 pva e lu

2

4 lag

6

8

10

Comprobacin y diagnstico

Aleatoriedad Para analizar si existe aleatoriedad entre los residuos del modelo se aplic el test de Runs puesto que hay p_value =0.324>0.05 no hay evidencias para rechazar la hiptesis nula de que los residuos son aleatorios.

Series: r11.0 0.6 0.8

Grafico 10 del Periodograma

0.0 0

0.2

0.4

1

2

3 frequency

4

5

6

Al observar la grafica del periodograma acumulado, se puede concluir que los residuos son ruido blanco es decir, no hay informacin relevante y por tanto ellos no aportan nada a la serie, entonces el modelo captura la esencia de la misma. Existen evidencias para afirmar que el modelo de ajuste es bastante bueno.

Grafico 11. Residuos de la serie ARIMA

diff(diff(y1), 12)

-40

-20

0

20

40

2000

2002

2004 Time

2006

2008

2010

En la grafica de los residuos no se evidencia una violacin notoria del supuesto que la varianza es constante y no se observa un patrn de crecimiento o decrecimiento se deduce que el modelo ha capturado el decrecimiento y el crecimiento se mantiene constante en ciertos ciclos.

Grafico 12 Autocorrelacin del modelo ARIMA

Series r11.0 Partial ACF -1.0 -0.5 0.0 0.5

0.2

0.4 Lag

0.6

0.8

El grafico 12 se observa que las funciones los residuos no tienen informacin relevante y no aportan nada a la serie y por tanto el modelo captura la esencia de la serie y que solo una sola espiga sobresale el resto se encuentran dentro de los lmites de confianza.

Grafico 13. de los Residuos

Densidad y1

Density

0.00

0.01

0.02

0.03

10

20

30

40 N = 144 Bandwidth = 4.516

50

60

70

En el grafico 13 se puede concluir que el componente estocstico del modelo sigue aparentemente una distribucin normal. Adems el test de Shapiro Wilck aplicado anteriormente lo confirma.

PrediccionesLa siguiente tabla muestra los valores de prediccin para el ao 2010. Los valores forman la Grafica 19 la cual muestra un pronstico bueno puesto que los valores reales de los datos de la series del ltimo ao estn entre el lmite superior y el limite central de los valores predichos Grfico 19. Predicciones para el ao 2010Prediccin ao 2010 Enero del 2010 Febrero del 2010 Marzo del 2010 Abril del 2010 Mayo del 2010 Junio del 2010 Julio del 2010 Agosto del 2010 Septiembre del 2010 Octubre del 2010 Noviembre del 2010 Diciembre del 2010 Lmite inferior 25.35759 27.82514 28.89940 30.71842 34.40181 39.51050 42.48327 50.41963 57.80766 60.86691 63.56274 22.40329 Limite central 2.6302965 5.0978500 6.1721047 7.9911268 11.6745212 16.7832064 19.7559750 11.6745212 27.6923357 35.0803689 40.8354521 -0.3239973 Lmite superior 48.08488 50.55243 51.62669 53.44571 57.12911 62.23779 65.21056 65.21056 73.14692 80.53495 86.29004 45.13059

Grafico 14. de las prediccionesPredicciones Maquinarias y Aparatos Electricos 60 0 2010.0 20 40 80

2010.2

2010.4 Tiempo

2010.6

2010.8