Download - Conoce tus datos
Primera Presentación
Grupo 1
Luis Albizu Pons Pérez
Antonio Cabán
Conoce Los Datos Recolectados
Como Manejar DatosConociendo Tus DatosAjustes De InflaciónAjustes De TemporadasEstacionariedad y DiferenciaciónTransformación LogarítmicaModelos del Promedio Constante
Temas Importantes
Como Manejar Datos
El material bruto que se usa para el estudio estadístico y el subsecuente desarrollo de pronósticos es llamado datos.
Los datos son almacenados en las computadoras básicamente en dos formas:Formato de TextoFormato Binario
Text (ASCII) Data
Los datos almacenados en Formato de Texto, son almacenados por la computadora en su memoria como una secuencia de caracteres.Ej. 1.5 es almacenado como el carácter “1”
seguido de “.” seguido de “5”Datos en Formato de Texto son datos que
pueden ser impresos en la pantalla de la computadora o en un papel como una secuencia familiar de símbolos de un teclado, en donde cada símbolo representa el contenido de un Byte de espacio.
Formato de Texto
En Formato Binario los datos son almacenados en patrones de bytes que no necesariamente corresponden al código numérico utilizado en caracteres escritos con un teclado o por una impresora.
Estos pueden corresponder a números binarios arbitrarios menores de 32 o mayores que 127.
La mayor parte de las computadoras guardan sus archivos en algún tipo de Formato Binario XLS (Excel Spreadsheet) SF (Statgraphics file) Etc…
Formato Binario
1 Kilobyte (K)= 2^10 = 1024 bytes1 Megabyte (M)= 1024^2 = 1000000 bytes1 Gigabyte (G)= 1024^3 =1000000000 bytes
Bits y Bytes
El Formato de Texto es el medio universal para la transferencia de información entre diferentes programas de computadoras, ya que toda computadora que interactúa con humanos debe ser capaz de leer y escribir texto.
Cuando escribes en un teclado de computadoras estas trasmitiendo una secuencia de caracteres, que la computadora separa.
Lo importante no es lo que la computadora hace internamente con los caracteres, sino que debe ser capaz de convertir a texto para el uso de “input” o “output”.
De esta forma los programas de computadora constantemente se comunican entre si vía texto.
El Medio Universal
Formato De Texto
Hoja de Cómputos Base de Datos DOS/Windows Internet/
Intranet Uso Personal Programas de Estadísticas
Procesadores de Palabras
Usos Del Formato De Texto
Space Delimited Format: 1/1/85 102.5 44.1 2/1/85 102.8 45.3 3/1/85 103.4 46.4
Comma-delimited Format: 1/1/85,102.5,44.1 2/1/85,102.8,45.3 3/1/85,103.4,46.4
Character Format: “1/1/85”,102.5,44.1 “2/1/85”,102.8,45.3 “3/1/85”,103.4,46.4
Tab Format: 1/1/85 102.5 44.1 2/1/85 102.8 45.3 3/1/85 103.4 46.4
Fixed Format: 1/1/85102.544.1 2/1/85102.845.3 3/1/85103.446.4
Tipos De Formatos De Texto
Conociendo Tus Datos
La Fuente De Datos Y Las Unidades
Grafica Los Datos
Preguntas que debe hacerse el estadístico antes de analizar los datos:
¿De donde provienen los datos?¿Cómo fueron originalmente recolectados?¿Por quién?¿Con que frecuencia?¿Bajo que condiciones?
¿Dónde han estado los datos?¿Por qué otro sistema de análisis estos datos han pasado?¿Cómo han sido ajustados, agregados, promediados y manejados?
La Fuente De Datos Y Las Unidades
¿Son datos limpios o sucios?¿Hay errores en la entrada de datos?¿Hay datos perdidos?¿Están los periodos de tiempo mal alineados?¿Han ocurrido cambios en el método de reportar los datos?¿Ocurrieron eventos extraños o inusuales?
¿En que unidades son medidos los datos?¿Se le ha aplicado ajuste de temporadas? Y si se le aplicó; ¿Cómo?¿Los datos son medidos en totales anuales o mensuales?¿Los datos son nominales o se le aplicó el ajuste de inflación para
convertirlos en unidades constantes de intercambio?¿Representan la condición actual de algo, o si representa cambios
absolutos de un periodo a otro, o la representación del porciento de cambio entre un periodo y otro?
¿Son consistentes las unidades entre las variable?
Cuando desarrolles tu análisis es compulsorio el que coloques tus variables indicando su fuente u origen, las unidades de medición y cualquier problema o situación que tengas constancia.
El desarrollo o montaje, la limpieza de los datos, su ajuste y el documentar las unidades de dichos datos aunque es el trabajo mas tedioso, es a la vez el trabajo más importante en el desarrollo de una investigación estadística.
El eludir estos detalles conduce a serios errores en el desarrollo de modelos.
De trabajar estos detalles aprenderás mucho de las fuerzas o tendencias que están influenciando los datos que deseas utilizar para el desarrollo de predicciones.
Envolverse en estos detalles te ayuda a comprender mejor como los datos deben estar organizados para que su obtención, su organización, su integración, su resumen sea óptimo proveyéndote así un mejor modelo de predicción y análisis.
Antes de que de alguna manera comiences a manejar los datos que has obtenido debes desarrollar una imagen grafica de los datos para que puedas tener una idea de su comportamiento y propiedades cualitativas.
Grafica Los Datos
•Datos en Billones de Dólares sin Ajuste De Temporada ”nsa”•Las propiedades cualitativas:• Una fuerte y constante pendiente positiva.• Patrón de Temporadas fácilmente observable.• Una amplitud creciente de las variantes temporadas durante
el transcurso.• Evidencia de ciclos (entre los 80 y los 90)
Nominales = Clasificación de las unidades de una muestra(o población) en categorías que comúnmente usan “labels” y no números.
Ordinales = Rango- Ordenes que organizan las unidades de la muestra (o población) tanto en rótulos verbales o números.
Intervalos = Permiten la comparación de las unidades de una muestra (o población) deacuerdo a las diferencias entre los valores. Siempre son numéricos, aunque el cero en la escala no señala a la
ausencia de las características observadas.
“Ratio” = Permiten la comparación de las unidades de una muestra (o población) deacuerdo a los múltiplos de los datos. Siempre son numéricos, y el cero señala en la escala la ausencia de
las características observadas.
Tipos de Datos
Ajuste De Inflación
El Ajuste de Inflación consiste en dividir la serie de tiempo monetaria por el índice de precios.
No importa si cuando la serie de tiempo fue preparada originalmente, ya sea en dólares nominales o corrientes. Una vez se ha realizado el ajuste de inflación la serie de tiempo queda expresada en dólares corrientes.
Inflación es regularmente un indicador muy significativo relacionado al crecimiento aparente en una serie medida en algún tipo de medio de intercambio monetario.
Ejemplo de Monedas:DólaresYenLibrasPesosEuroEtc…
Si ha ocurrido crecimiento real, mediante el ajuste de inflación lo descubres.
Puedes mediante este ajuste estabilizar la fluctuaciones de temporadas que se observan en los datos.
Este tipo de ajuste no siempre es necesario cuando se manejan variables monetarias. En ocasiones es mas simple predecir datos en términos nominales o usar la transformación logarítmica para estabilizar la varianza.
El ajuste de inflación es una importante herramienta para el análisis de datos económicos que no debes descartar.
Consumer Price Index (CPI)Producer Price Index (PPI)GDP Implicit Price DeflatorChain Type Index
Es muy importante que sepas escoger el tipo de Indicador de Precio para que tu análisis sea optimo.
Algunos Índices De Precios
En esta grafica referente a venta de automóviles se ven presentados los datos en dólares nominales, graficados junto al CPI de los últimos 25 años.
En esta grafica se observan los datos de la venta de automóviles dividida por el CPI, removiendo así la tendencia ascendente de los datos y acentuando los cambios de temporadas y su componentes cíclicos.
Día Venta de automóviles ($B)
CPI 1970 Venta Autos/CPI 70
Enero- 1970 4.79 0.287 16.6899Febrero- 1970 4.96 0.298 16.6443Marzo- 1970 5.64 0.3 18.8Abril- 1970 5.98 0.303 19.73597Mayo- 1970 6.08 0.303 20.06601Junio- 1970 6.55 0.305 21.47541Julio- 1970 6.11 0.306 19.96732
Jan-70 Feb-70 Mar-70 Apr-70 May-70 Jun-70 Jul-700
5
10
15
20
25Venta de Autos/CPI 1970
Venta de Autos/CPI 1970
Recuerda que algo que deseas evitar es que algunas variables tengan ajuste de inflación mientras que otras no estén ajustadas. Este error te producirá aparentes relaciones no lineales, lo cual será producto de la inconsistencia de las variables.
Recuerda que el ajuste de inflación es solo útil cuando estas trabajando con datos que se expresan en unidades monetarias.
OJO
Ajuste De Temporadas
Ajuste MultiplicativoAjuste SumatorioAcrónimos
Ajuste Multiplicativo
El incremento en la amplitud de la variaciones en las temporadas observables en esta grafica son indicativas de un patrón multiplicativo de temporada.
Este efecto de temporadas se expresa en si mismo en términos de porcentaje.
Tal que la magnitud absoluta de las variaciones de temporadas incrementan según la serie aumenta por asunto de tiempo.
Estos patrones pueden ser removidos por el ajuste multiplicativo de temporadas, el cual se obtiene cuando divides cada valor de la serie por el índice de temporada( numero en la cercanía de 1.0) que representa el porcentaje que típicamente se observa en esa temporada.Ej.: Si en Diciembre las ventas típicamente son
130% de lo normal mensualmente (basado en datos recolectados) entonces ajustas la temporada dividiendo por 1.3 .
Esta grafica expresa el ajuste de temporadas de la venta de autos , la cual se obtiene dividiendo los valores de las ventas de cada mes por el índice de temporada estimado.
Observe que los patrones pronunciados de temporadas han desaparecido y que lo que queda son las secuencias y los componentes cíclicos de los datos, aunque queda un poco de ruido aleatorio.
Este ajuste es un ajuste alterno como lo es el ajuste multiplicativo de temporadas.
En una serie de tiempo cuyas variaciones de temporadas son contantes en su magnitud, independientemente del actual promedio del nivel de la serie; es una serie de tiempo candidata a usar el ajuste sumatorio de temporadas.
Ajuste Sumatorio
En el ajuste sumatorio de temporadas cada valor de la serie de tiempo es ajustado sumándole o restándole una cantidad que representa la cantidad absoluta por la cual el valor en esa serie durante el año tiende a estar por encima o por debajo de lo normal. Esto será estimado de datos previamente recolectados.
Este tipo de ajuste es escaso.Pero una serie de tiempo que posee
naturalmente un patrón multiplicativo de temporada es fácilmente convertible a una serie con ajuste sumatorio de temporada aplicándole la transformación logarítmica a los datos originales.
Si estas usando ajuste de temporadas conjunto con la transformación logarítmica, probablemente podrás usar el ajuste sumatorio en vez del ajuste multiplicativo.
Cuando se examina series de tiempo en fuentes como Datadisk, etc…, los acrónimos son:
SA = “seasonally adjusted”NSA= “not seasonally adjusted”SAAR= “seasonally adjusted annual rate”
SAAR es una serie de tiempo en la cual cada valor de los periodos han sido ajustados para temporada y entonces multiplicado por el numero de periodos en el año.
Acrónimos
ESTACIONARIEDAD Y DIFERENCIACIÓN
ESTACIONARIEDAD ESTADISTICA
Una serie de tiempo estacionaria es aquella
cuyas propiedades estadísticas como la media,
varianza, auto correlación, son todas
constantes en el tiempo.
ESTACIONARIEDAD Y DIFERENCIACIÓN
Una serie estacionaria es relativamente fácil de
predecir, simplemente hay que predecir que
sus propiedades estadísticas son las mismas en
el futuro como lo han sido en el pasado.
Para esto se utilizan las transformadas,
invirtiendo las transformadas se consiguen las
predicciones para la serie original.
ESTACIONARIEDAD Y DIFERENCIACIÓN
Otra razón para utilizar una serie de tiempo
estacionaria es para poder obtener
estadísticas significativas de la muestra,
como medias, varianzas y correlaciones con
otras variables.
Estas estadísticas son útiles como
descriptores del comportamiento futuro.
ESTACIONARIEDAD Y DIFERENCIACIÓN
La primera diferencial de una serie de tiempo
es la serie de cambios de un período a otro. Si
Y (t) denota el valor del tiempo de la serie de
Y en el período t, entonces la primera
diferencial de Y en el período t es igual a Y(t)
- Y(t-1).
ESTACIONARIEDAD Y DIFERENCIACIÓN
Si la primera diferencial de Y está
estacionaria y completamente al azar,
entonces Y es descrito por un modelo de
paseo aleatorio (cada valor es un paso al azar
lejos del valor anterior).
ESTACIONARIEDAD Y DIFERENCIACIÓN
Si la primera diferencia de Y está
estacionaria, pero no completamente al azar
entonces un modelo más sofisticadas como el
suaviza miento exponencial puede ser mas
apropiado para describirlo.
ESTACIONARIEDAD Y DIFERENCIACIÓN
Ejemplo
ESTACIONARIEDAD Y DIFERENCIACIÓN
Ejemplo de hoja excel
ESTACIONARIEDAD Y DIFERENCIACIÓN
Transformación Logarítmica
Propiedad de linealización
La función LOG tiene la propiedad:
LOG (X * Y) = log (X) + log (y) es decir, el
logaritmo de un producto es igual a la suma
de los logaritmos.
Transformación logarítmica
Si tomamos logaritmos de las variables que
están relacionadas multiplicativamente y / o
creciendo de manera exponencial con el
tiempo, a menudo podemos explicar su
comportamiento con los modelos lineales.
Transformación logarítmica
Por ejemplo, gráfica de log (autoventa).
Transformación logarítmica
Tenga en cuenta que la transformación
logarítmica convierte el patrón de crecimiento
exponencial a un patrón de crecimiento lineal,
y al mismo tiempo convierte la multiplicación
(varianza proporcional) de patrones
temporales en una suma de patrón estacional
(varianza constante) .
Transformación logarítmica
Requerimiento positivo y la elección de
base.
La transformación logarítmica se puede
aplicar únicamente a los datos que sean
estrictamente positivos y no se puede tomar
el logaritmo de cero o de un número
negativo.
Transformación logarítmica
Además, hay dos tipos de logaritmos en el uso
estándar: logaritmos "naturales" y logaritmos
de base 10. La única diferencia entre los dos
es una constante de escala, que no es
realmente importante para los propósitos de
modelado.
Transformación logarítmica
Primera diferencia de cambio LOG
La serie DIFF (log (y)) representa el cambio
porcentual en Y de período a período.
El cambio porcentual en Y en el período t se
define como (Y (t) - Y (t-1)) / Y (t-1).
Transformación logarítmica
Deflación
Descenso del nivel de precios debido, generalmente, a una fase de depresión económica o a otras causas.
Pobre deflactor
Registro de una serie que a menudo tiene un efecto muy similar a la deflación que amortigua los patrones de crecimiento exponencial.
Transformación logarítmica
Tendencias en unidades registradas igual al crecimiento porcentual.
Por lo general, la tendencia se estima con mayor
precisión mediante el ajuste de un modelo
estadístico que incluye explícitamente un
parámetro de tendencia local o global, como una
tendencia lineal o del paso aleatorio con
derivada lineal o modelo exponencial.
Transformación logarítmica
Cuando un modelo de este tipo se utiliza
junto con una transformación logarítmica, su
parámetro de tendencia puede interpretarse
como una tasa de crecimiento porcentual.
Transformación logarítmica
Errores en las unidades registradas = percentage de error
Otra característica interesante del logaritmo es
que los errores en la predicción de la serie
registrada puede ser interpretado como
porcentaje de error en la predicción de la serie
original, aunque los porcentajes son relativos a
los valores de pronóstico, no los valores reales.
Transformación logarítmica
Las propiedades estadísticas de porcentaje de
error suelen ser muy similares a las del
porcentaje del valor real.
Transformación logarítmica
A los efectos de pronósticos estadísticos, el
tipo más simple no trivial de series de tiempo
es la que está estacionaria completamente al
azar, es decir una serie "White Noise".
Modelo del Promedio Constante
Un ejemplo es la serie # 1 en la foto:
Modelo del Promedio Constante
La ecuación de pronóstico para el modelo de
promedio es la siguiente:
donde la constante estimada (alfa) es la
media muestral de Y.
Modelo del Promedio Constante
La desviación estándar estimada de los
errores de pronóstico (el error de pronóstico
estándar), lo que determina es el ancho de los
límites de confianza en torno a los
pronósticos, que es aproximadamente igual a
la desviación estándar de la muestra de Y.
Modelo del Promedio Constante
Este modelo es la piedra angular de una serie
de modelos más sofisticados, incluyendo
paseo aleatorio y modelos ARIMA.
ARIMA es un modelo estadístico que utiliza
variaciones y regresiones de datos
estadísticos con el fin de encontrar patrones
para una predicción hacia el futuro.
Modelo del Promedio Constante
R. Nau (2005) Decision 411 Forecasting http://www.duke.edu/~rnau/411home.htm
Statistics For Business and Economics, Sixth Edition , Dellen/MacMillan. James T. McClave and P. George Benson.
Bibliografía