regresiÓn, correlaciÓn y anova. · (regresión simple) como en el de más de dosvariables...
Post on 04-Oct-2020
5 Views
Preview:
TRANSCRIPT
UNIVERSIDAD GRAN MARISCAL DE AYACUCHO
VICERRECTORADO ACADÉMICO
ESCUELA DE ADMINISTRACIÒN
NÚCLEO EL TIGRE
REGRESIÓN, CORRELACIÓN Y ANOVA.
DOCENTE: HAMLET MATA MATA
INTEGRANTES: PEDRO RODRIGUEZ
26695416
EL TIGRE
INTRODUCCIÓN
El objetivo precisar y demostrar que muchas de las decisiones gerenciales
se basan en la relación entre dos o más variables. Muchas veces un
gerente o administrador confía mucho en su intuición para juzgar como se
relacionan dos variables, sin embargo si se pueden obtener datos de una
muestra, se pueden se puede emplear el procedimiento estadístico de
análisis de regresión para plantear una ecuación que muestre cómo
depende una variable de la otra.
La regresión lineal es una técnica estadística utilizada para estudiar la
relación entrevariables cuantitativas. Tanto en el caso de dos variables
(regresión simple) como en el de más de dosvariables (regresión múltiple), el
análisis regresión lineal puede utilizarse para explorar y cuantificar larelación
entre una variable llamada dependiente o criterio (Y) y una o más variables
llamadasindependientes o predictoras (X1, X2, …, Xp), así como para
desarrollar una ecuación lineal con finespredictivos.
El procedimiento más sencillo de análisis de regresión, donde
interviene una variable independiente y una variable dependiente y la
relación que existe entre ellas se aproxima a una línea recta. El análisis de
regresión en donde sólo intervienen dos variables se denomina análisis de
regresión simple.
El análisis de la varianza (o Anova: Analysis of variance) es un
método para comparar dos o más medias, que es necesario porque cuando
se quiere comparar más de dos medias es incorrecto utilizar repetidamente
el contraste basado en la t de Student.
Las medidas de la variable dependiente se hacen para cada nivel del
factor que se piensa que afecta a esta variable. Se pueden examinar dos
factores relevantes al mismo tiempo en el procedimiento de ANOVA con dos
criterios de clasificación, y estudiar los efectos de tres o más factores sobre
la variable dependiente a través de procedimientos mas avanzados.
El análisis de varianza es un buen ejemplo de una técnica estadística que
resulta muy practica debido al uso generalizado de las computadoras. El
volumen de cálculos es tal que es muy difícil realizar un diseño de cualquier
tamaño útil solo con cálculos manuales. Los programas de computadora que
ejecutan ANOVA están disponibles para computadoras personales al igual
que para las mas grandes. Estos programas, por lo general, realizan análisis
con uno y dos criterios de clasificación y algunas veces también ofrecen
técnicas mas avanzadas.
Por otro lado, en cada comparación la hipótesis nula es que las dos
muestras provienen de la misma población, por lo tanto, cuando se hayan
realizado todas las comparaciones, la hipótesis nula es que todas las
muestras provienen de la misma población y, sin embargo, para cada
comparación, la estimación de la varianza necesaria para el contraste es
distinta, pues se ha hecho en base a muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es
algo más que esto: es un método que permite comparar varias medias en
diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de
alguna manera, es la base del análisis multivariante.
Para elaborar un instrumento adecuado para la recolección de datos,
valido y confiable que proporcione basamentos relevantes, para el logro de
los objetivos planteados y sustentables los hallazgos que realicen con sus
investigaciones.
Describe la validez y la confiabilidad de un instrumento que requiere
de este procedimiento, ya que no todos los instrumentos para recabar datos
que ameritan se realicen una prueba piloto con esta finalidad.
El Alfa de Cronbach es un coeficiente que sirve para medir la
fiabilidad de una escala de medida, y cuya denominación Alfa fue realizada
por Cronbach .
Las series de tiempo es el de predicción, esto es dado una serie
{x(t1),...,x(tn)} nuestros objetivos de interés son describir el comportamiento
de la serie, investigar el mecanismo generador de la serie temporal, buscar
posibles patrones temporales que permitan sobrepasar la incertidumbre del
futuro.
Al analizar una serie de tiempo, lo primero que se debe hacer es
graficar la serie. Esto nos permite detectar las componentes esenciales de
la serie. El gráfico de la serie permitirá: detectar Outlier, detectar tendencias,
variación estacional, variaciones irregulares (o componente aleatoria).
El SPSS es un software que se utiliza mayormente para cálculos
estadísticos, aunque incluye un sin número de utilidades. Actualmente, la
estadística ha adquirido, de manera progresiva, una mayor relevancia en
todos los sectores universitarios y, en general, en la sociedad. Es por ello,
por lo que con este tutorial pretendemos transmitir los conocimientos
necesarios para comprender diversas técnicasestadísticas mediante el uso
paquete estadístico SPSS.
SPSS ofrece una gran cantidad de formatos posibles, incluyendo los
propios. Si su intención es trabajar solamente en SPSS, entonces puede
haber una cierta ventaja a ahorrar en SPSS (*.sav) el formato. Asumo que
este formato permite una lectura y una escritura más rápidas del fichero de
datos. Sin embargo, si sus datos son analizados y mirados por otros
paquetes, sería sugerente ahorrar en un formato más universal (ejemplo
Excel (*.xls)).Lo anterior dicho se ejecutará a la hora de usted salvar.
Regresión Lineal
Es una técnica estadística para modelar e investigar la relación entre
dos o más variables. Tiene aplicación en la industria para investigar la
relación entre el rendimiento de la producción y uno o más factores del (o de
los) que depende, como la temperatura, la humedad ambiental, la presión, la
cantidad de insumos, etc; con base en este análisis se puede pronosticar el
comportamiento de una variable que se desea estimar. Si el ingeniero
industrial logra determinar cómo se relacionan las variables conocidas de un
proceso con el comportamiento futuro de otra variable de interés, podrá
colaborar favorablemente y en gran medida al proceso de toma de
decisiones.
Este modelo matemático para estimar el efecto de una variable sobre
otra está asociado con el coeficiente r de Pearson, sirve para medir variables
de Intervalos y de razón.
Relación entre dos variables medidas a nivel intervalo
Para realizar un correcto análisis de los datos es fundamental conocer
de antemano el tipo de medida de la variable, ya que para cada una de ellas
se utiliza diferentes estadísticos. La clasificación más convencional de las
escalas de medida las divide en cuatro grupos denominados Nominal,
Ordinal, Intervalo y Razón.
Variables medidas a nivel Intervalo
Son variables numéricas cuyos valores representan magnitudes y la
distancia entre los números de su escala es igual. Con este tipo de variables
podemos realizar comparaciones de igualdad/desigualdad, establecer un
orden dentro de sus valores y medir la distancia existente entre cada valor
de la escala. Las variables de intervalo carecen de un cero absoluto, por lo
que operaciones como la multiplicación y la división no son realizables. Un
ejemplo de este tipo de variables es la temperatura, ya que podemos decir
que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y
17 grados. Lo que no podemos establecer es que una temperatura de 10
grados equivale a la mitad de una temperatura de 20 grados.
Representación gráfica de la nube de puntos.
La regresión lineal se determina con base al diagrama de dispersión.
Este consiste en una gráfica donde se relacionan las puntuaciones de una
muestra en dos variables, el Diagrama de Dispersión o nube de puntos es
un tipo de diagrama matemático que utiliza las coordenadas cartesianas
para mostrar los valores de dos variables para un conjunto de datos.
La representación gráfica se realiza mediante un dibujo realizado en
un sistema bidimensional de coordenadas cartesianas. En este tipo de
diagramas cada punto representa la puntuación que el sujeto obtiene en las
dos variables, determinando su puntuación por la lectura de los valores que
aparecen en la escala vertical y horizontal.
Por ejemplo supongamos los siguientes datos:
X Y
1 1
2 2
3 3
4 5
5 5
6 6
la representación gráfica correspondiente sería:
De esta forma es sencillo verificar el tipo de relación que se establece
entre las dos variables.
En el siguiente ejemplo, la figura representada refleja la covariación
entre la inteligencia (CI) y el rendimiento escolar (Nota) de los sujetos
estudiados.
A partir de la observación de los puntos, existe una tendencia general
a que los sujetos en la medida que tengan más inteligencia obtendrán
también mejor nota académica. A este tipo de relación se le conoce como
directa o positiva. Si se observase un proceso contrario, es decir, a medida
que aumenta la inteligencia disminuye el rendimiento académico, la
correlación sería inversa o negativa.
Cálculo de los coeficientes de regresión.
El Coeficiente de regresión indica el número de unidades en que se
modifica la variable dependiente "Y" por efecto del cambio de la variable
independiente "X" o viceversa en una unidad de medida.
Una vez analizado el carácter e intensidad de la relación entre las
variables, podemos proceder a estimar los parámetros de la ecuación de
predicción o de regresión lineal. El criterio para obtener los coeficientes de
regresión B0 y B1 es el de mínimos cuadrados. Este consiste en minimizar
la suma de los cuadrados de los residuos de tal manera que la recta de
regresión que definamos es la que más se acerca a la nube de puntos
observados y, en consecuencia, la que mejor los representa.
Para determinar el valor del coeficiente de regresión de una manera
fácil y exacta es utilizando el método de los Mínimos Cuadrados de dos
maneras:
1.- Forma Directa
De la ecuación de la recta:
Si y , se obtienen a partir de las ecuaciones normales:
Aplicando normales Y sobre X tenemos:
El Coeficiente de Regresión es
De la misma manera la recta de regresión de "X" sobre "Y" será dada de la
siguiente manera:
Donde: y se obtienen a partir de las ecuaciones normales:
Aplicando normales X sobre Y tenemos:
Forma Indirecta del Método de los Mínimos Cuadrados.
El fundamento de este método es de las desviaciones de X respecto a
su media aritmética. X
Ecuación de y sobre x Ecuación de y sobre x
Donde:
x, y = desviaciones
X = media aritmética
Y = media aritmética
SPSS nos permite realizar ajustes por mínimos cuadrados para
modelos lineales en losparámetros, es decir para el caso en que la relación
entre la variable dependiente(también llamada variable respuesta) que nos
interesa Y, y las variables explicativas(también llamados regresores) X1,
X2,..., Xk es
Hemos realizado observaciones del fenómeno: i.e conocemos para varias
combinaciones de valores de las variables independientes cuál ha sido el
valor de lavariable respuesta. Queremos ajustar un modelo de tipo lineal a
las observaciones delas que disponemos. El ajuste consiste en encontrar
valores aproximados de loscoeficientes b1, b2,...,bk.
AJUSTE DE UNA RECTA.
El primer caso particular de importancia corresponde al famoso ajuste
de una recta. Eneste caso sólo consideramos una variable independiente X y
buscamos una relación deltipo
Y=aX+b+e,
que está contemplado en nuestro modelo si consideramos
Y=b1X1+b2X2 +e
Con
X1=1 y X2=X,
en estas condiciones, b1 es la ordenada al origen mientras que b2 es la
pendiente de larecta.
El coeficiente de determinación y su interpretación
En Estadística, se llama coeficiente de determinación a la proporción
de la varianza de la variable dependiente que está explicada por un modelo
estadístico. En teoría de probabilidad, la varianza (que suele representarse
como ) de una variable aleatoria es una medida de dispersión definida
como la esperanza del cuadrado de la desviación de dicha variable respecto
a su media.
Recordemos que el coeficiente de determinación, se obtiene al elevar
al cuadrado el coeficiente de regresión.
Para una mejor interpretación, lo multiplicamos por 100, y expresamos
el resultado como porcentaje.
En este caso diremos, que el 61% de la variación de la variable "Y"
(variable dependiente), se explica por la variabilidad de la variable "X"
(variable independiente).
Ecuación de Regresión Lineal
En el estudio de la relación funcional entre dos variables
poblacionales, una variable X, llamada independiente, explicativa o de
predicción y una variable Y, llamada dependiente o variable respuesta,
presenta la siguiente notación:
Y = a + X +
Donde:
a es el valor de la ordenada donde la línea de regresión se intercepta
con el eje Y.
es el coeficiente de regresión poblacional (pendiente de la línea recta)
es el error
Suposiciones de la Regresión Lineal
1. Los valores de la variable independiente X son fijos, medidos sin error.
2. La variable Y es aleatoria
3. Para cada valor de X, existe una distribución normal de valores de Y
(subpoblaciones Y)
4. Las variancias de las subpoblaciones Y son todas iguales.
5. Todas las medias de las subpoblaciones de Y están sobre la recta.
6. Los valores de Y están normalmente distribuidos y son estadísticamente
independientes.
La regresión tenemos ecuaciones que nos representan las diferentes
clases de regresión:
Regresión Lineal: y = A + Bx
Regresión Logarítmica: y = A + BLn(x)
Regresión Exponencial: y = Ac(bx)
Regresión Cuadrática: y = A + Bx +Cx2
La ecuación de Regresión y su ajuste por el método de Mínimos
Cuadrados.
Es una técnica de análisis numérico encuadrada dentro de la
optimización matemática, en la que, dados un conjunto de pares ordenados:
(variable independiente, variable dependiente) y una familia de funciones, se
intenta encontrar la función, dentro de dicha familia, que mejor se aproxime a
los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error
cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de
las diferencias ordenadas (llamadas residuos) entre los puntos generados
por la función y los correspondientes en los datos. Específicamente, se llama
mínimos cuadrados promedio (LMS) cuando el número de datos medidos es
1 y se usa el método de descenso por gradiente para minimizar el residuo
cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado
esperado, con el mínimo de operaciones (por iteración), pero requiere un
gran número de iteraciones para converger.
Desde un punto de vista estadístico, un requisito implícito para que
funcione el método de mínimos cuadrados es que los errores de cada
medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov
prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el
muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución
normal. También es importante que los datos recogidos estén bien
escogidos, para que permitan visibilidad en las variables que han de ser
resueltas (para dar más peso a un dato en particular, véase mínimos
cuadrados ponderados).
La técnica de mínimos cuadrados se usa comúnmente en el ajuste de
curvas. Muchos otros problemas de optimización pueden expresarse
también en forma de mínimos cuadrados, minimizando la energía o
maximizando la entropía
El procedimiento mas objetivo para ajustar una recta a un conjunto de
datos presentados en un diagrama de dispersión se conoce como "el
método de los mínimos cuadrados". La recta resultante presenta dos
características importantes:
1. Es nula la suma de las desviaciones verticales de los puntos a partir de la
recta de ajuste
∑ (Y- - Y) = 0.
2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna
otra recta daría una suma menor de las desviaciones elevadas al cuadrado
∑ (Y- - Y)² → 0
(mínima).
El procedimiento consiste entonces en minimizar los residuos al cuadrado
Ci²
Re emplazando nos queda
La obtención de los valores de a y b que minimizan esta función es un
problema que se puede resolver recurriendo a la derivación parcial de la
función en términos de a y b: llamemos G a la función que se va a minimizar:
Tomemos las derivadas parciales de G respecto de a y b que son las
incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones
llamadas ecuaciones normales del modelo que pueden ser resueltas por
cualquier método ya sea igualación o matrices para obtener los valores de a
y b.
Derivamos parcialmente la ecuación respecto de a
Primera ecuación normal
Derivamos parcialmente la ecuación respecto de b
Segunda ecuación normal
Para un valor dado de X, por ejemplo, X1, habrá una diferencia entre
el valor Y1y el correspondiente valor de la curva C. Esta diferencia se denota
por D1, que seconoce como desviación, error o residuo.
De todas las curvas de aproximación a una serie de datos puntuales la curva
quetiene la propiedad de que: D21 + D22 + . . . + D2N Se conoce como
Mejor curva deajuste
La suma de cuadrados de desviación se le llama suma de cuadrados
por falla(SCF). Esta suma de cuadrados proporciona la medida de que tan
bien se ajusta lalínea al conjunto completo de puntos.
Si la SCF es cero, implica que los puntos caen exactamente sobre la
línea. Por elcontrario entre más grande es SCF respecto de cero, menor es
el ajuste. La recta quetenga una suma de cuadrados menor para un conjunto
de puntos, que cualquier otralínea recta es la línea recta llamada línea de
regresión de los mínimos cuadrados.
(X1,
Y1)
D2
1
(XN1, Y1)
DN
(X2,
Y2)
D2
Error estándar en la estimación
El error estándar de la estimación designado por sYX mide la
disparidad promedio" entre los valores observados y los valores estimados
de . Se utiliza la siguiente formula.
Debemos entonces calcular los valores de para cada ciudad sustituyendo
en la ecuación los valores de los porcentajes de graduados de cada ciudad
estudiada.
Y X
4.2 7.2 4.6 -0.4 0.16
4.9 6.7 4.5 0.4 0.16
7.0 17.0 6.6 0.4 0.16
6.2 12.5 5.7 0.5 0.25
3.8 6.3 4.4 -0.6 0.36
7.6 23.9 8.0 -0.4 0.16
4.4 6.0 4.4 0.0 0.00
5.4 10.2 5.2 0.2 0.04
1.29
Syx = 0.46 (decenas de miles $)
Como esta medida trata de resumir la disparidad entre lo observado y
lo estimado, es decir, trata de medir la diferencia promedio entre lo
observado y lo estimado ó esperado de acuerdo al modelo, puede
considerarse como un indicador del grado de precisión con que la ecuación
de regresión, describe la relación entre las dos variables. Este error estándar
se ve afectado por las unidades y sus cambios ya que es una medida
absoluta, pues, se da en la misma unidad de medida que esta dada la
variable Y; en el ejemplo 0.46 serán decenas de miles de pesos, razón por la
cual no es posible comparar con las relaciones de variables dadas en
distinta unidad de medida. Es necesario entonces calcular una medida que
interprete o mida mejor el grado de relación entre las variables.
Coeficiente de determinación
El cambio de la variable Y generalmente depende de muchos
factores, en ocasiones, difíciles de identificar; con el modelo lineal simple,
sólo tenemos presente uno. Por ejemplo, en nuestro caso la mediana del
ingreso depende no sólo del porcentaje de graduados en el nivel superior,
que es, el factor que tenemos presente, pueden entrar a jugar factores tales
como, la distribución de la edad en la población, la distribución por sexo en
la población, la industrialización de la ciudad, el numero de universidades y
muchos otros.
El coeficiente de determinación mide o interpreta la cantidad relativa de la
variación que ha sido explicada por la recta de regresión, es decir, la
proporción de cambio en Y explicado por un cambio en la variable X ( X es el
factor que se utiliza para calcular la recta de ajuste o ecuación de regresión,
en el ejemplo es el porcentaje de graduados en el nivel superior en cada
ciudad).
Para el ejemplo el Coeficiente de determinación va a medir la proporción del
cambio en el ingreso mediano de cada ciudad, debido o explicado por un
cambio en el porcentaje de graduados en el nivel superior.
Veamos algunos componentes de la variabilidad en el análisis de regresión:
La diferencia entre cada valor de Yー observado y media se denomina
variación de Y.
La diferencia entre estimado y media , es la variación tenida en cuenta
por la ecuación de regresión, razón por la cual se denomina variación
explicada de Y.
La diferencia entre Yー observado y estimado, son variaciones
consideradas debidas a factores diferentes al tenido presente por la
ecuación de regresión por eso se llama: variación no explicada de Y.
La diferencia entre Yー observado y estimado, son variaciones
consideradas debidas a factores diferentes al tenido presente por la
ecuación de regresión por eso se llama: variación no explicada de Y.
La sumatoria de las diferencias en cada una de las formas de variación la
podemos representar así:
Gráficamente esta relación se puede representar así:
Se dijo anteriormente, que el coeficiente de determinación es la proporción
de cambio explicado en Y, por cambio en X, es decir, la proporción que
representa la variación explicada de la variación total. Recuerde una
proporción es la relación de una parte con el total, por tanto, el coeficiente de
determinación será:
En otras palabras el coeficiente de determinación es la relación entre la
variación explicada y la variación total. Su valor siempre estará
Para su calculo se procede así:
4.2 5.44 -1.24 1.54 4.6 -0.84 0.71 -0.4 0.16
4.9 5.44 -1.24 0.29 4.5 -0.84 0.88 0.4 0.16
7.0 5.44 1.56 2.43 6.6 1.16 1.35 0.4 0.16
6.2 5.44 0.76 0.58 5.7 0.26 0.07 0.5 0.25
3.8 5.44 1.64 2.69 4.4 -1.04 1.08 -0.6 0.36
7.6 5.44 2.16 4.66 8.0 2.56 6.55 -0.4 0.16
4.4 5.44 1.04 1.08 4.4 -1.04 1.08 0.0 0.00
5.4 5.44 0.4 0.001 5.2 -0.24 0.06 0.2 0.04
43.5 13.271 11.78 1.29
Generalmente esta proporción se expresa como porcentaje por tanto
podemos decir que
r² = 88.76%
como conclusión podemos decir que el 88.76% de la variación en el ingreso
mediano de las ciudades de la muestra esta relacionada o explicada por la
variación en el porcentaje de graduados en educación Superior en cada
ciudad.
Coeficiente de correlación
Este Coeficiente como ya se dijo mide la fuerza de la relación entre las
variables. El coeficiente tiene el signo que tiene b y su valor estará
El signo menos en el índice significa una relación negativa y
un signo más una correlación positiva. El coeficiente se obtiene sacando la
raíz cuadrada al coeficiente de determinación y se simboliza con "r".
En este caso el coeficiente r tiene signo positivo ya que toma el valor de b
obtenido con las ecuaciones normales toma valor positivo.
A continuación se da, a modo de orientación, como podrían interpretarse los
valores de r (positivo o negativo)
0.0 a 0.2 Correlación muy débil, despreciable
0.2 a 0.4 Correlación débil. bajo
0.4 a 0.7 Correlación moderada
0.7 a 0.9 Correlación fuerte, alto, importante
0.9 a 1.0 Correlación muy fuerte, muy alto
La correlación entre los valores de dos variables es un hecho. El que lo
consideremos satisfactorio o no, depende de la interpretación. Otro problema
que representa la correlación es cuando se pregunta si una variable, de
algún modo causa o determina a la otra. La correlación no implica
causalidad. Si las variables X e Y están correlacionadas, esto puede ser por
que X causa a Y, o porque Y causa a X o porque alguna otra variable afecta
tanto a X como Y, o por una combinación de todas estas razones; o puede
ser que la relación sea una coincidencia.
Inferencias en la regresión lineal múltiple
Una de las inferencias más útiles que se pueden hacer con respecto a la
calidad de la respuesta pronosticada y0 que corresponde a los valores x10,
x20,...., xk0, es el intervalo de confianza sobre la respuesta media | x10,
x20,...., xk0 . Nos interesa construir un intervalo de confianza sobre la
respuesta media para el conjunto de condiciones dado por
X’0 = [x10, x20,...., xk0]
Aumentamos las condiciones sobre las x por el número 1 a fin de facilitar el
uso de la notación matricial. Como en el caso k = 1 si hacemos la suposición
adicional de que los errores son independientes y se distribuyen de forma
normal, entonces las Bj son normales, con media, varianzas y con varianzas.
también está normalmente distribuida y es, de hecho, un estimador
insesgado para la respuesta media sobre el que intentamos unir los
intervalos de confianza. La varianza de escrita en notación matricial
simplemente como función de , (X'X)1, y el vector de condición x’0, es
Si esta expresión se expande para un caso dado, digamos k = 2, se ve
fácilmente que explica de manera apropiada las varianzas y covarianzas de
las Bi. Después de reemplazar por s2, el intervalo de confianza de 100(1
— α)% sobre | x10, x20,...., xk0 . se puede construir a partir de la estadística:
que tiene una distribución t con n — k — 1 grados de libertad.
Intervalo
de
confianza
para:
| x10,
x20,...., xk0
Un intervalo de confianza de (1 — α)100% para la respuesta media |
x10, x20,...., xk0 es
donde t /2 es un valor de la distribución t con n-k grados de libertad.
La cantidad a menudo se llama error estándar de predicción y
por lo general aparece en el impreso de muchos paquetes de regresión para
computadora.
Ejemplo 1
Con el uso de los datos del ejemplo 1 correspondiente al "Modelo de
regresión lineal con el uso de matrices", construya un intervalo de confianza
de 95% para la respuesta media cuando x1 = 3%, x2 = 8%, y x3 = 9%.
SOLUCIÓN
De la ecuación de regresión del ejemplo 1 correspondiente al "Modelo de
regresión lineal con el uso de matrices", el porcentaje estimado de
sobrevivencia cuando x1 = 3%, x2 = 8%, y x3 = 9% es
A continuación encontramos que:
Con el uso del cuadrado medio del error, s2 = 4.298 o s = 2.073, y de la tabla
A.4, vemos que t0.025 = 2.262 para 9 grados de libertad. Por tanto, un
intervalo de confianza de 95% para el porcentaje medio de sobrevivencia
para x1 = 3%, x2 = 8%, y x3= 9% está dado por
o simplemente
.
Como en el caso de la regresión lineal simple, necesitamos hacer una clara
distinción entre el intervalo de confianza de la respuesta media y el intervalo
de predicción sobre una respuesta observada. Esta última proporciona un
límite dentro del cual podemos decir con un grado de certeza preestablecido
que caerá una nueva respuesta observada.
Un intervalo de predicción para una sola respuesta pronosticada se
establece de nuevo al considerar las diferencias de la variable
aleatoria .
Se puede mostrar que la distribución muestral es normal con media
y varianza
De esta manera el intervalo de predicción de (1 — α)100% para un solo
valor de predicción y0 se puede construir a partir de la estadística
que tiene una distribución t con n – k – 1 grados de libertad.
Intervalo
de
predicció
n para y0
Un intervalo de predicción de (1-α)100% para una sola
respuesta y0 está dado por:
donde tα/2 es un valor de la distribución t con n – k –1
grados de libertad.
PREDICCION.
Existen varias razones para construir una regresión lineal. Una, por
supuesto, es predecir valores de respuesta a uno o mas valores de la
variable independiente. En este aparte nos enfocamos en los errores
asociados con la predicción.
La ecuación ŷ= a +bx se puede usar para predecir o estimar la respuesta
media µyןxס en x = xo no es necesariamente uno de los valores
preseleccionados, o se puede utilizar para predecir un solo valor ỵo de la
variable Yo cuando x = xo. Esperaríamos que el error de predicción fuese
mas alto en el caso de un solo valor predicho en el caso donde se predice
una media. Esto, entonces, afectara el ancho de nuestros intervalos para
valores que se predicen.
Suponga que el experimentador desea construir un intervalo de confianza
para µyןxס. Utilizaremos el estimador puntual Ŷo = A + Bxo para estimar
µyןxס. = + se puede mostrar que la distribución muestral de Ŷo es
normal con media:
Y varianza:
La ultima se sigue del hecho que Cov(Ŷ, B) = 0. De esta forma el intervalo
de confianza de (1 - )100% sobre la respuesta media µyןxס. Se puede
construir a partir de la estadística :
Que tiene una distribución t con n – 2 grados de libertad
Intervalo de confianza para µyןxס.:
CORRELACION
Hasta este punto hemos supuesto que la variable de regresión
independiente x es una variable física o científica pero no una variable
aleatoria. De hecho, en este contexto , x a menudo se llama variable
matemática, que, en el proceso de muestreo, se mide con un error
insignificante. En muchas aplicaciones de las técnicas de regresión es mas
realista suponer que X y Y son variables aleatorias y que las mediciones {(Xi,
Yi) ; i= 1, 2, ..., n} son observaciones de una población que tiene la función
de densidad conjunta f(x, y). Consideremos el problema de medir la relación
entre las dos variables X y Y. Por ejemplo, si X y Y representan la longitud y
circunferencia de una clase particular de hueso en el cuerpo de un adulto,
podemos realizar un estudio antropológico para determinar si los valores
grandes de X se asocian con valores grandes de Y, y viceversa. El análisis
de correlación intenta medir la fuerza de tales relaciones entre dos variables
por medio de un solo numero llamado coeficiente de correlación.
En En teoría a menudo se supone que la distribución condicional f(y x) de
Y, para valores fijos de X, es normal con una media µyןx = + y
varianza ²yןx = ² y X también se distribuye con normalmente con µx y
varianza ²x. La densidad conjunta de X y Y es entonces:
Donde X es ahora una variable aleatoria independiente del error aleatorio E.
Como la media del error aleatorio E es cero, se sigue que:
Al sustituir para y ² en la expresión anterior para f( x, y), obtenemos la
distribución normal bivariada:
La constante (rho) se llama coeficiente de correlación poblacional y juega
un papel importante en muchos problemas de análisis de datos de dos
variables. El valor de es 0 cuando = 0 , que resulta cuando en esencia
no hay una regresión lineal; es decir, la línea de regresión es horizontal y
cualquier conocimiento de X no es de utilidad para predecir Y. Como
debemos tener ²y ², y ² 1 por ello -1 1. Los valores de =
1 solo ocurren cuando ² = 0, en cuyo caso tenemos una relación lineal
perfecta entre las dos variables. de esta manera un valor de igual a +1
implica una relación lineal perfecta con una pendiente positiva, mientras que
un valor de igual a –1 resulta de una relación lineal perfecta con pendiente
negativa. Se puede decir entonces que las estimaciones muéstrales de
cercanas a la unidad en magnitud implican una buena correlación o una
asociación lineal entre X y Y, mientras que valores cercanos a cero indican
poca o ninguna correlación.
Se debe señalar que en estudios de correlación,
como en problemas de regresión lineal, los resultados que se obtienen solo
son tan buenos como el modelo que se supone. En las técnicas de
correlación que aquí se estudian se supone una densidad normal bivariada
para las variables X y Y, con el valor medio de Y en cada valor x linealmente
relacionado con x. Para observar la conveniencia de la suposición de
linealidad, a menudo es útil una graficación preliminar de los datos
experimentales. Un valor del coeficiente de correlación muestral cercano a
cero resultara de datos que muestren un efecto estrictamente aleatorio como
se indica en la figura a :
en donde se puede observar poca o ninguna relación causal. Es importante
recordar que el coeficiente de correlación entre dos variables es una media
de su relación lineal, y que un valor de r = 0 implica una falta de linealidad
y no una falta de asociación. Por ello, si existe una fuerte relación cuadrática
entre X y Y como se indica en la figura b, podemos aun obtener una
correlación cero que indique una relación no lineal.
formula del calculo de r
SUPUESTOS DE MODELO DE REGRESIÓN LINEAL
Se refiere a una serie de condiciones que deben darse para garantizar
la validez del modelo.
Linealidad
La ecuación de regresión lineal adopta una forma particular, en
concreto la variable dependiente es la suma de un conjunto de elemento: el
origen de la recta, una combinación lineal de variables independientes o
predictoras y los residuos, el incumplimiento del supuesto de linealidad suele
denominarse error especificación.
Algunos ejemplos son omisión de variables independientes importante,
inclusión de variable independientes y la irrelevantes no es lineal (la relación
entre la variables independientes y la dependiente no es lineal) parámetros
cambiantes (los parámetros no permanecen constantes durante el tiempo
que dura la recogida de datos), no adivitidad (el efecto de algunas variable
independientes es sensible a los niveles de alguna otra variable
independiente.
Independencia
Los residuos son independientes entre si, es decir los residuos constituyen
una variable aleatoria (recordemos que los residuos son las diferencias entre
los valores observados y los pronosticados) Es frecuentes encontrarse con
residuos autocorrelacionados cuando se trabaja con series temporales.
Homocedasticidad
Para cada valor de la variable independiente (o combinación de valores de
las variables independientes), la varianza de los residuos es constante.
La homocedasticidad se presenta en un modelo cuando los errores
presentan en todas las observaciones de la variable endógena la misma
varianza. Dado que hablamos de varianza, la homocedasticidad es un
concepto estadístico.
Un modelo estadístico relaciona el valor de una variable a predecir con el de
otras. Si el modelo es insesgado, el valor predicho es la media de la variable
a predecir. En cualquier caso, el modelo nos da una idea del valor que
tomará la variable a predecir.
Por simplificar el análisis, supongamos que la variable a predecir es escalar -
la llamaremos y que la explicamos mediante un conjunto de variables que
unimos en el vector . El valor predicho por el modelo lo representaremos
por . El error cometido por el modelo viene dado por:
Este error es una variable aleatoria: tomará un valor distinto cada vez que
usemos el modelo. Hablamos de homocedasticidad si el error cometido por
el modelo tiene siempre la misma varianza. En particular, si el modelo es
homocedástico, el valor de las variables explicativas no afectará a la
varianza del error.
La homocedasticidad es una propiedad fundamental del modelo de regresión
lineal general y está dentro de sus supuestos clásicos básicos.
Se dice que existe homocedasticidad cuando la varianza de los errores
estocásticos de la regresión es la misma para cada observación i (de 1 an
observaciones), es decir:
donde es un escalar constante para todo i. Lo que significaría que habría
una distribución de probabilidad de idéntica amplitud para cada variable
aleatoria.
Normalidad
Para cada valor de la variable independiente (o combinación de
valores de las variables independientes), los residuos se distribuyen
normalmente con media cero.
No-colinealidad
No existen relación lineal exacta entre ninguna de las variables
independientes, el incumplimiento de este supuesto da origen exacta entre
ninguna de las variables independientes, el incumplimiento de este supuesto
da origen colinealidad o multicolinealidad.
Análisis de regresión lineal mediante SPSS
Muchas de las investigaciones se dedican a estudiar variables de
manera tal que pueda determinarse la existencia de cierta relación entre
ellas con el fin de realizar a cabo explicaciones más precisas sobre la
naturaleza de cierto fenómeno.
La regresión lineal estima los coeficientes de la ecuación lineal, con
una o más variables independientes, que mejor prediga el valor de la
variable dependiente. Por ejemplo, puede intentar predecir el total de ventas
anuales de un vendedor (la variable dependiente) a partir de variables
independientes tales como la edad, la formación y los años de experiencia.
Ejemplo. ¿Están relacionados el número de partidos ganados por un equipo
de baloncesto en una temporada con la media de puntos que el equipo
marca por partido? Un diagrama de dispersión indica que estas variables
están relacionadas linealmente. El número de partidos ganados y la media
de puntos marcados por el equipo adversario también están relacionados
linealmente. Estas variables tienen una relación negativa. A medida que el
número de partidos ganados aumenta, la media de puntos marcados por el
equipo adversario disminuye. Con la regresión lineal es posible modelar la
relación entre estas variables. Puede utilizarse un buen modelo para
predecir cuántos partidos ganarán los equipos.
Estadísticos. Para cada variable: número de casos válidos, media y
desviacióntípica. Para cada modelo: coeficientes de regresión, matriz de
correlaciones,correlaciones parciales y semiparciales, R multiple,
Rcuadrado, Rcuadrado corregida, cambio en Rcuadrado, error típico de la
estimación, tabla de análisis de varianza, valores pronosticados y residuos.
Además, intervalos de confianza al 95% para cada coeficiente de regresión,
matriz de varianzas-covarianzas, factor de inflación de la varianza,
tolerancia, prueba de Durbin-Watson, medidas de distancia (Mahalanobis,
Cook y valores de influencia), DfBeta, DfAjuste, intervalos de pronóstico y
diagnósticos por caso.
Introducción de datos para análisis de regresión simple
A continuación se muestra paso a paso los comandos para realizar análisis
de regresión simple en SPSS.
Los siguientes datos corresponden a los resultados de una
investigación donde se observa la existencia de dos variables x ,y
donde (x) corresponde a la duración de la cosecha de porotos de soya
en días y (y) corresponde al rendimiento de la cosecha en toneladas
por hectárea:
Se requiere estimar la recta de regresión lineal
(A) Paso 1
Al abrir el programa se nos muestra en la pantalla “Editor de datos”,
selecciona Introducir datos
Figura 1
Paso 2
Introduce los datos de las variables de investigación en la hoja vista de
variables de esta forma:
Figura 2
Paso 3
Introduce los datos de la tabla de resultados en SPSS como se muestra
arriba en la Tabla de resultados de la investigación en la hoja vista de
datos. Después de la entrada de datos en la pantalla SPSS debería
parecerse a la figura 3.
Figura 3
entrada de datos del valor de los valores de x,y
Paso 4
Selecciona “Analizar” de la Barra de Herramientas de SPSS, al mostrarse el
cuadro de diálogo selecciona “Regresión”, se abrirá un listado de los tipos de
regresión, se debe seleccionar “Lineal” asi:
Figura 4
Paso 5
Se introducen los datos correspondientes a la variable dependiente e
independiente de la tabla de resultados:
Figura 5
Paso 6
Al seleccionar cual es la variable dependiente y la independiente se activará
los controles del lado derecho del panel; selecciona “Aceptar”
Figura 6
Paso 7
Seguidamente se mostrará la pantalla “Resultados”, donde se pódrán
observar todos los estadísticos correspondientes al análisis de regresión de
los datos introducidos
Figura 7
Figura 8
Figura 9
Correlación
La correlación trata de establecer la relación o dependencia que
existe entre las dos variables que intervienen en una distribución
bidimensional.Es decir, determinar si los cambios en una de las
variables influyen en los cambios de la otra. En caso de que suceda,
diremos que las variables están correlacionadas o que
hay correlación entre ellas.
Tipos de correlación
Correlación directa
La correlación directa se da cuando al aumentar una de las
variables la otra aumenta.La recta correspondiente a la nube de
puntos de la distribución es una recta creciente.
Correlación inversa
La correlación inversa se da cuando al aumentar una de las
variables la otra disminuye.La recta correspondiente a la nube de
puntos de la distribución es una recta decreciente.
Correlación nula
La correlación nula se da cuando no hay dependencia de ningún
tipo entre las variables.En este caso se dice que las variables son
incorreladas y la nube de puntos tiene una forma redondeada.
Propiedades de la correlación.
El coeficiente de correlación no varía al hacerlo la escala de
medición. Es decir, si expresamos la altura en metros o en
centímetros el coeficiente de correlación no varía.
El signo del coeficiente de correlación es el mismo que el de la
covarianza.
Si la covarianza es positiva, la correlación es directa.
Si la covarianza es negativa, la correlación es inversa.
Si la covarianza es nula, no existe correlación.
El coeficiente de correlación lineal es un número real comprendido
entre −1 y 1.
−1 ≤ r ≤ 1
Si el coeficiente de correlación lineal toma valores cercanos a −1 la
correlación es fuerte e inversa, y será tanto más fuerte cuanto más
se aproxime r a −1.
Si el coeficiente de correlación lineal toma valores cercanos a 1 la
correlación es fuerte y directa, y será tanto más fuerte cuanto más
se aproxime r a 1.
Si el coeficiente de correlación lineal toma valores cercanos a 0, la
correlación es débil.
Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o
decreciente. Entre ambas variables hay dependencia funcional.
Coeficiente de Correlación “r” de Pearson.
Definición.
El coeficiente de correlación de Pearson (también llamado coeficiente
de correlación del producto-momento) es el índice numérico máscomún que
mide la relación lineal entre dos variables aleatorias cuantitativas (escala
mínima de intervalo) y se representa con el símbolo “r”. Se especifica
"variables relacionadas linealmente". Esto significa que puede haber
variables fuertemente relacionadas, pero no de forma lineal, en cuyo caso no
proceder a aplicarse la correlación de Pearson. Por ejemplo, la relación entre
la ansiedad y el rendimiento tiene forma de U invertida; igualmente, si
relacionamos población y tiempo la relación será de forma exponencial.
El coeficiente de correlación de Pearson es un índice de fácil ejecución e,
igualmente, de fácil interpretación. Sus valores absolutos oscilan entre 0 y 1.
A diferencia de la covarianza, la correlación de Pearson es independiente de
la escala de medida de las variables.
De manera general, podemos definir el coeficiente de correlación de
Pearson como un índice que puede utilizarse para medir el grado de relación
de dos variables siempre y cuando ambas sean cuantitativas.
Fórmula Matemática para el cálculo del coeficiente de correlación.
El coeficiente de correlación “r” de Pearson se define mediante la siguiente
fórmula:
Donde:
r =coeficiente de correlación de Pearson.
xy = sumatoria de los productos de ambas variables.
x = sumatoria de los valores de la variable independiente.
y = sumatoria de los valores de la variable dependiente.
x2 = sumatoria de los valores al cuadrado de la variable independiente.
y2 = sumatoria de los valores al cuadrado de la variable dependiente.
N = tamaño de la muestra en función de parejas
Para datos no agrupados se calcula aplicando la siguiente ecuación:
Para datos agrupados, el coeficiente de Correlación de Pearson se calcula aplicando la siguiente fórmula:
Donde
n = número de datos.
f = frecuencia de celda.
fx = frecuencia de la variable X.
fy = frecuencia de la variable Y.
dx = valores codificados o cambiados para los intervalos de la variable X,
procurando que al intervalo central le corresponda dx = 0, para que se hagan
más fáciles los cálculos.
dy = valores codificados o cambiados para los intervalos de la variable X,
procurando que al intervalo central le corresponda dy = 0, para que se hagan
más fáciles los cálculos.
Coeficiente de determinación
En un modelo de regresión lineal el coeficiente de determinación se
interpreta como el porcentaje de variación de la variable dependiente El
Coeficiente de Determinación, se calcula elevando al cuadrado el coeficiente
de correlación, luego se multiplica por 100, para expresar el resultado como
porcentaje.
En otras palabras, el Coeficiente de Determinación, indica la proporción o
porcentaje, en que la variable "Y"(variable dependiente) debe su variación a
la variable "X"(variable independiente).
El coeficiente de determinación, también denominado“r2” muestra la
proporción de la variación total en la variable dependiente Y que está
explicada por o se debe a la variación en la variable independiente X. El
coeficiente de determinación es el cuadrado del coeficiente de correlación, y
toma valores de 0 a 1.
Ejemplo: después de haber realizado la recta de regresión lineal:
Una nube de puntos que se agrupa en torno a una recta imaginaria
nos justifica el estudio de la regresión lineal entre las variables.
Normalmente, la variable explicativa no explica (valga la redundancia) al
100% los resultados que se observan en la variable explicada.
El único caso en el que una variable explica al 100% a la otra variable
es aquel donde los puntos de la nube formen una recta. En ese caso, cada
valor de X nos da el valor exacto de Y. Pero ese no es el caso general.
Vamos a cuantificar la calidad de la explicación de Y por X mediante el
coeficiente de determinación.
Los datos de ambas variables tienen una varianza. No nos vamos a
interesar por la varianza de la X (independiente), pero sí por la de Y, por
estar influenciada por la otra variable. La varianza de Y está generada, de
una parte, por los datos de X (es decir, por la varianza), y de otra parte por
causas desconocidas (a no ser que los datos formen una línea recta).
El coeficiente de determinación va a ser el % de varianza de Y que se
puede explicar por X, y se le suele llamar calidad del ajuste, porque valora lo
cerca que está la nube de puntos de la recta de regresión (o dicho de otro
modo, lo ajustada que está la nube de puntos a la recta de regresión).
Como yi = y*i + ei, desarrollando la expresión de la varianza de Y se
puede llegar a que:
.exp.var
2
.exp.var
2
2
2
l i cno
e
porXl
x
xy
y ss
ss
y por tanto, el % de varianza de Y explicada por X es:
1002
2
2
y
x
xy
s
s
s
que resulta ser
10022
2
yx
xy
ss
s
, es decir, el coeficiente de correlación lineal
r definido en el capítulo anterior, elevado al cuadrado y multiplicado por 100.
Es por ello que al coeficiente de determinación se le llama R2, es decir
10022
22
yx
xy
ss
sR
Si R2 = 86% para unas variables X e Y, podemos decir que la calidad
del ajuste es bastante alta, aunque no sabemos si la recta de regresión es
creciente o decreciente. Otro ejemplo: si conocemos el coeficiente de
correlación lineal, r = - 0.77, entre dos variables X e Y, ya sabemos que la
recta de regresión es decreciente (por el signo negativo de r), y calculando
R2 = r2 · 100 = 59.29% tenemos una calidad de ajuste media (no es muy
pobre, pero tampoco se puede calificar de buena).
Introducción a la predicción
Generalmente se refiere a la estimación de series temporales o datos
instantáneos. Si bien es cierto, conocer el futuro es algo que parece
imposible, sin embargo existen procedimientos estadísticos que a través de
cálculos matemáticos nos permiten acercarnos al futuro, siempre y cuando
se tenga conocimiento pleno de lo que se quiere predecir.
Son muchas las predicciones de tipo sociólogo, o económico, que
pueden hacerse a partir de la aplicación exclusiva de razonamientos
probabilísticos a conjuntos de datos objetivos como son, por ejemplo, los de
naturaleza demográfica.
Las predicciones estadísticas, difícilmente hacen referencia a sucesos
concretos, pero describen con considerable precisión en el comportamiento
global de grandes conjuntos de sucesos particulares. Son predicciones que,
en general, no acostumbran resultar útiles.
Para saber quien, de entre los miembros de una población importante,
va a encontrar trabajo o a quedarse sin él; o en cuales miembros va a verse
aumentada o disminuida una familia concreta en los próximos meses. Pero
que, en cambio puede proporcionar estimaciones fiables del próximo
aumento o disminución de la taza de desempleo referido al conjunto de la
población; o de la posible variación de os índices de natalidad o mortalidad.
Con un modelo matemático, determinístico o probabilístico podemos
derivar consecuencias continuando su lógica interna y en esta medida,
efectuar predicciones. Estas siempre están sujetas a la validez del modelo.
En el caso de los modelos probabilísticos, además se debe tener una idea
del grado de incertidumbre en predicciones individuales.
La expresión de la visión determinística: si conocemos perfectamente
el comportamiento de todas las partículas que existe en el universo,
podremos predecir el futuro (Laplace).
Matriz de Correlación.
La matriz de correlaciones es un instrumento muy útil para priorizar
los procesos con base en su valoración del impacto y repercusión con el
usuario del proceso. Una matriz de correlación es una tabla de doble entrada
para A B y C, que detalla una lista multivariable horizontalmente y la misma
lista verticalmente y con el correspondiente coeficiente de correlación
llamado r'
Ya conocemos que para determinar la correlación entre variables se
realizan repetidos procesos matemáticos hasta obtener los resultados los
cuales son mostrados en matrices de correlación, por lo tanto se requiere de
un análisis factorial. El cual se puede utilizar para estudiar series numéricas
o de valores cuantitativos para un determinado número de variables
cuantitativas y mayor de dos. Por ejemplo, tres características o más para
series numéricas con igual número de datos.
Estas variables independientes o explicativas están dispuestas ya en
una matriz de correlación, que es una tabla de doble entrada para A B y C,
ya explicada anteriormente, que muestra una lista multivariable
horizontalmente representada de igual forma verticalmente y con el
correspondiente coeficiente “r” o la relación entre cada pareja en cada celda,
expresada con un número que va desde 0 a 1. El modelo mide y muestra la
interdependencia en relaciones asociadas o entre cada pareja de variables y
todas al mismo tiempo. En general la matriz de correlación además de
mostrar todos los posibles coeficientes de correlación simple entre todas las
variables:
Es útil para analizar, localizar la correlación de las variables
independientes.
Se muestra que tan fuerte están correlacionadas las variables
independientes con las dependientes.
Es útil para verificar si existe correlación entre las variables
independientes multicolinealidad lo cual distorsionaría el error
estándar y llevaría a conclusiones incorrectas (se tolera entre -0.7 y
0.7) de ser mayor se elimina una variable y se recalcula la ecuación
de regresión.
Ejemplo
Se han aplicado los resultados de una correlación de datos entre tres
variables
Variables A B C
A
B 0,3
C 0,75 0,95
La mejor proporción es B C o C B y desde .95 ya es alta. Los
coeficientes lineales, tal como se localizan las parejas de datos en las series,
integran un cuadrado en la tabla o matriz de correlación, los automatizamos
con un programa de estadística para ordenador, que tenga una capacidad
de utilizar 8 o más variables para series de 500 o más datos cada una.
Donde “r” es igual a la suma de los productos de cada pareja de datos
y dividido por el producto del número de datos por la desviación estándar de
cada variable o serie de datos. Para hacer más potente el análisis factorial
los programas estadísticos incluyen otros análisis multivariables como es el
análisis de pautas o camino, pathanalysis, y otros coeficientes de correlación
como es el de rangos o la correspondencia en el orden entre cada pareja en
las series y se distingue por ro.
Puede emplearse esta técnica para muchos propósitos como es la
Escala de actitud o Prioridades sociales. Además un análisis diacrónico de
triangulación o varias aplicaciones en continuos períodos de tiempo y con
diferentes métodos para cada aplicación.
La representación gráfica de la matriz de correlación es una línea
recta diagonal en los ejes cartesianos en los que las abscisas son las
variables y los coeficientes son una nube de puntos. El test, que está
utilizando un coeficiente de correlación o asociación, no es inferencial o
predictor, ya que es no-paramétrico o libre de probabilidad, y es descriptivo,
no causal. Un test del nivel significativo de los coeficientes de correlación
valida la prueba.
Las tablas de asociación 2 x 2 es el caso más elemental o simple de
variables dicotomizadas, que igualmente miden o describen la significación
estadística. A veces las representaciones gráficas son más descriptivas de la
asociación entre variables.
Tablas de contingencia.
Estas tablas se emplean para registrar y analizar la relación entre dos
o más variables, habitualmente de naturaleza cualitativa (nominales u
ordinales).
Supóngase que se dispone de dos variables, la primera el sexo
(hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se
ha observado esta pareja de variables en una muestra aleatoria de 100
individuos Cuando se trabaja con variables categóricas los datos suelen
organizarse en tablas de doble entrada en las que cada entrada representa
un criterio de clasificación (una variable categórica) como resultado de esta
clasificación, las frecuencias (el numero de porcentaje de casos) aparecen
organizadas en casillas que contienen información sobre la relación
existente entre ambos criterios.
Pueden utilizarse dos criterios de clasificación para generar una tabla
de contingencia bidimensional y también se puede utilizar tres o más
criterios, lo que nos llevaría a obtener tablas tridimensionales,
cuatridimensionales, etc. Los programas estadísticos como el SPSS
permiten generar tablas de contingencia con cualquier número de
dimensiones.
Ejemplo:
Procedimiento para utilizar tablas de contingencia en el SPSS.
Seleccionar la opción Estadísticos—Tablas de contingencia del menú
Analizar para acceder al cuadro de dialogo Tablas de contingencia. La
lista de variables del archivo muestra todas las variables numéricas y
de cadena corta del archivo. Para obtener una tabla de contingencia:
- Trasladar una variable categórica a la lista de filas, otra a la
lista Columnas y pulsar el botón Aceptar.
Mostrar gráficos de barras agrupadas: activando esta opción, el visor
de resultados muestra un grafico de barras con las categorías de la
variable fija en el eje de abscisas y la categoría de la variable
Administrativo Seguridad Directivo Total
hombre 157 27 74 258
mujer 206 10 216
363 27 84 474Total
sexo
Categoria laboralTabla de contingencia
Columna anidadas dentro de las categorías de la variable fila. Cada
barra por tanto, representa una casilla y su altura viene dada por la
frecuencia de la casilla.
Suprimir tablas: esta opción puede activarse si no se desea obtener
ninguna tabla de contingencia. Esto tendría sentido si solo
estuviéramos interesados en obtener un grafico de barras o alguno de
los estadísticos o medidas de asociación disponibles en el
procedimiento tablas de contingencia.
Matrices de decisionesestadísticas
Un procedimiento puede ser una secuencia de acciones completamente
determinada o puede incorporar toma de decisiones basadas en condiciones
alternativas. Los métodos de documentación de la lógica decisional son:
1)Matricial: Se puede utilizar una matriz para presentar parejas de
condiciones y el resultado de una acción (decisión).
2)Tabla de decisión: Documenta las reglas que seleccionan una o más
acciones basadas en una o más condiciones de un conjunto posible de
condiciones. Es precisa y compacta.
Técnicas de la teoría de decisión estadística.
Son técnicas que evalúan matemáticamente los resultados
potenciales de acciones alternativas en una situación de decisión dada.
Todas las alternativas y resultados se asumen como conocidos, y el decisor
tiene como objetivo la maximización de utilidades. Cómo métodos de
presentar los datos en la teoría de decisión existen la matriz de pagos y el
árbol de decisión. El trabajar con matrices de pago y árboles de decisión
requiere el uso de las estimaciones de probabilidad. Las probabilidades
objetivas basadas en situación de analogías generalmente no están
disponibles, de tal suerte que las probabilidades utilizadas son subjetivas. La
ventaja de la técnica es que requiere el uso explícito de las probabilidades
subjetivas en lugar de utilizarlas sin hacerlas explícitas.
Todas las técnicas para adoptar decisiones comprender unos
elementos comunes que permiten mostrar de forma cuantitativa la valoración
en términos de beneficios y/o pérdidas de las diferentes opciones que se
presentan
Generalidades de La matriz de decisiones:
Presenta en filas y columnas al conjunto de elementos que se emplea
para decidir
Las estrategias (E1, E2,…, En) se presentan en las filas de la matriz y
son las opciones que el sujeto decisor contempla como realizables.
Los estados de la naturaleza (N1, N2,…, Nn) son los posibles
escenarios o variables externas del entorno queel sujeto no puede
controlar. No muestran necesariamente situaciones de la naturaleza a
pesar de su nombre.
Los resultados previstos (Rij) que dependen de cada estrategia
combinada con cada uno de los posibles estados de la naturaleza.
Las probabilidades (Pj) de que ocurra cada estado de la naturaleza,
como norma en total deben sumar
MATRIZ DE
DECISIONES
ESTADOS DE LA
NATURALEZA N1 N2 NJ
E1 R11 R12 R1J
E2 R21 R22 R2J
E3 R31 R32 R3J
P1 P2 PJ
∑PJ=1
PROBABILIDAD
ESTRATEGIAS
La forma de elegir varía en función de la información de que disponga
el sujeto decisor. Salvo el caso improbablede información completa y
perfecta, en un ambiente de certeza y, por lo tanto, los estados de la
naturaleza se reducirían a uno con probabilidad igual a uno, los demás
ambientes que se presentan se sitúan entre el riesgo y la incertidumbre.
El riesgo se produce cuando se conocen todos los estados de la
naturaleza que se pueden dar y sus probabilidades de que ocurrany un
ambiente de incertidumbre es aquel en el cual desconocemos las
probabilidades asociadas a cada suceso.
Alfa de Cronbach con SPSS
El Alfa de Cronbach es un índice de consistencia interna que toma
valores entre 0 y 1 que sirve para comprobar si el instrumento que se está
evaluando recopila información defectuosa y por tanto nos llevaría a
conclusiones equivocadas o si se trata de un instrumento fiable que hace
mediciones estables y consistentes.
El Alfa es por tanto un coeficiente de correlación al cuadrado que, a
grandes rasgos, mide la homogeneidad de las preguntas promediando todas
las correlaciones entre todos los ítems para ver que, efectivamente, se
parecen.
Su interpretación será que, cuanto más se acerque el índice al
extremo 1, mejor es la fiabilidad, considerando una fiabilidad respetable a
partir de 0,80.
Confiabilidad
Se puede definir como la estabilidad o consistencia de los resultados
obtenidos, es decir, se refiere al grado en que la aplicación repetida del
instrumento, al mismo sujeto u objeto, produce iguales resultados
Para explicar el alfa de Cronbach, consideraremos una situación de
investigación en la que se quiere evaluar el grado de consistencia interna de
las puntuaciones de una serie de indicadores (ítems
delcuestionario). Suponga que el grupo objetivo de este estudio es que los
estudiantes de la Maestría en gerencia General de la UDO de la corte de El
Tigre en un curso sobre la elaboración del cuestionario. Dos Elementos se
miden,
Valor de la tarea para el aprendizaje de Estadística Financiera
Ansiedad hacia el aprendizaje de Estadística Financiera.
La primera variable de interés es valor de la tarea y representa el grado en
que los estudiantes creen que la tarea en cuestión, en este caso el
aprendizaje de la Estadística Financiera, es valiosa, importante o relevante
por cualquier razón. Los teóricos que estudian valor de la tarea sugieren que
este item puede estar compuesto por cuatro dominios:
1 100%
de confiabilidad en la medición (no hay error).
0 0%
de confiabilidad en la medición
(la medición está contaminada de error).
CONFIABILIDAD
Muy baja Baja Regular Aceptable Elevada
El costo (esfuerzo necesario para completar la tarea de aprender
Estadística Financiera)
El valor de realización (nivel de importancia que uno pone en el
aprendizaje de la Estadística Financiera),
El valor de uso (nivel en el que la Estadística Financiera se considera
que sea relevante a las actividades actuales o futuras),
El valor intrínseco (el nivel de interés y el disfrute de una experiencia
de aprendizaje de la Estadística Financiera).
Para evaluar el nivel de valor de la tarea que el lugar de los estudiantes en el
aprendizaje de la Estadística Financiera, los ítems del cuestionario se
utilizan las siguientes:
Tabla 1
Elementos de tareas de valor
Nada en
absoluto
o sólo
muy
mínimo
En un
pequeño
grado
En un
grado
moderado
En un grado
considerable
En gran
medida,
1. ¿Hasta qué punto
encuentra el aprendizaje
de la Estadística
Financierainteresante?
1 2 3 4 5
2. ¿Qué nivel o grado de
importancia le da usted a
aprender la Estadística
Financiera?
1 2 3 4 5
3. ¿Qué tan útil cree usted
que la Estadística
Financierade ser para
1 2 3 4 5
usted?
La segunda variable de interés es el nivel de ansiedad de los
estudiantes hacia el aprendizaje de la Estadística Financiera. Esta variable
se llama ansiedad y refleja el nivel de preocupación y la preocupación que
uno puede experimentar la hora de pensar sobre el aprendizaje de la
Estadística Financiera. La ansiedad sobre el aprendizaje de de la Estadística
Financiera puede consistir en el deterioro en el aprendizaje (perder el foco,
que se confunda), temor o preocupación (pensamientos de fracaso o
insuficiencia), y negativos manifestaciones fisiológicas (náuseas, sudoración,
dificultad para respirar, dolores de cabeza). Para evaluar la ansiedad, los
elementos se utilizan los siguientes:
Tabla 2
Elementos de ansiedad
Nada en
absoluto
o sólo
muy
mínimo
En un
pequeño
grado
En un
grado
moderado
En un grado
considerable
En gran
medida,
1. Cuando se piensa en el
aprendizaje de la
Estadística Financiera, en
qué grado usted comienza
a sentir síntomas físicos de
ansiedad o nerviosismo?
1 2 3 4 5
2. ¿En qué medida le
preocupa que el
aprendizaje de la
Estadística
1 2 3 4 5
Financierapuede ser difícil
para usted?
3. Al pensar en el
aprendizaje de conceptos
matemáticos y
estadísticos, en qué punto
cree usted pierde su
capacidad de
concentración?
1 2 3 4 5
Nota: Los seis elementos son simplemente para propósitos educativos
solamente. Ellos no han sido revisados o probados campo.
Supongamos que estos seis puntos se administran a un grupo de 10
estudiantes y las puntuaciones de cada uno de los elementos se presentan a
continuación en la Tabla 3. A la Tabla de Valores se añaden las letras de los
puntos 1, 2 y 3 para ayudar a identificar las puntuaciones de tareas de valor
y de la letra A, se añade a los artículos 4, 5, y 6 para ayudar a identificar las
puntuaciones de ansiedad. Por lo tanto, representa el punto de Tareas TV1
Valor 1 y A5 representa el punto de ansiedad 5.
Tabla 3
Resultados de la Tabla de Valores de 10 estudiantes
Estudiante TV1 TV2 TV3 A4 A5 A6
A 4 5 4 1 1 1
B 4 4 5 2 3 4
C 1 3 4 3 3 4
D 2 1 2 2 2 1
E 3 4 3 1 1 1
F 1 1 1 4 4 4
G 5 5 4 5 4 3
H 4 4 4 4 4 5
I 2 3 4 1 2 1
J 1 2 1 5 5 5
En la Tabla 3 en cuenta que el primer estudiante, un elemento, calificado
TV1 un 4, el punto nominal de TV2 a 5, y el tema de TV3 un 4. Así que este
estudiante juzga el valor de la tarea de la EstadísticaFinanciera de ser
importante, o, el promedio de las calificaciones de este alumno en estos tres
items se encuentra entre una calificación de 4 "En gran medida" y una
calificación de 5 "En gran medida." Sin embargo, en términos de ansiedad se
produce como resultado de tener que aprender la EstadísticaFinanciera, un
estudiante proporcionó una calificación de 1 a los tres elementos que sugiere
poca o ninguna ansiedad para este estudiante.
2. SPSS: introducción de datos y comandos de confiabilidad
Con estos datos ahora cómo se calcula en el alfa de Cronbach SPSS para
ambas escalas, valor de la tarea y la ansiedad. A continuación se muestran
paso a paso los comandos para calcular el alfa de Cronbach en SPSS.
(A) Paso 1
Introduce los datos en SPSS como se muestra arriba en la Tabla 3. Después
de la entrada de datos en la pantalla SPSS debería parecerse a la figura 1.
Figura 1
entrada de datos del valor de la tarea y artículos de ansiedad para cada
uno de diez estudiantes
(B) Paso 2
Seleccione "Analizar"
Seleccione "Escala"
Seleccione "Análisis de Confiabilidad"
La figura 2 muestra cómo la pantalla actual debe aparecer.
Figura 2
Mando análisis de la fiabilidad
(C) Paso 3
Una ventana pop-up aparecerá para el análisis de la fiabilidad. En esta
ventana son dos cajas, una a la izquierda y uno a la derecha. La izquierda
contiene las variables o elementos, que se consignan en el programa SPSS
(TV1, TV2, etc), el cuadro de la derecha, que se denomina "elementos", es
donde uno mueve los elementos de la escala para la que se desea alfa de
Cronbach. Tenga en cuenta seleccionada son los tres elementos de las
tareas de valor en la Figura 3.
Figura 3
Análisis de Confiabilidad Ventana emergente
En la Figura 4, tenga en cuenta que los tres elementos de las tareas de
valor ahora aparecen en el cuadro de la derecha, el alfa de Cronbach se
calculó para los resultados de tareas de valor de estos tres elementos.
Importante: Si además se quiere obtener el alfa de Cronbach para los
elementos de ansiedad, se tendría que volver a ejecutar el análisis con sólo
los elementos de ansiedad que aparecen en los "Elementos" de la caja. Para
ejecutar el alfa de Cronbach con ambos conjuntos de elementos, valor de la
tarea y la ansiedad, sería un error porque esos seis puntos no están
diseñados para medir el mismo constructo y la alfa que resultaría sería
ininterrumpida.
zFigura 4
Análisis de Confiabilidad Ventana emergente
(D) Paso 4
Seleccione las estadísticas deseadas para el análisis. Haga clic en el botón
"Estadísticas" (ver Figura 4). Una vez que se selecciona el botón, aparecerá
una ventana emergente con la etiqueta "Estadísticas" aparecerá. Esta
ventana se muestra en la Figura 5 a continuación. Nota en la Figura 5, la
marca de verificación junto a "Escala" y "Escala de si el artículo
eliminado." Las cajas deben ser seleccionados. Después de seleccionar
estas dos opciones, a continuación, haga clic en el botón "Continuar" para
volver al "Análisis de Confiabilidad" pop-up ventana que se muestra arriba en
la Figura 4, a continuación, haga clic en el botón "Aceptar" para ejecutar el
análisis.
Figura 5
Opciones de estadísticas para el análisis de confiabilidad
3. Análisis de los resultados de Alfa de Cronbach
(A) alfa total
La figura 6 muestra a continuación algunos de los resultados obtenidos a
partir de SPSS. La flecha roja señala el alfa global de los tres elementos de
valor de la tarea. Como los resultados de la Figura 6 muestran, alfa total es
0.907, lo cual es muy elevada e indica una fuerte consistencia interna entre
los tres temas valor de la tarea. Esencialmente, esto significa que los
encuestados que tienden a seleccionar puntajes altos para un producto,
también han tendido a seleccionar altas puntuaciones de los demás, del
mismo modo, los encuestados que seleccionaron un bajo puntaje para un
elemento tienden a seleccionar las puntuaciones bajas de los elementos de
valor otras tareas. Por lo tanto, un elemento de valor de la tarea que le
permiten a uno predecir con cierta exactitud los resultados posibles para los
otros dos elementos de las tareas de valor. Si hubiera sido alfa bajo, esta
capacidad de proyección de valores de un elemento no sería posible.
Figura 6
Resultados estadísticos para el análisis de la fiabilidad (alfa global
resaltado)
(B) Se ha corregido correlación ítem-total
La figura 7 indica la columna que contiene la "Corrección de correlación
ítem-total" para cada uno de los elementos.Esta columna muestra la
correlación entre un elemento de tareas de valor determinado y la suma de
puntuación de los otros dos elementos. Por ejemplo, la correlación entre el
elemento de tarea Valor 1 y la suma de los puntos 2 y 3 (es decir, el punto 2
punto + 3) es de r = 0,799. Esto significa que hay una correlación fuerte y
positiva entre las puntuaciones en el item uno (punto 1) y la puntuación
combinada de los otros dos (Items 2 y 3). Esta correlación permite
determinar el nivel de consistencia interna de las puntuaciones de un
elemento con las puntuaciones compuestas de todos los demás elementos
destinados a medir el mismo item. Si esta correlación es débil (de Vaus
sugiere nada menos que 0,30 es una correlación débil con fines de análisis
de elemento [de Vaus (2004), Suveys en la investigación social, Routledge,
p. 184]), luego que el tema debe ser removido y no se utiliza para formar una
puntuación compuesta para la variable en cuestión. Por ejemplo, si la
correlación entre las puntuaciones correspondientes a la partida 1 y las
puntuaciones combinadas de los artículos 2 y 3 fue baja, por ejemplo r =
0,15, entonces cuando una puntuación compuesta, o la puntuación general,
de valor de la tarea se crea, hay que vamos a crear el compuesto utilizando
sólo los elementos 2 y 3 y pasar por alto las puntuaciones de la pregunta 1,
ya que no era consistente con los otros artículos. Esta decisión de eliminar
un elemento, sin embargo, no debe basarse exclusivamente en los
resultados del análisis de ítems - la teoría y la práctica también debe ser una
guía en cuanto a los elementos que debe ser retenido o eliminado.
Figura 7
Resultados estadísticos para el análisis de la fiabilidad (Corregido
correlación ítem-total)
(C) Alfa de Cronbach si el artículo eliminados
La figura 8 muestra el alfa de Cronbach que se produciría si un elemento
determinado se han eliminado. Al igual que la correlación ítem-total
presentado anteriormente en (b), esta columna de la información es valiosa
para determinar qué elementos de entre un conjunto de elementos
contribuye a la alfa total. El valor presentado en esta columna representa el
valor de alfa si el elemento dado no se incluyeron. Por ejemplo, para el ítem
de tareas de valor 1, el alfa de Cronbach si el artículo 1 se han suprimido
caería del total global de .907 a .880. Desde alfa se reduciría con la
eliminación de TV1, este artículo parece ser útil y contribuye a la coherencia
global del valor de la tarea. Punto 3, sin embargo puede ser menos
valioso. Alfa de Cronbach aumentaría .907 a .911 si el artículo 3 se han
eliminado o no se utiliza para calcular una puntuación de tareas de valor
general. Así que este artículo debe ser eliminado y si el compuesto de tareas
de valor global de crearse sólo desde los puntos 1 y 2? En este caso, la
respuesta es no, una vez debe retener los tres puntos. ¿Por qué? Nótese en
primer lugar que el alfa no se incrementa en gran medida de suprimir el
punto 3. En segundo lugar, tenga en cuenta que sigue siendo el punto 3 se
correlaciona muy bien con el puntaje compuesto de las partidas 1 y 2, la
correlación ítem-total para el artículo 3 es 0.759). Desde supresión del punto
3 resultados en pocos cambios, y desde el punto 3 se correlaciona bien con
la combinación de los puntos 1 y 2, no hay ninguna razón estadística para
colocar el punto 3. En este caso, la teoría y la práctica debe ser una guía en
cuanto a si se debe quitar o mantener el número 3. Si la redacción del punto
3 es teóricamente importante para medir el valor de la tarea, a continuación,
el punto 3 debe permanecer en la formación de la partitura compuesta para
el valor de la tarea.
Figura 8
Resultados estadísticos para el análisis de la fiabilidad (alfa de
Cronbach si el artículo suprimido)
4. La formación de combinación de los resultados
Cuando el análisis de la contribución de cada elemento es completa ---
análisis de elementos se ejecutan y volver a ejecutar cuando sea necesario
para considerar lo que sucede cuando los elementos se quitan --- entonces
es hora de avanzar hacia la creación de la partitura compuesta para la
construcción de que se trate . Por ejemplo, a partir del análisis anterior se
deduce que los tres elementos diseñados para medir el trabajo de tareas de
valor bien y contribuir a la fiabilidad global de valor de la tarea, así que todo
será retenido. Ahora se debe crear una banda sonora compuesta para llegar
a una medida de valor de la tarea de cada participante del estudio. A
continuación, en el Cuadro 4, son las puntuaciones de los tres elementos de
valor de la tarea de cada estudiante. Dos columnas se han añadido
nuevas. El primero muestra cómo crear una puntuación total de valor de la
tarea, la segunda una puntuación media de valor de la tarea.
El cálculo de una puntuación compuesta de la media ofrece dos ventajas. En
primer lugar, la puntuación compuesta calcula a partir de la media retendrá
la escala original de medición, el cual, en este ejemplo, oscila entre 1 a
5. Dado que las puntuaciones medias se ven limitados dentro de la métrica
original, por lo tanto son más fáciles de interpretar, es decir, la puntuación
media se puede entender dentro de la escala original. Así, por ejemplo,
puntuación media alumno A es 4,33 lo que indica que las puntuaciones del
estudiante estaban en el extremo superior de la gama de respuestas
mientras que las respuestas del Estudiante D's promedio hacia el extremo
inferior de los resultados (cercana a 1). Una segunda ventaja con la media
es que proporciona puntuación correctamente escalado compuesto cuando
falta de datos se produce siempre que la media se divide por el número de
elementos que contribuyen y no el número total de elementos. La función de
media SPSS y la función de medio de Excel realizar este ajuste
automáticamente.
Combinación de los resultados son importantes porque reflejan el conjunto
total de las respuestas a los ítems diseñados para medir el valor de la tarea,
en este ejemplo. Análisis basado en las puntuaciones de los elementos
individuales serían menos fiables y válidos. Teniendo en cuenta esto, todos
los análisis adicionales para responder a las preguntas de investigación
sobre valor de la tarea se centrará en la calificación global. Así, por ejemplo,
si estaban interesados en la diferencia en el valor de la tarea entre hombres
y mujeres, se podría realizar el ANOVA o t-test con la Tarea de puntuación
media de Valor para cada estudiante (o, si se prefiere, la puntuación se
suman para tareas de valor ). Del mismo modo, si se quisiera saber si valor
de la tarea se relaciona con la ansiedad, se podría calcular la r de Pearson
entre las puntuaciones medias de valor de la tarea y los y las puntuaciones
medias para la ansiedad --- r de Pearson se calcula en base a las dos
variables compuestas, una de Tareas de valor y una para la ansiedad.
Tabla 4
Resultado compuesto de valor de la tarea
Estudiante TV1 TV2 TV3
Opción 1 ---
Puntaje total de
valor de la tarea
Opción 2 --- puntuación
media para el valor de
la tarea
A 4 5 4 4 +5 +4 = 13 4 +5 +4 = 13/3 = 4,33
B 4 4 5 4 +4 +5 = 13 4 +4 +5 = 13/3 = 4,33
C 1 3 4 1 +3 +4 = 8 1 +3 +4 = 8/3 = 2,66
D 2 1 2 2 +1 +2 = 5 2 +1 +2 = 5/3 = 1,66
E 3 4 3 etc etc
F 1 1 1
G 5 5 4
H 4 4 4
I 2 3 4
J 1 2 1
Análisis de Series de Tiempo
Es un conjunto de mediciones de cierto fenómeno o experimento
registradas secuencialmente en el tiempo, por ejemplo a cada hora,
mensualmente, trimestralmente, semestralmente, etc.
Características
1. La mayor parte de las series temporales tienen una tendencia. Sus
valores medios varían a lo largo del tiempo. Ellas son variables o
series no estacionarias.
2. Algunas series suben y bajan sin una tendencia a revertir hacia algún
punto. Este comportamiento es una propiedad de muchas variables
no estacionarias. Esto es cierto en todas las series objeto de estudio,
con la excepción de la inflación y la tasa de interés.
3. Los cambios repentinos en la serie tienen un alto grado de
persistencia y toman tiempo para decaer. Esto es especialmente
cierto en las variables reales tales como la producción y la inversión.
4. Algunas series se mueven de forma conjunta, es decir tienen un co-
movimiento positivo. Por ejemplo, diferentes tasas de interés se
mueven en forma conjunta, al igual que lo hace la producción en
diferentes países.
Análisis de tendencia (Lineal y Curvilínea) mediante el método de los
mínimos cuadrados y el método de promedios móviles.
Las técnicas más ampliamente utilizadas para la estimación de las
tendencias son: Juicio gráfico, método de los mínimos cuadrados y método
del promedio móvil.
Juicio gráfico: la manera más simple de determinar o estimar una
tendencia futura es a través del juicio gráfico. Esto se logra visualizando la
gráfica y dibujando una línea o curva a mano alzada. La desventaja de este
método es que el trazado de la línea depende mucho del juicio individual y
puede no representar la situación real. Sin embargo, este método es útil
debido a que la habilidad para realizar análisis de sensibilidad (“que pasa si”)
ha aumentado con la introducción de las hojas de cálculo electrónicas.
Método de los mínimos cuadrados: el objetivo para la estimación de una
tendencia utilizando este método es encontrar “la línea del mejor ajuste”,
minimizando la suma de las desviaciones de una línea. Una vez que se
encuentra la línea de mejor ajuste ésta puede ser graficada, y la línea puede
ser extendida para estimar lo que pasará.
La línea de los mínimos cuadrados, se desarrolla a través de los puntos de
datos (X1, Y1), (X2, Y2),… (XN, YN), donde las coordenadas X significan los
periodos de tiempo y las coordenadas Y representan la variable que el
analista está tratando de predecir. La ecuación de la línea de los mínimos
cuadrados es expresada en la forma:
Y = m * X + b
Donde la variable m representa la pendiente de la línea y b representa el
punto de intersección con Y, el punto en donde la línea intercepta al eje de
las Y.
La ecuación de los mínimos cuadrados además puede ser encontrada de
una manera más eficiente mediante el método computacional que consiste
en el cálculo del centro de gravedad de lo datos tomando y x = X – �̂�, y y = Y
- �̂�y calculando luego la línea de mínimos cuadrados como
y =(∑𝑥𝑦
∑𝑥²)* x
y sustituyendo por último de regreso X – �̂� para x y Y - �̂� para y.
El método de los mínimos cuadrados tiene como ventajas la sencillez
con que puede sercalculado. La interpretación de los pronósticos así
preparados es fácil. Sin embargo, este métodotiene varias desventajas:
supone que la historia de ventas es un buen pronosticador del
futuro(limitación que por lo demás tiene todos los métodos basados en
series de tiempo), supone queno habrá cambios sustanciales en la
estrategia de marketing de la empresa ( es decir correspondea pronósticos
pasivos más que activos) y, por último, da la misma importancia a los ,
independientemente de su antigüedad. El sentido común indica que mientras
másreciente sea un dato histórico es probable que sea mejor estimador del
comportamiento futuropróximo de las ventas que un dato de 8, 10 o más
años de antigüedad.
Método de promedios móviles:este método es útil debido a que algunos
patrones estacionales, cíclicos y aleatorios pueden ser suavizados dejando
el patrón de tendencia. El principio tras los promedios móviles es calcular
mediante aritmética o datos de grupos de periodos usando la ecuación
𝑌1 + 𝑌2 +⋯+ 𝑌𝑁𝑁
Y calculando luego la siguiente media aritmética, descartando los datos del
periodo más antiguo y añadiendo datos del siguiente periodo.
𝑌1 + 𝑌2 +⋯+ 𝑌𝑁+1𝑁
Y de esta forma se dice que el periodo es móvil.
El método de promedios móviles es útil por su habilidad de suavizado, pero,
al mismo tiempo, tiene muchas desventajas. Primero, se pierden los
proyectados con precisión por el analista y el personal de contabilidad de la
empresa.
SPSS versión 10.0 (StatisticalProduct&ServiceSolutions) es un paquete
estadístico para el análisis de datos con más de 20 años de aplicación en la
investigación de las ciencias sociales y económicas.
SPSS es un conjunto de programas y subprogramas conectados de manera
que funcionan de manera conjunta permitiendo aplicar a un mismo fichero de
datos un conjunto ilimitado de procedimientos estadísticos de manera
sincronizada, sin salir del programa.
GENERALIDADES DEL SPSS
Es uno de los principales paquetes estadísticos. Otros importantes
ejemplos de paquetes estadísticos son SAS, Statistica, Mathlab,
Statgraphicsy Minitab. En el pasado, había otros paquetes estadísticos, como
BMDP y Systat, hoy absorbidos por la firma SPSS.
SPSS analiza con detenimiento las variables implicadas en la investigación,
con el propósito de construir un modelo único que sea capaz de explicar lo
que aconteció, tanto antes como después del análisis estadístico. De alguna
forma, SPSS trata de obtener información privilegiada a partir de la base de
datos.
Puede acceder a una gran variedad de fuentes de datos incluyendo dBase,
Lotus, Excel y a través de ODBC, Access Paradox, SQL Server, Oracle y
muchos más. Y permite utilizarlos mediante distintas funciones de
manipulación que permiten preparar los datos para el análisis de forma rápida
y sencilla, consiguiendo informes tabulares, gráficos y diagramas de las
distribuciones y de las tendencias.Contiene programas capaces de realizar
desde un simple análisis descriptivo hasta diferentes tipos de análisis
multivariante de datos, como pueden ser: análisis discriminante, análisis de
regresión, cluster, análisis de varianza, etc... También permite analizar series
temporales, obtener tablas de frecuencias, tablas de contingencia
comparación de medias, análisis de la varianza, pruebas no paramétricas,
correlación y regresión lineal múltiple. El análisis estadístico es accesible para
el usuario ocasional y muy práctico para el usuario experto.
El SPSS dispone de módulos opcionales que permite profundizar en
la estadística con nuevos procedimientos que mejoran las capacidades del
SPSS Base.
MODULOS OPCIONALES
Partes del SPSS
Está compuesto por varios programas o rutinas y subprogramas o subrutinas.
A los programas de SPSS se les llama módulos; a los componentes de un
programa (es decir, a los subprogramas), se les conoce con el nombre de
procedimientos.
Así, por ejemplo, el paquete estadístico SPSS tiene, entre otros, los
siguientes programas o módulos:
· Avanzado
· Base
· Profesional
· Tendencias
A su vez, el módulo Base tiene, por ejemplo, los siguientes subprogramas o
procedimientos:
· Archivo (File)
· Frecuencias (Frequencies)
· Descriptivos (Descriptives)
· Tablas de Contingencia (Crosstabs)
ALGUNOS MODULOS OPCIONALES
ESTADISTICAS
PROFESIONALES
Regresión Logística. Regresión no lineal restringida y no restringida.
Cuadrados mínimos ponderados. Cuadrados mínimos en dos fases.
Escalado multidimensional. Modelos Logit y Probit y Análisis de
Fiabilidad.
ESTADISTICAS
AVANZADAS
Modelo Lineal General(GLM). Análisis Loglineal, Hiloglineal y Genlog.
Estimación de componentes de la varianza. Análisis de Supervivencia:
Estimación Kaplan-Meier, Regresión de Cox con covariables
dependientes en el tiempo. Modelos MANOVA. Biblioteca de Macros.
TABLAS Presentación de resultados de alta calidad mediante las nuevas tablas
pivote con una gran cantidad de opciones de formato y presentación de
estadísticos. Calcula más de 20 estadísticos automáticamente. Anida y
concatena en todas las dimensiones. Maneja datos de respuesta
múltiple. Manejo de valores omitidos. En respuesta múltiple, cálculo de
frecuencias y porcentajes basados en respuestas o casos.
TENDENCIAS Mejora sus previsiones con una potente herramienta de análisis de
series temporales. Desglosa series en sus componentes, guardando
los factores estacionales, tendencias cíclicas y componentes de error
automáticamente. Modelos ARIMA y Box-Jenkins: autorregresión,
diferenciación y medidas móviles, X11ARIMA estima factores
estacionales multiplicativos o aditivos. Alisado Exponencial.
CATEGORIAS Una solución completa para el análisis de Conjunto, procedimientos de
Escalamiento Optimo, análisis de Correspondencias y Mapas
Perceptuales. Medidas del impacto de atributos individuales en
producto o preferencias de consumidores. Genera tarjetas en las que
los entrevistados pueden ordenar para indicar preferencias en función
de los atributos.
PRUEBAS
EXACTAS
Pruebas exactas para el cálculo de valores de probabilidad, incluso si
se dispone de un conjunto pequeño de datos, pequeños subgrupos o
variables sesgadas.
VALORES
PERDIDOS
Si se han perdido valores de sus datos, este procedimiento puede
encontrar alguna relación entre los valores perdidos y otras variables.
Además, puede estimar cuál sería el valor si no faltaran datos y, la
media, la matriz de covarianza y la matriz de correlación a través de la
regresión o del algoritmo EM.
CHAID Una técnica de segmentación útil en cualquier situación donde se
necesite dividir la población en segmentos basados en un criterio
particular. CHAID es ampliamente utilizado en Marketing de Bases de
Datos, Gestión de Riesgos y Test Psicológicos, pero de utilidad para
cualquiera que trabaje con datos categóricos.
ANSWER TREE AnswerTree es una herramienta de segmentación que trabaja sobre
windows-95 y Windows NT, útil en cualquier situación que se necesite
dividi la población en conjuntos basados en un criterio particular.
AnswerTree es utilizado en Marketing de Base de Datos, Gestión de
Riesgos, Test Psicológicos. etc.
AMOS SPSS AMOS analiza las relaciones estructurales lineales y los modelos
de ecuaciones simultáneas. Los investigadores lo usan para realizar
análisis factorial de confirmación y desarrollo de modelos de rutas
causales, así como otras tareas.
TELEFORM Permite eliminar completamente el proceso de entrada manual de
datos cuando se realizan encuestas. Teleform permite crear formularios
y distribuirlos manualmente o por fax. Los cuestionarios devueltos
pueden ser leídos bien, vía módem o escáner. Teleform lee botones de
elección y escritura manual automáticamente.
MAPINFO Mapinfo, el software de mapas de sobremesa más vendido, permite
visualizar sus datos geográficamente. Creación de mapas temáticos
para visualizar sus datos. Permite elegir entre regiones geográficas
preestablecidas o crear sus propios contornos. Búsqueda dentro de
territorios de relaciones, patrones y tendencias.
QI ANALYST Mejore el control y la calidad de los procesos con este completo
paquete SPC. Contiene un amplio conjunto de estadísticos SPC y
genera automáticamente 23 gráficos. Reduce disconformidades y
tiempo malgastado. Estadísticos de capacidad como Cpk, Cr, Cp, y
Cpm. Estadísticos de distribución como asimetría, apuntamiento y chi-
cuadrado.
QI ANALYST
GAGE
Mide la calidad de los sistemas de medición a través de estudios de
repetibilidad y reproductibilidad (R&R) calibración.
AllCLEAR Herramienta para el diseño de diagramas de flujo, espina de pescado y
causa-efecto.
CLEAR Process Visualice, analice y mejore su proceso con una eficaz gestión de
diagramas de flujo y de procesos. Utilice CLEAR Process para ver
claramente su proceso y tomar decisiones basadas en una mejor
información para mejorarlo
NEURAL
CONNECTION
Para construir mejores modelos y más precisos. Incluye los términos
Multi-LayerPreceptron, Radical basisFunction y Kohonennetwork.
DIAMOND Explore visualmente sus datos con los innovadores procedimientos de
SPSS Diamond. SPSS le ayudará a visualizar relaciones complejas y
tendencias en datos multivariados, observar si se cumplen las hipótesis
requeridas para sus análisis e identificar puntos atípicos
REMARK OFFICE
OMR
Permite recoger fácilmente información desde formularios de papel y
tratarla con SPSS. Evita la entrada manual de datos pudiendo
realizarse automáticamente mediante scanner.
DELTAGRAF DeltaGraf le permitirá realizar mas de 70 tipos de graficos en función de
sus necesidades. Con este programa podrá realizar gráficos en 3D,
gráficos de Control, gráficos desegmentación, de supervivencia, etc.
Con DeltaGraf dispondrá de una herramienta flexible y fácil de usar.
TRIAL RUN Trial Run es una nueva herramienta par el diseño de experimentos.
Este programa le ofrece 41 tipos de diseños, seis tipos de gráficos y un
amplio rango de resultados estadísticos.
DATA ENTRY SPSS Data Entry es una solución flexible y rápida para diseñar un
cuestionario y recoger los datos inmediatamente. Cuenta con una gran
variedad de ejemplos para adaptar nuestro cuestionario a las
necesidades reales. Data Entry validará los datos que se introduzcan
mediante una serie de reglas y chequeará que los datos son correctos
en todo momento.
TEXTSMART TextSmart utiliza procesos estadísticos para analizar automáticamente
una lista de palabras clave obtenida de las respuestas abiertas de un
estudio y agrupar cada respuesta en categorías de similar significado
en tan solo unos minutos. Un conjunto de tablas y gráficos permite
verificar las categorías y definirlas rápidamente en nuestros informes.
SAMPLEPOWER SamplePOwer permite a los profesionales de Marketing e
investigadores en general, determinar el tamaño de muestra para
investigación antes de que los datos sean recogidos. Una intuitiva guía
de usuario permite obtener un tamaño adecuado a través del nivel de
confianza, efectos esperados y necesidades del investigador.
NEWVIEW NewView es una herramienta para el análisis de datos e informes. Este
nuevo programa es la única manera de realizar informes analíticos
combinado las características de los convencionales paquetes de
análisis de datos y las herramientas de Query&Reporting (Q&R).
NewView ofrece innovadoras funciones en el área de accesos a datos,
informes analíticos y distribución.
SMART VIEWER SPSS Smart Viewer permite a los usuarios crear informes y gráficos
interactivos en formato electrónico para que la empresa y sus clientes
puedan vía WWW, e-mail o disquete, acceder a la información y
gráficos reflejados en los informes.
TABLE CURVE 2D TableCurve 2D es el primer y único programa que combina el poder de
realizar gráficos en 2Dy la habilidad de encontrar la ecuación ideal que
describe las dos dimensiones del gráfico. TableCurve 2D le presentará
el conjunto de las mejores ecuaciones ajustadas y toda la información
que necesita para elegir la ecuación que mejor se adapte a sus
necesidades.
TABLE CURVE 3D TableCurve 3D es el primer y único programa que combina el poder de
realizar gráficos en 3Dy la habilidad de encontrar la ecuación ideal que
describe las dos dimensiones del gráfico. TableCurve 3D le presentará
el conjunto de las mejores ecuaciones ajustadas y toda la información
que necesita para elegir la ecuación que mejor se adapte a sus
necesidades.
STAT XACT StatXact es una solución completa para todas las necesidades en
análisis categóricos y no-paramétricos. Utiliza mas de 90 test
estadísticos para analizar pequeños grupos de datos, análisis de
subconjuntos en grandes conjuntos de datos y grandes conjuntos de
datos con valores extraños.
LOG XACT Los análisis de regresión logística son muy útiles cuando se trata de
predecir variables dicotómicas. En pequeños grupos de datos, el
análisis de regresión logística común puede provocar problemas de
convergencia y puede producir errores en la estimación. Log Xact
proporciona los p-valores exactos, intervalos de confianza y test de
hipótesis para resolver estos problemas con pequeños grupos de
datos.
Aplicación no pueden leer los resultados de la versión 10.0.
El SPSS dispone de varias ventanas:
La Ventana de Aplicación
El Editor de Datos
El Visor
El Visor de Borrador
El Editor de Tablas
El Editor de Gráficos
El Editor de Resultados de Texto
El Editor de Sintaxis
El Editor de Procesos
Se puede trabajar de dos formas con el SPSS:
Forma Interactiva: se selecciona directamente el procedimiento y se
ejecuta.
Proceso por Lotes: Se ejecutan uno tras otros los comandos que
contiene un fichero de sintaxis o al menos los seleccionados.
Los Comandos son instrucciones que constan de palabras claves y de
especificaciones. Las primeras son los nombres de los comandos y de
los subcomandos, y las segundas hacen referencia a la información que
necesita el SPSS para adaptar la ejecución de la instrucción a sus datos
y objetivos.
Tipos de comandos:
Comandos de Operación. Indican al sistema la forma de operar,
definiendo el entorno de trabajo de una sesión del SPSS.
Comandos de Definición y Manipulación de Datos. Proporcionan al
sistema información sobre los datos a analizar, y las modificaciones que
se quiere realizar con ellos.
Comandos de Procedimiento. Transforman los datos mediante la
carga y ejecución de los subprogramas correspondientes a los procesos
a realizar.
Existen algunos botones que aparecen en todos los
cuadros de diálogo. Estos son:
Aceptar: Ejecuta el procedimiento elegido y
cierra la ventana.
Pegar: Crea una ventana de sintaxis que incluye
los comandos equivalentes al procedimiento
seleccionado.
Restablecer: Deselecciona cualquier variable
seleccionada, y restablece el cuadro de diálogo con las opciones que
trae por defecto.
Cancelar: Cancela los cambios hechos, y cierra la ventana.
Ayuda: Abre una ventana con información sobre el procedimiento.
En el menú principal de SPSS podemos encontrar los siguientes
submenús:
Archivo: Se utiliza para abrir, grabar, imprimir ficheros, y leer datos
del SPSS u otras aplicaciones.
Edición: Sirve para cortar, copiar, buscar y recuperar datos o texto.
Ver: Sirve para mostrar u ocultar la barra de herramientas, cambiar
la fuente de las letras, mostrar la cuadrícula, mostrar las etiquetas de
valor.
Datos: Aquí se hacen los cambios del fichero de datos: combinar
ficheros, trasponer variables y casos, agrupar casos, etc.
Transformar: Para realizar cambios en determinadas variables,
crear variables nuevas a partir de otras.
Analizar: Aquí se encuentran todos los procedimientos estadísticos.
Gráficos: Sirve para crear Gráficos de Barras, Histogramas,
Diagramas de Sectores, Gráficos de Dispersión, etc.
Utilidades: Visualiza la información sobre el contenido del fichero, o
definir grupos de variables.
Ventana: Se utiliza para activar/desactivar los iconos, para cambiar
el diseño de la ventana de salida o la de sintaxis, o cambiar el entorno
del SPSS.
?.: Abre una ventana de ayuda que contiene información sobre el
uso de cualquier característica o procedimiento.
En la parte inferior de la pantalla podemos encontrar la barra de estado,
que proporciona la siguiente información:
Estado del Comando: Indica el número de casos procesados hasta
el momento, en la ejecución de un procedimiento, o que el sistema está
preparado.
Estado del Filtro: El filtrado indica que se ha seleccionado una
muestra aleatoria o subconjunto de casos del fichero.
Estado de Ponderación: La ponderación indica que se está
utilizando una variable de frecuencias para ponderar los casos en el
análisis que se vaya a realizar.
Estado de división del archivo: La segmentación indica que se ha
dividido el fichero de datos en varios grupos.
En la ventana principal podemos encontrar una serie de iconos, cuya
utilidades son:
Abrir archivo: Permite abrir un archivo del tipo de la ventana activa:
datos, resultados, sintaxis, o de gráficos.
Guardar archivo: Guarda el fichero de la ventana activa: datos
(.sav), resultados (.spo), sintaxis (.sps) o gráficos (.sct)
Imprimir: Muestra el cuadro de diálogo para imprimir el documento
de la ventana activa.
Recuperar cuadros de Diálogo: Muestra un listado con las
operaciones más recientes hechas con el SPSS.
Deshacer: Para deshacer la última operación llevada a cabo.
Ir a gráficos: Permite pasar de la ventana de datos a la de gráficos.
Ir a caso: Permite desplazar el cursor a un caso concreto en el
editor de datos.
Variables: Muestra una ventana con la lista de variables del fichero
cargado en el editor y la información de la variable seleccionada.
Buscar: Permite buscar una cadena de caracteres, en el editor de
datos o en la ventana de sintaxis.
Insertar caso: Sirve para insertar un caso por encima de la posición
del cursor. nInsertar variable: Se inserta una variable en la columna a la
izquierda de la posición del cursor.
Segmentar archivo: Divide el archivo del editor, según una
determinada condición o categorías de una variable.
Ponderar casos: Indica al sistema que alguna variable representa
las frecuencias absolutas de los valores.
Seleccionar casos: Sirve para elegir una muestra de casos del
archivo, según una condición, de forma aleatoria, etc.
Etiquetas de valor: Conmuta entre los valores de la variable y sus
etiquetas
Usar conjuntos: Permite seleccionar los conjuntos de variables a
usar en los análisis.
Los resultados se muestran en el visor, que se puede emplear para:
examinar los resultados, mostrar u ocultar tablas y gráficos
seleccionados, cambiar el orden de presentación de los resultados
moviendo los elementos seleccionados y mover elementos entre el visor
y otras aplicaciones.
El visor se divide en dos paneles:
El panel izquierdo muestra una vista de titulares del contenido.
El panel derecho contiene tablas estadísticas, gráficos y resultados
de texto.
Puede utilizar las barras de desplazamiento para examinar
los resultados o bien pulsar en un elemento de los titulares para ir
directamente a la tabla o gráfico correspondientes.
Puede pulsar y arrastrar el borde derecho del panel de
titulares para cambiar la anchura del mismo.
Funciones de los iconos del Visor:
Presentación Preliminar: Muestras los resultados dentro de la
página de acuerdo con el formato de ésta.
Exportar: Sirve para exportar el fichero de resultados con el fin de
leerlos con otra base de datos.
Ir a datos: Activa la ventana del editor de datos, y si está
minimizada la devuelve a su tamaño normal.
Seleccionar los últimos resultados: Selecciona los resultados del
último procedimiento.
Designar ventana: Sirve para indicar el visor que recogerá los
resultados.
Ascender: Sirve para subir los resultados a un nivel superior, dentro
de la numeración de los mismos.
Degradar: Realiza el proceso inverso al icono anterior.
Expandir: Muestra los resultados recogidos dentro del título de un
procedimiento.
Contraer: Recoge los resultados dentro de su título.
Mostrar: Muestra los resultados de un procedimiento que estaban
ocultos.
Ocultar: Se ocultan los resultados seleccionados.
Insertar encabezado: Sirve para introducir un encabezado en el
fichero de resultados.
Insertar título: Te permite crear un título para los resultados de un
determinado procedimiento.
Insertar texto: Sirve para introducir algún comentario en los
resultados.
A continuación, describiremos el uso de los iconos de la ventana de
gráficos del visor:
Identificación de puntos: Sirve para identificar cualquier punto en el
gráfico con el caso correspondiente.
Trama de relleno: Permite la selección del relleno a utilizar en el
gráfico.
Color: Sirve para seleccionar los colores del gráfico.
Marcador: Con él se elige la forma de la marca con que se realiza el
gráfico.
Estilos de línea: Permite elegir el estilo de las líneas que se usan en
el gráfico.
Estilos de barra: Permite seleccionar el formato de la barra que se
utiliza en los diagramas de barras.
Estilos de etiquetas de barra: Sirve para etiquetar las barras con los
valores numéricos que representan.
Interpolación: Permite la unión de los puntos del gráfico, mediante
diversos tipos de líneas.
Texto: Sirve para elegir el tamaño y la fuente del texto que
aparecen en el gráfico.
Rotación 3D: Permite realizar una rotación de los ejes, en los
gráficos tridimensionales.
Intercambiar ejes: Permite intercambiar la colocación de los ejes.
nDesgajar sector: Sirve para extraer de un diagrama de sectores un
sector circular.
Romper líneas en valores perdidos: Permite romper la continuidad
de las líneas en los gráficos, para indicar aquellos valores missing.
Opciones del gráfico: Permite modificar las opciones del gráfico.
Activar/Desactivar el modo giro: Según se pulse o no se activa o no
la posibilidad de girar el gráfico.
CONCLUSIONES
La aplicación del análisis de regresión simple permitirá estudiar
la relación que existe entre una variable independiente y otra
dependiente, utilizando el modelo de regresión.
El coeficiente de determinación es una medida de la bondad de
ajuste para la ecuación de regresión; este puede interpretar como la
proporción de la variación de la variable dependiente explicada por la
ecuación de regresión.
Se consideró la correlación como una medida descriptiva de la
intensidad de una relación lineal entre dos variables.
El análisis de correlación emplea métodos para medir la
significación del grado o intensidad de asociación entre dos o más
variables. Normalmente, el primer paso es mostrar los datos en un
diagrama de dispersión. El concepto de correlación está
estrechamente vinculado al concepto de regresión, pues, para que
una ecuación de regresión sea razonable los puntos muéstrales
deben estar ceñidos a la ecuación de regresión; además el coeficiente
de correlación debe ser: Grande cuando el grado de asociación es
alto (cerca de +1 o -1, y pequeño cuando es bajo, cerca de cero,
independiente de las unidades en que se miden las variables.
El anova permite distinguir dos modelos para la
hipótesisalternativa:
Modelo I o de efectos fijos en el que la H1 supone que las k
muestras son muestras de k poblaciones distintas y fijas.
Modelo II o de efectos aleatorios en el que se supone que las k
muestras, se han seleccionado aleatoriamente de un conjunto de m>k
poblaciones.
La serie de tiempo en estadística es un procesamiento de señales, y
econometría, una serie temporal es una secuencia de puntos de datos,
medidos típicamente a intervalos de tiempo sucesivos, y espaciados (con
frecuencia) de forma uniforme.
Con el fin de obtener un modelo de serie de tiempo, es necesario
estimar la tendencia y la estacionalidad. Para estimar la tendencia, se
supone que la componente estacional no está presente. La estimación se
logra al ajustar a una función de tiempo a un polinomio o suavizamiento
de la serie a través de los promedios móviles. Para estimar la
estacionalidad se requiere haber decidido el modelo a utilizar (mixto o
aditivo). Una vez estimada la tendencia y la estacionalidad se esta en
condiciones de predecir.
BIBLIOGRAFIA
Casuso, Rafael L. "Cálculo de probabilidades e inferencia estadística",
UCAB. Caracas. 1996.
Mendenhall, Schaeffer y Wackely. "Estadística matemática con
aplicaciones", Edit. Iberoamérica. México. 1986.
Mendelhall, William y Sincich. "Probabilidad y estadística para ingeniería y
ciencias", Edit. Prentice may. México. 1997.
Miller, Irwin y otros. "Probabilidad y estadísticas para ingenieros", Edit.
Prentice may. 4ta edición. México. 1992.
Ross, Sheldon. "Probabilidad y estadísticas para ingeniería y ciencias", Edit.
Mc Graw Hill. México. 2001.
Universidad Simón Bolívar , Por: Hernando Sánchez Santibáñez
http://www.usb.edu.co/facultades/administracion/publicaciones/regresion_cor
relacion.pdf
WALPOLE, Myers y Myers (1998), "Probabilidad y Estadística para
Ingenieros", Edit. Prentice Hall, México.
RINCÓN PINO, María YsabelUNIVERSIDAD NACIONAL, FEDERICO
VILLARREAL, MAESTRÍA EN SALUD REPRODUCTIVA
top related