numeros aleatorios
DESCRIPTION
NUMEROS ALEATORIOS CASOS PARA INFERENCIA ESTADISTICA SPSS.TRANSCRIPT
Universidad Católica del Maule Facultad de Ciencias de la Ingeniería Escuela de Ingeniería civil Informática
Análisis de Probabilidades Con SPSS
Tutorial y ejemplos.
DATOS PERSONALES
Alumno: Paulina Quezada Muñoz. Profesor: Luis Cofré Rojas Facultad: Ciencias de la Ingeniería
Escuela: Ingeniería Civil Informática Asignatura: Inferencia Estadística Fecha: Junio del 2014
1
1. CONTENIDOS
1. Contenidos……………………………………………………………………………………………….1
2. Introducción…………………………………………………………………………………………….2
3. Ejecución del SPSS…………………………………………………………………………………….3
4. Creación de Datos……………………………………………………………………………………..4
5. Análisis de Medidas Descriptivas……………………………………………………………….8
5.1. Media…………………………………………………………………………………………………8
5.2. Mediana……………………………………………………………………………………………..9
5.3. Moda…………………………………………………………………………………………………10
5.4. Gráficos……………………………………………………………………………………………..11
6. Inferencia Estadística……………………………………………………………………………….13
6.1. Estimadores puntuales………………………………………………………………………13
6.1.1. Media……………………………………………………………………………………...13
6.1.2. Varianza………………………………………………………………………………….13
6.1.3. Desviación Estándar………………………………………………………………..13
6.2. Intervalos de Confianza……………………………………………………………………...14
7. Prueba de Hipótesis…………………………………………………………………………………16
7.1. Prueba para 1 muestra (Media)……………………………………………………….…16
7.2. Comparación de 2 muestras (Medias)…………………………………………………17
7.3. Comparación de 2 muestras (ANOVA)………………………………………………...18
8. Pruebas de Asociación y Regresión…………………………………………………………....19
8.1. Correlaciones………………………………………………………………………………….….19
8.2. Regresiones………………………………………………………………………………………..21
9. Ejemplos de experimentos estadísticos…...………………………………………………....22
2
2. INTRODUCCIÓN
En este tutorial se realizará una introducción al programa SPSS con el objetivo de facilitar su rápida utilización por un usuario sin conocimientos previos, bajo el supuesto de que los datos para el análisis proceden de una encuesta y que por tanto deberán codificarse para su posterior procesamiento. Empezaremos diciendo que el SPSS es un programa adaptado al entorno de Windows, por lo cual su forma de ejecutarse es a través de ventanas, que despliegan diferentes menús con distintas opciones. Es uno de los programas estadísticos más conocidos teniendo en cuenta su capacidad para trabajar con grandes bases de datos y un sencillo interface para la mayoría de los análisis. También nos permite realizar análisis y gráficos estadísticos sin tener que conocer la mecánica de los cálculos ni la sintaxis de los comandos del sistema. Además utiliza un análisis predictivo que nos ayuda a anticipar los cambios de manera que podamos planificar e implementar estrategias que mejoren nuestros resultados. Más adelante veremos las distintas formas de tomar las muestras de análisis y con
ellas se describirá la introducción de datos ó su captura desde otros programas
tales como la hoja de cálculo de Excel, y en un posterior apartado se explicarán
algunas operaciones básicas con el SPSS, tales como las medidas descriptivas (la
media, mediana, varianza, etc.), las medidas de inferencia estadística (estimadores,
intervalos de confianza), la prueba de hipótesis (En donde compararemos las
distintas muestras), la prueba de asociación y regresión.
3
3. EJECUCIÓN DEL SPSS
Una vez instalado el programa SPSS en su ordenador una opción para ejecutar el programa es seguir la ruta (la ruta varía un poco según la versión del SPSS): Mi PC/Disco Local(C:)/Archivos de Programa/IBM/SPSS/ Statistics/spss.exe La otra opción es que, en ocasiones existe un icono de acceso directo en el escritorio, en este caso para ejecutar el SPSS, simplemente tendrá que hacer doble clic con el botón izquierdo del mouse sobre él.
Al ejecutar el programa desplegará la siguiente ventana con opciones:
En el cuadro de diálogo seleccionamos la opción “Introducir los datos”, luego de
esto tenemos varias opciones; introducir los datos manualmente, exportarlos de
otro lugar como por ejemplo de una hoja de Excel o simplemente copiar y pegar
una base de datos. A continuación se explicarán las opciones con detalle.
4
4. CREACIÓN DE DATOS
Lo primero que debemos hacer, luego de dar “clic” como se veía en la figura
anterior, veremos la siguiente pantalla:
Luego presionamos abajo donde dice “vista de variables” así:
Luego hacemos “doble clic” en la primera casilla y le otorgamos un nombre a la
variable que crearemos en este caso la llamaremos “Temperatura” luego
presionamos “enter” y automáticamente se llenaran los campos de los lados de la
siguiente manera:
5
Ahora presionamos donde dice “Medida” y colocamos “Escala”
Ahora volvemos hacer “clic” abajo donde dice “vista de datos”
6
Ahora introducimos los datos en la columna de nuestra variable “Temperatura”
puede ser manualmente haciendo “doble clic” en las casillas y rellenándolas hacia
abajo según el tamaño de la muestra:
También podemos exportar los datos desde otro lugar, como lo mencionamos
antes:
Aparecerá una pantalla donde seleccionamos primero el tipo de archivo que
buscamos en este caso es de Excel, luego buscamos nuestro archivo y
seleccionamos en “Abrir”
7
Luego aparecerá un cuadro de diálogo donde nos pregunta qué libro queremos
leer, en caso de que tuviera varios.
Luego se abrirá otra ventana donde irá mostrando los resultados de las
operaciones realizadas con nuestro programa, en este caso se muestra que se
exportaron satisfactoriamente los datos desde Excel.
Otra manera más sencilla es seleccionando los datos desde un documento, con el
botón derecho hacemos “clic” en copiar y luego en nuestro programa hacemos
“clic” con el botón derecho (debajo de la variable a llenar) y presionamos pegar y
listo.
8
5. ANÁLISIS DE MEDIDAS DESCRIPTIVAS
Ahora a través del conjunto de datos que hemos creado, analizaremos las medidas
descriptivas de tendencias centrales y de dispersión. En nuestro ejemplo tomamos
una muestra llamada “Temperatura” de 60 datos.
Seleccionamos la columna completa de la variable Temperatura y nos vamos a la
barra de herramientas donde dice “Analizar” y con ella podemos obtener los
siguientes datos:
5.1 La Media:
Es un promedio estándar, en donde se suman el valor de todas las muestras y se divide por el número total de éstas.
Ahora para obtener la media seleccionamos en la lista de “Analizar” donde dice
“Estadísticos Descriptivos” y luego elegimos cualquiera de las dos opciones puede
ser en “Frecuencias” o en “Descriptivos”.
9
Y se nos abre un cuadro de diálogo en donde debemos seleccionar la variable
analizar y traspasarla al recuadro, luego presionamos en opciones donde se abrirá
un nuevo cuadro y seleccionamos la casilla donde dice “Media”, luego presionamos
continuar y posteriormente aceptar.
A continuación se abre una ventana con los resultados:
5.2 La Mediana:
Representa el valor de la variable de posición central en un conjunto de datos
ordenados. Para obtener la mediana nos vamos a: Analizar -> Estadísticos
Descriptivos -> Frecuencias.
10
Resultado
5.3 La Moda:
La moda es el valor con una mayor frecuencia en una distribución de datos. Para
obtener la moda seguimos los pasos anteriores: Analizar -> Estadísticos
Descriptivos -> Frecuencias. Como ya habíamos seleccionado antes la variable
Temperatura solo presionamos en Estadísticos y cambiamos de selección a la
Moda, colocamos continuar y luego aceptar.
Resultado
11
5.4 GRÁFICOS:
Para obtener un gráfico debemos buscar en las herramientas donde diga “Gráficos”
y luego en generador de gráficos, se abrirá un cuadro con un mensaje que ponemos
aceptar y se abrirá una ventana con todas las opciones de los diferentes tipos de
gráficos que existen. Elegimos un dibujo para el gráfico haciendo “doble clic” en él
y nos mostrará otro cuadro el cual cerraremos y aparecerá el gráfico pidiendo que
le ingrese las coordenadas y arrstramos una de las muestras hacia el “eje y”
12
Resultado
13
6. INFERENCIA ESTADÍSTICA
6.1 Estimadores Puntuales:
Corresponde a la Media (que ya vimos anteriormente), la Varianza y la
Desviación Estándar.
6.1.1 La Media:
Se encuentra explicada en el punto 5.1
6.1.2 La Varianza:
La varianza puede pensarse como el “promedio” de las distancias hasta la media al
cuadrado. Para calcular la varianza seguimos los pasos anteriores: Analizar ->
Estadísticos Descriptivos -> Frecuencias. Como ya habíamos seleccionado antes la
variable Temperatura solo presionamos en Estadísticos y cambiamos de selección
a la varianza, colocamos continuar y luego aceptar.
Resultado
6.1.3 Desviación Estándar:
La desviación estándar ó desviación típica mide cuánto se separan los datos y su
fórmula es la raíz cuadrada de la varianza. Se siguen los mismos pasos anteriores:
Analizar -> Estadísticos Descriptivos -> Frecuencias, luego en el cuadro
seleccionamos Estadísticos y marcamos la desviación típica.
14
Resultado
6.2 Intervalos de Confianza:
Es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. Para nuestro ejemplo obtendremos los intervalos de confianza del 90%, 95% y 99%. Debemos seguir los siguientes pasos: Analizar -> Estadísticos descriptivos -> Explorar, luego aparecerá un cuadro donde debemos poner el porcentaje que deseamos
15
Para los demás intervalos de confianza se repiten los mismos pasos, pero se va
cambiando donde dice el porcentaje a 95% y luego a 99%, a continuación se
muestran los resultados de los 3 intervalos con su respectivo diagrama de caja:
Para el 90% los resultados son:
Para el 95% los resultados son:
16
Para el 99% los resultados son:
17
7. PRUEBA DE HIPÓTESIS
7.1 Prueba para 1 muestra (Media):
Debemos seleccionar la muestra ir a: Analizar -> Comparar medias -> Medias,
luego saldrá un cuadro de diálogo en donde debemos seleccionar la variable, en
este caso se llama Temperatura, luego presionamos en “opciones” y se abrirá otro
cuadro con opciones y ponemos continuar y finalmente aceptar.
Resultado
18
7.2 Comparación de 2 muestras (Medias):
Lo primero que debemos hacer es crear otra muestra siguiendo los pasos
explicados anteriormente, en este caso crearemos otra variable llamada “Escala”.
Teniendo listas nuestras variables las seleccionamos y vamos a: Analizar ->
Comparar medias -> Prueba T para muestras relacionadas, luego aparecerá un
cuadro de diálogo donde debemos seleccionar una muestra y presionar la flecha de
al medio luego seleccionamos la otra muestra y presionamos nuevamente la flecha.
Ahora presionamos en opciones donde aparecerá un pequeño cuadro preguntando que
intervalo de confianza desea obtener, ponemos continuar y finalmente aceptar, en este caso
repetiremos las operaciones para obtener los 3 intervalos del 90%,95% y 99%
Resultado
19
7.3 Comparación de 2 muestras (ANOVA):
Seleccionamos las muestras vamos a: Analizar -> Comparar medias -> ANOVA de un
factor, seleccionamos una muestra (Temperatura) y con la primera flecha hacemos “clic”,
seleccionamos la otra muestra (Escala) y con la segunda flecha hacemos “clic”, luego vamos a
opciones donde se abrirá otro cuadro, seleccionamos la casilla de Prueba de Homogeneidad de
las varianzas, luego ponemos continuar y finalmente aceptar.
Resultados
20
8. PRUEBAS DE ASOCIACIÓN Y REGRESIÓN
8.1 Correlaciones:
Debemos seleccionar las 2 muestras y luego dirigirnos a: Analizar -> Correlaciones
-> Bivariadas luego aparecerá un cuadro de diálogo en donde debemos pasar las
dos muestras con la flecha, listo eso presionamos en opciones donde se abrirá otra
ventana y seleccionaremos la casilla de y Medias y Desviaciones típicas, ponemos
continuar y luego aceptar.
Resultados
21
8.2 Regresiones:
Seleccionamos las muestras y nos vamos a: Analizar -> Regresión -> Lineales y se
abrirá un cuadro de diálogo donde seleccionaremos con la flecha una muestra para
Dependientes y la otra para Independientes, luego vamos a Estadísticos y
seleccionamos las casillas de Estimaciones y la de Ajustes del modelo, ponemos
continuar y después aceptar.
Resultados
22
9. Ejemplos de experimentos estadísticos.
Tabla 1. Calor empleado para cinco niveles de aislamiento.
Según los datos de la tabla 1, Son los resultados de un diseño completamente
aleatorizado para el cual la respuesta son los kilowats hora, empleados por los
sistemas de calentamiento (en cientos de kilowats hora) para casas muy similares
en un mes dado, como función de cinco niveles de aislamiento térmico (En
pulgadas). Supongase un error tipo I con alfa igual a 0,01.
23
Como resultado el Software SPSS nos dará:
24
25
26
Tabla 2. Contenido en peso para un efecto de llenado.
Una planta de enlatado emplea un numero muy grande de maquinas para su
proceso de llenado. Se da por hecho que cada maquina vacia un un peso
especificado en cada lata. El gerente de la planta sospecha que existe un a gran
variación en la cantidad del producto que se vacia entre las distintas maquinas.
Para verificar la sospecha, a elegido al azar cuatro maquinas y pesa el contenido de
cinco latas elegidas de forma aleatoria, llenadas por cada una de las 4 maquinas.
27
Como resultado el Software SPSS nos dará:
28
29
La secuencia para realizar un ANOVA es:
Analizar
Comparar medias
ANOVA de un factor
Se abre el siguiente cuadro de diálogo:
Se selecciona la variable que se considera Dependiente y la variable Factor y con el
botón Opciones se activan EstadísticosDescriptivos y Homogeneidad de varianzas.
Al aceptar en el visor de resultados aparecen los siguientes cuadros:
Descriptivos. Recoge la media, la desviación típica, el intervalo de confianza del 95% (por defecto) para la media correspondientes a la variable dependiente para cada uno de los grupos definidos por el factor.
Prueba de homogeneidad de varianzas. Contiene el valor del estadístico de Levene del contraste de la hipótesis de homoscedasticidad con el nivel de significación crítico.
ANOVA. Contiene las sumas de cuadrados inter-grupos, intra-grupos y total,
sus correspondientes grados de libertad y el valor del estadístico de prueba
F junto con el nivel de significación crítico.
30
Como complemento gráfico de este análisis, para obtener una primera
aproximación acerca de si es razonable o no la hipótesis nula, se
selecciona Gráficos > Barras de error y se activa la opción Simple. Con el
botón Definir se abre el siguiente cuadro de diálogo:
Se selecciona en Variable la variable dependiente del ANOVA y en el Eje de
categorías la variable factor. El intervalo de confianza
para la media se calcula por defecto al 95% de confianza. Al aceptar aparece en el
visor de resultados los puntos que respresentan a la media de cada grupo junto
con los límites del correspondiente intervalo de confianza para la media
poblacional. Si los puntos que representan las medias están desigualmente
distribuidos en el gráfico se tiene un indicio de que a nivel poblacional no puede
sostenerse la hipótesis de igualdad de medias; es decir, por lo menos uno de los
niveles del factor influye significativamente sobre la variable dependiente.
EJEMPLOS
Con los datos de la encuesta sobre transporte, Enctrans.sav, razonar si puede
aceptarse que el tipo de transporte utilizado, Trans, influye sobre la variable tiempo.
Con la opción de menú Gráficos > Barras de error > Simple y con el botón Definir se
selecciona como Variable Tiempo y enEje de categorías la variable Trans; al aceptar
se obtiene la siguiente representación gráfica:
31
Como puede observarse, los puntos que representan a las medias de cada grupo
aparecen dispersos a diferentes niveles; sobre todo la media del grupo definido
por el factor Tren. El intervalo de confianza para la media correspondiente al
grupo definido por el factor Metro está contenido dentro del intervalo
correspondiente al grupo definido por el factor Bus, así como, el intervalo
correspondiente al factor Coche está contenido dentro de los intervalos
correspondientes definidos por los factores Metro y Otros. El gráfico, por tanto,
parece sugerir no una única población sino tres poblaciones con distintas medias.
Para realizar el análisis de la varianza propiamente dicho la secuencia es Analizar >
Comparar medias > ANOVA de un factor. En el cuadro de diálogo se selecciona
Tiempo como variable Dependiente y Trans como Factor. Para contrastar la
hipótesis de igualdad de varianzas se abre con el botón correspondiente el cuadro
de diálogo ANOVA de un factor: Opcionesy se activa Homogeneidad de varianzas. Si
se desea un análisis descriptivo del comportamiento de la variable dependiente
dentro de cada grupo se activa también la opción Descriptivos. Al aceptar se
obtienen los siguientes cuadros de resultados:
32
Este cuadro contiene un análisis descriptivo de la variable dependiente por grupos,
así como, los límites superior e inferior para la media de cada grupo al 95% de
confianza.
El estadístico de Levene toma un valor lo suficientemente pequeño para no
rechazar la hipótesis de homocesdaticidad a los niveles de significación habituales.
En el cuadro de resultados del ANOVA, el valor del estadístico de prueba, F=6,450,
es significativamente distinto de 1 para cualquier nivel de significación y, por lo
tanto, se rechaza la hipótesis nula de igualdad de medias y queda confirmada la
primera impresión proporcionada por el gráfico de barras de error.