Download - La Prueba Chi-Cuadrado
TABLA DE CONTENIDO
INTRODUCCION_____________________________________________________________1
OBJETIVOS__________________________________________________________________2
MARCO TEORICO____________________________________________________________3
DISTRIBUCION CHI- CUADRADO. (²)______________________________________4
PRUEBAS DE BONDAD DE AJUSTE._________________________________________4
Definición.________________________________________________________________________4
Prueba para un ajuste uniforme________________________________________________7
Prueba de ajuste a un patrón especifico.______________________________________9
Prueba de Normalidad_________________________________________________________10
Tablas de Contingencia________________________________________________________16
CONCLUSION______________________________________________________________20
BIBLIOGRAFIA_____________________________________________________________21
ANEXOS____________________________________________________________________22
TABLA E – DISTRIBUCION NORMAL____________________________________________22
TABLA H – DISTRIBUCION CHI-CUADRADO____________________________________23
0
INTRODUCCION
Siempre que obtengamos muestras de una población, existe la cuestión de la
confiabilidad de los resultados obtenido por muestreo con respecto a la población.
Necesitamos saber si las diferencias entre los resultados obtenidos por muestreo y
los esperados de acuerdo con las leyes de las probabilidades son los suficientemente
pequeñas como para que no afecten las inferencias que deseamos obtener de los
datos para nuestro uso. En otras palabras, necesitamos saber si los datos obtenidos
son confiables y no contienen errores que puedan invalidar sus resultados.
Una de las medidas de la discrepancia mas útiles es la prueba Chi-cuadrado, la
cual viene proporcionada por el estadístico 2. Si 2 = 0, las frecuencias observadas y
teóricas coinciden completamente; mientras que si 2 >0, no coinciden exactamente.
A valores más grandes de 2 mayor discrepancia entre las frecuencias observadas y
esperadas.
1
OBJETIVOS
1. Comprender la importancia de comparar los resultados obtenidos por
muestreo, con los resultados esperados teóricamente con las leyes de la
probabilidad.
2. Aprender a aplicar la prueba 2 para diferentes supuestos o hipótesis de
acuerdo a los datos obtenidos.
3. Aprender el uso de tablas de contingencia para medir la relación entre
diferentes factores que afectan un conjunto de datos.
2
MARCO TEORICO
Las pruebas que requieren de un supuesto respecto a la población, se
denominan pruebas parametricas, debido a que tales pruebas dependen de estos
postulados y sus parámetros. En la practica, surgen muchas situaciones en las cuales
no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro
o sobre la forma de su distribución poblacional. Entonces se deben utilizar otras
pruebas que no dependan de un solo tipo de distribución o de valores parametricos
específicos. Estas pruebas se denominan no parametricas. Estas pruebas son
procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando
no son posibles los supuestos respecto a los parámetros o a las distribuciones
poblacionales. Dentro de estas pruebas se encuentran las de Chi-cuadrado (2), la del
Signo, de Rachas, de Mann-Whitney y otras.
Para el calculo del estadístico Chi-cuadrado (2, es necesario emplear tanto
observaciones de muestras como propiedades de ciertos parámetros de la población.
Si estos parámetros son desconocidos, hay que estimarlos a partir de la muestra.
Él numero de grados de libertad de un estadístico, generalmente denotado por
v, se define como el numero N de observaciones independientes en la muestra (o sea
el tamaño de la muestra) menos el numero k de parámetros de la población, que
debe ser estimado a partir de observaciones muéstrales. En símbolos, v = N- k.
En el caso del 2, el numero de observaciones independientes en la muestra es
N, de donde podemos calcular s. Sin embargo, como debemos estimar , k = 1 y v =
N-1.
3
DISTRIBUCION CHI- CUADRADO. (²)
Una de las herramientas no parametricas mas útiles es la prueba chi -
cuadrado (2). Al igual que la distribución t, la distribución Chi-cuadrado es toda una
familia de distribuciones. Existe una distribución Chi-cuadrado para cada grado de
libertad. a medida que se incrementa el numero de grados de libertad, la distribución
Chi-cuadrado se vuelve menos sesgada. Las dos aplicaciones más comunes de Chi-
cuadrado son las pruebas de bondad de ajuste y las pruebas de independencia a
través de las tablas de contingencia.
PRUEBAS DE BONDAD DE AJUSTE.
Definición.
Medidas sobre que tan cerca se ajustan los datos muestrales observados a
una forma de distribución particular planteada como hipótesis. Si el ajuste es
razonablemente cercano, puede concluirse que si existe la forma de distribución
planteada como hipótesis.
Las tomas de decisiones en los negocios muchas veces requiere que se pruebe
alguna hipótesis sobre una distribución poblacional desconocida. Por ejemplo, se
puede plantear la hipótesis que la distribución poblacional es uniforme y que todos
los valores posibles tienen la misma probabilidad de ocurrir. Las hipótesis que se
probarían son:
4
HO: la distribución poblacional es uniforme.
HA: la distribución poblacional no es uniforme.
La prueba de bondad de ajuste se utiliza entonces para determinar si la
distribución de los valores en la población se ajusta a una forma en particular
planteada como hipótesis, en este caso, una distribución uniforme. De la misma
manera que con todas las pruebas estadísticas de esta naturaleza, los datos
muestrales se toman de la población y estos constituyen la base de los hallazgos.
Si 2=0, las frecuencias observadas y esperadas coinciden completamente;
mientras que si 2>0, no coinciden exactamente. A valores más grandes de 2, mayor
discrepancia existe entre las frecuencias observadas y esperadas. Si existe gran
diferencia entre la frecuencia observada en la muestra y lo que se esperaría
observar, en tal caso es menos probable que la hipótesis sea verdadera. Es decir, la
hipótesis debe rechazarse cuando las observaciones obtenidas en la muestra difieren
tanto del patrón que se espera que ocurra la distribución planteada como hipótesis,
que no puede ser atribuida a un error de muestreo. En tales casos la hipótesis no es
lo suficientemente confiable para una buena toma de decisiones.
Por ejemplo, si se hace rodar un dado bueno, es razonable plantear como
hipótesis un patrón de resultados tal que cada resultado (un numero del 1 al 6)
ocurra aproximadamente un sexto de las veces. Sin embargo, si un porcentaje
significativamente grande o significativamente pequeño de números pares ocurre,
puede concluirse que el dado no esta balanceado adecuadamente y que la hipótesis
es falsa.
Para contrastar la hipótesis relativa a una distribución poblacional, se debe
analizar la diferencia entre las expectativas con base en la distribución planteada
como hipótesis y los datos reales que aparecen en la muestra. Esto es precisamente
lo que hace la prueba Chi-cuadrado de bondad de ajuste. Determina si las
5
observaciones muestrales se ajustan a las expectativas. La prueba toma la siguiente
forma:
k (Oi - Ei)²² = --------------- (1.1) i=1 Ei
en donde
Oi es la frecuencia de los eventos observados en los datos muestrales
Ei es la frecuencia de los eventos esperados si la hipótesis es correcta
k es el numero de categorías o clases
La prueba tiene K - m - 1 grados de libertad, en donde m es el numero de
parámetros a estimar.
Vale la pena notar que el numerador de la formula (1.1) mide la diferencia
entre las frecuencias de los eventos observados y las frecuencias de los eventos
esperados al cuadrado. Cuando estas diferencias son grandes, haciendo que ² se
incremente, debería rechazarse la hipótesis.
Dependiendo de los datos disponibles, podemos realizar la prueba de Chi-cuadrado
de bondad de ajuste de tres maneras, pruebas para una ajuste uniforme, pruebas de
ajuste para un patrón especifico y pruebas de normalidad.
6
Prueba para un ajuste uniforme
Esta prueba de Chi-cuadrado se usa cuando la frecuencia esperada para todas
las clases es uniforme, de aquí su nombre. Ilustramos esta prueba con el siguiente
ejemplo:
Chris Columbus, director de mercadeo de Seven Seas, Inc, tiene la responsabilidad de
controlar el nivel de existencia para cuatro tipos de botes vendidos por su firma. En el pasado
ha ordenado nuevos botes bajo la premisa de que los cuatro tipos son igualmente populares y
la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han
vuelto más difíciles de controlar, y Chris considera que debería probar su hipótesis respecto a
una demanda uniforme. Sus hipótesis son:
HO: La demanda es uniforme para los cuatro tipos de botes
HA: La demanda no es uniforme para los cuatro tipos de botes
Suponiendo uniformidad en la demanda, la hipótesis nula presume que de una
muestra aleatoria de botes, los navegantes de fin de semana comprarían un numero
igual de cada tipo. Para probar esta hipótesis, Chris selecciona una muestra de n=48
botes vendidos durante los últimos meses. Si la demanda es uniforme, puede esperar
que 48/4=12 botes de cada tipo se vendan. La Tabla 1.1 Muestra esta expectativa
junto con la frecuencia real vendida de cada tipo. Se nota que (Oi)=(Ei). Chris debe
determinar ahora si los números vendidos realmente en cada una de las categorías
K=4 esta lo suficientemente cerca de lo que se esperaría si la demanda fuese
uniforme. Aplicando la formula 1.1 tenemos el siguiente resultado:
TABLA 1.1
Tipo de Bote Ventas Observadas(Oi) Ventas Esperadas(Ei)
Pirate's Revenge 15 12
Jolly Roger 11 12
Bluebeard's Treasure 10 12
Ahab's Quest 12 12
48 48
7
Utilizando la formula (1.1) tenemos que:
(15-12)2 (11-12)2 (10-12)2 (12-12)2
2= ------------- + ------------ + -------------+ ------------ = 1.17 12 12 12 12
El valor 1.17 se compara con un valor critico de 2 tomando de la tabla H (ver
anexo). Debido a que no existen parámetros que tengan que estimarse, m=0 y
entonces los grados de libertad según su formula es igual a 4-0-1 = 3 grados de
libertad. Si Chris deseara probar al nivel del 5%, se encontraría que 20.05,3 > 7.815
Regla de decisión: “No rechazar si 2 < 7.815. Rechazar si 2>7.815
Gracias a que 1.17< 7.815, la hipótesis nula de que la demanda es uniforme
no se rechaza. Las diferencias entre lo que se observo en realidad, O i, y lo que Chris
esperaba observar si la demanda fuera la misma para los cuatro tipos de botes, Ei, no
son los suficientemente grandes como para refutar la hipótesis nula. Las diferencias
no son significativas y pueden atribuirse simplemente a un error de muestreo.
8
Prueba de ajuste a un patrón especifico.
En el ejemplo anterior, Chris asumió que la demanda de los cuatro tipos era la
misma. Los valores para la frecuencia esperada eran por ende las mismas. Sin
embargo, si los valores de los cuatro tipos de botes deben probarse contra un patrón
determinado, en el cual las frecuencias esperadas vienen dadas por un patrón
individual para cada categoría, tendríamos que realizar la prueba para un patrón
especifico dado. En este caso Ei se determina por Ei = npi, en donde pi es la
probabilidad individual de cada categoría y n es el tamaño de la muestra. Si
deseamos probar que las ventas reales se ajustan a las probabilidades dadas en la
tabla 1.2, teniendo probabilidades de 30%, 20%, 40% y 10% para cada una de las
categorías respectivamente, entonces debemos proceder como sigue:
TABLA 1.2
Tipo de Bote Ventas Observadas(Oi) Ventas Esperadas(Ei)
Pirate's Revenge 15 14.40
Jolly Roger 11 9.60
Bluebeard's Treasure 10 19.20
Ahab's Quest 12 4.80
48 48
(15-14.4)2 (11-9.6)2 (10-19.2)2 (12-4.8)2
2 = -------------+-------------+-------------+----------- = 15.4114.4 9.6 19.2 4.8
El valor 15.41 se compara con el valor critico de 2 tomado de la tabla H (Ver
anexo). De nuevo no existen parámetros que tengan que estimarse, m = 0 y
entonces los grados de libertad según su formula es igual a 4-0-1=3 grados de
libertad. De la misma manera deseamos probar al nivel del 5%, se encontraría que
20.05,3 > 7.815
Regla de decisión: “No rechazar si 2 < 7.815. Rechazar si 2>7.815
9
Dado que 15.41> 7.815, la hipótesis nula de que la demanda se ajusta a un
patrón especifico se rechaza. Las diferencias entre lo que se observo en realidad, Oi,
y lo que Chris esperaba observar si la demanda fuera la dada según la tabla 1.2 para
los cuatro tipos de botes, Ei, son los suficientemente grandes como para refutar la
hipótesis nula. Las diferencias son significativas y no pueden atribuirse simplemente
a un error de muestreo.
Prueba de Normalidad
Si nos encontramos frente a una cantidad grande de observaciones y
deseamos saber si estas se comportan de acuerdo a las reglas de la normalidad, es
decir que sus probabilidades pueden ser encontradas por medio de la Tabla del área
bajo la campana de Gauss o Curva Normal, entonces podemos utilizar la prueba Chi-
cuadrado para determinar el grado de ajuste con que esta distribución se acerca a la
distribución normal. Veamos el siguiente ejemplo:
Las especificaciones para la producción de tanques de aire utilizados en inmersión
requieren que los tanques se llenen a una presión promedio de 600 psi. Se permite una
desviación estándar de 10 psi. Las especificaciones de seguridad permiten una distribución
normal en los niveles de llenado. Deseamos determinar si los niveles de llenado se ajustan a
una distribución normal, o sea si cumplen con los requisitos establecidos, para hacerlo se
miden n = 1,000 tanques y se halla la distribución presentada en la tabla 1.3. Nuestras
hipótesis son:
HO: Los niveles de llenados están distribuidos normalmente.
HA: Los niveles de llenado no están distribuidos normalmente.
10
TABLA 1.3
PSI Frecuencia Real
0 y por debajo de 580 20
580 y por debajo de 590 142
590 y por debajo de 600 310
600 y por debajo de 610 370
610 y por debajo de 620 128
620 y por encima 30
Total 1,000
Igual que antes, la prueba requiere comparar estas observaciones reales con
las que esperaríamos encontrar si prevaleciera la normalidad. Para encontrar las
frecuencias esperadas debemos calcular las probabilidades de que los tanques
seleccionados aleatoriamente tengan los niveles de contenido en los intervalos
presentados en la tabla 1.3.
a) La probabilidad de que un tanque caiga en el primer intervalo P(0<X>%580). El
problema esta representado en la figura 1.3a. Debemos determinar el área
sombreada bajo la curva. Así:
X - Z=---------
-2 0 580 – 600Z=------------ = -2 O UN AREA DE 0.4772 (a) 10
Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228 (1)
De la misma manera encontramos las demás probabilidades como sigue:
11
b) La probabilidad de (580<X<590)
X - Z=---------
-2 -1 0
590 - 600Z=------------- = -1 O UN AREA DE 0.3413 (b)
10
Entonces:
P(580<X<590)=P(580) dado en (a) – P(590)=0.4772–0.3413=0.1359
(2)
c) La probabilidad de P(590<X<600)
Como la media es 600, Z = 0, entonces la probabilidad de P(0<X<590) es la misma
que (b). Entonces P(590<X<600) = 0.3413 (3)
-1 0
12
d) La probabilidad de P(600<X<610)
X - Z=----------
610 – 600 0 1Z=--------------- = 1 O UN AREA DE 0.3413 10
Entonces como la media de nuevo es 600, Z=0, la probabilidad de P(600<X<610) es
la misma que (b). Entonces P(600<X<610) =0.3413(4)
e) La probabilidad de (610<X<620)
X - Z=----------
610 – 600 0 1 2Z=------------ = 1 O UN AREA DE 0.1359
10
Dado que P(620) = P(580) y P(610) = P(590) por que están a la misma distancia de la
media z=0. Entonces por simetría podemos usar los mismos valores de z y las
mismas probabilidades dados en (2).
P(610<X<620) = P(X<610) – P(X<620) = 0.4772 – 0.1359 = 0.3413 (5)
13
f) La probabilidad de P(X>620)
X - Z=----------
620 – 600 0 2Z=------------- = 2 O UN AREA DE 0.4772
10
Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228 (6)
Se desea probar la hipótesis al nivel del 5%. Debido a que tanto la media como la
desviación estándar son dadas y no tienen que estimarse, m=0. Existen k=6 clases,
de manera que los grados de libertad son k-0-1=5. El valor critico de 2 en 20.05,5
=11.07
Regla de decisión: “No rechazar si 2 < 11.07. Rechazar si 2>7.815
Completamos los datos en la tabla 1.4 con los resultados anteriores y calculamos los
valores esperados Ei = npi.
14
TABLA 1.4
PSI Frecuencia
Real
Probabilidades
(pi)
Frecuencia esperada
(Ei)
0 y por debajo de 580 20 0.0228 22.8
580 y por debajo de 590 142 0.1359 135.9
590 y por debajo de 600 310 0.3413 341.3
600 y por debajo de 610 370 0.3413 341.3
610 y por debajo de 620 128 0.1359 135.9
620 y por encima 30 0.0228 22.8
1000 1.000 1000
Utilizando la formula (1.1) se tiene que:
(20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2
2=---------- + ----------- + ------------ + ------------- + ----------- + ----------
22.8 135.9 341.3 341.3 135.9 22.8
2 =8.63
De acuerdo a la regla de decisión la hipótesis no debe rechazarse. Las
diferencias entre lo esperado y lo que se observo con una media de 600 y una
desviación estándar de 10, a un nivel de 5%, pueden atribuirse a un error de
muestreo por debajo del nivel elegido, ya que el valor de 2 es inferior con respecto al
valor maximo esperado para una muestra distribuida de acuerdo a la distribucion
normal.
15
Tablas de Contingencia
Cuando estamos ante una tabla en la que las frecuencias que observamos
ocupan una sola fila, entonces decimos que estamos ante una tabla de clasificación
de entrada única o tabla 1 x c (Se lee 1 por c).
SUCESO E1 E2 E3 .... EK
Frecuencia observada o1 o2 o3 ok
Frecuencia esperada e1 e2 e3 ek
Si queremos investigar el acuerdo que existe entre las frecuencias observadas
y las frecuencias esperadas debemos hacerlo calculando el estadístico (1.1)
k (Oi - Ei)²² = --------------- i=1 Ei
Como antes, el estadístico (1.1) tiene una distribución muestral dada. El numero
de grados de libertad, v, de esta distribución Chi-cuadrado viene dado por c>1 y k>1
por:
1. V = (f-1)(c-1) si las frecuencias esperadas se pueden calcular sin recurrir a
estimaciones muestrales de los parámetros de la población.
2. V = (f-1)(c-1)-m si las frecuencias esperadas solo se pueden calcular
mediante estimación de m parámetros de la población a partir de
estadísticos de la muestra.
Una hipótesis común es suponer que las dos clasificaciones son mutuamente
independientes.
16
Las tablas de contingencia se pueden usar para generalizarse a mas dimensiones
como veremos en el siguiente ejemplo:
Naydisita Cabral es la directora de investigación de productos en MercaSid. En
su proyecto actual la señorita Cabral debe determinar si existe alguna relación entre
la clasificación de efectividad que los consumidores asignan a un nuevo producto y la
ubicación (Urbano o Rural) en el cual se utiliza. De los 100 consumidores a los que se
le practico la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales, La tabla
1.4 resume las clasificaciones hechas por cada consumidor en una tabla de
contingencia. La tabla tiene f = 3 filas y c = 2 columnas, existen fc = 6 celdas en la
tabla. Vale la pena observar que 31 clientes clasificaron el producto por encima del
promedio, 20 de ellos estaban en zonas urbanas.
Atributo B – Ubicación
Atributo A - Clasificación Urbano Rural Total
Por encima del Promedio 20 11 31
Promedio 40 8 48
Por debajo del Promedio 15 6 21
Total 75 25 100
La señorita Cabral desea comparar el atributo B (Ubicación) con el atributo A
(Clasificación del producto). Sus hipótesis son:
HO: La clasificación y la ubicación son independientes
HA: La clasificación y la ubicación no son independientes
Si la ubicación no tiene ningún impacto en la clasificación de efectividad,
entonces el porcentaje de residentes urbano que clasificaron el producto “por encima
del producto” debería ser igual al porcentaje de residentes rurales que clasificaron el
producto “por encima del promedio”. Este porcentaje a su vez debería ser igual al de
todos los usuarios que calificaron el producto “por encima del promedio”.
17
Como muestra la tabla 1.5 el 31% de todos los usuarios clasificaron el producto
“por encima del promedio”. Luego el 31% de los 75 residentes urbanos y el 31 % de
los 25 residentes rurales deberían dar esta clasificación si la clasificación y la
ubicación son independientes. Estos valores de (75)(0.31) = 23.3 y (25)(0.31) = 7.75
dan la frecuencia esperada para cada celda como podemos observar en la tabla 1.5.
Los demás valores se calculan de la misma manera.
TABLA 1.5
Atributo B - Ubicación
Atributo A - Clasificación Urbano Rural Total
Oi Ei Oi Ei
Por encima del Promedio 20 23.3 11 7.75 31
Promedio 40 36.0 8 12.0 48
Por debajo del Promedio 15 15.8 6 5.25 21
Total 75 25 100
La señorita Cabral hace la prueba de Chi-cuadrado utilizando la formula (1.1) y
encuentra que:
(20-23.3)2 (11-7.75)2 (40-36)2 (8-12)2 (15-15.8) 2 (6-5.25) 2
2 = --------- + ----------- + ---------- + -------- +------------ + ----------- = 3.7623.3 7.75 36 12 15.8 5.25
La prueba tiene = (f-1)(c-1) = (3-1)(2-1) = 2 grados de libertad. Si la señorita
Cabral fija en 10% el grado de tolerancia entonces 20.10,2 = 4.605.
Regla de decisión: “No rechazar la hipótesis nula si 2 < 4.605”
Por lo tanto la clasificación y la ubicación son independientes ya que 2<4.605.
18
CONCLUSION
Después de haber cumplido con los objetivos trazados al inicio de este trabajo,
podemos comprender mejor el alcance que tiene la prueba Chi-cuadrado en la
comparación de los resultados muestrales obtenidos y los esperados. La prueba por
su nombre indica erróneamente una complejidad que no tiene, ya que su desarrollo
es bastante sencillo. Esperamos poder hacer uso de esta herramienta estadística
para tomar mejores decisiones de negocios.
19
BIBLIOGRAFIA
Spiegel, Murray R., Estadística, Méjico, 1991, 556 págs.
Webster, Allen L., Estadística Aplicada a los Negocios y la Economía, Colombia,
2000, 640 págs.
20
ANEXOS
TABLA E – DISTRIBUCION NORMAL
21
TABLA H – DISTRIBUCION CHI-CUADRADO
22