test de bondad de ajuste
DESCRIPTION
test de bondad de ajusteTRANSCRIPT
31/03/2015
1
TALLER DE SIMULACION
Mg. José Rodríguez L.
Docente
UNIDAD IVTest de bondad de ajuste
Mg. José Rodríguez l.
Docente
31/03/2015
2
Objetivo de la Unidad IV
• Reconocer y aplicar Pruebasde bondad de ajuste paraaceptar o rechazar lasdistribuciones deprobabilidad sugeridas poranálisis del histograma.
• Reconocer y aplicar:
• Tets Chi- Cuadrado.
• Test Kolmogorov – Smirnov.
• Anderson Darling
UNIDAD IVChi-Cuadrado
Mg. José Rodríguez l.
Docente
31/03/2015
3
PRUEBAS DE BONDAD DE AJUSTE
• Cualquier aplicación de test de bondad deajuste responde al mismo principio:
• Si el valor Calculado > Valor Tabla (valorcrítico), entonces se rechaza la hipótesis.
• Esto es equivalente a decir que el erroracumulado de los datos con respecto a ladistribución teórica supera lo permitido.
PRUEBAS DE BONDAD DE AJUSTE
• 𝜒2 Calculado.
• Tabla (Crítico)
𝜒2 =
𝑖=1
𝑘(𝐹𝑂𝑖 − 𝐹𝐸𝑖)
2
𝐹𝐸𝑖
𝜒2
31/03/2015
4
PRUEBA JI-CUADRADO,X2
DE K. PEARSON• Sea X una variables aleatoria discreta con
valores x1,x2,…xn. Se propone una hipótesis H0,de que la distribución donde proviene lamuestra se comporta según un modeloteórico especifico.(Ej; Exponencial negativa).
• FOi, representa el numero de veces que ocurreel valor xi.
PRUEBA JI-CUADRADO,X2
DE K. PEARSON• FEi, frecuencia esperada proporcionada por el
modelo teórico.
• La prueba X2 hace uso de distribuciones delmismo nombre para probar la bondad delajuste.
31/03/2015
5
PRUEBA JI-CUADRADO,X2
DE K. PEARSON• Usualmente ocurre que FEi (y también FOi)
son muy pequeñas, entonces, se adopta elcriterio de agrupar los valores consecutivosde k intervalos adyacentes de estasfrecuencias esperadas, hasta que su suma seade al menos 5 observaciones
PRUEBA JI-CUADRADO,X2
DE K. PEARSONLa medida de X2 es dada por:
𝑋02 =
(𝐹𝐸𝑖 − 𝐹𝑂𝑖)
𝐹𝐸𝑖
2𝑘
𝑖=1
Para n, grande este estadístico de prueba tiene
una distribución 𝑿𝟐 aproximada con 𝜈 grados de
libertad
𝜈 = (𝑘 − 1) − (𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠)
31/03/2015
6
PRUEBA JI-CUADRADO,X2
DE K. PEARSON• La medida de X2 es dada por:
• El valor de k lo determina la cantidad devalores diferentes de la variable.
• Supongamos que los parámetros estimadosson la media y la varianza, esto es, 2parámetros estimados. Por lo tanto los gradosde libertad serán:
• ν=(k-1)-2=(k-3) grados de libertad
PRUEBA JI-CUADRADO,X2
DE K. PEARSON• La medida de X2 es dada por:
• Para calcular k, se emplea la Regla de Sturges.
• k=1+3.322 log10(N)
31/03/2015
7
PRUEBA JI-CUADRADO,X2
EJEMPLO• Se dispone de 50 datos obtenidos de una
población que registra la vida útil (enunidades de tiempo) de acumuladoresautomotrices de catorce celdas.
• Pruébese que la hipótesis nula de que lavariable aleatoria vida útil de losacumuladores sigue una distribuciónexponencial negativa, considérese un nivelsignificativo de alfa igual al 5%:
:
PRUEBA JI-CUADRADO,X2
EJEMPLO• DATOS: 8.22 2.63 0.41 2.33 0.51
2.23 1.62 2.34 0.77 0.23
2.92 0.33 0.54 3.32 2.33
0.76 1.51 5.09 0.29 2.92
1.06 2.78 5.59 1.73 1.7
0.84 4.78 0.52 2.56 6.43
3.81 1.51 1.46 0.02 3.21
0.97 4.03 0.23 3.33 7.51
4.49 1.07 1.4 3.49 0.33
0.19 3.25 0.69 1.27 1.85
31/03/2015
9
PRUEBA JI-CUADRADO,X2
EJEMPLO• Cálculos:
Para calcular la frecuencia deben marcar toda la columnay luego hacer un signo =
PRUEBA JI-CUADRADO,X2
EJEMPLO• Cálculos:
31/03/2015
10
PRUEBA JI-CUADRADO,X2
EJEMPLO• Cálculos:
Para que aparezca la frecuencia deben presionar las teclasSHIF + CTRL y ENTER
PRUEBA JI-CUADRADO,X2
EJEMPLO• Cálculos:
31/03/2015
11
PRUEBA JI-CUADRADO,X2
EJEMPLO• A continuación se arreglan los valores de
forma ascendente y, se calculan lasfrecuencias.
• Promedio de la muestra = 2.3
k Li Ls FO FO relat.
1 0.0 1.5 21 0.42
2 1.5 3.0 15 0.3
3 3.0 4.5 8 0.16
4 4.5 6.0 3 0.06
5 6.0 7.5 1 0.02
6 7.5 9.0 2 0.04
PRUEBA JI-CUADRADO,X2
EJEMPLO• A continuación se arreglan los valores de
forma ascendente y, se calculan lasfrecuencias.
• Promedio de la muestra = 2.3
k Li Ls FO FO relat.
1 0.0 1.5 21 0.42
2 1.5 3.0 15 0.3
3 3.0 4.5 8 0.16
4 4.5 6.0 3 0.06
5 6.0 7.5 1 0.02
6 7.5 9.0 2 0.04
31/03/2015
12
PRUEBA JI-CUADRADO,X2
EJEMPLO• Los últimos tres intervalos de clase no
alcanzan a contener las muestras mínimasrequeridas (5), se debe corregir.
k Li Ls FO
1 0.0 1.5 21
2 1.5 3.0 15
3 3.0 4.5 8
4 4.5 9.0 6
PRUEBA JI-CUADRADO,X2
EJEMPLO• Evaluando FE teórica.
• Se asume beta = 2
1
2
1.5
0
𝑒−12𝑥𝑑𝑥 = −[𝑒−
12𝑥]0
1.5 = −(𝑒−0.75 − 1) = 0.528
31/03/2015
13
PRUEBA JI-CUADRADO,X2
EJEMPLO• Evaluando FE teórica.
• Se asume beta = 2
1
2
1.5
0
𝑒−12𝑥𝑑𝑥 = −[𝑒−
12𝑥]0
1.5 = −(𝑒−0.75 − 1) = 0.528
PRUEBA JI-CUADRADO,X2
EJEMPLO• Evaluando.
• Valor de calculado es X2 es = 0.054
k Li Ls FO FO relat. FE . Terorica ((FO-FE)2)/FE
1 0.0 1.5 21 0.42 0.528 0.022
2 1.5 3.0 15 0.3 0.249 0.010
3 3.0 4.5 8 0.16 0.118 0.015
4 4.5 9.0 6 0.12 0.094 0.007
1.000 0.989 0.054
31/03/2015
14
PRUEBA JI-CUADRADO,X2
EJEMPLO• k=4
• Grados de Libertad son = (4- 1) – 1 = 2
• Número parámetros estimados: 1 (beta =media)
PRUEBA JI-CUADRADO,X2
EJEMPLO• Valor de X2 TABULADO= 5.99.
• Como X2 calculado = 0.054 < X2 TABULADO =5.99
• Se concluye que no se puede rechazar lahipótesis nula.
• La muestra viene de una distribuciónexponencial negativa con media 2.
31/03/2015
15
PRUEBA JI-CUADRADO,X2
EJEMPLO
PRUEBAS DE BONDADDE AJUSTE
TEST KOLMOGOROV – SMIRNOV
José Rodríguez l.
Docente Simulación
31/03/2015
16
TEST KOLMOGOROV – SMIRNOV
El test de Chi-Cuadrado puede considerarse como una
comparación entre la forma del histograma y la función
acumulada de probabilidad (estimada). Pero este test
evidencia una dificultad para el caso de distribuciones
continuas debido a que se debe decidir cómo especificar los
intervalos.
El test de bondad de ajuste K-S, a diferencia del Chi-
Cuadrado, compara una distribución empírica con una
función estimador ( 𝐹) de la distribución subyacente.
TEST KOLMOGOROV – SMIRNOV
Se aplica a variables continuas y su rango de aplicación
es más limitado que el de Chi - Cuadrado.
Sea F(y) función de distribución acumulada, de una
población que se toma una muestra y1, y2,…yn.
Supóngase que Y es una variable aleatoria continua
que tiene una función de distribución acumulada F(y).
Consideremos una muestra de n observaciones de Y:
y1, y2,…yn
31/03/2015
17
TEST KOLMOGOROV - SMIRNOV
TEST KOLMOGOROV – SMIRNOV
Reordenemos estos valores en forma ascendente, así,
y1≤ y2, ≤ … ≤ yn
Definamos la función acumulada empírica Fn(y) =
fracción de la muestra menor o igual a y .
Con ecuación:
𝑓𝑛(𝑦) = ( (𝑖 − 1)
𝑛 , 𝑠𝑖 𝑦(𝑖−1) ≤ 𝑦 ≤ 𝑦(𝑖) 𝑖 = 1,… ,𝑛
1, 𝑠𝑖 𝑦 ≥ 𝑦(𝑛)
𝑦0 = ∞
31/03/2015
18
TEST KOLMOGOROV – SMIRNOV
La medida estadística D de K-S se basa en la distancia
máxima entre F(y) y Fn(y):
Como F(y) y Fn(y) no son decrecientes y Fn(y) es constante
entre observaciones de muestra.
La desviación máxima se presentara ya sea en una de los
puntos de observaciones y1, y2, …, yn , o inmediatamente a la
izquierda de uno de ellos.
𝐷 = 𝑚𝑎𝑥 𝐹(𝑦) − 𝐹𝑖(𝑦)
TEST KOLMOGOROV – SMIRNOV
Para determinar el valor observado de D sólo se necesita
determinar el valor de la siguiente manera:
y también.
Ya que:
𝐷+ = max 𝑖
𝑛− 𝐹(𝑦𝑖) ; 1 ≤ 𝑖 ≤ 𝑛
𝐷− = max 𝐹(𝑦𝑖) −𝑖 − 1
𝑛 ; 1 ≤ 𝑖 ≤ 𝑛
𝐷 = 𝑚á𝑥(D+, D−)
31/03/2015
19
TEST KOLMOGOROV – SMIRNOV
Si H0 se supone de la forma F(y), pero se dejan sin especificar
algunos de los parámetros, entonces estos se deben estimar
a partir de los datos de la muestra antes de poder llevar
acabo la prueba.
Stephen en (1974) dio valores de corte de áreas superiores
de 0.15, 0.10, 0.05, 0.025, 0.01 para una forma modificada
de la tabla K-S para D modificado, Dm
TEST KOLMOGOROV – SMIRNOV
Estos casos son para las hipótesis nulas de una F(y)
completamente especificada; Normal con promedio y
varianza desconocido y exponencial negativa con promedio
desconocido:
Para F(y) en general:
𝐷𝑚 = (D) 𝑛 − 0.12 + 0.11
𝑛
31/03/2015
20
TEST KOLMOGOROV – SMIRNOV
Para F(y) Normal con media y varianza desconocida:
Para F(y) exponencial con beta desconocido:
𝐷𝑚 = (D) 𝑛 − 0.01 + 0.85
𝑛
𝐷𝑚 = (D −0.2
n) 𝑛 + 0.26 +
0.5
𝑛
TEST KOLMOGOROV – SMIRNOV
0.85 0.9 0.95 0.975 0.99
F(y)
Especificada 1.138 1.22 1.358 1.48 1.626
F(y) Normal
media,
Varianza
desconocidas
0.775 0.819 0.895 0.955 1.035
F(y)
Exponencial
beta
desconocidas
0.926 0.99 1.094 1.19 1.3
1 - alfaForma modificada de D
(kolmogorov - Smirnov)
𝐷𝑚 = (D) 𝑛 + 0.12 + 0.11
𝑛
𝐷𝑚 = (D) 𝑛 − 0.01 + 0.85
𝑛
𝐷𝑚 = (D −0.2
n) 𝑛 + 0.26 +
0.5
𝑛
31/03/2015
21
TEST KOLMOGOROV – SMIRNOV
Caso de una distribución WEIBULL.
Supóngase que la distribución subyacente inferida es Weibull, con
parámetros de forma (𝛼) y de escala (𝛽) ambos desconocidos.
Queremos estimar sus parámetros por medio de la estimación de
máxima verosimilitud (MLE - maximum likelihood estimation) de
sus parámetros 𝛼 𝑦 𝛽 con función de distribución 𝐹 𝑥 = 1 −
exp −𝑥
𝛽
𝛼𝑝𝑎𝑟𝑎 𝑥 ≥ 0 y 𝐷 se calcula de la manera habitual.
TEST KOLMOGOROV – SMIRNOV
Entonces Ho se rechaza si el estadístico de ajuste K-S 𝑛𝐷 es
mayor que el valor crítico tabulado 𝑐1−𝛼∗.
Note que los valores críticos están disponibles sólo para cierto
tamaña de muestra n, y que los valores críticos para 𝑛 = 50 y 𝑛 =
∞ (muestra extremadamente grande), son afortunadamente muy
similares.
31/03/2015
22
TEST KOLMOGOROV – SMIRNOV
Valores modificados 𝒄𝟏−∝∗ para test K-S, distribuciones WEIBULL
(Ref.: Law and Kelton 4° edición)
𝟏 −∝
n 0.900 0.950 0.975 0.990
10 0.760 0.819 0.880 0.944
20 0.779 0.843 0.907 0.973
50 0.790 0.856 0.922 0.988
infinito 0.803 0.874 0.939 1.007
TEST KOLMOGOROV – SMIRNOV
Caso de una distribución Log-logística.
Supóngase que la distribución subyacente inferida es Log-logística,
con parámetros de forma (𝛼) y de escala (𝛽) ambos desconocidos.
Todos los 𝑋𝑖, 𝑠 datos básicos logarítmicos, estimar los parámetros
de su respectiva máxima verosimilitud (MLE - maximum likelihood
estimation) 𝛼 𝑦 𝛽 basados en los 𝑋𝑖, 𝑠 , también 𝐹 𝑥 es tomada
de una distribución logística.
𝐹(𝑥) = (1 + 𝑒 − 𝑥−𝐿𝑛 𝛽 𝛼)−1 , 𝑝𝑎𝑟𝑎 −∞ < 𝑥 < ∞
31/03/2015
23
TEST KOLMOGOROV – SMIRNOV
Donde D se calcula de la misma forma,
Entonces Ho se rechaza si el estadístico de ajuste K-S 𝑛𝐷 es
mayor que el valor crítico tabulado 𝑐1−𝛼∗∗.
Note que los valores críticos están disponibles sólo para cierto
tamaña de muestra n, y que los valores críticos para 𝑛 = 50 y 𝑛 =
∞ (muestra extremadamente grande), son afortunadamente muy
similares.
TEST KOLMOGOROV – SMIRNOV
Valores modificados 𝒄𝟏−∝∗∗ para test K-S, distribuciones Log-Logística
(Ref.: Law and Kelton 4° edición)
𝟏 −∝
n 0.900 0.950 0.975 0.990
10 0.679 0.730 0.774 0.823
20 0.698 0.755 0.800 0.854
50 0.708 0.770 0.817 0.873
infinito 0.715 0.780 0.827 0.886
31/03/2015
24
TEST KOLMOGOROV – SMIRNOV
EJEMPLO:
Las diez observaciones siguientes son muestras aleatoria de
una distribución continua. Pruebe que la hipótesis que esos
datos provienen de una distribución exponencial con media
2, en el nivel de significancia de 0.05
TEST KOLMOGOROV - SMIRNOV
• EJEMPLO:
𝐹(𝑦𝑖) = 1 − e−yi /2 0.023
0.406
0.538
1.267
2.343
2.563
3.334
3.491
5.088
5.587
31/03/2015
25
TEST KOLMOGOROV - SMIRNOV
𝐹(𝑦𝑖) = 1 − e−yi /2
i y(i) F(yi) i/n Fn(y)= (i-1)/n D+ = i/n-F(yi) D- = F(yi)-(i-1)/n
1 0.023 0.0114 0.1 0 0.0886 0.0114
2 0.406 0.1837 0.2 0.1 0.0163 0.0837
3 0.538 0.2359 0.3 0.2 0.0641 0.0359
4 1.267 0.4693 0.4 0.3 -0.0693 0.1693
5 2.343 0.6901 0.5 0.4 -0.1901 0.2901
6 2.563 0.7224 0.6 0.5 -0.1224 0.2224
7 3.334 0.8112 0.7 0.6 -0.1112 0.2112
8 3.491 0.8254 0.8 0.7 -0.0254 0.1254
9 5.088 0.9214 0.9 0.8 -0.0214 0.1214
10 5.587 0.9388 1 0.9 0.0612 0.0388
Máximo valor
TEST KOLMOGOROV – SMIRNOV
D+= 0.0886
D-= 0.2901
Solución: Dm= Max (D-, D+) = 0.2901
Para alfa = 0.05, el valor de D calculado = 0.9623 < D
modificado 1.358.
No se rechaza la hipótesis nula.
𝐷𝑚 = (0,2901) 10 − 0.12 + 0.11
10 = 0.9623
31/03/2015
26
TEST KOLMOGOROV - SMIRNOV
1 2 3 4 5 6 7 8 9 10
F(yi) 0.0114 0.1837 0.2359 0.4693 0.6901 0.7224 0.8112 0.8254 0.9214 0.9388
Fn(y)= (i-1)/n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
Pro
bab
ilid
ad
F(yi)
PRUEBAS DE BONDADDE AJUSTE
TEST ANDERSON DARLING
José Rodríguez l.
Docente Simulación
31/03/2015
27
TEST ANDERSON DARLING
Un posible inconveniente del test K-S es que asignan una
misma importancia a la diferencia 𝐹 𝑦 − 𝐹𝑖(𝑦) para cada
valor de x, mientras varias distribuciones de interés difieren
principalmente en sus colas. El test de Anderson-Darling (A-
D), por otra parte, fue diseñado para detectar discrepancias
en las colas y tiene mayor poder que el test de K-S contra
muchas distribuciones alternativas.
TEST ANDERSON DARLING
El estadístico A-D, 𝐴𝑛2 es definido por:
𝐴𝑛2 = 𝑛 −∞
∞𝐹𝑛 𝑥 − 𝐹(𝑥)
2Ψ 𝑥 𝑓 𝑥 𝑑𝑥
donde Ψ 𝑥 =1
{ 𝐹 𝑥 [1− 𝐹 𝑥 ]}es la función de pesos.
Así, 𝐴𝑛2 es solo el promedio ponderado de la diferencia
cuadrada de 𝐹𝑛 𝑥 − 𝐹(𝑥)2, y la ponderación mayor para
𝐹 𝑥 esta cerca de 1, para colas derecha y, cerca del cero
para colas izquierdas.
31/03/2015
28
TEST ANDERSON DARLING
Si hacemos 𝑍𝑡 = 𝐹 𝑥 𝑖 𝑝𝑎𝑟𝑎 𝑖 = 1,2,…𝑛 entonces se puede
demostrar:
𝐴𝑛2 = (−{ 𝑖=1
𝑛 2𝑖 − 1 [𝑙𝑛𝑍𝑖 + ln(1 −𝑍𝑛+1−𝑖)]/𝑛}) − 𝑛
Lo que esta dentro de lo usual empleado para cálculos
actuales.
Desde 𝐴𝑛2 es una distancia ponderada, la forma del test es
rechazar la hipótesis nula 𝐻0 si 𝐴𝑛2 excede valores críticos
𝑎𝑛,1−𝛼 donde 𝛼 es el nivel del test.
Los valores críticos 𝑎𝑛,1−𝛼 se tabulan y consideran, cinco
distribuciones continuas.
TEST ANDERSON DARLING
31/03/2015
29
TEST ANDERSON DARLING
Ejemplo.
Asumamos que debemos confirmar que la distribución de
probabilidad subyacente de datos sigue una distribución
EXPONENCIAL dada por 𝐹 𝑥 = 1 − 𝑒 −10.399 , y que el nivel
considerado es 1 − 𝛼 = 0.10, se encuentra que 𝐴2192 = 0.558
El cálculo del estadístico de ajuste:
1 +0.6
219𝐴2192 = 0.560
Como 0.560 es menor que el valor modificado 1.062 (valor leído de
la tercera fila de la tabla, primera columna).
Por lo que no se rechaza la hipótesis nula 𝐻0
TEST ANDERSON DARLING
Ejemplo.
Dado los siguientes datos:
Infiera la distribución de probabilidades.
Con un 5% = 1-𝛼
Aplique Test A-D
Datos
35.620
33.828
28.335
37.058
35.891
36.606
38.969
37.410
30.726
38.014
33.317
34.270
33.155
32.650
35.319
36.636
35.078
32.798
33.106
33.569
31/03/2015
30
TEST ANDERSON DARLING
Ejemplo.
Estadística descriptiva.Columna1
Media 34.618
Error típico 0.574
Mediana 34.674
Moda #N/A
Desviación estándar 2.568
Varianza de la muestra 6.597
Curtosis 0.530
Coeficiente de asimetría -0.530
Rango 10.634
Mínimo 28.335
Máximo 38.969
Suma 692.356
Cuenta 20.000
Nivel de confianza(95.0%) 1.202
TEST ANDERSON DARLING
Ejemplo.
Histograma.
31/03/2015
34
TEST ANDERSON DARLING
Ejemplo.
Formula de A-D
TEST ANDERSON DARLING
Ejemplo.
Formula de A-D
31/03/2015
35
TEST ANDERSON DARLING
Ejemplo.
Formula de A-D
TEST ANDERSON DARLING
Ejemplo.
Respuesta:
Como el valor de 𝐴2 = 0.24423726 <0.751 = Valor crítico A-D.
Se concluye que no existe evidencia estadística para rechazar la
hipótesis nula que los valores del ejemplo tienen una distribución
normal con parámetros:
Media 34.61778027
Desv Std. 2.568381159