test de bondad de ajuste

31/03/2015

1

TALLER DE SIMULACION

Mg. José Rodríguez L.

Docente

UNIDAD IVTest de bondad de ajuste

Mg. José Rodríguez l.

Docente

31/03/2015

2

Objetivo de la Unidad IV

• Reconocer y aplicar Pruebasde bondad de ajuste paraaceptar o rechazar lasdistribuciones deprobabilidad sugeridas poranálisis del histograma.

• Reconocer y aplicar:

• Tets Chi- Cuadrado.

• Test Kolmogorov – Smirnov.

• Anderson Darling

UNIDAD IVChi-Cuadrado

Mg. José Rodríguez l.

Docente

31/03/2015

3

PRUEBAS DE BONDAD DE AJUSTE

• Cualquier aplicación de test de bondad deajuste responde al mismo principio:

• Si el valor Calculado > Valor Tabla (valorcrítico), entonces se rechaza la hipótesis.

• Esto es equivalente a decir que el erroracumulado de los datos con respecto a ladistribución teórica supera lo permitido.

PRUEBAS DE BONDAD DE AJUSTE

• 𝜒2 Calculado.

• Tabla (Crítico)

𝜒2 =

𝑖=1

𝑘(𝐹𝑂𝑖 − 𝐹𝐸𝑖)

2

𝐹𝐸𝑖

𝜒2

31/03/2015

4

PRUEBA JI-CUADRADO,X2

DE K. PEARSON• Sea X una variables aleatoria discreta con

valores x1,x2,…xn. Se propone una hipótesis H0,de que la distribución donde proviene lamuestra se comporta según un modeloteórico especifico.(Ej; Exponencial negativa).

• FOi, representa el numero de veces que ocurreel valor xi.


DE K. PEARSON• FEi, frecuencia esperada proporcionada por el

modelo teórico.

• La prueba X2 hace uso de distribuciones delmismo nombre para probar la bondad delajuste.

31/03/2015

5


DE K. PEARSON• Usualmente ocurre que FEi (y también FOi)

son muy pequeñas, entonces, se adopta elcriterio de agrupar los valores consecutivosde k intervalos adyacentes de estasfrecuencias esperadas, hasta que su suma seade al menos 5 observaciones


DE K. PEARSONLa medida de X2 es dada por:

𝑋02 =

(𝐹𝐸𝑖 − 𝐹𝑂𝑖)

𝐹𝐸𝑖

2𝑘

𝑖=1

Para n, grande este estadístico de prueba tiene

una distribución 𝑿𝟐 aproximada con 𝜈 grados de

libertad

𝜈 = (𝑘 − 1) − (𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠)

31/03/2015

6


DE K. PEARSON• La medida de X2 es dada por:

• El valor de k lo determina la cantidad devalores diferentes de la variable.

• Supongamos que los parámetros estimadosson la media y la varianza, esto es, 2parámetros estimados. Por lo tanto los gradosde libertad serán:

• ν=(k-1)-2=(k-3) grados de libertad


DE K. PEARSON• La medida de X2 es dada por:

• Para calcular k, se emplea la Regla de Sturges.

• k=1+3.322 log10(N)

31/03/2015

7


EJEMPLO• Se dispone de 50 datos obtenidos de una

población que registra la vida útil (enunidades de tiempo) de acumuladoresautomotrices de catorce celdas.

• Pruébese que la hipótesis nula de que lavariable aleatoria vida útil de losacumuladores sigue una distribuciónexponencial negativa, considérese un nivelsignificativo de alfa igual al 5%:

:


EJEMPLO• DATOS: 8.22 2.63 0.41 2.33 0.51

2.23 1.62 2.34 0.77 0.23

2.92 0.33 0.54 3.32 2.33

0.76 1.51 5.09 0.29 2.92

1.06 2.78 5.59 1.73 1.7

0.84 4.78 0.52 2.56 6.43

3.81 1.51 1.46 0.02 3.21

0.97 4.03 0.23 3.33 7.51

4.49 1.07 1.4 3.49 0.33

0.19 3.25 0.69 1.27 1.85

31/03/2015

8


EJEMPLO• Cálculos:



31/03/2015

9



Para calcular la frecuencia deben marcar toda la columnay luego hacer un signo =



31/03/2015

10



Para que aparezca la frecuencia deben presionar las teclasSHIF + CTRL y ENTER



31/03/2015

11


EJEMPLO• A continuación se arreglan los valores de

forma ascendente y, se calculan lasfrecuencias.

• Promedio de la muestra = 2.3

k Li Ls FO FO relat.

1 0.0 1.5 21 0.42

2 1.5 3.0 15 0.3

3 3.0 4.5 8 0.16

4 4.5 6.0 3 0.06

5 6.0 7.5 1 0.02

6 7.5 9.0 2 0.04


EJEMPLO• A continuación se arreglan los valores de

forma ascendente y, se calculan lasfrecuencias.

• Promedio de la muestra = 2.3

k Li Ls FO FO relat.

1 0.0 1.5 21 0.42

2 1.5 3.0 15 0.3

3 3.0 4.5 8 0.16

4 4.5 6.0 3 0.06

5 6.0 7.5 1 0.02

6 7.5 9.0 2 0.04

31/03/2015

12


EJEMPLO• Los últimos tres intervalos de clase no

alcanzan a contener las muestras mínimasrequeridas (5), se debe corregir.

k Li Ls FO

1 0.0 1.5 21

2 1.5 3.0 15

3 3.0 4.5 8

4 4.5 9.0 6


EJEMPLO• Evaluando FE teórica.

• Se asume beta = 2

1

2

1.5

0

𝑒−12𝑥𝑑𝑥 = −[𝑒−

12𝑥]0

1.5 = −(𝑒−0.75 − 1) = 0.528

31/03/2015

13


EJEMPLO• Evaluando FE teórica.

• Se asume beta = 2

1

2

1.5

0

𝑒−12𝑥𝑑𝑥 = −[𝑒−

12𝑥]0

1.5 = −(𝑒−0.75 − 1) = 0.528


EJEMPLO• Evaluando.

• Valor de calculado es X2 es = 0.054

k Li Ls FO FO relat. FE . Terorica ((FO-FE)2)/FE

1 0.0 1.5 21 0.42 0.528 0.022

2 1.5 3.0 15 0.3 0.249 0.010

3 3.0 4.5 8 0.16 0.118 0.015

4 4.5 9.0 6 0.12 0.094 0.007

1.000 0.989 0.054

31/03/2015

14


EJEMPLO• k=4

• Grados de Libertad son = (4- 1) – 1 = 2

• Número parámetros estimados: 1 (beta =media)


EJEMPLO• Valor de X2 TABULADO= 5.99.

• Como X2 calculado = 0.054 < X2 TABULADO =5.99

• Se concluye que no se puede rechazar lahipótesis nula.

• La muestra viene de una distribuciónexponencial negativa con media 2.

31/03/2015

15


EJEMPLO

PRUEBAS DE BONDADDE AJUSTE

TEST KOLMOGOROV – SMIRNOV

José Rodríguez l.

Docente Simulación

31/03/2015

16


El test de Chi-Cuadrado puede considerarse como una

comparación entre la forma del histograma y la función

acumulada de probabilidad (estimada). Pero este test

evidencia una dificultad para el caso de distribuciones

continuas debido a que se debe decidir cómo especificar los

intervalos.

El test de bondad de ajuste K-S, a diferencia del Chi-

Cuadrado, compara una distribución empírica con una

función estimador ( 𝐹) de la distribución subyacente.


Se aplica a variables continuas y su rango de aplicación

es más limitado que el de Chi - Cuadrado.

Sea F(y) función de distribución acumulada, de una

población que se toma una muestra y1, y2,…yn.

Supóngase que Y es una variable aleatoria continua

que tiene una función de distribución acumulada F(y).

Consideremos una muestra de n observaciones de Y:

y1, y2,…yn

31/03/2015

17

TEST KOLMOGOROV - SMIRNOV


Reordenemos estos valores en forma ascendente, así,

y1≤ y2, ≤ … ≤ yn

Definamos la función acumulada empírica Fn(y) =

fracción de la muestra menor o igual a y .

Con ecuación:

𝑓𝑛(𝑦) = ( (𝑖 − 1)

𝑛 , 𝑠𝑖 𝑦(𝑖−1) ≤ 𝑦 ≤ 𝑦(𝑖) 𝑖 = 1,… ,𝑛

1, 𝑠𝑖 𝑦 ≥ 𝑦(𝑛)

𝑦0 = ∞

31/03/2015

18


La medida estadística D de K-S se basa en la distancia

máxima entre F(y) y Fn(y):

Como F(y) y Fn(y) no son decrecientes y Fn(y) es constante

entre observaciones de muestra.

La desviación máxima se presentara ya sea en una de los

puntos de observaciones y1, y2, …, yn , o inmediatamente a la

izquierda de uno de ellos.

𝐷 = 𝑚𝑎𝑥 𝐹(𝑦) − 𝐹𝑖(𝑦)


Para determinar el valor observado de D sólo se necesita

determinar el valor de la siguiente manera:

y también.

Ya que:

𝐷+ = max 𝑖

𝑛− 𝐹(𝑦𝑖) ; 1 ≤ 𝑖 ≤ 𝑛

𝐷− = max 𝐹(𝑦𝑖) −𝑖 − 1

𝑛 ; 1 ≤ 𝑖 ≤ 𝑛

𝐷 = 𝑚á𝑥(D+, D−)

31/03/2015

19


Si H0 se supone de la forma F(y), pero se dejan sin especificar

algunos de los parámetros, entonces estos se deben estimar

a partir de los datos de la muestra antes de poder llevar

acabo la prueba.

Stephen en (1974) dio valores de corte de áreas superiores

de 0.15, 0.10, 0.05, 0.025, 0.01 para una forma modificada

de la tabla K-S para D modificado, Dm


Estos casos son para las hipótesis nulas de una F(y)

completamente especificada; Normal con promedio y

varianza desconocido y exponencial negativa con promedio

desconocido:

Para F(y) en general:

𝐷𝑚 = (D) 𝑛 − 0.12 + 0.11

𝑛

31/03/2015

20


Para F(y) Normal con media y varianza desconocida:

Para F(y) exponencial con beta desconocido:

𝐷𝑚 = (D) 𝑛 − 0.01 + 0.85

𝑛

𝐷𝑚 = (D −0.2

n) 𝑛 + 0.26 +

0.5

𝑛


0.85 0.9 0.95 0.975 0.99

F(y)

Especificada 1.138 1.22 1.358 1.48 1.626

F(y) Normal

media,

Varianza

desconocidas

0.775 0.819 0.895 0.955 1.035

F(y)

Exponencial

beta

desconocidas

0.926 0.99 1.094 1.19 1.3

1 - alfaForma modificada de D

(kolmogorov - Smirnov)

𝐷𝑚 = (D) 𝑛 + 0.12 + 0.11

𝑛

𝐷𝑚 = (D) 𝑛 − 0.01 + 0.85

𝑛

𝐷𝑚 = (D −0.2

n) 𝑛 + 0.26 +

0.5

𝑛

31/03/2015

21


Caso de una distribución WEIBULL.

Supóngase que la distribución subyacente inferida es Weibull, con

parámetros de forma (𝛼) y de escala (𝛽) ambos desconocidos.

Queremos estimar sus parámetros por medio de la estimación de

máxima verosimilitud (MLE - maximum likelihood estimation) de

sus parámetros 𝛼 𝑦 𝛽 con función de distribución 𝐹 𝑥 = 1 −

exp −𝑥

𝛽

𝛼𝑝𝑎𝑟𝑎 𝑥 ≥ 0 y 𝐷 se calcula de la manera habitual.


Entonces Ho se rechaza si el estadístico de ajuste K-S 𝑛𝐷 es

mayor que el valor crítico tabulado 𝑐1−𝛼∗.

Note que los valores críticos están disponibles sólo para cierto

tamaña de muestra n, y que los valores críticos para 𝑛 = 50 y 𝑛 =

∞ (muestra extremadamente grande), son afortunadamente muy

similares.

31/03/2015

22


Valores modificados 𝒄𝟏−∝∗ para test K-S, distribuciones WEIBULL

(Ref.: Law and Kelton 4° edición)

𝟏 −∝

n 0.900 0.950 0.975 0.990

10 0.760 0.819 0.880 0.944

20 0.779 0.843 0.907 0.973

50 0.790 0.856 0.922 0.988

infinito 0.803 0.874 0.939 1.007


Caso de una distribución Log-logística.

Supóngase que la distribución subyacente inferida es Log-logística,

con parámetros de forma (𝛼) y de escala (𝛽) ambos desconocidos.

Todos los 𝑋𝑖, 𝑠 datos básicos logarítmicos, estimar los parámetros

de su respectiva máxima verosimilitud (MLE - maximum likelihood

estimation) 𝛼 𝑦 𝛽 basados en los 𝑋𝑖, 𝑠 , también 𝐹 𝑥 es tomada

de una distribución logística.

𝐹(𝑥) = (1 + 𝑒 − 𝑥−𝐿𝑛 𝛽 𝛼)−1 , 𝑝𝑎𝑟𝑎 −∞ < 𝑥 < ∞

31/03/2015

23


Donde D se calcula de la misma forma,

Entonces Ho se rechaza si el estadístico de ajuste K-S 𝑛𝐷 es

mayor que el valor crítico tabulado 𝑐1−𝛼∗∗.

Note que los valores críticos están disponibles sólo para cierto

tamaña de muestra n, y que los valores críticos para 𝑛 = 50 y 𝑛 =

∞ (muestra extremadamente grande), son afortunadamente muy

similares.


Valores modificados 𝒄𝟏−∝∗∗ para test K-S, distribuciones Log-Logística

(Ref.: Law and Kelton 4° edición)

𝟏 −∝

n 0.900 0.950 0.975 0.990

10 0.679 0.730 0.774 0.823

20 0.698 0.755 0.800 0.854

50 0.708 0.770 0.817 0.873

infinito 0.715 0.780 0.827 0.886

31/03/2015

24


EJEMPLO:

Las diez observaciones siguientes son muestras aleatoria de

una distribución continua. Pruebe que la hipótesis que esos

datos provienen de una distribución exponencial con media

2, en el nivel de significancia de 0.05


• EJEMPLO:

𝐹(𝑦𝑖) = 1 − e−yi /2 0.023

0.406

0.538

1.267

2.343

2.563

3.334

3.491

5.088

5.587

31/03/2015

25


𝐹(𝑦𝑖) = 1 − e−yi /2

i y(i) F(yi) i/n Fn(y)= (i-1)/n D+ = i/n-F(yi) D- = F(yi)-(i-1)/n

1 0.023 0.0114 0.1 0 0.0886 0.0114

2 0.406 0.1837 0.2 0.1 0.0163 0.0837

3 0.538 0.2359 0.3 0.2 0.0641 0.0359

4 1.267 0.4693 0.4 0.3 -0.0693 0.1693

5 2.343 0.6901 0.5 0.4 -0.1901 0.2901

6 2.563 0.7224 0.6 0.5 -0.1224 0.2224

7 3.334 0.8112 0.7 0.6 -0.1112 0.2112

8 3.491 0.8254 0.8 0.7 -0.0254 0.1254

9 5.088 0.9214 0.9 0.8 -0.0214 0.1214

10 5.587 0.9388 1 0.9 0.0612 0.0388

Máximo valor


D+= 0.0886

D-= 0.2901

Solución: Dm= Max (D-, D+) = 0.2901

Para alfa = 0.05, el valor de D calculado = 0.9623 < D

modificado 1.358.

No se rechaza la hipótesis nula.

𝐷𝑚 = (0,2901) 10 − 0.12 + 0.11

10 = 0.9623

31/03/2015

26


1 2 3 4 5 6 7 8 9 10

F(yi) 0.0114 0.1837 0.2359 0.4693 0.6901 0.7224 0.8112 0.8254 0.9214 0.9388

Fn(y)= (i-1)/n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

Pro

bab

ilid

ad

F(yi)

PRUEBAS DE BONDADDE AJUSTE

TEST ANDERSON DARLING

José Rodríguez l.

Docente Simulación

31/03/2015

27


Un posible inconveniente del test K-S es que asignan una

misma importancia a la diferencia 𝐹 𝑦 − 𝐹𝑖(𝑦) para cada

valor de x, mientras varias distribuciones de interés difieren

principalmente en sus colas. El test de Anderson-Darling (A-

D), por otra parte, fue diseñado para detectar discrepancias

en las colas y tiene mayor poder que el test de K-S contra

muchas distribuciones alternativas.


El estadístico A-D, 𝐴𝑛2 es definido por:

𝐴𝑛2 = 𝑛 −∞

∞𝐹𝑛 𝑥 − 𝐹(𝑥)

2Ψ 𝑥 𝑓 𝑥 𝑑𝑥

donde Ψ 𝑥 =1

{ 𝐹 𝑥 [1− 𝐹 𝑥 ]}es la función de pesos.

Así, 𝐴𝑛2 es solo el promedio ponderado de la diferencia

cuadrada de 𝐹𝑛 𝑥 − 𝐹(𝑥)2, y la ponderación mayor para

𝐹 𝑥 esta cerca de 1, para colas derecha y, cerca del cero

para colas izquierdas.

31/03/2015

28


Si hacemos 𝑍𝑡 = 𝐹 𝑥 𝑖 𝑝𝑎𝑟𝑎 𝑖 = 1,2,…𝑛 entonces se puede

demostrar:

𝐴𝑛2 = (−{ 𝑖=1

𝑛 2𝑖 − 1 [𝑙𝑛𝑍𝑖 + ln(1 −𝑍𝑛+1−𝑖)]/𝑛}) − 𝑛

Lo que esta dentro de lo usual empleado para cálculos

actuales.

Desde 𝐴𝑛2 es una distancia ponderada, la forma del test es

rechazar la hipótesis nula 𝐻0 si 𝐴𝑛2 excede valores críticos

𝑎𝑛,1−𝛼 donde 𝛼 es el nivel del test.

Los valores críticos 𝑎𝑛,1−𝛼 se tabulan y consideran, cinco

distribuciones continuas.


31/03/2015

29


Ejemplo.

Asumamos que debemos confirmar que la distribución de

probabilidad subyacente de datos sigue una distribución

EXPONENCIAL dada por 𝐹 𝑥 = 1 − 𝑒 −10.399 , y que el nivel

considerado es 1 − 𝛼 = 0.10, se encuentra que 𝐴2192 = 0.558

El cálculo del estadístico de ajuste:

1 +0.6

219𝐴2192 = 0.560

Como 0.560 es menor que el valor modificado 1.062 (valor leído de

la tercera fila de la tabla, primera columna).

Por lo que no se rechaza la hipótesis nula 𝐻0


Ejemplo.

Dado los siguientes datos:

Infiera la distribución de probabilidades.

Con un 5% = 1-𝛼

Aplique Test A-D

Datos

35.620

33.828

28.335

37.058

35.891

36.606

38.969

37.410

30.726

38.014

33.317

34.270

33.155

32.650

35.319

36.636

35.078

32.798

33.106

33.569

31/03/2015

30


Ejemplo.

Estadística descriptiva.Columna1

Media 34.618

Error típico 0.574

Mediana 34.674

Moda #N/A

Desviación estándar 2.568

Varianza de la muestra 6.597

Curtosis 0.530

Coeficiente de asimetría -0.530

Rango 10.634

Mínimo 28.335

Máximo 38.969

Suma 692.356

Cuenta 20.000

Nivel de confianza(95.0%) 1.202


Ejemplo.

Histograma.

31/03/2015

31


Ejemplo.


Ejemplo.

31/03/2015

32


Ejemplo.


Ejemplo.

31/03/2015

33


Ejemplo.


Ejemplo.

Formula de A-D

31/03/2015

34


Ejemplo.

Formula de A-D


Ejemplo.

Formula de A-D

31/03/2015

35


Ejemplo.

Formula de A-D


Ejemplo.

Respuesta:

Como el valor de 𝐴2 = 0.24423726 <0.751 = Valor crítico A-D.

Se concluye que no existe evidencia estadística para rechazar la

hipótesis nula que los valores del ejemplo tienen una distribución

normal con parámetros:

Media 34.61778027

Desv Std. 2.568381159

31/03/2015

36


FIN

José Rodríguez l.

Docente Simulación

test de bondad de ajuste

Documents