test de bondad de ajuste

36
31/03/2015 1 TALLER DE SIMULACION Mg. José Rodríguez L. Docente UNIDAD IV Test de bondad de ajuste Mg. José Rodríguez l. Docente

Upload: juan-armando-sanzzana

Post on 21-Dec-2015

63 views

Category:

Documents


11 download

DESCRIPTION

test de bondad de ajuste

TRANSCRIPT

31/03/2015

1

TALLER DE SIMULACION

Mg. José Rodríguez L.

Docente

UNIDAD IVTest de bondad de ajuste

Mg. José Rodríguez l.

Docente

31/03/2015

2

Objetivo de la Unidad IV

• Reconocer y aplicar Pruebasde bondad de ajuste paraaceptar o rechazar lasdistribuciones deprobabilidad sugeridas poranálisis del histograma.

• Reconocer y aplicar:

• Tets Chi- Cuadrado.

• Test Kolmogorov – Smirnov.

• Anderson Darling

UNIDAD IVChi-Cuadrado

Mg. José Rodríguez l.

Docente

31/03/2015

3

PRUEBAS DE BONDAD DE AJUSTE

• Cualquier aplicación de test de bondad deajuste responde al mismo principio:

• Si el valor Calculado > Valor Tabla (valorcrítico), entonces se rechaza la hipótesis.

• Esto es equivalente a decir que el erroracumulado de los datos con respecto a ladistribución teórica supera lo permitido.

PRUEBAS DE BONDAD DE AJUSTE

• 𝜒2 Calculado.

• Tabla (Crítico)

𝜒2 =

𝑖=1

𝑘(𝐹𝑂𝑖 − 𝐹𝐸𝑖)

2

𝐹𝐸𝑖

𝜒2

31/03/2015

4

PRUEBA JI-CUADRADO,X2

DE K. PEARSON• Sea X una variables aleatoria discreta con

valores x1,x2,…xn. Se propone una hipótesis H0,de que la distribución donde proviene lamuestra se comporta según un modeloteórico especifico.(Ej; Exponencial negativa).

• FOi, representa el numero de veces que ocurreel valor xi.

PRUEBA JI-CUADRADO,X2

DE K. PEARSON• FEi, frecuencia esperada proporcionada por el

modelo teórico.

• La prueba X2 hace uso de distribuciones delmismo nombre para probar la bondad delajuste.

31/03/2015

5

PRUEBA JI-CUADRADO,X2

DE K. PEARSON• Usualmente ocurre que FEi (y también FOi)

son muy pequeñas, entonces, se adopta elcriterio de agrupar los valores consecutivosde k intervalos adyacentes de estasfrecuencias esperadas, hasta que su suma seade al menos 5 observaciones

PRUEBA JI-CUADRADO,X2

DE K. PEARSONLa medida de X2 es dada por:

𝑋02 =

(𝐹𝐸𝑖 − 𝐹𝑂𝑖)

𝐹𝐸𝑖

2𝑘

𝑖=1

Para n, grande este estadístico de prueba tiene

una distribución 𝑿𝟐 aproximada con 𝜈 grados de

libertad

𝜈 = (𝑘 − 1) − (𝑛ú𝑚𝑒𝑟𝑜𝑠 𝑑𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠)

31/03/2015

6

PRUEBA JI-CUADRADO,X2

DE K. PEARSON• La medida de X2 es dada por:

• El valor de k lo determina la cantidad devalores diferentes de la variable.

• Supongamos que los parámetros estimadosson la media y la varianza, esto es, 2parámetros estimados. Por lo tanto los gradosde libertad serán:

• ν=(k-1)-2=(k-3) grados de libertad

PRUEBA JI-CUADRADO,X2

DE K. PEARSON• La medida de X2 es dada por:

• Para calcular k, se emplea la Regla de Sturges.

• k=1+3.322 log10(N)

31/03/2015

7

PRUEBA JI-CUADRADO,X2

EJEMPLO• Se dispone de 50 datos obtenidos de una

población que registra la vida útil (enunidades de tiempo) de acumuladoresautomotrices de catorce celdas.

• Pruébese que la hipótesis nula de que lavariable aleatoria vida útil de losacumuladores sigue una distribuciónexponencial negativa, considérese un nivelsignificativo de alfa igual al 5%:

:

PRUEBA JI-CUADRADO,X2

EJEMPLO• DATOS: 8.22 2.63 0.41 2.33 0.51

2.23 1.62 2.34 0.77 0.23

2.92 0.33 0.54 3.32 2.33

0.76 1.51 5.09 0.29 2.92

1.06 2.78 5.59 1.73 1.7

0.84 4.78 0.52 2.56 6.43

3.81 1.51 1.46 0.02 3.21

0.97 4.03 0.23 3.33 7.51

4.49 1.07 1.4 3.49 0.33

0.19 3.25 0.69 1.27 1.85

31/03/2015

8

PRUEBA JI-CUADRADO,X2

EJEMPLO• Cálculos:

PRUEBA JI-CUADRADO,X2

EJEMPLO• Cálculos:

31/03/2015

9

PRUEBA JI-CUADRADO,X2

EJEMPLO• Cálculos:

Para calcular la frecuencia deben marcar toda la columnay luego hacer un signo =

PRUEBA JI-CUADRADO,X2

EJEMPLO• Cálculos:

31/03/2015

10

PRUEBA JI-CUADRADO,X2

EJEMPLO• Cálculos:

Para que aparezca la frecuencia deben presionar las teclasSHIF + CTRL y ENTER

PRUEBA JI-CUADRADO,X2

EJEMPLO• Cálculos:

31/03/2015

11

PRUEBA JI-CUADRADO,X2

EJEMPLO• A continuación se arreglan los valores de

forma ascendente y, se calculan lasfrecuencias.

• Promedio de la muestra = 2.3

k Li Ls FO FO relat.

1 0.0 1.5 21 0.42

2 1.5 3.0 15 0.3

3 3.0 4.5 8 0.16

4 4.5 6.0 3 0.06

5 6.0 7.5 1 0.02

6 7.5 9.0 2 0.04

PRUEBA JI-CUADRADO,X2

EJEMPLO• A continuación se arreglan los valores de

forma ascendente y, se calculan lasfrecuencias.

• Promedio de la muestra = 2.3

k Li Ls FO FO relat.

1 0.0 1.5 21 0.42

2 1.5 3.0 15 0.3

3 3.0 4.5 8 0.16

4 4.5 6.0 3 0.06

5 6.0 7.5 1 0.02

6 7.5 9.0 2 0.04

31/03/2015

12

PRUEBA JI-CUADRADO,X2

EJEMPLO• Los últimos tres intervalos de clase no

alcanzan a contener las muestras mínimasrequeridas (5), se debe corregir.

k Li Ls FO

1 0.0 1.5 21

2 1.5 3.0 15

3 3.0 4.5 8

4 4.5 9.0 6

PRUEBA JI-CUADRADO,X2

EJEMPLO• Evaluando FE teórica.

• Se asume beta = 2

1

2

1.5

0

𝑒−12𝑥𝑑𝑥 = −[𝑒−

12𝑥]0

1.5 = −(𝑒−0.75 − 1) = 0.528

31/03/2015

13

PRUEBA JI-CUADRADO,X2

EJEMPLO• Evaluando FE teórica.

• Se asume beta = 2

1

2

1.5

0

𝑒−12𝑥𝑑𝑥 = −[𝑒−

12𝑥]0

1.5 = −(𝑒−0.75 − 1) = 0.528

PRUEBA JI-CUADRADO,X2

EJEMPLO• Evaluando.

• Valor de calculado es X2 es = 0.054

k Li Ls FO FO relat. FE . Terorica ((FO-FE)2)/FE

1 0.0 1.5 21 0.42 0.528 0.022

2 1.5 3.0 15 0.3 0.249 0.010

3 3.0 4.5 8 0.16 0.118 0.015

4 4.5 9.0 6 0.12 0.094 0.007

1.000 0.989 0.054

31/03/2015

14

PRUEBA JI-CUADRADO,X2

EJEMPLO• k=4

• Grados de Libertad son = (4- 1) – 1 = 2

• Número parámetros estimados: 1 (beta =media)

PRUEBA JI-CUADRADO,X2

EJEMPLO• Valor de X2 TABULADO= 5.99.

• Como X2 calculado = 0.054 < X2 TABULADO =5.99

• Se concluye que no se puede rechazar lahipótesis nula.

• La muestra viene de una distribuciónexponencial negativa con media 2.

31/03/2015

15

PRUEBA JI-CUADRADO,X2

EJEMPLO

PRUEBAS DE BONDADDE AJUSTE

TEST KOLMOGOROV – SMIRNOV

José Rodríguez l.

Docente Simulación

31/03/2015

16

TEST KOLMOGOROV – SMIRNOV

El test de Chi-Cuadrado puede considerarse como una

comparación entre la forma del histograma y la función

acumulada de probabilidad (estimada). Pero este test

evidencia una dificultad para el caso de distribuciones

continuas debido a que se debe decidir cómo especificar los

intervalos.

El test de bondad de ajuste K-S, a diferencia del Chi-

Cuadrado, compara una distribución empírica con una

función estimador ( 𝐹) de la distribución subyacente.

TEST KOLMOGOROV – SMIRNOV

Se aplica a variables continuas y su rango de aplicación

es más limitado que el de Chi - Cuadrado.

Sea F(y) función de distribución acumulada, de una

población que se toma una muestra y1, y2,…yn.

Supóngase que Y es una variable aleatoria continua

que tiene una función de distribución acumulada F(y).

Consideremos una muestra de n observaciones de Y:

y1, y2,…yn

31/03/2015

17

TEST KOLMOGOROV - SMIRNOV

TEST KOLMOGOROV – SMIRNOV

Reordenemos estos valores en forma ascendente, así,

y1≤ y2, ≤ … ≤ yn

Definamos la función acumulada empírica Fn(y) =

fracción de la muestra menor o igual a y .

Con ecuación:

𝑓𝑛(𝑦) = ( (𝑖 − 1)

𝑛 , 𝑠𝑖 𝑦(𝑖−1) ≤ 𝑦 ≤ 𝑦(𝑖) 𝑖 = 1,… ,𝑛

1, 𝑠𝑖 𝑦 ≥ 𝑦(𝑛)

𝑦0 = ∞

31/03/2015

18

TEST KOLMOGOROV – SMIRNOV

La medida estadística D de K-S se basa en la distancia

máxima entre F(y) y Fn(y):

Como F(y) y Fn(y) no son decrecientes y Fn(y) es constante

entre observaciones de muestra.

La desviación máxima se presentara ya sea en una de los

puntos de observaciones y1, y2, …, yn , o inmediatamente a la

izquierda de uno de ellos.

𝐷 = 𝑚𝑎𝑥 𝐹(𝑦) − 𝐹𝑖(𝑦)

TEST KOLMOGOROV – SMIRNOV

Para determinar el valor observado de D sólo se necesita

determinar el valor de la siguiente manera:

y también.

Ya que:

𝐷+ = max 𝑖

𝑛− 𝐹(𝑦𝑖) ; 1 ≤ 𝑖 ≤ 𝑛

𝐷− = max 𝐹(𝑦𝑖) −𝑖 − 1

𝑛 ; 1 ≤ 𝑖 ≤ 𝑛

𝐷 = 𝑚á𝑥(D+, D−)

31/03/2015

19

TEST KOLMOGOROV – SMIRNOV

Si H0 se supone de la forma F(y), pero se dejan sin especificar

algunos de los parámetros, entonces estos se deben estimar

a partir de los datos de la muestra antes de poder llevar

acabo la prueba.

Stephen en (1974) dio valores de corte de áreas superiores

de 0.15, 0.10, 0.05, 0.025, 0.01 para una forma modificada

de la tabla K-S para D modificado, Dm

TEST KOLMOGOROV – SMIRNOV

Estos casos son para las hipótesis nulas de una F(y)

completamente especificada; Normal con promedio y

varianza desconocido y exponencial negativa con promedio

desconocido:

Para F(y) en general:

𝐷𝑚 = (D) 𝑛 − 0.12 + 0.11

𝑛

31/03/2015

20

TEST KOLMOGOROV – SMIRNOV

Para F(y) Normal con media y varianza desconocida:

Para F(y) exponencial con beta desconocido:

𝐷𝑚 = (D) 𝑛 − 0.01 + 0.85

𝑛

𝐷𝑚 = (D −0.2

n) 𝑛 + 0.26 +

0.5

𝑛

TEST KOLMOGOROV – SMIRNOV

0.85 0.9 0.95 0.975 0.99

F(y)

Especificada 1.138 1.22 1.358 1.48 1.626

F(y) Normal

media,

Varianza

desconocidas

0.775 0.819 0.895 0.955 1.035

F(y)

Exponencial

beta

desconocidas

0.926 0.99 1.094 1.19 1.3

1 - alfaForma modificada de D

(kolmogorov - Smirnov)

𝐷𝑚 = (D) 𝑛 + 0.12 + 0.11

𝑛

𝐷𝑚 = (D) 𝑛 − 0.01 + 0.85

𝑛

𝐷𝑚 = (D −0.2

n) 𝑛 + 0.26 +

0.5

𝑛

31/03/2015

21

TEST KOLMOGOROV – SMIRNOV

Caso de una distribución WEIBULL.

Supóngase que la distribución subyacente inferida es Weibull, con

parámetros de forma (𝛼) y de escala (𝛽) ambos desconocidos.

Queremos estimar sus parámetros por medio de la estimación de

máxima verosimilitud (MLE - maximum likelihood estimation) de

sus parámetros 𝛼 𝑦 𝛽 con función de distribución 𝐹 𝑥 = 1 −

exp −𝑥

𝛽

𝛼𝑝𝑎𝑟𝑎 𝑥 ≥ 0 y 𝐷 se calcula de la manera habitual.

TEST KOLMOGOROV – SMIRNOV

Entonces Ho se rechaza si el estadístico de ajuste K-S 𝑛𝐷 es

mayor que el valor crítico tabulado 𝑐1−𝛼∗.

Note que los valores críticos están disponibles sólo para cierto

tamaña de muestra n, y que los valores críticos para 𝑛 = 50 y 𝑛 =

∞ (muestra extremadamente grande), son afortunadamente muy

similares.

31/03/2015

22

TEST KOLMOGOROV – SMIRNOV

Valores modificados 𝒄𝟏−∝∗ para test K-S, distribuciones WEIBULL

(Ref.: Law and Kelton 4° edición)

𝟏 −∝

n 0.900 0.950 0.975 0.990

10 0.760 0.819 0.880 0.944

20 0.779 0.843 0.907 0.973

50 0.790 0.856 0.922 0.988

infinito 0.803 0.874 0.939 1.007

TEST KOLMOGOROV – SMIRNOV

Caso de una distribución Log-logística.

Supóngase que la distribución subyacente inferida es Log-logística,

con parámetros de forma (𝛼) y de escala (𝛽) ambos desconocidos.

Todos los 𝑋𝑖, 𝑠 datos básicos logarítmicos, estimar los parámetros

de su respectiva máxima verosimilitud (MLE - maximum likelihood

estimation) 𝛼 𝑦 𝛽 basados en los 𝑋𝑖, 𝑠 , también 𝐹 𝑥 es tomada

de una distribución logística.

𝐹(𝑥) = (1 + 𝑒 − 𝑥−𝐿𝑛 𝛽 𝛼)−1 , 𝑝𝑎𝑟𝑎 −∞ < 𝑥 < ∞

31/03/2015

23

TEST KOLMOGOROV – SMIRNOV

Donde D se calcula de la misma forma,

Entonces Ho se rechaza si el estadístico de ajuste K-S 𝑛𝐷 es

mayor que el valor crítico tabulado 𝑐1−𝛼∗∗.

Note que los valores críticos están disponibles sólo para cierto

tamaña de muestra n, y que los valores críticos para 𝑛 = 50 y 𝑛 =

∞ (muestra extremadamente grande), son afortunadamente muy

similares.

TEST KOLMOGOROV – SMIRNOV

Valores modificados 𝒄𝟏−∝∗∗ para test K-S, distribuciones Log-Logística

(Ref.: Law and Kelton 4° edición)

𝟏 −∝

n 0.900 0.950 0.975 0.990

10 0.679 0.730 0.774 0.823

20 0.698 0.755 0.800 0.854

50 0.708 0.770 0.817 0.873

infinito 0.715 0.780 0.827 0.886

31/03/2015

24

TEST KOLMOGOROV – SMIRNOV

EJEMPLO:

Las diez observaciones siguientes son muestras aleatoria de

una distribución continua. Pruebe que la hipótesis que esos

datos provienen de una distribución exponencial con media

2, en el nivel de significancia de 0.05

TEST KOLMOGOROV - SMIRNOV

• EJEMPLO:

𝐹(𝑦𝑖) = 1 − e−yi /2 0.023

0.406

0.538

1.267

2.343

2.563

3.334

3.491

5.088

5.587

31/03/2015

25

TEST KOLMOGOROV - SMIRNOV

𝐹(𝑦𝑖) = 1 − e−yi /2

i y(i) F(yi) i/n Fn(y)= (i-1)/n D+ = i/n-F(yi) D- = F(yi)-(i-1)/n

1 0.023 0.0114 0.1 0 0.0886 0.0114

2 0.406 0.1837 0.2 0.1 0.0163 0.0837

3 0.538 0.2359 0.3 0.2 0.0641 0.0359

4 1.267 0.4693 0.4 0.3 -0.0693 0.1693

5 2.343 0.6901 0.5 0.4 -0.1901 0.2901

6 2.563 0.7224 0.6 0.5 -0.1224 0.2224

7 3.334 0.8112 0.7 0.6 -0.1112 0.2112

8 3.491 0.8254 0.8 0.7 -0.0254 0.1254

9 5.088 0.9214 0.9 0.8 -0.0214 0.1214

10 5.587 0.9388 1 0.9 0.0612 0.0388

Máximo valor

TEST KOLMOGOROV – SMIRNOV

D+= 0.0886

D-= 0.2901

Solución: Dm= Max (D-, D+) = 0.2901

Para alfa = 0.05, el valor de D calculado = 0.9623 < D

modificado 1.358.

No se rechaza la hipótesis nula.

𝐷𝑚 = (0,2901) 10 − 0.12 + 0.11

10 = 0.9623

31/03/2015

26

TEST KOLMOGOROV - SMIRNOV

1 2 3 4 5 6 7 8 9 10

F(yi) 0.0114 0.1837 0.2359 0.4693 0.6901 0.7224 0.8112 0.8254 0.9214 0.9388

Fn(y)= (i-1)/n 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

0.0000

0.1000

0.2000

0.3000

0.4000

0.5000

0.6000

0.7000

0.8000

0.9000

1.0000

Pro

bab

ilid

ad

F(yi)

PRUEBAS DE BONDADDE AJUSTE

TEST ANDERSON DARLING

José Rodríguez l.

Docente Simulación

31/03/2015

27

TEST ANDERSON DARLING

Un posible inconveniente del test K-S es que asignan una

misma importancia a la diferencia 𝐹 𝑦 − 𝐹𝑖(𝑦) para cada

valor de x, mientras varias distribuciones de interés difieren

principalmente en sus colas. El test de Anderson-Darling (A-

D), por otra parte, fue diseñado para detectar discrepancias

en las colas y tiene mayor poder que el test de K-S contra

muchas distribuciones alternativas.

TEST ANDERSON DARLING

El estadístico A-D, 𝐴𝑛2 es definido por:

𝐴𝑛2 = 𝑛 −∞

∞𝐹𝑛 𝑥 − 𝐹(𝑥)

2Ψ 𝑥 𝑓 𝑥 𝑑𝑥

donde Ψ 𝑥 =1

{ 𝐹 𝑥 [1− 𝐹 𝑥 ]}es la función de pesos.

Así, 𝐴𝑛2 es solo el promedio ponderado de la diferencia

cuadrada de 𝐹𝑛 𝑥 − 𝐹(𝑥)2, y la ponderación mayor para

𝐹 𝑥 esta cerca de 1, para colas derecha y, cerca del cero

para colas izquierdas.

31/03/2015

28

TEST ANDERSON DARLING

Si hacemos 𝑍𝑡 = 𝐹 𝑥 𝑖 𝑝𝑎𝑟𝑎 𝑖 = 1,2,…𝑛 entonces se puede

demostrar:

𝐴𝑛2 = (−{ 𝑖=1

𝑛 2𝑖 − 1 [𝑙𝑛𝑍𝑖 + ln(1 −𝑍𝑛+1−𝑖)]/𝑛}) − 𝑛

Lo que esta dentro de lo usual empleado para cálculos

actuales.

Desde 𝐴𝑛2 es una distancia ponderada, la forma del test es

rechazar la hipótesis nula 𝐻0 si 𝐴𝑛2 excede valores críticos

𝑎𝑛,1−𝛼 donde 𝛼 es el nivel del test.

Los valores críticos 𝑎𝑛,1−𝛼 se tabulan y consideran, cinco

distribuciones continuas.

TEST ANDERSON DARLING

31/03/2015

29

TEST ANDERSON DARLING

Ejemplo.

Asumamos que debemos confirmar que la distribución de

probabilidad subyacente de datos sigue una distribución

EXPONENCIAL dada por 𝐹 𝑥 = 1 − 𝑒 −10.399 , y que el nivel

considerado es 1 − 𝛼 = 0.10, se encuentra que 𝐴2192 = 0.558

El cálculo del estadístico de ajuste:

1 +0.6

219𝐴2192 = 0.560

Como 0.560 es menor que el valor modificado 1.062 (valor leído de

la tercera fila de la tabla, primera columna).

Por lo que no se rechaza la hipótesis nula 𝐻0

TEST ANDERSON DARLING

Ejemplo.

Dado los siguientes datos:

Infiera la distribución de probabilidades.

Con un 5% = 1-𝛼

Aplique Test A-D

Datos

35.620

33.828

28.335

37.058

35.891

36.606

38.969

37.410

30.726

38.014

33.317

34.270

33.155

32.650

35.319

36.636

35.078

32.798

33.106

33.569

31/03/2015

30

TEST ANDERSON DARLING

Ejemplo.

Estadística descriptiva.Columna1

Media 34.618

Error típico 0.574

Mediana 34.674

Moda #N/A

Desviación estándar 2.568

Varianza de la muestra 6.597

Curtosis 0.530

Coeficiente de asimetría -0.530

Rango 10.634

Mínimo 28.335

Máximo 38.969

Suma 692.356

Cuenta 20.000

Nivel de confianza(95.0%) 1.202

TEST ANDERSON DARLING

Ejemplo.

Histograma.

31/03/2015

31

TEST ANDERSON DARLING

Ejemplo.

TEST ANDERSON DARLING

Ejemplo.

31/03/2015

32

TEST ANDERSON DARLING

Ejemplo.

TEST ANDERSON DARLING

Ejemplo.

31/03/2015

33

TEST ANDERSON DARLING

Ejemplo.

TEST ANDERSON DARLING

Ejemplo.

Formula de A-D

31/03/2015

34

TEST ANDERSON DARLING

Ejemplo.

Formula de A-D

TEST ANDERSON DARLING

Ejemplo.

Formula de A-D

31/03/2015

35

TEST ANDERSON DARLING

Ejemplo.

Formula de A-D

TEST ANDERSON DARLING

Ejemplo.

Respuesta:

Como el valor de 𝐴2 = 0.24423726 <0.751 = Valor crítico A-D.

Se concluye que no existe evidencia estadística para rechazar la

hipótesis nula que los valores del ejemplo tienen una distribución

normal con parámetros:

Media 34.61778027

Desv Std. 2.568381159

31/03/2015

36

TEST ANDERSON DARLING

FIN

José Rodríguez l.

Docente Simulación