6. inferencia con muestras grandes -...

58
Informática. Universidad Carlos III de Madrid 1 6. Inferencia con muestras grandes

Upload: buicong

Post on 28-Sep-2018

246 views

Category:

Documents


0 download

TRANSCRIPT

Informática. Universidad Carlos III de Madrid1

6. Inferencia con muestras grandes

Informática. Universidad Carlos III de Madrid2

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid3

1. Intervalos de confianza para μ con muestras grandes

Sea X una v. aleatoria de interés con distribución cualquiera y con

En el tema anterior vimos que si n es grande (n>30)

1

0

Z

Informática. Universidad Carlos III de Madrid4

-4 -3 -2 -1 0 1 2 3 40

1- α1- α

α /2 α /2

Z ∼ N(0,1)

-zα/2 zα/2

Informática. Universidad Carlos III de Madrid5

-4 -3 -2 -1 0 1 2 3 40

1- α1- α

α /2 α /2

Z ∼ N(0,1)

-zα/2 zα/2

Si tomásemos infinitas muestras, y con cada una calculásemos el intervalo

/ 2x znασ±

Entonces, el 100(1-α)% de esos intervalos tendría el valor de μ

Informática. Universidad Carlos III de Madrid6

-4 -3 -2 -1 0 1 2 3 40

1- α1- α

α /2 α /2

Z ∼ N(0,1)

-zα/2 zα/2

En la práctica:

Sólo una muestra

Sólo un intervalo

El intervalo sí o no contendrá a μ

A la incertidumbre de si lo contendrá le llamaremos confianzaconfianza

Informática. Universidad Carlos III de Madrid7

intervalo de confianza de nivel de confianza 100×(1-α)% para μ

Ejemplo Una muestra aleatoria extraída de una población con σ²=100 de n=144observaciones tiene una media muestral =160. se pide:

(a) Calcular un intervalo de confianza del 95% para μ.

(b) Calcular un intervalo de confianza del 90% para μ.

(b)

(a)

Mayor confianza=más anchos90%

95%X

/ 2(1 ) :IC x znασα μ

⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭

Informática. Universidad Carlos III de Madrid8

Cuestiones

¿Verdadero, falso o incierto?

• El intervalo de confianza nos dice entre qué valores variará μ de unas muestras a otras

• Es imposible que μ esté fuera del intervalo de confianza

• El intervalo de confianza que hemos visto sólo es válido si X es normal

• El intervalo de confianza que hemos visto sólo es válido si es normalX

• Lo mejor será construir intervalos de confianza del 100%, así notendremos incertidumbre

• El intervalo de confianza me dice entre qué valores estará la media poblacional con una confianza determinada

• Si tengo pocos datos, el intervalo de confianza puede no ser válido

/ 2(1 ) :IC x znασα μ

⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭

Informática. Universidad Carlos III de Madrid9

/ 2(1 ) :IC x znασα μ

⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭Es también un parámetro, y será

desconocido

Lo sustituimos por un estimador

/ 2ˆ(1 ) :IC x znασα μ

⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭

¿Qué estimador usamos para σ²?

Informática. Universidad Carlos III de Madrid10

¿Qué estimador usamos para σ² ?

Método de los momentos: varianza muestral

Se puede demostrar que es SESGADO

subestima la verdadera varianza

Informática. Universidad Carlos III de Madrid11

¿Qué estimador usamos para σ² ?

es SESGADO

Corregimos el sesgo

Nuestro estimador ‘oficial’ será el estimador insesgado

• Cuasivarianza

• Pseudo varianza

• Varianza corregida

• Varianza corregida por grados de libertad

Informática. Universidad Carlos III de Madrid12

intervalo de confianza de nivel de confianza 100×(1-α)% para μ

Ejemplo Se mide la duración de 200 componentes electrónicos hasta su avería. De esos 200 datos se tiene que la media muestral es 1300 horas y la cuasivarianza es 10.000 (horas al cuadrado). Calcula un intervalo de confianza de μ de nivel de confianza 95%

2

0.025

1300ˆ 10.000

2000.05

1.96

X

Sn

=

====

100001300 1.96200

μ⎧ ⎫⎪ ⎪⎪ ⎪∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭

[1286;1314]μ ∈

/ 2

ˆ(1 ) : sIC x z

nαα μ⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭

Informática. Universidad Carlos III de Madrid13

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid14

2. Determinación del tamaño muestral

intervalo de confianza de nivel de confianza 100×(1-α)% para μ

Acabamos de ver que...

¿Cuál debe ser n para conseguir un L determinado?

Lo estimo con alguna muestra piloto

/ 2(1 ) :IC x znασα μ

⎧ ⎫⎪ ⎪⎪ ⎪− ∈ ±⎨ ⎬⎪ ⎪⎪ ⎪⎩ ⎭

{ }x Lμ ∈ ±

Informática. Universidad Carlos III de Madrid15

Ejemplo Sea X el contenido de impurezas en un material obtenido en cierto proceso productivo (miligramos de impureza por kilogramo de producto obtenido). Se toma una muestra aleatoria de 200 observaciones obteniéndose una media muestral del consumo de 120 mg/Kg y una desviación típica muestral 20 mg/Kg.

0

120ˆ 20

200

X

Sn

=

==

Estimar mediante un intervalo de un 95% de confianza el contenido medio de impurezas.

¿Qué tamaño muestral sería necesario tomar para que L=1 mg?

Informática. Universidad Carlos III de Madrid16

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid17

3. Introducción al contraste de hipótesis

Veamos la idea de contraste de hipótesis con un ejemplo

Ejemplo Un fabricante de transistores del tipo BC547B sabe que cuando suproducción se mantiene en los niveles de calidad deseables, el valor de la llamada ganancia en corriente de los transistores (conocida por β, adimensional) sigue una distribución normal de media 290 y varianza 760.

Son en realidad estimaciones con muchísimos datos históricos. A efectos prácticos, los consideramos como si fuesen los poblacionales

β

2

290760

μσ==

290μ=

760σ =

¿Cómo puedo saber si se mantiene el proceso en los mismos parámetros?

¿Se mantiene la media? ¿Ha aumentado la variabilidad?

Informática. Universidad Carlos III de Madrid18

Ejemplo

β

2

290760

μσ==

290μ=

760σ =

¿Cómo puedo saber si se mantiene el proceso en los mismos parámetros?

¿Se mantiene la media?

¿Ha aumentado la variabilidad?

Son hipótesis que quiero comprobar¿Cómo lo puedo hacer?

• Tomo una muestra de observaciones

• A la vista de los datos decido si mantengo o no la hipótesis (el objetivo no es estimar sino validar)

Si 290x >> parece muy probable que la media SI haya cambiado

Si 290x parece muy probable que la media NO haya cambiado

A la vista de los datos, tomo la decisión que sea más plausible (nunca estaré seguro al 100%)

¿Cómo me puede ayudar la estadística?

Informática. Universidad Carlos III de Madrid19

Ejemplo

β 2

290760

μσ==

290μ=

760σ =

X3 ... XnX1 X2

2ˆ,X S

Objetivo: Validar una hipótesis con los datos

Contraste de hipótesis

Las hipótesis serán restricciones sobre los parámetros

¿Se mantiene la media?

290μ= ó 290μ≠

¿Ha aumentado la variabilidad?

2 760σ ≤ 2 760σ >ó

Hipótesis nula

H0

Hipótesis alternativa

H1

• Entre H0 y H1 está todo el rango de valores posibles

• H0 debe tener siempre el signo =

• Se aceptará H0 salvo que haya mucha evidencia en contra

alternativa bilateral

alternativa unilateral

Veamos el método estadístico:

Informática. Universidad Carlos III de Madrid20

Ejemplo

β 2

290760

μσ==

290μ=

760σ =

X3 ... XnX1 X2 2ˆ,X S

290μ= 290μ≠

2 760σ ≤ 2 760σ >

H0 H1

Rechazamos H0 sólo si hay mucha evidencia en contra. Es decir, si los

datos hacen lo que dice H1 de forma muy evidente

En la sección siguiente veremos cómo obtener los límites de las

regiones de aceptación y rechazo

Informática. Universidad Carlos III de Madrid21

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid22

4. Contraste de hipótesis de la media μ con muestras grandes

Para contrastar una hipótesis sobre la media μ seguimos los siguientes pasos:

Especificamos la hipótesis nula y la alternativa. Queremos contrastar alguna de estas hipótesis, donde μ0 es un valor concreto

0 0

1 0

::

HH

μ μμ μ=≠

0 0

1 0

::

HH

μ μμ μ≤>

0 0

1 0

::

HH

μ μμ μ≥<

PASO 1:

En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290

290μ= 290μ≠

H0 H1

Ejemplo

Informática. Universidad Carlos III de Madrid23

PASO 2: Hallamos una medida de la discrepancia entre los datos y H0

Si la discrepancia es grande: se rechaza H0

Esa medida se denomina estadístico de contraste

Sabemos que, para muestras grandes

Estadístico de contraste

¿Cómo se busca el estadístico de contraste, que resuma la información relevante para un

contraste?

Usando las propiedades de los estimadores, e introduciendo la

información de H0

Informática. Universidad Carlos III de Madrid24

Para valorar el estadístico de contraste, buscamos una distribución de referencia que nos diga si es un valor grande o pequeño

PASO 3:

La distribución de referencia es la del estadístico de contraste cuando μ=μ0

N(0,1)

En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290

290μ= 290μ≠

H0 H1

Con 100 observaciones:

Resume en un número la información

para decidir entre H0 y H1

Ejemplo

Informática. Universidad Carlos III de Madrid25

0

Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente.

PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0.

Caso (a)

0 1: 290; : 290H Hμ μ= ≠

PASO 1:

0290

ˆ /XTS n−=

PASO 2:

T0~N(0,1)

PASO 3:

Rechazamos H0 si

N(0,1)

0290 0

ˆ /xts n−= <<

0290 0

ˆ /xts n−= >>

Si H0 es falsa tenderemos a estar

por esta zona

Si H0 es falsa tenderemos a estar

por esta zona

290x << 290x >>

Informática. Universidad Carlos III de Madrid26

T0~N(0,1)

0

0 1: 290; : 290H Hμ μ≤ > 0290

ˆ /XTS n−=

Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente.

PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0

Caso (b) PASO 1: PASO 2: PASO 3:

Rechazamos H0 si

N(0,1) Si H0 es falsa tenderemos a estar

por esta zona

0290 0

ˆ /xts n−= >>

290x >>

Informática. Universidad Carlos III de Madrid27

0

Rechazamos H0 si los datos hacen lo que dice H1 de forma muy evidente.

PASO 4: Localizamos en qué zonas de la distribución de referencia rechazaremos H0

T0~N(0,1)0 1: 290; : 290H Hμ μ≥ < 0290

ˆ /XTS n−=

Caso (c) PASO 1: PASO 2: PASO 3:

Rechazamos H0 si

N(0,1)Si H0 es falsa tenderemos a estar

por esta zona

290x <<

0290 0

ˆ /xts n−= <<

Informática. Universidad Carlos III de Madrid28

0 0 1 0: ; :H Hμ μ μ μ≥ <

0 0 1 0: ; :H Hμ μ μ μ≤ >

0 0 1 0: ; :H Hμ μ μ μ= ≠

PASO 1: PASO 2:

PASO 3:

N(0,1)

(a)

Rechazo H0 Rechazo H0

Acepto H0

(a)

(b)

Rechazo H0Acepto H0

(b)

(c)

Rechazo H0 Acepto H0

(c)

PASO 4:

La región de rechazo está donde señala H1

Informática. Universidad Carlos III de Madrid29

Metodología general para hacer un contraste de hipótesis

Especificamos la hipótesis nula y la alternativa. PASO 1:

Estadístico de contrastePASO 2:

PASO 3: Distribución de referencia

PASO 4: Localizamos las zonas donde estará la región de rechazo

Rechazo H0 Acepto H0

¿Qué área ocupa la región de rechazo?

?• La región de rechazo ocupa un área pequeña

• Ese área se llama α=nivel de significación

• Su valor lo decide el analista

• Suele ser α=0.05, 0.10, 0.01Valor crítico

Informática. Universidad Carlos III de Madrid30

Rechazo H0 Rechazo H0

Acepto H0

0

1

1 2 3-1-2-3

Nivel de significación, α=0.05

α/2=0.025 α/2=0.025

-2.78Rechazamos H0

1.96-1.96

Valores críticos

En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290

290μ= 290μ≠

H0 H1

Con 100 observaciones:

T0~N(0,1)

Ejemplo

Informática. Universidad Carlos III de Madrid31

En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290

290μ= 290μ≠

H0 H1

Con 100 observaciones:

T0~N(0,1)Nivel de significación, α=0.05

La diferencia entre la media de la muestra (282.3) y la de la hipótesis

(290) es significativa (al 5%)

Concluimos, con un nivel de significación del 5%, que la media

poblacional ha cambiado

Ejemplo

Informática. Universidad Carlos III de Madrid32

Cuestiones

¿Verdadero, falso o incierto?

• Mediante un contraste de hipótesis buscamos el respaldo de los datos a alguna suposición sobre la población

• Si rechazo la hipótesis de que μ=100 con α=0.05, la conclusión es que es imposible que μ=100

• Quiero contrastar la hipótesis de que μ=100 con α=0.05. Con unos datos obtengo y el contraste me lleva a Aceptar H0. Entonces quiere decir que con un nivel de significación de 0.05 μ=104.3

104.3x =

• Quiero contrastar la hipótesis de que μ=100 con α=0.05. Con unos datos obtengo y el contraste me lleva a Aceptar H0. Entonces quiere decir que con un nivel de significación de 0.05

104.3x =100x =

• Si tomamos pocos datos, el contraste puede ser erróneo

• Un analista puede aceptar una hipótesis nula con α=0.05, pero rechazarla con α=0.01

Informática. Universidad Carlos III de Madrid33

Dos opciones

Estatura media inferior

Estatura media no inferior

177μ <

177μ ≥

Especificamos la hipótesis nula y la alternativa. PASO 1:

0

1

: 177: 177

HH

μμ≥<

Según los estudios antropométricos, los jóvenes españoles entre 18 y 25 años tienen una estatura media de μ0 =177 cm.

Se toman las alturas de 50 jóvenes madrileños en ese rango de edad y resulta

175.9x cm= ˆ 5.93s cm=

¿Hay evidencia suficiente para decir que los jóvenes madrileños tiene una estatura media inferior a la nacional?

Ejemplo

Informática. Universidad Carlos III de Madrid34

Estadístico de contrastePASO 2:

PASO 3: Distribución de referencia N(0,1)

La diferencia entre la media muestral (175.9) y la hipótesis nula

no es significativa (al 5%)

La diferencia observada se atribuye, con un nivel de significatividad del 5%, a la

variabilidad de la muestra y no a diferencias reales

Según los estudios antropométricos, los jóvenes españoles entre 18 y 25 años tienen una estatura media de μ0 =177 cm.

Se toman las alturas de 50 jóvenes madrileños en ese rango de edad y resulta

¿Hay evidencia suficiente para decir que los jóvenes madrileños tiene una estatura media inferior a la nacional?

0

1

: 177: 177

HH

μμ≥<

Ejemplo

PASO 4: Localizamos las zonas donde estará la región de rechazo

Rechazo H0

Acepto H0

α=0.05

0 1 2 3-1-2-3Valor crítico=-1.65

-1.31

175.9x cm= ˆ 5.93s cm=

Informática. Universidad Carlos III de Madrid35

Acepto H0

Rechazo H0

(Rechazo H1)

(Acepto H1)

(H1 cierta)H0 cierta H0 falsa

(H1 falsa)

La verdad(que nunca sabré con sólo n datos)El resultado del

contraste(sólo n datos)

ACIERTO!!ACIERTO!!

ACIERTO!!ACIERTO!!ERROR TIPO I

ERROR TIPO II

Lo cometo con probabilidad

α

Lo cometo con probabilidad que depende de cada

caso

Cuando demos la conclusión de un contraste debemos dar siempre el nivel de significación,

para dar una medida de su precisión

Informática. Universidad Carlos III de Madrid36

Metodología general para hacer un contraste de hipótesis

1. Determinar H0 y H1 teniendo en cuenta que H0 debe tener el signo = y que el método favorecerá dicha hipótesis.

2. Buscar el estadístico de contraste que será la medida de discrepancia entre la muestra y H0.

3. A partir de las propiedades del estadístico de contraste, y el nivel de significación, delimitamos con los valores críticos las regiones de aceptación y rechazo.

4. Localizamos si el valor que toma el estadístico de contraste cae en la región de aceptación o en la de rechazo.

Informática. Universidad Carlos III de Madrid37

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid38

5. Interpretación de un contraste usando el p-valor

El resultado de un contraste tiene dos elementos:

1. Aceptamos o rechazamos H0

2. El nivel de significación

Conclusión del contraste

Medida de su incertidumbreαEl nivel de significación es una medida de incertidumbre poco precisa

Ejemplo0 0 1 0: ; :H Hμ μ μ μ≥ < 0.05α=Hacemos el contraste con

En ambos casos la conclusión sería la misma: Rechazamos con α=0.05

Sin embargo en el caso 2 estamos más seguros ¿Cómo expresarlo?

Caso 1

Rechazo H0 Acepto H0

0.05α=

-1.65t0=-1.7

Rechazamos H0

Rechazo H0 Acepto H0

0.05α=

-1.65t0=-3

Rechazamos H0

Caso 2

Informática. Universidad Carlos III de Madrid39

Vamos a ver otra forma mejor de medir la incertidumbre del resultado del contraste

Caso 1

0.05α=

Rechazo H0Acepto H0

t0=-1.7Rechazamos H0

El p-valor es el nivel de significación que deberíamos usar para dejar al valor del estadístico de contraste justo en la frontera de la región de rechazo

p-valor= 0.045

Rechazamos H0Como p-valor<α El p-valor es más informativo que el nivel de significación

Informática. Universidad Carlos III de Madrid40

Caso 2

Rechazo H0Acepto H0

0.05α=

El p-valor es el nivel de significación que deberíamos usar para dejar al valor del estadístico de contraste justo en la frontera de la región de rechazo

p-valor= 0.0013

En este Caso 2 el p-valor es realmente pequeño. Estamos mucho más seguros de nuestra conclusión

Rechazamos H0Como p-valor<<α

t0=-3Rechazamos H0

Informática. Universidad Carlos III de Madrid41

0 0 1 0: ; :H Hϑ ϑ ϑ ϑ≤ >

t0

αp-valor>α

Aceptamos H0

Rechazamos H0

p-valor<α

t0

Informática. Universidad Carlos III de Madrid42

0 0 1 0: ; :H Hϑ ϑ ϑ ϑ≥ <

p-valor>α

t0

Aceptamos H0

Rechazamos H0

α

p-valor<α

t0

Informática. Universidad Carlos III de Madrid43

0 0 1 0: ; :H Hϑ ϑ ϑ ϑ= ≠

/ 2αp-valor>α

/ 2α

-|t0| |t0|p-valor: es la suma de las dos áreas

p-valor>α

-|t0| |t0|

Informática. Universidad Carlos III de Madrid44

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid45

6. Relación entre contrastes de hipótesis e intervalos de confianza

Intervalos de confianza para la media y contrastes usan la misma información

ˆ /XTS n

μ−=

Rechazo H0

00 ~ (0,1)ˆ /

XT NS n

μ−=

Rechazo H0

Acepto H0

t0

0 0 1 0: ; :H Hμ μ μ μ= ≠

/ 2α / 2α

N(0,1)

Se puede demostrar que la realización de un contraste de hipótesis bilateral

con nivel de significación α es equivalente a realizar un intervalo de confianza de nivel (1-a) y comprobar si μ0 está dentro o fuera

de dicho intervalo.

0 0 1 0: ; :H Hμ μ μ μ= ≠

Informática. Universidad Carlos III de Madrid46

Rechazo H0Rechazo H0

Acepto H0

0 1 2 3-1-2-3

α/2=0.025

1.96-1.96-2.78

Contraste de hipótesis

Rechazamos H0:μ=290

α/2=0.025

Intervalo de confianza de nivel (1-a)

No contiene al 290

En el ejemplo de los transistores. Se desea saber si la población de transistores del proceso productivo mantiene la media en μ0 =290

290μ=290μ≠

H0

H1

Con 100 observaciones:

Ejemplo

Informática. Universidad Carlos III de Madrid47

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid48

7. Inferencia sobre una proporción con muestras grandes

Estimación

Queremos estimar la proporción de individuos p en una población que tendrá cierto atributo

En una muestra de n individuos: el estimador es la proporción muestral

Sea Xi una variable de Bernoulli para el elemento i-ésimo de la muestra

Xi =1 si el elemento sí tiene el atributoXi =0 si el elemento no tiene el atributo

( )( ) (1 )

i

i

E X pVar X p p

== −

Por el Teorema Central del Límite, si n es grande

Informática. Universidad Carlos III de Madrid49

Intervalo de confianza

Al ser una media muestral asintóticamente normal, se pueden usar los mismos resultados ya vistos

para la media muestral

( )E X μ=2( ) /Var X nσ=

( ) (0,1)( )

X E X NVar X− ∼

{ }/ 2 ( )X z Var Xαμ ∈ ±

Informática. Universidad Carlos III de Madrid50

Intervalo de confianza

Al ser una media muestral asintóticamente normal, se pueden usar los mismos resultados ya vistos

para la media muestral

Ejemplo Con el objeto de determinar la proporción de personas que poseen coche en una provincia determinada se realizó un muestreo aleatorio simple, de tal forma que de los 100 encuestados, 30 de ellos tienen coche.

Calcula un intervalo de confianza del 95% para la proporción de personas con coche en la provincia

Informática. Universidad Carlos III de Madrid51

Tamaño muestral

¿Cuanto debe vale n para tener un L determinado?

Estimación previa con una muestra piloto

Ejemplo Con el objeto de determinar la proporción de personas que poseen coche en una provincia determinada se realizó un muestreo aleatorio simple, de tal forma que de los 100 encuestados, 30 de ellos tienen coche.

Calcula n para que en un intervalo del 95%, se tenga L=0.02

Informática. Universidad Carlos III de Madrid52

Tamaño muestral

Otra opción para calcular n es usar el valor de p(1-p) más desfavorable. Tendremos un

valor de n sobredimensionado, pero que garantiza un intervalo de (1-a)

p

p(1-p)

0.5

0.25

En el ejemplo anterior con L=0.02

Informática. Universidad Carlos III de Madrid53

Contraste de hipótesis

0 0 1 0: ; :H p p H p p≥ <

0 0 1 0: ; :H p p H p p≤ >

0 0 1 0: ; :H p p H p p= ≠

PASO 1: PASO 2:

PASO 3:

N(0,1)

(a)

Rechazo H0 Rechazo H0

Acepto H0

(a)

(b)

Rechazo H0

Acepto H0

(b)

(c)

Rechazo H0 Acepto H0

(c)

PASO 4:

La región de rechazo está donde señala H1

00

0 0

ˆ/

p pZ

p q n−

=

Informática. Universidad Carlos III de Madrid54

Ejemplo Un proceso productivo que fabrica semiconductores produce un 2% de artículos defectuosos cuando funciona adecuadamente. Se adquiere una nueva máquina basada en una tecnología más avanzada. Después de producir 200 artículos se encuentra que 2 son defectuosos. ¿Se puede afirmar que la nueva máquina ha mejorado la calidad de la producción?

Dos opciones

La nueva máquina SI mejora el proceso

La nueva máquina NO mejora el proceso

p<0.02

p≥0.02

Rechazo H0 Acepto H0

-1.96

-1.01

No podemos rechazar, con un nivel de significación del 5%, que el proceso siga igual

Informática. Universidad Carlos III de Madrid55

Tema 6: Inferencia con muestras grandes

1. Intervalos de confianza para μ con muestras grandes2. Determinación del tamaño muestral3. Introducción al contraste de hipótesis4. Contraste de hipótesis de la media μ con muestras grandes5. Interpretación de un contraste usando el p-valor6. Relación entre contrastes de hipótesis e intervalos de confianza7. Inferencia sobre una proporción con muestras grandes8. Inferencia con estimadores de máxima verosimilitud

Informática. Universidad Carlos III de Madrid56

8. Inferencia con estimadores de máxima verosimilitud

Sea el estimador de máxima verosimilitud del parámetro qˆMVθ

Los estimadores de máxima verosimilitud cumplen, para muestras grandes

L(q) es la función soporte

Intervalo de confianza

Al ser asintóticamente normal, se pueden usar los mismos resultados

que ya vimos anteriormente

es la misma expresión que pero sustituyendo q por ˆMVθ

Informática. Universidad Carlos III de Madrid57

Ejemplo La velocidad de una molécula, según el modelo de Maxwell, es una variable aleatoria con función de densidad,

En el tema anterior vimos que

Informática. Universidad Carlos III de Madrid58

Contraste de hipótesis

0 0 1 0: ; :H Hθ θ θ θ≥ <

0 0 1 0: ; :H Hθ θ θ θ≤ >

0 0 1 0: ; :H Hθ θ θ θ= ≠

PASO 1: PASO 2:

PASO 3:

N(0,1)

(a)

Rechazo H0 Rechazo H0

Acepto H0

(a)

(b)

Rechazo H0

Acepto H0

(b)

(c)

Rechazo H0 Acepto H0

(c)

PASO 4:

La región de rechazo está donde señala H1

00

ˆ

ˆVar( )MV

MV

Zθ θ

θ

−=