curso de métodos estadísticos i-2010 probabilidad y estimación

Curso de Métodos Estadísticos I-2010

Probabilidad y Estimación

Ejemplos de Modelos de Probabilidad para variables Discretas

nxpqxpGeometrica

nxppx

nxpBinomial

xxexpPoisson

x

xnx

x

,...,1,0 ,)( :

,...,1,0 ,)1()( :

,...2,1,0 ,!/)( :

Modelos de Probabilidad para variables Contínuas

22

22/)(exp

2

1)(

xxf

0 )/exp()(

1)( 1

xxx

rxf r

r

2/)1(2 )( /1)()2/(

)2/)1((

kkxxf

kk

k

Normal

Gamma

t

Uniform bxaabxf ),/(1)(

Función de distribución

x

y

x

ypxFDiscretas

dxxfxFContinuas

xXPxF

1)()(:

)()(:

)()(

Muestra Aleatoria

• X1, X2, …, Xn variables aleatorias independientes e identicamente distribuidas (la misma distribución de X).

Ejemplo: X: Concentración de un contaminante

X1: Concentración del contaminante en la primera muestra de agua. Que valores puede tomar X1?. …

Xn: Concentración del contaminante en la n-ésima muestra de agua. Que valores puede tomar Xn?.

Muestra Aleatoria

Conceptualmente:

X1, X2, …, Xn son variables que siguen el mismo modelo de probabilidad que rige a X.

Los posibles valores que puede tomar Xi no dependen de los valores que puede tomar Xj (para todo i diferente de j), luego hay independencia.

Nota: X1, X2, …, Xn (variables aleatorias) y x1, x2, …, xn (observaciones de esas variables aleatorias. Esta es la muestra observada. Son valores!!!)

Parámetro, Estimador, Estimación

• Parámetro ( ): Constante que describe total o parcialmente la distribución de probabilidad de la variable aleatoria en la población (por ejemplo )

• Estadística Muestral (T): Función de las variables aleatorias de la muestra aleatoria que no contiene cantidades desconocidas

2,

Parámetro, Estimador y Estimación

• Estimador: Si T (estadística muestral) se emplea para estimar , T se llama estimador y t (su valor muestral) se llama estimación.

• Ejemplo

n

ii

n

ii

xn

x

Xn

X

1

1

1

1

Características deseables de los estimadores

• Concentración (asociado a la precisión del estimador). Criterios: ECM e insesgamiento)

• Eficiencia (asociado a la variabilidad del estimador)

• Consistencia: Tiene que ver con el comportamiento del estimador cuando aumenta el tamaño de la muestra

• Suficiencia: Indica si el estimador usa toda la información disponible en la muestra.

Concentración: Error Cuadrático medio

sesgodelCuadradoVarianzaTETVTECM

TETECM2

2

))(()()(

)()(

Comprobar

Estimador Insesgado

• Comprobar que es insesgado. Encontrar su varianza

)()(

)(

TVTECM

TE

X

Consistencia

• Un estimador es consistente si al aumentar el tamaño de muestra el estimador se acerca más al parámetro.

)(1)(lim

,,2,1,,1

adprobabilidenconvergeTP

sieconsistentesT

ntamañomuestrasTTT

deestimadorT

nn

n

Desigualdad de Chebychev

2

2

2

1

11

)()(

kkXP

kkXP

XVyXEconAleatoriaVariableX

Chebychev

nx ,...,1,0

Area

Comprobar, usando la desigualdad de Chebychev, que es un estimador consistente de

X

1lim

0limlim

,

1

?1lim

2

2

2

2

2

XP

nXP

n

k

nXP

kn

kXP

XP

n

nn

n

Eficiencia

• Si T1 y T2 son dos estimadores insesgados de T1 es más eficiente que T2 si

• Dentro de los estimadores insesgados de , el que tiene la varianza más pequeña se llama UMVUE (estimador insesgado de varianza mínima)

relativaEficienciaTV

TV

conrelativaEficiencia

TVTV

)(

)(

,1

),()(

2

1

21

Cota de Cramer-Rao

FisherdenInformació

XfnE

TV

);(ln

1)(

Si la varianza del estimador es igual a la cota de Cramer-Rao entonces el estimador es un UMVUE.

Ejemplo: Sea X1,…,Xn una muestra laetoria de una diustribución de Poisson ( ). Obtener el estimador más eficiente de

Suficiencia

• Una estadística es suficiente si utiliza toda la información de la muestra respecto al parámetro

• T2 suficiente y T1 non

XXXT

n

XXXT

maXXX

n

n

n

212

1311

21

2/

,,

Función de Verosimilitud

n

ii

n

xfL

xfdemaXX

1

1

);()(

);(,,

Encontrar la función de verosimilitud de una muestra de una normal ( ).2,

Suficiencia (teorema de factorización)

• T es suficiente para sii

• Si un estimador T es insesgado y suficiente entonces es el más eficiente

• Si T es el más eficiente, entonces es suficiente

• Una función de una estadística suficiente es también suficiente

),,();()( 1 nxxgthL

Ejemplo del teorema de factorización

)(

;

,;!

!!)(

!)(

1

1

11

1

1

1

11

UMVUEeficientemáselesXinsesgadoesX

suficienteesXsuficienteesx

exh

xxgxhx

e

x

e

x

eL

x

exf

x

Ii

xn

x

Ii

n

x

Iin

ii

xn

n

xx

x

n

ii

n

ii

n

Métodos de Estimación Puntual

• Máxima Verosimilitud

• Momentos

• Mínimos Cuadrados

• Estimación bayesiana

Estimador de Máxima Verosimilitud

• Valor del parámetro que hace más probable lo observado en la muestra. Suponga que se la variable No de accidentes/semana. En una semana se observan dos accidentes. Estime lambda de la Poisson con esta información. Calcule P(X=2) con los posibles valores de lambda. Cuál hace máxima esta probabilidad

P(x=2)

1 0.18

1.5 0.25

2 0.27

2.5 0.25

3 0.22

Estimador de Máxima verosimilitud (2)

• Repita el ejemplo anterior asumiendo que se tienen observaciones de dos semanas consecutivas y que en la primera se observaron dos accidentes y en la segunda tres

P(X=2) P(x=3) P(x=2)*P(x=3)

1

1.5

2.0

2.5

3

Estimador de Máxima verosimilitud (3). Propiedad de Invarianza

)()ˆ(

ˆ

gdeEMVg

deEMV

Estimador de Máxima verosimilitud (3)

• Suponga que tiene una muestra aleatoria tamaño n de una distribución Bernoulli de parámetro p. Encuentre el estimador máximo verosímil de p.

• Suponga que tiene una muestra aleatoria de una distribución normal de media y varianza 2. Encuentre los estimadores máximo verosímiles de y 2.

Método de los momentos

• El estimador del r-ésimo momento poblacional es el r-ésimo momento muestral

• Cuando se estiman varios momentos poblacionales (p.ej E(X) y E(X2)), los estimadores de momentos se obtienen al resolver el sistema de ecuaciones que resulta de igualar los momentos muestrales a los poblacionales

mustralmomentoésimorXn

M

lpoblacionamomentoésimorXEn

iir

rr

1

´

´

1

)(

n

ii

n

ii

n

ii

n

ii

n

ii

n

ii

XXnXXn

XnXn

XEdeMomentosEstXn

xEdeMomentosEstXn

1

22

1

2

2

11

22

222

1

2

1

/1/1

/1/1ˆ

)(./1

)(./1

DISTRIBUCIONES MUESTRALES

Distribución de la Media Muestral

• Si X1, X2, …, Xn ma de XN(,2)

• Si X1, X2, …, Xn ma de f(x) con E(X)= , V(x)= 2 y n grande, entonces

nNX

2

,

nNX

2

,

TEOREMA CENTRAL DEL LIMITE (DEMOSTRACION PAG 247 CANAVOS)

Demostraciones (Distribución de la media muestral)

nXVb

XEa2

)()

)()

Función Generadora de Momentos (repaso)

dxxfe

xXPe

eEtmtx

x

tx

tXX

)(

)(

)()(

0

0

2

22

0

)()(

)()(

)()(

t

Xr

rr

t

X

tX

tmt

XE

tmt

XE

tmt

XE

222

22

2

122

2

12

)(),(~

)(),(~

atta

aX

tt

X

etmaaNaX

etmNX

Si la función generadora de momentos existe es única y determina la distribución de probabilidad de X. En otras palabras, si dos variables tienen la misma función generadora de momentos, entonces tienen la misma distribución de probabilidad

Demostraciones (continuación)

)()()(

)()()(

)()(

:Pr

).()()()(

)(),(.,

:)

2211

2211

22111

2211

11

1

tmtmtm

eEeEeE

eeeEeEeEtm

ueba

tmtmtmtmentonces

XaYytmtmfgmconindepVAXX

Teoremac

nn

nn

nn

n

iii

nn

n

XaXaXa

XtaXtaXta

XtaXtaXtaXat

tYY

XaXaXaY

n

iiiXXn


2

1

21

2

1

2

1

21

2

1

222222222

222111

2211

2

1

2

1

2

1

2

1

1 1

22

1

21

)()()()(

:Pr

,~

),(~.,

:)

n

i

n

iii

n

i

n

iii

nnn

nn

ayaconNormalfgm

atat

tatatatatata

XaXaXaY

n

i

n

iiii

n

iiiin

e

eee

tmtmtmtm

ueba

aaNYentonces

XaYyNXconindepVAXX

Teoremad


nayXY

hagadendadoteoremaelEn

ueba

NXentonces

Xn

XyNXconmaXX

Teoremae

i

n

iin

1

)

:Pr

,~

1),(~,

:)

2

1

21

Distribución de S2 (1)

• Distribución Chi-Cuadrado

• El parámetro se denomina grados de libertad.• La suma de variables aleatorias independientes con distribución Chi-Cuadrado, se

distribuye chi cuadrado con parametro igual a la suma de los grados de libertad• La distribución Chi-Cuadrado es un caso particular de la distribución Gama (= /2,

=2).

2

21

2

2/

)21()(2)(,)(

0,2

2

1);(

v

X

xv

v

ttmyvXVvXE

xexv

vxf

Distribución de S2 (continuación)

1

2

1

22

21

~

~),(~,,,

i

n

in

in

X

rParticualaCaso

XYNXmaXXX

Teorema

n

ilgn

in

XXSnNXmaXXX

Teorema

1.)1(

2

2

22

21 ~1

),(~,,,

Distribución de S2(continuación)

)1(2

2

2

1

22

21

2

1

22

1

2

1

2

1

2

~)1(

/

)(

)()(

)()()()(

Pr

1

n

n

i

i

n

ii

n

ii

n

ii

n

ii

n

ii

Sn

n

XXXX

XnX

XXXXXX

ueba

n

Distribución de S2 (continuación)

)1(

2

)1(

)1(2)(

)1(2)()1(

)1(2)1(

)1()1(

4

2

42

4

22

2

2

222

2

nn

nSV

nSVn

nSn

V

SEnSn

E

Ejercicio de simulación (distribución Ci-cuadrado)

1. Simular 30 variables aleatorias normales estándar n=100

2. Elevarlas al cuadrado

3. Sumarlas

4. Hacer el histograma de la variable de la variable obtenida con la suma

5. Comparar con la densidad de una Chi-Cuadrado con 30 grados de libertad

6. Calcular la media y la varianza de la variable obtenida con la suma y comparar con a media y la varianza teórica de una Chi-cuadrado con 10 grados de libertad

7. Simule 50 muestras aleatorias de normales (mu=10, sigma=2) de tamaño n=15. Con cada muestra encuentre la estadística 14S2 /4. Haga el histograma correspondiente y compárelo con la densidad de una chi-cuadrado con 14 grados de libertad

Distribución de la media muestral (varianza desconocida)

• Una variable aleatoria X tiene distribución T-Student con grados de libertad si su función de probabilidad está dada por:

• Teorema: Sea Z una variable aleatoria con distribución normal estándar. Y una

variable aleatoria 2 con grados de libertada, entonces

)2()(,0)(

0,,1

2

21

)(2

12

v

vXVXE

vxv

xv

v

v

xf

v

vStudentTvY

ZT ~

/

Distribución de la media muestral (varianza desconocida)

gln

n

n

StudentTnS

XS

Xn

n

Sn

n

X

T

entonces

SnyN

n

XZ

nNX

quetieneseNXmaXXSea

)1(

2

2

2)1(2

22

21

~/

)(

)1(

)1(

/

,~)1(

)1,0(~/

,,~

),(~,

Ejercicio de simulación (distribución T-Student)

1. Generar 100 muestras aleatorias de normales (mu=63, sigma=18) de tamaño n=81.

2. Calcular en cada muestra la media y la varianza muestral (la insesgada)

3. Generar con esta información valores de una variable T, de acuerdo con el teorema anterior

4. Obtener el histograma, la media y la varianza de la variable generada y compararlos con los teóricos.

Distribución de la Diferencia de Medias

)1,0(~

,~,,~

),(~,),,(~,

2

22

1

21

21

2

22

21

21

1

2221

2111 21

N

nn

YXZ

entonces

nNY

nNX

NYmaYYNXmaXXSea nn

Distribución de la Diferencia de Medias

)1,0(~

11

,~,,~

),(~,),,(~,

21

21

2

2

21

2

1

2221

2111 21

N

nn

YXZ

entonces

nNY

nNX

NYmaYYNXmaXXSea nn

Distribución de la diferencia de medias

glnn

YX

nnYX

nY

nX

StudentT

nn

SnSn

nn

YX

T

entonces

SnSn

SnSn

)2(

21

2

22

21

21

21

2)2(2

22

21

2)1(2

222

)1(2

21

21

21

21

~

)2(

)1()1(

11

~)1()1(

~)1(

,~)1(

Distribución de la diferencia de medias

glnn

pp

YXp

StudentT

nnS

YX

S

nn

YX

T

entonces

nn

SnSnSSi

)2(

21

21

2

2

21

21

21

22

212

21~

11

11

)2(

)1()1(

Distribución del Cociente de Varianzas

• Distribución F

)4()2(

)422()(,

)2()(

0,)(

22

2),;(

22

21

1222

2

2

212

2

2

21

2/2

2/1

21

21

211

21

vvv

vvvXV

v

vXE

xxvvxvv

vvvv

vvxfvvv

vv

Distribución del cociente de varianzas

glvv

vv

F

vYvX

F

entonces

YXSeanTeorema

),(

2

121

21

~

~,~:

Ejercicio de simulación (distribución F)

1. Simular dos variables aleatorias Chi-Cuadrado de tamaño n=100

2. Generar una variable F de acuerdo con el teorema anterior

3. Calcular el histograma, la media y la varianza de la variable generada

4. Comparar los resultados de 3 con los teóricos de una F.

Distribución del cociente de varianzas

glvvY

X

Y

X

nY

nX

FS

S

n

Sn

n

Sn

T

entonces

SnSn

),(

22

2

21

2

2

22

22

1

21

21

2)1(2

222

)1(2

21

21

21

~

)1(

)1(

)1(

)1(

~)1(

,~)1(

Distribución del cociente de varianzas, asumiendo igual varianza en cada población

glvvY

X

Y

X

Y

X

n

FS

S

S

S

S

S

F

entonces

Si

),(2

2

2

2

2

2

22

2

21

2

2)1(

222

21

21

2

~

~

Ejercicio de simulación (distribución del cociente de varianzas)



3. Calcular 100 valores de las varianzas muestrales (en cada caso), es decir para cada una de las dos poblaciones

4. Generar con esta información valores de una variable F, de acuerdo con el teorema anterior

5. Obtener el histograma, la media y la varianza de la variable generada y compararlos con los teóricos de una distribución F con (80,80) grados de libertad

curso de métodos estadísticos i-2010 probabilidad y estimación

Documents