curso de métodos estadísticos i-2010 probabilidad y estimación
TRANSCRIPT
Curso de Métodos Estadísticos I-2010
Probabilidad y Estimación
Ejemplos de Modelos de Probabilidad para variables Discretas
nxpqxpGeometrica
nxppx
nxpBinomial
xxexpPoisson
x
xnx
x
,...,1,0 ,)( :
,...,1,0 ,)1()( :
,...2,1,0 ,!/)( :
Modelos de Probabilidad para variables Contínuas
22
22/)(exp
2
1)(
xxf
0 )/exp()(
1)( 1
xxx
rxf r
r
2/)1(2 )( /1)()2/(
)2/)1((
kkxxf
kk
k
Normal
Gamma
t
Uniform bxaabxf ),/(1)(
Función de distribución
x
y
x
ypxFDiscretas
dxxfxFContinuas
xXPxF
1)()(:
)()(:
)()(
Muestra Aleatoria
• X1, X2, …, Xn variables aleatorias independientes e identicamente distribuidas (la misma distribución de X).
Ejemplo: X: Concentración de un contaminante
X1: Concentración del contaminante en la primera muestra de agua. Que valores puede tomar X1?. …
Xn: Concentración del contaminante en la n-ésima muestra de agua. Que valores puede tomar Xn?.
Muestra Aleatoria
Conceptualmente:
X1, X2, …, Xn son variables que siguen el mismo modelo de probabilidad que rige a X.
Los posibles valores que puede tomar Xi no dependen de los valores que puede tomar Xj (para todo i diferente de j), luego hay independencia.
Nota: X1, X2, …, Xn (variables aleatorias) y x1, x2, …, xn (observaciones de esas variables aleatorias. Esta es la muestra observada. Son valores!!!)
Parámetro, Estimador, Estimación
• Parámetro ( ): Constante que describe total o parcialmente la distribución de probabilidad de la variable aleatoria en la población (por ejemplo )
• Estadística Muestral (T): Función de las variables aleatorias de la muestra aleatoria que no contiene cantidades desconocidas
2,
Parámetro, Estimador y Estimación
• Estimador: Si T (estadística muestral) se emplea para estimar , T se llama estimador y t (su valor muestral) se llama estimación.
• Ejemplo
n
ii
n
ii
xn
x
Xn
X
1
1
1
1
Características deseables de los estimadores
• Concentración (asociado a la precisión del estimador). Criterios: ECM e insesgamiento)
• Eficiencia (asociado a la variabilidad del estimador)
• Consistencia: Tiene que ver con el comportamiento del estimador cuando aumenta el tamaño de la muestra
• Suficiencia: Indica si el estimador usa toda la información disponible en la muestra.
Concentración: Error Cuadrático medio
sesgodelCuadradoVarianzaTETVTECM
TETECM2
2
))(()()(
)()(
Comprobar
Estimador Insesgado
• Comprobar que es insesgado. Encontrar su varianza
)()(
)(
TVTECM
TE
X
Consistencia
• Un estimador es consistente si al aumentar el tamaño de muestra el estimador se acerca más al parámetro.
)(1)(lim
,,2,1,,1
adprobabilidenconvergeTP
sieconsistentesT
ntamañomuestrasTTT
deestimadorT
nn
n
Desigualdad de Chebychev
2
2
2
1
11
)()(
kkXP
kkXP
XVyXEconAleatoriaVariableX
Chebychev
nx ,...,1,0
Area
Comprobar, usando la desigualdad de Chebychev, que es un estimador consistente de
X
1lim
0limlim
,
1
?1lim
2
2
2
2
2
XP
nXP
n
k
nXP
kn
kXP
XP
n
nn
n
Eficiencia
• Si T1 y T2 son dos estimadores insesgados de T1 es más eficiente que T2 si
• Dentro de los estimadores insesgados de , el que tiene la varianza más pequeña se llama UMVUE (estimador insesgado de varianza mínima)
relativaEficienciaTV
TV
conrelativaEficiencia
TVTV
)(
)(
,1
),()(
2
1
21
Cota de Cramer-Rao
FisherdenInformació
XfnE
TV
);(ln
1)(
Si la varianza del estimador es igual a la cota de Cramer-Rao entonces el estimador es un UMVUE.
Ejemplo: Sea X1,…,Xn una muestra laetoria de una diustribución de Poisson ( ). Obtener el estimador más eficiente de
Suficiencia
• Una estadística es suficiente si utiliza toda la información de la muestra respecto al parámetro
• T2 suficiente y T1 non
XXXT
n
XXXT
maXXX
n
n
n
212
1311
21
2/
,,
Función de Verosimilitud
n
ii
n
xfL
xfdemaXX
1
1
);()(
);(,,
Encontrar la función de verosimilitud de una muestra de una normal ( ).2,
Suficiencia (teorema de factorización)
• T es suficiente para sii
• Si un estimador T es insesgado y suficiente entonces es el más eficiente
• Si T es el más eficiente, entonces es suficiente
• Una función de una estadística suficiente es también suficiente
),,();()( 1 nxxgthL
Ejemplo del teorema de factorización
)(
;
,;!
!!)(
!)(
1
1
11
1
1
1
11
UMVUEeficientemáselesXinsesgadoesX
suficienteesXsuficienteesx
exh
xxgxhx
e
x
e
x
eL
x
exf
x
Ii
xn
x
Ii
n
x
Iin
ii
xn
n
xx
x
n
ii
n
ii
n
Métodos de Estimación Puntual
• Máxima Verosimilitud
• Momentos
• Mínimos Cuadrados
• Estimación bayesiana
Estimador de Máxima Verosimilitud
• Valor del parámetro que hace más probable lo observado en la muestra. Suponga que se la variable No de accidentes/semana. En una semana se observan dos accidentes. Estime lambda de la Poisson con esta información. Calcule P(X=2) con los posibles valores de lambda. Cuál hace máxima esta probabilidad
P(x=2)
1 0.18
1.5 0.25
2 0.27
2.5 0.25
3 0.22
Estimador de Máxima verosimilitud (2)
• Repita el ejemplo anterior asumiendo que se tienen observaciones de dos semanas consecutivas y que en la primera se observaron dos accidentes y en la segunda tres
P(X=2) P(x=3) P(x=2)*P(x=3)
1
1.5
2.0
2.5
3
Estimador de Máxima verosimilitud (3). Propiedad de Invarianza
)()ˆ(
ˆ
gdeEMVg
deEMV
Estimador de Máxima verosimilitud (3)
• Suponga que tiene una muestra aleatoria tamaño n de una distribución Bernoulli de parámetro p. Encuentre el estimador máximo verosímil de p.
• Suponga que tiene una muestra aleatoria de una distribución normal de media y varianza 2. Encuentre los estimadores máximo verosímiles de y 2.
Método de los momentos
• El estimador del r-ésimo momento poblacional es el r-ésimo momento muestral
• Cuando se estiman varios momentos poblacionales (p.ej E(X) y E(X2)), los estimadores de momentos se obtienen al resolver el sistema de ecuaciones que resulta de igualar los momentos muestrales a los poblacionales
mustralmomentoésimorXn
M
lpoblacionamomentoésimorXEn
iir
rr
1
´
´
1
)(
n
ii
n
ii
n
ii
n
ii
n
ii
n
ii
XXnXXn
XnXn
XEdeMomentosEstXn
xEdeMomentosEstXn
1
22
1
2
2
11
22
222
1
2
1
/1/1
/1/1ˆ
)(./1
)(./1
DISTRIBUCIONES MUESTRALES
Distribución de la Media Muestral
• Si X1, X2, …, Xn ma de XN(,2)
• Si X1, X2, …, Xn ma de f(x) con E(X)= , V(x)= 2 y n grande, entonces
nNX
2
,
nNX
2
,
TEOREMA CENTRAL DEL LIMITE (DEMOSTRACION PAG 247 CANAVOS)
Demostraciones (Distribución de la media muestral)
nXVb
XEa2
)()
)()
Función Generadora de Momentos (repaso)
dxxfe
xXPe
eEtmtx
x
tx
tXX
)(
)(
)()(
0
0
2
22
0
)()(
)()(
)()(
t
Xr
rr
t
X
tX
tmt
XE
tmt
XE
tmt
XE
222
22
2
122
2
12
)(),(~
)(),(~
atta
aX
tt
X
etmaaNaX
etmNX
Si la función generadora de momentos existe es única y determina la distribución de probabilidad de X. En otras palabras, si dos variables tienen la misma función generadora de momentos, entonces tienen la misma distribución de probabilidad
Demostraciones (continuación)
)()()(
)()()(
)()(
:Pr
).()()()(
)(),(.,
:)
2211
2211
22111
2211
11
1
tmtmtm
eEeEeE
eeeEeEeEtm
ueba
tmtmtmtmentonces
XaYytmtmfgmconindepVAXX
Teoremac
nn
nn
nn
n
iii
nn
n
XaXaXa
XtaXtaXta
XtaXtaXtaXat
tYY
XaXaXaY
n
iiiXXn
Demostraciones (continuación)
2
1
21
2
1
2
1
21
2
1
222222222
222111
2211
2
1
2
1
2
1
2
1
1 1
22
1
21
)()()()(
:Pr
,~
),(~.,
:)
n
i
n
iii
n
i
n
iii
nnn
nn
ayaconNormalfgm
atat
tatatatatata
XaXaXaY
n
i
n
iiii
n
iiiin
e
eee
tmtmtmtm
ueba
aaNYentonces
XaYyNXconindepVAXX
Teoremad
Demostraciones (continuación)
nayXY
hagadendadoteoremaelEn
ueba
NXentonces
Xn
XyNXconmaXX
Teoremae
i
n
iin
1
)
:Pr
,~
1),(~,
:)
2
1
21
Distribución de S2 (1)
• Distribución Chi-Cuadrado
• El parámetro se denomina grados de libertad.• La suma de variables aleatorias independientes con distribución Chi-Cuadrado, se
distribuye chi cuadrado con parametro igual a la suma de los grados de libertad• La distribución Chi-Cuadrado es un caso particular de la distribución Gama (= /2,
=2).
2
21
2
2/
)21()(2)(,)(
0,2
2
1);(
v
X
xv
v
ttmyvXVvXE
xexv
vxf
Distribución de S2 (continuación)
1
2
1
22
21
~
~),(~,,,
i
n
in
in
X
rParticualaCaso
XYNXmaXXX
Teorema
n
ilgn
in
XXSnNXmaXXX
Teorema
1.)1(
2
2
22
21 ~1
),(~,,,
Distribución de S2(continuación)
)1(2
2
2
1
22
21
2
1
22
1
2
1
2
1
2
~)1(
/
)(
)()(
)()()()(
Pr
1
n
n
i
i
n
ii
n
ii
n
ii
n
ii
n
ii
Sn
n
XXXX
XnX
XXXXXX
ueba
n
Distribución de S2 (continuación)
)1(
2
)1(
)1(2)(
)1(2)()1(
)1(2)1(
)1()1(
4
2
42
4
22
2
2
222
2
nn
nSV
nSVn
nSn
V
SEnSn
E
Ejercicio de simulación (distribución Ci-cuadrado)
1. Simular 30 variables aleatorias normales estándar n=100
2. Elevarlas al cuadrado
3. Sumarlas
4. Hacer el histograma de la variable de la variable obtenida con la suma
5. Comparar con la densidad de una Chi-Cuadrado con 30 grados de libertad
6. Calcular la media y la varianza de la variable obtenida con la suma y comparar con a media y la varianza teórica de una Chi-cuadrado con 10 grados de libertad
7. Simule 50 muestras aleatorias de normales (mu=10, sigma=2) de tamaño n=15. Con cada muestra encuentre la estadística 14S2 /4. Haga el histograma correspondiente y compárelo con la densidad de una chi-cuadrado con 14 grados de libertad
Distribución de la media muestral (varianza desconocida)
• Una variable aleatoria X tiene distribución T-Student con grados de libertad si su función de probabilidad está dada por:
• Teorema: Sea Z una variable aleatoria con distribución normal estándar. Y una
variable aleatoria 2 con grados de libertada, entonces
)2()(,0)(
0,,1
2
21
)(2
12
v
vXVXE
vxv
xv
v
v
xf
v
vStudentTvY
ZT ~
/
Distribución de la media muestral (varianza desconocida)
gln
n
n
StudentTnS
XS
Xn
n
Sn
n
X
T
entonces
SnyN
n
XZ
nNX
quetieneseNXmaXXSea
)1(
2
2
2)1(2
22
21
~/
)(
)1(
)1(
/
,~)1(
)1,0(~/
,,~
),(~,
Ejercicio de simulación (distribución T-Student)
1. Generar 100 muestras aleatorias de normales (mu=63, sigma=18) de tamaño n=81.
2. Calcular en cada muestra la media y la varianza muestral (la insesgada)
3. Generar con esta información valores de una variable T, de acuerdo con el teorema anterior
4. Obtener el histograma, la media y la varianza de la variable generada y compararlos con los teóricos.
Distribución de la Diferencia de Medias
)1,0(~
,~,,~
),(~,),,(~,
2
22
1
21
21
2
22
21
21
1
2221
2111 21
N
nn
YXZ
entonces
nNY
nNX
NYmaYYNXmaXXSea nn
Distribución de la Diferencia de Medias
)1,0(~
11
,~,,~
),(~,),,(~,
21
21
2
2
21
2
1
2221
2111 21
N
nn
YXZ
entonces
nNY
nNX
NYmaYYNXmaXXSea nn
Distribución de la diferencia de medias
glnn
YX
nnYX
nY
nX
StudentT
nn
SnSn
nn
YX
T
entonces
SnSn
SnSn
)2(
21
2
22
21
21
21
2)2(2
22
21
2)1(2
222
)1(2
21
21
21
21
~
)2(
)1()1(
11
~)1()1(
~)1(
,~)1(
Distribución de la diferencia de medias
glnn
pp
YXp
StudentT
nnS
YX
S
nn
YX
T
entonces
nn
SnSnSSi
)2(
21
21
2
2
21
21
21
22
212
21~
11
11
)2(
)1()1(
Distribución del Cociente de Varianzas
• Distribución F
)4()2(
)422()(,
)2()(
0,)(
22
2),;(
22
21
1222
2
2
212
2
2
21
2/2
2/1
21
21
211
21
vvv
vvvXV
v
vXE
xxvvxvv
vvvv
vvxfvvv
vv
Distribución del cociente de varianzas
glvv
vv
F
vYvX
F
entonces
YXSeanTeorema
),(
2
121
21
~
~,~:
Ejercicio de simulación (distribución F)
1. Simular dos variables aleatorias Chi-Cuadrado de tamaño n=100
2. Generar una variable F de acuerdo con el teorema anterior
3. Calcular el histograma, la media y la varianza de la variable generada
4. Comparar los resultados de 3 con los teóricos de una F.
Distribución del cociente de varianzas
glvvY
X
Y
X
nY
nX
FS
S
n
Sn
n
Sn
T
entonces
SnSn
),(
22
2
21
2
2
22
22
1
21
21
2)1(2
222
)1(2
21
21
21
~
)1(
)1(
)1(
)1(
~)1(
,~)1(
Distribución del cociente de varianzas, asumiendo igual varianza en cada población
glvvY
X
Y
X
Y
X
n
FS
S
S
S
S
S
F
entonces
Si
),(2
2
2
2
2
2
22
2
21
2
2)1(
222
21
21
2
~
~
Ejercicio de simulación (distribución del cociente de varianzas)
1. Generar 100 muestras aleatorias de normales (mu=63, sigma=18) de tamaño n=81.
2. Generar 100 muestras aleatorias de normales (mu=73, sigma=18) de tamaño n=81.
3. Calcular 100 valores de las varianzas muestrales (en cada caso), es decir para cada una de las dos poblaciones
4. Generar con esta información valores de una variable F, de acuerdo con el teorema anterior
5. Obtener el histograma, la media y la varianza de la variable generada y compararlos con los teóricos de una distribución F con (80,80) grados de libertad