3° y 4° semana analisis multivariante
TRANSCRIPT
![Page 1: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/1.jpg)
UNIVERSIDAD NACIONAL UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOSMAYOR DE SAN MARCOS
Universidad del Perú, DECANA DE AMERICAUniversidad del Perú, DECANA DE AMERICA
FACULTAD DE CIENCIAS MATEMÁTICASFACULTAD DE CIENCIAS MATEMÁTICAS
Mg. María Estela Ponce AruneriMg. María Estela Ponce Aruneri
ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICAESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA
DEPARTAMENTO ACADÉMICO DE ESTADÍSTICADEPARTAMENTO ACADÉMICO DE ESTADÍSTICA
SEMESTRE ACADÉMÍCO 2009-IiSEMESTRE ACADÉMÍCO 2009-Ii
CURSO: ANÁLISIS MULTIVARIANTECURSO: ANÁLISIS MULTIVARIANTE
![Page 2: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/2.jpg)
UNIDAD 3:
INFERENCIA ESTADÍSTICA MULTIVARIANTE
2
![Page 3: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/3.jpg)
INFERENCIA ESTADÍSTICA MULTIVARIANTE
Fundamentos de la estimación por el método de Máximo Verosimilitud
1º Método creado por Fisher, encuentra el estimador que maximiza el logaritmo de la función de verosimilitud.
2º Se tiene una m.a. de tamaño “n” de una variable p-dimensional con función de densidad:
'
1 2( ) , , ,......, ,rf r pn x/θ θ
1
( ) ( / )n
ii
f f
x/θ x θ3
![Page 4: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/4.jpg)
3º La función de verosimilitud:
1
2
( )0
( )0
.
.
( )0
r
l
l
l
θ
θ
θ
1
var( / ) ( ) ( / ), : :n
ii
fijo iablel l f
θ x θ x θ x θ
4º El EMV se obtiene calculando el valor máximo de la función de verosimilitud, sí la función es diferenciable y su máximo no ocurre en un extremo de su dominio.
4
![Page 5: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/5.jpg)
( ) ( ( ))L Ln lθ θ
4º El máximo del logaritmo de la función de verosimilitud:
Se le denomina función soporte.
5º Este método proporciona estimadores con las siguientes propiedades:
a)Asintóticamente centrados:
b) Con distribución asintóticamente normal:
c) Eficiente (asintóticamente de varianza mínima)
ˆlim nn E
ˆ ˆ, ( )N Var
12
2
ˆ( )ˆ( )L
Var
5
![Page 6: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/6.jpg)
d) Si existe un estadístico suficiente para el parámetro, el EVM es suficiente.
siendo h una función no negativa que no depende de y r una función que sólo depende del parámetro y de la muestra a través del estimador.
e) Los EMV son invariantes para cualquier función del parámetro, cuyo estimador es MV.
Si es EMV de , entonces es EMV de g() . ˆ( )g
6
![Page 7: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/7.jpg)
ESTIMACIÓN DE LOS PARÁMETROS DE UNA DISTRIBUCIÓN NORMAL P-VARIADA
Sea : una m.a.s. extraída de una Población Normal p-variada donde: i pNx μ,Σ
1 2, ,........, nx x x
1
21/ 2/ 2
1 1
1
2( / ) ( ) ( / )
( )
n n
i pi i
l f f e
' -1x-μ Σ x-μ
μ,Σ x x/μ,Σ x μ,ΣΣ
Objetivo: Encontrar los EMV de µ,
1º Construir la función de densidad conjunta
7
![Page 8: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/8.jpg)
2º La función soporte, eliminando la constante:
1
1( ) ln ( / ) ln
2 2
n
i
nL l
' -1μ,Σ μ,Σ x Σ x - μ Σ x - μ
i ix - μ x x x - μ
1 1
n n
i ii i
'' -1 -1x - μ Σ x - μ x - μ Σ x - μ
1 1
n n
i i i ii i
n
' ' '-1 -1 -1x - μ Σ x - μ x - x Σ x - x x - μ Σ x - μ
3º Resolviendo el segundo término de la expresión anterior:
Pero:
Reemplazando esta última expresión en la anterior se tiene:
8
![Page 9: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/9.jpg)
Puesto que: 1
0n
ii
x - x
Aplicando las propiedades de traza para el primer término de la expresión anterior:
1 1
1 1
n n
i i i ii i
n n
i i i ii i
tr tr
tr tr
tr n ntr
' '-1 -1
' '-1 -1
-1 -1
x - x Σ x - x x - x Σ x - x
Σ x - x x - x Σ x - x x - x
Σ S Σ S
Reemplazando esta expresión en la función soporte:
9
![Page 10: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/10.jpg)
'( ) ln
2 2 2
n n nL tr -1 -1μ,Σ Σ Σ S x - μ Σ x - μ
' ˆ02
n -1x - μ Σ x - μ μ x
4º Obtención del EMV del vector de medias poblacional:
Como la inversa de es definida positiva, entonces:
5º Obtención del EMV de la matriz de covarianzas poblacional:
10
![Page 11: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/11.jpg)
1
( ) ln ln2 2 2
( ) ln2 2
n n nL tr
n nL tr
-1
-1
μ,Σ Σ Σ S S
μ,Σ Σ S Σ S
Reemplazando el EMV del vector de medias y sumando un término que nos permita obtener el máximo de la función con respecto a , se tiene que la función soporte se reduce a:
Sean i los autovalores de -1S:
( ) ln( ) ln( )2 2 2i i i
n n nL μ,Σ
11
![Page 12: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/12.jpg)
Esta función tendrá un máximo cuando i=1; es decir la función soporte será máxima cuando todos los autovalores de -1 S son iguales a la unidad y se
obendrá cuando el EMV de es S:
ˆˆ -1Σ S I Σ S
1 2, ,........, nx x x
ˆ, yx S
Definición 1: Si es una muestra aleatoria, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas , entonces
Son estadísticas suficientes.12
![Page 13: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/13.jpg)
Definición 2: Si es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y
matriz de covarianzas , entonces:
1,
1º
2º
3º
ˆ( 1)
ˆ
1,
,
p
n
son independientes
n
y
Nn
ΣS W
S
x μ Σ
x
1 2, ,........, nx x x
x
Definición 3: Consecuencia de la ley de los grandes números es que:
converge en probabilidad a µ13
![Page 14: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/14.jpg)
ˆ probabilidadS Σ
Teorema del límite central
Sea observaciones independientes de alguna población con vector de medias µ y matriz de
covarianza finita , entonces
1 2, ,........, nx x x
pn Nx - μ 0,Σ
Cuando n y n > p
14
![Page 15: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/15.jpg)
RESUMIENDO
Sí observaciones independientes de alguna población con vector de medias µ y matriz de
covarianza finita y no singular , entonces
1 2, ,........, nx x x
' 1 2
( )
ˆ
ˆ
p
p
y
cuando n p
n N
n
x - μ 0,S
x - μ S x - μ
15
![Page 16: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/16.jpg)
Región de Confianza y Pruebas de Hipótesis para el vector de medias de una población
Regiones de Confianza para el vector de medias
1º Una región de confianza del 100(1-)% para el vector de medias de una población que tiene distribución normal p-variada está dado por:
' 1,
( 1)( )
( ) p n p
p nn F
n p
x - μ S x - μ
Donde:
'
1 1
1 1
1i i i
n n
i in n x x S x x x x
16
![Page 17: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/17.jpg)
1 2, ,........, nx x x
Son las observaciones muestrales.
Observación:
Sí p 4 no es posible graficar la región de confianza para el vector de medias, pero sí es posible calcular los ejes del elipsoide confidencial y sus respectivas longitudes.
17
' 1 2,
' 1,
( 1)( )
( )
( 1)( )
( )
p n p
ii p n p
p nn c F
n p
c p nF
n n pn
x - μ S x - μ
x - μ S x - μ
![Page 18: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/18.jpg)
Si el centro es el vector de medias muestral, entonces los ejes del elipsoide confidencial están dados por:
,
1, 2......,
( 1)( )
( )i p n p
i i i i p
p nF
n n p
Sγ γ
183,63 44,539 24,285 0,0317 -0,0182
84,72 24,285 42.25 -0,0182 0,0341
x S S
Ejemplo: De 195 provincias del Perú en el año 2005, se obtuvo la siguiente información:
18
![Page 19: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/19.jpg)
19 91: HUAYCABAMBA 95: PACHITEA 121: SANCHEZ CARRIÓN
![Page 20: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/20.jpg)
Obtener una región de confianza del 95% para el vector de medias de la población de pacientes que sufrieron infarto al miocardio y que tiene distribución normal bivariada .
Los autovalores y autovectores de S son:
68,2531 -0,7306 0,6828
19,5539 -0,6828 -0,7306
Γ
Reemplazando los valores en la región de confianza se tiene:
'
1 12,98
2 2
83,63 0,0317 -0,0182 83,63 2(195 1)195 (0.05)
84,72 -0,0182 0,0341 84,72 (195 2)F
- -
20
![Page 21: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/21.jpg)
82,5
83,6
μSí: ¿se encontrará dentro de la región de
confianza?
Reemplazando los valores del vector de medias se tiene:
0,0372 > 0,031848
21
'
1 1
2 2
83,63 0,0317 -0,0182 83,63 2(195 1)195 (3,0892)
84,72 -0,0182 0,0341 84,72 (195 2)
- -
'
1 1
2 2
83,63 0,0317 -0,0182 83,630,031848
84,72 -0,0182 0,0341 84,72
- -
![Page 22: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/22.jpg)
Para graficar el elipsoide, se tiene que la longitud media de los ejes está dado por:
,
1 ,
2 ,
1 2
1, 2( 1)
( )( )
( 1)( ) 68,2351 0.031848 1,47
( )
( 1)( ) 19,539 0.031848 0,79
( )
i p n p
p n p
p n p
ip n
Fn n p
p nF
n n p
p nF
n n p
22
![Page 23: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/23.jpg)
2º Una región de confianza del 100(1-)% para el vector de medias de una población que tiene distribución p-variada y matriz de covarianza definida positiva, y si n-p se tiene que:
' 1 2 ( ) 1p
P n x - μ S x - μ
Ejemplo: Suponga que no se conoce la distribución de la población de los datos del ejercicio anterior y calcule la región de confianza para el 95% de confianza.
23
'
1 1 22
2 2
83,63 0,0317 -0,0182 83,63 1(0.05)
84,72 -0,0182 0,0341 84,72 195
- -
![Page 24: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/24.jpg)
80,3
81,5
μ ¿Se encontrará en la región de confianza?
Reemplazando los valores del vector de medias se tiene:
0.3147 > 0,030718
24
'
1 1
2 2
83,63 0,0317 -0,0182 83,63 1(5,99) 0,030718
84,72 -0,0182 0,0341 84,72 195
- -
![Page 25: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/25.jpg)
25
Para graficar el elipsoide:
1
2
1 2
1, 2
2
2
2
( )
( )68,253 0,030718 1,6
( )19,5539 0,030718 0,77
i ip
p
p
n
n
n
![Page 26: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/26.jpg)
Pruebas de Hipótesis para el vector de medias de
una población
1 2, ,......, p
p
toma valores en
Θ Ω
Ω
0 0
1 0 1
:
:
H
H
Θ Ω
Θ Ω Ω Ω
Método de la razón de Verosimilitud
Proporciona pruebas estadísticas, que tienen ciertas propiedades óptimas para tamaños muestrales grandes.
Dado:
Y queremos probar las siguientes hipótesis:
26
![Page 27: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/27.jpg)
Definición 1.- Si la distribución de una muestra aleatoria X= (X1, X2, …..,Xn) depende de un vector de parámetros y si:
0 0
1 0 1
:
:
H
H
Θ Ω
Θ Ω Ω Ω
0
1
( )( )
( )
f HRV
f HX
Entonces la razón de verosimilitud, para contrastar Ho
contra H1 se define como:
Donde f (Hi) es el mayor valor que toma la función de
verosimilitud en la región i i=0,1.
Si el tamaño de la muestra es grande se tiene que cuando la hipótesis nula es cierta:27
![Page 28: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/28.jpg)
1 02ln ( ) 2 ( ) ( )
( ) ln ( ) 0,1i i
RV L H L H
L H f H i
X
0
/ ( )
sup
dondeR RV c
P R
Ω
X X
X
Definición 2: La prueba de razón de verosimilitud de tamaño para probar la hipótesis nula contra la hipótesis alternativa, tiene como región de rechazo:
¿Cuál es le valor de gl()=?
gl()=dim ()- dim (o)= p-(p-r)= r,
28
![Page 29: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/29.jpg)
2r cuando n
0
1
:
:
H
H 0
0
μ = μ
μ μ
'( ) ln (*)
2 2 2
n n nL tr -1 -1μ,Σ Σ Σ S x - μ Σ x - μ
Prueba de hipótesis
1) Sí X= (X1, X2, …..,Xn) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas conocida , entonces:
De la sección anterior se tiene que la función soporte para obtener los EMV, viene dada por:
29
![Page 30: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/30.jpg)
Reemplazando los EMV en la función soporte se tiene que el soporte para H1 es:
1( ) ln2 2
n npL H S
10
'
01
( ) ln2 2
1 n
i
n nL tr
n
i 0 i 0
Σ/X Σ Σ S
S x - μ x - μ
Bajo Ho, se tiene que la expresión (*) se convierte en:
Sumando una cantidad constante , se tiene que:
30
![Page 31: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/31.jpg)
0 0( ) ln2 2
n npL H S
10 0
1 10 0
( ) ln ln (**)2 2 2
( ) ln2 2
n n nL tr
n nL tr
Σ/X Σ Σ S S
Σ/X Σ S Σ S
1 02 ( ) ( ) lnL H L H n 0S
S
Entonces So es el EMV de bajo la hipótesis nula, reemplazando este estimador en (**) se tiene el soporte para Ho:
Luego:
31
![Page 32: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/32.jpg)
'
01
'
0
'
0
' '0 1
1 n
i
nn
n n n
i 0 i 0
0 0
0 0
-10 0 0 0
S x - x x μ x x x - μ
S S x μ x μ
S x μ x μS
S S
SS S x μ x μ I + S x μ x μ
S
Utilizaremos el siguiente lema:
Si A es una matriz no singular y b es un vector:32
![Page 33: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/33.jpg)
1 ' 'I + Abb b Ab
' '0
20
1
11n
-1 -10 0 0 0
SI + S x μ x μ x μ S x μ
S
S T
S
2 2
1 0
0 0 0 02
2 ( ) ( ) ln ln 11 1
1( 1)
( 1) p
L H L H n n nn n
n n nn
0
' '-1 -1
S T T
S
x - μ S x - μ x - μ S x - μ
Cuando el tamaño de muestra es suficientemente grande o la matriz de covarianzas poblacional es conocida.
33
![Page 34: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/34.jpg)
2p cuando n
0
1
:
:
H
H 0
0
μ = μ
μ μ
2) Sí X= (X1, X2, …..,Xn) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas desconocida , y si queremos probar:
Rechazaremos la hipótesis nula cuando
A un nivel de significancia “” , rechazamos la hipótesis nula sí:
34
![Page 35: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/35.jpg)
2
0 0 ,
1p n p
nT n F
n p
' -1x - μ S x - μ
Ejemplos:
1) La siguiente información se obtuvo del estudio del IDH en 195 provincias del Perú, en el 2005.
35
Se consideraron las siguientes variables:
X1: % DE ALFABETISMOX2: % DE ESCOLARIDADX3: % LOGRO EDUCATIVOX4: INGRESO FAMILIAR PERCAPITA MENSUAL: NUEVOS SOLES
![Page 36: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/36.jpg)
36
![Page 37: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/37.jpg)
37
Supongamos que tienen distribución normal p-variada con vector de medias µ y matriz de covarianzas :
![Page 38: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/38.jpg)
87,45 85,3390 69,249 13,762 50,536 549,394
84,32 83,6318 13,762 44,539 24,285 317,494
84,7174 50,536 24,285 42,250 476,10585,76
273,6605 549,394 317,494 476,105 14492,656274,38
0μ x S
1
20
3
4
1
21
3
4
87,45
84,32:
85,76
274,38
87,45
84,32:
85,76
274,38
H
H
μ
μ=
μ
μ
μ
μ
μ
μ
Pruebe la siguiente hipótesis:
38
![Page 39: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/39.jpg)
0 02
2
4147.0300 (0.05) 9,488
pn
' -1x - μ S x - μ
Rechazamos la hipótesis nula al 5%, luego:
39
1
2
3
4
87,45
84,32
85,76
274,38
μ
μ
μ
μ
![Page 40: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/40.jpg)
Ejemplo 2: De 100 grandes compañías de los EEUU, se obtuvo la siguiente información:
54,52 8191,985 110,072 456,555
61,31 110,072 6293,093 2281,255
40,52 456,555 2281,255 2551,283
x S
1
20
3
1
21
3
55
: 62
42
55
: 62
42
H
H
μ
μ =
μ
μ
μ
μ
Probar la hipótesis:
40
X1: gastos intangibles en millonesX2: gastos de publicidad en miilonesX3: gastos en investigación y desarrollo en millones
![Page 41: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/41.jpg)
41
![Page 42: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/42.jpg)
20 0
2,98
0.0956
100 1 990.05 * 3.0892=3.121
100 2 98
T n
F
' -1x - μ S x - μ
No Rechazamos la hipótesis nula al 5%, luego:
42
1
2
3
55
62
42
μ
μ =
μ
![Page 43: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/43.jpg)
Región de Confianza y Pruebas de Hipótesis para
la diferencia de vectores de medias poblacionales Distancia de Mahalanobis para dos poblaciones
con vector de medias µ1, µ2 y matriz de covarianza , entonces
'2 1 1 2 1 2Δ μ - μ Σ μ - μ
'2 1
2 2
2
ˆ
( 1) ( 1)ˆ( )n
1 2 1 2
1 1
D x - x S x - x
n S n SS
Si se tiene dos muestras aleatorias de tamaño n1 y n2 , donde n= n1+ n2 entonces la distancia de mahalanobis muestral se define como:
43
![Page 44: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/44.jpg)
Teorema: Si X1 y X2 son matrices de datos independientes,
y si las ni filas de xi son i.i.d con Np(µi,i), i=1,2, cuando
µ1=µ2 y 1 = 2, se tiene que: 2 21 2( , 2)p n
n nD T
n
1 2 1 2
1 21 2
1' 2
1 2 1 2 ( , 2)1 2
2 2
2
( , )
, ,
,
ˆ( ) ,
ˆ( )( 2)
i p i i
i pi
p
p
p n
n n
n
N
Nn
nN
n n
W
nT
n n n
x μ Σ
Σx μ μ μ μ Σ Σ Σ
Σx x 0
S Σ
x x S x x
Prueba:
44
![Page 45: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/45.jpg)
2 21 2( , 2) , 1
2, 1
1 2
( 2)
1
( 2)
1)(
p n p n p
p n p
n
n
n n pD T F
n n p
npD F
n n n p
2 2
( , ) ( , 2), 1 , 1
( 2)
1(**)
1p m p np m p p n p
nmp pT F T F
m p n p
11/ 2 1/ 2
' 21 2 1 21 2 1 2 ( , 2)
2
2
( ) ˆ (*)( ) p n
n
n
n n n nT
n n
x x S x x
Por teorema:
De (*) y (**):
45
![Page 46: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/46.jpg)
Región de Confianza para la diferencia de vectores de dos medias poblacionales
Si xi es una muestra aleatoria de tamaño ni, extraída de una
población con Np(µi,i), i=1,2, ambas muestras pequeñas e
independientes y 1 = 2 = desconocido, y si:
2 2
2
( 1) ( 1)ˆˆ( )
y son las medias muestrales
n
1 2
1 1
x x
n S n SΣ S
1 2 1 21 2
2 2)
( ) ,
ˆ ( ,
p
n n
nN
n n
W
x x μ μ Σ
S Σ46
![Page 47: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/47.jpg)
47
1/ 2 1/ 21
'
1 2 1 2 1 2 1 21 2 1 2
1
2( , 2)
( 2)
( 2)
2
( 2)
ˆ( ) ( ) ( ) ( )
( , )( ) ( )pp p p n
n
n
n
n
n n
n n n n
WN N T
x x μ μ S x x μ μ
Σ0, Σ 0,Σ
2 2( , 2)
2( , 1)
( ) 1
( 2)( ) 1
( 1)
p n
p n p
p n
n p
P T T
P T F
![Page 48: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/48.jpg)
Ejemplo: En una muestra de dos grupos de individuos: No son Jefes de familia y los que son Jefe de familia. Las variables consideradas son:
48
X1: número de semanas de desempleoX2: edad del trabajador en años
1 1
2 2
49,93 771,352 190,552
33,73 190,552 125,067
40,06 468,906 109,845
35,06 109,845 69,269
x S
x S
Obtenga la región para el 99% de confianza .
Grafique los contornos del elipsoide si:1 2
51 43,
35 38
μ = μ =
![Page 49: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/49.jpg)
1 2
1'
1 2 1 2 1 2 1 2 ( , 1)
( 2)( )
( 1)ˆ( ) ( ) ( ) ( ) p n p
n
np n
n n pF
x x μ μ S x x μ μ
(2,46)2 2
2
49 * 2 * (49 2)(0.05)
15 * 34 * (49 2 1)
9.87 0.0029 -0.0044 9.87
1.33 1.33-0.0044 0.0186
9.87 0.0029 -0.0044
1.33 -0.0044
'
'
F
1 1
1
μ μ
μ μ
μ
μ 2
9.870,6282
1.33 0.0186
1μ
μ
2 2
1
49 2
558.9963 133.8854(15 1) (34 1) 14* 33*ˆ133.8854 85.88970( ) 47
0.0029 -0.0044ˆ-0.0044 0.0186
1 1S S S SS
S
49
![Page 50: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/50.jpg)
Para graficar el elipsoide se tiene :8
3
μ =
1 2
( , 1)
( 2)( ) 1, 2
( 1))i p n p
n
np ni
n n pF
SLos autovalores y autovectores de son:
1 2594,2568 50,6291
-0.9670 0.2547
-0.2547 -0.9670
50
![Page 51: 3° Y 4° Semana Analisis Multivariante](https://reader036.vdocuments.pub/reader036/viewer/2022081417/556f84cad8b42a8f678b524a/html5/thumbnails/51.jpg)
594,2568 0,6282 19,32
50,6291 0,6282 5,64
La longitud media de los ejes:
Tarea: ¿Cuál será la región de confianza para la diferencia de vectores de medias de dos poblaciones si 1 2
51