3° y 4° semana analisis multivariante

UNIVERSIDAD NACIONAL UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOSMAYOR DE SAN MARCOS

Universidad del Perú, DECANA DE AMERICAUniversidad del Perú, DECANA DE AMERICA

FACULTAD DE CIENCIAS MATEMÁTICASFACULTAD DE CIENCIAS MATEMÁTICAS

Mg. María Estela Ponce AruneriMg. María Estela Ponce Aruneri

ESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICAESCUELA ACADÉMICO PROFESIONAL DE ESTADÍSTICA

DEPARTAMENTO ACADÉMICO DE ESTADÍSTICADEPARTAMENTO ACADÉMICO DE ESTADÍSTICA

SEMESTRE ACADÉMÍCO 2009-IiSEMESTRE ACADÉMÍCO 2009-Ii

CURSO: ANÁLISIS MULTIVARIANTECURSO: ANÁLISIS MULTIVARIANTE

UNIDAD 3:

INFERENCIA ESTADÍSTICA MULTIVARIANTE

2

INFERENCIA ESTADÍSTICA MULTIVARIANTE

Fundamentos de la estimación por el método de Máximo Verosimilitud

1º Método creado por Fisher, encuentra el estimador que maximiza el logaritmo de la función de verosimilitud.

2º Se tiene una m.a. de tamaño “n” de una variable p-dimensional con función de densidad:

'

1 2( ) , , ,......, ,rf r pn x/θ θ

1

( ) ( / )n

ii

f f

x/θ x θ3

3º La función de verosimilitud:

1

2

( )0

( )0

.

.

( )0

r

l

l

l

θ

θ

θ

1

var( / ) ( ) ( / ), : :n

ii

fijo iablel l f

θ x θ x θ x θ

4º El EMV se obtiene calculando el valor máximo de la función de verosimilitud, sí la función es diferenciable y su máximo no ocurre en un extremo de su dominio.

4

( ) ( ( ))L Ln lθ θ

4º El máximo del logaritmo de la función de verosimilitud:

Se le denomina función soporte.

5º Este método proporciona estimadores con las siguientes propiedades:

a)Asintóticamente centrados:

b) Con distribución asintóticamente normal:

c) Eficiente (asintóticamente de varianza mínima)

ˆlim nn E

ˆ ˆ, ( )N Var

12

2

ˆ( )ˆ( )L

Var

5

d) Si existe un estadístico suficiente para el parámetro, el EVM es suficiente.

siendo h una función no negativa que no depende de y r una función que sólo depende del parámetro y de la muestra a través del estimador.

e) Los EMV son invariantes para cualquier función del parámetro, cuyo estimador es MV.

Si es EMV de , entonces es EMV de g() . ˆ( )g

6

ESTIMACIÓN DE LOS PARÁMETROS DE UNA DISTRIBUCIÓN NORMAL P-VARIADA

Sea : una m.a.s. extraída de una Población Normal p-variada donde: i pNx μ,Σ

1 2, ,........, nx x x

1

21/ 2/ 2

1 1

1

2( / ) ( ) ( / )

( )

n n

i pi i

l f f e

' -1x-μ Σ x-μ

μ,Σ x x/μ,Σ x μ,ΣΣ

Objetivo: Encontrar los EMV de µ,

1º Construir la función de densidad conjunta

7

2º La función soporte, eliminando la constante:

1

1( ) ln ( / ) ln

2 2

n

i

nL l

' -1μ,Σ μ,Σ x Σ x - μ Σ x - μ

i ix - μ x x x - μ

1 1

n n

i ii i

'' -1 -1x - μ Σ x - μ x - μ Σ x - μ

1 1

n n

i i i ii i

n

' ' '-1 -1 -1x - μ Σ x - μ x - x Σ x - x x - μ Σ x - μ

3º Resolviendo el segundo término de la expresión anterior:

Pero:

Reemplazando esta última expresión en la anterior se tiene:

8

Puesto que: 1

0n

ii

x - x

Aplicando las propiedades de traza para el primer término de la expresión anterior:

1 1

1 1

n n

i i i ii i

n n

i i i ii i

tr tr

tr tr

tr n ntr

' '-1 -1

' '-1 -1

-1 -1

x - x Σ x - x x - x Σ x - x

Σ x - x x - x Σ x - x x - x

Σ S Σ S

Reemplazando esta expresión en la función soporte:

9

'( ) ln

2 2 2

n n nL tr -1 -1μ,Σ Σ Σ S x - μ Σ x - μ

' ˆ02

n -1x - μ Σ x - μ μ x

4º Obtención del EMV del vector de medias poblacional:

Como la inversa de es definida positiva, entonces:

5º Obtención del EMV de la matriz de covarianzas poblacional:

10

1

( ) ln ln2 2 2

( ) ln2 2

n n nL tr

n nL tr

-1

-1

μ,Σ Σ Σ S S

μ,Σ Σ S Σ S

Reemplazando el EMV del vector de medias y sumando un término que nos permita obtener el máximo de la función con respecto a , se tiene que la función soporte se reduce a:

Sean i los autovalores de -1S:

( ) ln( ) ln( )2 2 2i i i

n n nL μ,Σ

11

Esta función tendrá un máximo cuando i=1; es decir la función soporte será máxima cuando todos los autovalores de -1 S son iguales a la unidad y se

obendrá cuando el EMV de es S:

ˆˆ -1Σ S I Σ S

1 2, ,........, nx x x

ˆ, yx S

Definición 1: Si es una muestra aleatoria, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas , entonces

Son estadísticas suficientes.12

Definición 2: Si es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y

matriz de covarianzas , entonces:

1,

1º

2º

3º

ˆ( 1)

ˆ

1,

,

p

n

son independientes

n

y

Nn

ΣS W

S

x μ Σ

x

1 2, ,........, nx x x

x

Definición 3: Consecuencia de la ley de los grandes números es que:

converge en probabilidad a µ13

ˆ probabilidadS Σ

Teorema del límite central

Sea observaciones independientes de alguna población con vector de medias µ y matriz de

covarianza finita , entonces

1 2, ,........, nx x x

pn Nx - μ 0,Σ

Cuando n y n > p

14

RESUMIENDO

Sí observaciones independientes de alguna población con vector de medias µ y matriz de

covarianza finita y no singular , entonces

1 2, ,........, nx x x

' 1 2

( )

ˆ

ˆ

p

p

y

cuando n p

n N

n

x - μ 0,S

x - μ S x - μ

15

Región de Confianza y Pruebas de Hipótesis para el vector de medias de una población

Regiones de Confianza para el vector de medias

1º Una región de confianza del 100(1-)% para el vector de medias de una población que tiene distribución normal p-variada está dado por:

' 1,

( 1)( )

( ) p n p

p nn F

n p

x - μ S x - μ

Donde:

'

1 1

1 1

1i i i

n n

i in n x x S x x x x

16

1 2, ,........, nx x x

Son las observaciones muestrales.

Observación:

Sí p 4 no es posible graficar la región de confianza para el vector de medias, pero sí es posible calcular los ejes del elipsoide confidencial y sus respectivas longitudes.

17

' 1 2,

' 1,

( 1)( )

( )

( 1)( )

( )

p n p

ii p n p

p nn c F

n p

c p nF

n n pn

x - μ S x - μ

x - μ S x - μ

Si el centro es el vector de medias muestral, entonces los ejes del elipsoide confidencial están dados por:

,

1, 2......,

( 1)( )

( )i p n p

i i i i p

p nF

n n p

Sγ γ

183,63 44,539 24,285 0,0317 -0,0182

84,72 24,285 42.25 -0,0182 0,0341

x S S

Ejemplo: De 195 provincias del Perú en el año 2005, se obtuvo la siguiente información:

18

19 91: HUAYCABAMBA 95: PACHITEA 121: SANCHEZ CARRIÓN

Obtener una región de confianza del 95% para el vector de medias de la población de pacientes que sufrieron infarto al miocardio y que tiene distribución normal bivariada .

Los autovalores y autovectores de S son:

68,2531 -0,7306 0,6828

19,5539 -0,6828 -0,7306

Γ

Reemplazando los valores en la región de confianza se tiene:

'

1 12,98

2 2

83,63 0,0317 -0,0182 83,63 2(195 1)195 (0.05)

84,72 -0,0182 0,0341 84,72 (195 2)F

- -

20

82,5

83,6

μSí: ¿se encontrará dentro de la región de

confianza?

Reemplazando los valores del vector de medias se tiene:

0,0372 > 0,031848

21

'

1 1

2 2

83,63 0,0317 -0,0182 83,63 2(195 1)195 (3,0892)

84,72 -0,0182 0,0341 84,72 (195 2)

- -

'

1 1

2 2

83,63 0,0317 -0,0182 83,630,031848

84,72 -0,0182 0,0341 84,72

- -

Para graficar el elipsoide, se tiene que la longitud media de los ejes está dado por:

,

1 ,

2 ,

1 2

1, 2( 1)

( )( )

( 1)( ) 68,2351 0.031848 1,47

( )

( 1)( ) 19,539 0.031848 0,79

( )

i p n p

p n p

p n p

ip n

Fn n p

p nF

n n p

p nF

n n p

22

2º Una región de confianza del 100(1-)% para el vector de medias de una población que tiene distribución p-variada y matriz de covarianza definida positiva, y si n-p se tiene que:

' 1 2 ( ) 1p

P n x - μ S x - μ

Ejemplo: Suponga que no se conoce la distribución de la población de los datos del ejercicio anterior y calcule la región de confianza para el 95% de confianza.

23

'

1 1 22

2 2

83,63 0,0317 -0,0182 83,63 1(0.05)

84,72 -0,0182 0,0341 84,72 195

- -

80,3

81,5

μ ¿Se encontrará en la región de confianza?

Reemplazando los valores del vector de medias se tiene:

0.3147 > 0,030718

24

'

1 1

2 2

83,63 0,0317 -0,0182 83,63 1(5,99) 0,030718

84,72 -0,0182 0,0341 84,72 195

- -

25

Para graficar el elipsoide:

1

2

1 2

1, 2

2

2

2

( )

( )68,253 0,030718 1,6

( )19,5539 0,030718 0,77

i ip

p

p

n

n

n

Pruebas de Hipótesis para el vector de medias de

una población

1 2, ,......, p

p

toma valores en

Θ Ω

Ω

0 0

1 0 1

:

:

H

H

Θ Ω

Θ Ω Ω Ω

Método de la razón de Verosimilitud

Proporciona pruebas estadísticas, que tienen ciertas propiedades óptimas para tamaños muestrales grandes.

Dado:

Y queremos probar las siguientes hipótesis:

26

Definición 1.- Si la distribución de una muestra aleatoria X= (X1, X2, …..,Xn) depende de un vector de parámetros y si:

0 0

1 0 1

:

:

H

H

Θ Ω

Θ Ω Ω Ω

0

1

( )( )

( )

f HRV

f HX

Entonces la razón de verosimilitud, para contrastar Ho

contra H1 se define como:

Donde f (Hi) es el mayor valor que toma la función de

verosimilitud en la región i i=0,1.

Si el tamaño de la muestra es grande se tiene que cuando la hipótesis nula es cierta:27

1 02ln ( ) 2 ( ) ( )

( ) ln ( ) 0,1i i

RV L H L H

L H f H i

X

0

/ ( )

sup

dondeR RV c

P R

Ω

X X

X

Definición 2: La prueba de razón de verosimilitud de tamaño para probar la hipótesis nula contra la hipótesis alternativa, tiene como región de rechazo:

¿Cuál es le valor de gl()=?

gl()=dim ()- dim (o)= p-(p-r)= r,

28

2r cuando n

0

1

:

:

H

H 0

0

μ = μ

μ μ

'( ) ln (*)

2 2 2

n n nL tr -1 -1μ,Σ Σ Σ S x - μ Σ x - μ

Prueba de hipótesis

1) Sí X= (X1, X2, …..,Xn) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas conocida , entonces:

De la sección anterior se tiene que la función soporte para obtener los EMV, viene dada por:

29

Reemplazando los EMV en la función soporte se tiene que el soporte para H1 es:

1( ) ln2 2

n npL H S

10

'

01

( ) ln2 2

1 n

i

n nL tr

n

i 0 i 0

Σ/X Σ Σ S

S x - μ x - μ

Bajo Ho, se tiene que la expresión (*) se convierte en:

Sumando una cantidad constante , se tiene que:

30

0 0( ) ln2 2

n npL H S

10 0

1 10 0

( ) ln ln (**)2 2 2

( ) ln2 2

n n nL tr

n nL tr

Σ/X Σ Σ S S

Σ/X Σ S Σ S

1 02 ( ) ( ) lnL H L H n 0S

S

Entonces So es el EMV de bajo la hipótesis nula, reemplazando este estimador en (**) se tiene el soporte para Ho:

Luego:

31

'

01

'

0

'

0

' '0 1

1 n

i

nn

n n n

i 0 i 0

0 0

0 0

-10 0 0 0

S x - x x μ x x x - μ

S S x μ x μ

S x μ x μS

S S

SS S x μ x μ I + S x μ x μ

S

Utilizaremos el siguiente lema:

Si A es una matriz no singular y b es un vector:32

1 ' 'I + Abb b Ab

' '0

20

1

11n

-1 -10 0 0 0

SI + S x μ x μ x μ S x μ

S

S T

S

2 2

1 0

0 0 0 02

2 ( ) ( ) ln ln 11 1

1( 1)

( 1) p

L H L H n n nn n

n n nn

0

' '-1 -1

S T T

S

x - μ S x - μ x - μ S x - μ

Cuando el tamaño de muestra es suficientemente grande o la matriz de covarianzas poblacional es conocida.

33

2p cuando n

0

1

:

:

H

H 0

0

μ = μ

μ μ

2) Sí X= (X1, X2, …..,Xn) es una muestra aleatoria de tamaño “n”, extraída de una población normal p-variada con vector de medias poblacional µ y matriz de covarianzas desconocida , y si queremos probar:

Rechazaremos la hipótesis nula cuando

A un nivel de significancia “” , rechazamos la hipótesis nula sí:

34

2

0 0 ,

1p n p

nT n F

n p

' -1x - μ S x - μ

Ejemplos:

1) La siguiente información se obtuvo del estudio del IDH en 195 provincias del Perú, en el 2005.

35

Se consideraron las siguientes variables:

X1: % DE ALFABETISMOX2: % DE ESCOLARIDADX3: % LOGRO EDUCATIVOX4: INGRESO FAMILIAR PERCAPITA MENSUAL: NUEVOS SOLES

37

Supongamos que tienen distribución normal p-variada con vector de medias µ y matriz de covarianzas :

87,45 85,3390 69,249 13,762 50,536 549,394

84,32 83,6318 13,762 44,539 24,285 317,494

84,7174 50,536 24,285 42,250 476,10585,76

273,6605 549,394 317,494 476,105 14492,656274,38

0μ x S

1

20

3

4

1

21

3

4

87,45

84,32:

85,76

274,38

87,45

84,32:

85,76

274,38

H

H

μ

μ=

μ

μ

μ

μ

μ

μ

Pruebe la siguiente hipótesis:

38

0 02

2

4147.0300 (0.05) 9,488

pn

' -1x - μ S x - μ

Rechazamos la hipótesis nula al 5%, luego:

39

1

2

3

4

87,45

84,32

85,76

274,38

μ

μ

μ

μ

Ejemplo 2: De 100 grandes compañías de los EEUU, se obtuvo la siguiente información:

54,52 8191,985 110,072 456,555

61,31 110,072 6293,093 2281,255

40,52 456,555 2281,255 2551,283

x S

1

20

3

1

21

3

55

: 62

42

55

: 62

42

H

H

μ

μ =

μ

μ

μ

μ

Probar la hipótesis:

40

X1: gastos intangibles en millonesX2: gastos de publicidad en miilonesX3: gastos en investigación y desarrollo en millones

20 0

2,98

0.0956

100 1 990.05 * 3.0892=3.121

100 2 98

T n

F

' -1x - μ S x - μ

No Rechazamos la hipótesis nula al 5%, luego:

42

1

2

3

55

62

42

μ

μ =

μ

Región de Confianza y Pruebas de Hipótesis para

la diferencia de vectores de medias poblacionales Distancia de Mahalanobis para dos poblaciones

con vector de medias µ1, µ2 y matriz de covarianza , entonces

'2 1 1 2 1 2Δ μ - μ Σ μ - μ

'2 1

2 2

2

ˆ

( 1) ( 1)ˆ( )n

1 2 1 2

1 1

D x - x S x - x

n S n SS

Si se tiene dos muestras aleatorias de tamaño n1 y n2 , donde n= n1+ n2 entonces la distancia de mahalanobis muestral se define como:

43

Teorema: Si X1 y X2 son matrices de datos independientes,

y si las ni filas de xi son i.i.d con Np(µi,i), i=1,2, cuando

µ1=µ2 y 1 = 2, se tiene que: 2 21 2( , 2)p n

n nD T

n

1 2 1 2

1 21 2

1' 2

1 2 1 2 ( , 2)1 2

2 2

2

( , )

, ,

,

ˆ( ) ,

ˆ( )( 2)

i p i i

i pi

p

p

p n

n n

n

N

Nn

nN

n n

W

nT

n n n

x μ Σ

Σx μ μ μ μ Σ Σ Σ

Σx x 0

S Σ

x x S x x

Prueba:

44

2 21 2( , 2) , 1

2, 1

1 2

( 2)

1

( 2)

1)(

p n p n p

p n p

n

n

n n pD T F

n n p

npD F

n n n p

2 2

( , ) ( , 2), 1 , 1

( 2)

1(**)

1p m p np m p p n p

nmp pT F T F

m p n p

11/ 2 1/ 2

' 21 2 1 21 2 1 2 ( , 2)

2

2

( ) ˆ (*)( ) p n

n

n

n n n nT

n n

x x S x x

Por teorema:

De (*) y (**):

45

Región de Confianza para la diferencia de vectores de dos medias poblacionales

Si xi es una muestra aleatoria de tamaño ni, extraída de una

población con Np(µi,i), i=1,2, ambas muestras pequeñas e

independientes y 1 = 2 = desconocido, y si:

2 2

2

( 1) ( 1)ˆˆ( )

y son las medias muestrales

n

1 2

1 1

x x

n S n SΣ S

1 2 1 21 2

2 2)

( ) ,

ˆ ( ,

p

n n

nN

n n

W

x x μ μ Σ

S Σ46

47

1/ 2 1/ 21

'

1 2 1 2 1 2 1 21 2 1 2

1

2( , 2)

( 2)

( 2)

2

( 2)

ˆ( ) ( ) ( ) ( )

( , )( ) ( )pp p p n

n

n

n

n

n n

n n n n

WN N T

x x μ μ S x x μ μ

Σ0, Σ 0,Σ

2 2( , 2)

2( , 1)

( ) 1

( 2)( ) 1

( 1)

p n

p n p

p n

n p

P T T

P T F

Ejemplo: En una muestra de dos grupos de individuos: No son Jefes de familia y los que son Jefe de familia. Las variables consideradas son:

48

X1: número de semanas de desempleoX2: edad del trabajador en años

1 1

2 2

49,93 771,352 190,552

33,73 190,552 125,067

40,06 468,906 109,845

35,06 109,845 69,269

x S

x S

Obtenga la región para el 99% de confianza .

Grafique los contornos del elipsoide si:1 2

51 43,

35 38

μ = μ =

1 2

1'

1 2 1 2 1 2 1 2 ( , 1)

( 2)( )

( 1)ˆ( ) ( ) ( ) ( ) p n p

n

np n

n n pF

x x μ μ S x x μ μ

(2,46)2 2

2

49 * 2 * (49 2)(0.05)

15 * 34 * (49 2 1)

9.87 0.0029 -0.0044 9.87

1.33 1.33-0.0044 0.0186

9.87 0.0029 -0.0044

1.33 -0.0044

'

'

F

1 1

1

μ μ

μ μ

μ

μ 2

9.870,6282

1.33 0.0186

1μ

μ

2 2

1

49 2

558.9963 133.8854(15 1) (34 1) 14* 33*ˆ133.8854 85.88970( ) 47

0.0029 -0.0044ˆ-0.0044 0.0186

1 1S S S SS

S

49

Para graficar el elipsoide se tiene :8

3

μ =

1 2

( , 1)

( 2)( ) 1, 2

( 1))i p n p

n

np ni

n n pF

SLos autovalores y autovectores de son:

1 2594,2568 50,6291

-0.9670 0.2547

-0.2547 -0.9670

50

594,2568 0,6282 19,32

50,6291 0,6282 5,64

La longitud media de los ejes:

Tarea: ¿Cuál será la región de confianza para la diferencia de vectores de medias de dos poblaciones si 1 2

51

3° y 4° semana analisis multivariante

Education