apuntes de regresion lineal - gonzalo villa

Upload: lucho-borja-romero

Post on 07-Aug-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    1/15

    Métodos Estad́ısticos III Villa Cox/Sabando

    Apuntes de Clase # 5

    Fecha: II Término-2012

    1. Distribuciones condicionadas (Caso Bivariante)Condicionar y utilizar distribuciones condicionales juega un papel fundamental en la modelizaci´ on

    econométrica. Vamos a considerar algunos resultados generales para una distribuci´ on bivariante.(Todos estos resultados se pueden extender directamente el caso multivariante).En una distribuci´ on bivariante, hay una distribuci´ on condicional sobre y para cada valor de x.Las densidades condicionales son

    f (y|x) = f (x, y )

    f x (x)y

    f (x|y) = f (x, y )

    f y (y)

    Se deduce que:

    Si x e y son independientes , f (y|x) = f y (y) y f (x|y) = f x (x)La interpretaci´ on es que si las variables son independientes, las probabilidades de los sucesos relacio-nados con una variable no est´ an relacionadas con la otra. La denici´ on de densidades condicionalestiene como implicaci´on el siguiente resultado importante.

    f (x, y ) = f (y

    |x)f x (x)

    = f (x|y)f y (y).1.1. Regresi´ on. La media condicional

    Una media condicional es la media de la distribuci´on condicional y se dene por

    E [y|x] = y yf (y|x)dy si y es continua,

    yyf (y|x) si y es discreta.

    A la función de media condicional E [y

    |x] se le denomina regresi´ on de y sobre x.

    Ejemplo 1.1.1 Regresi´ on en una distribuci´ on exponencial .Considera la distribuci´ on condicional.

    f (y|x) = 1

    α + βxe− y/ (α + βx ) , y 0, 0 x 1.

    Nótese que la densidad condicional de y es una funci ón de x. La media condicional se puedeobtener integrando por partes (o de manera m´ as simple, utilizando los resultados de la funci´ ongamma) o j ándose en que ésta es una distribuci´ on exponencial con λ = 1/ (α + βx ). La media deuna distribuci´on exponencial con par´ametro λ es 1/λ . Por tanto,

    E [y

    |x] = α + βx.

    A5-1

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    2/15

    Una variable aleatoria siempre se puede escribir como

    y = E [y|x] + ( y − E [y|x])= E [y|x] + .

    Ejemplo 1.1.2 Regresi´ on Poisson En su estudio de 1984, Hausman sugieren que la distribuci´ onPoisson es un modelo razonable para la distribuci´ on del número de patentes concedidas a las empresas

    en un determinado a˜ no (P):

    f (P ) = λP e− λ

    P ! , P = 0, 1, 2,...

    Sin embargo, se sabe que cuanto m´ as se invierte en investigaci´on y desarrollo (R), mayor es, enpromedio, el n úmero de patentes recibidas. Esta interacci´ on debeŕıa afectar a la distribuci´ on de P .Cómo se distribuye R entre las empresas es una cuesti´ on colateral, que puede ser o no de interés.Pero en lo que estamos interesados es en c´ omo interactuan R y el número medio de patentes. Comoel valor medio de las patentes recibidas es λ, supongamos que la distribuci´ on previo P es condicionalen R y especicamos que

    λ = α + βR = E [P

    |R].

    Esperarı́amos que β fuese positiva. Por tanto,

    f (P |R) = (α + βR )P e− (α + βR )

    P ! ,

    que capta el efecto que busc´abamos, Observar un gran n´ umero de patentes puede reejar unvalor alto del proceso Possion, o bien puede que se derive de un valor inusualmente alto de R.

    1.2. Varianza condicionalLa varianza condicional es la varianza de la distribuci´ on condicional:

    V ar[y

    |x] = E [(y

    − E [y

    |x])2

    |x]

    = y (y − E [y|x])2f (y|x)dy, si y es continuao

    V ar[y|x] =y

    (y − E [y|x])2f (y|x), si y es discretaEl cálculo puede simplicarse utilizando

    V ar[y|x] = E [y2|x] − (E [y|x])2 .Ejemplo 1.2.1 Varianza condicional en un modelo Poisson La distribuci´on de Poisson ilustrauna trampa que a veces se da en la especicaci´ on de un modelo econométrico. En una distribuci´ onPoisson, la media es igual a la varianza. No hemos descartado la posibilidad de que α + βR puede sernegativo para algunos valores de α y β . No sólo es éste un par´ametro en cualquier caso inv´ alido parala distribuci´on Poisson, sino que adem´as, permite una varianza negativa. Esto es un error com´ un deespecicaci ón. A la varianza condicional se la denomina funci´ on ced´ astica y, como la regresi ón,es generalmente una funci´ on de x . Sin embargo, a diferencia de la funci´ on de la media condicional,lo habitual es que la varianza condicional no vaŕıe con x . Examinaremos un caso particular. Estono implica, sin embargo, que V ar[y|x] sea igual a V ar[y], que, en general, no ser á el caso. Implica,solamente, que la varianza condicional es una constante. El caso en que la varianza condicional novaŕıa con x se denomina homocedasticidad (varianza igual. o constante).

    A5-2

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    3/15

    1.3. Relaciones entre momentos condicionales y marginalesEn los siguientes teoremas se presentan algunos resultados ´ utiles sobre los momentos de una

    distribuci´on condicional:

    Teorema 1.3.1 Ley de las esperanzas iteradas . E [y] = E x [E [y|x]].La notaci ón E x [·] indica la esperanza sobre valores de x.Ejemplo 1.3.1 Distribuci´ on mixta uniforme-exponencial .Supongamos que x se distribuye uniformemente entre 0 y 1. Entonces la distribuci´ on marginal de xes f (x) = 1, y la distribuci´ on conjunta es

    f (x, y ) = f (y|x)f (x)Aśı,

    E [y] = ∞

    0 1

    0y

    1α + βx

    e− y/ (α + βx ) dxdy

    Pero E [y|x] = α + βx , de modo que

    E [y] = E x [E [y|x]]= E [α + βx ]= α + βE [x].

    Como x sigue una distribuci´on uniforme enrtre 0 y 1, E [x] = 1/ 2. Por tanto,

    E [y] = α + β (1/ 2).

    En cualquier distribuci´ on bivariante

    Cov[x, y] = Cov[x, E [y

    |x]]

    = x (x − E [x])E [y|x]f x (x)dx.Ejemplo 1.3.2 Covarianza y distribuci´ on mixta En continuaci´on del ejemplo anterior

    Cov[x, y] = ∞

    0 1

    0

    (x − 1/ 2)[y − (α + β/ 2)]α + βx

    e− y/ (α + βx ) dxdy,

    que, en principio, puede calcularse directamente. Sin embargo,

    Cov[x, y ] = Cov[x, E [y|x]]= Cov[x, α + βx ]= βV ar[x] = β [1/ 12].

    Los ejemplos anteriores proporcionan un resultado adicional para el caso especial en que lafunción de la media condicional es lineal en x.

    Teorema 1.3.2 Los momentos en una regresi´ on lineal. Si E [y|x] = α + βx entoncesα = E [y] − βE [x]

    y

    β = Cov[x, y]

    V ar[x]

    El siguiente teorema también aparece de diversas formas en el an´ alisis de regresi ón

    A5-3

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    4/15

    Teorema 1.3.3 Descomposici´ on de la varianza En una distribuci´ on conjunta,

    V ar[y] = V arx [E [y|x]] + E x [V ar[y|x]].La notaci ón V arx [·] indica la varianza sobre la distribuci´ on de x. Esto indica que en una distri-buci ón bivariante, la varianza de y se descompone en la varianza de la funci´ on de media condicional

    más la varianza esperada alrededor de la media condicional.

    Ejemplo 1.3.3 Descomposici´ on de la varianzaComo en el caso anterior, la integraci´ on directa de la distribuci´ on conjunta es difı́cil. Pero

    V arx [E [y|x]] = V ar[α + βx ] = β 2V ar[x]=

    β 2

    12,

    y como la varianza de la variable exponencial es 1 /λ 2 ,

    E x [V ar[y

    |x]] = E [(α + βx )2]

    = α2 + β 2E [x2] + 2αβE [x]= α2 + β 2(1/ 3) + 2 αβ (1/ 2).

    La varianza marginal es la suma de las dos partes:

    V ar[y] = α(α + β ) + 5β 2

    12 .

    Teorema 1.3.4 Varianza residual de una regresi´ on. En cualquier distribuci´ on bivariante,

    E x [V ar[y|x]] = V ar[y] − V arx [E [y|x]].En promedio, condicional reduce la varianza de la variable sujeta al condicionamiento. Por ejem-

    plo, si y es homocedástica, se cumple siempre que la varianza de las(s) distribuciés(es) condicional(es)es mejor o igual a la varianza marginal de y.

    Teorema 1.3.5 Regresi´ on lineal y homocedasticidad En una distribuci´ on bivariante, si E [y|x] =α + βx y si V ar[y|x] es una constante, entoncesV ar[y|x] = V ar[y](1 − Corr 2[y, x ]) = σ2(1 − ρ2xy )

    Ejemplo 1.3.4 Varianza condicional en una regresi´ on Poisson En la relacíon patentes-investigaci ón (I+D) del ejercicio 1.1.2, supongamos que R es una fracci ón constante del tama˜ node la empresa, y que esta variable sigue una distribuci´ on lognormal. Aśı, R también seguir´ a unadistribuci´on lognormal. Supongamos que µ = 0 y σ = 1. Entonces

    E [R] = √ e = 1 ,65 y V ar[R] = 4 ,65Supongamos también que α = 1 y β = 2. Entonces

    E [P |R] = 1 + 2 RE [P ] = 1 + 2 E [R] = 4 ,30

    V arR [E [P |R]] = 4V ar[R] + 18,6V ar[P |R] = 1 + 2 R

    E R [var [P |R]] = 4,30V ar[P ] = 18,6 + 4 ,30 = 22 ,9

    Nótese que V ar[P ] es apreciablemente mayor que E[Var[P—R]].

    A5-4

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    5/15

    1.4. El análisis de la varianzaEl resultado de descomposici´ on de la varianza implica que en una distribuci´ on bivariante, la

    variaci ón de y surge por dos motivos:

    1. Variaci ón porque E [y|x] vaŕıa con x:

    varianza de regresi´ on = V arx [E [y|x]].2. Variaci ón proque, en cada distribuci´ on condicional, y vaŕıa alrededor de la media condicional:

    varianza residual = E x [V ar[y|x]].Por tanto,

    Var[y]=varianza de regresi´ on + varianza residual

    Cuando analicemos una regresi´ on, habitualmente estaremos interesados en cu´ al de las dos partesde la varianza total, V ar[y], es la mayor. Por ejemplo, en la relaci´ on patentes-(I+D), ¿cu´ al explicamás la varianza del n´umero de patentes recibidas? ¿variaciones en la cantidad de I+D (varianzade regresi ón) o la variaci ón aleatoria en las patentes recibidas dentro de la distribuci´ on Poisson(varianza residual)? Una medida natural es el cociente

    coeciente de determinaci´ on = varianza de regresi´ onvarianza total .

    Ejemplo 1.4.1 Análsis de la varianza en un modelo Poisson Para la descomposici´on delejemplo 1.3.4

    coeciente de determinaci´ on= 18 ,622 ,9 = 0 ,812.

    Si E [y|x] = α + βx, entonces el coeciente de determinaci´ on COD= ρ2 , donde ρ2 es la correlaci ónal cuadrada entre x e y. Podemos concluir que el coeciente de correlaci´ on (al cuadrado), es unamediada de la proporci´ on de la varianza de y que se explica por la variaci´on de la media de y, dado

    x. En este sentido la correlaci´ on puede ser interpretada como una medida de asociaci´ on linealentre dos variables.

    2. La distribucí on normal bivarianteUna distribuci´on bivariante que cumple muchas de las caracteŕısticas descritas anteriormente es

    la normal bivariante. Esta distribuci´ on es la conjunta de dos variables normalmente distribuidas. Lafunción de densidad es

    f (x, y ) = + 1

    2πσ x σy 1 − ρ2e− 1/ 2[(

    2

    x +2

    y − 2ρ x y ) / (1 − ρ2 )]

    x = x

    − µx

    σx

    y = y − µy

    σy

    Los par ámetros µx , σx , µy y σy son las medias y desviaciones tı́picas de las distribuciones marginalesde x e y, respectivamente. El par´ ametro adicional ρ es la correlaci ón entre x e y. La covarianza es

    σxy = ρσx σy .

    La densidad est´a denida s ólo si ρ no es 1 o -1. Esto, a su vez, requiere que las dos variables no esténrelacionadas linealmente. Si x e y tienen una distribuci´ on normal bivariante, que representamos por

    (x, y ) ∼ N 2[µx , µy , σx , σy , ρ],

    A5-5

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    6/15

    1. Las distribuciones marginales son normales

    f x (x) = N [µx , σ2x ],f y (y) = N [µy , σ2y ].

    2. Las distribuciones condicionales son normales:

    f (y|x) = N [α + βx, σ 2y (1 − ρ2)]α = µy − βµxβ =

    σxyσ2x

    y lo mismo para f (x|y).3. x e y son independientes si y s´olo si ρ = 0. La densidad se descompone en el producto de las

    dos distribuciones marginales normales si ρ = 0.

    Dos aspectos a tener en cuenta sobre las distribuciones condicionales, adem´ as de su normali-

    dad, son sus funciones de regresi´on lineales y sus varianzas condicionales constantes. La varianzacondicional es menor que la varianza marginal.

    2.1. Distribuciones marginales y condicionales normalesSea x1 cualquier subconjunto de las variables, inclusive el caso de una ´ unica variable, y sea x2

    las restantes variables. Particionemos µµµ y ΣΣΣ de la misma forma, de modo que

    µµµ = µ1µ2 y ΣΣΣ = Σ11Σ 11Σ 11 Σ12Σ 12Σ 12Σ 21Σ 21Σ 21 Σ22Σ 22Σ 22

    Entonces, las distribuciones marginales son también normales, En particular, se cumple el siguienteteorema.

    Teorema 2.1.1 Distribuciones marginales y condicionales normales. Si [

    x1 ,

    x2] siguen unadistribuci´on conjunta normal multivariante, entonces sus distribuciones marginales son

    x 1 ∼ N (µ1µ1µ1 , Σ 11Σ 11Σ 11 )y

    x 2 ∼ N (µ2µ2µ2 , Σ 22Σ 22Σ 22 ).La distribuci´on condicional de x 1 dado x 2 es normal, también:

    x 1|x 2 ∼ N (µ1,2µ1,2µ1,2 , Σ 11 ,2Σ 11 ,2Σ 11 ,2)donde

    µ1,2 = µµµ1 + ΣΣΣ 12 Σ − 112 (x 2

    −µ2µ2µ2)

    ΣΣΣ 11 ,2 = ΣΣΣ 11 −ΣΣΣ 12ΣΣΣ − 122 ΣΣΣ 21 .2.2. Modelo clásico de regresi´ on lineal

    Un importante caso especial es que en la x1 es una sola variable y x2 es K variable, donde ladistribuci´on condicional en versi´on multivariada es β = Σ − 1xx σxy donde σxy es el vector de covarianzasde y con x2 . Recordemos que cualquier variable aleatoria puede ser escrita como su media m´ as ladesviaci ón de su media. Si aplicamos esto a la normal multivariada podemos obtener,

    y = E [y|x ] + ( y − E [y|x ]) = α + β x + εdonde β esta dada en la parte de arriba, α = µy

    − β µx , ε tiene distribuci´on normal. Tenemos

    aśı, en esta distribuci´ on multivariante, el cl´ asico modelo de regresi ón lineal.

    A5-6

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    7/15

    3. El método de los ḿınimos cuadradosEn la pr áctica real, hay muchos problemas donde un conjunto de datos asociados en parejas

    dan una indicaci´on de que la regresi ón es lineal, donde no conocemos la distribuci´ on conjunta delas variables aleatorias en consideraci´ on pero, sin embargo, queremos estimar los coecientes deregresi ón α y β . Los problemas de esta clase usualmente se manejan por el método de los ḿınimoscuadrados , un método de ajuste de curvas que a principios del siglo XIX sugiri´ o el matem áticofrancés Adrien Legendre.

    Para ilustrar esta técnica, consideremos los datos siguientes sobre el n´ umero de horas que 10personas estudiaron para una prueba de francés y sus puntuaciones en la prueba:

    Horas estudiadas Puntuaci´ on en la prueba

    x y

    4 31

    9 58

    10 65

    14 73

    4 37

    7 44

    12 60

    22 91

    1 21

    17 84

    Al hacer la gr áca de estos datos como se muestra en la gura, nos da la impresi´ on de que unaĺınea recta proporciona un ajuste razonable bueno. Aunque los puntos no caen todos en la ĺınea recta,el patr ón general sugiere que la puntuaci´ on promedio de la prueba para un n´ umero dado de horasde estudio bien puede estar relacionado con el n´ umero de horas estudiadas mediante la ecuaci´ on dela forma uY |x = α + βx.

    Una vez que hemos decidido en un problema dado que la regresi´ on es aproximadamente lineal,nos enfrentamos al problema de estimar los coeciente α y β de los datos muestrales. En otraspalabras, nos enfrentamos al problema de obtener estimaciones de ˆ α y β̂ tales que la ĺınea deregresi ón estimada ŷ = α̂ + β̂x provea, en alg ún sentido, el mejor ajuste posible a los datos. Aldenotar la desviaci´on vertical de un punto de la ĺınea por ei , como se indica en la gura, el criteriode los mı́nimos cuadrados sobre el cual basaremos esta “bondad de ajuste” requiere que minimicemosla suma de los cuadrados de estas desviaciones. Aśı, se nos da un conjunto de datos asociados en

    A5-7

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    8/15

    parejas {(x i , yi ); i = 1 , 2,...,n }, las estimaciones de ḿınimos cuadrados de los coecientes deregresi ón son los valores α̂ y β̂ para los cuales la cantidad

    q =n

    i=1

    e2i =n

    i=1

    [yi − (α̂ + β̂x i )]2

    es un mı́nimo. Al diferenciar parcialmente con respecto ˆ α y ˆβ y al igualar a cero estas derivadasparciales, obtenemos:

    ∂q ∂ ̂α

    =2

    i=1

    (−2)[yi − (α̂ + β̂x i )] = 0y

    ∂q ∂ β̂

    =2

    i=1

    (−2)x i [yi − (α̂ + β̂x i )] = 0lo cual produce el sistema de ecuaciones normales .

    n

    i =1

    yi = α̂n + β̂ 2

    i=1

    x i

    n

    i=1

    x i yi = α̂2

    i=1

    x i + β̂ 2

    i =1

    x2i

    Al resolver este sistema de ecuaciones mediante el uso de determinantes o del método de elimi-naci ón, encontramos que la estimaci´ on de ḿınimos cuadrados de β es es

    β̂ =

    n n

    i =1

    x i yi − n

    i =1

    x i n

    i=1

    yi

    n n

    i=1

    x2i

    n

    i =1

    x i2

    Entonces podemos escribir la estimaci´ on de ḿınimos cuadrados de α como

    α̂ =

    n

    i=1

    yi − β̂ ·n

    i =1

    x i

    n

    al resolver la primera de las dos ecuaciones normales para ˆ α . Esta f órmula para α̂ también se puedeescribir como

    α̂ = ȳ − β̂ · x̄Para simplicar la f´ormula para β̂ ası́ como algunas de las f´ormulas que encontraremos, introducimos

    la notací on siguiente:S xx =

    n

    i=1

    (x i − x̄)2 =n

    i=1

    x2i − 1n

    n

    i =1

    x i2

    S yy =n

    i=1(yi − ȳ)2 =

    n

    i =1y2i −

    1n

    n

    i=1yi

    2

    y

    S xy =n

    i=1

    (x i − x̄)(yi − ȳ) =n

    i =1

    x i yi − 1n

    n

    i=1

    x i n

    i =1

    yi

    Aśı podemos escribir

    A5-8

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    9/15

    Teorema 3.0.1 Dados los datos muestrales {(x i , yi ); i = 1 , 2 · · · , n}, los coecientes de la ĺınea demı́nimos cuadrados ˆ y = α̂ + β̂x son

    β̂ = S xyS xx

    y

    α̂ = ȳ − ˆβ · x̄Ejemplo 3.0.1 Con respecto a los datos de la tabla anterior,

    1. Encuentre la ecuaci´on de la ĺınea de mı́nimos cuadrados que aproxime la regresi´ on de laspuntuaciones de la prueba sobre el n´ umero de horas estudiadas;

    2. Prediga la puntuaci´ on promedio de la prueba de una persona que estudi´ o 14 horas para laprueba

    Soluci´ on

    1. Al omitir los ĺımites de la suma en aras de la simplicidad, de los datos obtenemos n = 10,

    x = 100, x2

    = 1376 y = 564 y xy = 6945. Ası́S xx = 1376 −

    110

    (100)2 = 376

    y

    S xy = 6945 − 110

    (100)(564) = 1305

    Aśı, β̂ = 1305

    376 = 3 ,471 y α̂ =

    56410 − 3,471 ·

    10010

    = 21,69, y la ecuaci ón de la ĺınea de mı́nimoscuadrados es

    ȳ = 21,69 + 3 ,471x

    2. Al sustituir x = 14 en la ecuaci ón obtenida en el inciso 1, obtenemos

    ȳ = 21 ,69 + 3 ,471(14) = 70 ,284

    o ȳ = 70, redondeado a la unidad m´ as cercana.

    3.1. Regresi´ on lineal m´ ultipleSe pueden usar muchas f´ormulas diferentes para expresar las relaciones entre m´ as de dos variables,

    la más ampliamente usada con las ecuaciones lineales de la forma:

    µY |x 1 ,x 2 , ··· x k = β 0 + β 1x1 + β 2x2 + · · · + β k xkEsto es parcialmente un asunto de conveniencia matem´ atica y parcialmente causado por el hecho quemuchas relaciones son realmente de esta forma o se pueden aproximar estrechamente por ecuacioneslineales.En la ecuaci ón de arriba, Y es la variable aleatoria cuyos valores queremos predecir en términosde los valores de x1 , x2 , · · · , xk y β 0 , β 1 , β 2 ,...,β k , los coecientes de regresi´ on m´ ultiple , sonconstantes numéricas que se deben determinar a partir de los datos observados.

    Para ilustrarlo, considere la ecuaci´ on siguiente, que se obtuvo en un estudio de la demanda paradiferentes carnes.

    ŷ = 3 ,489 − 0,090x1 + 0 ,064x2 + 0 ,019x3

    A5-9

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    10/15

    En este caso ŷ denota el consumo de carne de res y ternera inspeccionadas federalmente en millonesde libras, x1 denota un precio compuesto de venta al menudeo de carne de res en centavos por libra,x2 denota un precio compuesto de venta al menudeo de carne de puerco en centavos por libra, yx3 denota el ingreso medido de acuerdo a ciertos ı́ndices de n´ omina. Como en la anterior secci´ ondonde s ólo hab́ıa una variable independiente x, suelen estimarse los coecientes de regresi´ on múltiplemediante el método de los ḿınimos cuadrados. Para n puntos de datos

    {(x i1 , x i2 ,...,x ik , yi ); i = 1, 2,...n }las estimaciones de ḿınimos cuadrados de las β son los valores β̂ 0 , β̂ 1 , β̂ 2 ,.., β̂ k para los cuales lacantidad

    q =n

    i =1

    [yi − ( β̂ 0 + β̂ 1x i1 + β̂ 2x i2 + ... + β̂ k x ik )]2

    es un ḿınimo. En esta notaci´ on, x i1 es el iésimo valor de la variable x1 , x i 2 es el iésimo valor de lavariable x2 , y aśı respectivamente. Aśı, diferenciamos parcialmente con respecto a las β̄ , y al igualarestas derivadas parciales a cero, obtenemos

    ∂q ∂ β̂ 0

    =n

    i=1

    (−2)[yi − (β̂ 0 + β̂ 1x i1 + β̂ 2x i2 + ... + β̂ k x ik )] = 0∂q

    ∂ β̂ 1=

    n

    i=1

    (−2)x i1[yi − (β̂ 0 + β̂ 1x i1 + β̂ 2x i 2 + ... + β̂ k x ik )] = 0∂q

    ∂ β̂ 2=

    n

    i=1

    (−2)x i2[yi − (β̂ 0 + β̂ 1x i1 + β̂ 2x i 2 + ... + β̂ k x ik )] = 0...

    ∂q ∂ β̂ k

    =n

    i=1

    (−2)x ik [yi − (β̂ 0 + β̂ 1x i 1 + β̂ 2x i 2 + ... + β̂ k x ik )] = 0

    y nalmente las k + 1 ecuaciones normales:

    y = β̂ 0 · n + β̂ 1 · x1 + β̂ 2 · x2 + · · · + β̂ k · xkx1y = β̂ 0 · x1 + β̂ 1 · x21 + β̂ 2 · x1x2 + · · · + β̂ k · x1xkx2y = β̂ 0 · x2 + + β̂ 1 · x2x1 + β̂ 2 · x22 + · · · + β̂ k · x2xk

    ...xk y = β̂ 0 · xk + + β̂ 1 · xk x1 + β̂ 2 · xk x2 + · · · + β̂ k · x2k

    En este caso abreviamos nuestra notaci´ on al escribirn

    i=1x i1 como x1 ,

    n

    i=1x i 1x i2 como x1x2 ,

    y ası́ sucesivamente.

    Ejemplo 3.1.1 Los datos siguientes muestran el n´ umero de rec ámaras, el n úmero de ba ños y losprecios a los que se vendi ó recientemente una muestra aleatoria de casas unifamiliares en ciertodesarrollo habitacional grande:

    A5-10

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    11/15

    N´ umero de N´ umero de Preciorec ́amaras ba˜ nos (d´ olares)

    x1 x2 y3 2 788002 1 743004 3 838002 1 742003 2 797002 2 749005 3 884004 2 82900

    Use el método de mı́nimos cuadrados para encontrar una ecuaci´ on lineal que nos permita predecirel precio promedio de venta de una casa unifamiliar en el desarrollo habitacional dado en términosdel número de rec ámaras y el n úmero de ba ños.

    Soluci´ on

    Las cantidades que necesitamos para sustituir en las tres ecuaciones normales son n = 8, x1 =25, x2 = 16, y = 637000, x21 = 87, x1x2 = 55, x22 = 36, x1y = 2031100 y x2y =1297700, y obtenemos

    637000 = 8 β̂ 0 + 25 β̂ 1 + 16 β̂ 22031100 = 25β̂ 0 + 87 β̂ 1 + 55 β̂ 21297700 = 16β̂ 0 + 55 β̂ 1 + 36 β̂ 2

    Podrı́amos resolver estas ecuaciones por el métodos de eliminaci´ on o por el método de los determi-nantes, pero en vista de los c´alculos más bien tediosos, se suele dejar este trabajo a las computadoras.Ası́, rer´amonos a los resultados con valores de β̂ 0 = 65191,7, β̂ 1 = 4133,3 y β̂ 2 = 758,3. Después deredondear, la ecuaci´ on de ḿınimos cuadrados se vuelve

    ŷ = 65192 + 4133 x1 + 758x2

    y esto nos dice que (en el desarrollo habitacional dado y en el momento en que se hizo el estudio)cada rec ámara extra a˜ nade en promedio $4133 y cada ba˜no $758 al precio de venta de una casa.

    Ejemplo 3.1.2 Con base en el resultado obtenido en el ejemplo anterior, prediga el precio de ventade una casa con tres rec´amaras con dos ba˜nos en el desarrollo habitacional grande.

    Soluci´ on Al sustituir x1 = 3 y x2 = 2 en la ecuaci ón obtenido arriba, obtenemos

    ŷ = 65192 + 4133(3) + 758(2) = $79107

    A5-11

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    12/15

    3.2. Regresi´ on lineal m´ ultiple (notaci´ on matricial)El modelo que estamos usando en la regresi´ on lineal m últiple se presta de manera ´ unica a un

    tratamiento unicado en notaci´ on matricial. Esta notaci´ on hace posible enunciar resultados generalesen forma compacta y utilizar muchos resultados de la teoŕıa matricial con gran ventaja. Para expresarlas ecuaciones normales en notací on matricial, denamos las siguientes matrices:

    X =

    1 x11 x12 · · · x1k1 x21 x22 · · · x2k..

    1 xn 1 xn 2 · · · xnk

    Y =

    y1y2...

    yn

    y B =

    β̂ 0β̂ 1...

    β̂ k

    La primera X es una matriz de n × (k + 1) que consiste esencialmente de los valores de las x,donde se a ñade una columna 1 para dar cabida a los términos constantes. Y es una matriz de n×1 (ovector columna) que consiste en los valores observados de Y , y B es una matriz ( k + 1) ×1 (o vectorcolumna) que consiste en las estimaciones de ḿınimos cuadrados de los coecientes de regresi´ on.Al usas estas matrices, podemos ahora escribir la siguiente soluci´ on simb ólica de las ecuaciones

    normales

    Teorema 3.2.1 Las estimaciones de mı́nimos cuadrados para los coecientes de regresi´ on múltipleest án dadas por

    B = ( X X )− 1X Y

    donde X es la transpuesta de X y (X X )− 1 es la inversa de X X .

    Demostraci´ onPrimero determinamos X X , X XB y X Y , y obtenemos

    X X =

    n x1 x2 · · · xkx1 x21 x1x2 · · · x1xkx2 x2x1 x22 · · · x2xk..

    xk xk x1 xk x2 · · · x2k

    X XB =

    β̂ 0 · n + β̂ 1 · x1 + β̂ 2 · x2 + · · · + β̂ k · xkβ̂ 0 · x1 + β̂ 1 · x21 + β̂ 2 · x1x2 + · · · + β̂ k · x1xkˆβ 0 · x2 +

    ˆβ 1 · x2x1 +

    ˆβ 2 · x

    22 + · · · +

    ˆβ k · x2xk.

    .β̂ 0 · xk + β̂ 1 · xk x1 + β̂ 2 · xk x2 + · · · + β̂ k · x2k

    X Y =

    yx1yx2y

    .xk y

    Al identicar los elementos de X XB como las expresiones en el lado derecho de las ecuacionesnormales y las de X Y como las expresiones en el lado izquierdo, podemos escribir

    X XB = X Y

    A5-12

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    13/15

    Al multiplicar en el lado izquierdo por ( X X )− 1 , obtenemos

    (X X )− 1X XB = ( X X )− 1X Y

    y nalmente

    B = ( X X )− 1X Y

    puesto que ( X X )− 1X X es igual a la matriz identidad I (k + 1) × (k + 1) y por denici´on IB = B .En este casos hemos supuesto que X X no tiene singularidad de manera que existe su inversa.Ejemplo 3.2.1 Con respecto al ejemplo de las casas unifamiliares en el desarrollo habitacional,use el teorema 3.2.1 para determinar las estimaciones de mı́nimos cuadrados de los coecientes deregresi ón múltiple.

    Soluci´ onAl sustituir x1 = 25, x2 = 16, x21 = 87, x1x2 = 55, x22 = 36 y n = 8 en la expresi ónpara X X de arriba, obtenemos

    X X =8 25 16

    25 87 5516 55 36

    Entonces, la inversa de esta matriz se puede obtener mediante cualquiera de diversas técnicas: alusar la que est´a basada en los cofactores, encontramos que

    (X X )− 1 = 184

    107 −20 −17−20 32 −40−17 −40 71

    donde 84 es el valor de |X X |, el determinante de X X . Al sustituir y = 637000, x1y =2031100 y x2y = 1297700 en la expresi ón para X Y , obtenemos entonces

    X Y = 184

    637000

    20311001297700

    y nalmente,

    (X X )− 1X Y = 1

    84

    107 −20 −17−20 32 40−17 −40 71

    ·637000

    20311001297700

    = 1

    84

    547610034720063799

    =

    65191,7

    4133,3758,3

    donde las β̂ están redondeadas a un decimal. Advierta que los resultados obtenidos aqúı sonidénticos a los mostrados en el ejercicio anterior.

    Si se supone que para i = 1 , 2,...,n las Y i son variables aleatorias independientes que tienendistribuciones normales con las medias β 0 + β 1x i1 + β 2x i 2 + ... + β k x ik y la desviaci ón est ándarcomún σ. Con base en n puntos de datos

    (x i 1 , x i2 ,...,x ik , yi )

    podemos entonces hacer toda clase de inferencias sobre los par´ ametros de nuestro modelo, las β yσ, y juzgar los méritos de las estimaciones y las predicciones basadas en la ecuaci´ on estimada de

    A5-13

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    14/15

    regresi ón simple. Las estimaciones de m´axima verosimilitud de las β son iguales a las estimacionescorrespondientes de mı́nimos cuadrados, aśı que est´ an dadas por los elementos de la matriz columna(k + 1) × 1.

    B = ( X X )− 1X Y

    La estimaci ón de máxima verosimilitud de σ está dada por

    σ̄ = 1n ·

    n

    i=1

    [yi − (β̂ 0 + β̂ 1x i 1 + β̂ 2x i 2 + ... + β̂ k x ik )]2

    donde β̂ son las estimaciones de m áxima verosimilitud de las β , las mismas que también se puedenescribir como

    σ̂ = Y Y −B X Ynen notaci ón matricial.

    Ejemplo 3.2.2 Use los resultados del ejemplo anterior para determinar el valor de ˆ σSoluci´ on Calculemos primero Y Y , lo cual es simplemente ni=1 y2i , ası́ obtenemos

    Y Y = 78800 2 + 74300 2 + ... + 82900 2

    = 50907080000

    Entonces, al copiar B y X Y obtenemos

    BX Y = 1

    84 5476100 347200 63700

    63700020311001297700

    = 50906394166

    y se sigue que

    σ̂ = 50907080000 − 509063941668= 292 ,8

    Por lo que se concluye que los resultados de las β̂ i son combinaciones lineales de las n variablesaleatorias independientes Y i de manera que las β̂ i tienen distribuciones normales. Adem´ as, sonestimadores insesgados, esto es,

    E (β̂ i ) = β i para i = 0 , 1,...,k

    y sus varianzas est´an dadas por

    V ar(β̂ i ) = cij σ2 para i = 0, 1,...,k

    En este caso cij es el elemento en el iésimo rengl´on y la jésima columna de la matriz ( X X )− 1 ,con i y j que toman los valores de 0,1,..., k.

    Asi mismo, la distribuci´on muestral de nΣ̂ 2

    σ2 , la variable aleatoria que corresponde a

    nσ̂2

    σ2 , es la

    distribuci´on ji.cuadrada con n − k − 1 grados de libertad y que nΣ̂ 2

    σ2 y β̂ i son independientes para

    i = 0 , 1,...,k. Al combinar todos estos resultados, encontramos que la denici´ on de la distribuci´on tnos lleva:

    A5-14

  • 8/20/2019 APUNTES DE REGRESION LINEAL - GONZALO VILLA

    15/15

    Teorema 3.2.2 Bajo las suposiciones del an álisis de regresi ón múltiple normal,

    t =β̂ i − β i

    σ̂ · n|cii |n − k − 1para i = 0 , 1,...,k

    son los valores de variables aleatorias que tienen distribuci´ on t con n

    −k

    −1 grados de libertad.

    Con base en este teorema, probemos ahora una hip´ otesis acerca de uno de los coecientes deregresi ón múltiple.

    Ejemplo 3.2.3 Con respecto al anterior ejemplo, pruebe la hip´ otesis nula β 1 = 3500 contra lahip ótesis alternativa β 1 > 3500 en el nivel 0,05 de signicancia.

    Soluci´ on

    1. H 0 : β 1 = 3500H 1 : β 1 > 3500

    2. Rechace la hip ótesis nula si t 2, 015, donde t se determina de acuerdo al anterior teorema y2, 015 es e valor de t0,05 ,5 de acuerdo a la tabla de la distribuci´ on T-student.

    3. Al sustituir n = 8, β̂ 1 = 4133,3 y c11 = 32/ 84 y σ̂ = 292,8 de los ejemplos anteriores, obtenemos

    t = 4133, 3 − 3500292,8 · 8|32/ 84|5

    = 4133,3 − 3500

    228,6 = 2 ,77

    4. Puesto que t = 2 ,77 excede a 2,015, se debe rechazar la hip´otesis nula; concluimos que enpromedio cada rec´amara adicional a˜nade m ás de $3500 al precio de venta de una cada tal.

    A5-15