ejercicios de regresion lineal

Upload: juan-pablo

Post on 06-Jul-2015

21.925 views

Category:

Documents


5 download

TRANSCRIPT

233 [233]IntroduccinEn el captulo anterior se vio que es muy frecuente encontrar varia-bles que estn relacionadas o asociadas entre s; por ejemplo, lascalificaciones de los estudiantes estn relacionadas con el tiempoque dedican al estudio, el gasto familiar est relacionado con elingreso familiar, etc.Existenmuchasvariables,enespecialcuantitativas,queserelacionan en algn grado con otras; entonces, es posible que unade las variables pueda expresarse matemticamente en funcin dela otra. Frecuentemente se nos formulan las siguientes preguntas:El peso de las personas est relacionado con la estatura? El tiem-podeserviciodetrabajoactivotienerelacinconlaedad?Elingreso o salario est relacionado con el nivel educativo? El aho-rro familiar tiene relacin con los ingresos? La demanda de unproducto depender de los precios?, etc.Estadsticamente nos interesa analizar la relacin entre dos oms variables, siempre que se tenga un indicio de que entre ellasexiste por lo menos cierto grado de dependencia o asociacin. Loimportante es medir y expresar funcionalmente esta relacin me-diante una funcin o modelo matemtico.En el presente captulo estudiaremos el anlisis de regresinentre dos variablesX eY, y el grado de relacin entre ellas me-diante el anlisis de correlacin.Captulo VAnlisis de regresin y correlacin lineal05_cap5.p65 31/03/2006, 02:48 p.m. 233234AnlisisderegresinlinealsimpleSi se trata de predecir o explicar el comportamiento de una variableY, a la que se denomina dependiente o variable respuesta, en fun-cin de otra variableX denominada independiente o regresora,Y =f( X), estamos frente a un problema de anlisis de regresinlineal simple; pero si deseamos investigar el grado de asociacinentre las variablesX e Yestamos frente a un problema de anlisisde correlacin.DiagramadedispersinCmo encontrar la relacin entreX e Y ? Una de las formas gr-ficas ms sencillas es realizando el diagrama de dispersin, deno-minado tambin diagrama de nube de puntos.Este tipo de grfico se utiliza para visualizar la relacin entrelas variables y, a partir de dicha relacin, observar en qu medidase mantiene el incremento o disminucin de una variable a partirdel aumento de otra variable.Para su construccin, se trazan en el plano cartesiano los ejesde la abscisa ( X) y de la ordenada ( Y ). En el ejeX se colocan losvalores de una de las variables y, en el eje Y , los valores de la otravariable. En la interseccin correspondiente a cada valor deX y acada valor deYse coloca un punto, y as tendremos la nube depuntos.Mostraremos a continuacin algunas formas que adquiere eldiagrama de dispersin.Figura 1. Diagramas de dispersinYY...... . . ... .. . . .... .. ...

X

X Y a bX +

Y a bX a) Relacin lineal positivab) Relacin lineal negativa 05_cap5.p65 31/03/2006, 02:48 p.m. 234235Y Y. . ... . . . . . . . ...... . . . . . ..... .. . . . ... ....

X

XY a 2Y a bX cX + +c)Nohayrelacinlineald) Relacin no linealentreXeYComosepuedeverenelgrfico(a),losvaloresdeY seincrementan linealmente conformeXcrece, es decir, el conjuntode datos se puede representar por una lnea recta ascendente. Porejemplo, al aumentar la partida presupuestal asignada por el go-bierno a un colegio, aumenta la posibilidad de atender una mayordemanda escolar.Es diferente en el grfico (b), porque cuando los valores deXcrecen, los valores de Y decrecen, es decir, el conjunto de datos sepuede representar por una lnea recta descendente. As, por ejem-plo, cuando aumenta el nmero de horas semanales que los es-tudiantes dedican a las distracciones, su rendimiento acadmicodisminuye.En el grfico (c) no hay ninguna relacin entreXe Y ; mien-tras que el grfico (d) muestra una relacin de tipo curvilnea entreX eY . As, por ejemplo, cuando los estudiantes dedican diaria-mente un mayor nmero de horas a ver programas de televisin,disminuye su rendimiento acadmico en el colegio.Como se observa en los diagramas de dispersin, el trminolineal empleado se refiere al tipo de relacin entreX e Y .Una vez visualizada la relacin, los diagramas de dispersinno son suficientes para determinar el grado de la relacin entre lasvariables, por lo que debemos utilizar procedimientos estadsticospara determinar el modelo mas apropiado que exprese el compor-tamiento del conjunto de datos( ) ,i ix y . 05_cap5.p65 31/03/2006, 02:48 p.m. 235236Ajust e de una funcin de regresin:Mt odo de mnimos cuadradosAjustar una funcin de regresin significa encontrar, la funcinqueexpreseconmayorprecisinlarelacinentrelasvariablesX e Y . Grficamente ser aquella funcin que mejor se adecue ala nube de puntos. En este sentido, es recomendable como primerpaso construir el diagrama de dispersin o diagrama de nube depuntospara,luegodeanalizarsuforma,decidirporeltipodefuncin matemtica (modelo) o la ecuacin de regresin que expre-selarelacinentrelasvariablesX eY .Luego,seestimanlosparmetros del modelo, para lo cual existen varios mtodos, sien-do el ms usado el mtodo de mnimos cuadrados.Intentamos describir la dependencia de una variable Ysobreuna variable independienteX . Emplearemos la ecuacin de regre-sin a fin de apoyar la hiptesis que postula la posible causalidadde los cambios de Y mediante los cambios enX ; para propsitosde prediccin de Y en funcin deX ; y para propsitos de explica-cin de parte de la variacin deY porX utilizando la ltima va-riable como control estadstico. Los estudios de los efectos de latemperatura en el rendimiento acadmico, el contenido de nitrge-no en el suelo sobre la tasa de crecimiento de una planta, la edad deun estudiante sobre su presin sangunea, la dosis de un insectici-da sobre la mortalidad de una poblacin de insectos, el nmero dehoras de estudio sobre el rendimiento acadmico, son ejemplos tpi-cos de regresin para los propsitos sealados.Supondremos que el diagrama de dispersin sugiere que larelacin entre las dos variables se puede expresar mediante unarecta L: Y a bX + . El mtodo de mnimos cuadrados garantizaque la recta que representa el comportamiento del conjunto de da-tos es la recta L, donde la suma de los cuadrados de las diferenciasdelasordenadas iy delospuntosobservados( ,i ix y ),ydelasordenadas iy a bx +de los puntos ( ,i ix a bx + ) que estn en larecta L, sea mnimo. Esto es, se trata de obtener los valores de a yb de tal manera que el valor de la suma de cuadrados de los resi-duos, SSE, sea mnimo. Es decir:( )21ni iiSSE y y sea mnimo, (5.1)05_cap5.p65 31/03/2006, 02:48 p.m. 236237donde:iy :son los valores observados de la variable dependienteY ,iy : son los valores estimados de Y ,b:es la pendiente de la recta, llamada tambin coeficiente deregresin, para predecir la variable Y ,a : es la constante o interceptoEntonces la ecuacin de regresin estimada se expresa como: Y a bX +Yrecta de regresin para predecirY . .............................................10 ..

0 X0 51015 2025 30Segn el mtodo de mnimos cuadrados, se demuestra que ay bvalores deaybque hacen mnima laSSE , satisfacen eldenominado sistema de ecuaciones normales:1 1n ni ii iy an b x + 21 1 1n n ni i i ii i ix y a x b x + . (5.2)Resolviendo el sistema se deducen los siguientes valores paralas constantesay b, denominados valores estimados de los co-eficientes de regresin:21 1 1 1221 1n n n ni i i i ii i i in ni ii iy x x x ya Y bXn x x | ` . , (5.3) 05_cap5.p65 31/03/2006, 02:48 p.m. 2372381 1 1221 1,n n ni i i ii i in ni ii in x y x ybn x x | ` . , (5.4)La recta de regresin nos permite, basndonos en los datos dela muestra, estimar un valor de la variableY que denotaremosconiy correspondiente a un valor dado ixde la variableX .Paraelloessuficientereemplazarelvalorde ix enlarectaderegresin y encontraremos el correspondiente valor estimadoiy .Ejemplo 1Con los datos de la tabla 1, correspondiente al rendimiento acad-mico en el nivel superior ( Y ) y al rendimiento acadmico en elnivel secundario ( X ) de 8 estudiantes:a) Construiremosel diagrama de dispersin.b) Aplicaremos el mtodo de mnimos cuadrados para encon-trar los coeficientes de regresin lineal.c) Averiguaremos: Cul ser el rendimiento en educacin su-perior de un estudiante con nota promedio de 12 en la edu-cacin secundaria?Tabla1:RendimientoacadmicoensecundariayeneducacinsuperiordeungrupodealumnosEst ud iant esX Y1 16 152 13 113 15 174 12 145 11 116 16 147 13 158 10 12Solucina) Usando los comando del SPSS presentados en el captulo VII, seobtiene el diagrama de dispersin presentado en la figura 2. Tam-binpresentamoslosclculosparaencontrarlosvalores a y05_cap5.p65 31/03/2006, 02:48 p.m. 238239b de la ecuacin de regresin estimada por el mtodo de mnimoscuadrados.Figura2Di agrama dedispersin de rendi mi entoen secundar iay rendi mi entoen e ducacin superiorRendimiento en educacin superior1 8 1 6 1 4 1 2 1 0Rendimientoensecundaria1 71 51 3119El diagrama de dispersin nos sugiere que los datos se pue-den representar mediante una recta Y a bX +.b) Clculos necesarios para estimar los coeficientes de regre-sin y usando el mtodo de mnimos cuadrados

ixiy2ixi ix y16 15 256 24013 11 169 14315 17 225 25512 14 144 16811 11 121 12116 14 256 22413 15 169 19510 12 100 120Total106 109 1440 1466( )8 8 8 821 1 1 12 28 821 1109 1440 106 1466 5, 518 1440 106i i i i ii i i ii ii iy x x x yan x x | ` . , 05_cap5.p65 31/03/2006, 02:48 p.m. 239240( )1 1 12 221 18 1466 106 1090, 618 1440 106n n ni i i ii i in ni ii in x y x ybn x x | ` . , Entonces, la recta de regresin de YsobreX queda expresadacomo:5, 51 0, 61 Y X +Si un estudiante obtiene un rendimiento de 12 en secundaria,entonces su rendimiento esperado en educacin superior se obtie-ne reemplazandoX por el valor 12 en la recta definida, es decir:5, 51 0, 61 12 5, 51 7, 32 12, 83 Y + + .Puede decirse que se estima que un alumno que tiene un ren-dimientode12puntoseneducacinsecundaria,eneducacinsuperior tendr un rendimiento de 12,83 puntos.AnlisisdecorrelacinlinealNos proponemos investigar si dos variables son independientes ocovaran, esto es, si varan conjuntamente. No expresamos una va-riable como funcin de la otra, as como tampoco hacemos distin-cin alguna entre variables dependientes e independientes. Puedemuy bien suceder que, de una pareja de variables cuya correlacinse estudia, una sea causa de la otra, aunque nosotros no lo sepamosni lo sospechemos. Una hiptesis importante, aunque no esencial,es que las dos variables sean efectos de una causa comn y lo que sedesea conocer es el grado en el que ambas variables varan conjunta-mente. As, podramos estar interesados en la correlacin entre laslongitudes de las extremidades superiores y extremidades inferio-res en una poblacin de estudiantes, o entre el peso y la estatura deun grupo de estudiantes, o entre los das necesarios para la madu-rez y el nmero de semillas en una siembra.La correlacin lineal mide el grado de la asociacin lineal en-tre dos variables denotadas conX eY . Analizando el diagramade dispersin o nube de puntos podemos visualizar el tipo de co-rrelacin lineal entre las variables involucradas.05_cap5.p65 31/03/2006, 02:48 p.m. 240241Figura3.TiposdecorrelacinlinealY Y. .... .... . . .. . .. . . . ..

. ..XXa) Correlacin positivab) Correlacin negativa Y. . . . . . . . . .... .. . . . .. : : :.. . . . . . . . Xc) Correlacin nulaCorrelacin positiva o directaEn la figura 3(a), las variablesX e Yestn correlacionadas posi-tivamente o su variacin est en razn directa; es decir, el aumentode la medida de la variableXimplica el aumento de la medida dela variableY .Ejemplo 2En la tabla 2 se presentan las puntuaciones en Literatura ( X ) ylas puntuaciones en Lenguaje ( Y ) de un grupo de alumnos de uncentro educativo. Se observar su relacin a travs de un diagramade dispersin. 05_cap5.p65 31/03/2006, 02:48 p.m. 241242Tabla2:PuntuacionesenLiteraturayenLenguajedeungrupodealumnosNEstudiante X Y1 5 122 8 203 12 304 16 305 16 426 24 407 28 50SolucinEl diagrama de dispersin, usando los comandos del SPSS presen-tados en el captulo VII es el siguiente:Figura4PuntuacionesenLiteraturayLenguajedeungrupodealumnosPuntu acionesenLi teratura30 20 10 0PuntuacionesenLenguaje605040302010 Como se puede observar, cuando aumenta el valor de la va-riableX(puntuaciones en Literatura)tambin aumenta el valorde la variable Y (puntuaciones en Lenguaje); luego, visualizandoque el tipo de correlacin entre las puntuaciones en literatura ylenguaje es positiva.Correlacin negat iva o inversaSe dice que las variablesXeYestn correlacionadas negativa-mente o su variacin est en razn inversa, cuando el aumento de05_cap5.p65 31/03/2006, 02:48 p.m. 242243la medida de la variableXimplica la disminucin de la medidade la variable Y , o la disminucin de la medida de la variableXimplica el aumento de la variable Y , como se puede observar en lafigura 3(b).Ejemplo 3La tabla 3 nos muestra las puntuaciones en Literatura ( X) y laspuntuaciones en Matemtica ( Y ) de un grupo de alumnos de undeterminado centro educativo. Mostraremos el diagrama de dis-persin.Tabla3PuntuacionesenLiteraturayenMatemticadeungrupodealumnosNEstudianteixiy1 10 302 30 153 38 374 40 255 60 356 65 057 80 208 90 10SolucinEl diagrama de dispersin, usando los comandos del SPSS presen-tados en el captulo VII es el siguiente:Figura5PuntuacionesenLiteraturayMatemticadeungrupodealumnosPuntuaci onesen Lite ratura10 0 80 60 40 20 0PuntuacionesenMatemtica40302010005_cap5.p65 31/03/2006, 02:48 p.m. 243244Como se puede apreciar, frente al aumento de las puntuacionesen literatura ( X ) disminuyen las puntuaciones en Matemtica (Y),visualizando la correlacin entre X e Y es negativa o inversa.CorrelacinnulaEn la figura 3(c) las variables no estn correlacionadas entre s; eseste caso, diremos que la correlacin entre X eY es nula; esto lopodemos observar en el siguiente ejemplo.Ejemplo 4Enlatabla4,lavariable X correspondealaspuntuacionesendeporte y la variableY corresponde a las puntuaciones en Mate-mtica de un grupo de alumnos. Mostraremos el diagrama de dis-persin para identificar el tipo de correlacin.Tabla4:PuntuacionesendeporteyenMatemticadeungrupodealumnosNEstudiante X Y1 02 252 04 103 04 354 08 055 08 406 14 057 14 158 14 409 18 20 10 18 35SolucinEl diagrama de dispersin, usando los comandos del SPSS presen-tados en el captulo VII es el siguiente:05_cap5.p65 31/03/2006, 02:48 p.m. 244245Figura6PuntuacionesendeporteyenMatemticadeungrupodealumnosPunt uaci ones en deport e20 10 0PuntuacionesenMatemtica50403020100Como se puede apreciar, la correlacin entre las puntuacionesen deporte ( X ) y las puntuaciones en matemtica ( Y ) es nula.Coeficient e de correlacin de Pearson ( r )Existen numerosos coeficientes de correlacin en Estadstica. Elms comn de ellos es el denominado coeficiente de correlacinproducto-momento, cuya formulacin se debe a Karl Pearson.El coeficiente de correlacin de Pearson se utiliza en el anli-sis de informacin cuantitativa, cuando se desea medir el grado deasociacin lineal entre dos variables cuantitativas.Sus valores varan entre 1 y 1. El valor +1 indica que entre X eY existe una correlacin lineal directa y perfecta; el valor 1, unacorrelacin lineal inversa y perfecta. El valor 0 indica ausencia decorrelacin lineal.Para obtener este coeficiente hay una gran variedad de expresio-nes matemticas que son equivalentes, destacando las siguientes:a) Para puntuaciones directas o datos originales:( )( )( ) ( )2 22 2i i i ii i i in x y x yrn x x n y y ]] ]] ]] (5.5)05_cap5.p65 31/03/2006, 02:48 p.m. 245246b) para puntuaciones Z (puntuaciones tipificadas):x yxZZrS , (5.6)donde:ixxx XZS .iyyy YZSPropiedadesEl valor de rse encuentra entre 1 y +1, de donde se deduce que:a) Si r > 0, existe correlacin directa o correlacin positiva,b) Si r < 0, existe correlacin inversa o correlacin negativa.En la interpretacin clsica del coeficiente de correlacin sededuce, por ejemplo, que si:a)0 0, 20 r < ,la correlacin es muy baja,b)0, 20 0, 40 r