análisis de regresión y correlación lineal · deseamos investigar el grado de asociación entre...

15
Análisis de Regresión y Correlación Lineal Dr. Pastore, Juan Ignacio Profesor Adjunto.

Upload: lydien

Post on 03-Dec-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Análisis de Regresión y Correlación Lineal

Dr. Pastore, Juan Ignacio Profesor Adjunto.

Análisis de Regresión y Correlación Lineal

Hasta ahora hemos centrado nuestra atención principalmente en una sola variable de respuesta numérica o en series de datos que contenían una sola observación de cada individuo. Por ejemplo, duración en tiempo de cierto proceso, longitud de una pieza, resistencia de cierto material a roturas, etc. En esta unidad nos ocuparemos de problemas que impliquen dos variables numéricas con el objetivo de estudiar la relación que existe entre ellas. Estudiaremos si es posible que una de las variables pueda expresarse matemáticamente en función de la otra. Nos va a interesar estudiar la relación que existen entre ellas y de qué forma se asocian. Para esto analizaremos dos técnicas: la de regresión y la de correlación.

Frecuentemente se nos formulan las siguientes preguntas: ¿El peso de las personas está relacionado con la estatura? ¿El peso y la presión arterial se relacionan? ¿La demanda de un producto dependerá de los precios? ¿La presión de una masa de gas depende de su volumen y de su temperatura?, etc.

Tipos de relación entre variables Dos variables pueden estar relacionadas por una dependencia funcional, por una dependencia estadística o pueden ser independientes. Raramente se determina una dependencia funcional rigurosa ya que ambas variables o una de ellas, están expuestas a factores aleatorios, surge entonces una dependencia estadística. La dependencia se llama estadística cuando la variación de una de las variables da lugar a la alteración de la distribución de la otra. La dependencia estadística se manifiesta en que, al variar una de las variables se altera el valor medio de la otra, en este caso se llama dependencia de correlación. Estadísticamente nos interesa analizar la relación entre dos o más variables, siempre que se tenga un indicio de que entre ellas existe por lo menos cierto grado de dependencia o asociación. Lo importante es medir y expresar funcionalmente esta relación mediante una función o modelo matemático.

Resumiendo: Si se trata de predecir o explicar el comportamiento de una variable Y, a la que se denomina dependiente o variable respuesta, en función de otra variable X denominada independiente o regresora, Y =f(X), estamos frente a un problema de análisis de regresión simple; pero si deseamos investigar el grado de asociación entre las variables X e Y estamos frente a un problema de análisis de correlación. El objetivo es analizar la relación existente entre dos variables, X e Y, de forma que podamos predecir o aproximar el valor de la variable Y a partir del valor de la variable X. Observación: En un problema de regresión el papel de las dos variables no es simétrico.

Análisis de regresión entre dos variables X e Y Consideremos el problema de tratar de hallar la relación funcional existente entre dos variables aleatorias X e Y. Supongamos que en n experimentos las variables asumieron pares de valores {(xi,yi):i=1,…,n}, podemos inicialmente observar su comportamiento graficando dichos pares de valores sobre un sistema de coordenadas ortogonales. Dicho gráfico, llamado diagrama de dispersión a menudo permite discernir si existe alguna tendencia hacia algún tipo de interrelación entre ambas variables, y, si es posible, la naturaleza de dicho tipo de interrelación.

XY1x1y2x 2y3x 3ynx ny

Correlación positiva Correlación negativa

No hay correlación

X X

X X

Y Y

Y Y

Diagrama de Dispersión

Observación: Solo nos ocuparemos del caso lineal en esta unidad.

Ajuste de una función de regresión: Método de mínimos cuadrados Ajustar una función de regresión significa encontrar, la función que exprese con mayor precisión la relación entre las variables X e Y. Gráficamente será aquella función que mejor se adecue a la nube de puntos. En este sentido, es recomendable como primer paso construir el diagrama de dispersión o diagrama de nube de puntos para, luego de analizar su forma, decidir por el tipo de función matemática (modelo) o la ecuación de regresión que exprese la relación entre las variables X e Y. Luego, se estiman los parámetros del modelo, para lo cual existen varios métodos, siendo el más usado el método de mínimos cuadrados.

El problema queda ahora reducido a encontrar los coeficientes de un tipo de curva de la C que hagan mínimo el valor D. Una vez determinados estos valores, a la curva correspondiente se la llamará curva de regresión de Y sobre X.

2 2 2 2

1 2 1n nD d d d d

Análisis de regresión lineal simple Es frecuente suponer que existe entre las variables observadas una relación proximadamente lineal:

i iy ax b

La recta y=ax+bxes una recta de regresión. El parámetro a es la pendiente de la recta e indica cómo cambia la variable respuesta o dependiente cuando el incremento de x es una unidad. El parámetro b es el término independiente de la recta e indica el valor de Y cuando X = 0.

Problema estadístico: Estimar los parámetros a y b a partir de los datos , de una muestra.

Determinación de las rectas de regresión por el método e mínimos cuadrados

y ax b yxa

donde

2

*

i i

i

D y y

2 2

*

i i yx i i

i i

D y y x b y

1

2

1

2 00

2 00

n

yx i i i

i i i

ni i i i

yx i i

i

DDX b y x

y bn x

x y x xDDX b y

bb

1 1 1

2

2

1 1

n n n

i i i i

i i ixy

n n

i i

i i

n x y x y

n x x

1 1

n n

i i

i i

y x

bn n

Resolviendo el sistema obtenemos:

,

Ecuación muestral de regresión de Y en X

yxxy x b

INFERENCIA EN REGRESION La recta de regresión nos permite, basándonos en los datos de la muestra, estimar un valor de la variable Y, correspondiente a un valor dado xi de la variable X. Para ello es suficiente reemplazar el valor de xi en la recta de regresión y encontrar el correspondiente valor estimado. La obtención de los coeficientes de la recta de regresión muestral puede considerarse también como un proceso de estimación puntual de los coeficientes poblacionales.

X: representa el tiempo de recalentamiento

Y: los espesores de óxido de cierta pieza

X

(min)

20 30 40 60 70 90 100 120 150 180

Y

(Ang)

3,5 7,4 7,1 15,6 11,1 14,9 23,5 27,1 22,1 32,9

18469i ix y 860ix 165,2iy

2 98800ix 0,17 1,76 0,17 1,76yx xa y x

Ejemplo: Determinar la recta de regresión lineal

yxxy x b

1 1 1

2

2

1 1

n n n

i i i i

i i ixy

n n

i i

i i

n x y x y

n x x

1 1

n n

i i

i i

y x

bn n

Coeficiente de correlación de Pearson

LA COVARIANZA COMO MEDIDA DE ASOCIACIÓN LINEAL Definiremos como covarianza de dos variables X e Y, y denotaremos por SXY, el estadístico que nos permite analizar la variación conjunta de dos variables. Viene dado por la siguiente expresión: Esto nos lleva a utilizar la covarianza como una medida de la asociación lineal entre las variables, de modo que si ésta es positiva, nos indica una relación directa entre ellas y si es negativa, nos indica una relación inversa. Si las variables son independientes, entonces la covarianza es aproximadamente 0.

,i i

XY

x x y yCov X Y S

n

EL COEFICIENTE DE CORRELACIÓN LINEAL Algunas veces es deseable tener un indicador del grado de intensidad o fuerza de la relación lineal entre dos variables X e Y que sea independiente de sus respectivas escalas de medición. A este indicador se le denomina coeficiente de correlación lineal entre X e Y. El estadígrafo comúnmente utilizado se llama coeficiente de correlación del producto momento de Pearson. Definición. Sea (X, Y) una variable aleatoria bidimensional, definimos r el coeficiente de correlación muestral entre X e Y como sigue:

2 2 2 2

,i i

X Yi i

x x y y Cov X Yr

x x y y

x

xy

y

rNotar que si σx=σy

xyr

INTERPRETACIÓN El coeficiente de correlación linael de Pearson (r): -Está acotado entre -1 y 1. -Un valor positivo se interpreta como indicador de una relación directa: A medida que aumentan los valores de una variable aumentan los valores de la otra. -Un valor negativo se interpreta como indicador de una relación inversa : A medida que aumentan los valores de una variable disminuyen los valores de la otra. -El valor absoluto se interpreta como el grado de relación lineal existente entre las variables, que será mayor cuanto más cercano sea a 1. -Si el valor del coeficiente de correlación muestral, en valor absoluto, es mayor de 0,93 se considera buena la estimación que se realiza con la recta de regresión.

INTERPRETACIÓN