análisis de correlación

6
Análisis de correlación Introducción Hasta este momento se ha supuesto que la variable de regresión independiente x es una variable física o científica, pero no una variable aleatoria matemática. De hecho en este contexto, X frecuente recibe el nombre de variable matemática , la cual, en el proceso de muestreo se mide con un error despreciable. En muchas aplicaciones de las técnicas de regresión es más realista suponer que tanto x como y son variables aleatorias y que las mediciones [(Xi,Yi);i=1,2….n. Son las observaciones de una población que tiene la función de densidad conjunta f ( x,y ). Se considera el problema de medir la relación entre 2 variables X y Y . Por ejemplo, si X y Y representan la longitud y la circunferencia de una clase particular de hueso en el cuerpo de un adulto, se podrá llevar a cabo un estudio antropológico para determinar si valores grandes de x se asocian con valores grandes de Y y viceversa. Por otro lado si X representa la antigüedad de un automóvil usado y Y su valor en libros, se esperaría que los valores pequeños de X corresponderán a valores pequeños de Y y que valores pequeños de X corresponden a valores grandes Y. EL análisis de correlación intenta medir la fuerza de tales relaciones entre 2 variables por medio de un simple número que recibe el nombre de coeficiente de correlación donde este se define como La medida p de asociación lineal entre 2 variables X y Y se estima con el coeficiente muestral r donde: Calculo del coeficiente de determinacion r=b= Sxx Syy = Sxy √ SxxSyy

Upload: josuedancast

Post on 25-Dec-2015

231 views

Category:

Documents


3 download

DESCRIPTION

inferencial 2

TRANSCRIPT

Análisis de correlación

Introducción

Hasta este momento se ha supuesto que la variable de regresión independiente x es una variable física o científica, pero no una variable aleatoria matemática. De hecho en este contexto, X frecuente recibe el nombre de variable matemática, la cual, en el proceso de muestreo se mide con un error despreciable. En muchas aplicaciones de las técnicas de regresión es más realista suponer que tanto x como y son variables aleatorias y que las mediciones [(Xi,Yi);i=1,2….n.

Son las observaciones de una población que tiene la función de densidad conjunta f ( x , y ). Se

considera el problema de medir la relación entre 2 variables X y Y . Por ejemplo, si X y Y representan la longitud y la circunferencia de una clase particular de hueso en el cuerpo de un adulto, se podrá llevar a cabo un estudio antropológico para determinar si valores grandes de x se

asocian con valores grandes de Y y viceversa. Por otro lado si X representa la antigüedad de un

automóvil usado y Y su valor en libros, se esperaría que los valores pequeños de X corresponderán

a valores pequeños de Y y que valores pequeños de X corresponden a valores grandes Y.

EL análisis de correlación intenta medir la fuerza de tales relaciones entre 2 variables por medio de un simple número que recibe el nombre de coeficiente de correlación donde este se define como

La medida p de asociación lineal entre 2 variables X y Y se estima con el coeficiente muestral r donde:

Calculo del coeficiente de determinacion

r=b=√SxxSyy

= Sxy√ SxxSyy

En teoría se supone con frecuencia que la distribución condicional ∫( y∨x ) de y, para valores fijos

de x, es normal con media μ y|x]=α+βxy varianza α 2 y∨x y que, de la misma manera x tiene una

distribuacion normal con media μxy varianza α 2 x

Para -∞‹x‹ ∞ y -∞‹y‹∞

La variable aleatoria y en forma

γ=α+βx+ϵ

Donde x es ahora una variable aleatoria independiente del error aleatorio E. dado que la media del error aleatorio e es 0, se sigue que,

μγ=α+ βx+∈❑

P. de H e interpretación

Para -∞‹x‹ ∞ y -∞‹y‹∞

ρ2=1−a2σ2 γ=¿β 2 σ2x

σ2 γ¿

El valor de ρ es 0 cuando β=0, lo cual resulta cuando esencialmente no hay regresión lineal ; esto es, la línea de regresión es horizontal y cualquier conocimiento de x no es utilidad para predecir y. se debe tener ρ2≤1 y de aquí que -1 ≤ ρ≤1. Entonces los valores ρigual que +1 implica una

relación perfecta con una pendiente positiva, mientras que un valor de ρigual que -1 resulta una relación lineal perfecta con una pendiente negativa

MEDIDAS DE VARIACION EN REGRESION Y CORRELACION

Con el fin de examinar que tan bien una variable independiente predice a la variable dependiente en nuestro modelo estadístico, necesitamos desarrollar algunas medidas de variación. La primera de ellas, la suma total de cuadrados, es una medida de la variación de los valores Y, alrededor de su media, Y. en el análisis de regresión la suma total de cuadrados puede dividirse en la variación explicada o suma de cuadrados debida a la regresión, que se puede atribuir a la relación entre X y Y; y la variación no explicada o suma de cuadrados de error, que se puede atribuir a factores diferentes a la relación entre X y Y.

- SCT(SST), SCR (SSR) Y SCE (SSE)La suma de cuadrados debida a la regresión representa la diferencia entre ,

valor promedio de Y y el valor promedio de Y que seria predicho a partir de la relación de regresión. La suma de cuadrados de error representa aquella parte de la variación de Y que no es explicada por la regresión.

En la que:

CALCULO DEL COEFICIENTE E INTERPRETACIONEl coeficiente de determinación r2 , puede definirse como:

Esto es, el coeficiente de determinación mide la porción de variación que es explicida por la variable independiente del modelo de regresión.Para interpretar el coeficiente de determinación, en particular se trata con modelos de regresión multiple, algunos investigadores sugieren que se calcule un coeficiente r2 ajustado para reflejar tanto el numero de variables explicatorias del modelo como el tamaño de la muestra. En la regresión lineal simple, sin embargo, representamos el coeficiente r2 ajustado como: