correlación de pearson y sperman

13
Correlación de Pearson y Spaerman Ventajas, Desventajas y Enfoque.

Upload: miri-orsetti

Post on 16-Apr-2017

117 views

Category:

Economy & Finance


0 download

TRANSCRIPT

Correlación de Pearson y Spaerman

Ventajas, Desventajas y Enfoque.

Republica Bolivariana de VenezuelaMinisterio del Poder Popular para la Educación SuperiorInstituto Universitario Politécnica ¨Santiago Mariño¨

Alumna:Miriangelis OrsettyC.I :24.983.452

Profesor:Pedro Beltrán

Barcelona, enero 2015

Coeficiente de determinación o de correlación.Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación, definido como sigue;

o bien

Como scE < scG, se verifica que 0 < R2 < 1.

El coeficiente de determinación mide la proporción de variabilidad total de la variable dependiente respecto a su media que es explicada por el modelo de regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por cien. Teniendo en cuenta que y^ i -y = ^a1(xi- x), se obtiene:

Dadas dos variables aleatorias cualesquiera X e Y , una medida de la relación lineal que hay entre ambas variables es el coeficiente de correlación definido por:

Donde  representa la desviación típica de la variable X (análogamente para ). Un buen estimador de este parámetro es el coeficiente de correlación lineal muestral (o coeficiente de correlación de Pearson), definido por:

Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste de la recta de regresión. Evidentemente, existe una estrecha relación entre r y  1 aunque estos estimadores proporcionan diferentes interpretaciones del modelo:  r es una medida de la relación lineal entre las variables X e Y. A1 mide el cambio producido en la variable Y al realizarse un cambio de una unidad

en la variable X.De las definiciones anteriores se deduce que:

Es importante estudiar si r es significativo (distinto de cero) ya que ello implica que el modelo de regresión lineal es significativo. Desafortunadamente la distribución de r es complicada pero para tamaños muestrales mayores que 30 su desviación típica es   y puede utilizarse la siguiente regla En la interpretación del coeficiente de correlación se debe tener en cuenta que: r = ±1 indica una relación lineal exacta positiva (creciente) o negativa (decreciente), r = 0 indica la no existencia de relación lineal estocástica, pero no indica

independencia de las variables ya que puede existir una relación no lineal incluso exacta.

valores intermedios de r (0 < r < 1 ó -1 < r < 0) indican la existencia de una relación lineal estocástica, más fuerte cuanto más próximo a +1 (ó -1) sea el valor de r.

Para poder interpretar con mayor facilidad el coeficiente de correlación muestral se exponen varias nubes de observaciones y el ajuste lineal obtenido:

 Existe una dependencia funcional lineal, las observaciones están sobre la recta de regresión. r = R2 = 1, recta de regresión: y = x.

El coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.

El estadístico ρ viene dado por la expresión: donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia. Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student.

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Determinacion La aproximación moderna al problema de averiguar si un valor observado de ρ es significativamente diferente de cero (siempre tendremos -1 ≤ ρ ≤ 1) es calcular la probabilidad de que sea mayor o igual que el ρ esperado, dada la hipótesis nula, utilizando un test de permutación. Esta aproximación es casi siempre superior a los métodos tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informática no sea suficiente para generar permutaciones (poco probable con la informática moderna), o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad).

Aunque el test de permutación es a menudo trivial para cualquiera con recursos informáticos y experiencia en programación, todavía se usan ampliamente los métodos tradicionales para obtener significación. La aproximación más básica es comparar el ρ observado con tablas publicadas para varios niveles de significación. Es una solución simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. Más abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los años se han usado complicados trucos matemáticos para generar tablas para tamaños de muestra cada vez mayores, de modo que no es práctico para la mayoría extender las tablas existentes.

Una aproximación alternativa para tamaños de muestra suficientemente grandes es una aproximación a la distribución t de Student. Para tamaños de muestra más grandes que unos 20 individuos, la variable

tiene una distribución t de Student en el caso nulo (correlación cero). En el caso no nulo (ej: para averiguar si un ρ observado es significativamente diferente a un valor teórico o si dos ρs observados difieren significativamente), los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribución t.

Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o más condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorará de intento en intento. Un test de la significación de la tendencia entre las condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas.

Coeficiente de Correlación de PearsonVentajas

El valor del coeficiente de correlación es

Independiente de cualquier unidad usada para Medir variables.

Mientras mas grande sea la Muestra mas exacta será la Estimación.

Desventajas

Requiere que las dos variables hayan ido medidas hasta un nivel cuantitativo continuo y que la distribución de ambas sea semejante a la de la curva normal.

Requiere supuestos acerca de la naturaleza o forma de las poblaciones afectadas.

Coeficiente de correlación de Spearman.

Ventajas Es menos sensible a los

valores extremos que el coeficiente de Pearson.

Los valores se repiten asignando el promedio de los rangos que les corresponde a cada uno de ellos

El coeficiente de Spearman basado en rangos es una alternativa al coeficiente de Pearson.

Desventajas 0 (cero), significa no

correlación pero no independencia.

Es asociada entre dos variables aleatorias continuas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos.

Usos de Enfoque de Pearson.

Interpreta el coeficiente de correlación de acuerdo con el contexto de los datos particulares. El valor arbitrario que debe aplicarse de acuerdo con variables que se comparan.

Determina la importancia de los resultados. Esto se logra con el uso del coeficiente de correlación, grados de libertad y una tabla de valores críticos del coeficiente de correlación. Los grados de libertad se calculan como es un, numero de las observaciones menos 2.

Usos de Enfoque de Spearman.

El enfoque psicométrico utilizar técnicas de análisis factorial con la idea de descubrir las diferencias individuales de la inteligencia entre las personas. Para ello se recurre al uso de tets de inteligencia.

Para aplicar el coeficiente de correlación de Spearman se requiere que las variables estén medidas al menos en escala ordinal, es decir; de forma que las puntuaciones que las representan puedan ser colocadas en dos series ordenadas