correlacion de pearson y spearman

18
REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA EDUCACIÓN SUPERIOR INSTITUTO UNIVERSITARIO POLITÉCNICO “SANTIAGO MARIÑO”. INGENIERÍA INDUSTRIAL -45- Profesor: Pedro, Beltrán BNA, Julio 2016 Correlación de Pearson y de Spearman Correlación de Pearson y de Spearman . .

Upload: servicio-apoyo-saia

Post on 08-Apr-2017

151 views

Category:

Education


3 download

TRANSCRIPT

REPÚBLICA BOLIVARIANA DE VENEZUELAMINISTERIO DEL PODER POPULAR PARA LA EDUCACIÓN SUPERIOR

INSTITUTO UNIVERSITARIO POLITÉCNICO “SANTIAGO MARIÑO”.INGENIERÍA INDUSTRIAL -45-

Profesor:

Pedro, Beltrán

BNA, Julio 2016

Correlación de Pearson y de SpearmanCorrelación de Pearson y de Spearman..

EL COEFICIENTE DE CORRELACIÓN DE PEARSON.

Normalmente denotado como "r", es un valor estadístico que mide la relación linealentre dos variables. Los rangos de valor van de +1 a -1, lo que indica una perfecta relación linear positiva y negativa respectivamente entre ambas variables. El cálculo del coeficiente de correlación normalmente se realiza con programas de estadística, como SPSS y SAS,para dar los valores posibles más precisos en estudios científicos. Su interpretación y uso varía de acuerdo con el contexto y propósito del respectivo estudio en donde se calcula.

INSTRUCCIONES1) Identifica el dependiente variable que se probará entre dos observaciones derivadas independientemente. Uno de los requisitos del coeficiente de correlación de Pearson es que las dos variables que se comparan deben observarse o medirse de manera independiente para eliminar cualquier resultado sesgado

3) Reporta un valor de correlación cercano a 0 como un indicador de que no hay relación linear entre las dos variables Conforme el coeficiente de correlación se acerque al 0, los valores se vuelven menos correlacionados, lo que identifica las variables que no pueden ser relacionadas entre sí

2) Calcula el coeficiente de correlación de Pearson Para cantidades grandes de información, el calculo puede ser tedioso Además de los varios programas De estadísticas muchas calculadoras científicas pueden calcular el valor.

4) Reporta un valor de correlación cercano al 1 como indicador de que existe una relación linear positiva entre las dos variables. Un valor mayor a cero que se acerque a 1 da como resultado una mayor correlación positiva entre la información. Conforme una variable aumenta cierta cantidad, la otra aumenta en cantidad correspondiente. La interpretación debe determinarse de acuerdo con el contexto del estudio.

InstruccionesInstrucciones::

Reporta un valor de correlación cercano a -1 como indicador de que hay una relación linear negativa entre las dos variables. Conforme El coeficiente se acerca a -1, las variables se vuelven negativamentemás correlacionadas lo que indica que conforme una variable aumenta, la variable disminuye por una cantidad correspondiente. La interpretación,de nuevo, debe determinarse de acuerdo con el contexto del estudio.

* Interpreta el coeficiente de correlación de acuerdo con el contexto de los datos particulares El valor de correlación es esencialmente un valor arbitrario que debe aplicarse de acuerdo con las variables que se comparan. Por ejemplo, un valor r de 0.912 indica una relación linear positiva muy fuerte entre las dos variables. En un estudio donde se comparan dos variables que normalmente se identifican como relacionadas, estos resultados dan evidencia de que una variable puede afectar de manera positiva a la otra, lo que resulta un caso para mayor investigación entre las dos.

Sin embargo, el mismo valor r en un estudio que compara dos variables donde está probado que tienen una relación linear positiva puede identificar un error en la información u otros problemas potenciales en el diseño experimental.

* Determina la importancia de los resultados. Esto se logra con el uso del Coeficiente de correlación, grados de libertad y una tabla de valores críticos Los grados de libertad se calculan como el número de las dos observacionesCon este valor, identifica el valor crítico correspondiente en la tabla de correlaciónpara una prueba de 0.05 y 0.01 que identifique 95 y 99 por ciento de nivel deConfiabilidad. Compara el valor crítico al coeficiente de correlación previamenteCalculado.

* Dada dos variables, la correlación permite hacer estimaciones del valor de una de ellas conociendo el valor de la otra variable.

* Los coeficientes de correlación son medidas que indican la situación relativade los mismos sucesos respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las 2 variables y en qué medida se relacionan.Son números que varían entre los límites+1 y -1. Su magnitud indica el grado de asociación entre las variables; el valor r = 0 indica que no existe relación entre las variables; los valores( 1 son indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o decrecer X, decrece o crece Y.

Para interpretar el coeficiente de correlación utilizamos la siguiente escala:

ValorValor SignificadoSignificado-1-1 Correlación negativa grande y Correlación negativa grande y

perfecta.perfecta.

-0,9 a -0,99-0,9 a -0,99 Correlación negativa muy alta.Correlación negativa muy alta.

-0,7 a -0,89-0,7 a -0,89 Correlación negativa alta.Correlación negativa alta.

-0,4 a -0,69-0,4 a -0,69 Correlación negativa moderada.Correlación negativa moderada.

-0,2 a -0,39-0,2 a -0,39 Correlación negativa baja.Correlación negativa baja.

-0,01 a -0,19-0,01 a -0,19 Correlación negativa muy baja.Correlación negativa muy baja.

00 Correlación nula.Correlación nula.

0,01 a 0,190,01 a 0,19 Correlación positiva muy baja.Correlación positiva muy baja.

0,2 a 0,390,2 a 0,39 Correlación positiva baja.Correlación positiva baja.

0,4 a 0,690,4 a 0,69 Correlación positiva moderada.Correlación positiva moderada.

0,7 a 0,890,7 a 0,89 Correlación positiva alta.Correlación positiva alta.

0,9 a 0,990,9 a 0,99 Correlación positiva muy alta.Correlación positiva muy alta.

11 Correlación positiva grande y Correlación positiva grande y perfecta.perfecta.

Para datos no agrupados se calcula aplicando la siguiente ecuación:

Para datos agrupados, el coeficiente de Correlación de Pearson se calcula aplicando la siguiente fórmula:

Ejemplo:

El calculo de coeficiente de correlación (r) entre peso y talla de 20 niños varones se muestra. La covarianza, que en este ejemplo es el producto de peso (Kg.) por talla (cm), para que no tenga dimensión y sea un coeficiente, se divide por la desviación típica de X (talla) y por la desviación típica de Y (peso) con lo que obtenemos el coeficiente de correlación de Pearson que en este caso es de 0.885 e indica una importante correlación entre las dos variables. Es evidente que el hecho de que la correlación sea fuerte no implica causalidad. Si elevamos al cuadrado el coeficiente de correlación obtendremos el coeficiente de determinación (r2=0.783) que nos indica que el 78.3% de la variabilidad en el peso se explica por la talla del niño. Por lo tanto existen otras variables que modifican y explican la variabilidad del peso de estos niños. La introducción de más variable con técnicas de análisis multivariado nos permitirá identificar la importancia de que otras variables pueden tener sobre el peso.

Coeficiente de correlación de Spearman.Coeficiente de correlación de Spearman.

Es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.El estadístico ρ viene dado por la expresión:

Donde D es la diferencia entre los correspondientes estadísticos de orden de x-y N es el número de parejas.Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstanciaPara muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de student.

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Ejemplo:

Los datos brutos usados en este ejemplo se ven debajo.

CICI Horas de tv a la semana.Horas de tv a la semana.

106106 77

8686 00

100100 2828

100100 5050

9999 2828

103103 2828

9797 2020

113113 1212

113113 77

110110 1717

El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden (i)' y 'orden (t)‘

Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden (i) =3 ya que ocupa el 3er lugar, ordenado de menor a mayor.Para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría…T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }

Para este caso, el orden sería para cada elemento, respectivamente: orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }

Sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones, así para:7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.528 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 850 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.

CICI H. H. sesem.m.

Orden Orden (i)(i)

Orden (t)Orden (t) dd dd22

106106 77 11 11 00 00

8686 00 22 66 44 1616

100100 2828 33 88 55 2525

100100 5050 4.54.5 1010 5.55.5 30.2530.25

9999 2828 4.54.5 88 3.53.5 12.2512.25

103103 2828 66 88 22 44

9797 2020 77 2.52.5 4.54.5 20.2520.25

113113 1212 88 55 33 99

113113 77 9.59.5 2.52.5 77 4949

110110 1717 9.59.5 44 5.55.5 30.2530.25

Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.

¿Cuándo utilizar la prueba de correlación de rangos de Spearman?El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la saturación de oxígeno en sangre. El coeficiente de correlación mide el grado de asociación entre dos cantidades, pero no mira el nivel de acuerdo o concordancia. Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser 1 y su concordancia ser nula. El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales. No está afectada por los cambios en las unidades de medida.

Bibliografía.

http://www.monografias.com/trabajos85/coeficiente-correlacion-karl-pearson/coeficiente-correlacion-karl-pearson.shtml http://www.ehowenespanol.com/coeficiente-correlacion-pearson-como_84118/ https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017