diapositivas coef. pearson y sperman

17
INSTITUTO UNIVERSITARIO POLITECNICO ¨SANTIAGO MARIÑO¨ SEDE BARCELONA ESCUELA DE INGENIERIA CIVIL COEFICIENTES DE CORRELACION DE PEARSON Y DE SPERMAN Realizado Por: Br. Velásquez H., Pablo J. C.I.: 21.081.688

Upload: pablo-velasquez

Post on 22-Jan-2018

191 views

Category:

Engineering


1 download

TRANSCRIPT

Page 1: Diapositivas coef. pearson y sperman

INSTITUTO UNIVERSITARIO POLITECNICO

¨SANTIAGO MARIÑO¨

SEDE BARCELONA

ESCUELA DE INGENIERIA CIVIL

COEFICIENTES DE CORRELACION

DE PEARSON Y DE SPERMAN

Realizado Por:

Br. Velásquez H., Pablo J.

C.I.: 21.081.688

Page 2: Diapositivas coef. pearson y sperman

Dado dos variables, la correlación permite hacer estimaciones del valor de una de ellas conociendo el valor

de la otra variable.

Los coeficientes de correlación son medidas que indican la situación relativa de los mismos sucesos

respecto a las dos variables, es decir, son la expresión numérica que nos indica el grado de relación existente entre las 2

variables y en qué medida se relacionan. Son números que varían entre los límites +1 y -1. Su magnitud indica el grado

de asociación entre las variables; el valor r = 0 indica que no existe relación entre las variables; los valores (1

son indicadores de una correlación perfecta positiva (al crecer o decrecer X, crece o decrece Y) o negativa (Al crecer o

decrecer X, decrece o crece Y).

Page 3: Diapositivas coef. pearson y sperman

En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el coeficiente de

correlación de Pearson se simboliza con la letra, siendo la expresión que nos permite calcularlo:

Donde:

σxy es la covarianza de (X,Y)

σx es la desviación típica de la variable X

σy es la desviación típica de la variable Y

De manera análoga podemos calcular este coeficiente sobre un estadístico menstrual, denotado rxy a:

Page 4: Diapositivas coef. pearson y sperman

1. El coeficiente de correlación de Pearson puede tomar valores entre -1 y 1.

2. La correlación de una variable con ella misma siempre es igual a 1.

3. El valor 0 indica ausencia de covariación lineal, pero NO si la covariación es de tipo no lineal. (Ver ejemplo en el

apartado de relaciones no lineales).

→ Si r < 0 Hay correlación negativa : las dos variables se correlacionan en sentido inverso. A valores altos de una de

ellas le suelen corresponder valor bajos de la otra y viceversa. Cuánto más próximo a -1 esté el coeficiente de

correlación más patente será esta covariación extrema. Si r= -1 hablaremos de correlación negativa perfecta lo que

supone una determinación absoluta entre las dos variables ( en sentido inverso): Existe una relación funcional perfecta

entre ambas(una relación lineal de pendiente negativa).

→ Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido directo. A valores altos de una le

corresponden valores altos de la otra e igualmente con los valores bajos. Cuánto más próximo a +1 esté el coeficiente de

correlación más patente será esta covariación. Si r = 1 hablaremos de correlación positiva perfecta lo que supone una

determinación absoluta entre las dos variables (en sentido directo):Existe una relación lineal perfecta ( con pendiente

positiva).

→Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse ningún sentido de covariación.

Propiedad importante: Si dos variables son independientes estarán incorrelacionadas aunque el resultado recíproco no

es necesariamente cierto.

Page 5: Diapositivas coef. pearson y sperman

Valor Significado

-1 Correlación negativa grande y perfecta

-0,9 a -0,99 Correlación negativa muy alta

-0,7 a -0,89 Correlación negativa alta

-0,4 a -0,69 Correlación negativa moderada

-0,2 a -0,39 Correlación negativa baja

-0,01 a -0,19 Correlación negativa muy baja

0 Correlación nula

0,01 a 0,19 Correlación positiva muy baja

0,2 a 0,39 Correlación positiva baja

0,4 a 0,69 Correlación positiva moderada

0,7 a 0,89 Correlación positiva alta

0,9 a 0,99 Correlación positiva muy alta

1 Correlación positiva grande y perfecta

Otra forma para interpretar el coeficiente de correlación, es mediante la siguiente escala:

Page 6: Diapositivas coef. pearson y sperman

− El valor del coeficiente de correlación es

independiente de cualquier unidad usada

para medir variables.

− Mientras mas grande sea la muestra mas

exacta será la estimación.

− Requiere supuestos acerca de la

naturaleza o formas de las poblaciones

afectadas.

− Requiere que las dos variables hayan ido

medidas hasta un nivel cuantitativo

continuo y que la distribución de ambas

sea semejante a la de la curva normal.

Page 7: Diapositivas coef. pearson y sperman

Identifica el dependiente variable que se probará entre dos

observaciones derivadas independientemente. Uno de los requisitos es que las

dos variables que se comparan deben observarse o medirse de manera

independiente para eliminar cualquier resultado sesgado.

→ Para cantidades grandes de información, el cálculo puede ser tedioso.

→ Reportar un valor de correlación cercano a 0 como un indicador de que no hay

relación lineal entre las dos variables. Reporta un valor de correlación cercano al

1 como indicador de que existe una relación lineal positiva entre las dos variables.

Un valor mayor a cero que se acerque a 1 da como resultad una mayor

correlación positiva entre la información.

→ Reportar un valor de correlación cercano a -1 como indicador de que hay una

relación lineal negativa entre las dos variables.

→ Interpretar el coeficiente de correlación de acuerdo con el contexto de los

datos particulares. El valor de correlación es esencialmente un valor arbitrario que

debe aplicarse de acuerdo con las variables que se comparan.

→ Determina la importancia de los resultados. Esto se logra con el uso del

coeficiente de correlación, grados de libertad y una tabla de valores críticos del

coeficiente de correlación. Los grados de libertad se calculan con el número de

las dos observaciones menos 2.

Page 8: Diapositivas coef. pearson y sperman

Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de

correlación que existe entre ellas mediante el coeficiente de PEARSON.

SOLUCIÓN:

1. Se calcula la media aritmética: 2. Se llena la siguiente tabla:

X 18 17 15 16 14 12 9 15 16 14 16 18 SX =180

Y 13 15 14 13 9 10 8 13 12 13 10 8 SY= 138

Page 9: Diapositivas coef. pearson y sperman

3. Se aplica la fórmula:

4. Por último, obtenemos una correlación moderada.

Page 10: Diapositivas coef. pearson y sperman

En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la

asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y

reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión:

Donde, D es la diferencia entre los correspondientes estadísticos de orden de x - y; N es el número de

parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son

pocos, se puede ignorar tal circunstancia. Para muestras mayores de 20 observaciones, podemos utilizar la siguiente

aproximación a la distribución t de Student:

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson.

Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación

pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos

ordenaciones de una distribución normal bivariante.

Page 11: Diapositivas coef. pearson y sperman

En la interpretación de la prueba estadística correlación de Spearman, es necesario tener en cuenta el

objetivo de la investigación que se define en primera instancia y la relevancia de estas relaciones en el fenómeno clínico

que se estudia, no depende en nuestras conclusiones solamente de la cifra matemática obtenida, sino basarnos en

experiencias científicas del tema de investigación, para evitar que interfiera la casualidad. La explicación de un

coeficiente de correlación como medida de la intensidad de la relación lineal entre dos variables es puramente

matemática y libre de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan a crecer o

decrecer juntas no indica que la una tenga un efecto directo o indirecto sobre la otra. Ambas pueden estar influidas por

otras variables de modo que se origine una fuerte relación matemática. La interpretación de rho depende principalmente

de los detalles de la investigación y la experiencia propia en el tema de estudio. La experiencia previa sirve

generalmente como base de comparación para determinar si un coeficiente de correlación es digno de ser mencionado.

Diversos autores expresan escalas de interpretación, que se ofrecen a continuación:

ESCALA 1.

El coeficiente de correlación oscila entre –1 y +1, el valor 0 que indica que no existe asociación lineal entre

las dos variables en estudio.

ESCALA 2.CORRELACION VALOR

Correlación negativa

perfecta-1

Correlación negativa

fuerte moderada débil-0,5

Ninguna correlación 0

Correlación positiva

moderada fuerte0,5

Correlación positiva

perfecta1

Page 12: Diapositivas coef. pearson y sperman

CORRELACION R

Perfecta 1

Excelente 0.9 < R < 1

Buena 0.8 < R < 0.9

Regular 0.5 < R < 0.8

Mala R <0.5

ESCALA 3. ESCALA 4.

CORRELACION R

Escasa o nula 0 – 0.25

Débil 0.26 – 0.50

Entre moderada y

fuerte0.51 – 0.75

Entre fuerte y perfecta 0.76 – 1

A modo de conclusión, recomendamos que al interpretar la prueba de correlación de rangos de Spearman debemos

tener en cuenta que:

La interpretación del coeficiente rho de Spearman concuerda en valores próximos a 1; indican una correlación fuerte y positiva.

Valores próximos a –1 indican una correlación fuerte y negativa. Valores próximos a cero indican que no hay correlación lineal.

Puede que exista otro tipo de correlación, pero no lineal. Los signos positivos o negativos solo indican la dirección de la relación; un

signo negativo indica que una variable aumenta a medida que la otra disminuye o viceversa, y uno positivo que una variable

aumenta conforme la otra también lo haga disminuye, si la otra también lo hace.

El personal de salud que investiga debe estar atento a correlaciones que se encuentran en los valores aproximados a +0,95 o

superiores, pues en el campo biológico y en especial con datos humanos, correlaciones tan altas, son excesivamente buenas para

ser ciertas. Si se obtienen valores mayores o menores que 1, los cálculos deben ser revisados pues se incurrió en un error de

proceso.

Una vez obtenido el coeficiente de correlación, pueden utilizarse pruebas estadísticas y la construcción de intervalos de

confianza para probar su significación.

La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente con la relevancia clínica del fenómeno que

se estudia, ya que coeficientes de 0.5 a 0.7 tienden a ser significativos en muestras pequeñas.

La estimación del coeficiente de determinación (r 2) nos muestra el porcentaje de la variabilidad de los datos que se explica por

la asociación entre las dos variables

Page 13: Diapositivas coef. pearson y sperman

− No está afectada por los cambios en las

unidades de medidas.

− Al ser una técnica no paramétrica, es libre

de distribución probabilística.

− Es recomendable usarlo cuando los datos

presentan valores extremos, ya que

dichos valores afectan mucho el

coeficiente de correlación de Pearson, o

ante distribuciones no normales.

− R no debe ser utilizado para decir algo

sobre la relación entre causa y efecto.

Page 14: Diapositivas coef. pearson y sperman

Para aplicar el coeficiente de correlación de Spearman se requiere que

las variables estén medidas al menos en escala ordinal, es decir, de forma que las

puntuaciones que las representan, puedan ser colocadas en dos series ordenadas.

→ A veces, este coeficiente es denominado por la letra griega ρs (rho), aunque

cuando nos situamos en el contexto de la estadística descriptiva se emplea la notación

rs.

→ La fórmula de cálculo para rs puede derivarse de la utilizada en el caso de rxy;

bastaría aplicar el coeficiente de correlación de Pearson a dos series de puntuaciones

ordinales, compuestas cada una de ellas por la n primeros números naturales.

→ A partir de un conjunto de n puntuaciones, la fórmula que permite el cálculo de la

correlación entre dos variables X e Y, medidas al menos en escala ordinal, es la

siguiente: donde D es la distancia existente entre los puestos que ocupan las

puntuaciones correspondientes a un sujeto y cuando estas puntuaciones han sido

ordenadas para X y para Y.

→El coeficiente de correlación de Spearman se encuentra siempre comprendido entre

los valores -1 y 1. Es decir, -1 < rs < 1.

→ Cuando todos los sujetos se sitúan en el mismo puesto para la variable X y para la

variable Y, el valor de rs es 1. Si ocupan valores opuestos, es decir, al primer sujeto en

X le corresponde el último lugar en Y, al segundo en X le corresponde el penúltimo en

Y, etc., entonces el valor de rs es -1.

Page 15: Diapositivas coef. pearson y sperman

Los datos usados en este ejemplo, se muestran a continuación:

CI

Horas de

TV a la

semana

106 7

86 0

100 28

100 50

99 28

103 28

97 20

113 12

113 7

110 17

El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas

'orden(i)' y 'orden(t)‘. Para el orden i, se corresponderán con el número de fila del cuadro,

para 99, orden(i) =3 ya que ocupa el 3er lugar, ordenado de menor a mayor. Para el orden

t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer

otro cuadro, la secuencia ordenada quedaría:

T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }

para este caso, el orden sería para cada elemento, respectivamente:

orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }

sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:

- 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5

- 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8

- 50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10

Después, se crean dos columnas más, una columna "d" que muestra las

diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la

columna "d" al cuadrado.

Page 16: Diapositivas coef. pearson y sperman

Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas

de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que

les corresponderían si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que

esos valores pueden ser sustituidos en la fórmula.

De lo que resulta: ρ = -0.187878787879.

CI (i)Horas de TV a la

semana (t)Orden(i) Orden(t) d d2

86 0 1 1 0 0

97 20 2 6 4 16

99 28 3 8 5 25

100 50 4.5 10 5.5 30.25

100 28 4.5 8 3.5 12.25

103 28 6 8 2 4

106 7 7 2.5 4.5 20.25

110 17 8 5 3 9

113 7 9.5 2.5 7 49

113 12 9.5 4 5.5 30.25

Page 17: Diapositivas coef. pearson y sperman

https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson

https://www.uv.es/ceaces/base/descriptiva/coefcorre.htm

http://www.uv.es/webgid/Descriptiva/31_coeficiente_de_pearson.html

http://www.monografias.com/trabajos85/coeficiente-correlacion-karlpearson/coeficiente-correlacion-karl-pearson.shtml

https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017