correlación de pearson y de sperman

13
Instituto Politécnico Santiago Mariño M.P.P. Para La Educación Escuela 42 Ing. civil Materia: Estadística Integrante: Edelmira Pernett Ci: 24862498 Caracas, Abril 2016. los coeficientes de correlación de Pearson y de Spearman

Upload: edelmirapernett

Post on 18-Jan-2017

130 views

Category:

Internet


1 download

TRANSCRIPT

Page 1: correlación de Pearson y de Sperman

Instituto Politécnico Santiago MariñoM.P.P. Para La Educación

Escuela 42 Ing. civilMateria: Estadística

Integrante: •Edelmira Pernett Ci: 24862498

Caracas, Abril 2016.

los coeficientes de correlación de Pearson y

de Spearman

Page 2: correlación de Pearson y de Sperman

Son coeficientes de correlaciones para variables medidas en escalas por intervalos o de razón. Es el coeficiente de correlación de Pearson. Se define el coeficiente para una población y se hacen cálculos para obtener tamaños de muestras necesarios para hacer estimaciones por intervalos de confianza de este coeficiente a nivel poblacional, con un bajo nivel de errores y una alta precisión. De igual forma se determina el tamaño de muestra necesario para hacer dócimas de hipótesis sobre la significación del coeficiente. Con el propósito de ilustrar estos aspectos, se presentan aplicaciones usando el coeficiente de correlaciones muestral de Pearson.

Coeficiente de correlación de

Pearson

Page 3: correlación de Pearson y de Sperman

Coeficiente de correlación de Pearson para una población.

Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente de correlaciones de Pearson. Es llamado así en homenaje a Karl Pearson. Las dos variables son designadas por X e Y.

El coeficiente de correlación poblacional de Pearson para las variables X e Y se define así:

Este coeficiente es una medida de la relación lineal entre las dos variables. El valor de ( está dentro del intervalo [-1, +1]. El valor -1 representa una perfecta correlación negativa mientras que el valor +1 representa una perfecta correlación positiva. El valor 0 representa falta de correlación. Cuando las variables X e Y son independientes, el numerador se anula y el coeficiente de correlación poblacional tiene el valor cero. En cambio una correlación nula no implica la independencia de variables.

Page 4: correlación de Pearson y de Sperman

Estimación puntual del coeficiente de correlación poblacional de Pearson por medio de una muestra aleatoria simple:

En este fenómeno estudiado se realizan observaciones con el propósito de tener una muestra M. Sea n el número de elementos muestrales.Distribuciones muestrales asociadas al coeficiente de correlaciones de Pearson :

Para el caso de variables aleatorias con distribución normal bivariada, Fisher encontró para una muestra de tamaño n, la distribución muestral de r. Este estimador tiene función de densidad:

Page 5: correlación de Pearson y de Sperman

Las dócimas asociadas al coeficiente de correlación de Pearson.

Se desea estudiar las correlaciones entre las tensiones arteriales "máximas y mínimas", y la edad. Usando la base de datos Mercury de la UFMT. Se seleccionan 224 personas cuya distribución por edades aparece en el siguiente gráfico:

Page 6: correlación de Pearson y de Sperman

Los coeficientes de correlaciones entre las variables estudiadas

aparecen en la tabla:Tensión arterial máxima Tensión arterial mínima Frecuencia cardiaca Edad

Tensión arterial máxima

Correlación de Pearson

1 ,794(**) -,082 ,579(**)

Significación bilateral

,000 ,221 ,000

n 224 224 224 224Tensión arterial mínima

Correlación de Pearson

,794(**) 1 -,114 ,605(**)

Significación bilateral

,000 ,088 ,000

n 224 224 224 224Frecuencia cardiaca

Correlación de Pearson

-,082 -,114 1 -,074

Significación bilateral

,221 ,088 ,272

n 224 224 224 224

EdadCorrelación de Pearson

,579(**) ,605(**) -,074 1

Significación bilateral

,000 ,000 ,272 0N 224 224 224 224

Page 7: correlación de Pearson y de Sperman

•El coeficiente de correlación debe ser seleccionado en base a las escalas de medidas usadas en cada una de las variables.

• La determinación del tamaño de muestra en las de tablas de contingencias varia según sea el objetivo:

•a) Determinar probabilidades de incidencias.

•b) Docimar independencias entres dos variables.

•c) Analizar la asociación entre las variables.

Características.

Ventajas •Requiere datos de cantidad solo del periodo base.

Desventajas• No refleja cambios en los patrones de compra conforme pasa el tiempo.

Page 8: correlación de Pearson y de Sperman

Coeficiente de correlación de Spearman

Lo que tenemos ahora son 2 sucesiones de valores ordinales.

El coeficiente de Spearman es un caso especial del coeficiente de correlación de Pearson aplicada a dos series de los n primeros números naturales (cuando no hay empates; si hay –muchos- empates hay otra fórmula.

2

12

61

1

n

ii

s

dr

n n

Es la diferencia entre el valor ordinal en X y el valor ordinal en Y del sujeto i

id

Page 9: correlación de Pearson y de Sperman

Coeficiente de correlación de Spearman (propiedades)Primera.

•Se encuentra acotado, como el coeficiente de Pearson entre -1 y +1.

•Un coeficiente de Spearman de +1 quiere decir que el que es primero en X es primero en Y, el que es segundo en X es segundo en I, etc.

•Un coeficiente de Spearman de -1 quiere decir que el que es primero en X es último en Y, el segundo en X es el penúltimo en Y, etc.Segunda.• Su cálculo es muy sencillo (más que el del coeficiente de correlación de Pearson). No obstante, con los ordenadores y un programa estadístico, esto es irrelevante estos días.

Page 10: correlación de Pearson y de Sperman

Esta prueba es útil para medir el grado de asociación entre dos variables que sean al menos del tipo ordinal. Consiste en medir dos variables en cada uno de los individuos de una muestra y posteriormente determinar el rango de cada individuo en cada variable, en donde al menor valor le corresponde el 1, al siguiente el 2, etc. Al coeficiente de correlación de la muestra se le conoce como rs, el cual se calcula de la siguiente manera:

rs = 1- (6Sdi2) / (N3 -N)

En el caso de que en alguna variable haya rangos empatados, a cada uno de ellos se les asigna el promedio de los que les tocarían si no estuvieran empatados. Si estos empates son numerosos, la fórmula requiere de un ajuste, mismo que se puede consultar en el libro de Siedney Siegel (18). De igual manera, si la muestra es de más de 30 individuos, se puede hacer un ajuste a la distribución t (véase la misma obra para estos casos).

Page 11: correlación de Pearson y de Sperman

Ejemplo:Supóngase que se desea conocer si la antigüedad en una empresa y la edad están estadísticamente relacionados. Para esto, se toman al azar 10 empleados a los que se les piden estos dos datos:  Antiguidade    Edad      Rangos      

di      di2                   Ho: r = 0 

        7             31         2.5    3     -0.5    0.25                H1: r > 0       22             40         7       8     -1       1       31             55       10     10       0       0                    a =0.05       15             34         6       5      1       1         3             22         1       1      0       0           rs = 1- 6(8.5) / (1000 -10)       12             32         5       4      1       1               = 0.949       25             39         8       7      1       1       30             46         9       9      0       0         7             28         2.5    2      0.5    0.25       10             35         4       6     -2       4                                                             ___                                                             8.5

En la tabla xi puede verse que el valor crítico para N = 10 y 0.95 de confianza (una cola) vale .564, menor que el calculado, por lo que la hipótesis nula se debe rechazar y aceptar que si hay correlación significativa entre antigüedad y edad.

Page 12: correlación de Pearson y de Sperman

•La aproximación moderna al problema de averiguar si un valor observado de ρ es significativamente diferente de cero (siempre tendremos -1 ≤ ρ ≤ 1).

• Es calcular la probabilidad de que sea mayor o igual que el ρ esperado, dada la hipótesis nula, utilizando un test de permutación.

•Esta aproximación es casi siempre superior a los métodos tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informática no sea suficiente para generar permutaciones (poco probable con la informática moderna), o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad).

Características

Page 13: correlación de Pearson y de Sperman

¿Cuando utilizar la correlación de Pearson o Spearman?

+ La de Pearson se usa cuando los datos se miden en escalas de razón o proporción, por ejemplo: estaturas, edades, dinero.

+ La de Spearman se usa cuando los datos son rangos que miden el orden en que los datos quedan, por ejemplo> calificación de un servicio de 1 a 10.