coeficiente de correlación de pearson y sperman

18
República Bolivariana de Venezuela Ministerio del Poder Popular para la Educación I.U.P ¨Santiago Mariño¨ Profesor. Bachiller: Beltrán Pedro Díaz Deivis Pearson y Spearman

Upload: kirito777

Post on 14-Aug-2015

118 views

Category:

Presentations & Public Speaking


3 download

TRANSCRIPT

República Bolivariana de VenezuelaMinisterio del Poder Popular para la Educación

I.U.P ¨Santiago Mariño¨

Profesor. Bachiller:

Beltrán Pedro Díaz Deivis

CI-24827126

Pearson y Spearman

Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson o r es una prueba estadística que permite analizar la relación entre dos variables medidas en un nivel por intervalos o de razón, donde r mide el grado de asociación lineal entre dos variables X e Y. No se trata de una prueba que evalúa causalidad. El coeficiente r de Pearson se estima de acuerdo a la siguiente fórmula:

El coeficiente r de puede variar de -1 a 1, donde el signo indica la dirección de la correlación y el valor numérico, la magnitud de la correlación. En este contexto se resumen algunos criterios de interpretación:-1,00 = Correlación negativa perfecta

-0,90 = Correlación negativa muy fuerte

-0,75 = Correlación negativa considerable

-0,50 = Correlación negativa media

-0,10 = Correlación negativa débil

0,00  = No existe correlación lineal alguna entre las variables

0,10  = Correlación positiva débil

0,50  = Correlación positiva media

 0,75 = Correlación positiva considerable

 0,90  = Correlación positiva muy fuerte

1,00  = Correlación positiva perfecta

A continuación se presentan algunos ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación de Pearson (poblacional):

Ejemplo: Una empresa comercial tiene establecimientos en varias ciudades de Chile. El gerente comercial planea lanzar al aire un anuncio comercial por radio en las estaciones locales, al menos dos veces antes de una promoción (liquidación) que empezará el Sábado y terminará el Domingo. Planea tener las cifras de las ventas de grabadoras de vídeos (Blu-Ray) del Sábado y Domingo en sus diferentes locales y compararlas con el número de veces que apareció el comercial en la radio. El objetivo fundamental de la investigación es determinar si existe relación entre el número de veces que se transmitió el anuncio y las ventas de sus productos. Los datos son:

Se desea responder las siguientes interrogantes:

1. ¿Cuál es la variable dependiente?. La variable dependiente son las Ventas.

2. Trace el diagrama o gráfico de dispersión.

3. ¿Parece haber alguna relación entre X e Y?. Si existe una fuerte correlación positiva.

4. Determine el coeficiente de correlación. Para ello utilizaremos la herramienta de Análisis de Datos la cual se encuentra disponible en el menú de Datos de Excel. Luego seleccionamos Regresión según se observa a continuación:

En las opciones de regresión seleccionamos los datos de Ventas de Sábado y Domingo como Rango Y de entrada (variable dependiente) y los datos del N° de Anuncios corresponderá al Rango X de entrada(variable independiente). Al seleccionar Aceptar se obtienen las estadísticas de la regresión donde el coeficiente de correlación de Pearson o r es de 0,93 (aproximado) y en consecuencia el coeficiente de determinación r² es de r²=(0,929516)²=0,864.

Notar que un procedimiento alternativo para obtener el coeficiente de determinación r² es mediante la incorporación de una línea de tendencia lineal en el diagrama de dispersión tal cual abordamos en el artículo.

5. Evalúe la intensidad de la relación entre X e Y. 0,93 indica una correlación positiva fuerte entre el número de veces que sale publicado el anuncio, y las ventas.

Ventajas*Es apropiada para examinar la relación entre datos cuantificables significativos.

*Brinda piezas vitales de información y determina si la relación es positiva o negativa

Desventajas*'R' no debe ser utilizado para decir algo sobre la relación entre causa y efecto.

*Los coeficientes de correlación más utilizados sólo miden una relación lineal.

VentajasY

desventajas

Coeficiente de correlación de Spearman

Es un número entre -1 y 1 que representa la fuerza de la relación entre dos variables en un conjunto de datos. Un coeficiente de -1 indica que hay una relación perfectamente inversa entre los datos. Un coeficiente de 1 indica que hay una relación positiva perfecta entre los datos. Para calcular el coeficiente, se necesita un conjunto de datos con dos variables cuya relación deseas probar.

Ejemplo:Los datos brutos usados en este ejemplo se

ven debajo:

CI Horas de TV a la semana

106 7

86 0

100 28

100 50

99 28

103 28

97 20

113 12

113 7

110 17

El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t). Para el orden i, se corresponderán con el numero de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3er lugar, ordenado de menor a mayor para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría: T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 } para este caso, el orden sería para cada elemento, respectivamente:orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 } sin embargo, el valor de orden esta dado por el valor promedio de sus posiciones, así para: 7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5, 28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8, 50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10. Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.

CI (i)Horas de TV a la semana (t)

orden(i) orden(t) d d2

86 0 1 1 0 097 20 2 6 4 1699 28 3 8 5 25100 50 4.5 10 5.5 30.25100 28 4.5 8 3.5 12.25103 28 6 8 2 4106 7 7 2.5 4.5 20.25110 17 8 5 3 9113 7 9.5 2.5 7 49113 12 9.5 4 5.5 30.25

Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado. Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran. Los valores de la columna d2 pueden ser sumados para averiguar:

El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula:

De lo que resulta :

Ventajas*No se asume relación lineal entre las variables.

*No se asume una distribución normal bivariada.

*Es mas robusto.

Desventajas*Perdida de información.

*La eficiencia es de un 91%.

VentajasY

desventajas

Enfoque de Pearson y Spearman

Estos coeficientes también son apropiados para evaluar la relación entre variables ordinales representadas en tablas de contingencia. Los métodos de correlación de Pearson y la información derivadas de análisis matriciales Spearman son técnicas bivariadas que se emplean con propiedades del álgebra lineal, que permiten en el campo multivariado, en situaciones donde el establecer similaridades o disimilaridades entre las variables e individuos representados en dimensiones de menor valor, generalmente en planos o cubos (segunda y tercera dimensión) para esclarecer la variabilidad conjunta expresada en factores ortogonales que permiten tipificar lo que sucede con los datos. 

Bibliografíahttp://www.gestiondeoperaciones.net/estadistica/como-se-relaciona-el-coeficiente-de-correlacion-de-pearson-r-y-el-coeficiente-de-determinacion-r-cuadrado-r%C2%B2/

https://explorable.com/es/la-correlacion-estadistica

https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

http://www.scielo.org.co/scielo.php?pid=S0120-06902007000200010&script=sci_arttext