paola

20

Upload: paola-fraga

Post on 12-Feb-2017

50 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: Paola
Page 2: Paola

1. Introducción. 2. Tablas y gráficas bivariadas.3. Variables cuantitativas.

3.1. Covarianza.3.2. Coeficiente de correlación de

Pearson.ventajas y desventajas 3.3. Matriz de varianzas/covarianzas

y matriz de correlaciones.4. Variables semicuantitativas: Coeficiente de Spearman.ventajas y desventajas.

Page 3: Paola

.1 Introducción

Hasta ahora nos hemos centrado en medidas de tendencia central, variabilidad, asimetría y curtosis de una única variable.

No obstante, en la práctica es común examinar dos o más variables conjuntamente (v.g., relación entre inteligencia y rendimiento, etc.)

En este tema nos centraremos en la relación entre 2 variables (a partir de n observaciones apareadas) y calcularemos (en particular) un índice que nos dará el grado de relación/asociación entre ambas variables: el coeficiente de correlación lineal (de Pearson)

Page 4: Paola

.2 Representación gráfica de una relación

inteligencia

rend

imie

nto

rend

imie

nto

rend

imie

nto

inteligenciainteligencia

Relación lineal positiva Relación lineal negativaSin relación

Page 5: Paola

Representación gráfica de una relación

rend

imie

nto

rend

imie

nto

inteligenciainteligencia

Relación lineal Relación no lineal

El coeficiente de correlación de Pearson mide relación LINEAL.

Page 6: Paola

Representación gráfica de una relación (3)

inteligencia

rend

imie

nto

rend

imie

nto

rend

imie

nto

inteligenciainteligencia

Relación lineal perfecta (casi perfecta) Relación lineal débilRelación lineal

fuerte/moderada

Ahora necesitamos un índice que nos informe tanto del grado en que X e Y están relacionadas, y si la relación es positiva o negativa

Page 7: Paola

5.3 Covarianza e índice de correlación de Pearsonre

ndim

ient

o

inteligencia

Observad que cuando la relación lineal es positiva, cuando las puntuaciones diferenciales de X son positivas, las puntuaciones diferenciales de Y suelen ser positivas.

inteligencia

rend

imie

nto

Observad que cuando la relación lineal es negativa, cuando las puntuaciones diferenciales de X son positivas, las puntuaciones diferenciales de Y suelen ser negativas.

Caso 1

Caso 2

Page 8: Paola

Covarianza

La covarianza aprovecha esta característica señalada en la transparencia anterior (al emplear el producto de las puntuaciones diferencias de X e Y). He aquí la fórmula:

1

n

i ii

xy

X X Y Ys

n

En el caso 1, la covarianza será un valor positivo, y en el caso 2, la covarianza será un valor negativo. Por tanto la covarianza nos da una idea de si la relación entre X e Y es positiva o negativa.

Problema: la covarianza no en un índice acotado (v.g., cómo interpretar una covarianza de 6 en términos del grado de asociación), y no tiene en cuenta la variabilidad de las variables. Por eso se emplea el siguiente índice....

Page 9: Paola

Coeficiente de correlación (lineal) de Pearson

El coeficiente de correlación de Pearson parte de la covarianza:

1

n

i ii

xyx y

X X Y Yr

n s s

xyxy

x y

sr

s s

Page 10: Paola

Coeficiente de correlación (lineal) de Pearson

Propiedad 1. El índice de correlación de Pearson no puede valer menos de -1 ni más de +1.

Un índice de correlación de Pearson de -1 indica una relación lineal negativa perfecta

Un índice de correlación de Pearson de +1 indica una relación lineal positiva perfecta.

Un índice de correlación de Pearson de 0 indica ausencia de relación lineal. (Observad que un valor cercano a 0 del índice no implica que no haya algún tipo de relación no lineal: el índice de Pearson mide relación lineal.)

Page 11: Paola

Coeficiente de correlación (lineal) de Pearson

Propiedad 2. El índice de correlación de Pearson (en valor absoluto) no varía cuando se transforman linealmente las variables.

Por ejemplo, la correlación de Pearson entre la temperatura (en grados celsius) y el nivel de depresión es la misma que la correlación entre la temperatura (medida en grados Fahrenheit) y el nivel de depresión.

Evidentemente, el índice de correlación de Pearson es el mismo entre las puntaciones directas de X e Y, o entre las puntuaciones diferenciales de X e Y, o entre las puntuaciones típicas de X e Y. (Recordad que las puntuaciones diferenciales y las puntuaciones típicas son transformaciones lineales de las puntuaciones directas.)

Page 12: Paola

Coeficiente de correlación (lineal) de Pearson

Interpretación

Hemos de tener en cuenta qué es lo que estamos midiendo para poder interpretar cuán grande es la relación entre las variables bajo estudio. En muchos casos, depende del área bajo estudio.

rend

imie

nto

inteligencia

En todo caso, es muy importante efectuar el diagrama de dispersión. Por ejemplo, en el caso de la izquierda, es claro que no hay relación entre inteligencia y rendimiento. Sin embargo, si calculamos el índice de correlación de Pearson nos dará un valor muy elevado, causado por la puntuación atípica en la esquina superior derecha.

Page 13: Paola

Coeficiente de correlación (lineal) de Pearson desventajas y ventajas

Es importante indicar que “CORRELACIÓN NO IMPLICA CAUSACIÓN”. El que dos variables estén altamente correlaciones no implica que X causa Y ni que Y causa X.

(Esa es una de las razones empleadas por las tabaqueras en el tema de la correlación entre cáncer de pulmón y el hecho de fumar.)

Page 14: Paola

Coeficiente de correlación (lineal) de Pearson ventajas

Es importante indicar que el coeficiente de correlación de Pearson puede verse afectado por la influencia de terceras variables.

Por ejemplo, si fuéramos a un colegio y medimos la estatura y pasamos una prueba de habilidad verbal, saldrá que los más altos también tienen más habilidad verbal...claro, que eso puede ser debido simplemente a que en el colegio los niños más altos serán mayores en edad que los más bajos.

Habi

lidad

num

éric

a

Estatura

6 años8 a

10 a

12 a

14 a

Si se parcializa esta “tercera” variable (mediante “correlación parcial”, que ya veremos más adelante), difícilmente habrá una relación de importancia entre estatura y habilidad numérica.

Hay muchos casos en que es la tercera variable la causante de una alta relación entre X e Y (y ello muchas veces es difícil de identificar)

Page 15: Paola

Coeficiente de correlación (lineal) de Pearson

Por otra parte, el valor del coeficiente de Pearson depende en parte de la variabilidad del grupo.

Rend

imie

nto

inteligencia

CI bajo CI alto

Si efectuamos el coeficiente de Pearson entre inteligencia y rendimiento con todos los sujetos, el valor del coeficiente de Pearson será bastante elevado.

Sin embargo, si empleamos únicamente los individuos con CI bajo (o CI alto) y calculamos la correlación con Rendimiendo, el valor del coeficiente de Pearson será claramente menor.

Un grupo heterogéneo daría pues un mayor grado de relación entre variables que un grupo homogéneo.

Page 16: Paola

Coeficiente de correlación de Spearman

Lo que tenemos ahora son 2 sucesiones de valores ordinales.

El coeficiente de Spearman es un caso especial del coeficiente de correlación de Pearson aplicada a dos series de los n primeros números naturales (cuando no hay empates; si hay –muchos- empates hay otra fórmula

2

12

61

1

n

ii

s

dr

n n

id es la diferencia entre el valor ordinal en X y el valor ordinal en Y del sujeto i

Page 17: Paola

PROCEDIMIENTO:Los datos brutos usados en este ejemplo se ven debajo. El primer paso es ordenar los datos de la primera

columna. Se agregan dos columnas 'orden(i)' y 'orden(t)'

Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor

para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría

T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }

Page 18: Paola

para este caso, el orden sería para cada elemento, respectivamente:

orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }

sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:

7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5

28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8

50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente: Nótese como el número

de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.Los valores de la columna d2 pueden ser sumados para averiguar . El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.

De lo que resulta

Page 19: Paola

Coeficiente de correlación de Sperman (ventajas y desventajas )

Primera. Se encuentra acotado, como el coeficiente de Pearson entre -1 y +1.

Un coeficiente de Spearman de +1 quiere decir que el que es primero en X es primero en Y, el que es segundo en X es segundo en I, etc

Un coeficiente de Sperman de -1 quiere decir que el que es primero en X es último en Y, el segundo en X es el penúltimo en Y, etc.

Segunda. Su cálculo es muy sencillo (más que el del coeficiente de correlación de Pearson). No obstante, con los ordenadores y un programa estadístico, esto es irrelevante estos días...

Page 20: Paola

•Best, Joel (2001). Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists. University of California Press. ISBN 0-520-21978-3. •Desrosières, Alain (2004). La política de los grandes números. Ed. Melusina. ISBN 84-933273-5-2. •Hacking, Ian (1990). The Taming of Chance. Cambridge University Press. ISBN 0-521-38884-8. •Lindley, D. V. (1985). Making Decisions (2.ª edición edición). John Wiley & Sons. ISBN 0-471-90808-8. •Stigler, Stephen M. (1990). The History of Statistics: The Measurement of Uncertainty before 1900. Belknap Press/Harvard University Press. ISBN 0-674-40341-X. •Tijms, Henk (2004). Understanding Probability: Chance Rules in Everyday life. Cambridge University Press. ISBN 0-521-83329-9. •Volle, Michel (1984). Le métier de statisticien (2.ª ed. edición). Económica. ISBN 2-7178-0824-8.