varianza y covarianza. 2 varianza 3 existen formas de sintetizar conjuntos de puntuaciones, las 2...
TRANSCRIPT
Varianza y Covarianza
2
VARIANZA
3
Existen formas de sintetizar conjuntos de puntuaciones, las 2 más usadas son: la media y la varianza
Población Muestra
SímbolosMedia de la población: μ
Varianza poblacional: σ
Media de la muestra:
Varianza de la muestra:
X
Observe que se utilizan símbolos griegos cuando se hace referencia a la media o a la varianza poblacionales y letras cuando son muestrales
2s
4
La media aritmética o simplemente promedio (también llamada media muestral ya que generalmente se calcula en relación a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces
n
x
n
xxxX
n
ii
n
121 ...
Es el centro de gravedad de toda la distribución, representando a todos los valores observados
La media
5
Es un valor numérico que mide el grado de dispersión relativa porque depende de la posición de los datos x1,x2,…,xn con respecto a la media.
Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media.
La varianza
n
xxs
n
ii
1
2
2
6
8 cms.
Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y todos tienen la misma base).
¿Cuál es el promedio de la altura de estos rectángulos?
8 + 8 + 8 + 8 + 8 + 8 + 8 + 8 + 89
= 729
= 8
Cómo se calcula la varianza
7
Cómo se calcula la varianza
El quinto rectángulo y el octavo rectángulo en un acto de rebeldía cambiaron su altura. El quinto rectángulo, ahora de color rojo, mide 10 centímetros, y el octavo rectángulo, de color azul, mide 6 centímetros?
¿Cuál es el nuevo promedio de estos 9 rectángulos?
8 + 8 + 8 + 8 + 10 + 8 + 8 + 6 + 89
= 729
= 8
... ¡el mismo promedio! Pero... ¿ha habido variación?
8 cms.
10 cms 6 cms
8
El rectángulo rojo tiene +2 centímetros sobre el promedio, y el rectángulo azul tiene –2 centímetros bajo el promedio. Los otros rectángulos tienen cero diferencia respecto del promedio.
Si sumamos estas diferencias de la altura respecto del promedio, tenemos
0 + 0 + 0 + 0 + 2 + 0 + 0 – 2 + 0
Este valor nos parece indicar que ¡no ha habido variabilidad! Y sin embargo, ante nuestros ojos, sabemos que hay variación.
= 0
8 cms.
10 cms 6 cms
Cómo se calcula la varianza
9
Cómo se calcula la varianza
8 cms.
10 cms 6 cms
Una forma de eliminar los signos menos de aquellas diferencias que sean negativas, esto es de aquellos mediciones que estén bajo el promedio, es elevar al cuadrado todas las diferencias, y luego sumar...
02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 = 8
Y este resultado repartirlo entre todos los rectángulos, es decir lo dividimos por el número de rectángulos que es 9
02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 =9 9
8= 0,89
10
Se dice entonces que la varianza fue de 0,89
Observemos que las unidades involucradas en el cálculo de la varianza están al cuadrado. En rigor la varianza es de 0,89 centímetros cuadrados. De manera que se define
0,89 0,943
La raíz cuadrada de la varianza se llama desviación estándar
8 cms.
10 cms 6 cms
Cómo se calcula la varianza
11
Que la desviación estándar haya sido de 0,943 significa que en promedio la altura de los rectángulos variaron (ya sea aumentando, ya sea disminuyendo) en 0,943 centímetros.
Es claro que esta situación es “en promedio”, puesto que sabemos que los causantes de la variación fueron los rectángulos quinto y octavo. Esta variación hace repartir la “culpa” a todos los demás rectángulos que se “portaron bien”.
La desviación estándar mide la dispersión de los datos respecto del promedio
10 cms 6 cms
8 cms.
Cómo se calcula la varianza
12
13
Varianza
Varianza sistemáticaCualquier influencia natural o generada por el hombre que cause que los eventos sucedan de forma predecible
Primaria, experimental o intergrupos
Influencia de la VI
Secundaria: Influencia de VE
Varianza de errorEs la fluctuación o variación de medidas que no se pueden explicar
Factores aleatorios
Tipos de varianza
14
Descomponiendo la varianza
Estos son los resultados de los puntajes obtenidos en un examen de estadística (VD) por estudiantes. Cada grupo ve la materia con un profesor distinto (la VI o factor sería el profesor)
consideraremos que todos los sujetos hipotéticamente pertenecen a una única muestra porque es esta varianza del grupo total la que vamos a analizar o descomponer.
¿De dónde vienen las diferencias en este grupo total formado por las muestras A y B? ¿De que los sujetos son muy distintos entre sí dentro de cada grupo? No, en este ejemplo los sujetos dentro de cada grupo tienen un grado semejante de homogeneidad o variabilidad.
Si las medias difieren entre sí, más que los sujetos entre sí, concluiremos que esas diferencias se deben al tipo de profesor
15
Ejemplo para la comprensión de la situación
Supongamos una población de la notas de un universo de 9 alumnos de tres grupos distintos, así:
Grupo 1 Grupo 2 Grupo 3
5 5 5
5 5 5
5 5 5
Evidentemente en este caso la media global es 5 y la de cada grupo también. Yi= µ Cada valor es igual a la media general. Por lo tanto se puede afirmar que NO HAY DIFERENCIA ENTRE GRUPOS, NI DENTRO DE CADA UNO DE LOS GRUPOS
16
Supongamos que aplicamos un método de enseñanza (factor) que afecta: subiendo las notas del grupo 1 en 1 punto, las del grupo 2 en dos puntos y no modificando las del grupo 3. así:
Grupo 1 Grupo 2 Grupo 3
5+1=6 5+2=7 5+0=5
5+1=6 5+2=7 5+0=5
5+1=6 5+2=7 5+0=5
Ahora la nota del alumno sería Yi=µ+αi, en los que α son 1, 2, 0. Parece claro que EL FACTOR INFLUYE EN ESTABLECER DIFERENCIAS ENTRE GRUPOS, PERO NO DENTRO
Ejemplo para la comprensión de la situación
17
Ejemplo para la comprensión de la situación
Lo más habitual es que haya alumnos que rindan más que otros (por diversas razones aleatorias que en principio no dependen de un factor) son por tanto comportamientos aleatorios individuales que denominamos ε. En nuestro ejemplo, sería
Grupo 1 Grupo 2 Grupo 3
5+1-1=5 5+2+2=9 5+0+3=8
5+1-2=4 5+2+0=7 5+0+4=9
5+1+0=6 5+2+1=8 5+0+0=5
Los efectos aleatorios serían -1,-2,0,2,0,1,3,4,0 que fomentan la variabilidad INTRA-GRUPOS
Por lo tanto tenemos dos tipos de variabilidad: la que se da entre grupos (debida al factor) y la que se da intragrupos (debida a la aleatoriedad). Para poder afirmar que el factor (método de enseñanza) produce efectos, la variabilidad ENTRE LOS GRUPOS ha de ser significativamente GRANDE respecto a la INTRA GRUPOS
18
n
xxs
n
ii
1
2
2Formula general para calcular la varianza de un muestra
Demostración
19
Experimento
Procedimiento.
Se define al azar qué grupo recibe el tratamiento A1 y cual A2
Los alumnos del grupo A1 recibieron instrucciones sin cortesía: “Ud. debe escribir el nombre de cada estado que recuerde”
Los alumnos del grupo A2 recibieron instrucciones con cortesía: “Sería útil que Ud. escribiera el nombre completo de cada estado que recuerde”
Después de leer las instrucciones, los sujetos tuvieron una tarea distractora consistente en recordar los 50 estados de la Unión Americana.
Después se les aplicó una prueba de reconocimiento. Las puntuaciones fueron
ObjetivoEstamos interesados en conocer si la cortesía en las instrucciones para una tarea afecta la memoria de las palabras amables
de VVVt
Vamos a intentar demostrar que la varianza total está formada por la varianza entre grupos más la varianza intragrupos
20
Media
A1 A2
3 6
5 5
1 7
4 8
2 4
3 6
n
xxs
n
ii
1
2
2
Formula general para calcular la varianza de un muestra
X xi-X (xi-X)2
3 -1,5 2.25
5 0.5 0.25
1 -3.5 12.25
4 -0.5 0.25
2 -2.5 6.25
6 1.5 2.25
5 0.5 0.25
7 2.5 6.25
8 3.5 12.25
4 -0.5 0.25
Media 4.5 ∑=42.50
25.410
5.42Vt
Cálculo de la varianza total
Se acomodaron las 10 puntuaciones en una sola columna
21
Cálculo de la varianza dentro de los grupos
Se calcula la varianza de cada grupo por separado y después se promedia
A1 xi-X (xi-X)2 A2 xi-X (xi-X)2
3 0 O 6 0 0
5 2 4 5 -1 1
1 -2 4 7 1 1
4 1 1 8 2 4
2 1 1 4 -2 4
Media=3 ∑=10 Media=6 ∑=10
25
101 AV 2
5
102 AV
Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2
22
Cálculo de la varianza entre los grupos
Media
A1 A2
3 6
5 5
1 7
4 8
2 4
3 6
xi-X (xi-X)2
3 1.5 2.25
6 1.5 2.25
Media 4.5 ∑=4.50
25.22
5.4eV
23
de VVVt
4.25=2.25+2.00
Demostración
25.22
5.4eV25.4
10
5.42Vt
25
101 AV 2
5
102 AV
Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2
Varianza total
Varianza inter grupo
Varianza intra grupo
24
COVARIANZA
25
> El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente.
> Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los
mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están relacionadas porque los más altos pesan más y los más bajos pesan menos.
> Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa. Por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de
edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física).
El concepto de relación
26
Los diagramas de dispersión
> La representación gráfica de estos pares de puntuaciones se denomina diagrama de dispersión, y también nos ayuda a entender el mismo concepto de relación.
Puede existir relación entre dos variables sin que ésta sea lineal. Las medidas estadísticas que detectan la relación lineal entre variables NO detectan las relaciones que no son lineales. En tal caso se deben utilizar métodos mas complejos (P. ej. regresión no lineal, regresión no paramétrica).
27
Correlación y covarianza
> La correlación se define como la co-variación (co = con, juntamente: variar a la vez).
> Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza (Cov, ) es una medida de relación, lo mismo que el coeficiente de correlación de Pearson (r).
> Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender antes qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.
28
Covarianza> Para medir o cuantificar la relación entre dos variables comenzamos por
tener presente que:
• Si las dos variables están relacionadas y esta relación es positiva → los sujetos tenderán a estar por encima o por debajo
de la media en las dos variables a la vez
• Si las dos variables están relacionadas y esta relación es negativa → los sujetos tenderán a estar por encima de la media
en una variable y por debajo de la media en la otra
• Si las dos variables no están relacionadas → el estar por encima o por debajo de la media en una variable es
independiente del estar por encima o por debajo de la media en la otra variable
29
Covarianza
> Este estar por encima o por debajo de la media en dos variables simultáneamente nos permite cuantificar el grado de relación.
> Lo explicamos por pasos:1. La distancia o diferencia de un dato de un sujeto con
respecto a la media la podemos representar restando cada puntuación de la media (la llamaremos d con subíndice X ó Y dependiendo de la variable ):
> Tenemos que si un dato está por encima de la media, la diferencia será positiva, y si está por debajo de la media, la diferencia será negativa.
30
Covarianza
> Lo explicamos por pasos:
> 2. Podemos multiplicar para cada individuo las diferencias en X y en Y, y luego sumar todos esos productos:
31
Covarianza:
> Teniendo en cuenta lo anterior, una buena medida de la variación simultánea de dos variables es la covarianza, que no es mas que un promedio de las distancias anteriormente expuestas :
32
La covarianza nos mide la covariación conjunta de dos variables: Si es positiva nos dará la información de que a valores altos de una de las variable hay una mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de las variable ,correspondientemente valores bajos.
En cambio si la covarianza es negativa, la covariación de ambas variables será en sentido inverso: a valores altos le corresponderán bajos, y a valores bajos, altos.
Si la covarianza es cero no hay una covariación clara en ninguno de los dos
Interpretación de la covarianza
33
Problemas con la interpretación de la covarianza
Esta medida no debe ser utilizada de modo exclusivo para medir la relación entre las dos variables, ya que es sensible al cambio de unidad de medida> Por ejemplo, si estamos mirando la relación entre
estura y peso las unidades de medida serían metros*kilos. ¿Cómo se interpreta eso?
34
Coeficiente de correlación
Así pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones típicas de cada variable, ya que así se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson
35
Interpretación del coeficiente r
> El coeficiente de correlación expresa en qué grado los sujetos (u objetos, elementos…) están variando simultáneamente en las dos variables y qué tan lineal es esa relación.
> Los valores extremos son 0 (ninguna relación) y ±1 (máxima relación).
En últimas, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, sea cual sea ésta.
36
Interpretación del coeficiente r• Si r = 1 ó r =-1 el grafico de dispersión ajusta perfectamente a una línea
recta.
• Podemos ver que coeficientes próximos a 0 expresan poca relación, y los coeficientes cercanos a 1 o a -1 expresan mucha relación, es decir mucho ajuste, mucho parecido con un línea recta.
0
2
4
6
8
10
12
14
16
0 2 4 6 8
R = 0.06
0
5
10
15
20
25
0 2 4 6 8 10
R = 0.79
0
2
4
6
8
10
12
14
16
18
0 2 4 6 8 10
R = 0.98
37
La magnitud del coeficiente es independiente del signo: El que la relación sea positiva o negativa es algo distinto de que sea
grande o pequeña. El signo se refiere mas bien a si la relación es directa (cuando es positivo) o inversa (cuando es negativo) .
Por ejemplo r = -0.95 expresa más correlación que r = +0.79
Interpretación del coeficiente r
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10
R = -0.95
0
5
10
15
20
25
0 2 4 6 8 10
R = 0.79
r = -0.95Correlación inversa muy fuerte
r = 0.79Correlación directa pero no tan fuerte
38
La magnitud del coeficiente de correlación es independiente de la pendiente de la recta:
Para toda serie de datos emparejados existe siempre una recta que es la que mejor ajusta a los datos. Sin embargo, dos series de datos pueden tener igual coeficiente de correlación y ajustarse a rectas de diferente pendiente.
Interpretación del coeficiente de correlación r
Por último, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, pero no nos habla sobre la pendiente de ésa recta.
39