varianza y covarianza. 2 varianza 3 existen formas de sintetizar conjuntos de puntuaciones, las 2...

Varianza y Covarianza

2

VARIANZA

3

Existen formas de sintetizar conjuntos de puntuaciones, las 2 más usadas son: la media y la varianza

Población Muestra

SímbolosMedia de la población: μ

Varianza poblacional: σ

Media de la muestra:

Varianza de la muestra:

X

Observe que se utilizan símbolos griegos cuando se hace referencia a la media o a la varianza poblacionales y letras cuando son muestrales

2s

4

La media aritmética o simplemente promedio (también llamada media muestral ya que generalmente se calcula en relación a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces

n

x

n

xxxX

n

ii

n

121 ...

Es el centro de gravedad de toda la distribución, representando a todos los valores observados

La media

5

Es un valor numérico que mide el grado de dispersión relativa porque depende de la posición de los datos x1,x2,…,xn con respecto a la media.

Es el promedio al cuadrado de las desviaciones de cada observación con respecto a la media.

La varianza

n

xxs

n

ii

1

2

2

6

8 cms.

Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y todos tienen la misma base).

¿Cuál es el promedio de la altura de estos rectángulos?

8 + 8 + 8 + 8 + 8 + 8 + 8 + 8 + 89

= 729

= 8

Cómo se calcula la varianza

7


El quinto rectángulo y el octavo rectángulo en un acto de rebeldía cambiaron su altura. El quinto rectángulo, ahora de color rojo, mide 10 centímetros, y el octavo rectángulo, de color azul, mide 6 centímetros?

¿Cuál es el nuevo promedio de estos 9 rectángulos?

8 + 8 + 8 + 8 + 10 + 8 + 8 + 6 + 89

= 729

= 8

... ¡el mismo promedio! Pero... ¿ha habido variación?

8 cms.

10 cms 6 cms

8

El rectángulo rojo tiene +2 centímetros sobre el promedio, y el rectángulo azul tiene –2 centímetros bajo el promedio. Los otros rectángulos tienen cero diferencia respecto del promedio.

Si sumamos estas diferencias de la altura respecto del promedio, tenemos

0 + 0 + 0 + 0 + 2 + 0 + 0 – 2 + 0

Este valor nos parece indicar que ¡no ha habido variabilidad! Y sin embargo, ante nuestros ojos, sabemos que hay variación.

= 0

8 cms.

10 cms 6 cms


9


8 cms.

10 cms 6 cms

Una forma de eliminar los signos menos de aquellas diferencias que sean negativas, esto es de aquellos mediciones que estén bajo el promedio, es elevar al cuadrado todas las diferencias, y luego sumar...

02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 = 8

Y este resultado repartirlo entre todos los rectángulos, es decir lo dividimos por el número de rectángulos que es 9

02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 =9 9

8= 0,89

10

Se dice entonces que la varianza fue de 0,89

Observemos que las unidades involucradas en el cálculo de la varianza están al cuadrado. En rigor la varianza es de 0,89 centímetros cuadrados. De manera que se define

0,89 0,943

La raíz cuadrada de la varianza se llama desviación estándar

8 cms.

10 cms 6 cms


11

Que la desviación estándar haya sido de 0,943 significa que en promedio la altura de los rectángulos variaron (ya sea aumentando, ya sea disminuyendo) en 0,943 centímetros.

Es claro que esta situación es “en promedio”, puesto que sabemos que los causantes de la variación fueron los rectángulos quinto y octavo. Esta variación hace repartir la “culpa” a todos los demás rectángulos que se “portaron bien”.

La desviación estándar mide la dispersión de los datos respecto del promedio

10 cms 6 cms

8 cms.


13

Varianza

Varianza sistemáticaCualquier influencia natural o generada por el hombre que cause que los eventos sucedan de forma predecible

Primaria, experimental o intergrupos

Influencia de la VI

Secundaria: Influencia de VE

Varianza de errorEs la fluctuación o variación de medidas que no se pueden explicar

Factores aleatorios

Tipos de varianza

14

Descomponiendo la varianza

Estos son los resultados de los puntajes obtenidos en un examen de estadística (VD) por estudiantes. Cada grupo ve la materia con un profesor distinto (la VI o factor sería el profesor)

consideraremos que todos los sujetos hipotéticamente pertenecen a una única muestra porque es esta varianza del grupo total la que vamos a analizar o descomponer.

¿De dónde vienen las diferencias en este grupo total formado por las muestras A y B? ¿De que los sujetos son muy distintos entre sí dentro de cada grupo? No, en este ejemplo los sujetos dentro de cada grupo tienen un grado semejante de homogeneidad o variabilidad.

Si las medias difieren entre sí, más que los sujetos entre sí, concluiremos que esas diferencias se deben al tipo de profesor

15

Ejemplo para la comprensión de la situación

Supongamos una población de la notas de un universo de 9 alumnos de tres grupos distintos, así:

Grupo 1 Grupo 2 Grupo 3

5 5 5

5 5 5

5 5 5

Evidentemente en este caso la media global es 5 y la de cada grupo también. Yi= µ Cada valor es igual a la media general. Por lo tanto se puede afirmar que NO HAY DIFERENCIA ENTRE GRUPOS, NI DENTRO DE CADA UNO DE LOS GRUPOS

16

Supongamos que aplicamos un método de enseñanza (factor) que afecta: subiendo las notas del grupo 1 en 1 punto, las del grupo 2 en dos puntos y no modificando las del grupo 3. así:


5+1=6 5+2=7 5+0=5

5+1=6 5+2=7 5+0=5

5+1=6 5+2=7 5+0=5

Ahora la nota del alumno sería Yi=µ+αi, en los que α son 1, 2, 0. Parece claro que EL FACTOR INFLUYE EN ESTABLECER DIFERENCIAS ENTRE GRUPOS, PERO NO DENTRO


17


Lo más habitual es que haya alumnos que rindan más que otros (por diversas razones aleatorias que en principio no dependen de un factor) son por tanto comportamientos aleatorios individuales que denominamos ε. En nuestro ejemplo, sería


5+1-1=5 5+2+2=9 5+0+3=8

5+1-2=4 5+2+0=7 5+0+4=9

5+1+0=6 5+2+1=8 5+0+0=5

Los efectos aleatorios serían -1,-2,0,2,0,1,3,4,0 que fomentan la variabilidad INTRA-GRUPOS

Por lo tanto tenemos dos tipos de variabilidad: la que se da entre grupos (debida al factor) y la que se da intragrupos (debida a la aleatoriedad). Para poder afirmar que el factor (método de enseñanza) produce efectos, la variabilidad ENTRE LOS GRUPOS ha de ser significativamente GRANDE respecto a la INTRA GRUPOS

18

n

xxs

n

ii

1

2

2Formula general para calcular la varianza de un muestra

Demostración

19

Experimento

Procedimiento.

Se define al azar qué grupo recibe el tratamiento A1 y cual A2

Los alumnos del grupo A1 recibieron instrucciones sin cortesía: “Ud. debe escribir el nombre de cada estado que recuerde”

Los alumnos del grupo A2 recibieron instrucciones con cortesía: “Sería útil que Ud. escribiera el nombre completo de cada estado que recuerde”

Después de leer las instrucciones, los sujetos tuvieron una tarea distractora consistente en recordar los 50 estados de la Unión Americana.

Después se les aplicó una prueba de reconocimiento. Las puntuaciones fueron

ObjetivoEstamos interesados en conocer si la cortesía en las instrucciones para una tarea afecta la memoria de las palabras amables

de VVVt

Vamos a intentar demostrar que la varianza total está formada por la varianza entre grupos más la varianza intragrupos

20

Media

A1 A2

3 6

5 5

1 7

4 8

2 4

3 6

n

xxs

n

ii

1

2

2

Formula general para calcular la varianza de un muestra

X xi-X (xi-X)2

3 -1,5 2.25

5 0.5 0.25

1 -3.5 12.25

4 -0.5 0.25

2 -2.5 6.25

6 1.5 2.25

5 0.5 0.25

7 2.5 6.25

8 3.5 12.25

4 -0.5 0.25

Media 4.5 ∑=42.50

25.410

5.42Vt

Cálculo de la varianza total

Se acomodaron las 10 puntuaciones en una sola columna

21

Cálculo de la varianza dentro de los grupos

Se calcula la varianza de cada grupo por separado y después se promedia

A1 xi-X (xi-X)2 A2 xi-X (xi-X)2

3 0 O 6 0 0

5 2 4 5 -1 1

1 -2 4 7 1 1

4 1 1 8 2 4

2 1 1 4 -2 4

Media=3 ∑=10 Media=6 ∑=10

25

101 AV 2

5

102 AV

Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2

22

Cálculo de la varianza entre los grupos

Media

A1 A2

3 6

5 5

1 7

4 8

2 4

3 6

xi-X (xi-X)2

3 1.5 2.25

6 1.5 2.25

Media 4.5 ∑=4.50

25.22

5.4eV

23

de VVVt

4.25=2.25+2.00

Demostración

25.22

5.4eV25.4

10

5.42Vt

25

101 AV 2

5

102 AV

Como es obvio el promedio de las dos varianzas da 2. por lo tanto Vd=2

Varianza total

Varianza inter grupo

Varianza intra grupo

24

COVARIANZA

25

> El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente.

> Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los

mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están relacionadas porque los más altos pesan más y los más bajos pesan menos.

> Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa. Por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de

edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física).

El concepto de relación

26

Los diagramas de dispersión

> La representación gráfica de estos pares de puntuaciones se denomina diagrama de dispersión, y también nos ayuda a entender el mismo concepto de relación.

Puede existir relación entre dos variables sin que ésta sea lineal. Las medidas estadísticas que detectan la relación lineal entre variables NO detectan las relaciones que no son lineales. En tal caso se deben utilizar métodos mas complejos (P. ej. regresión no lineal, regresión no paramétrica).

27

Correlación y covarianza

> La correlación se define como la co-variación (co = con, juntamente: variar a la vez).

> Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza (Cov, ) es una medida de relación, lo mismo que el coeficiente de correlación de Pearson (r).

> Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender antes qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.

28

Covarianza> Para medir o cuantificar la relación entre dos variables comenzamos por

tener presente que:

• Si las dos variables están relacionadas y esta relación es positiva → los sujetos tenderán a estar por encima o por debajo

de la media en las dos variables a la vez

• Si las dos variables están relacionadas y esta relación es negativa → los sujetos tenderán a estar por encima de la media

en una variable y por debajo de la media en la otra

• Si las dos variables no están relacionadas → el estar por encima o por debajo de la media en una variable es

independiente del estar por encima o por debajo de la media en la otra variable

29

Covarianza

> Este estar por encima o por debajo de la media en dos variables simultáneamente nos permite cuantificar el grado de relación.

> Lo explicamos por pasos:1. La distancia o diferencia de un dato de un sujeto con

respecto a la media la podemos representar restando cada puntuación de la media (la llamaremos d con subíndice X ó Y dependiendo de la variable ):

> Tenemos que si un dato está por encima de la media, la diferencia será positiva, y si está por debajo de la media, la diferencia será negativa.

30

Covarianza

> Lo explicamos por pasos:

> 2. Podemos multiplicar para cada individuo las diferencias en X y en Y, y luego sumar todos esos productos:

31

Covarianza:

> Teniendo en cuenta lo anterior, una buena medida de la variación simultánea de dos variables es la covarianza, que no es mas que un promedio de las distancias anteriormente expuestas :

32

La covarianza nos mide la covariación conjunta de dos variables: Si es positiva nos dará la información de que a valores altos de una de las variable hay una mayor tendencia a encontrar valores altos de la otra variable y a valores bajos de una de las variable ,correspondientemente valores bajos.

En cambio si la covarianza es negativa, la covariación de ambas variables será en sentido inverso: a valores altos le corresponderán bajos, y a valores bajos, altos.

Si la covarianza es cero no hay una covariación clara en ninguno de los dos

Interpretación de la covarianza

33

Problemas con la interpretación de la covarianza

Esta medida no debe ser utilizada de modo exclusivo para medir la relación entre las dos variables, ya que es sensible al cambio de unidad de medida> Por ejemplo, si estamos mirando la relación entre

estura y peso las unidades de medida serían metros*kilos. ¿Cómo se interpreta eso?

34

Coeficiente de correlación

Así pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones típicas de cada variable, ya que así se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson

35

Interpretación del coeficiente r

> El coeficiente de correlación expresa en qué grado los sujetos (u objetos, elementos…) están variando simultáneamente en las dos variables y qué tan lineal es esa relación.

> Los valores extremos son 0 (ninguna relación) y ±1 (máxima relación).

En últimas, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, sea cual sea ésta.

36

Interpretación del coeficiente r• Si r = 1 ó r =-1 el grafico de dispersión ajusta perfectamente a una línea

recta.

• Podemos ver que coeficientes próximos a 0 expresan poca relación, y los coeficientes cercanos a 1 o a -1 expresan mucha relación, es decir mucho ajuste, mucho parecido con un línea recta.

0

2

4

6

8

10

12

14

16

0 2 4 6 8

R = 0.06

0

5

10

15

20

25

0 2 4 6 8 10

R = 0.79

0

2

4

6

8

10

12

14

16

18

0 2 4 6 8 10

R = 0.98

37

La magnitud del coeficiente es independiente del signo: El que la relación sea positiva o negativa es algo distinto de que sea

grande o pequeña. El signo se refiere mas bien a si la relación es directa (cuando es positivo) o inversa (cuando es negativo) .

Por ejemplo r = -0.95 expresa más correlación que r = +0.79

Interpretación del coeficiente r

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10

R = -0.95

0

5

10

15

20

25

0 2 4 6 8 10

R = 0.79

r = -0.95Correlación inversa muy fuerte

r = 0.79Correlación directa pero no tan fuerte

38

La magnitud del coeficiente de correlación es independiente de la pendiente de la recta:

Para toda serie de datos emparejados existe siempre una recta que es la que mejor ajusta a los datos. Sin embargo, dos series de datos pueden tener igual coeficiente de correlación y ajustarse a rectas de diferente pendiente.

Interpretación del coeficiente de correlación r

Por último, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, pero no nos habla sobre la pendiente de ésa recta.

varianza y covarianza. 2 varianza 3 existen formas de sintetizar conjuntos de puntuaciones, las 2...

Documents