material estadística-análisis bivariante.pdf
Post on 20-Dec-2015
12 Views
Preview:
DESCRIPTION
TRANSCRIPT
SEMINARIO DE ESTADISTICA II
ANÁLISIS BIVARIANTE
1
ESTADISTICA DESCRIPTIVA BIDIMENSIONAL
Dados N individuos, en cada uno medimos dos variables, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .
Tabulaciones posibles:
a) Tabulación en dos columnas(o en dos filas)
X Y
x1 y1
x2 y2
. .
. .
. .
xN yN
2
X X1 X2 . . . XN
Y y1 y2 . . . Y N
ESTADISTICA DESCRIPTIVA BIDIMENSIONAL
Sean N individuos ; en cada uno medimos dos variables, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .
b) Tabla de doble entradaoTabla de Contingencia
Consideramos los valores, clases
o niveles que pueden presentar las variables X e Y :
• la variable X : r• la variable Y : c
Se organizan los datos en una
tabla de doble entrada
3
B1 B2 B3 . . . Bj . . . Bc
A1 n11 n12 n13 . . . n1j . . . n1c n1.
A2 n21 n22 n23 . . . n2j . . . n2c n2.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ai ni1 ni2 ni3 . . . nij . . . nic ni.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ar nr1 nr2 nr3 . . . nrj . . . nrc nr.
n.1 n.2 n.3 n.j n.c N
4
B1 B2 B3 . . . Bj . . . Bc
A1 n11 n12 n13 . . . n1j . . . n1c n1.
A2 n21 n22 n23 . . . n2j . . . n2c n2.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ai ni1 ni2 ni3 . . . nij . . . nic ni.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ar nr1 nr2 nr3 . . . nrj . . . nrc nr.
n.1 n.2 n.3 n.j n.c N
nij =frecuencia
absoluta de
la clase
conjunta
Ai x Bj
ni. =
frecuencia
absoluta de
la clase Ai
n.j =
frecuencia
absoluta de
la clase Bj
ESTADISTICA DESCRIPTIVA
BIDIMENSIONAL
B1 B2 B3 . . . Bj . . . Bc
A1 f11 f12 f13 . . . f1j . . . f1c f1.
A2 f21 f22 f23 . . . f2j . . . f2c f2.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ai fi1 fi2 fi3 . . . fij . . . fic fi.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ar fr1 fr2 fr3 . . . frj . . . frc fr.
f.1 f.2 f.3 f.j f.c 1
fij= nij / Nfrecuencia
relativa de
la clase
conjunta
Ai x Bj
fi.= ni. / Nfrecuencia
relativa de
la clase Ai
f.j= n.j / N frecuencia
relativa de la
clase Bj
ESTADISTICA DESCRIPTIVA
BIDIMENSIONAL
a) nij = frecuencia absoluta conjunta de la clase Ai x Bj
b) ni. = ni1 + ni2+… + nij + … + nic = frecuencia absoluta marginal de la clase Ai de la variable X
c) n.j = n1j + n2j+… + nij + … + nrj = frecuencia absoluta marginal de la clase Bj de la variable Y
d) fij = nij /N = frecuencia relativa conjunta de la clase Ai x Bj
e) fi. = ni. /N = frecuencia relativa marginal de la claseAi de la variable X
f) f.j = n.j /N = frecuencia relativa marginal de la clase Bj de la variable Y
6
ESTADISTICA DESCRIPTIVA
BIDIMENSIONAL
RELACION ENTRE DOS VARIABLES CUANTITATIVAS
Dados N individuos, en cada uno medimos dos variables cuantitativas, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .
Representación gráfica mas usual : diagrama de dispersión o nube de puntos( ejemplo: tomamos el peso y altura de 10 individuos)
64
65
66
67
68
69
70
71
100 110 120 130 140 150 160 170 180
Yaltura
X peso
X = Peso Y = Altura
x1=118 y1=64,5
x2=147 y2=65,0
x3=146 y3=69,0
x4=138 y4=64,5
x5=175 y5=66,0
x6=118 y6=64,5
x7=155 y7=70,5
x8=146 y8=66,0
x9=135 y9=68,0
x10=127 y10=68,58
RELACION ENTRE DOS VARIABLES CUANTITATIVAS
Dados N individuos , en cada uno medimos dos variables cuantitativas, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .
Covarianza de X e Y: (considerando las frecuencias absolutas)
Sxy
Propiedades de la Covarianza:
1. Viene medida en “el producto de las unidades de medidas en que se miden lasvariables X e Y “
2. Si hacemos una transformación lineal en las variables X e Y de la forma:Zi = a + b Xi
Wi= c + d Yi
3. Sx2 = Sxx ; Sy
2 = Syy
N
yyxxN
ii
1
N
nyyxxK
iii
1
N
yxN
ii 1
.
x yN
niyxK
ii 1
..
x y
Se verifica que SZW = b d SXY
9
EJEMPLO:
Xi = peso Yi = altura (xi- ) (yi - ) (xi- )(yi - ) (xi- )2 (yi - )2
118 64,5 -22,5 -2,15 48,375 506,25 4,6225
147 65,0 6,5 -1,65 -10,725 42,25 2,7225
146 69,0 5,5 2,35 12,925 30,25 5,5225
138 64,5 -2,5 -2,15 5,375 6,25 4,6225
175 66,0 34,5 -0,65 -22,425 1190,25 0,4225
118 64,5 -22,5 -2,15 48,375 506,25 4,6225
155 70,5 14,5 3,85 55,825 210,25 14,8225
146 66,0 5,5 -0,65 -3,575 30,25 0,4225
135 68,0 -5,5 1,35 -7,425 30,25 1,8225
127 68,5 -13,5 1,85 -24,975 182,25 3,4225
1405 666,5 101,75 2734,5 43,025
x x xy y y
Sxy = 10,175 Sx2 = 273,45 Sy
2 = 4,30
Sx = 16,54 Sy = 2,07
yx = 140,5 = 66,65
10
N=10
RELACION ENTRE DOS VARIABLES CUANTITATIVAS
Dados N individuos; en cada uno medimos dos variables cuantitativas, X e Y.Tendremos, por tanto, una serie de pares de valores de la forma: (x1, y1) , (x2, y2), …,(xj, yj), …,(xN, yN) .
Coeficiente de Correlación:
rxy
Propiedades del Coeficiente de Correlación:1. Es la covarianza de las variables tipificadas2. 0 r2 1 ; -1 r 1
Cuanto mayor sea |r| , mas intensa es la asociación : Si r = 1 asociación lineal perfecta y directaSi r = -1 asociación lineal perfecta e inversaSi r = 0 no existe asociación lineal entre las variables
yx
N
ii
SS
Nyyxx
.
1
/
yx
xy
SS
S
.
N
S
yy
S
xxN
y
i
x
i
1
3. La correlación mide únicamente la intensidad de la asociación lineal entre las variables ( puede ser rxy=0 y existir relación funcional entre X e Y ) 11
RELACION ENTRE DOS VARIABLES CUANTITATIVAS
EJEMPLOS:a) r=1
X Y r =1
0 2 yi= 2 + 3xi
1 5
4 14
10 32
0
5
10
15
20
25
30
35
0 5 10 15
b) r = -1X Y r = -1
0 10 yi= 10 – 2xi
1 8
2 6
5 0
0
2
4
6
8
10
12
0 2 4 6
12
RELACION ENTRE DOS VARIABLES CUANTITATIVAS
Dados los valores que toman las variables en los N individuos, tratamos de encontraruna recta que proporcione el mejor ajuste lineal a la nube de puntos.
X Y
X1 Y1
X2
X3
..
XN
Y2
Y3
..
YN
Recta de regresión de Y sobre X: Y= a + bX
Valores de los parámetros, a y b que hacen que el ajuste de la nube de puntos sea óptimo.
• El parámetro b de la recta y = a + b x es la pendiente de la recta y mide la variación producida en la variable Y cuando la variable X aumenta en una unidad.
• El parámetro a de la recta y = a + b x es la ordenada en el origen y mide el valor de la variable Y cuando la variable X toma el valor 0.
Estimación de los parámetros de la recta de regresión de Y sobre X:
b a= - b2
x
xy
S
S
x
y
S
Sr y x
13
RELACION ENTRE DOS VARIABLES CUANTITATIVAS
Residuo o error:a) Para cada individuo i, tenemos:
• un valor xi de la variable X
• un valor yi de la variable Y
• un valor estimado de la variable Y, obtenido de la relación = a + b xi
• un error cometido, también llamado residuo, dado por ei = (yi - )
b) Los coeficientes a y b obtenidos anteriormente son los que hacen que la suma de los errores al cuadrado, , sea mínima
iy
iy
iy
2ie
Varianza residual:a) Si de un individuo no tenemos ningún tipo de información y tratamos de predecir el
valor , y0 , que toma la variable Y en él, la mejor estimación que podemos hacer es asignar a y0 el valor .
a) El error que cometemos viene dado por la varianza de Y, Sy2 .
b) Si tenemos información del valor que toma la variable X en ese individuo, x0 , podemos hacer un pronóstico mejor para el valor y0, asignándole el valor y0 = a + b x0. El error que
cometemos ahora será menor, y vendrá dado por lo que se conoce como varianza residual. Su expresión es: SRY
2 = (1-r2 ) Sy2.
.
y
14
RELACION ENTRE DOS VARIABLES CUANTITATIVAS
Dados los valores que toman las variables en los N individuos, tratamos de encontraruna recta que proporcione el mejor ajuste lineal a la nube de puntos.
X Y
X1 Y1
X2
X3
..
XN
Y2
Y3
..
YN
Recta de regresión de X sobre Y: X= a’ + b’ Y
Valores de los parámetros, a’ y b’ que hacen que el ajuste de la nube de puntos sea óptimo.
• El parámetro b’ de la recta x = a’ + b’ y es la pendiente de la recta y mide la variación producida en la variable X cuando la variable Y aumenta en una unidad.
• El parámetro a’ de la recta x= a’ + b’ y es la ordenada en el origen y mide el valor de la variable X cuando la variable Y toma el valor 0.
Estimación de los parámetros de la recta de regresión de Y sobre X:
b’ a’= - b’2
y
xy
S
S
y
x
S
Sr yx
15
EJEMPLO:
Regresión de la variable altura, Y, sobre la variable peso, X, en 10 individuos.
Xi = peso Yi = altura (xi- ) (yi- ) (xi- )(yi- ) (xi- ) 2 (yi- )2
118 64,5 -22,5 -2,15 48,375 506,25 4,6225
147 65,0 6,5 -1,65 -10,725 42,25 2,7225
146 69,0 5,5 2,35 12,925 30,25 5,5225
138 64,5 -2,5 -2,15 5,375 6,25 4,6225
175 66,0 34,5 -0,65 -22,425 1190,25 0,4225
118 64,5 -22,5 -2,15 48,375 506,25 4,6225
155 70,5 14,5 3,85 55,825 210,25 14,8225
146 66,0 5,5 -0,65 -3,575 30,25 0,4225
135 68,0 -5,5 1,35 -7,425 30,25 1,8225
127 68,5 -13,5 1,85 -24,975 182,25 3,4225
1405 666,5 101,75 2734,5 43,025
x x xy y y
Sxy = 10,175 Sx2 = 273,45 Sy
2 = 4,30
Sx = 16,54 Sy = 2,07
yx
r =Sxy / SxSy = 0,297
b = Sxy / Sx2 = 0,037= r Sy / Sx
a = 61,4
y = 0,037x + 61,42R² = 0,088
60
65
70
100 125 150 175 200
Alt
ura
Peso
= 140,5 = 66,65
16
18
B1 B2 B3 . . . Bj . . . Bc
A1 n11 n12 n13 . . . n1j . . . n1c n1.
A2 n21 n22 n23 . . . n2j . . . n2c n2.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ai ni1 ni2 ni3 . . . nij . . . nic ni.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ar nr1 nr2 nr3 . . . nrj . . . nrc nr.
n.1 n.2 n.3 n.j n.c N
nij =frecuencia
absoluta de
la clase
conjunta
Ai x Bj
ni. =
frecuencia
absoluta de
la clase Ai
n.j =
frecuencia
absoluta de
la clase Bj
ESTADISTICA DESCRIPTIVA
BIDIMENSIONAL
B1 B2 B3 . . . Bj . . . Bc
A1 f11 f12 f13 . . . f1j . . . f1c f1.
A2 f21 f22 f23 . . . f2j . . . f2c f2.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ai fi1 fi2 fi3 . . . fij . . . fic fi.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Ar fr1 fr2 fr3 . . . frj . . . frc fr.
f.1 f.2 f.3 f.j f.c 1
fij= nij / Nfrecuencia
relativa de
la clase
conjunta
Ai x Bj
fi.= ni. / Nfrecuencia
relativa de
la clase Ai
f.j= n.j / N frecuencia
relativa de la
clase Bj
ESTADISTICA DESCRIPTIVA
BIDIMENSIONAL
a) nij = frecuencia absoluta conjunta de la clase Ai x Bj
b) ni. = ni1 + ni2+… + nij + … + nic = frecuencia absoluta marginal de la clase Ai de la variable X
c) n.j = n1j + n2j+… + nij + … + nrj = frecuencia absoluta marginal de la clase Bj de la variable Y
d) fij = nij /N = frecuencia relativa conjunta de la clase Ai x Bj
e) fi. = ni. /N = frecuencia relativa marginal de la claseAi de la variable X
f) f.j = n.j /N = frecuencia relativa marginal de la clase Bj de la variable Y
20
g) fi/j = nij /f.j = frecuencia relativa de Ai
condicionada a que Y tome el valor Bj
h) fj/i= nij /fi. = frecuencia relativa de Bj
condicionada a que X tome el valor Ai
Independencia de las variables X e Y:
X e Y son independientes si para todo i=1…r y para todo j=1…c se verifica que:
nij = ni. * n.j / N o de forma equivalente si fij = fi. * f.j
(es decir: si las frecuencias relativas conjuntas son iguales al producto de las correspondientes frecuencias relativas marginales)
21
Medidas de asociación:
• Se trata de comparar las frecuencias observadas, nij ,
con las que se obtendrían si las variables fueran
independientes : ňij= ni. * n.j / N
• Para ello se define la Ji- cuadrado ó Chi-cuadrado Χ2
22
RELACION ENTRE DOS VARIABLES
CUALITATIVAS
Χ2=
a)Χ2 ≥ 0b)Χ2 = 0 indica independencia de X e Yc) Cuanto mayor es el valor de la Χ2 , mayor es la intensidad de la
relaciónd) Inconveniente: se desconoce el límite superior del valor Χ2
Ejemplo: X=Variable fumador: A1=Si, A2=No
Y= Variable sexo: B1= Hombre, B2=Mujer
23
RELACION ENTRE DOS VARIABLES
CUALITATIVAS
Hombre Mujer Marginal
Si n11= 65 n12=58 n1.=123
No n21=43 n22=67 n2.=110
Margi
nal
n.1=108 n.2=125 N=233
Hombre Mujer
Si f11= 0,28 f12= 0,25 f1.= 0,53
No f21= 0,18 f22=0,29 f2.=0,47
Margi
nalf.1=0,46 f.2=0,54 1
Hombre Mujer Marginal
Si ň11= 57 ň12=66 n1.=123
No ň21=51 ň22=59 n2.=110
Margi
nal
n.1=108 n.2=125 N=233
Χ2= +=
+ + =
= 4,42
+
Medidas de asociación:
Desde un punto de vista descriptivo, para suplir el hecho de que, en general, se desconoce el limite superior del valor de la Χ2, se definen diferentes índices de asociación, basados en la que permiten interpretar la magnitud de los valores obtenidos:
• Coeficiente “Phi” = φ = que en tablas 2x2 varía ente 0 y 1
• Coeficiente V de Cramer
• Coeficiente de Contingencia C de Pearson
• Coeficiente Lambda
24
RELACION ENTRE DOS VARIABLES
CUALITATIVAS
Χ2
top related