Download - estadistica 1111
-
Humberto Villalobos 7-03-05
Primera Clase 1
20/03/2008
PROBABILIDAD
HUMBERTO VILLALOBOS TORRESUNIVERSIDAD TCNICA FEDERICO SANTA MARADEPARTAMENTO DE MATEMTICAS
Y ESTADSTICA
UNIVERSIDAD TCNICA FEDERICO SANTA MARA
20/03/2008
Estadstica Multivariada
Existen Muchas Mediciones asociadas a una poblacin.
Carrera. Satisfaccin con la
Universidad. Puntaje de Ingreso. Nmero de hermanos. Etc.
De la Poblacin de
Alumnos
USM
20/03/2008
Estadstica Multivariada
Se cuenta con una matriz de Datos
20/03/2008
Estadstica Multivariada
Observar el comportamiento global de los datos. Establecer relaciones Establecer grupos Determinar patrones.
Se Requieren herramientas Computacionales especializadas
20/03/2008
Anlisis Exploratorio Multivariado
Matriz de Asociaciones
20/03/2008
Anlisis Exploratorio Multivariado
Matriz de Correlaciones. Muestra la asociacin lineal entre
pares de variables.
-
Humberto Villalobos 7-03-05
Primera Clase 2
20/03/2008
Organizacin de Datos
La organizacin habitual es a travs de pares ordenados de datos.
20/03/2008
Organizacin de Datos Anlisis a travs de la tabla
20/03/2008
Organizacin de Datos Expresin en trminos de Frecuencias
Relativas
20/03/2008
Organizacin de Datos APLICACIN 1: Se realiza una encuesta a
profesionales que se desempean en cierta regin, en la cual se miden las siguientes caractersticas: Cargo que ocupa, Sueldo que percibe y valor del automvil que posee, en miles de pesos.
,
20/03/2008
Organizacin de Datos APLICACIN 1: Se realiza una encuesta a
profesionales que se desempean
20/03/2008
Organizacin de Datos
-
Humberto Villalobos 7-03-05
Primera Clase 3
20/03/2008
Organizacin de Datos
Distribuciones Marginales.
20/03/2008
Organizacin de Datos APLICACIN 1: Se realiza una encuesta a
profesionales que se desempean
20/03/2008
Organizacin de Datos APLICACIN 1: Se realiza una
encuesta a profesionales que se desempean
20/03/2008
Organizacin de Datos APLICACIN 2: Antes de construir una presa sobre
el Ro Missouri, una empresa efectu una serie de pruebas para medir un flujo de agua (en miles de galones por minuto [Mg/m]) en tres de sus grandes ramas: Sioux City, Yankton y Omaha. Los resultados de las pruebas fueron organizados en la siguiente tabla:
,
20/03/2008
Organizacin de Datos APLICACIN 2: Antes de construir una presa sobre el
Ro Missouri, Determine las distribuciones marginales
Histograma
0
50
100
150
Flujo de rios [Mg/m]
Frec
uenc
ia
,
20/03/2008
Organizacin de Datos APLICACIN 3: Un Socilogo dirigi una
investigacin para determinar la incidencia de un tipo determinado de crimen variaba entre las cuatro regin de mayor ndice delictual. Los crmenes de inters para el socilogo son: asalto, robo hurto y homicidio. La siguiente tabla presenta los resultados en una muestra de 746, 918, 1527 y 854 crmenes para la regin IV, V, Central, VIII, respectivamente durante el ltimo ao. ,
-
Humberto Villalobos 7-03-05
Primera Clase 4
20/03/2008
Organizacin de Datos APLICACIN 3: Un Socilogo dirigi una
investigacin para determinar la incidencia Determine las distribuciones marginales
0%10%20%30%40%
IV V Central VIII
ReginF
recu
enci
a
,
AsaltoRoboHurtoHomicidio
20/03/2008
Organizacin de Datos
Utilidad de las distribuciones marginales. Observacin de la distribucin de los
datos en las clases de mayor y menorrelevancia.
Mediante el uso de indicadores sobre estas distribuciones, se puede tratar de establecer asociaciones con variables NO CUANTITATIVAS.
20/03/2008
Organizacin de Datos
Distribuciones Condicionales.
20/03/2008
Organizacin de Datos Distribuciones condicionales.
1
2
r
1
2
, 1, ... , k
r
ji
nj
n
nj
n
f
nj
n
=
= == = =
AAAA
AA
A# A#
20/03/2008
Organizacin de Datos APLICACIN 2: Antes de construir una presa sobre el
Ro Missouri, Determine las distribucin condicional del flujo del ro en la rama Yankton
,
Todos los indicadores son posibles de determinar para este grupo de datos
20/03/2008
Organizacin de Datos APLICACIN 2: Antes de construir una presa sobre el
Ro Missouri, Determine las distribucin condicional del flujo del ro en la rama Omaha
,
Todos los indicadores son posibles de determinar para este grupo de datos y ser comparados con otro grupo de inters.
-
Humberto Villalobos 7-03-05
Primera Clase 5
20/03/2008
Organizacin de Datos APLICACIN 2: Antes de construir una presa sobre el
Ro Missouri, Compare el flujo de las ramas de los ros
,
20/03/2008
Organizacin de Datos APLICACIN 3: Un Socilogo dirigi una
investigacin para determinar la incidencia Determine las distribucin condicional del tipo de crimen en la quinta regin central y compare
AsaltoRoboHurtoHomicidio
,
AsaltoRoboHurtoHomicidio
20/03/2008
Organizacin de Datos APLICACIN 1: Se realiza una encuesta a
profesionales que se desempean
20/03/2008
Organizacin de DatosGrfica de Dispersin
Cargo
Pro
med
io C
ondi
cion
al a
l Car
go
0
1e6
2e6
3e6
4e6
5e6
6e6
Otros Ventas Administrativo Ejecutivo Sub-Gerente Gerente
Las Distancias en el Eje de los Cargos son arbitrarias, Slo de debe tener Presente el orden dado el tipo de escala.
20/03/2008
Organizacin de Datos
Organizacin de Datos: Distribuciones Marginales
Se obtienen Indicadores por variable, segn sea el tipo de escala de la variable.
Distribuciones Condicionales Se obtienen Indicadores por variable, segn
sea el tipo de escala de la variable, en variables de inters.
Mediante el uso adecuado de indicadores se pueden asociar variables.
20/03/2008
Organizacin de Datos y Estratificacin APLICACIN 4: Un estudio de una
administradora de fondos de pensiones acerca de la opcin que toma el afiliado, con respecto al tipo de fondo donde quiere mantener un mayor porcentaje de sus ahorros previsiones, y su respectivo nivel de ingresos (en miles de pesos)
-
Humberto Villalobos 7-03-05
Primera Clase 6
20/03/2008
Organizacin de Datos y Estratificacin APLICACIN 4: En este caso cada tipo de fondo
representa un estrato o grupo, de donde a travs de las distribuciones condicionales y marginales se obtienen los indicadores necesarios:
20/03/2008
Organizacin de Datos y Estratificacin APLICACIN 4: Un estudio de una
administradora de .
Utilizando la Marginal de Ingreso
20/03/2008
Organizacin de Datos y Estratificacin APLICACIN 4: Un estudio de una
administradora de .
Utilizando la Marginal de Ingreso
20/03/2008
Asociacin de Variables Existe una Matriz de Datos
20/03/2008
Asociacin de Variables
Tipo de Escala de la Medicin
Cuantitativa
Discreta
Continua
Intervalar
Razn
Cualitativa
Nominal
Ordinal
20/03/2008
Asociacin de Variables
Combinacin entre Tipos de Escalas
Nominal - Discreta Comuna v/s Nmero de Atrasos
Nominal - Continua Comuna v/s % de Crdito
Nominal - Ordinal Comuna v/s Establecimiento educacional
Nominal - Nominal Comuna v/s Carrera
Continua - Continua Tiempo traslado v/s Tiempo dedicado al estudi0
-
Humberto Villalobos 7-03-05
Primera Clase 7
20/03/2008
Asociacin de Variables
Anlisis Exploratorio de pares de variables. Grficos Adecuados
Anlisis a travs de Indicadores de asociacin. Chi- Cuadrado de Pearson Asociacin Montona de Spearman Asociacin de Kendall Asociacin Lineal de Pearson
20/03/2008
Indicadores de Asociacin
Estadstica Chi - Cuadrado Su uso es aplicable a cualquier tipo de
escala de medicin Nominal Ordinal Discreta - Continua
Es fundamental que los datos se encuentren agrupados en una tabla
Parte de la idea de la independencia entre dos variables.
Caracterstica A NO depende de la Caracterstica B, luego sus distribuciones tampoco
20/03/2008
Estadstica Chi - Cuadrado
Estadstica Chi - Cuadrado Se basa en la relacin entre lo Observado
y lo Esperado
Observa las discrepancias existentes entre las frecuencias que se tienen en la muestra y las que debiesen obtenerse si las variables fuesen independientes.
Entonces a grandes discrepancias, mayor es la posibilidad de dependencia entre las variables
20/03/2008
Estadstica Chi - Cuadrado Una Tabla de Frecuencia de Doble
Clasificacin
20/03/2008
Estadstica Chi - Cuadrado
Cmo determinar lo esperado?
bolitas rojas
bolitas azules
Muestra de 10 bolitas
Cuntas esperaras que fuesen rojas
?20/03/2008
Estadstica Chi - Cuadrado En una tabla de frecuencia el concepto
tiene una aplicacin similar.
Cuntas esperaras
de B1?
Cuntas esperaras de A1?
Cuntas esperaras de B1 y A1?
-
Humberto Villalobos 7-03-05
Primera Clase 8
20/03/2008
Estadstica Chi - Cuadrado
El Clculo de la estadstica Chi -cuadrado
( )22 rcij
Observado Esperado
Esperado =
ijnn
nn
n
n
n
nn ijij
=
20/03/2008
Estadstica Chi - Cuadrado
=rc
ij ij
ijij nn
n
n
nnn
22
El clculo de la estadstica 2
Desarrollando el cuadrado
= rc
ij ij
ij nnn
nn
22
20/03/2008
Estadstica Chi - Cuadrado
APLICACIN 5: Suponga la siguiente Tabla de doble clasificacin
20/03/2008
Estadstica Chi - Cuadrado
APLICACIN 5: Suponga la siguiente Tabla
2 2 22 (25 22) (20 23) (26 26)...
22 23 26 = + + +
20/03/2008
Estadstica Chi - Cuadrado
Indicadores descriptivos relacionados a uso de Chi- cuadrado Tablas de contingencia de dos clases en
cada variable.
Tablas de contingencia de tablas donde cada caracterstica tiene la misma cantidad de clases.
Tablas de contingencia de tablas donde las caractersticas tienen distinta cantidad de clases.
20/03/2008
Estadstica Chi - Cuadrado Tablas de contingencia de dos clases cada
variable.
22 11 12 21n n n nHn
=
-
Humberto Villalobos 7-03-05
Primera Clase 9
20/03/2008
Estadstica Chi - Cuadrado Tablas de contingencia de dos clases cada
variable. Su fundamento se encuentra en que si las
variables fueses independientes, entonces la razn entre n11/n1 n21/n2, es decir:
12 21 11 22n n n nHn n
21 11 21 1 1 221
2 1 2
n n n n n nn
n n n n n
+ = = =+
11 11 21 1 1 111
1 1 2
n n n n n nn
n n n n n
+ = = =+11 21
1 2
n n
n n =
20/03/2008
Estadstica Chi - Cuadrado Tablas de contingencia de tablas donde cada
caracterstica tiene la misma cantidad de clases. Es el indicador ms comnmente usado es el
coeficiente de contingencia CC el cual vara entre cero y un mximo que depende de la cantidad de clases.
Este coeficiente indicar que mientras ms cercano se encuentre a cero menor es el grado de asociacin entre las variables.
Es un indicador muy conservador, que no tiene un valor probablistico, slo descriptivo.
1kCC
k
=2 2CC n= +
k = r
20/03/2008
Organizacin de Datos APLICACIN 3: Un Socilogo dirigi una
investigacin para determinar
1 34
kCC
k
= =
,
125,84 0,1744045 125,84
CC = =+0,174100% 100% 20,09%
( ) 0,866CC
mx CC = =
20/03/2008
Estadstica Chi - Cuadrado
Tablas de contingencia de tablas donde las caracterstica tiene la distinta cantidad de clases.
Es un indicador que vara entre cero y uno, que al igual que el coeficiente de contingencia, indicarmenor es el grado de asociacin entre las variables mientras ms cercano se encuentre a cero.
Al igual que CC, es un indicador muy conservador, que no tiene un valor probablistico, slo descriptivo.
22 ;
( 1) ( 1)T
n k r
= 2
{ 1, 1}V
n min k r
=
20/03/2008
Organizacin de Datos
APLICACIN 1: Se realiza una encuesta a profesionales que se desempean
2 354, 44 0,3236200 6 5
T = =20/03/2008
Indicadores de Asociacin II
Estadstica de Asociacin de Spearman Es fundamental que los datos se
encuentren en al menos escala ordinal
La aplicacin ms utilizada es datos no agrupados, sin embargo, bajo ciertas restricciones se puede extender a datos agrupados
Se basa en la relacin entre los rangos de la variables
-
Humberto Villalobos 7-03-05
Primera Clase 10
20/03/2008
Estadstica de Spearman
Tiene una estrecha relacin con el coeficiente de asociacin de Pearson, que se ver ms adelante.
22
1
61 ( 1)
n
s i
i
r dn n =
= 2( )x yR R
Rx = Rango de la variable x.
Ry = Rango de la variable y.20/03/2008
Estadstica de Spearman Rangear datos
Ordinales Continuos
61 128(64 1)s
r = 61 4
8(64 1)sr = 0,857sr = 0,952sr =
20/03/2008
Estadstica de Spearman
APLICACIN 1: Una Aproximacin con datos agrupados en Tablas, para la aplicacin de la realizacin de una encuesta a profesionales
20/03/2008
Estadstica de SpearmanGrfica de Dispersin
Cargo
Pro
med
io C
ondi
cion
al a
l Car
go
0
1e6
2e6
3e6
4e6
5e6
6e6
Otros Ventas AdministrativoEjecutivoSub-GerenteGerente
Cuidado !
20/03/2008
0,60sr =
61 146(36 1)s
r =
Estadstica de Spearman
Una Aproximacin con datos agrupados en Tablas
20/03/2008
Estadstica de Spearman No muestra relaciones funcionales Indica una asociacin montona
entre las variables. Siempre creciente Siempre decreciente
Se encuentra acotado en el intervalo [-1 ; 1] Montona creciente 1 Montona decreciente -1
Cuidado con los empates de rangos
-
Humberto Villalobos 7-03-05
Primera Clase 11
20/03/2008
Estadstica de Spearman APLICACIN 2: Antes de construir una presa
sobre el Ro Missouri, una empresa efectu
,
Es posible determinar mediante el uso del coeficiente de Spearman, las relaciones montonas entre las ramas de ro Missouri
20/03/2008
Estadstica de Spearman APLICACIN 2: Antes de construir una presa
sobre el Ro Missouri, una empresa efectu :
,
6 50,5( ; ) 1 0, 408 63S
r Y O= =
6 12,5( ; ) 1 0,858 63S
r S O= =
6 24( ; ) 1 0,718 63S
r S Y= =
20/03/2008
Indicadores de Asociacin III
Estadstica de Asociacin de Kendall Es fundamental que los datos se
encuentren en al menos escala ordinal
Representa una alternativa al coeficiente de Spearman, ya que tambin se basa n la relaciones de los rangos de las variables
El coeficiente de Kendall al igual que Spearman se encentra acotado en el intervalo [-1; 1]
20/03/2008
Estadstica de Kendall
Se basa en una medida de desorden.
2 2
1( )
n
i ii
d X Y=
=
2 2 2
1 1( )
n n
i i ii i
d d X Y= =
= =
22 ( 1)
3maxn n
d= =
20/03/2008
Estadstica de Kendall
La estadstica de Kendall se expresa por:
s d
s d
n n
n n = +
ns : Nmero de comparaciones de orden Natural
nd : Nmero de comparaciones de orden Inverso 20/03/2008
Estadstica de Kendall
Mtodo de Clculo de Kendall
25 3 22 0,78625 3 28
s d
s d
n n
n n = = = =+ +
-
Humberto Villalobos 7-03-05
Primera Clase 12
20/03/2008
Indicadores de Asociacin IV
Estadstica de Asociacin de Pearson Muestra la relacin lineal que existe entre
dos variables Es fundamental que los datos sean
cuantitativos continuos. Este coeficiente al igual que Spearman y
Kendall se encentra acotado en el intervalo [-1; 1]
Lineal creciente 1 Lineal decreciente -1
20/03/2008
Estadstica de Pearson
Es habitual que se utilice la grfica de dispersin para visualizar el tipo de relacin
20/03/2008
Estadstica de Pearson Si la relacin no es lineal, entonces no son
detectadas por este coeficiente.GRFICA DE DISPERSIN
020406080
100
5 10 15 20 25X
Y
GRFICA DE DISPERSIN
0
10000
20000
30000
40000
12 17 22 27 32X
Y
GRFICA DE DISPERSIN
0
20
40
60
80
5 10 15 20 25X
Y
GRFICA DE DISPERSIN
-200
0
200
400
600
22 27 32 37X
Y
20/03/2008
Anlisis Exploratorio
Grficamente se puede observar
20/03/2008
n
i ii
p n n
i ii i
y y x x
r
y y x x
=
= =
=
1
2 22 2
1 1
( - ) ( - )
( - ) ( - )
Estadstica de Pearson
Asociacin Lineal de Pearson
2 2 2 2
n
i ii
p n n
i ii i
y x n y x
r
y n y x n x
=
= =
=
1
2 2
1 1
-
- -
20/03/2008
Estadstica de Pearson
Asociacin Lineal de Pearson
( , ) p x y
cov x yr
s s=
Desviaciones estndar de cada variable
Mide la relacin lineal ente un par
de variables
1
n
i ii
y y x x
covn
== 1
( - ) ( - )
-
Humberto Villalobos 7-03-05
Primera Clase 13
20/03/2008
Estadstica de Pearson
Tiempo Transporte
010203040506070
7 9 11 13 15 17 19 21 23% de Capacidad no Utilizada
Tiem
po d
e Tr
ansp
orte
APLICACIN 5: Considere la siguiente situacin
20/03/2008
Estadstica de Pearson APLICACIN 6: Considere la siguiente situacin
2T 400, 491S =
0,7471pr =
T 15,609x = 13,037Cx =2 17,634CS =
T 20,012S = 4,199CS =T( ; T) 62,782 CCov C S= =
20/03/2008
Estadstica de Pearson APLICACIN 7: Gastos Publicidad v/s Cantidad
10
14
18
22
26
7 9 11 13 15 17 19 21P [M/US$]
Q[M
/US
$]
20/03/2008
Estadstica de Pearson APLICACIN 7: Gastos Publicidad v/s Cantidad
0,9684pr =
2 12,267QS =12, 467Px = 17,867Qx =
2 9,838PS =3,502QS =3,137PS =
( ; ) 10,638 PQCov P Q S= =
20/03/2008
1P
21
2 2
1
2
1
) - () - (
) - () - (
=
=
= =
=q
jjj
k
iii
k
i
q
jjiij
xmfymf
xxymf
r
Estadstica de Pearson
Asociacin Lineal de Pearson
21
21
1
- -
-
2222
1
P
=
=
=
==q
jjj
k
iii
k
ijiij
q
j
xmfymf
xymmf
r
20/03/2008
Estadstica de Pearson APLICACIN 7: Se aplic una cantidad
estrgeno (C en mg.) versus su edad (E en aos)
2 39,393CS = 38,333E =25,417C= 2 167,225ES =
-
Humberto Villalobos 7-03-05
Primera Clase 14
20/03/2008
Estadstica de Pearson APLICACIN 7: Se aplic una cantidad
estrgeno (C en mg.) versus su edad (E en aos)
15 20 7 15 30 1 ... 35 60 6 25,417 38,33360
39,393 167,225pr
+ + + =
20/03/2008
La idea de Pronosticar
Al establecer un relacin funcional entre variables, se puede utilizar una para el pronstico de la otra.
20/03/2008
Estimacin de Parmetros
Para estimar los parmetros de la funcin de pronstico, se busca minimizar los errores cuadrticos.
20/03/2008
Estimacin de Parmetros
Minimizacin de errores cuadrticos
Modelo funcional entre las variables
20/03/2008
Estimacin de Parmetros
Minimizacin de errores cuadrticos
Clara relacin con el coeficiente
de Pearson
20/03/2008
Pronsticos en las variables
Minimizacin de errores cuadrticos
-
Humberto Villalobos 7-03-05
Primera Clase 15
20/03/2008
Pronsticos en el % de Capacidad APLICACIN 6: Considere la siguiente situacin ...
0, 7471pr =
Tiempo Transporte
010203040506070
7 9 11 13 15 17 19 21 23% de Capacidad no Utilizada
Tiem
po d
e Tr
ansp
orte
20/03/2008
Pronsticos en la Cantidad APLICACIN 7: Gastos Publicidad v/s Cantidad
10
14
18
22
26
7 9 11 13 15 17 19 21P [M/US$]
Q[M
/US
$]
0,9684pr =
20/03/2008
Pronsticos en el estrgeno
APLICACIN 7: Se aplic una cantidad estrgeno (C en mg.) versus su edad (E en aos)
2 39,393CS =
0,84pr =
38,333E =
25,417C=
2 167,225ES =
39,393 25,417 0,84 ( 38,333)167,225i i
y x= + 20/03/2008
Enfoque Matricial
Se cuenta con una matriz de Datos
20/03/2008
Enfoque Matricial
Es posible determinar un vector de media Cuidado con la caracterstica de la unidad de
medicin de la variable
Es posible determinar una matriz de varianza y covarianza entre la variables La covarianza es un indicador de el tipo de
asociacin (positiva negativa) entre pares de variables
Puede tomar cualquier valor en los reales Es un factor de importancia para Pearson y
Spearman
20/03/2008
Enfoque Matricial
1
11
=
1 p
# 1
1 X 1tn
=K1
2
1
=
p p
#
1 X 1tXn
=1
2
1
=
p p
x
x
x
#
-
Humberto Villalobos 7-03-05
Primera Clase 16
20/03/2008
Enfoque Matricial
Matriz de Varianza y Covarianza ()
1 11 (X 1 X ) (X 1 X )
1t t t t t
n nn = 21 21 1
212 2 2
21 2
p
p
p p p p p
s s s
s s s
s s s
=
""
# # % #"
Es una matriz Simtrica
S12 = S21 Es una matriz
semidefinidapositiva
20/03/2008
Enfoque Matricial
Aplicacin Matricial
20/03/2008
Herramientas de Excel
20/03/2008
Herramientas de Excel
ResultadoMatriz de
covarianzas