capítulo 2 análisis exploratorio de datos ii-2001

88
Capítulo 2 Capítulo 2 Análisis Análisis Exploratorio de Exploratorio de Datos Datos II-2001 II-2001

Upload: juanita-oliva

Post on 27-Jan-2016

224 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Capítulo 2 Análisis Exploratorio de Datos II-2001

Capítulo 2 Capítulo 2 Análisis Análisis

Exploratorio de Exploratorio de DatosDatosII-2001II-2001

Page 2: Capítulo 2 Análisis Exploratorio de Datos II-2001

• Cualitativo (Categorías)– Nominal Viña = 1 ; Santiago = 2 ; Temuco =

3 ..etc.

– Ordinal Pobre= 1; Aceptable = 2;

Bueno= 3; Excelente = 4

• Cuantitativo (Números)– Intervalo estatura, viscosidad, distancia, duración...etc

– Razón temperatura, peso...etcNOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)

NOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)

Clasificación/Tipo de DatosClasificación/Tipo de DatosClasificación/Tipo de DatosClasificación/Tipo de Datos

Page 3: Capítulo 2 Análisis Exploratorio de Datos II-2001

Clasificación : Nominal, Ordinal, Intervalos y Razón

Variables : Discretas y Continuas Categóricas,

CuantitativasOrganización : Frecuencia absoluta

Frecuencia relativa

A partir de nivel ordinal : Frecuencia absoluta

acumulada Frecuencia relativa acumulada

Escalas de MedidaEscalas de MedidaEscalas de MedidaEscalas de Medida

Page 4: Capítulo 2 Análisis Exploratorio de Datos II-2001

Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:

Variables Discretas: una que puede tomar sus valores de un conjunto de puntos aislados (subconjunto de valores en IR)

Variables Continuas: una que puede tomar sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en IR). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase”

Variables Categóricas o Cualitativas

Variables Cuantitativas

Tipos de VariablesTipos de VariablesTipos de VariablesTipos de Variables

Page 5: Capítulo 2 Análisis Exploratorio de Datos II-2001

Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.

Frecuencia Absoluta.

Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenece a dicha clase y se denota por ni. Como las clases c1, c2, ..... ck una partición de la muestra, es fácil verificar que

n = ni número total de observaciones o tamaño de la muestra

k

i = 1

Organización/PresentaciónOrganización/PresentaciónOrganización/PresentaciónOrganización/Presentación

Page 6: Capítulo 2 Análisis Exploratorio de Datos II-2001

Frecuencia Relativa.

Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que

fi = --- nótese que .... fi = 1 k

i = 1

ni

n

Organización/PresentaciónOrganización/PresentaciónOrganización/PresentaciónOrganización/Presentación

Page 7: Capítulo 2 Análisis Exploratorio de Datos II-2001

• Reglas: Partición de la Población– Cada observación debedebe pertenecer a una, y sólo

una clase o categoría.– Todas las observaciones deben ser pertenecer a

una.

• Tablas Tabligrama.• Gráficos de Barras Diagrama de Pareto.

• Gráficos Circulares o de Torta .

Presentación de Datos CualitativosPresentación de Datos CualitativosPresentación de Datos CualitativosPresentación de Datos Cualitativos

Page 8: Capítulo 2 Análisis Exploratorio de Datos II-2001

107

60

51

25

10

8

1

2

3

4

5

6

Clase Descripción Frecuencia

Ejemplo: Tablas Ejemplo: Tablas Ejemplo: Tablas Ejemplo: Tablas

Page 9: Capítulo 2 Análisis Exploratorio de Datos II-2001

Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.

• La variable induce una partición sobre la población la información puede clasificarse en clases o categorías. • Cada clase debe estar perfectamente definida y diferenciada de las demás. • La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:

Ejemplos : Clasificación de alumnos por Cursos : primero (1), segundo (2),...., sexto (6) año; Sexo : masculino (M), femenino (F); Colegio : SEK (1); Alemán(2), Ruben Castro(3), etc.

Escala NominalEscala NominalEscala NominalEscala Nominal

Page 10: Capítulo 2 Análisis Exploratorio de Datos II-2001

107

60

51

25

10 8

0

20

40

60

80

100

120

1 2 3 4 5 6

Clase

Fre

cuen

cia

Diagrama de Pareto

Escala NominalEscala NominalEscala NominalEscala Nominal

Page 11: Capítulo 2 Análisis Exploratorio de Datos II-2001

140%

223%

320%

410%

54%

63%

Diagrama Circular

Escala NominalEscala NominalEscala NominalEscala Nominal

Page 12: Capítulo 2 Análisis Exploratorio de Datos II-2001

Dónde existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de arreglar los elementos de acuerdo al orden establecido.

La variable admite grados de calidad:existe una relación de orden total entre las clases.

No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases.

Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)

Escala OrdinalEscala OrdinalEscala OrdinalEscala Ordinal

Page 13: Capítulo 2 Análisis Exploratorio de Datos II-2001

0

1

2

3

4

5

6

7

8

9

Pobre Regular Aceptable Bueno Muy Bueno

Diagrama de Bloques

Escala OrdinalEscala OrdinalEscala OrdinalEscala Ordinal

Page 14: Capítulo 2 Análisis Exploratorio de Datos II-2001

Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantificar la diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.

Está involucrado en concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.

Ejemplos: temperatura al interior de un silo, interés sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.

Escala IntervalarEscala IntervalarEscala IntervalarEscala Intervalar

Page 15: Capítulo 2 Análisis Exploratorio de Datos II-2001

• Tabligramas.

• Tablas de Frecuencia.

• Histogramas: valores discretos y continuos.

– Usar 5 a 20 clases (intervalos o grupos).– (considerar anchos de clases, límites y marca de clase).– (polígono de frecuencias – dibujar en marca de clase).

• Frecuencia Acumulada - Ojiva.– (graficar en límite superior).

Escala IntervalarEscala IntervalarEscala IntervalarEscala Intervalar

Page 16: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ejemplo: 40 Datos

10 7 811 1 2 3 7 912 0 3 3 4 6 813 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 815 0 2 3 3 8 816 0 0 1 2

Diagrama deTallos-y-hojas

Ejemplo: TabligramaEjemplo: TabligramaEjemplo: TabligramaEjemplo: Tabligrama

Page 17: Capítulo 2 Análisis Exploratorio de Datos II-2001

K := N° Clases 1 + 3.3 log n 7R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites

102,5-111,5111,5-120,5120,5-129,5129,5-138,5138,5-147,5147,5-156,5156,5-165,5

Marca

107116125134143152161

FrecuenciasABS - REL - REL. AC.

3 5 5 8 7 6 6

Conteo

/////////////// /////// ////// ///// /

Tabla de FrecuenciasTabla de FrecuenciasTabla de FrecuenciasTabla de Frecuencias

Page 18: Capítulo 2 Análisis Exploratorio de Datos II-2001

0

1

2

3

4

5

6

7

8

9

107 116 125 134 143 152 161

HistogramaHistogramaHistogramaHistograma

Page 19: Capítulo 2 Análisis Exploratorio de Datos II-2001

0

1

2

3

4

5

6

7

8

9

107 116 125 134 143 152 16199 170

Polígono de FrecuenciasPolígono de FrecuenciasPolígono de FrecuenciasPolígono de Frecuencias

Page 20: Capítulo 2 Análisis Exploratorio de Datos II-2001

0123456789

107 116 125 134 143 152 16199 170

10111213141516171819202122232425262728293031323334353637383940

Frecuencia Acumulada: OjivaFrecuencia Acumulada: OjivaFrecuencia Acumulada: OjivaFrecuencia Acumulada: Ojiva

Page 21: Capítulo 2 Análisis Exploratorio de Datos II-2001

Esta escala se usa cuando no sólo el orden y tamaño del intervalo son importantes.

La única diferencia entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no

Buscar ejemplos de Escala intervalar

Buscar ejemplos de Escala de razón

Tarea : Discuta la diferencia entre Precisión y Exactitud ,

Escala de RazónEscala de RazónEscala de RazónEscala de Razón

Page 22: Capítulo 2 Análisis Exploratorio de Datos II-2001

• Mediciones de Tendencia Central

• Mediciones de Dispersión

• Coeficiente de Variación

Extraer Información desde la MuestraExtraer Información desde la MuestraExtraer Información desde la MuestraExtraer Información desde la Muestra

Page 23: Capítulo 2 Análisis Exploratorio de Datos II-2001

• Estas medidas tienden a ubicarse en el centro del conjunto.

• Proporcionan un valor simple y representativo, que resume un gran volumen de información.

• Media Aritmética • Media Geométrica• Media Armónica

• Moda• Mediana • Semi Rango

Medidas de Tendencia CentralMedidas de Tendencia CentralMedidas de Tendencia CentralMedidas de Tendencia Central

Page 24: Capítulo 2 Análisis Exploratorio de Datos II-2001

• Miden la “dispersión” de valores dentro del conjunto de datos respecto de alguna medida de tendencia central.

• Rango• Rango Cuartílico• Rango Percentil

• Varianza• Desviación Estándar• Desviación Media

Medidas de DispersiónMedidas de DispersiónMedidas de DispersiónMedidas de Dispersión

Page 25: Capítulo 2 Análisis Exploratorio de Datos II-2001

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

0,3500

0,4000

0,4500

0,5000

4 5 6 70 1 2 3

Q1 Q2 Q3 Q4

Moda

MediaAritmética

Mediana

Rango

Medidas de Tendencia y DispersiónMedidas de Tendencia y DispersiónMedidas de Tendencia y DispersiónMedidas de Tendencia y Dispersión

Page 26: Capítulo 2 Análisis Exploratorio de Datos II-2001

fM fi = i = 1, 2, 3, ..., k. ni

n

V = 1 – fM = 1 - =nM

n

n - nM

n

Variables Categóricas: (Escala Nominal)Moda (Medida del centro)Tasa de Variación (Medida de Dispersión)

Tipo de VariableTipo de VariableTipo de VariableTipo de Variable

Page 27: Capítulo 2 Análisis Exploratorio de Datos II-2001

En un estudio de mercado se considera una muestra de 1100 fumadores averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla

Marca A B C D

Frecuencia 220 270 310 300

Frec. Relativa 0,200 0,245 0,282 0,273

fM = 0,282 Clase modal C

TV = 1 – 0,282 = 0,718 Tasa de variación

EjemploEjemploEjemploEjemplo

Page 28: Capítulo 2 Análisis Exploratorio de Datos II-2001

Variables Categóricas: (Escala Nominal)Moda (Mo) (Medida del centro)Tasa de Variación (V) (Medida de Dispersión)

Variables Cualitativas: (Escala Ordinal)Moda, Mediana (Me)Tasa de Variación,

Indice de Dispersión (ID) , Cuartíles

Qi = Cj j : min fj > i/4 Cj : clase j

Mediana = C(Q2)

D = rango clase es su N° de Orden K : N° total de clases

( rango C(Q3) – rango C(Q1)) (K –1)

Tipo de VariableTipo de VariableTipo de VariableTipo de Variable

Page 29: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ejemplo 2.4 : Se tiene la impresión que el servicio prestado por una sucursal bancaria no es buena; por lo tanto, la gerencia ordena un estudio al respecto.Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio recibido

Calificación P R S B E

Frec. Absoluta 20 10 18 16 6

Frec. Relativa 0,286 0,143 0,257 0,229 0,086

Frec Acumul 20 30 48 64 70

Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000

Q1 = 0,286 > 0,25 P

Q2 = 0,686 > 0,50 S

Q3 = 0,914 > 0,75 B

Q4 = E

fM = 0,286 CM = P

Med =C(Q2) CMed = S

V = 1 - fM = 1 – 0,286 = 0,714

D = = = 0,75

rC(Q3) – rC(Q1)

(K-1)

4 – 1

5 –1

1 2 3 4 5

Page 30: Capítulo 2 Análisis Exploratorio de Datos II-2001

Variables Categóricas: (Escala Nominal)Moda ( Medida del centro )

Tasa de Variación ( Medida de Dispersión )

Variables Cualitativas: (Escala Ordinal)Moda, MedianaTasa de Variación, Índice de Dispersión

Variables Cuantitativas: (Escala Intervalar)Moda, Mediana, Media, Media TruncadaTasa de Variación, Índice de Dispersión, VarianzaRango, Rango Inter-cuartílico (IQR), MEDA

Medidas de homogeneidad

Señal de Ruido = - log CV =X

S

2

2

X

S

Page 31: Capítulo 2 Análisis Exploratorio de Datos II-2001

Existen dos maneras de realizar los cálculos de las madidas características de datos de escala inervalar, con ...

1. Datos Agrupados: cuando los datos disponibles se presentan ya “trabajados” en tablas de frecuencias y no se cuenta con los datos originales.

2. Datos No agrupados: cuando los datos se presentan como “materia” en bruto

Escala IntervalarEscala IntervalarEscala IntervalarEscala Intervalar

Page 32: Capítulo 2 Análisis Exploratorio de Datos II-2001

Datos Agrupados:Datos Agrupados:

xi

ai

ni

Xi+1

fi : Frec. relativa Clase i =

Xi : Marca Clase i

X : Media Aritméticak : N° de clases

ni : Frec. absoluta Clase i

n : Tamaño Muestra

ai : Amplitud de Clase i

_

ni n

=

k

i

iXif1

*X =

Datos NO Agrupados:Datos NO Agrupados:

=

n

iiX

1X =

n

X : Media Aritmética

Xi : i-ésimo valor observado

n : Tamaño Muestra

Tendencia Central: PromedioTendencia Central: PromedioTendencia Central: PromedioTendencia Central: Promedio

Page 33: Capítulo 2 Análisis Exploratorio de Datos II-2001

L : Límite inferior Clase modal

aM : Amplitud Clase Modal

1 : nM - n1

2 : nM - n2

nM : Frec. absoluta Clase Modal

n1 : Frec. absoluta Clase anterior a Clase Modal

n2 : Frec. absoluta Clase posterior a Clase Modal

++=

21

1

M

aLM o

xML

aM

n1

nM

n2

1 2

Datos Agrupados:Datos Agrupados: Datos NO Agrupados:Datos NO Agrupados:

Es el valor que ocurre con mayor frecuencia: el valor más común.

• Puede que no exista moda.

• Puede que exista más un valor Modal

V = Tasa de Variación = 1 – fM

Tendencia Central: ModaTendencia Central: ModaTendencia Central: ModaTendencia Central: Moda

Page 34: Capítulo 2 Análisis Exploratorio de Datos II-2001

L : Límite inferior Clase Mediana (C Me)

Ne-1 : Frec. Acumulada hasta antes (C Me)

ne : Frecuencia Absoluta (C Me)

ae : Amplitud (C Me)

n : Tamaño de la muestra

e

e-1

en

Nn2aLMe

)( -+=

Datos Agrupados:Datos Agrupados:Datos Agrupados:Datos Agrupados:

xe

ae

Ne-1= fii = e-1

i = 1

L

ne

Datos NO Agrupados:Datos NO Agrupados:

Si los datos se ordenan de orden ascendente de magnitud, entonces la Mediana está dada por:

• Si n es imparSi n es impar , la Mediana es exactamente el valor del medio

• Si n es parSi n es par , la Mediana es el promedio de los valores

centrales

Me =n + 1

2

Tendencia Central: MedianaTendencia Central: MedianaTendencia Central: MedianaTendencia Central: Mediana

Page 35: Capítulo 2 Análisis Exploratorio de Datos II-2001

Datos Agrupados:Datos Agrupados:

fi : Frec. relativa Clase i

Xi : Marca Clase i

X : Media Aritméticani : Frec. absoluta Clase i

n : Tamaño Muestra

k : N° de clases

_

=

k

i

XX iif1

2)(S2 =_

ae

ne

xixi-1 xk

_x

ni nk

Datos NO Agrupados:Datos NO Agrupados:

Dispersión: Varianza MuestralDispersión: Varianza MuestralDispersión: Varianza MuestralDispersión: Varianza Muestral

=

n

i

XX i1

2)(S2 =

_

s2 : Variancia Muestral

X : Media Aritmética

Xi : i-ésimo valor observado

n : Tamaño Muestra

1

n

Page 36: Capítulo 2 Análisis Exploratorio de Datos II-2001

Datos Agrupados:Datos Agrupados:Datos Agrupados:Datos Agrupados: Datos NO Agrupados:Datos NO Agrupados:

MD : Desviación Media

X : Media Aritmética

Xi : i-ésimo valor observado

n : Tamaño Muestra

MD =

=

n

i

XX i1

_

n

Dispersión: Desviación MediaDispersión: Desviación MediaDispersión: Desviación MediaDispersión: Desviación Media

fi : Frec. relativa Clase iXi : Marca Clase i

X : Media Aritméticani : Frec. absoluta Clase in : Tamaño Muestrak : N° de clases| | : valor absoluto

ae

ne

xixi-1 xk

_x

ni nk

=1i

ifMD = XXi

k

Page 37: Capítulo 2 Análisis Exploratorio de Datos II-2001

RQ = (QRQ = (Q33– Q– Q11) / 2) / 2

xQ

L : Límite inferior Qi; i = 1,2,3,4NQí-1 : Frec. Absoluta acumulada hasta antes de la clase Q i

aQi : Amplitud cuartil i-ésimonQi : Frecuencia Absoluta de la clase del cuartil i-ésimon : Tamaño de la muestra

i

i

i Q

Q

Qin

Nin

aLQ

-*

+= - 14

Datos Agrupados:Datos Agrupados:

ae

L

nQi

i

i

NQ -1= fii = Q -1

i = 1

i

Datos NO Agrupados:Datos NO Agrupados:

Si los datos se ordenan de orden ascendente de magnitud, entonces el cuartil Qi, para i = 1, 2, 3, 4 está dado por

Qi =

• Puede ser necesario interpolar Puede ser necesario interpolar entre valores sucesivosentre valores sucesivos

• Nota QNota Q22 = = MeMe

i(n + 1)

4

Rango Inter-CuartílicoRango Inter-CuartílicoRango Inter-CuartílicoRango Inter-Cuartílico

Page 38: Capítulo 2 Análisis Exploratorio de Datos II-2001

L : Límite inferior percentil i-ésimoNPí-1 : Frec. Absoluta acumulada hasta antes de la

clase percentil i-ésimoaPi : Amplitud percentil i-ésimonPi : Frecuencia Absoluta de la clase del percentil

i-ésimon : Tamaño de la muestra

i

i

iP

P

Pi

n

Nin

aLP

-*

+= - 1100

Datos Agrupados:Datos Agrupados:

xP

ae

L

nPi

i

i

NP -1= fii = P -1

i = 1

RP = (PRP = (P9090 – P – P1010))

Datos NO Agrupados:Datos NO Agrupados:

Si los datos se ordenan de orden ascendente de magnitud, entonces el percentil Pi, para i = 1, 2, .., 99 está dado por

Pi =

• Puede ser necesario interpolar Puede ser necesario interpolar entre valores sucesivosentre valores sucesivos

• Nota PNota P5050 = = MeMe

i(n + 1)

100

Dispersión: Rango PercentilDispersión: Rango PercentilDispersión: Rango PercentilDispersión: Rango Percentil

Page 39: Capítulo 2 Análisis Exploratorio de Datos II-2001

Representación visual para describir, simultáneamente, varias características importantes tales como• Centro• Dispersión• Desviación de la asimetría• Identificación de las observaciones (valores atípicos)

Q1 Q2 Q3

3 I RQ 3 I RQ

Mediana

Valores Atípicos

Valores Atípicos

D = Índice de Dispersión = (rangQ3- rangQ1) / (K-1)

Gráficos de CajasGráficos de CajasGráficos de CajasGráficos de Cajas

Page 40: Capítulo 2 Análisis Exploratorio de Datos II-2001

Comparaciones gráficas entre conjuntos de datos

1

2

3

70 80 90 100 110 120

Gráficos de CajasGráficos de CajasGráficos de CajasGráficos de Cajas

Page 41: Capítulo 2 Análisis Exploratorio de Datos II-2001

Coeficiente de Simetría de Fisher 1 =

Sesgo.3S

m3

0 2,5 5 7,5 10 12,5 15 17,5 20

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

1 < 0

Distribución, tiende a concentrarse en Valores Altos de la Variable

Mo > MA > Me

0

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-4 -3 -2 -1 0 1 2 3 4

1 = 0

Distribución, es simétrica respecto a la Media

Mo = MA = Me

1 > 0

Distribución, tiende a concentrarse en Valores Bajos de la Variable

Mo < MA < Me

Características de forma: SimetríaCaracterísticas de forma: SimetríaCaracterísticas de forma: SimetríaCaracterísticas de forma: Simetría

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0 2,5 5 7,5 10 12,5 15 17,5 20

Page 42: Capítulo 2 Análisis Exploratorio de Datos II-2001

Coeficiente 2 = - 3 Curtosis4S

m4

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-4 -3 -2 -1 0 1 2 3 4

2 = 0

Distribución “Normal”

2 < 0

Distribución tiende a concentrarse alrededor de la Media.

Variancia Pequeña

Aguzada

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-2 -1 0 1 2

2 > 0

Distribución tiende a dispersarse

Variancia grande

Achatada.

0

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-4 -3 -2 -1 0 1 2 3 4 5-5

Características de forma: Características de forma: AchatamientoAchatamiento

Características de forma: Características de forma: AchatamientoAchatamiento

Page 43: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ejercicio: Se desea determinar las características de resistencia a la ruptura bajo cargas de tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de 0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2. El laboratorio de resitencia de materiales proporciona la tabla de frecuencias

Clase Límites Marca Frecuencia Frecuencia Frecuencia Frecuencia de Clase de Clase Absoluta Abs. Acuml. Relativa Relat. Acuml.

1 407,5- 412,5 410 4 4 0,032 0,0322 412,5- 417,5 415 5 9 0,040 0,0723 417,5- 422,5 420 8 17 0,064 0,1364 422,5- 427,5 425 14 31 0,112 0,2485 427,5- 432,5 430 13 44 0,104 0,3526 432,5- 437,5 435 19 63 0,152 0,5047 437,5- 442,5 440 20 83 0,160 0,6648 442,5- 447,5 445 15 98 0,120 0,7849 447,5- 452,5 450 12 110 0,096 0,880

10 452,5- 457,5 455 6 116 0,048 0,929 11 457,5- 462,5 460 7 123 0,056 0,984 12 462,5- 467,5 465 2 125 0,016 1,000

Determine: Todas las medidas de localización, escala, simetria y forma

Page 44: Capítulo 2 Análisis Exploratorio de Datos II-2001

Análisis de una muestra estratificadaAnálisis de una muestra estratificada

E2

n2 V2

2X

E1

n1 V1

1XEm

nmVm

mX

m

hh nn

1

nn

p hh

Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.

m- estratos

Page 45: Capítulo 2 Análisis Exploratorio de Datos II-2001

nih = Cantidad de individuos de la submuestra del estrato “h” que pertenece a Ci.

h

ih

nnihf

k

i 1

1ihf

k

ihih nn

1

k

iih XX

1ihf

k

i

hih XXV1

2)(ihf

m

hhp

1ihi ff

Análisis de una muestra estratificadaAnálisis de una muestra estratificada

Page 46: Capítulo 2 Análisis Exploratorio de Datos II-2001

2

11

)(

m

h

hh

m

hhhT XXpVpV

Entonces:

m

h

nh XpX1

erraT VVV intint

Análisis de una muestra estratificadaAnálisis de una muestra estratificada

Page 47: Capítulo 2 Análisis Exploratorio de Datos II-2001

EjemploEjemplo

Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán 1,00 ; 1,50 1,50 ; 2,00 2,00 ; 2,50.Centros

01,251,752,25

Frecuencias Absolutas(1) (2) (3)5 10 1010 20 3030 150 505 20 10

Calcular

Note que existen 3 estratos y 4 clases

raer

Thh

VV

VXVX

intint ,

,,,

Page 48: Capítulo 2 Análisis Exploratorio de Datos II-2001

FrecuenciaRelativa

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0 1,25 1,75 2,25

1,00 1,50 2,00 2,50

Peso

Criadero 1

Criadero 2

Criadero 3

Histograma Apilado por Peso

Análisis Muestra Estratificada

Análisis Muestra Estratificada

Page 49: Capítulo 2 Análisis Exploratorio de Datos II-2001

Criadero 1

Criadero 2

Criadero 3

1,00 1,50 2,00 2,50

FrecuenciaRelativa

0

0,1

0,2

0,3

0,4

0,5

0 1,25 1,75 2,25

Peso

Histograma por Estrato y por Peso

Análisis Muestra Estratificada

Análisis Muestra Estratificada

Page 50: Capítulo 2 Análisis Exploratorio de Datos II-2001

Estrato (1) P1=1/7

Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2

0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0525

Estrato (2) P2=4/7

fi2 fi2X1 Xi-X2 ( )2 fi2( )2

0,05 0 -1,662 2,76 0,1380,10 0,125 -0,412 0,17 0,0170,75 1,312 0,088 0, 01 0,0070,1 0,225 0,588 0,34 0,034

X1=1,525V1=0,331

X2=1,662V2=0,196

EjemploEjemplo

Page 51: Capítulo 2 Análisis Exploratorio de Datos II-2001

Estrato (3) P3=2/7

fi3 fi3X1 Xi-X3 ( )2 fi3( )2

0,10 0 -1,475 2,17 0,2170,30 0,375 -0,225 0,05 0,0150,50 0,875 0,275 0, 08 0,0400,20 0,225 0,775 0,60 0,060

X3=1,475V3=0,0332

Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2

Xh Vh

(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00057(2) 4/7 1,662 0,196 0,949 0,112 0,033 0,001 0,00057(3) 2/7 1,475 0,332 0,422 0,095 -0,114 0,013 0,00557

1,589 0,254 0,0067

Page 52: Capítulo 2 Análisis Exploratorio de Datos II-2001

Estrato (2) P2=4/7

fi2 fi2X1 Xi-X2 ( )2 fi2( )2

0,05 0 -1,662 2,76 0,138 0,10 0,125 -0,412 0,17 0,017 0,75 1,312 0,088 0, 01 0,007 0,10 0,225 0,588 0,34 0,034

X2=1,662

V2=0,196

Estrato (3) P3=2/7

fi3 fi3X1 Xi-X3 ( )2 fi3( )2

0,10 0 -1,475 2,17 0,2170,30 0,375 -0,225 0,05 0,0150,50 0,875 0,275 0, 08 0,0400,20 0,225 0,775 0,60 0,060

X3=1,475

V3=0,0332

Estrato (1) P1=1/7

Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2

0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0525

X1=1,525

V1=0,331

Page 53: Capítulo 2 Análisis Exploratorio de Datos II-2001

Se ha obtenido, entonces:

• Media Total X = 1,589

•Varianza promedio dentro de los estratosVintra= 0,254

•Varianza entre estratosVinter= 0,0067

•Varianza TotalVT= 0,2607

ResultadosResultados

Page 54: Capítulo 2 Análisis Exploratorio de Datos II-2001

Supongamos que se toma una muestra de tamaño n de una población y que se está investigando, o se desea estudiar, dos características de la misma.

Sean estas características X e Y. Siguiendo los procedimientos habituales, la Muestra se divide en • r clases Ai para la variable X • s clases Bj para la variables Y

Existirán elementos que pertenecerán simultánea-mente a AiBj. Los datos los podemos ordenar en una tabla o matriz llamada Tabla de ContingenciaTabla de Contingencia

Estadística BivariadaEstadística Bivariada

Page 55: Capítulo 2 Análisis Exploratorio de Datos II-2001

Y B1 B2 ..... Bj ..... Bs Total

A1 n11 n12 ..... n1j ..... n1s n1

A2 n21 n22 ..... n2j ..... n2s n2

Ai ni1 ni2 ..... nij ..... nis ni

Ar nr1 nr2 ..... nrj ..... nrs nr

Total n1 n2 ..... nj ..... ns n

X

n = n_

Tabla de ContingenciaTabla de Contingencia

Page 56: Capítulo 2 Análisis Exploratorio de Datos II-2001

Y B1 B2 ..... Bj ..... Bs Total

A1 f11 f12 ..... f1j ..... f1s f1

A2 f21 f22 ..... f2j ..... f2s f2

Ai fi1 fi2 ..... fij ..... fis fi

Ar fr1 fr2 ..... frj ..... frs fr

Total f1 f2 ..... fj ..... fs f

X

f = 1_

Tabla de ContingenciaTabla de Contingencia

Page 57: Capítulo 2 Análisis Exploratorio de Datos II-2001

Notación:

fij := frecuencia conjunta = fr(xi,yj)

fi = = frecuencia marginal =

f j = = frecuencia marginal =

fi/j = = frecuencia condicional =

j

ijf j

iji xyx )(),( rr ff

i

ijf i

jji yyx )(),( rr ff

j

ij

f

f

)(

),()/(

j

jiji y

yxyx

r

rr f

ff

Estadística BivariadaEstadística Bivariada

Page 58: Capítulo 2 Análisis Exploratorio de Datos II-2001

s

jiji nn

1

Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r(Independiente de la clases Bj a la que estén asociadas Suma de los valores de la fila i-ésima )

r

iijj nn

1

Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s(Independiente de las clases Ai a la que estén asociadas. Suma de los valores de la columna j-ésima)

nij Frecuencia Absoluta de la clase conjunta AiBj. (Valor observado en la celda (i,j) de la Tabla de Contingencia)

fij nijn

Frecuencia Relativa“conjunta” de la clase conjunta correspondiente a la intersección de Ai y Bj.

s

jijf

1

r

i 1

1

Tabla de ContingenciaTabla de Contingencia

Page 59: Capítulo 2 Análisis Exploratorio de Datos II-2001

Para frecuencias relativas , i = 1,....,r se tiene:

Además se verifica que:

s

jiji ff

1

(Suma de los valores de la fila i-ésimade la tabla de contingencia de frecuencias)

r

iijj ff

1

n

niif

n

n jjf

j

ij

n

n

j

iji/j f

ff

Tabla de ContingenciaTabla de Contingencia

Page 60: Capítulo 2 Análisis Exploratorio de Datos II-2001

niif

n

n jjf

Frecuencia (relativa) “marginal” de la variable X, Conjunto de valores pertenecientes a las clases Ai, considerandolas independientemente de las calses Bj

Frecuencia (relativa) “marginal” de la variable Y, Conjunto de valores pertenecientes a las clases Bj, considerandolas independientemente de las calses Ai

Dado el experimento anterior, cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las variables por separado se habla de Frecuencia Marginal de la variable

n

Frecuencia MarginalFrecuencia Marginal

Page 61: Capítulo 2 Análisis Exploratorio de Datos II-2001

Una tela se clasifica en tres categorías A, B y C según cantidad y severidad de pequeñas imperfecciones. La empresa tiene 5 telares, en un mes dado de producción se registraron los siguientes datos.

# piezas de tela en la clasificaciónTelar A B C Marginal

1 185 16 12 213 2 190 24 21 235 3 170 35 16 221 4 158 22 7 187 5 185 22 15 222Marginal 888 119 71 1078

Ejemplo

Tabla de ContingenciaTabla de Contingencia

Page 62: Capítulo 2 Análisis Exploratorio de Datos II-2001

Se dice que X es independiente de Y si las frecuencias condicionales de X/Y son todas iguales; es decir, no dependen de la clase condicionante, esto es

fi/1 = fi/2 = fi/3 = = fi/s = fi

A

i = 1, 2, 3, ... , r

i1n

1n i2

n

2n i3

n

3n is

n

Sn

i1n

1n

i2n

i3n

isn

2n 3n sn

+ +

+ +

+ +....

+ +....i

n

n

....

....

fi

ii/j ff jffj/i

ji/jij fff ij if jff

Luego similarmente

ji/j f

ijffComo

Independencia Estadística

Independencia Estadística

Page 63: Capítulo 2 Análisis Exploratorio de Datos II-2001

ijn

jn

j

i/j fijf

f

• Cuando se “pregunta” por la frecuencia relativa de una de las varia-bles, digamos X, restrigida a los elementos observados de una clase dada de la otra; esto es, estudiar el comportamiento de una variable dado un valor fijo de la otra.

Frecuencia (relativa) de la variable X en la clase conjunta AiBj, “dado” que sólo nos interesa respecto a lo observado en la clase Bj de la variable Y; para i = 1, 2, .., r

f1/j, f2/j, f3/j, ... , fr/j

Constituye la distribución de frecuencia relativa condicional de la variable X dada la clase Bj de la variable Y.Nótese que se trabaja “condicionado” sobre un tamaño de muestra “reducido” al número de observaciones de la clase Bj dada

Frecuencia CondicionalFrecuencia Condicional

Page 64: Capítulo 2 Análisis Exploratorio de Datos II-2001

Notación:

Análogamente, se tiene:

fj/i = = frecuencia condicional =

i

ij

f

f)(

),()/(

i

jiij x

yxxy

r

rr f

ff

Independencia Estadística

X e Y son variables estadísticamente independientes ssi:

ó

ó

)()/( jij yxy rr ff )()/( iyi xyx rr ff

ii/j ff jffj/i

Estadística BivariadaEstadística Bivariada

Page 65: Capítulo 2 Análisis Exploratorio de Datos II-2001

Independencia Estadística

como ij/iij fff ijij fff

Asociación de Variables

Datos no agrupados Cov(x,y) =

Datos agrupados : Cov(x,y) =

Coeficiente de Correlación = r =

))((1

yyxxn ii

))(( yyxx ii if

Cov (x,y) Sx Sy

Estadística BivariadaEstadística Bivariada

Page 66: Capítulo 2 Análisis Exploratorio de Datos II-2001

Fallas Anuales

Temperatura 120 140 160 Marginal Averías

2 20 15 10 45 3 12 7 5 24 4 4 10 2 16 5 - 5 10 15

Marginal 36 37 27 100 Obtener :Distribuciones marginalesDistribuciones condicionales (4 averías), Mediay Varianza condicional

EjercicioEjercicio

Page 67: Capítulo 2 Análisis Exploratorio de Datos II-2001

Fallas Anuales

Temperatura 120 140 160 Marginal Averías

2 0,20 0,15 0,10 0,45 3 0,12 0,07 0,05 0,24 4 0,04 0,10 0,02 0,16 5 0 0,05 0,10 0,15

Marginal 0,36 0,37 0,27 1,00 fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5

Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2

+1//8(160-137,5)2 =

EjercicioEjercicio

Page 68: Capítulo 2 Análisis Exploratorio de Datos II-2001

Curvas de Regresión Curvas de Regresión

X

Y

Page 69: Capítulo 2 Análisis Exploratorio de Datos II-2001

x , y son variables independiente y dependiente respectivamente. Además una variable estadística que representa el error.

Los parámetros 0 y 1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados.

Entonces

xy 10

iiiii xyyye 10 ˆˆˆ Sea ;

Curvas de regresión (Lineal)

Curvas de regresión (Lineal)

Page 70: Capítulo 2 Análisis Exploratorio de Datos II-2001

x

y

x: variable independiente y y : variable dependiente : una variable estadística que representa el error.

xx 10

xy 10

Modelo Estadístico (Lineal)

Modelo Estadístico (Lineal)

Page 71: Capítulo 2 Análisis Exploratorio de Datos II-2001

x

y

xy 10

1

0

Modelo Estadístico (Lineal)

Modelo Estadístico (Lineal)

Page 72: Capítulo 2 Análisis Exploratorio de Datos II-2001

x

y xy 10

Los parámetros 0 y 1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados. Esto es, minimizar el error cuadrático medio min ei

2

xx 10ii

ei

x

xyi 10

y

Modelo Estadístico (Lineal)

Modelo Estadístico (Lineal)

Page 73: Capítulo 2 Análisis Exploratorio de Datos II-2001

n

i

n

iiii xy

1 1

210

2 )(minmin1010

n

iiE eSC

1

2

x

xy

SC

SC1̂ xy 10 ˆˆ

n

iix xxSC

1

2)(

))(( yyxxSC i

n

iixy

1

n

iieVNE

1

2

Page 74: Capítulo 2 Análisis Exploratorio de Datos II-2001

Límites de Clase Ingreso Estandarizado

de una Población

Marca de Clase

105

Consumo Promedio de Leche Semanal

N° de Personas

Encuestadas

0 - 100000 0,5 2,13 532 100001 - 200000 1,5 2,82 647 200001 - 300000 2,5 3,70 692 300001 - 400000 3,5 4,25 867 400001 - 500000 4,5 4,86 865 500001 - 600000 5,5 5,16 513 600001 - 800000 7,0 5,23 530 800001 - 1000000 9,0 5,57 181

x

Ejemplo: Curvas de Regresión

Ejemplo: Curvas de Regresión

Page 75: Capítulo 2 Análisis Exploratorio de Datos II-2001

x y SCx SCy SCxy SCE

0,5 2,13 14,06 4,35 7,82 2,70 0,321,5 2,82 7,56 1,95 3,84 3,10 0,082,5 3,70 3,06 0,27 0,90 3,51 0,043,5 4,25 0,56 0,00 -0,03 3,91 0,114,5 4,86 0,06 0,42 0,16 4,32 0,305,5 5,16 1,56 0,89 1,18 4,72 0,197,0 5,23 7,56 1,03 2,79 5,33 0,019,0 5,57 22,56 1,84 6,44 6,14 0,32

34,0 33,72 57,00 10,74 23,10 33,72 1,374,25 4,215 4,215

0.4135965

0 2.4697149

y

x = y =

Modelo Estadístico: Ejemplo

Modelo Estadístico: Ejemplo

Page 76: Capítulo 2 Análisis Exploratorio de Datos II-2001

0.4135965=

SCx

ˆ SCxy=

ˆˆ 2.4697149 xy0 = =

SCxy= 23,10

SCx= 57,00

y

x

= 4,215

= 4,25

10,74

% de Ajuste del Modelo =

1 = 1,37= 0,872 87,2%

SCE

SCy

EjemploEjemplo

Page 77: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ejemplo: Curvas de RegresiónEjemplo: Curvas de Regresión

t 0 1 2 3 4 5 6

V(t) 30 60 46 32 10 4 1720 40 26 14 8

20 12

V(t) 25 40 46 29 12 6 17

Sea xt = sen t yt = V(t)

Luego y(t) = 0 + 1 xt + t

t

tt xyQ 210

,10

,)(min),(min

1010

Page 78: Capítulo 2 Análisis Exploratorio de Datos II-2001

3,25ˆˆ10 xy 20

),cov(ˆ21

xS

yx

12762 yS 45222 ,)ˆ( tt yy

% de Ajuste del Modelo =

%%,ˆ

981009801 2

2

y

t

S

e

Page 79: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ingreso

Co

ns

um

o

0.1 1.7 3.3 4.9 6.6 8.2 9.8

6.02

5.32

4.61

3.90

3.19

2.48

1.78

a = 2.4697149

b = 0.4135965

Linear Fit:

Y = a + bx

Ajuste LinealAjuste Lineal

Page 80: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ajuste LogarítmicoAjuste Logarítmico

Ingreso

Co

ns

um

o

0.1 1.7 3.3 4.9 6.6 8.2 9.8

6.02

5.32

4.61

3.90

3.19

2.48

1.78

Logarithm Fit:

Y = a + b*ln(x)

Page 81: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ajuste PolinomialAjuste Polinomial

Ingreso

Co

ns

um

o

0.1 1.7 3.3 4.9 6.6 8.2 9.8

6.02

5.32

4.61

3.90

3.19

2.48

1.78

Power Fit:

Y = a xb

a = 2.6890974

b = 0.3543629

Page 82: Capítulo 2 Análisis Exploratorio de Datos II-2001

Modelo LogísticoModelo Logístico

Ingreso

Co

ns

um

o

0.1 1.7 3.3 4.9 6.6 8.2 9.8

6.02

5.32

4.61

3.90

3.19

2.48

1.78

Logistic Model:

Y =

a

1+b*e-cx

a = 5.6469463

b = 2.2230602

c = 0.55970905

Page 83: Capítulo 2 Análisis Exploratorio de Datos II-2001

Ingreso

Co

ns

um

o

0.1 1.7 3.3 4.9 6.6 8.2 9.8

6.02

5.32

4.61

3.90

3.19

2.48

1.78

Richard’s Model:

Y =

a

1+b*e(b-cx)(1/d)

a = 5.6606384

b = 0.5984401

c = 0.5415778

d = 0.8782331

Modelo de RichardModelo de Richard

Page 84: Capítulo 2 Análisis Exploratorio de Datos II-2001

Asociación ExponencialAsociación Exponencial

Ingreso

Co

ns

um

o

0.1 1.7 3.3 4.9 6.6 8.2 9.8

6.02

5.32

4.61

3.90

3.19

2.48

1.78

Exponential Association (3):

Y = a (b - e-cx)

a = 4.6333776

b = 1.3115177

c = 0.2709334

Page 85: Capítulo 2 Análisis Exploratorio de Datos II-2001

Sea yi = h ( xi ) con i = 1,...,n

1. Lineales yi = axi + b

y = ax + bSy = a Sx

2. No lineales yi = h( xi )

y = h(x) + h”(x) SX2

Sy2 Sx

2 h’ (x)2

En particular h(x) = ln x y = ln x - ( Sx

2 / x2 )

Sy2 ( Sx

2 / x2 ) = CV 2

2

1

2

1

TransformacionesTransformaciones

Page 86: Capítulo 2 Análisis Exploratorio de Datos II-2001

Relaciones LinealizablesRelaciones Linealizables

1. y = K x ln y = a0 + a1 ln x2. y = K ( / x ) y = a0 a1 x-1

3. y = K ex ln y = a0 + a1 x

4. y = K e-/x ln y = a0 + a1 x-1

5. yt = K + cos t y = a0 + a1 xt

siendo xt = cos t

6. y() = y - 1 = a0 + a1 x

y-1 dy = a1 w = dy dx dx

ln w = ln a1 + ( 1 - ) ln y

Page 87: Capítulo 2 Análisis Exploratorio de Datos II-2001

3. Box-Cox Transformaciones (1964)

h (x) = X() =

( x + m ) - 1 0 x > -m

ln ( x + m ) = 0 m > 0

TransformacionesTransformaciones

Page 88: Capítulo 2 Análisis Exploratorio de Datos II-2001

Sea yi = h ( xi ) con i = 1,...,n

1. Lineales 2. No lineales• yi = a + bxi • y = a + b ln x • y = a + bx • y = a e bx

• sy = b sx

3. Linealizables• y = a x b ln y = ln a + b ln x• y = a ( b / x ) y = a b x-1

• y = a e bx ln y = ln a + b x

• y = a e-b/x ln y = ln a - b x-1

• yt = a + b cos t y = a + b xt siendo xt = cos t

TransformacionesTransformaciones