estadistica i 02
DESCRIPTION
Construcción de distribuciones de frecuencia y sus gráficasTRANSCRIPT
1
UCV/FACES/EACEstadísticas I
Distribuciones de Frecuencia y GráficasProf. Leonardo Simmons
Prof. Leonardo Simmons Estadísticas I -02
2
DISTIBUCIONES DE FRECUENCIA
Uno de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de los resultados, es decir, recoger la información de la muestra o población resumida en una tabla, que denominaremos distribución de frecuencias. en la que cada valor de la variable se le asocian sus frecuencias absolutas, relativas y acumuladas.
Las distribuciones de frecuencias varían en sus columnas dependiendo del nivel de agrupación de las observaciones de la variable estudiada y si ésta corresponde a una variable cualitativa, a una variable discreta o a una variable continua.
Prof. Leonardo Simmons Estadísticas I -02
3
DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)
Caso: Variable Cualitativa (Atributo)
La estructura de una DFDNA para una variable cualitativa es como sigue:
Donde:
Xi = es el i-ésimo valor de la variable de estudio
fi = es la frecuencia del i-ésimo valor de la variable
Hi y %hi = son la respectivas frecuencias relativas
1001.00n = N
%hkhkfkxk
::::
%h2h2f2x2
%h1h1f1x1
%hhfX
Prof. Leonardo Simmons Estadísticas I -02
4
DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)
P.ej: Se preguntó a un grupo de alumnos de Ingeniería Industrial su materia preferida y estas fueron sus respuestas:
mat eco adm inv indmat inv ind prob ecoprob mat mat adm inveco mat prob ind probmat prob ind ind inveco prob mat adm indmat ind mat inv indadm prob mat ind probmat eco adm ind probprob mat ind adm inv
P.ej: Organicemos estas repuestas en una DFDNA:
Materia Preferida (x) #Estudiantes (f) h %hAdministracion 6 0,12 12,00Ing. Económica 5 0,10 10,00Ing. Industrial 11 0,22 22,00Inv. de operaciones 6 0,12 12,00Matematicas 12 0,24 24,00Prob. y estadísticas 10 0,20 20,00
50 1,00 100,00
Prof. Leonardo Simmons Estadísticas I -02
5
DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)
De la tabla se pueden extraer conclusiones como:
2. La materia “más preferida” por los estudientes en la muestra es matemáticas con 24% y en segundo lugar Ing. Industrial con 22%
3. La materia “menos preferida” es Ing. Económica con 10%
4. La proporción de alumnos que prefieren Prob. Y estadísticas es 0,20
Se puede representar gráficamente la información contenida en la DFDNA:
Distibución de las Materias Preferidas
12%10%
22%12%
24%
20%Administracion
Ing. Económica
Ing. Industrial
Inv. de operaciones
Matematicas
Prob. y estadísticas
Distibución de las Materias Preferidas
02468
101214
Admin
istra
cion
Ing.
Eco
nóm
ica
Ing.
Indus
trial
Inv. d
e op
eracio
nes
Mat
emat
icas
Prob. y
estadí
stica
s
Materias
No
. E
stu
dia
nte
s
Fuente: Encuesta Fuente: Encuesta
Prof. Leonardo Simmons Estadísticas I -02
6
DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)
Caso: Variable Cuantitativa (Discreta)
La estructura de una DFDNA para una variable cuantitativa (Discreta)
es como sigue:
%Hk
:
%H2
%H1
%H
Hk
:
H2
H1
H
Fk
:
F2
F1
F
1001.00n = N
%hkhkfkxk
::::
%h2h2f2x2
%h1h1f1x1
%hhfX
Prof. Leonardo Simmons Estadísticas I -02
7
DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)
P.ej: Una encuesta entre un grupo de madres-solteras, para analizar los problemas económicos que enfrentan, en determinada comunidad; arrojó los siguientes resultados acerca del número de niños (menores de 12 años) en el hogar:
1 4 2 3 5 3 5 3 3 51 1 2 1 4 1 2 1 4 12 1 1 2 1 2 3 2 3 33 1 3 4 1 1 3 5 4 22 5 1 4 2 3 1 2 5 1
No. Niños (X ) No.Hogares (f) h %h F H %H1 16 0,32 32 16 0,32 322 11 0,22 22 27 0,54 543 11 0,22 22 38 0,76 764 6 0,12 12 44 0,88 885 6 0,12 12 50 1 100
50 1,00 100
Prof. Leonardo Simmons Estadísticas I -02
8
DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)
Gráficas asociadas…..
HistogramasDistribución del Porcentaje de Niños por Hogares
0
20
40
60
80
100
120
1 2 3 4 5
No. de Niños
%H
og
ares
1 2 3 4 5%
Ho
gar
es
5
15
20
25
30
10
35
No. de Niños
Distribución del Porcentaje de Niños por Hogares
Fuente: Encuesta de HogaresFuente: Encuesta de Hogares
Prof. Leonardo Simmons Estadísticas I -02
9
DISTIBUCION DE FRECUENCIA DATOS NO AGRUPADOS (DFDNA)
Gráficas asociadas…..
Ojiva Ascendente CircularDistribución del Porcentaje de Niños por
Hogares
222%
322%
412%
512%
132%
Fuente: Encuesta de Hogares
1 2 3 4 5
% H
og
ares
20
60
80
100
30
40
35
No. de Niños
Distribución Acumulada del Porcentaje de Niños por Hogares
Fuente: Encuesta de Hogares
Prof. Leonardo Simmons Estadísticas I -02
10
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
La distribución de frecuencia de datos agrupados (DFDA) por lo general se usa para organizar los valores poblacionales o muestrales de una variable cuantitativa continua.
Las observaciones de la variable se agrupan en clases o intervalos de tal manera que las frecuencias hacen referencia a la clase o intervalo de valores de la variable y no a un valor en particular como en el caso de la DFDNA.
A continuación se detalla el procedimiento para construir una DFDA:
4. Ordenar los datos
5. Determinar el Rango (R) de la variable: R = Xmax - Mmin
6. Determinar el número de clases o intervalos (K) de la distribución:
• Empíricamente
• Método de 2K: K es el exponente de 2 tal que 2K≥ n
• Formula de Sturges: K = parte entera (1+ 3,32 Log (n))
Prof. Leonardo Simmons Estadísticas I -02
11
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
1. Calcular el rango de las clases o intervalos (C) de la distribución:
C = R/K
3. Asiganar los limites de las clases o intervalos con la siguiente regla:
l1= Xmin , donde l1 = Limite inferior de la clase 1
L1= l1 + C, donde L1 = Limite superior de la clase 1
l2= L1, donde l2 = Limite inferior de la clase 2
L2= l2 + C …..y así sucesivamente hasta llegar a que Lk = Xmax
8. Clasificar cada observación de la variable en una y solo una de las clases, usando la siguiente regla:
• Las primeras K-1 clases son [) – cerradas en el limite inferior y abiertas en el limite superior
• La última clase (K) es [] – cerrada en ambos limites
9. Determinar las frecuencias relativas y acumuladas; además de la marca de clases:
Xi =(Li + li)/2
Prof. Leonardo Simmons Estadísticas I -02
12
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DDNA)
P.ej: La tienda CABRERA’S Y ASOCIADOS esta interesada en efectuar un análisis de sus cuentas por cobrar. Uno de los factores que más interesaba a la administración de la tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en Miles de Bs.F) como sigue:
7,42 8,15 11,1 12,18 12,98 13,02 17,64 17,97 20,64 21,125,68 29,75 32,67 34,40 38,74 43,13 43,66 43,66 43,97 51,69
53,4 60,94 68,13 70,15 77,97 79,61 81,59 89,19 90,99 93,91
1. Determinar el Rango (R) de la variable: R = Xma- Mmin= 93,91–7,42= 86,49
2. Determinar el número de clases o intervalos (K) de la distribución:• Método de 2K: K= 5 ya que 25 = 32 ≥ 30
• Formula de Sturges: K = parte entera (1+ 3,32 Log (30)) =parte entera (5,9069=5
Prof. Leonardo Simmons Estadísticas I -02
13
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
1. Calcular el rango de las clases o intervalos (C) de la distribución:
C = R/K = 86,49/5 = 17,298 *
Nota (*): como la variable se midío con 2 decimales redondeamos el valor calculado de C con la misma cantidad de decimales, es decir:
C = 17,30
5. Asiganar los limites de las clases o intervalos con la siguiente regla:
l1= Xmin = 7,42 ; L1= l1 + C = 7,42 + 17,30 = 24,72; ..y así sucesivamente
7. Clasificar cada observación de la variable en una y solo una de las clases, usando la siguiente regla:
• Las primeras K-1 clases son [) – cerradas en el limite inferior y abiertas en el limite superior
• La última clase (K) es [] – cerrada en ambos limites
8. Determinar las frecuencias relativas y acumuladas; además de la marca de clases:
Xi =(Li + li)/2
Prof. Leonardo Simmons Estadísticas I -02
14
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
Resultando la siguiente DFDA:
No. Cuentas (f)
Marca de
Clase (X) h %h F H %H
7,42 - 24,72 10 16,07 0,3333 33,3333 10 0,3333 33,333324,72 - 42,02 5 33,37 0,1667 16,6667 15 0,5000 50,000042,02 - 59,32 6 50,67 0,2000 20,0000 21 0,7000 70,000059,32 - 76,62 3 67,97 0,1000 10,0000 24 0,8000 80,000076,62 - 93,92 6 85,27 0,2000 20,0000 30 1,0000 100,0000
30 1,000 100,000
Saldo (Miles BsF)
Prof. Leonardo Simmons Estadísticas I -02
15
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
7,42 24,72 42,02 59,39 76,62 93,92
Saldo de la Cuentas por Cobrar (Miles Bs.F)
5
10
15
20
25
30
35
% C
uen
tas
po
r C
ob
rar
Distribución de los Saldo de la Cuentas por Cobrar (Miles Bs.F)
Cabrera & Asociados
Fuente: Archivos de Cabrera & Asociados
Grafica asociada a la DFDA: Histograma
Prof. Leonardo Simmons Estadísticas I -02
16
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
Grafica asociada a la DFDA:
Polígono de Frecuencia
7,42 24,72 42,02 59,39 76,62 93,92
Saldo de la Cuentas por Cobrar (Miles Bs.F)
5
10
15
20
25
30
35
% C
uen
tas
po
r C
ob
rar
Distribución de los Saldo de la Cuentas por Cobrar (Miles Bs.F)
Cabrera & Asociados
Fuente: Archivos de Cabrera & Asociados
16,07 33,37 50,57 67,97 85,27
Prof. Leonardo Simmons Estadísticas I -02
17
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
Grafica asociada a la DFDA:
Histograma
+
Polígono de Frecuencia
(Integrados)
7,42 24,72 42,02 59,39 76,62 93,92
Saldo de la Cuentas por Cobrar (Miles Bs.F)
5
10
15
20
25
30
35
% C
uen
tas
po
r C
ob
rar
Distribución de los Saldo de la Cuentas por Cobrar (Miles Bs.F)
Cabrera & Asociados
Fuente: Archivos de Cabrera & Asociados
Prof. Leonardo Simmons Estadísticas I -02
18
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DFDA)
Grafica asociada a la DFDA: Ojiva Ascendente
7,42 24,72 42,02 59,39 76,62 93,92
Saldo de la Cuentas por Cobrar (Miles Bs.F)
20
40
60
80
100
% C
uen
tas
po
r C
ob
rar
Distribución Acumulada de los Saldo de las Cuentas por Cobrar (Miles Bs.F)
Cabrera & Asociados
Fuente: Archivos de Cabrera & Asociados
Prof. Leonardo Simmons Estadísticas I -02
19
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DDNA)
Ejemplo de interpretación de los resultados contenidos en la tabla:
2. f1 : Diez (10) de las cuentas investigadas tienen saldo entre 7,42 y 24,72 miles BsF, lo cual representa el 10% – h1 – de la muestra.
3. H3 : 0,70 es la proporción de cuentas por pagar de la muestra con un saldo menor que 59,32 BsF.
4. %H3 : El 70% de las cuentas investigadas presentan saldo de a lo sumo 59,32 BsF.
5. X3 : La cantidad 50,67 BsF es el saldo que representa a todas las cuentas con saldo entre 42,02 y 59,32 BsF.
Prof. Leonardo Simmons Estadísticas I -02
7,42 24,72 42,02 59,39 76,62 93,92
Saldo de la Cuentas por Cobrar (Miles Bs.F)
20
40
60
80
100
% C
uen
tas
po
r C
ob
rar
Distribución Acumulada de los Saldo de las Cuentas por Cobrar (Miles Bs.F)
Cabrera & Asociados
Fuente: Archivos de Cabrera & Asociados
20
DISTIBUCION DE FRECUENCIA DATOS AGRUPADOS (DDNA)
Con ayuda de las gráficas podemos responder a preguntas como:
¿Que porcentaje aproximadamente de cuentas tienen saldos entre 30 y 65 BsF?
Como se aprecia 30 y 65 BsF no son limites de clases por eso no podemos responder directamente con la tabla esta pregunta y nos tenemos que valer de la gráfica de frecuencias acumuladas (ojiva) para ello:
-Aprox. el 40% de las cuentas tienen saldo ≤ a 30 Mil BsF
-Aprox. el 73% de las cuentas tienen saldo ≤ a 65 Mil BsF
Luego: 73%-40% = 33% entonces: aprox. El 33% de las cuentas tienen saldo entre 30 y 65 miles BsF
3065
40
73
Prof. Leonardo Simmons Estadísticas I -02
21
ANALISIS EXPLORATORIO DE DATOS
Diagrama de Tallo y Hoja
Las técnicas del análisis exploratorio de datos consiste en operaciones aritméticas sencillas y gráficas fáciles de trazar, que pueden emplearse para resumir con rapidez los datos de una muestra.
La técnica conocida como diagrama tallo y hoja se usa para mostrar en forma simultanea el orden del rango y la forma de un conjunto de datos. Persigue los siguientes objetivos:
• Representación visual de la información
• Descubrir un patrón de comportamiento de los datos, es decir, qué distribución pueden seguir los datos
• Identificar si hay valores extremos o datos anormales en la muestra
Es aplicables a variables cuantitativas de valores formados por al menos dos cifras.
Principio: Cada número se divide en dos partes, una que llamaremos "Tallo" y la otra denominada " ramas u Hojas".
Prof. Leonardo Simmons Estadísticas I -02
22
ANALISIS EXPLORATORIO DE DATOS
Diagrama de Tallo y Hoja
Ejemplo: Considere los siguientes números: 65, 57, 79, 69, 53, 63, 71. Los tallos serán las decenas, y las hojas serán las unidades, de la siguiente manera, luego:
Resto de los números (cifras secundarias) ubicadas a la derechaHoja
Formado por uno o más dígitos principales (cifras mas significativas), ubicados a la izquierda del número.
Tallo
197
3596
375
RamasTallo
Procedimiento:1. Se define cómo se van a dividir los números en tallos y hojas, es decir, se identifican cuales van a ser los tallos, y cuales va a ser las hojas. 2. En una columna se listan los tallos en orden ascendente.3. Se recorren los datos y se colocan, en la columna siguiente, las hojas de acuerdo al tallo que tengan y se ordenan en forma creciente
Prof. Leonardo Simmons Estadísticas I -02
23
ANALISIS EXPLORATORIO DE DATOS
Diagrama de Tallo y Hoja
Ejemplo: Considere la siguiente información sobre duración de baterías de carro, en años. Se pide:• Construir el diagrama de tallos y hojas usando como tallos la parte entera. • Construir el diagrama de tallos y hojas partiendo cada tallo en dos.
3.54.23.0 3.9 2.6 3.23.8 4.7
3.41.9 4.1 3.2 4.4 3.7 3.13.3
3.13.9 3.3 2.9 3.6 3.4 4.3 2.5
3.74.7 3.13.8 3.3 3.1 1.6 3.4
2.63.0 3.73.2 4.53.5 4.12.2
Duración de baterías (en años)
Prof. Leonardo Simmons Estadísticas I -02
24
ANALISIS EXPLORATORIO DE DATOS
Diagrama de Tallo y Hoja
• Usando como tallos la parte entera Tallos: Dígitos principales (Parte entera); Hojas: Dígitos secundarios (Parte decimal)
40Total
9 1 1 2 3 4 5 6 7 74
250 0 1 1 1 1 2 2 2 3 3 3 4 4 4 5 5 6 7 7 7 8 8 9 93
52 5 6 6 92
19 1
FrecuenciaHojasTallo
• Partiendo cada tallo en dos
En este caso el tallo 1 únicamente tendría la parte superior, y el tallo 4 tendría tanto la parte inferior como la superior
Prof. Leonardo Simmons Estadísticas I -02
25
ANALISIS EXPLORATORIO DE DATOS
Diagrama de Tallo y Hoja
40Total
45 6 7 74 S
51 1 2 3 44 I
105 5 6 7 7 7 8 8 9 9 3 S
150 0 1 1 1 1 2 2 2 3 3 3 4 4 4 3 I
45 6 6 92 S
122 I
191 S
FrecuenciaRamasTallo
Prof. Leonardo Simmons Estadísticas I -02
26
ANALISIS EXPLORATORIO DE DATOS
Diagrama de Tallo y Hoja
Observaciones:
• Se recomienda que el número de tallos esté entre 5 y 20.
• A veces, de acuerdo con la información que se tenga, pueden resultar muy pocos tallos, con lo cual las ramas quedan muy concentradas, y realmente no se obtiene mucha información. En estos casos, puede ser conveniente partir los tallos en dos: Un tallo inferior (que tenga, por ejemplo, las hojas menores que 5), y un tallo superior (que tenga las hojas mayores o iguales a cinco).
Así, por ejemplo, el tallo 6 puede dividirse en 6I, para los valores entre 60 y 64, y el tallo 6S, para los valores entre 65 y 69.
• Cuando se parten los tallos en dos, todos los tallos deben partirse en dos. Solamente el primero y el último tallo podrían dejarse sin partir, en caso de que en el primer tallo sólo haya información para el tallo superior, y cuando para el último tallo sólo haya información para el tallo inferior.
Prof. Leonardo Simmons Estadísticas I -02
27
TAREA No. 2
2. Resolver del libro Estadística para Administración y Economía – Anderson – 8va. Edición , capitulo 2, los ejercicios del 1 al 10 (pag. 28 al 30)
3. Resolver del libro Estadística para Administración y Economía – Anderson – 8va. Edición , capitulo 2, los ejercicios del 11 al 21 (pag. 36 al 39)
4. Resolver del libro Estadística para Administración y Economía – Anderson – 8va. Edición , capitulo 2, los ejercicios del 22 al 28 (pag. 42 al 43)
5. Si usted trabaja identifique al una variable cuantitativa importante que corresponda con algún proceso administrativo en el que usted interviene, p.ej: ventas, inventario, personal, etc. Recolecte una muestra de al menos 50 observaciones de dicha variable y construya una DFDA y sus respectivas gráficas. Saque algunas conclusiones