capitulo 1 de matematicas... · m.a. eduardo aguilera oseguera profesor de la facultad de...
TRANSCRIPT
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
1
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Conceptos y definiciones
Población
Muestra
Datos nominales
Datos nominales numéricos
Datos nominales sustantivos
Datos ordinales
Estadística descriptiva
Estadística inferencial
Cuestionario 1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
2
1
CONCEPTOS Y DEFINICIONES
La estadística es el conjunto de métodos o técnicas que se aplican a la recolección,
organización, presentación, análisis e interpretación de datos numéricos.
La estadística consiste en los cuatro pasos fundamentales que se acaban de mencionar:
primero se recolectan datos, los cuales, por lo general, en ese primer paso quedan en
desorden; se podría decir que se tienen los datos, pero todos revueltos. ¿Por qué?
Supóngase, por ejemplo, que se quiere saber el promedio del peso (en kilogramos) de las
personas que viajan en avión. Entonces, para recolectar esos datos se les indicará a los
viajeros que pasen a pesarse a la báscula. Una persona se encargará de registrar el peso que
va dando cada persona. Y evidentemente lo mismo podrá salir en primer lugar una gente
con 80 kilos que otra con 60; el siguiente apenas con 48 o con 75 kilos; y así
sucesivamente. Es decir, conforme pase a la bascula cada viajero quedarán registrados
todos sus pesos, pero sin ningún orden.
Para eso es la segunda etapa, la de organizar los datos. Organizar los datos significa
ponerlos en orden, ya sea de menor a mayor o a la inversa, cuando los datos son de tipo
numérico, como los pesos de un grupo de personas, o sus edades, o las calificaciones de un
grupo escolar, etc., o también por intervalos, anotando cuántos datos se registraron de cada
valor, aunque hay veces que esos datos no son de tipo numérico, como por ejemplo cuando
se desea saber las causas de mortandad en una población, o las enfermedades mas
frecuentes en algún periodo del año, o las preferencias de la gente en ciertas compras de
artículos. De cualquier forma, ya sea que se traten de datos numéricos o no, estos suele
hacerse a través de tablas.
La presentación de esos datos ya ordenados es para visualizar el comportamiento del grupo
en estudio. Suelen hacerse esas presentaciones por medio de gráficas.
Y finalmente la cuarta etapa es la interpretación, que de hecho es realmente el objetivo que
se persigue con la estadística. Sin la interpretación de los datos carecería de sentido la
estadística. Seria el equivalente a tener muchos datos recolectados y ya.
Cada una de estas etapas será motivo de estudio en forma individual cada una en diferente
capítulo.
La estadística o métodos estadísticos son de gran utilidad en muchas disciplinas, ya que en
la vida práctica frecuentemente se necesita extraer conclusiones válidas y confiables
respecto de un grupo de individuos u objetos. Por ejemplo, una fábrica de tornillos
seguramente requerirá saber el porcentaje de tornillos defectuosos que produce.
La medicina, la biología, la economía, la sociología, los deportes, la astronomía, la
docencia, etc., aplican los métodos estadísticos en diferentes niveles de complejidad, desde
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
3
aquellos que utilizan técnicas muy elaboradas hasta los que solamente requieren tablas de
información. En la actualidad la mayoría de las ciencias debe recurrir a la estadística de
manera indispensable para su enriquecimiento.
Una población es el conjunto de individuos u objetos con una característica común, acerca
del cual se quiere saber algo.
Ejemplos: Una población puede ser un grupo del 3er semestre de la escuela, acerca del cual
se desea saber su promedio de calificaciones en un mes determinado, o bien mes por mes.
Una población pueden ser los habitantes de una ciudad de la cual se desea saber el índice de
enfermedades en las diferentes épocas del año. Una población pueden ser los trabajadores
de una fábrica de los que se desea saber su porcentaje de rendimiento en el trabajo. Una
población puede ser una especie seleccionada de animales de la cual se desea investigar
patrones de comportamiento. Una población pueden ser todos los tornillos producidos en
una fábrica durante una semana o un mes.
Una población, dicho con otras palabras, es el conjunto universal, es decir, es el todo.
Una muestra es una parte representativa de la población.
A veces no es conveniente analizar uno a uno todos los elementos de una población, ya sea
por razones de costo, de tiempo o de posibilidad, en cuyos casos se seleccionan de manera
representativa algunos integrantes de la población. Esos son la muestra.
Por ejemplo, supóngase que se desea estimar el porcentaje de tornillos defectuosos que se
producen en una fábrica en cierto periodo. Si se fabrican 500 mil piezas a la semana, no es
costeable pagar a un trabajador para que se dedique a analizar uno a uno todos los tornillos.
Entonces se seleccionan algunos de los tornillos bajos ciertas técnicas que proporciona la
estadística, se calcula el porcentaje de tornillos defectuosos detectados en esa muestra y el
resultado se hace extensivo a toda la población, es decir, si en la muestra el 5% resultó
defectuoso, debe esperarse que en toda la población el promedio sea igual o muy próximo a
ese 5%.
En otros casos no se puede analizar toda la población porque ésta se destruiría. Por
ejemplo, supóngase que se desea saber el tiempo promedio de duración de ciertas piezas
antes de que sufran desgaste considerable. Una manera de hacerlo sería probando pieza por
pieza, pero eso implica que haya que someter a todas las piezas a la prueba y esperar a que
se desgasten hasta su inutilización para obtener su tiempo y promediar; entonces se tendría
ciertamente la información exacta del tiempo promedio de duración de las piezas
fabricadas, pero a costa de haberlas destruido. De manera que para evitar lo anterior, se
recurre a la muestra.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
4
Existen también ciertos eventos que dependen del tiempo, siendo la población total los
eventos del pasado, los del presente y los que acontecerán en el futuro, por lo tanto resulta
imposible analizar a los del futuro. En tales casos la muestra vienen siendo los sucesos ya
verificados (del pasado). Por ejemplo, se realiza una análisis durante 50 años sobre las
temperaturas promedio en las diferentes épocas del año en una ciudad; al observarse que en
Mayo las temperaturas siempre oscilaron entre los 29 y 32 grados, podrá hacerse una
especie de “predicción” para los años futuros en el sentido que se repetirán las mismas
temperaturas en el mes de Mayo. Aquí la muestra son los cincuenta años ya pasados que
fueron estudiados, mientras que la población la forman todos los años, incluyendo a los que
están por venir.
Finalmente, hay casos en que resulta imposible estudiar a todos los elementos de una
población, por lo que se recurre a la muestra. Seria el caso, por ejemplo, del biólogo que
desea descubrir rasgos de comportamiento de alguna especie animal como podría ser su
longevidad, o sea, los años que vive. No es posible investigar uno a uno a todos los
animales, por lo que se recurre a una muestra y de ellos se sacan conclusiones que se
extienden a toda la población.
Las dos características más importantes que debe tener una muestra son: uno, ser aleatorias,
esto es que cada miembro de la población tenga igual oportunidad de salir en la muestra, o
sea la misma probabilidad de ser escogido, y, dos, ser representativas de la población.
Al proceso de seleccionar o de obtener una muestra se le llama muestreo. La teoría del
muestreo abarca un capitulo completo dentro de la estadística; sin embargo, como esto
queda fuera del presente programa, no se abundará en este tema más allá que la simple
mención.
Una muestra, dicho en otras palabras, es un subconjunto de la población, es decir, es una
parte del todo.
Los datos nominales son aquellos que representan o exhiben los rasgos o características de
la población o de la muestra que se examina.
Se llaman datos nominales porque se refieren a su nombre. Por ejemplo, son datos
nominales las edades recabadas de ciertas personas, o las enfermedades más frecuentes en
cierto periodo del año, o el numero de muertes provocadas por determinada enfermedad, o
los sueldos de los trabajadores de una fábrica, o las temperaturas registradas en un lugar en
las diferentes épocas del año, o los metros cúbicos de lluvia anuales, etc.
Los datos nominales pueden ser:
a) Numéricos: si son números. Por ejemplo, la edad de las personas de cierto grupo, las
temperaturas registradas durante el año en una ciudad, etc.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
5
b) Sustantivos: si son nombres propios o comunes. Por ejemplo, si se refiere a los
árboles frutales de alguna región, o a las enfermedades que provocan muertes, las
marcas de vehículos más comerciales, etc.
Los datos ordinales son aquellos que, una vez ordenados, simplemente señalan el orden
que ocupa cada dato nominal.
Se llaman datos ordinales porque se refieren al orden que tienen dentro de todo el conjunto.
Por ejemplo, se desean saber las edades de un grupo de personas. Al realizar la encuesta se
obtiene que la siguiente tabla de edades una vez ordenados de menor a mayor:
DATO
(orden del dato)
EDAD
(“nombre” del dato)
1 23
2 24
3 24
4 24
5 24 6 25
7 25
8 26
9 27
Entonces se dice que al dato numero 3 (en el sentido de “tercer dato”), le corresponde el
dato 24. A veces se hace necesaria la pregunta: ¿Cuál es el dato que está a la mitad, o sea
que tiene igual número de datos antes y después de él? La respuesta podría darse como “es
el dato 5”, o bien “es el dato 24”. Cuando se refiere al “dato 5” es en el sentido del orden
del dato, o sea del que está en quinto lugar, mientras que cuando se responde que es “el
dato 24” se refiere al nombre o valor numérico del dato situado a la mitad. Debe entonces
distinguirse perfectamente el uso de la misma palabra con dos significaciones distintas,
igual que como sucede con casi todas las palabras en el Español.
Aunque en estadística realmente no se utilizan tablas en las que se muestren los datos
ordinales, a veces sí es necesario obtener, deducir o referirse a alguno de ellos, como se
verá en el presente curso al analizar el concepto de mediana; sin embargo, para evitar
confusiones, a los datos nominales se les llama también variables, porque varían de valor
de caso en caso y se representan con la letra “x”.
La estadística descriptiva es la que sus conclusiones se vierten exclusivamente sobre los
individuos analizados en función de los rasgos o datos extraídos de ellos.
Por ejemplo, el promedio de calificaciones del grupo “A” del 3er semestre en el mes de
noviembre fue de 7.12 en Matemáticas. Esta conclusión se debe a que se consideraron las
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
6
calificaciones de todos los alumnos, no de unos cuantos. Es decir, el promedio obtenido de
7.12 está describiendo en forma real a ese grupo.
Otro ejemplo: al efectuar el censo en la ciudad, se obtuvo que el 23% de la población no
había terminado sus estudios de secundaria. Como el censo se realiza casa por casa, es
decir, considerando uno por uno a todos los habitantes, la conclusión anterior describe en
forma real a esa población.
La estadística inferencial es la que sus conclusiones se generalizan sobre todos los
individuos de la población, en función de los rasgos o datos extraídos de una muestra.
Por ejemplo, se analizan 300 animales de la misma especie y de ellos se obtiene que su
edad promedio de vida es de 12 años. Se concluye, es decir, se infiere, que esa especie de
animales viven aproximadamente 12 años.
Otro ejemplo: en una muestra aleatoria de 450 transistores producidos en una fábrica, 14 de
ellos resultaron defectuosos. Se concluye, es decir se infiere, que el 3.1% de los 12 000
transistores que forman la producción total deben, o pueden, ser defectuosos.
También puede aplicarse el concepto de que “sus conclusiones se generalizan sobre todos
los individuos de la población”, a los que por ser dependientes del tiempo, solo pueden
analizarse los que ya acontecieron, extendiéndose las conclusiones a los que pertenecen al
futuro. En tales casos, la muestra son los acontecimientos pasados, únicos posibles de
haberse analizado, mientras que la población se considera a todos los sucesos iguales
incluyendo a los que en el futuro habrán de acontecer.
Por ejemplo, se realiza un análisis durante 100 años sobre los meses que llueve; al
observarse que en casi todos esos 100 años las lluvias se formalizaron en la segunda
quincena de Junio y que concluyeron a mediados de Octubre, puede hacerse una especie de
“predicción” para los años futuros en el sentido que se repetirá el ciclo de la misma manera.
Aquí la muestra son los cien años ya pasados que fueron estudiados, mientras que la
población la forman todos los años, incluyendo a los que están por venir.
Otro ejemplo: por análisis estadísticos se observa que el crecimiento de una población en
los últimos quince años ha estado en relación al 5% anual; puede entonces predecirse que
para el presente año también el crecimiento va a ser alrededor de ese 5%
Debe entenderse que cuando se habla de “predicción” es en cierto sentido un tanto
simbólica, pues la interpretación de los datos no va a llevar a contemplar de manera
infalible el futuro, sino simplemente con un alto grado de certeza que así sucederá.
De tal forma que la estadística sirve fundamentalmente para tres cosas: primero, para
describir el comportamiento o ciertos rasgos de una población a partir del estudio realizado
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
7
a cada uno de los integrantes de dicha población; segundo, para hacer generalizaciones
sobre toda una población a partir de rasgos comunes en una muestra; y, tercero, para
“predecir” características de sucesos futuros.
CUESTIONARIO
1. ¿Qué es la estadística?
2. ¿Cuáles son las cuatro etapas de la estadística?
3. ¿Qué es “una población”?
4. Citar dos ejemplos, diferentes a los del libro, de “poblaciones”.
5. ¿Qué es una muestra?
6. Citar dos ejemplos, diferentes a los del libro, de “muestras”.
7. Citar un ejemplo, diferente al del libro, en el que no resulta costeable
analizar a todos los individuos de una población.
8. Citar un ejemplo, diferente al del libro, en el que no se pueden analizar a
todos los individuos de una población porque ésta se destruiría.
9. Citar un ejemplo, diferente al del libro, en el que resulta imposible analizar a
todos los individuos de una población, por lo que se recurre a una muestra.
10. ¿Cuáles son las dos características fundamentales que debe tener una
muestra?
11. Al conjunto universal, es decir, al todo, al que abarca a todos los individuos,
¿cómo se le llama?.
12. Al subconjunto de la población, ¿cómo se le llama?
13. ¿Qué es un dato “ordinal”?
14. ¿Qué es un dato “nominal”?
15. ¿Por qué se la llama “ordinal” a ese dato?
16. ¿Por qué se le llama “nominal” a ese dato?
17. ¿A qué se le llama también “variable”?
18. ¿Con qué letra se representan las variables?
19. ¿Qué es la estadística descriptiva?
20. ¿Qué es la estadística inferencial?
21. Cuando se hace estadística analizando a todos los individuos de una
población, ¿qué tipo de estadística es?
22. Cuando se hace estadística analizando una muestra de la que se generaliza
hacia toda la población, ¿qué tipo de estadística es?
23. Cuando se hace estadística analizando acontecimientos pasados a partir de
los cuales “se predice” alguno futuro, ¿qué tipo de estadística es?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
8
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Organización de datos
Frecuencia
Distribución de frecuencia
Distribución de frecuencias simple
Cuestionario 2
Distribución de frecuencias por intervalos
Cuestionario 3
Frecuencias acumuladas
Cuestionario 4
Porcentajes y porcentajes acumulados
Cuestionario 5
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
9
2
ORGANIZACIÓN DE DATOS
Siendo el dato el material que se debe procesar, es decir, la materia prima de la estadística,
el primer paso es entonces la recolección de datos, para lo cual se emplean diferentes
técnicas, como la entrevista personal, el cuestionario, la observación, etc.
El segundo paso es la organización y ordenamiento de los datos, lo que se hace a través de
tablas, las cuales pueden ser simples o con intervalos, en ambos casos agrupando todos
aquellos que corresponden a un mismo dato nominal o variable y expresando en una
columna el número de veces que aparece esa variable.
Frecuencia es el número de veces que aparece cada variable o dato nominal.
Por ejemplo, se desea hacer una tabla que muestre las calificaciones en Matemáticas de un
grupo escolar. Se ve que hubieron dos alumnos que sacaron 10 de calificación, siete
estudiantes sacaron 9, etc.; se dice entonces que la frecuencia del dato nominal 10 es de
dos; la frecuencia de la variable 9 es 7.
Una distribución de frecuencias es el resultado de organizar los datos recolectados en
grupos, mostrando la frecuencia de cada uno. Esta puede ser simple o por intervalos.
DISTRIBUCION DE FRECUENCIAS SIMPLE
Organizar los datos recolectados, ya sea de menor a mayor o viceversa, de manera que se
muestre la frecuencia de cada uno de ellos, es hacer una distribución de frecuencias simple.
El primer paso es localizar el dato menor y el dato mayor dentro del conjunto de datos
recolectados aún en desorden, en el caso que los datos sean de carácter numérico. Una vez
conseguido lo anterior, en una primera columna se escriben todos los números que van
desde el menor hasta el mayor, incluidos éstos. Luego, se cuenta cuántas veces aparece el
primer valor nominal, para lo cual se aconseja ir marcando con una línea ( / ) cada vez que
se cuente uno. El proceso debe repetirse para cada variable. Finalmente se cuentan el
numero de marcas que se hayan registrado para cada valor nominal y se procede a construir
la tabla definitiva.
Ejemplo: Ordenar y construir una tabla de frecuencias simple del siguiente conjunto de
datos recolectados.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
10
24 20 32 32 29 21
21 22 33 30 27 26
23 24 20 25 26 32
28 22 29 29 33 35
31 28 32 35 33 32
27 21 33 29 25 24
SOLUCION:
Primer paso: se localizan los números más chico y más grande: son el 20 y el 33.
Segundo paso: se hace una lista completa de números desde el 20 hasta el 35:
20 24 28 32
21 25 29 33
22 26 30 34
23 27 31 35
Tercer paso: se cuenta cuántos datos nominales 20 aparecen y por cada uno que aparezca
se pone una “rayita” ( / ). Se hace lo mismo para cada valor:
20 // 24 /// 28 // 32 /////
21/// 25 // 29 //// 33 ////
22 // 26 // 30 / 34
23 / 27 // 31 / 35 //
A manera de comprobación, para tener la seguridad de que no se escapó alguno o no se
contaron de más, la suma de todas las “rayitas” ( / ) debe ser igual al numero de datos
nominales del conjunto inicial. En este caso existen 36 datos nominales y 36 “rayitas”, lo
que significa que el conteo fue correcto.
Cuarto paso: se elabora la tabla definitiva:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
11
DATO NOMINAL
(variable) x
FRECUENCIA
ƒ
20 2
21 3
22 2
23 1
24 3
25 2
26 2
27 2
28 2
29 4
30 1
31 1
32 5
33 4
34 0
35 2
TOTAL: 36
Es conveniente y a veces necesario obtener el total de una columna en una tabla, lo cual se
especifica como lo muestra la tabla anterior.
CUESTIONARIO 2
1. ¿Cuál es la “materia prima” de la estadística?
2. ¿Cuál es el primer paso que se verifica en la estadística?
3. ¿Cuáles son las diferentes técnicas que se emplean en la recolección de
datos?
4. ¿Cuál es la técnica más simple para contar el número de veces que aparece
cada dato?
5. ¿Cuál es el segundo paso en la estadística?
6. Para llevar a cabo el segundo paso, ¿qué se utilizan?
7. ¿Cómo pueden ser las tablas?
8. ¿Qué es frecuencia?
9. ¿Qué es una distribución de frecuencias?
10. ¿Cuántas clases de distribución de frecuencias existen y cuáles son?
11. ¿En qué consiste la distribución de frecuencias simple?
12. ¿En qué consiste la distribución de frecuencias por intervalos?
13. Describir los cuatro pasos que deben seguirse para hacer una distribución de
frecuencias simple.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
12
14. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
1 5 4 4 9
8 8 6 5 2
9 9 5 3 3
8 7 7 4 2
5 7 7 9 3
15. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
5 2 2 1 9
8 3 3 5 2
9 4 6 6 3
8 8 1 1 2
4 2 4 3 9
16. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
10 15 14 14 9
18 18 16 15 12
9 19 15 13 13
18 17 17 14 12
17. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
21 25 22 24 28
28 28 22 25 28
29 29 25 20 23
28 27 27 24 22
18. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
31 25 34 34 29
28 38 26 25 32
39 29 25 33 30
28 27 27 24 23
38 38 26 35 32
33 29 35 33 30
38 37 27 32 23
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
13
19. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
51 65 63 64 59
58 58 60 55 52
59 69 65 63 63
68 67 67 64 62
58 58 56 55 53
53 69 65 53 58
58 67 62 63 62
20. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
30 26 36 34 29
28 33 36 21 32
39 39 32 23 30
22 23 32 34 23
38 38 26 25 22
33 29 34 36 36
38 37 37 22 23
21. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:
35 23 36 33 32
32 32 23 24 32
39 29 22 22 30
22 23 32 24 23
38 28 27 27 21
31 27 35 35 36
38 39 37 24 23
DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS
Los datos recolectados pueden también organizarse por intervalos. Por ejemplo, al realizar
un censo en una ciudad, podría interesar cuántas personas tienen 0, 1 o 2 hijos, cuántas 3, 4
o 5 hijos, cuántas 6, 7 u 8 hijos, etc. Cada intervalo se llama también clase.
El ancho de clase o longitud del intervalo es la resta de el límite superior menos el limite
inferior de cada clase o intervalo. Así, en el ejemplo anterior, el intervalo de 0 a 2 hijos
tiene un ancho de 2 – 0 = 2. No debe confundirse el ancho de la clase con el número de
datos nominales que contiene el intervalo. El ancho de la clase 0 – 2 es de 2 mientras que el
numero de datos nominales que contiene es tres (0, 1 y 2).
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
14
A la organización de los datos recolectados en tablas por intervalos se le llama distribución
de frecuencias por intervalos. La característica más importante es que el ancho de cada
clase o longitud del intervalo debe ser el mismo para cada intervalo.
Se llama rango a la diferencia que existe entre el dato nominal mayor menos el dato
nominal menor.
Ejemplo: Ordenar y construir una tabla de frecuencias con cuatro intervalos del siguiente
conjunto de datos recolectados.
24 20 32 32 29 21
21 22 33 30 27 26
23 24 20 25 26 32
28 22 29 29 33 35
31 28 32 35 33 32
27 21 33 29 25 24
SOLUCIÓN:
Conviene iniciar de la misma manera que en la organización de frecuencias simple.
Entonces se localizan los números más chico y más grande: son el 20 y el 33 y se hace una
lista completa de números desde el 20 hasta el 35. A continuación se cuentan cuántos datos
nominales aparecen por cada uno y se pone una “rayita” ( / ), de lo que resulta:
20 // 24 /// 28 // 32 /////
21 /// 25 // 29 //// 33 ////
22 // 26 // 30 / 34
23 / 27 // 31 / 35 //
A manera de comprobación, para tener la seguridad de que no se escapó alguno o no se
contaron de más, la suma de todas las “rayitas” ( / ) debe ser igual al numero de datos
recolectados del conjunto inicial. En este caso existen 36 datos recolectados y 36 “rayitas”,
lo que significa que el conteo fue correcto.
Después, se cuenta cuántos datos nominales existen dentro del conjunto. En este caso hay
16. Este valor se puede obtener multiplicando 4 por 4, ya que están dispuestos en cuatro
filas y cuatro columnas, o bien restando 35 menos 20 (dato mayor menos datos menor) y al
resultado sumándole uno, ya que hay que recordar que en una resta uno de los extremos no
queda incluido y en el ejemplo presente ambos extremos, el 20 y el 35, están incluidos.
Entonces, como hay 16 datos nominales y se piden cuatro intervalos, simplemente se
dividen o se reparte, por lo que cada intervalo incluirá a cuatro datos nominales, como lo
muestra la siguiente tabla:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
15
INTERVALO FRECUENCIA
ƒ
20 – 23 8
24 – 27 9
28 – 31 8
32 – 35 11
TOTAL: 36
CUESTIONARIO 3
1. ¿Qué otro nombre recibe un intervalo?
2. ¿Qué significa “ancho de clase”?
3. ¿Qué significa “longitud del intervalo”?
4. ¿Cuál es la característica principal que deben tener los intervalos?
5. A la organización de los datos recolectados en tablas por intervalos, ¿cómo se le
llama?
6. ¿Qué es una distribución de frecuencias por intervalos?
7. ¿Qué es un rango?
8. Organizar el siguiente conjunto de datos en una tabla que contenga 3 intervalos:
1 5 4 4 9
8 8 6 5 2
9 9 5 3 3
8 7 7 4 2
6 9 5 8 3
5 7 3 4 2
9. Organizar el siguiente conjunto de datos en una tabla que contenga 3 intervalos:
5 2 2 1 9
8 3 3 5 2
9 4 6 6 3
8 8 1 1 2
9 5 2 6 3
10. Organizar el siguiente conjunto de datos en una tabla que contenga 5
intervalos:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
16
10 15 14 14 10
18 18 16 15 12
10 19 15 13 13
18 17 17 14 12
15 18 13 11 12
10 11 11 14 19
11. Organizar el siguiente conjunto de datos en una tabla que contenga 4
intervalos:
31 25 34 34 29
28 38 26 25 32
39 29 25 33 30
28 27 27 24 24
38 38 26 35 32
33 29 34 33 30
38 37 27 32 26
12. Organizar el siguiente conjunto de datos en una tabla que contenga 5
intervalos:
21 25 22 24 28
28 28 22 25 28
29 29 25 20 23
28 27 27 24 22
13. Organizar el conjunto de datos del problema 11 en una tabla que contenga 8
intervalos.
14. Organizar el siguiente conjunto de datos en una tabla que contenga 5
intervalos:
31 26 34 34 29
28 38 26 25 32
36 29 25 33 30
28 31 27 27 29
38 38 26 35 32
33 29 34 33 30
38 37 27 32 24
15. Organizar el conjunto de datos del problema 11 en una tabla que contenga 8
intervalos.
16. Organizar el siguiente conjunto de datos en una tabla que contenga 9
intervalos:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
17
35 23 36 33 32
32 32 23 24 32
38 29 22 22 30
22 23 32 24 23
38 28 27 27 21
31 27 35 35 36
38 30 37 24 23
17. Organizar el conjunto de datos del problema 16 en una tabla que contenga 3
intervalos.
18. Organizar el conjunto de datos del problema 16 en una tabla que contenga 6
intervalos.
19. Organizar el siguiente conjunto de datos en una tabla que contenga 5
intervalos:
25 33 36 33 32
32 22 23 24 32
38 29 20 22 30
22 23 32 24 23
39 30 37 24 23
20. Organizar el conjunto de datos del problema 19 en una tabla que contenga 4
intervalos.
21. Organizar el conjunto de datos del problema 19 en una tabla que contenga 10
intervalos.
22. Organizar el siguiente conjunto de datos en una tabla que contenga 5
intervalos:
22 32 36 23 32
32 22 23 34 32
38 29 20 23 30
22 33 32 24 23
20 38 20 27 21
21 27 29 35 20
38 30 37 39 23
23. Organizar el conjunto de datos del problema 22 en una tabla que contenga 4
intervalos.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
18
FRECUENCIAS ACUMULADAS
Muchas veces resulta de gran utilidad, una vez organizados los datos recolectados en una
tabla de frecuencias, ya sea simple o por intervalos, tener información sobre la frecuencia
que a partir del inicio de la tabla se tiene hasta cierto dato nominal determinado. A lo
anterior se le conoce con el nombre de frecuencias acumuladas (fa), y se añade en una
columna en la misma tabla.
Ejemplo 1: En los datos del ejemplo de la página 11, sus frecuencias acumuladas son:
DATO NOMINAL
(variable) χ
FRECUENCIA
ƒ
FRECUENCIAS
ACUMULADAS
ƒα
20 2 2
21 3 5
22 2 7
23 1 8
24 3 11
25 2 13
26 2 15
27 2 17
28 2 19
29 4 23
30 1 24
31 1 25
32 5 30
33 4 34
34 0 34
35 2 36
TOTAL 36 36
Ejemplo 2: En los datos del ejemplo de la página 15, sus frecuencias acumuladas son:
DATO NOMINAL
(variable) χ
FRECUENCIA
ƒ
FRECUENCIAS
ACUMULADAS
ƒα
20-23 8 8
24-27 9 17
28-31 8 25
32-35 11 36
TOTAL: 36 36
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
19
CUESTIONARIO 4
1. Del cuestionario 2, problemas 14 a 21, organizar cada conjunto de datos en una
distribución de frecuencias simple, agregando una columna de frecuencias
acumuladas.
2. Del cuestionario 3, problemas 8 a 23, organizar cada conjunto de datos en una
distribución de frecuencias por intervalos, conforme al respectivo enunciado,
agregando una columna de frecuencias acumuladas.
PORCENTAJES Y PORCENTAJES ACUMULADOS
Otras dos informaciones muy útiles dentro de la etapa de organización de datos es calcular
el porcentaje de cada variable conforme a su frecuencia, lo mismo que su porcentaje
acumulado, ya sea en una distribución de frecuentas simple o por intervalos.
Para calcular el porcentaje basta hacer una regla de tres, en donde el 100% es el número N
de datos recolectados, o sea el total de las frecuencias, esto es
N / 100 = f / x %
Donde:
N = numero total de datos recolectados o frecuencia total
f = frecuencia particular del dato nominal del que se desea saber su porcentaje
x % = porcentaje correspondiente al dato nominal de frecuencia ƒ.
O bien, despejando, se obtiene que
x % = 100f / N
EJEMPLO 1: en la tabla del ejemplo 1, añadir una columna que exprese los porcentajes de
cada dato nominal y otra de sus porcentajes acumulados.
SOLUCIÓN:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
20
DATO
NOMINAL
(variable) χ
ƒ ƒα PORCENTAJE
x %
PORCENTAJE
ACUMULADO
% α
20 2 2 5.5555 5.5555 x %= 100 x 2/36 = 5.5555
21 3 5 8.3333 13.8888
22 2 7 5.5555 19.4443
23 1 8 2.7777 22.2222
24 3 11 8.3333 30.5553 x %= 100 x 3/36 = 8.333
25 2 13 5.5555 36.1108
26 2 15 5.5555 41.6663
27 2 17 5.5555 47.2218
28 2 19 5.5555 52.7773
29 4 23 11.1111 63.8884 x %= 100 x 4/36 = 11.11
30 1 24 2.7777 66.6661
31 1 25 2.7777 69.4438
32 5 30 13.8888 83.3326 x %= 100 x 5/36 = 13.88
33 4 34 11.1111 94.4437
34 0 34 0 94.4437
35 2 36 5.5555 99.9992
TOTAL: 36 99.9992
EJEMPLO 2: en la tabla del ejemplo 2, añadir una columna que exprese los porcentajes de
cada dato nominal y otra de sus porcentajes acumulados.
DATO
NOMINAL
(variable) χ
ƒ ƒα PORCENTAJE
x %
PORCENTAJE
ACUMULADO
% α
20-23 8 8 22.2222 22.2222
24-27 9 17 25 47.2222
28-31 8 25 22.2222 69.4444
32-35 11 36 30.5555 99.9999
TOTAL: 36 36 99.9999
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
21
CUESTIONARIO 5
1. Del cuestionario 2, problemas 14 a 21, organizar cada conjunto de datos en una
distribución de frecuencias simple, agregando una columna de porcentajes y otra
de porcentajes acumulados.
2. Del cuestionario 3, problemas 8 a 23, organizar cada conjunto de datos en una
distribución de frecuencias por intervalos, conforme al respectivo enunciado,
agregando una columna de porcentajes y otra de porcentajes acumulados.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
22
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Presentación de datos
Grafica de barras
Cuestionario 6
Polígono de frecuencias
Cuestionario 7
Ojiva
Cuestionario 8
Grafica de sectores circulares o pastel
Cuestionario 9
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
23
3
PRESENTACIÓN DE DATOS
Los datos recolectados ya organizados en alguna de las formas vistas en el capitulo
anterior, para presentarlos en alguna forma fácil de entender o asimilar, por lo general es
mejor hacerlo a través de las gráficas.
Existen varias formas de graficas para representar los datos organizados, siendo las más
comunes aquellas que utilizan un sistema de coordenadas, las que deben cumplir los
siguientes requisitos:
1) El eje vertical debe comenzar forzosamente en cero. El eje horizontal puede
comenzar con otros valores, cuando son numéricos, o con nombres específicos
cuando no son numéricos, como por ejemplo, cuando son enfermedades,
nombres de frutas, ciudades, etc.
2) Si se hace necesario interrumpir alguna escala, ya sea la vertical o la horizontal,
debe mostrarse en forma clara con una línea en zig-zag, como lo muestra la
figura 1. Esto se hace cuando los valores representados en el eje horizontal
comienzan lejanos del cero y se desea interrumpir la escala, o cuando los valores
mínimos sobre el eje vertical alcanzan cifras elevadas.
3) Si se utilizan unidades, deben escribirse con toda claridad.
4) Los títulos deben ser claros y todos los letreros deben colocarse horizontalmente.
Se analizarán a continuación diferentes tipos de graficas.
FIGURA 1
23
22
21
2
1
0 1 2 20 21 22 23
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
24
GRÁFICA DE BARRAS
En este tipo de graficas deben cumplirse los siguientes requisitos, además de los requisitos
generales enumerados en la página anterior:
1) Siendo la gráfica de barras una representación grafica (valga la redundancia) de
una tabla, es requisito indispensable que antes de la grafica exista dicha tabla. En
este curso se exigirá que aparezca la tabla cuya representación es la grafica,
como medida de vigilancia hacia el alumno de que está procediendo
correctamente, aunque debe tenerse presente que cuando se utiliza una grafica ya
en la practica en cualquier campo de la vida, la tabla no se exhibe, pues
precisamente en su lugar se presenta la grafica para mostrar los datos ordenados.
2) Las barras deben tener todas el mismo ancho. Las figuras 2, 3 y 4 muestran
barras del mismo ancho todas, aunque las correspondientes a las figuras 3 y 4
poseen un defecto que se señalará en incisos siguientes, en cambio la figura 5
tiene el defecto de que las barras son de diferente ancho.
3) Debe evitarse en lo posible añadir a la grafica líneas horizontales a partir del
extremo superior de cada barra, para señalar el valor sobre el eje Y que le
corresponde, como lo muestra la figura 4. Para no generar la necesidad de esas
líneas es recomendable utilizar una cuadricula de fondo o en su defecto
solamente señalar sobre el eje vertical los valores que corresponden a cada una
de las barras.
4) La distancia entre cada barra debe ser siempre la misma, la que debe armonizar
con todo el conjunto. Distancias entre barras más grandes que el ancho de cada
barra o demasiado pequeñas desarmonizan la presentación de la grafica. La
figura 3 tiene el defecto de que las distancias entre barras, aunque son las
mismas, son demasiado grandes. Las figuras 4 y 5 tienen el defecto de que las
distancias entre barras son diferentes.
5) Cuando la grafica de barras no es la representación de datos numéricos, sino de
datos sustantivos, es decir datos con nombres específicos, debe evitarse poner el
nombre de cada barra en forma vertical, pues dificulta su lectura. La figura 6
muestra en primer termino una forma correcta de colocar los identificadores de
las barras en forma horizontal, mientras que la que aparece en segundo termino
muestra lo que indebidamente suele hacerse, escribiendo verticalmente dichos
identificadores.
6) Cuando la grafica de barras es la representación de datos numéricos organizados
por intervalos, justamente en los extremos de cada barra deben colocarse los
valores de los intervalos, como se muestra en la figura 7. A veces dará mayor
claridad escribir los limites del intervalo separados con un guión, como, por
ejemplo, 2 – 5, aunque esto último no es indispensable. Ver figura 10.
7) Debe evitarse rellenar cada barra con identificadores diferentes, colocando
después en otro sitio la lista de significados de cada uno de ellos, pues esto
complica su lectura, ya que la grafica debe mostrar todo el contenido de lo que
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
25
es o representa a primera vista. Hacerlo a base de rellenos implica doble lectura: una
de la grafica misma y la otra de la lista de significados. Es obvio que la lectura
resulta más ágil cuando, en vez de identificadores a base de rellenos, se utilizan
directamente los nombres de lo que representan, como en la parte correcta de la
figura 6.
Figura 2 Figura 3
Figura 4
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
26
Figura 5
CORRECTO
0
20
40
60
80
100
120
melón sandía mango mamey
INCORRECTO
0
20
40
60
80
100
120
me
lón
sandía
ma
ngo
ma
me
y
Figura 6
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
27
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7 8 9 10
CALIFICACIONES
0
5
10
15
20
25
2 5 7 10 12 15
0
5
10
15
20
25
2 5 7 10 12 15
2 5 7 10 12 15
Figura 7 Figura 8
------------------------------------------------------------------------------------
Ejemplo 1: Representar por medio de una gráfica de barras los datos organizados en la
siguiente tabla:
SOLUCIÓN:
Calificación ƒ
0 1
1 1
2 1
3 2
4 8
5 13
6 12
7 10
8 7
9 5
10 2
Figura 9
------------------------------------------------------------------------------------
Ejemplo 2: Representar por medio de una gráfica de barras los datos organizados en la
siguiente tabla:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
28
SOLUCIÓN:
Figura 10
------------------------------------------------------------------------------------
Ejemplo 3: Representar por medio de una gráfica de barras los datos organizados en la
siguiente tabla:
SOLUCIÓN: Rigurosamente la gráfica debería quedar como lo muestra la
figura 11.
0
1
2
3
4
5
6
7
1 3 5 7 9 11 13 15 17 19 21 23
Figura 11
Sin embargo, en casos como éste en los que queda un gran espacio vacío entre el eje
vertical y la primera barra es cuando se debe interrumpir la escala horizontal, para
“recorrerla” hacia el eje vertical conforme se dijo.
χ ƒ
1 – 3 4
4 – 6 6
7 – 9 7
10 – 12 5
13 – 15 6
χ ƒ
20 2
21 6
22 3
23 5
24 2
0
1
2
3
4
5
6
7
8
1 - 3 4 - 6 7 - 9 10 - 12 13 - 15
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
29
La idea es simular que el papel ocupado por el espacio en blanco se dobló para acercar la
gráfica hacia el eje vertical. Entonces, señalándolo con una línea en zig – zag, la gráfica
debe quedar como lo muestra la figura 12.
9
8
7
6
5
4
3
2
1
0
Figura 12
------------------------------------------------------------------------------------
CUESTIONARIO 6
1. Representar por medio de una gráfica de barras las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
2. Representar por medio de una gráfica de barras las tablas obtenidas en el
cuestionario 3, problemas 8 a 23.
POLÍGONO DE FRECUENCIAS
Esta gráfica se utiliza en la representación de tablas por intervalos. Consiste en unir los
puntos medios de cada barra, o lo que es lo mismo, los puntos medios de cada intervalo,
comenzando y terminando sobre el eje horizontal a una distancia equivalente al punto
medio de la siguiente barra, simulando que ésta existiera.
Ejemplo 1: Construir el polígono de frecuencias correspondiente a los datos organizados
en la tabla siguiente:
1
20 21 22 24 23
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
30
χ ƒ
1 – 3 4
4 – 6 6
7 – 9 7
10 – 12 5
13 – 15 6
SOLUCIÓN: la gráfica de barras correspondiente a la tabla es la que se muestra en la parte
izquierda de la figura 13, a la cual se le ha añadido una línea quebrada que une los puntos
medios. Eliminando las barras se obtiene el polígono de frecuencias.
0
1
2
3
4
5
6
7
8
1 - 3 4 - 6 7 - 9 10 - 12 13 - 15
POLÍGONO DE
FRECUENCIAS
0
2
4
6
8
2 5 8 11 14
Figura 13
------------------------------------------------------------------------------------
CUESTIONARIO 7
1. Representar por medio de un polígono de frecuencias cada una de las tablas
obtenidas en el cuestionario 3, problemas 8 a 23.
OJIVA
La palabra “ojiva” se emplea en el Español para denotar la línea curva compuesta por dos
arcos de circunferencia del mismo radio y sus concavidades en sentido contrario, como lo
muestra la figura 14.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
31
En Estadística se le llama ojiva, ya que en un buen numero de casos, toma forma semejante
a una ojiva, a la curva que se obtiene al graficar los datos nominales contra la distribución
de frecuencias acumuladas en sentido ascendente, es decir, comenzando en cero hasta llegar
la frecuencia total.
Pero debe quedar claro que no siempre la gráfica de una distribución de frecuencias
acumuladas toma una forma semejante a la de la figura 14.
Figura 14
La expresión “los datos nominales contra la distribución de frecuencias acumuladas”
significa que sobre el eje de las “x” se grafican los valores de los datos nominales, mientras
que sobre el eje de las “y” se representan las frecuencias acumuladas.
Ejemplo 1: la distribución acumulativa de las estaturas de un grupo, que indica el número
de alumnos que midieron menos de la estatura señalada, se muestra en la siguiente tabla.
Construir su ojiva correspondiente.
Estatura 123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
Alumnos
(ƒα) 0 1 5 14 38 67 89 103 108
SOLUCIÓN: las coordenadas de los puntos de la ojiva son el equivalente a los de la
tabulación de una ecuación, en donde los valores de las “x” corresponden a la de los datos
nominales, en este caso a las estaturas, mientras que los valores de las “y” corresponden a
las frecuencias acumuladas, de la siguiente manera:
χ 123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
γ 0 1 5 14 38 67 89 103 108
cuya gráfica es:
r 1
r 2
r1 = r2
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
32
0
20
40
60
80
100
120
123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5
datos nominales
frecu
en
cia
s a
cu
mu
lad
as
Figura 15
Ejemplo 2: Dibujar la ojiva correspondiente a la distribución de frecuencias acumuladas de
la tabla de la página 20.
SOLUCIÓN: las coordenadas de los puntos de la ojiva se muestran en la siguiente tabla:
χ 20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34
ƒα 2 5 7 8 11 13 15 17 19 23 24 25 30 34 34 36
cuya gráfica es:
0
5
10
15
20
25
30
35
40
20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34
datos nominales
fre
cu
en
cia
s a
cu
mu
lad
as
Figura 16
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
33
CUESTIONARIO 8
1. Dibujar la ojiva correspondiente a la distribución de frecuencias acumuladas de
los problemas 14 a 21, cuestionario 4.
2. Dibujar la ojiva correspondiente a la distribución de frecuencias acumuladas de
los problemas 8 a 23, cuestionario 4.
GRÁFICA DE SECTORES CIRCULARES O PASTEL
Este tipo de gráfica es recomendable para datos nominales sustantivos, no numéricos,
cuando no son muchos y cuando se desea mostrar el porcentaje de cada uno de ellos,
aunque puede utilizarse en otros casos.
Para ello se recomienda seguir los siguientes pasos.
1) Calcular los porcentajes, respecto del total, de cada frecuencia correspondiente a
cada dato nominal sustantivo. Por una regla de tres simple, en donde la suma de
todas las frecuencias es el 100%, se obtiene
Σf / 100 = f / x%
despejando:
x% = 100f / Σf
en donde:
Σf = suma de todas las frecuencias
f = frecuencia particular del dato seleccionado
x% = porcentaje del dato particular
2) Calcular los grados de la circunferencia que corresponden a cada uno de esos
porcentajes. También por una regla de tres simple, en donde los 360° de la
circunferencia son el 100%, se establece que
360° / 100% = x° / x%
despejando:
x° = (360) (x%) / 100
en donde:
x° = grados correspondientes al porcentaje x%.
x% = porcentaje calculado anteriormente para cada frecuencia.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
34
3) Marcar en un círculo, a partir de cualquier origen arbitrario, los grados de cada
sector obtenidos en el paso anterior.
4) Colocar dentro de cada sector las siguientes dos leyendas:
a) el dato nominal a que corresponde;
b) el porcentaje que le corresponde.
Solamente en caso de que no quepan las leyendas anteriores, se colocarán afuera de los
sectores, relacionando con claridad por medio de líneas, en caso necesario, cada sector con
sus respectivas leyendas.
A pesar de tener mucha aceptación, no es buena practica rellenar cada sector con
identificadores diferentes, colocando después en otro sitio la lista de sus significados, ya
que esto complica la lectura en virtud de que obliga a dos lecturas en dos espacios
diferentes.
Ejemplo 1: obtener la gráfica de sectores circulares de la siguiente tabla.
Dato nominal sustantivo ƒ
Plátano 2500
Manzana 1700
Guayaba 3000
Uva 4000
Σf =
11200
SOLUCIÓN: calculando el porcentaje de cada dato nominal sustantivo, se obtiene
a) para plátano
x% = 100 x 2500 / 11200 = 22.321%
b) para manzana
x% = 100 x 1700 / 11200 = 15.178%
c) para guayaba
x% = 100 x 3000 / 11200 = 26.785%
d) para uva
x% = 100 x 4000 / 11200 = 35.714%
A la tabla original conviene agregarle dos columnas más, una para los porcentajes de cada
dato nominal sustantivo y la otra para los grados que les corresponden a esos porcentajes,
las que se irán llenando conforme se realicen los cálculos correspondientes, de la siguiente
manera:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
35
Dato nominal
sustantivo ƒ % grados
Plátano 2500 22.321
Manzana 1700 15.178
Guayaba 3000 26.785
Uva 4000 35.714
Σf = 11200 99.998
Calculando como siguiente paso del proceso los grados de la circunferencia que
corresponden a cada uno de esos porcentajes:
a) para plátano
x° = 360 x 22.321 / 100 = 80.355
b) para manzana
x° = 360 x 15.178 / 100 = 54.640
c) para guayaba
x° = 360 x 26.785 / 100 = 96.426
d) para uva
x° = 360 x 35.714 / 100 = 128.570
Vaciando estos resultados en la última columna de la tabla, queda así:
Dato nominal
sustantivo ƒ % grados
Plátano 2500 22.321 80.355
Manzana 1700 15.178 54.640
Guayaba 3000 26.785 96.426
Uva 4000 35.714 128.570
Σf = 11200 99.998 359.991
Obsérvense que las sumas del porcentaje y de los grados no dan exactamente 100% ni
360°, en virtud de los decimales que no se tomaron, pero sus respectivos resultados casi
dieron esas cifras esperadas.
Marcando en un círculo, a partir de cualquier origen arbitrario, aunque de preferencia por
su fácil localización se escoge el eje vertical superior y avanzando en el sentido de las
manecillas del reloj en el mismo orden en que aparecen en la tabla, los grados de cada
sector obtenidos en el paso anterior y concentrados en la última columna, agregando en
cada sector la leyenda del dato nominal sustantivo y su porcentaje correspondiente, la
gráfica de sectores circulares resulta como se muestra en la figura 17.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
36
uva
36%
plátano
22%
manzana
15%
guayaba
27%
Figura 17
Debe entenderse que cada sector circular fue dibujado con auxilio de un transportador,
dando a cada uno de ellos el ángulo en grados que le corresponde, según la tabla.
Se dijo que no es recomendable rellenar cada sector con identificadores diferentes,
colocando después en otro sitio la lista de sus significados, ya que esto complica la lectura
en virtud de que obliga a dos lecturas en dos espacios diferentes, como la gráfica de la
figura 18. En otras palabras, hacer gráficas como ésta es colocar distractores a la lectura.
Aunque tampoco puede descartarse esta forma de hacer gráficas de sectores circulares, pues
a pesar del inconveniente anterior, también tiene algunas ventajas, las que resultan de más
peso para ciertos trabajos. Una de ellas es la presentación, ya que una gráfica como la de la
figura 18 parece más elegante que la de la figura 17. Depende entonces qué se prefiera: si
agilidad para su lectura o que sea agradable a la vista.
uva
guayaba
manzana
plátano
Figura 18
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
37
A partir de la gráfica por sectores circulares elemental se pueden crear diferentes formas
estilizadas para darle “estética” a la presentación, como pueden ser gráficas inclinadas
como las de las figuras 20 y 21, o gráficas con grosor como las figuras 20 y 21, o en forma
de anillos como la figura 21, o combinando las anteriores formas de inclinación o grosor,
etc., sin embargo, en este curso se trabajará solamente con compás y transportador para
construir la gráfica de sectores circulares simple, como la de la figura 17.
manzan
a
15%
guayaba
27%
uva
36%
plátano
22%plátano
22%
manzana
15%
guayaba
27%
uva
36%
Figura 19 Figura 20
plátano
22%
manzana
15%
guayaba
27%
uva
36%
Figura 21
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
38
CUESTIONARIO 9
Dibujar la gráfica de sectores circulares para cada uno de los siguientes casos, construyendo
una tabla con las cuatro columnas.
1)
Datos nominales ƒ
Gatos 12500
Perros 16000
Borregos 10250
Caballos 22750
2)
Datos nominales ƒ
Frijol 650
Maíz 220
Garbanzo 335
Chicharo 119
3)
Datos nominales ƒ
Frutas 350
Legumbres 600
Carnes 250
Enlatados 750
4)
Datos nominales ƒ
Gripes 23650
Amibas 33220
Sarampión 15335
Presión 5119
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
39
5)
Datos nominales ƒ
Luz $990
Teléfono 2600
Agua 250
Gas 650
Renta 3000
6)
Datos nominales ƒ
Cine 3220
Teatro 3990
Futbol 5335
Toros 2119
Otros 4966
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
40
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Medidas de tendencia central
La media
La media, frecuencias simples
Cuestionario 10
La media, frecuencias por intervalos
Cuestionario 11
La moda
La moda, frecuencias simples
La moda, frecuencias por intervalos
Cuestionario 12
La mediana
La mediana, frecuencias simples
Cuestionario 13
La mediana, frecuencias por intervalos
Cuestionario 14
Interpretación y utilización
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
41
4
MEDIDAS DE TENDENCIA CENTRAL
A veces, de los datos recolectados ya organizados en alguna de las formas vistas en
capítulos anteriores, se desea encontrar una especie de punto central en función de sus
frecuencias. En Estadística se conocen tres diferentes, llamadas “medidas de tendencia
central”, cuya utilización varía de acuerdo con lo que se desee del conjunto de datos
recolectados. Esas tres medidas de tendencia central son la media, la mediana y la moda.
Cada una de ellas se estudiará en dos partes: primero, cuando los datos están organizados
en tablas de frecuencias simples; y, segundo, cuando están organizados en intervalos.
LA MEDIA
La media, llamada pomposamente “media aritmética”, es la medida de tendencia central
conocida popularmente como “promedio”.
1) FRECUENCIAS SIMPLES:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
media se puede calcular por medio de la formula
_
X = Σ fx / n
En donde:
_
X = media
Σ fx = suma de las frecuencias por su correspondiente dato nominal.
n = suma de todas las frecuencias (numero de datos recolectados).
Para calcular la media, debe añadirse una columna a la tabla original en la que se registren
los resultados correspondientes al producto de la frecuencia por su valor nominal (fx).
Ejemplo 1: las calificaciones de Matemáticas de los grupos “A” y “B” se muestran en la
tabla siguiente. Calcular el promedio (la media) obtenido por esos grupos.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
42
Calificaciones χ ƒ
0 2
1 3
2 3
3 6
4 8
5 9
6 17
7 22
8 10
9 6
10 5
n= 91
SOLUCIÓN: debe añadirse a la tabla original una columna encabezada por ƒχ en donde se
anotarán los resultados correspondientes a las multiplicaciones de cada valor nominal χ por
su frecuencia respectiva.
Por ejemplo, para la primera fila:
fx = 2 x 0 = 0
para la segunda fila:
fx = 3 x 1 = 3
para la tercera fila:
fx = 3 x 2 = 6
La tabla completa con las tres columnas queda como se muestra en la siguiente tabla. La
suma de los valores de la columna ƒχ es 544, de manera que utilizando la formula para el
promedio, se obtiene:
_
X = 544 / 91
_
X = 5.97
Calificaciones χ ƒ
0 2
1 3
2 3
3 6
4 8
5 9
6 17
7 22
8 10
9 6
10 5
n= 91
ƒχ
0
3
6
18
32
45
102
154
80
54
50
544
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
43
Ejemplo 2: los precios de los 97 artículos que se venden en una tienda están señalados en
la tabla siguiente. Calcular el precio promedio que existe en dicha tienda.
Precios χ ƒ
$ 250.00 5
305.50 3
330.00 4
395.75 6
400.00 8
465.80 8
500.00 18
512.35 20
525.00 13
530.00 9
540.40 2
550.00 1
n = 97
SOLUCIÓN: debe añadirse, como en el ejemplo anterior, a la tabla original una columna
encabezada por ƒχ en donde se anotarán los resultados correspondientes a las
multiplicaciones de cada valor nominal χ por su frecuencia respectiva.
Por ejemplo, para la primera fila:
fx = 5 x 250.00 = 1250
para la segunda fila:
fx = 3 x 305.50 = 916.5
para la tercera fila:
fx = 4 x 330.00 = 1320.00
La tabla completa con las tres columnas queda como se muestra en la tabla. La suma de los
valores de la columna ƒχ es 45 260.2, de manera que utilizando la formula para el
promedio, se obtiene:
_
X = 45 260.2 / 97
_
X = 466.66
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
44
Precios χ ƒ ƒχ
$ 250.00 5 1250.00
305.50 3 916.50
330.00 4 1320.00
395.75 6 2374.50
400.00 8 3200.00
465.80 8 3726.40
500.00 18 9000.00
512.35 20 10247.00
525.00 13 6825.00
530.00 9 4770.00
540.40 2 1080.80
550.00 1 550.00
n = 97 45260.2
CUESTIONARIO 10
1. ¿A qué se le llama en Estadística “medidas de tendencia central”?
2. Mencionar las tres medidas de tendencia central.
3. ¿Qué es la media?
4. ¿Qué otros dos nombres tiene la media?
5. ¿Qué columna debe agregarse a la tabla original para calcular la media, cuando
está organizada en una distribución de frecuencias simples?
6. Calcular el promedio de los datos organizados en las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por
intervalos, la media se puede calcular por medio de la formula:
_
X = Σfx / n
En donde:
_
X = media
x = punto medio del intervalo
Σfx = suma de las frecuencias por su correspondiente dato nominal
n = suma de todas las frecuencias (numero de datos recolectados)
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
45
Obsérvese que es la misma formula que la correspondiente a los datos organizados en
tablas de frecuencias simples, en donde la única diferencia es la interpretación de la “x”. en
una representa el valor nominal, en ésta el punto medio del intervalo. De hecho, esta
situación se va a repetir en las otras dos medidas de tendencia central que faltan de estudiar
aún, la mediana y la moda, ya que también se estudiarán en dos casos: cuando los datos
estén organizados en tablas con frecuencias simples o cuando estén por intervalos.
Para calcular la media de datos organizados por intervalos, deben añadirse ahora dos
columnas a la tabla original: la primera columna añadida es para anotar el valor del punto
medio del intervalo (x) y la otra en la que se registren los resultados correspondientes al
producto de la frecuencia por el correspondiente valor del punto medio del intervalo (fx).
Ejemplo 1: calcular el promedio (la media) de los valores agrupados en intervalos de la
tabla siguiente.
Intervalos ƒ
0 – 2 12
3 – 5 13
6 – 8 23
9 – 11 16
12 – 14 18
n = 82
SOLUCIÓN: deben añadirse a la tabla original dos columnas encabezadas por χ y por ƒχ,
en donde se anotarán los resultados correspondientes a los puntos medios de cada intervalo
y al producto de la frecuencia por ese punto medio. La tabla completa con las cuatro
columnas queda como se muestra a continuación:
Intervalos ƒ Punto medio χ ƒχ
0 – 12 12 1 12
3 – 5 13 4 52
6 – 8 23 7 161
9 – 11 16 10 160
12 – 14 18 13 234
n = 82 Σfx = 619
La suma de los valores de la columna ƒχ es 619, de manera que utilizando la formula para
el promedio, se obtiene:
_
X = Σfx / n = 619 / 82
_
X = 7.548
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
46
CUESTIONARIO 11
1. ¿Qué columnas deben agregarse a la tabla original para calcular la media, cuando
está organizada en una distribución de frecuencias por intervalos?
2. Calcular el promedio de los datos organizados en intervalos en las tablas
obtenidas en el cuestionario 3, problemas 8 a 23.
LA MODA
La moda es la medida de tendencia central que se define simplemente como aquel valor
nominal que tiene la frecuencia mayor. Por lo tanto, una distribución de frecuencias puede
tener más de una moda.
La moda se simboliza con sus dos primeras iniciales: Mo
1) FRECUENCIAS SIMPLES:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
moda se obtiene buscando en la columna de frecuencias simples el o los valores que tengan
mayor frecuencia.
Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.
TABLA “A”
x f
35 12
40 8
45 13
50 11
55 16
60 10
65 11
70 15
75 14
80 5
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
47
TABLA “B”
x f
100 25
200 29
300 27
400 29
500 22
600 24
700 28
800 25
900 28
1000 19
SOLUCION: para la tabla “A”, basta recorrer la columna de las frecuencias y localizar que
la mayor frecuencia es f = 16, que corresponde al dato nominal 55. Por lo tanto la moda es
Mo = 55.
Para la tabla “B”, basta recorrer la columna de las frecuencias y localizar que la mayor
frecuencia es f = 29, que corresponde a los datos nominales 200 y 400. por lo tanto la moda
es Mo = 200 y también Mo = 400, es decir, la tabla “B” tiene dos modas.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por
intervalos, la moda se obtiene buscando en la columna de frecuencias el o los valores que
tengan mayor frecuencia. Entonces la moda es el punto medio del intervalo que tiene la
mayor frecuencia.
Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.
TABLA “A”
Intervalo f
3 – 5 52
6 – 8 68
9 – 11 53
12 – 14 41
15 – 17 70
18 – 20 64
21 – 23 69
24 – 26 68
27 – 29 55
30 – 32 52
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
48
33 – 35 66
36 – 38 61
39 – 41 45
42 – 44 64
45 – 47 52
TABLA “B”
Intervalo f
11 – 20 75
21 – 30 62
31 – 40 77
41 – 50 55
51 – 60 77
61 – 70 70
71 – 80 58
81 – 90 63
91 – 100 69
101 – 110 72
111 – 120 77
121 – 130 76
131 – 140 75
141 – 150 42
151 – 160 53
SOLUCIÓN: para la tabla “A”, basta recorrer la columna de las frecuencias y localizar que
la mayor frecuencia es f = 70, que corresponde al intervalo 15 – 17. Por lo tanto la moda es
el punto medio de ese intervalo, es decir, Mo = 16.
Para la tabla “B”, basta recorrer la columna de las frecuencias y localizar que la mayor
frecuencia es f = 77, que corresponde a los intervalos 31 – 40, 51 – 60 y 111- 120. Por lo
tanto la moda es el punto medio de cada uno de esos intervalos, esto es Mo = 35.5 y
también Mo = 55.55, y también Mo = 115.5, es decir, la tabla “B” tiene tres modas.
CUESTIONARIO 12
1. ¿Qué es la moda?
2. ¿Por qué una distribución de frecuencias puede tener más de una moda y en
cambio no puede tener más que una media exactamente?
3. ¿Cómo se simboliza la moda?
4. ¿Cómo se obtiene la moda cuando los datos están organizados en intervalos?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
49
5. Localizar la moda de los datos organizados en las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
6. Localizar la moda de los datos organizados en intervalos en las tablas obtenidas
en el cuestionario 3, problemas 8 a 23.
LA MEDIANA
La mediana es la medida de tendencia central que se define como aquel valor nominal que
tiene, dentro de la tabla, arriba y abajo de él, el mismo numero de datos nominales. En otras
palabras, es el que está a la mitad.
Para facilitar la localización de la mediana en una tabla, conviene agregarle una columna en
la que se anoten las frecuencias acumuladas. Entonces, el número total de datos
recolectados más uno, dividido entre dos, ese resultado se busca en la columna de las
frecuencias acumuladas y al dato nominal que le corresponda, es la mediana.
La mediana se simboliza con las letras: Mdn
1) FRECUENCIAS SIMPLES:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la
mediana se obtiene buscando en la columna de frecuencias acumuladas el valor que esté
situado exactamente a la mitad. Si los datos recolectados son numero impar, algún valor
real existente de la tabla coincide con la mediana; pero si son numero par, la mediana se
toma como la media de aquellos dos que fluctúan a la mitad.
Ejemplo 1: localizar la mediana del conjunto de calificaciones mostrado en la siguiente
tabla.
x f fa
0 1 1
1 1 2
2 3 5
3 5 10
4 6 16
5 7 23
6 11 34
7 15 49
8 25 74
9 20 94
10 23 117
117
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
50
SOLUCIÓN: a la tabla original ya se le añadió la columna de frecuencias acumuladas. La
máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales, es
de 117. Es decir, la tabla corresponde a las calificaciones de 177 alumnos.
El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando
1 al 117 y dividiéndolo entre dos, es decir,
fc = 1 + 117 / 2 = 59
Que significa que el dato ordinal 59 es el que está situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta la calificación 7, contadas desde
el principio, van apenas 49 alumnos, mientras que hasta la calificación 8 ya van 74. Esto
significa que dentro de la calificación 8 está el alumno número 59, que es el central. Por lo
tanto, la mediana es Mdn = 8.
Dicho de otra forma: cuando se fueron ordenando una por una las calificaciones, al contar
el último siete se llevaban en ese momento 49 calificaciones ordenadas. Al continuar, el
50° (quincuagésimo) dato o calificación fue de valor 8; el 51° (quincuagésimo primer) dato
fue también de valor 8; el 52° (quincuagésimo segundo) dato o calificación fue también de
valor 8, y así sucesivamente hasta el 74° (septuagésimo cuarto), o sea 25 más (que es la
frecuencia del dato nominal x = 8) Eso significa que el 59° (quincuagésimo noveno) dato
correspondió al valor nominal x = 8.
El error más común que se comete a la hora de intentar localizar la mediana es buscar el
dato nominal x central en vez del dato ordinal, o sea, el error consiste en buscar en la
columna de los datos nominales x el que está a la mitad y eso no es. En el ejemplo anterior,
el dato nominal x central es el 5 y ése no es la mediana.
Ejemplo 2: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.
x f fa
500 10 10
525 10 20
550 13 33
600 12 45
700 11 56
750 7 63
800 7 70
900 5 75
950 5 80
1000 3 83
1200 2 85
1250 2 87
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
51
1350 1 88
1400 1 89
89
SOLUCIÓN: la tabla anterior es la tabla original a la que ya se le añadió la columna de
frecuencias acumuladas.
La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,
es de 89. Es decir, la tabla corresponde a 89 datos recolectados.
El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene
sumando 1 al 89 y dividiéndolo entre dos, es decir,
fc = 1 + 89 / 2 = 45
que significa que el dato ordinal 45 es el que esta situado a la mitad de todos, o sea, hay 44
antes y 44 después de él. Observando la columna de las frecuencias acumuladas se ve que
hasta el dato nominal x = 600, contados desde el principio, van 45 datos recolectados. Esto
significa que de los 12 datos nominales x = 600, justamente el ultimo de ellos ocupa el
orden 45, que es el central. Por lo tanto, la mediana es Mdn = 600.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos nominales, al
contar el ultimo correspondiente al valor x = 550, se llevaban hasta allí 33 datos
recolectados. Al continuar, el 34° (trigésimo cuarto) dato fue de valor x = 600, el 35°
(trigésimo quinto) dato fue de valor x = 600, el 36° (trigésimo sexto) dato fue de valor x =
600, y así sucesivamente hasta el 45° (cuadragésimo quinto), o sea 12 más (que es la
frecuencia del dato nominal x = 600) Eso significa que el 45° (cuadragésimo quinto) dato
correspondió al valor nominal x = 600.
Obsérvese que la mediana Mdn = 600 no es el que está situado a la mitad de la columna de
los datos nominales x.
Ejemplo 3: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.
x f fa
45 100 100
46 106 206
47 63 269
48 112 381
49 81 462
50 70 532
51 27 559
52 5 564
58 10 574
574
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
52
SOLUCIÓN: debe entenderse que la tabla original consta solamente de las dos primeras
columnas x y f.
La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,
es de 574. Es decir, la tabla corresponde a 574 datos recolectados.
El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene
sumando 1 al 574 y dividiéndolo entre dos, es decir,
fc = 1 + 574 / 2 = 287.5
que significa que tanto el dato ordinal 287 como el 288 son los que están situados a la
mitad de todos. Observando la columna de las frecuencias acumuladas se ve que dentro del
conjunto de 112 datos recolectados con valor nominal x = 48, están los que ocupan el orden
287 y 288, de manera que en este caso no hay conflicto para determinar la mediana y ésta
es Mdn = 48.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al
contar el ultimo dato nominal con valor x = 47, se llevaban en ese momento 269 datos
recolectados ordenados. Al continuar, el 270° (bicentésimo septuagésimo) dato fue de valor
48; el 271° (bicentésimo septuagésimo primer) dato fue también de valor 48; el 272°
(bicentésimo septuagésimo segundo) dato fue también de valor 48, y así sucesivamente
hasta 112 más (que es la frecuencia del dato nominal x = 48) Eso significa que el 287°
(bicentésimo octagésimo séptimo) dato, lo mismo que el 288° (bicentésimo octagésimo
octavo), correspondieron al valor nominal x = 48.
Obsérvese que la mediana Mdn = 48 no es el que está situado a la mitad de la columna de
los datos nominales x.
Ejemplo 4: las edades de un grupo de 28 personas van de los 45 a los 58 años. Localizar la
mediana de dicho conjunto de datos, mostrado ya organizado en la siguiente tabla.
Edad x f fa
45 2 2
46 1 3
47 3 6
48 3 9
49 5 14
50 6 20
51 2 22
52 4 26
58 2 28
28
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
53
SOLUCIÓN: debe entenderse que la tabla original consta solamente de las dos primeras
columnas x (edades) y f. este es un ejemplo para ilustrar el caso de conflicto para localizar
la mediana.
La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,
es de 28. Es decir, la tabla corresponde a 28 datos recolectados.
El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene
sumando 1 al numero total de datos 28 y dividiéndolo entre dos, es decir,
fc = 1 + 28 / 2 = 14.5
que significa que tanto el dato ordinal 14 como el 15 son los que están situados a la mitad
de todos, ya que debe comprenderse que no existen datos ordinales fraccionarios, sino
solamente enteros, o sea, existe el 1er dato, el 2° dato, el 3er dato, el 8° dato, el 19° dato,
etc., pero no puede existir el 14.5° (el décimo cuarto punto cinco) dato, si acaso el 14°
(décimo cuarto) exactamente.
Observando la columna de las frecuencias acumuladas se ve que el 14° dato fue el ultimo
correspondiente al dato nominal x = 49, mientras que el 15° dato es el primero que
corresponde al dato nominal x = 50, por lo que se entra en el conflicto de cuál de los dos ha
de ser la mediana. En casos así, la media de ambos se toma como la mediana, es decir, la
mediana es Mdn = 49.5.
CUESTIONARIO 13
1. ¿Qué es la mediana?
2. ¿Cómo se simboliza la mediana?
3. ¿Cuántas y cuáles columnas deben agregarse a la tabla original para localizar la
mediana en una distribución de datos sin agrupar?
4. ¿Cuál es la confusión o error más frecuente que se tiene al intentar localizar una
mediana?
5. ¿Puede haber más de una mediana en una distribución de frecuencias, así como
puede tener dos o más modas? Explicar por qué.
6. Localizar la mediana de los datos organizados en las tablas obtenidas en el
cuestionario 2, problemas 14 a 21.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
54
2) FRECUENCIAS POR INTERVALOS O AGRUPADAS:
Cuando los datos recolectados han sido organizados en una tabla de frecuencias por
intervalos, la mediana podría considerarse el punto medio del intervalo en donde se localiza
el valor central de todas las frecuencias; sin embargo, se acostumbra más bien localizar con
exactitud un punto dentro de ese intervalo que sea el más representativo, por lo que la
mediana se obtiene por medio de una formula.
Para utilizar la formula mencionada debe añadirse primero a la tabla una columna de
frecuencias acumuladas.
Se le llama “clase de la mediana” al intervalo en donde se encuentra la mediana. “Clase” o
intervalo es lo mismo. El resultado que se obtiene con la formula es una valor que se
encuentra dentro de la clase de la mediana.
La formula correspondiente es
Mdn = L + (n/2 - fa / f) i
En donde:
Mdn = mediana
L = limite inferior de la clase (o intervalo) de la mediana
n = numero total de datos
fa = frecuencia acumulada en la clase (intervalo) inmediata inferior a la clase (intervalo) de
la mediana
f = frecuencia de la clase de la mediana
i = diferencia entre los limites de la clase (intervalo) de la mediana
Para localizar el intervalo de la mediana se procede igual que para datos no agrupados.
Ejemplo 1: localizar la mediana del conjunto de datos organizados en intervalos, mostrado
en la siguiente tabla.
Intervalo x f fa
0 – 30 1 1
31 – 60 1 2
61 – 90 3 5
91 – 120 5 10
121 – 150 6 16
151 – 180 7 23
181 – 210 11 34
211 – 240 15 49
49
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
55
SOLUCIÓN: a la tabla original ya se le añadió la columna de frecuencias acumuladas.
La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,
es de 49.
El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando
1 al 49 y dividiéndolo entre dos, es decir,
fc = 1 + 49 / 2 = 25
que significa que el dato ordinal 25 es el que está situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta el intervalo 151 – 180, contadas
desde el principio, van apenas 23 datos ordenados, mientras que hasta el intervalo 181 –
210 ya van 34. Esto significa que dentro del intervalo 181 – 210 está el dato ordinal numero
25, que es el central. Por lo tanto, la clase de la mediana es 181 – 210.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al
contar el ultimo del intervalo 151 -180 se llevaban en ese momento 23 datos ordenados. Al
continuar, el 24° (vigésimo cuarto) dato fue ya del intervalo 181 – 210; el 25° (vigésimo
quinto) dato fue también de la clase 181 – 210, y así sucesivamente hasta el 34° (trigésimo
cuarto), o sea 11 más (que es la frecuencia del intervalo) Eso significa que el 25° (vigésimo
quinto) dato correspondió al intervalo 181 – 210.
Así que se tienen los siguientes datos para ser sustituidos en la formula:
L = 181
n = 49
fa = 23
f = 11
i = 210 – 180 = 30
de modo que
Mdn = 181 + (49/2 - 23 / 11) 30
Mdn = 181 + (0.13636)30
Mdn = 185.09
Obsérvese que, como se dijo antes, el valor de la mediana está adentro del intervalo de la
clase de la mediana, es decir, adentro de 181 – 210. Lo contrario sería una contradicción,
pues si se afirma que el intervalo (la clase) de la mediana es 181 – 210, precisamente dentro
de ese intervalo debe estar la mediana.
Ejemplo 2: localizar la mediana del conjunto de datos organizados en intervalos, mostrado
en la siguiente tabla.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
56
Intervalo x f fa
5 – 13 16 16
14 – 22 11 27
23 – 31 30 57
32 – 40 5 62
41 – 49 2 64
50 – 58 7 71
59 – 67 1 72
68 – 76 3 75
75
SOLUCIÓN: a la tabla original ya se le añadió la columna de frecuencias acumuladas.
La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,
es de 75.
El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando
1 al 75 y dividiéndolo entre dos, es decir,
fc = 1 + 75 / 2 = 38
que significa que el dato ordinal 38 es el que está situado a la mitad de todos. Observando
la columna de las frecuencias acumuladas se ve que hasta el intervalo 14 - 22, contadas
desde el principio, van apenas 27 datos ordenados, mientras que hasta el intervalo 23 – 31
ya van 57. Esto significa que dentro del intervalo 23 – 31 está el dato ordinal numero 38,
que es el central. Por lo tanto, la clase de la mediana es 23 – 31.
Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al
contar el ultimo del intervalo 14 – 22 se llevaban en ese momento 27 datos ordenados. Al
continuar, el 28° (vigésimo octavo) dato fue ya del intervalo 23 – 31; el 29° (vigésimo
noveno) dato fue también del mismo intervalo 23 – 31, y así sucesivamente hasta el 57°
(quincuagésimo séptimo), o sea 30 más (que es la frecuencia del intervalo) Eso significa
que el 38° (trigésimo octavo) dato correspondió al intervalo 23 – 31.
Así que para calcular la mediana, se tienen los siguientes datos para ser sustituidos en la
formula:
L = 23
n = 75
fa = 27
f = 30
i = 31 – 23 = 8
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
57
de modo que
Mdn = 23 + (75/2 - 27 / 30) 8
Mdn = 23 + (0.35)8
Mdn = 25.8
Obsérvese que, como se dijo antes, el valor de la mediana está adentro del intervalo de la
clase de la mediana, es decir, adentro de 23 - 31. Lo contrario sería una contradicción, pues
si se afirma que el intervalo (la clase) de la mediana es 23 - 31, precisamente dentro de ese
intervalo debe estar la mediana.
CUESTIONARIO 14
1. ¿Cuántas y cuáles columnas deben agregarse a la tabla original para localizar la
mediana en una distribución de datos agrupados?
2. Localizar la mediana de los datos organizados en las tablas obtenidas en el
cuestionario 3, problemas 8 a 23.
INTERPRETACION Y UTILIZACION
Tres cosas son las importantes respecto de las medidas de tendencia central: Primero,
saberlas obtener; segundo, saberlas interpretar; y tercero, saberlas utilizar. Quedan entonces
pendientes hasta este momento las dos últimas.
Para la interpretación de cada una de las tres medidas de tendencia central debe suponerse
que se graficaron todos los valores nominales (eje de las “x”) contra sus frecuencias (eje de
las “y”) hasta obtener su curva correspondiente. Mientras mayor sea el número de datos
recolectados, mayor será la precisión.
a) La media es un punto de equilibrio, algo así como un centro de gravedad.
b) La mediana tiene la característica de dividir el área bajo la curva en dos partes
iguales.
c) La moda es la abscisa (la “x”) correspondiente a la mayor ordenada (la “y”), o sea,
señala el pico más alto de la curva.
La siguiente gráfica muestra cada uno de estos casos:
Figura 22
La media: centro de gravedad
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
58
A1 A2
La mediana. A1 = A2
La moda: el pico más alto
Un caso especial es aquel en el que la media, la mediana y la moda coinciden en el centro
en una misma línea, lo cual da una gráfica llamada “curva normal”. Tiene la característica
de ser simétrica respecto de esa línea común. La figura 23 muestra tal caso.
La curva normal es de mucha utilidad y más adelante se estudiará en forma más detallada.
Figura 23
A1 A2
Media = mediana = moda
A1 = A2
Puede hacerse una similitud entre las tres medidas de tendencia central con algunas líneas
principales de los triángulos: la altura y la mediana. Recordando:
La altura es la perpendicular levantada desde uno de sus lados (o su prolongación) y que
pasa por el vértice opuesto. Tiene la característica de que señala el punto más elevado del
triangulo. Puede compararse con la moda.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
59
La mediana es la línea que va del punto central de un lado al vértice opuesto. Tiene la
característica de que divide en dos áreas iguales al triangulo. Puede compararse con la
mediana de las medidas de tendencia central.
Un caso también especial en los triángulos es el del isósceles, en el cual la altura, la
mediana y la mediatriz forman una sola línea. Podría compararse con la curva normal.
Figura 24
punto
medio
A1 A2
mediana
A1 = A2
La utilización de cada una de las tres medidas de tendencia central está en función de la
forma en que se distribuyan los datos y de lo que se desee obtener. En este curso no es
posible detallar al respecto, pero con un ejemplo el alumno podrá intuir bastante sobre la
manera de utilizarlos.
Por ejemplo, el líder de los trabajadores de una fábrica sostiene que deben elevarles los
salarios, ya que ganan muy poco, mientras que el patrón alega que no es cierto, ya que
ganan en promedio $197.27 diarios ($5 918.18 al mes). La siguiente tabla muestra los
salarios de cada trabajador. ¿Quién tiene la razón?
punto más
alto
altura
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
60
TRABAJADOR SUELDO (diario)
Jorge Méndez $950.00
Arturo Gil 850.00
Emmanuel Ruiz 60.00
Luis Cortés 50.00
René Cordoba 50.00
Juan Estrada 40.00
José Aburto 40.00
Luis Soto 40.00
Jorge Fallh 30.00
Sandra Paz 30.00
Elena Ruiz 30.00
PROMEDIO $197.27
El patrón tiene razón en cuanto a que el promedio de sus salarios es de $197.27, solamente
que la medida de tendencia central utilizada no es la adecuada en este caso, pues existe una
gran dispersión en el extremo superior, ya que mientras los dos primeros ganan cerca de mil
pesos diarios, los demás están por debajo de los $61.00.
La mediana en este caso seria posiblemente la medida de tendencia central más equilibrada,
o sea el dato ordinal central que corresponde a $40.00.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
61
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Medidas de dispersión
El rango
La desviación media
La desviación media, frecuencias simples
Cuestionario 15
La desviación media, frecuencias por intervalos
Cuestionario 16
La desviación estándar
La desviación estándar, frecuencias simples
Cuestionario 17
La desviación estándar, frecuencias por intervalos
Cuestionario 18
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
62
5
MEDIDAS DE DISPERSIÓN
En el capitulo anterior se estudiaron las medidas de tendencia central, que son un indicador
de cómo los datos se agrupan o concentran en una parte central del conjunto. Sin embargo,
para una información completa de dicho conjunto de datos hace falta saber el
comportamiento opuesto, es decir, de qué manera se dispersan o se alejan algunos datos de
esa parte central.
Por ejemplo, al tomar las temperaturas en una región “A” durante diferentes épocas del año
y a distintas horas del día, se registraron los datos que se muestran en la columna “A”; por
su parte, las de otra región diferente “B”, son las de la columna “B”.
Al obtener la media, en ambos casos resultó que la temperatura promedio fue de 20.687°,
cuya interpretación podría ser que en torno, alrededor o cerca de 20.687° fluctúan los
demás valores.
“A” “B”
19.3° -3°
20° 0°
20.2° 6°
20.4° 22°
21° 31.5°
21.3° 34°
21.3° 36°
22° 39°
20.687° 20.687°
Como puede verse, eso es bastante aproximado para los datos de la columna “A”, no así
para los de la “B”. los datos más alejados en “A” son 19.3° y 22°, que realmente están
próximos a 20.687°; en cambio, los datos mas alejados en “B” son -3° y 39°, que están muy
distantes del promedio.
¿Por qué si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los
valores que están a su alrededor? La respuesta está en que no se ha tomado en cuenta la
dispersión, es decir, la manera en que se disgregan los datos respecto de la media, pues en
“A” casi no se dispersan mientras que en “B” si. Cabría decir que el conjunto de datos “A”
es bastante compacto mientras que el “B” es muy dilatado.
Las principales medidas de dispersión son tres: el rango, la desviación media y la
desviación estándar. De manera semejante a las medidas de tendencia central, las medidas
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
63
de dispersión deben considerarse en sus dos opciones: cuando no están agrupados los datos
y cuando están por intervalos.
EL RANGO
El rango es la diferencia entre los datos mayor y menor del conjunto. También se le suele
llamar “recorrido”.
En un conjunto de datos, mientras mayor sea el rango, mayor será su dispersión y, a la
inversa, mientras menor sea su rango, menor su dispersión. Dicho de otra forma; mientras
mayor sea el rango, mayor “espacio” tendrán los datos para dispersarse, o mientras menor
sea el rango, más estrechos estarán.
En los casos de las temperaturas del ejemplo anterior, el rango de “A” es R = 22 – 19.3, es
decir, R = 2.7; en cambio, el de “B” es B = 39 – (-3), es decir, R = 42.
LA DESVIACIÓN MEDIA
_
Dado un conjunto de datos cuya media aritmética o promedio es X, la diferencia o la
distancia de cada valor nominal x a la media aritmética se llama “desviación del dato x con
respecto a la media. Es decir, es una medición de cuanto se alejó cada valor nominal x de la
media.
Por ejemplo, de los datos mostrados en la tabla siguiente, en donde x = dato nominal y d =
desviación de la media, la media aritmética es:
x d
50 50 – 75 = -25
60 60 – 75 = -15
70 70 – 75 = -5
80 80 – 75 = 5
90 90 – 75 = 15
100 100 – 75 = 25
Σx = 450
_
X = Σx / n
_
X = 450 / 6 = 75
_
X = 75
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
64
Entonces
_
La desviación del dato x = 50 con respecto de la media X es d = 50 – 75 = -25
_
La desviación del dato x = 60 con respecto de la media X es d = 60 – 75 = -15
_
La desviación del dato x = 70 con respecto de la media X es d = 70 – 75 = -5
_
La desviación del dato x = 80 con respecto de la media X es d = 80 – 75 = 5
_
La desviación del dato x = 90 con respecto de la media X es d = 90 – 75 = 15
_
La desviación del dato x = 100 con respecto de la media X es d = 100 – 75 = 25
_
Resulta obvio que siendo la media aritmética X el punto central de todos los valores de los
datos x, existan simétricamente valores positivos y negativos, o lo que es lo mismo, la suma
de todas las desviaciones a la media siempre es cero. Para evitar lo anterior, dicha suma se
toma como valor absoluto, esto es:
_
La desviación del dato x = 50 con respecto de la media X es d = |50 – 75| = 25
_
La desviación del dato x = 60 con respecto de la media X es d = |60 – 75| = 15
_
La desviación del dato x = 70 con respecto de la media X es d = |70 – 75| = 5
_
La desviación del dato x = 80 con respecto de la media X es d = |80 – 75| = 5
_
La desviación del dato x = 90 con respecto de la media X es d = |90 – 75| = 15
_
La desviación del dato x = 100 con respecto de la media X es d = |100 – 75| = 25
1) FRECUENCIAS SIMPLES
Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, es
decir, sin agrupar, la desviación media DM se calcula por medio de la formula:
_
DM = Σf |x – X| / n
Al conjunto de datos deben añadirse a la tabla original tres columnas: la primera
encabezada con fx, que servirá para calcular la media aritmética; la segunda encabezada con
_ _
|x – X|, que servirá para obtener la tercera, y la tercera con f |x – X|, que servirá para obtener
el numerador de la formula luego de realizar la sumatoria.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
65
Ejemplo 1: obtener la desviación media DM del conjunto de datos mostrado en la siguiente
tabla.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28
SOLUCIÓN: la tabla es la original a la que deben agregársele tres columnas:
a) La primera agregada se encabeza con fx que representa la multiplicación de cada
frecuencia f por su respectivo valor nominal x. al concluir de llenar esta columna se
debe efectuar la sumatoria Σƒχ, para calcular la media aritmética
_
X = Σfx / n = 1392/28 = 49.7142
_
b) La segunda agregada se encabeza con |x – X|, que representa el valor absoluto de la
resta de cada valor nominal menos la media obtenida en el paso anterior, y
_
c) La tercera agregada se encabeza con f |x – X|, que representa la multiplicación de
cada frecuencia f (2ª columna) por el valor absoluto correspondiente obtenido en la 4ª
_
columna. Al concluir de llenar esta columna se debe efectuar la sumatoria Σf |x – X|.
La tabla, con esas columnas agregadas, queda así:
x f fx _
|x – X|
_
f |x – X|
45 2 90 4.7142 9.4285
46 1 46 3.7142 3.7142
47 3 141 2.7142 8.1428
48 3 144 1.7142 5.1428
49 5 245 0.7142 3.5714
50 6 300 0.2857 1.7142
51 2 102 1.2857 2.5714
52 4 208 2.2857 9.1428
58 2 116 8.2857 16.5714
Σf =28 Σƒχ = 1392 Σf |x – X| =
59.9995
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
66
Se tiene con esta tabla toda la información requerida para utilizar la formula de la
desviación media
_
DM = Σf |x – X| / n
DM = 59.999 / 28 = 2.142
Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es
de 2.142.
CUESTIONARIO 15
1. ¿Qué son las medidas de dispersión?
2. ¿Cuántas y cuáles son las principales medidas de dispersión?
3. ¿Qué es el rango?
4. ¿Qué es la desviación media?
5. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular la
desviación media, cuando se organizan los datos sin intervalos?
6. Obtener la desviación media de los datos organizados en el cuestionario 2,
problemas 14 a 21.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos han sido organizados en clases o intervalos, la desviación media se
obtiene de manera similar a los procesos anteriores, es decir, con la misma formula
aplicada a la organización de frecuencias simples, solamente que x debe ser el punto
medio del intervalo.
Esto significa que al conjunto de datos original deben añadirse a la tabla ahora cuatro
columnas: la primera encabezada con x para señalar el punto medio de cada intervalo; la
segunda encabezada con fx; que servirá para calcular la media aritmética; la tercera
_ _
encabezada con |x – X|, que servirá para obtener la cuarta, y la cuarta con f |x – X|, que
servirá para obtener el numerador de la formula luego de realizar su sumatoria.
Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se
muestran en la siguiente tabla. Obtener la desviación media DM.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
67
Intervalo ƒ
4 – 9 12
10 – 15 11
16 – 21 13
22 – 27 19
28 – 33 21
34 – 39 16
40 – 45 8
100
SOLUCIÓN: la tabla es la original a la que deben agregársele tres columnas:
a) La primera agregada se encabeza con x que representa el punto medio de cada
intervalo
b) La segunda agregada se encabeza con fx que representa la multiplicación de cada
frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta
columna se debe efectuar la sumatoria Σƒχ, para calcular la media aritmética
_
X = Σfx / n = 2486/100 = 24.86
_
c) La tercera agregada se encabeza con |x – X|, que representa el valor absoluto de la
resta de cada punto medio del intervalo menos la media obtenida en el paso anterior.
Así:
_
Primera fila: |x – X| = |6.5 – 24.86| = 18.36
_
Segunda fila: |x – X| = |12.5 – 24.86| = 12.36
_
Tercera fila: |x – X| = |18.5 – 24.86| = 6.36
_
Cuarta fila: |x – X| = |24.5 – 24.86| = 0.36
_
Quinta fila: |x – X| = |30.5 – 24.86| = 5.64
_
Sexta fila: |x – X| = |36.5 – 24.86| = 11.64
_
Septima fila: |x – X| = |42.5 – 24.86| = 17.64
_
d) La cuarta agregada se encabeza con f |x – X|, que representa la multiplicación de cada
frecuencia f (2ª columna) por el valor absoluto correspondiente obtenido en la 5ª
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
68
_
columna. Al concluir de llenar esta columna se debe efectuar la sumatoria Σf |x – X|.
La tabla, con esas columnas agregadas, queda así:
Intervalo ƒ χ ƒχ _
|x – X|
_
f |x – X|
4 – 9 12 6.5 78 18.36 220.32
10 – 15 11 12.5 137.5 12.36 135.96
16 – 21 13 18.5 240.5 6.36 82.68
22 – 27 19 24.5 465.5 0.36 6.84
28 – 33 21 30.5 640.5 5.64 118.44
34 – 39 16 36.5 584 11.64 186.24
40 – 45 8 42.5 340 17.64 141.12
100 Σfx = 2486 _
Σf |x – X| =
891.6
Se tiene con esta tabla toda la información requerida para utilizar la formula de la
desviación media
_
DM = Σf |x – X| / n
DM = 891.6 / 100 = 8.916
Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es
de 8.916.
CUESTIONARIO 16
1. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular
la desviación media cuando se organizan los datos por intervalos?
2. Obtener la desviación media de los datos organizados en el cuestionario 3,
problemas 8 a 23.
LA DESVIACION ESTANDAR
La tercera medida de dispersión se llama desviación estándar, porque con ella se pueden
estandarizar en todos los casos, todas las desviaciones de datos recolectados, como se verá
más adelante.
La desviación estándar se simboliza con la letra s.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
69
_
Aquí el truco para quitar los valores negativos de la resta de x – X es elevar al cuadrado y
luego regresar con una raíz cuadrada.
1) FRECUENCIAS SIMPLES
Cuando los datos están ordenados en una distribución de frecuencias simples, la desviación
estándar se calcula mediante la formula
_
s = Σƒ (x – X)2
n
en donde:
s = desviación estándar
f = frecuencia
x = valor nominal
_
X = media aritmética
Significa que a la tabla original hay que agregarle cuatro columnas, aunque la tercera es
opcional. La primera encabezada con fx, servirá para calcular la media aritmética. La
segunda encabezada con (x – X). La tercera con los cuadrados de la anterior, es decir con
_ _
(x – X)2. Y la cuarta con el producto de la frecuencia f por la anterior, o sea f(x – X)
2.
Ejemplo 1: obtener la desviación estándar s del conjunto de datos mostrado en la siguiente
tabla.
Nota: por ser el mismo ejemplo que el utilizado para la desviación media, una vez resuelto
este ejemplo compárense ambos resultados.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28
SOLUCIÓN: la tabla es la original a la que deben agregársele cuatro columnas:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
70
a) La primera agregada se encabeza con fx que representa la multiplicación de cada
frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se
debe efectuar la sumatoria Σƒχ, para calcular la media aritmética:
_
X = Σfx / n = 1392/28 = 49.7142
_
b) La segunda agregada se encabeza con (x – X), que representa la resta de cada valor
nominal menos la media obtenida en el paso anterior. Esta columna es opcional, pues
directamente se puede elevar al cuadrado y el respectivo valor vaciarlo en la columna
que se especifica en el siguiente inciso; de la siguiente forma:
_
Primera fila: x – X = 45 – 49.7142 = -4.7142
_
Segunda fila: x – X = 46 – 49.7142 = -3.7142
_
Tercera fila: x – X = 47 – 49.7142 = -2.7142
_
Cuarta fila: x – X = 48 – 49.7142 = -1.7142
_
Quinta fila: x – X = 49 – 49.7142 = -0.7142
_
Sexta fila: x – X = 50 – 49.7142 = 0.2857
_
Séptima fila: x – X = 51 – 49.7142 = 1.2857
_
Octava fila: x – X = 52 – 49.7142 = 2.2857
_
Novena fila: x – X = 58 – 49.7142 = 8.2857
c) La tercera agregada, o segunda en caso de haber omitido la anterior, se encabeza con
_
(x – X)2, que representa el cuadrado de cada valor obtenido en la columna anterior;
_
Primera fila: (x – X)2 = (-4.7142)
2 = 22.2236
_
Segunda fila: (x – X)2 = (-3.7142)
2 = 13.7952
_
Tercera fila: (x – X)2 = (-2.7142)
2 = 7.3668
_
Cuarta fila: (x – X)2 = (-1.7142)
2 = 2.9384
_
Quinta fila: (x – X)2 = (-0.7142)
2 = 0.5100
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
71
_
Sexta fila: (x – X)2 = (0.2857)
2 = 0.0816
_
Septima fila: (x – X)2 = (1.2857)
2 = 1.6530
_
Octava fila: (x – X)2 = (2.2857)
2 = 5.2244
_
Novena fila: (x – X)2 = (8.2857)
2 = 68.6528
d) La cuarta columna agregada o tercera si se omitió la opcional, se encabeza con
_
f (x – X)2, que representa el producto de cada frecuencia f por su correspondiente
cuadrado obtenido en la columna anterior.
La tabla, con esas columnas agregadas, queda así:
χ ƒ ƒχ _
(x – X)2
_
f (x – X)2
45 2 90 22.2236 44.4472
46 1 46 13.7952 13.7952
47 3 141 7.3668 22.1004
48 3 144 2.9384 8.8152
49 5 245 0.5100 2.55
50 6 300 0.0816 0.4896
51 2 102 1.6530 3.306
52 4 208 5.2244 20.8976
58 2 116 68.6528 137.3056
Σf = 28 Σfx = 1392
_
Σf (x – X)2 =
253.7068
Se tiene con esta tabla toda la información requerida para utilizar la formula de la
desviación estándar
_
s = Σƒ (x – X)2
n
s = 253.7068
28
s = 3.0101
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
72
Otra formula para calcular la desviación estándar que lleva exactamente al mismo resultado
es la siguiente:
_
s = Σƒx2 _
X2
n
lo que implica agregar solamente tres columnas a la tabla original, la primera encabezada
con fx para obtener la media, igual que en el caso anterior; la segunda encabezada con x2 y
la otra con el producto fx2, por lo que suele resultar menos laborioso el calculo de la
desviación estándar con esta formula que con la anterior.
Ejemplo 2: obtener la desviación estándar s del conjunto de datos mostrado en la siguiente
tabla.
Nota: la tabla es la misma que se utilizó para el ejemplo 1, con el objeto de comparar
resultados.
Edad x f
45 2
46 1
47 3
48 3
49 5
50 6
51 2
52 4
58 2
28
SOLUCIÓN: la tabla es la original a la que deben agregársele tres columnas:
a) La primera agregada se encabeza con fx que representa la multiplicación de cada
frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se
debe efectuar la sumatoria Σƒχ, para calcular la media aritmética:
_
X = Σfx / n = 1392/28 = 49.7142
b) La segundo columna agregada se encabeza con x2 que representa el correspondiente
valor al cuadrado de cada dato nominal;
Primera fila: x2 = 45
2 = 2025
Segunda fila: x2 = 46
2 = 2116
Tercera fila: x2 = 47
2 = 2209
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
73
Cuarta fila: x2 = 48
2 = 2304
Quinta fila: x2 = 49
2 = 2401
Sexta fila: x2 = 50
2 = 2500
Septima fila: x2 = 51
2 = 2601
Octava fila: x2 = 52
2 = 2704
Novena fila: x2 = 58
2 = 3364
c) La tercera agregada se encabeza con fx2, que representa el producto de cada
frecuencia por el valor obtenido en la columna anterior;
Primera fila: fx2 = (2)(2025) = 4050
Segunda fila: fx2 = (1)(2116) = 2116
Tercera fila: fx2 = (3)(2209) = 6627
Cuarta fila: fx2 = (3)(2304) = 6912
Quinta fila: fx2 = (5)(2401) = 12005
Sexta fila: fx2 = (6)(2500) = 15000
Septima fila: fx2 = (2)(2601) = 5202
Octava fila: fx2 = (4)(2704) = 10816
Novena fila: fx2 = (2)(3364) = 6728
La tabla, con esas columnas agregadas, queda así:
χ ƒ ƒχ x2 fx
2
45 2 90 2025 4050
46 1 46 2116 2116
47 3 141 2209 6627
48 3 144 2304 6912
49 5 245 2401 12005
50 6 300 2500 15000
51 2 102 2601 5202
52 4 208 2704 10816
58 2 116 3364 6728
Σf =28 Σfx =1392 Σfx2 =69456
Se tiene con esta tabla toda la información requerida para utilizar la segunda formula de la
desviación estándar.
_
s = Σƒx2 _
X2
n
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
74
s = 69456 _
49.71422
28
s = 3.0101
Que es el mismo resultado del ejemplo 1, tal y como era de esperarse.
CUESTIONARIO 17
1. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular la
desviación estándar cuando se organizan los datos por frecuencias simples y se
emplea la formula
_
s = Σƒ (x – X)2
n
2. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular la
desviación estándar cuando se organizan los datos por frecuencias simples y se
emplea la formula
_
s = Σƒx2 _
X2
n
3. Obtener la desviación estándar de los datos organizados en el cuestionario 2,
problemas 14 a 21, utilizando la primera formula.
4. Obtener la desviación estándar de los datos organizados en el cuestionario 2,
problemas 14 a 21, utilizando la segunda formula.
2) FRECUENCIAS POR INTERVALOS
Cuando los datos han sido organizados en clases o intervalos, la desviación estándar se
obtiene de manera similar a los procesos anteriores, es decir, con la misma formula aplicada
a la organización de frecuencias simples, solamente que x debe ser el punto medio del
intervalo.
De tal manera que pueden emplearse, cuando la organización sea por intervalos,
cualesquiera de las dos formulas vistas para la desviación estándar en frecuencias simples,
motivo por el cual solamente se pondrá un ejemplo, pues debe suponerse que a estas alturas
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
75
del curso el alumno ya está familiarizado con este tipo de procesos, es decir, cuando los
datos se organizan por frecuencias simples y cuando se hace por intervalos, en los que se
emplea la misma formula, pero dando un significado diferente a la x en cada caso: en uno
es el valor nominal, en el otro es el punto medio.
Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se muestran
en la siguiente tabla. Obtener la desviación estándar.
Nota: este ejemplo es el mismo que se utilizó para calcular la desviación media, por lo que
conviene al final comparar los resultados.
Intervalo ƒ
4 – 9 12
10 – 15 11
16 – 21 13
22 – 27 19
28 – 33 21
34 – 39 16
40 – 45 8
100
SOLUCIÓN: la tabla es la original a la que deben agregársele cuatro columnas:
a) La primera agregada se encabeza con x que representa el punto medio de cada
intervalo
b) La segunda agregada se encabeza con fx que representa la multiplicación de cada
frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta
columna se debe efectuar la sumatoria Σƒχ, para calcular la media aritmética
_
X = Σfx / n = 2486/100 = 24.86
_
c) La tercera agregada se encabeza con x – X, que representa la resta de cada punto
medio del intervalo menos la media obtenida en el paso anterior. Aunque debe
recordarse que esta columna es opcional si el estudiante puede sin equivocarse obtener
directamente sus cuadrados:
_
d) La cuarta agregada se encabeza con (x – X)2, que representan los cuadrados de cada
resta obtenidos en la columna anterior.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
76
_
e) La quinta columna agregada se encabeza con ƒ(x – X)2 en donde se vaciarán los
resultados de cada producto de la frecuencia por el respectivo valor de la columna
anterior.
La tabla, con esas columnas agregadas, queda así:
Intervalo ƒ χ ƒχ _
(x – X)2
_
f (x – X)2
4 – 9 12 6.5 78 337.0896 4045.0752
10 – 15 11 12.5 137.5 152.7697 1680.4656
16 – 21 13 18.5 240.5 40.4496 525.8448
22 – 27 19 24.5 465.5 0.1296 2.4624
28 – 33 21 30.5 640.5 31.8096 668.0016
34 – 39 16 36.5 584 135.4896 2167.8336
40 – 45 8 42.5 340 311.1696 2489.3568
100 Σf = 2486 _
Σf (x – X)2 =
11579.04
Sustituyendo en la formula de la desviación estándar
_
s = Σƒ (x – X)2
n
s = 11579.04
100
s = 10.7605
Otra formula para calcular la desviación estándar cuando los datos han sido organizados
por intervalos, que lleva exactamente al mismo resultado es la siguiente:
_
s = Σƒx2 _
X2
n
donde, como se ha establecido en casos anteriores, x representa el punto medio del
intervalo.
Ejemplo 2: cien datos recolectados se organizaron en siete intervalos, los que se muestran
en la siguiente tabla. Obtener la desviación estándar con la segunda formula.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
77
Nota: este ejemplo es el mismo que se utilizó para calcular la desviación estándar por
intervalos, por lo que conviene al final comparar los resultados.
Intervalo ƒ
4 – 9 12
10 – 15 11
16 – 21 13
22 – 27 19
28 – 33 21
34 – 39 16
40 – 45 8
100
SOLUCIÓN: la tabla es la original a la que deben agregársele cuatro columnas: las dos
primeras son las mismas del ejemplo anterior hasta obtener la media.
c) La tercera columna agregada se encabeza con x2 que representa el cuadrado de los
puntos medios de cada intervalo.
d) la cuarta columna agregada se encabeza con fx2, que representa el producto de la
frecuencia por el correspondiente cuadrado del punto medio.
La tabla, con esas columnas agregadas, queda así:
Intervalo ƒ χ x2 fx
2
4 – 9 12 6.5 42.25 507
10 – 15 11 12.5 156.25 1718.75
16 – 21 13 18.5 342.25 4449.25
22 – 27 19 24.5 600.25 11404.75
28 – 33 21 30.5 930.25 19535.25
34 – 39 16 36.5 1332.25 21316
40 – 45 8 42.5 1806.25 14450
100 Σfx2 =73381
Sustituyendo en la segunda formula de la desviación estándar:
s = 73 381 _
(24.86)2
100
s = 10.7605
CUESTIONARIO 18
1. Obtener la desviación estandar de los datos organizados en el cuestionario 3,
problemas 8 a 23.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
78
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Distribución normal
Estandarización de datos
Cuestionario 19
Tabla de áreas bajo la curva normal
Cuestionario 20
Porcentaje entre dos datos nominales
Cuestionario 21
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
79
6
DISTRIBUCIÓN NORMAL
En los capítulos anteriores se estudiaron las medidas de tendencia central y las medidas de
dispersión, que son un indicador de cómo y cuanto se concentran los datos en torno a cierto
valor y de cómo y cuánto se alejan del mismo.
Ya se mencionó el caso especial de datos en que la media, la moda y la mediana coinciden
en el centro en una misma línea, dando una grafica llamada “curva normal”, la cual es
simétrica respecto de esa línea común. Este capitulo se encargará de hacer un estudio de
esta curva, o lo que es lo mismo, de los datos recolectados que dan esa grafica.
Para comenzar aclarando la idea de esa “línea común”, supóngase que se recolectaron los
datos mostrados en la siguiente tabla. Calcular su media, su moda y su mediana. Asimismo,
hacer su grafica.
χ ƒ ƒχ ƒα
6 1 6 1
7 2 14 3
8 3 24 6
9 5 45 11
10 9 90 20
11 15 165 35
12 18 216 53
13 15 195 68
14 9 126 77
15 5 75 82
16 3 48 85
17 2 34 87
18 1 18 88
88 1056
A) Para la media, utilizando la formula vista:
X = Σfx / n = 1056/88 = 12
B) Para la moda, conforme a lo visto, es el de mayor frecuencia, en este caso es
el valor nominal 12 que tiene frecuencia 18, o sea
Mo = 12
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
80
C) Para la mediana, conforme a lo visto, es el dato ordinal que se encuentra a la
mitad, el que se obtiene sumando uno al numero total de datos recolectados,
es decir
fc = 1 + 88 / 2 = 44.5
los datos ordinales 44 y 45 son los que están al centro, pero ambos corresponden al valor
nominal 12, o sea que la mediana es
Mdn = 12
_
Obsérvese que se obtuvo que X = Mo = Mdn = 12.
Para graficar esos datos como se pidió en el enunciado, primeramente se hace una grafica
de barras y luego se unen sus puntos medios, a manera de “polígono de frecuencias”, como
lo muestra la figura 25.
6 7 8 9 10 11 12 13 14 15 16 17 18
Figura 25
La gráfica se “suaviza” quitándole las líneas rectas que unen esos puntos medios de cada
barra y curveándola hasta que tome la forma de la figura 26.
0
2
4
6
8
10
12
14
16
18
6 7 8 9 10 11 12 13 14 15 16 17 18
Figura 26
Curva normal
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
81
La figura 26 muestra lo que es una curva normal, que conforme a lo dicho al inicio de este
capitulo, es la que resulta de graficar una distribución de datos tales que son simétricos y
que, por lo mismo, sus tres medidas de tendencia central coinciden en una misma. La
simetría no solamente se ve en la grafica, sino desde la tabla misma, pues a partir del dato
nominal central x = 12, las frecuencias hacia arriba y hacia debajo de ese dato avanzan en la
misma distancia o son las mismas.
La distribución de datos que da origen a la curva normal se llama distribución normal.
Una característica muy importante de la curva normal es que a partir de su eje de simetría,
se puede dividir como lo muestra la figura 27, de tal manera que el valor igual a cero
corresponda siempre a la media aritmética de la distribución normal de datos, que el valor
de 1 corresponda siempre a un cierto valor de la distribución normal, y así sucesivamente
hasta +3 y -3, aproximadamente.
Dicho de otra forma, en toda distribución normal, los datos nominales se pueden
transformar a uno equivalente de la escala de -3 a +3 de la figura 26. por eso, a los datos
comprendidos en la escala de -3 a +3 se les llama dato estándar.
En esa escala estandarizada, el 1 representa “una desviación estándar”, el 2 representa
“dos desviaciones estándares”, y así sucesivamente. El signo positivo solamente indica
que está a la derecha del cero y el signo negativo significa que está a la izquierda. Con los
ejemplos venideros se aclararán esos significados.
ESTANDARIZACIÓN DE DATOS
Por lo dicho en el párrafo anterior, los datos pertenecientes a una distribución normal se
pueden estandarizar o normalizar, lo cual se consigue utilizando la formula:
_
z = x – X / s
En donde:
-3 -2 -1 0 1 2 3
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
82
z = dato estandarizado o normalizado
x = valor nominal del dato a estandarizar
_
X = media aritmética del conjunto de datos
s = desviación estándar
Ejemplo 1: convertir cada uno de los datos nominales de la tabla de la página 79 a datos
estandarizados.
SOLUCIÓN: para transformar un dato nominal en dato estándar, también llamado “dato
z”, se requiere calcular la media de todo el conjunto. Para este caso ya se calculó en la
página 79, resultado que
_
X =12
Debe calcularse también la desviación estándar, para lo cual a la tabla original hay que
agregarle las columnas que se muestran en la siguiente tabla:
χ ƒ x2 fx
2
6 1 36 36
7 2 49 98
8 3 64 192
9 5 81 405
10 9 100 900
11 15 121 1815
12 18 144 2592
13 15 169 2535
14 9 196 1764
15 5 225 1125
16 3 256 768
17 2 289 578
18 1 324 324
88 13132
Entonces, utilizando la formula de la página 72
_
s = Σƒx2 _
X2
n
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
83
s = 13 132 _
122
88
s = 2.28632
Se tienen ya todos los datos para utilizar la formula del dato z:
_
z = x – X / s
Los cálculos para cada dato se muestran en la siguiente tabla:
Dato nominal x Sustituyendo Dato z
6 z = 6 – 12 / 2.28632 z = -2.62430
7 z = 7 – 12 / 2.28632 z = -2.18692
8 z = 8 – 12 / 2.28632 z = -1.74953
9 z = 9 – 12 / 2.28632 z = -1.31215
10 z = 10 – 12 / 2.28632 z = -0.87476
11 z = 11 – 12 / 2.28632 z = -0.43738
12 z = 12 – 12 / 2.28632 0
13 z = 13 – 12 / 2.28632 z = 0.43738
14 z = 14 – 12 / 2.28632 z = 0.87476
15 z = 15 – 12 / 2.28632 z = 1.31215
16 z = 16 – 12 / 2.28632 z = 1.74953
17 z = 17 – 12 / 2.28632 z = 2.18692
18 z = 18 – 12 / 2.28632 z = 2.62430
A partir de que la media aritmética del conjunto es x = 12 y la desviación estándar es s =
2.28632, el significado es el siguiente: un valor estandarizado z = 1 significa una distancia
de la media aritmética igual a una desviación estándar a la derecha, es decir una distancia
de 2.28632. Un valor estandarizado z = -2 significa una distancia de la media aritmética
igual a dos desviaciones estándar a la izquierda, es decir, una distancia de 4.57264.
Ahora bien, si al dato nominal x = 6 le corresponde un dato estándar z = -2.62430, significa
que ese 6 se alejó de la media, 2.62430 desviaciones estándares a la izquierda.
Si al dato nominal x = 13 le corresponde un dato estándar z = 0.43738, significa que ese 13
se alejó de la media, 0.43738 desviaciones estándares a la derecha.
Si al dato nominal x = 17 le corresponde un dato estándar z = 2.18692, significa que ese 17
se alejó de la media, 2.18692 desviaciones estándares a la izquierda. Y así con cada uno de
los datos nominales x.
Gráficamente:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
84
Datos x
Datos z z = -2.6243 z = 1 z = 1 z = 1
2.28632 2.28632 2.28632
1 desviación estándar
Figura 28
CUESTIONARIO 19
1. ¿Qué es una “curva normal”?
2. ¿Qué es una “distribución normal”?
3. En los datos z, ¿qué significa un valor de z = 1?
4. En una curva normal, el eje de simetría de la figura ¿qué es o que representa?
5. En una curva normal, el eje de simetría ¿qué valor estandarizado le
corresponde?
6. Si a un dato nominal le corresponde un dato estandarizado z = 1.2, ¿qué
significa?
7. Convertir a datos estándar o dato z cada uno de los datos nominales de las
siguientes tablas con distribución normal:
0
2
4
6
8
10
12
14
16
18
6 7 8 9 10 11 12 13 14 15 16 17 18
12 14.28632 16.5664 18.85896
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
85
a)
χ ƒ
4 20
5 21
6 27
7 35
8 27
9 21
10 20
b)
χ ƒ
9 1
11 3
13 8
15 10
17 8
19 3
21 1
c)
χ ƒ
14 10
15 11
16 17
17 19
18 17
19 11
20 10
d)
χ ƒ
2 100
4 300
6 800
8 900
10 800
12 300
14 100
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
86
e)
χ ƒ
40 200
45 210
50 245
55 265
60 245
65 210
70 200
f)
χ ƒ
39 10
40 13
41 16
42 20
43 16
44 13
45 10
TABLA DE AREAS BAJO LA CURVA NORMAL
En una curva normal, el área bajo la curva desde el extremo izquierdo hasta la media, es
decir, hasta el eje de simetría, es del 50% y, obviamente, el otro 50% está en la parte
derecha.
Una característica importante de la curva normal y de los datos normalizados es que el área
bajo la curva desde la media hasta una desviación estándar, es decir para z = 1, ya sea a la
izquierda o a la derecha, es del 34.13%. Ver parte superior de la figura 29.
De la misma forma, el área bajo la curva desde la media hasta dos desviaciones estándar, es
decir para z = 2, ya sea a la izquierda o a la derecha, es del 47.72%. Ver parte inferior de la
figura 29.
A
34.13 %
Z= 1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
87
Figura 29
Como la curva normal sale de graficar los datos recolectados, es obvio que esos porcentajes
de áreas bajo la curva también lo son para dichos datos, es decir, para una desviación
estándar, el porcentaje de datos entre la media y z = 1 es de 34.13%; para dos desviaciones
estándar el porcentaje de datos entre la media y z = 2 es de 47.72%.
Por lo tanto, es posible obtener el porcentaje de datos entre la media y cualquier valor
estandarizado, lo cual se ha concentrado en una tabla. La tabla de la siguiente pagina
expresa el porcentaje de área correspondiente a cada valor z, medidos desde la media.
Esto último es muy importante: debe tomarse en cuenta que los valores mostrados en la
tabla son siempre desde la media hasta el valor estandarizado z.
Resulta entonces muy simple obtener el porcentaje de datos y el numero de datos
comprendidos entre la media y un valor recolectado dado. El proceso es el siguiente:
a) Si el enunciado no lo proporciona, calcular la media aritmética del conjunto de datos.
b) Si el enunciado no lo proporciona, calcular la desviación estándar del conjunto de
datos.
c) Convertir a dato z el dato nominal.
d) Buscar en las tablas el porcentaje de área que le corresponde a ese dato
estandarizado.
e) Calcular, con el porcentaje anterior y el numero total de datos recolectados, el
numero de datos comprendidos entre la media y ese valor nominal por una regla de tres
simple.
PORCENTAJES DE AREAS BAJO LA CURVA NORMAL
DESDE Z=0 HASTA Z = 3.99
A
47.72 %
Z= 2
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
88
Z 0 1 2 3 4 5 6 7 8 9
0.0 0 0.40 0.80 1.20 1.60 1.99 2.39 2.79 3.19 3.59
0.1 3.98 4.38 4.78 5.17 5.57 5.96 6.36 6.75 7.14 7.59
0.2 7.93 8.32 8.71 9.10 9.48 9.87 10.26 10.64 11.03 11.41
0.3 11.79 12.17 12.55 12.93 13.31 13.68 14.06 14.43 14.80 15.17
0.4 15.54 15.91 16.28 16.64 17.00 17.36 17.72 18.08 18.44 18.79
0.5 19.15 19.50 19.85 20.19 20.54 20.88 21.23 21.57 21.90 22.24
0.6 22.58 22.91 23.24 23.57 23.89 24.22 24.54 24.86 25.18 25.49
0.7 25.80 26.12 26.42 26.73 27.04 27.34 27.64 27.94 28.23 28.52
0.8 28.81 29.10 29.39 29.67 29.96 30.23 30.51 30.78 31.06 31.33
0.9 31.59 31.86 32.12 32.38 32.64 32.89 33.15 33.40 33.65 33.89
1.0 34.13 34.38 34.61 34.85 35.08 35.31 35.54 35.77 35.99 36.21
1.1 36.43 36.65 36.86 37.08 37.29 37.49 37.70 37.90 38.10 38.30
1.2 38.49 38.69 38.88 39.07 39.25 39.44 39.62 39.80 39.97 40.15
1.3 40.32 40.49 40.66 40.82 40.99 41.15 41.31 41.47 41.62 41.77
1.4 41.92 42.07 42.22 42.36 42.51 42.65 42.79 42.92 43.06 43.19
1.5 43.32 43.45 43.57 43.70 43.82 43.94 44.06 44.18 44.29 44.41
1.6 44.52 44.63 44.74 44.84 44.95 45.05 45.15 45.25 45.35 45.45
1.7 45.54 45.64 45.73 45.82 45.91 45.99 46.08 46.16 46.25 46.33
1.8 46.41 46.49 46.56 46.64 46.71 46.78 46.86 46.93 46.99 47.06
1.9 47.13 47.19 47.26 47.32 47.38 47.44 47.50 47.56 47.61 47.67
2.0 47.72 47.78 47.83 47.88 47.93 47.98 48.03 48.08 48.12 48.17
2.1 48.21 48.26 48.30 48.34 48.38 48.92 48.96 48.50 48.54 48.57
2.2 48.61 48.64 48.68 48.71 48.75 48.78 48.81 48.84 48.87 48.90
2.3 48.93 48.96 48.98 49.01 49.04 49.06 49.09 49.11 49.13 49.16
2.4 49.18 49.20 49.22 49.25 49.27 49.29 49.31 49.32 49.34 49.36
2.5 49.38 49.40 49.41 49.43 49.45 49.46 49.48 49.49 49.51 49.52
2.6 49.53 49.55 49.56 49.57 49.59 49.60 49.61 49.62 49.63 49.64
2.7 49.65 49.66 49.67 49.68 49.69 49.70 49.71 49.72 49.73 49.74
2.8 49.74 49.75 49.76 49.77 49.77 49.78 49.79 49.79 49.80 49.81
2.9 49.81 49.82 49.82 49.83 49.84 49.84 49.85 49.85 49.86 49.86
3.0 49.87 49.87 49.87 49.88 49.88 49.89 49.89 49.89 49.90 49.90
3.1 49.90 49.91 49.91 49.91 49.92 49.92 49.92 49.92 49.93 49.93
3.2 49.93 49.93 49.94 49.94 49.94 49.94 49.94 49.95 49.95 49.95
3.3 49.95 49.95 49.95 49.96 49.96 49.96 49.96 49.96 49.96 49.97
3.4 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.98
3.5 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98
3.6 49.98 49.98 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.7 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.8 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99
3.9 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
89
_
Ejemplo 1: al recolectar 250 datos, se obtuvo que la media es X = 7.65 y la desviación
estándar s = 2.24. Calcular el numero de datos aproximados que hay entre la media y el
dato nominal x = 8.1.
SOLUCIÓN: en este caso el enunciado proporciona los valores de la media y de la
desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,
continuando con el inciso c), hay que convertir a dato z el valor nominal x = 8.1 con la
formula dada, o sea:
_
z = x – X / s
z = 8.1 – 7.65 / 2.24 = 0.20
Figura 30
Se toman solamente dos decimales porque así vienen en las tablas. A continuación,
conforme a lo establecido en el inciso d) se busca en las tablas el valor de z
= 0.20 y se localiza que le corresponde A = 7.93%; que significa que el porcentaje de área
entre la media y el dato z = 0.20 es de 7.93%, pero como ese porcentaje también
corresponde a los datos recolectados, entonces puede obtenerse por una simple regla de tres
el numero de datos nominales comprendidos en esa región.
250 / 100% = n.d./ 7.93%
de donde el numero de datos n.d. es
n.d. = 250 x 7.93 / 100
n.d. = 19.825
El numero datos en forma calculada es n.d. = 19.825, pero ese valor carece de sentido, ya
que los datos recolectados siempre son números enteros porque se recolectan 200 datos, o
A
7. 93 %
Dato estandarizado z Z = 0 z = 0..2
Dato nominal x x = 7.65 x = 8.1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
90
220 datos, o 300 datos, pero jamás 291.8 puesto que es imposible. Entonces entre la media
aritmética y el dato z = 0.2008 no pueden haber 19.825 datos nominales, o hay 19 o hay 20,
pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es
entonces.
_
SOLUCIÓN: hay aproximadamente 20 datos entre la media X = 7.65 y el dato nominal x
= 8.1.
_
Ejemplo 2: al recolectar 1200 datos, se obtuvo una media de X = 47.5 y una desviación
estándar s = 6.4. Calcular el numero de datos aproximados que hay entre la media y el dato
nominal x = 55.
SOLUCIÓN: en este caso el enunciado proporciona los valores de la media y de la
desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,
continuando con el inciso c), hay que convertir a dato z el valor nominal x = 55, con la
formula dada, o sea:
_
z = x – X / s
z = 55 – 47.5 / 6.4 = 1.17
Figura 31
Se toman solamente dos decimales porque así vienen en las tablas. A continuación,
conforme a lo establecido en el inciso d) se busca en las tablas el valor de z = 1.17 y se
localiza que le corresponde A = 37.90%, que significa que el porcentaje de area entre la
media y el dato z = 1.17 es de 37.90%, pero como ese porcentaje también corresponde a los
datos recolectados, entonces puede obtenerse por una simple regla de tres el numero de
datos nominales comprendidos en esa región.
1200 / 100% = n.d./ 37.9%
de donde el numero de datos n.d. es
A
37.9 %
Dato estandarizado z Z = 0 z = 1.17
Dato nominal x x = 47.5 x = 55
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
91
n.d. = 1200 x 37.90 / 100
n.d. = 454.8
El numero datos en forma calculada es n.d. = 454.8, pero ese valor carece de sentido, ya
que los datos recolectados siempre son números enteros. De tal manera que entre la media
aritmética y el dato z = 1.17 no pueden haber 454.8 datos nominales, o hay 454 o hay 455,
pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es
entonces
_
SOLUCIÓN: hay aproximadamente 455 datos entre la media X = 47.5 y el dato nominal x
= 55.
_
Ejemplo 3: al recolectar 850 datos, se obtuvo una media de X = 27 y una desviación
estándar s = 5.34. Calcular el numero de datos aproximados que hay entre la media y el
dato nominal x = 20.
SOLUCIÓN: en este caso el enunciado proporciona los valores de la media y de la
desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,
continuando con el inciso c), hay que convertir a dato z el valor nominal x = 20, con la
formula dada, o sea:
_
z = x – X / s
z = 20 – 27 / 5.34 = -1.31
Figura 32
En este caso el valor de z es negativo, lo que significa que el dato nominal x = 20 está a la
izquierda de la media aritmética, pero en las tablas se busca simplemente como z = 1.31
localizándose que le corresponde un área de A = 40.49%; que significa que el porcentaje de
área comprendido entre la media y el dato z = 1.31 es de 40.49%, pero como ese porcentaje
A
40.49 %
Dato nominal x x = 20 x = 27
Dato estandarizado z Z = -1.31 z = 0
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
92
corresponde también a los datos recolectados, entonces puede obtener por una simple regla
de tres el numero de datos nominales comprendidos en esa región.
850 / 100% = n.d./ 40.49%
de donde el numero de datos n.d. es
n.d. = 850 x 40.49 / 100
n.d. = 344.16
El numero datos en forma calculada es n.d. = 344.16, pero ese valor carece de sentido, ya
que los datos recolectados siempre son números enteros. De tal manera que entre la media
aritmética y el dato z = 1.31 no pueden haber 344.16 datos nominales, o hay 344 o hay 345,
pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es
entonces
_
SOLUCIÓN: hay aproximadamente 344 datos entre la media X = 27 y el dato nominal x =
20.
CUESTIONARIO 20
1. El área bajo la curva normal a la izquierda de la media aritmética. ¿Qué
porcentaje de toda el área representa?
2. ¿Qué tiene que ver el área bajo la curva normal con los datos recolectados?
3. ¿Qué porcentaje de área bajo la curva existe en toda curva normal desde la media
aritmética hasta el dato estandarizado z = 1?
4. En las tablas, el porcentaje de área que aparece para cada dato estandarizado,
¿desde donde hasta donde siempre es considerado?
5. Al recolectar 350 datos, se obtuvo una media de 20.7 y una desviación estándar
de 7.84. Calcular el numero de datos que hay entre la media y el dato nominal x
= 30.
6. Al recolectar 1300 datos, se obtuvo una media de 420.15 y una desviación
estándar de 4.4. Calcular el numero de datos que hay entre la media y el dato
nominal x = 426.
7. Al recolectar 2500 datos, se obtuvo una media de 2.25 y una desviación estándar
de 2.8. Calcular el numero de datos que hay entre la media y el dato nominal x =
3.3.
8. Al recolectar 1430 datos, se obtuvo una media de 120 y una desviación estándar
de 6.6. Calcular el numero de datos que hay entre la media y el dato nominal x =
125.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
93
9. Al recolectar 373 datos, se obtuvo una media de 220.1 y una desviación estándar
de 7. Calcular el numero de datos que hay entre la media y el dato nominal x =
211.
10. Al recolectar 800 datos, se obtuvo una media de 99 y una desviación
estándar de 5.42. Calcular el numero de datos que hay entre la media y el dato
nominal x = 90.
11. Al recolectar 425 datos, se obtuvo una media de 80.725 y una desviación
estándar de 1.8. Calcular el numero de datos que hay entre la media y el dato
nominal x = 78.3.
12. Al recolectar 1720 datos, se obtuvo una media de 120 y una desviación
estándar de 9.6. Calcular el numero de datos que hay entre la media y el dato
nominal x = 115.
PORCENTAJE ENTRE DOS DATOS NOMINALES
En el tema anterior se estudió la forma de obtener el número de datos recolectados entre la
media aritmética y un dato nominal establecido. Sin embargo, otro problema que puede
presentarse es como obtener el número de datos recolectados ya no a partir de la media,
sino entre dos datos nominales.
Hay dos opciones: la primera es que los datos estandarizados z1 y z2 se localicen uno a la
derecha y el otro a la izquierda de la media. La solución a este nuevo problema es muy
simple, pues por una lógica muy elemental se puede deducir que el área total es igual a la
suma del área 1 más el área 2, como se ve en la figura 33.
A
z1 z 2
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
94
A = A1 + A2
Figura 33
En donde A1 es el área desde la media hasta el dato estandarizado z1, la que se obtiene en
tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el área desde la
media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2
es la suma de áreas o porcentajes de cada uno.
Otra opción que puede presentarse es la que se muestra en la figura 34, consistente en que
ambos valores estandarizados z1 y z2 se encuentren del mismo lado respecto de la media,
en la que también por una lógica muy elemental puede deducirse que el área total es
simplemente la resta del área 1 menos el área 2.
A
z1 z2
A2
z2
A1
z1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
95
A = A1 + A2
Figura 34
En donde A1 es el área desde la media hasta el dato estandarizado z1, la que se obtiene en
tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el área desde la
media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2
es la suma de áreas o porcentajes de cada uno.
Ejemplo 1: al recolectar 500 datos, se obtuvo una media aritmética de 55 y una desviación
estándar de 8.80. Calcular el numero de datos aproximados que hay entre los datos
nominales x1 = 51 y x2 = 64.
SOLUCIÓN: convirtiendo a dato normalizado o estandarizado x1 = 51 y x2 = 64:
_
z = x – X / s
z1 = 51 – 55 / 8.8 = -0.45
z2 = 64 – 55 / 8.8 = 1.02
Buscando en tablas se obtiene que para z1 = 0.45 le corresponde un porcentaje de área de
A1 = 17.36% y para z2 = 1.02 le corresponde un porcentaje de área de A2 = 34.61%
A2
z2
A1
z1
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
96
A1 + A2 = A
Figura 35
Como se ve en la figura 35, el porcentaje de área total es la suma de A1 + A2, es decir A=
17.36% + 34.61% = 51.97%, porcentaje que también corresponde, como ya se dijo antes, a
los datos entre x1 y x2. De manera que por una simple regla de tres:
500 / 100% = n.d. / 51.97%
n.d. = 500 x 51.97 / 100
n.d. = 259.85
A= 51.97%
z1 z2
A2 =34.61%
z2 = 1.02
A1=17.36%
z1 = -0.45
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
97
El numero datos en forma calculada es n.d. = 259.85, pero ese valor carece de sentido, ya
que los datos recolectados siempre son números enteros. De tal manera que entre el dato z
= -0.45 y el dato z = 1.02 no pueden haber 259.85 datos nominales, o hay 259 o hay 260,
pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es
entonces
SOLUCIÓN: hay aproximadamente 260 datos entre el dato nominal x = 51 y el dato
nominal x = 64.
Ejemplo 2: al recolectar 750 datos, se obtuvo una media aritmética de 205 y una
desviación estándar de 9.68. Calcular el numero de datos aproximados que hay entre los
datos nominales x1 = 213 y x2 = 230.
SOLUCIÓN: convirtiendo a dato normalizado o estandarizado x1 = 213 y x2 = 230:
_
z = x – X / s
z1 = 213 – 205 / 9.68 = 0.82
z2 = 230 – 205 / 9.68 = 2.58
Buscando en tablas se obtiene que para z1 = 0.82 le corresponde un porcentaje de área de
A1 = 29.32% y para z2 = 2.58 le corresponde un porcentaje de área de A2 = 49.51%
Como se ve en la figura 36, el porcentaje de área total es la resta de A2 – A1, es decir A=
49.51% - 29.32% = 20.19%, porcentaje que también corresponde, como ya se dijo antes, a
los datos entre x1 y x2. De manera que por una simple regla de tres:
750 / 100% = n.d. / 20.19%
n.d. = 750 x 20.19 / 100
n.d. = 151.42
El numero datos en forma calculada es n.d. = 151.42, pero ese valor carece de sentido, ya
que los datos recolectados siempre son números enteros. De tal manera que entre el dato z
= 0.82 y el dato z = 2.58 no pueden haber 151.42 datos nominales, o hay 151 o hay 152,
pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano
y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es
entonces
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
98
SOLUCIÓN: hay aproximadamente 151 datos entre el dato nominal x = 213 y el dato
nominal x = 230.
CUESTIONARIO 21
1. Al recolectar 450 datos, se obtuvo una media de 50 y una desviación estándar de
17.4. Calcular el numero de datos que hay entre el dato nominal x1= 34 y el dato
nominal x2 = 61.
2. Al recolectar 1700 datos, se obtuvo una media de 400 y una desviación estándar
de 14. Calcular el numero de datos que hay entre el dato nominal x1= 387 y el
dato nominal x2 = 430.
3. Al recolectar 2500 datos, se obtuvo una media de 225 y una desviación estándar
de 12. Calcular el numero de datos que hay entre el dato nominal x1= 200 y el
dato nominal x2 = 235.
4. Al recolectar 1940 datos, se obtuvo una media de 120 y una desviación estándar
de 16. Calcular el numero de datos que hay entre el dato nominal x1= 96 y el
dato nominal x2 = 150.
5. Al recolectar 873 datos, se obtuvo una media de 220.1 y una desviación estándar
de 17. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 230 y el dato nominal x2 = 259.
6. Al recolectar 807 datos, se obtuvo una media de 99 y una desviación estándar de
5.42. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 103 y el dato nominal x2 = 112.
7. Al recolectar 457 datos, se obtuvo una media de 809 y una desviación estándar
de 21.8. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 830 y el dato nominal x2 = 852.
8. Al recolectar 1725 datos, se obtuvo una media de 120 y una desviación estándar
de 19. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 145 y el dato nominal x2 = 164.
9. Al recolectar 2730 datos, se obtuvo una media de 2520 y una desviación estándar
de 21. Calcular el numero de datos aproximados que hay entre el dato nominal
x1= 2500 y el dato nominal x2 = 2481.
10. Al recolectar 1687 datos, se obtuvo una media de 109 y una desviación
estándar de 10. Calcular el numero de datos aproximados que hay entre el dato
nominal x1= 100 y el dato nominal x2 = 97.
11. Al recolectar 570 datos, se obtuvo una media de 89 y una desviación
estándar de 21. Calcular el numero de datos aproximados que hay entre el dato
nominal x1= 73 y el dato nominal x2 = 52.
12. Al recolectar 1756 datos, se obtuvo una media de 120 y una desviación
estándar de 13. Calcular el numero de datos aproximados que hay entre el dato
nominal x1= 110 y el dato nominal x2 = 84.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
99
0
1
2
3
4
5
6
7
1 2 3 4 5
INDICE PARTICULAR
Regresión lineal
Ecuación de la recta
Formulas para “m” y para “b”
Cuestionario 22
Coeficiente de correlación lineal
Cuestionario 23
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
100
7
REGRESIÓN LINEAL
En el capitulo anterior se estudiaron aquellos casos en los que los datos recolectados tienen
simetría, dando origen a la “curva normal”. Evidentemente que no todos los casos son
como ésos, por lo que según sus características se clasifican de distintas formas. En este
capitulo se estudiarán ahora aquellos otros datos que al graficarse, en vez de dar la “curva
normal”, dan una línea recta.
El estudio consiste en tratar de encontrar con la mayor aproximación la ecuación de la recta
a la que más se acercan todos los puntos para, a partir de ella, intentar deducir o inferir el
comportamiento de los que no aparecen en la tabla.
Ejemplo 1: se realizó una encuesta en una fábrica de pinturas para relacionar la cantidad de
cierto aditivo químico agregado al colorante con el tiempo de secado, obteniéndose los
resultados mostrados en la siguiente tabla.
Graficar esos resultados y señalar la recta que más se aproxima a dichos valores.
Cantidad de aditivo
x
Tiempo de secado
y
1 2.6
2 2.3
3 2.2
4 2
5 1.8
6 1.8
7 1.4
8 1.2
9 1.3
SOLUCIÓN: graficando los datos de la tabla en donde las abscisas (las “X”) son los
valores de la primera columna y las ordenas (las “Y”) los de la segunda columna, se
obtienen los puntos señalados en la figura 37. A la grafica correspondiente a todos esos
puntos se le llama diagrama de dispersión.
Una recta aproximada a esos puntos también se ha marcado con línea punteada en la misma
figura 37.
Se ve que se trata de un caso en el que los datos dan aproximadamente una línea recta.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
101
1 2 3 4 5 6 7 8 9
Por lo pronto en este ejemplo no se hará ninguna deducción a partir de la grafica. Se trata
por el momento solamente de mostrar visualmente como hay casos en los que los datos
graficados dan aproximadamente una línea recta.
ECUACION DE LA RECTA
La ecuación de la recta en forma particular es:
y = mx + b
En donde:
m = pendiente de la recta
b = ordenada al origen
Ejemplos de ecuaciones de rectas son las mostradas en la tabla siguiente, en la que se han
especificado los correspondientes valores de la pendiente m y de la ordenada al origen b.
ECUACIÓN m b
y = 2x – 1 m = 2 b = -1
y = -x/3 + 11 m = - 1/3 b = 11
y = 2x /7 m = 2/7 b = 0
De tal manera que cuando se tiene un conjunto de datos tales que su grafica de
aproximadamente una recta, el primer paso es obtener su ecuación, para lo cual se requieren
los valores de la pendiente m y de la ordenada al origen b. a esa ecuación se le llama
ecuación de regresión, que significa algo así como “ecuación con la que se regresa a la
recta” y existen dos formulas que dan cada una respectivamente el valor de m el de b..
Dichas formulas son:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
102
(1)
m = n ΣΧY-ΣΧΣY
n ΣΧ2-(ΣΧ)
2
(2)
b = ΣΧ2ΣY-ΣΧΣΧY
n ΣΧ2-(ΣΧ)
2
Ejemplo 1: la relación entre el número de años (x) laborando para la empresa y el número
de ventas logradas (y) por cada vendedor es la mostrada en la siguiente tabla. ¿Cuántas
ventas pueden esperarse en un trabajador con 16 años de servicio? ¿Cuántos años,
aproximadamente se requieren para lograr 14 ventas?
Vendedor Años laborando
x
Ventas
y
Abel 3 2
Manuel 4 3
Luis 4 4
Gloria 5 4
Jorge 5 4
Eva 6 3
Roque 6 4
Pedro 7 4
Saúl 7 5
Daniel 7 6
Raúl 8 6
Flor 9 6
Teresa 9 7
Irma 10 7
Efraín 10 8
SOLUCIÓN: lo primero que debe encontrarse es la ecuación de regresión, es decir, la
ecuación de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.
Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de
esta tabla. El diagrama de dispersión correspondiente a dicha tabla se muestra en la figura
38.
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
103
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12
Figura 38
Puede apreciarse en el diagrama de dispersión que los puntos insinúan una recta, de la cual
se va a calcular su ecuación.
Para eso, conforme a la experiencia obtenida en el trabajo de capítulos anteriores, por
inspección de las formulas 1 y 2 de la página anterior, se puede establecer que se requiere
elaborar una tabla con cuatro columnas, de la siguiente forma:
La 1ª columna encabezada con X; la 2ª columna encabezada con Y; la 3ª columna
encabezada con XY y la 4ª columna encabezada con X2 de la siguiente manera:
X Y XY X2
Abel 3 2 6 9
Manuel 4 3 12 16
Luis 4 4 16 16
Gloria 5 4 20 25
Jorge 5 4 20 25
Eva 6 3 18 36
Roque 6 4 24 36
Pedro 7 4 28 49
Saúl 7 5 35 49
Daniel 7 6 42 49
Raúl 8 6 48 64
Flor 9 6 54 81
Teresa 9 7 63 81
Irma 10 7 70 100
Efraín 10 8 80 100
ΣΧ= 100 ΣY= 73 ΣΧY= 536 Σ X2= 736
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
104
De manera que utilizando la formula (1):
(1)
m = n ΣΧY-ΣΧΣY
n ΣΧ2-(ΣΧ)
2
m = (15)(536) - (100)(73)
(15)(736) - (100)2
m = 0.7115
Y utilizando la formula (2):
(2)
b = ΣΧ2ΣY-ΣΧΣΧY
n ΣΧ2-(ΣΧ)
2
b = (736)(73) - (100)(536)
(15)(736) - (100)2
b = 0.123
La ecuación de la recta buscada es
y = 0.7115x + 0.1230
Esta ecuación sirve para poder contestar las dos preguntas formuladas en el enunciado del
problema: ¿Cuántas ventas pueden esperarse en un trabajador con 16 años de servicio?
¿Cuántos años, aproximadamente se requieren para lograr 14 ventas?
Como en la ecuación anterior, x representa los años laborando y y las ventas, para la
primera pregunta se tiene como dato que x = 16, de manera que sustituyéndolo en la
ecuación de la recta, se obtiene:
y = 0.7115 (16) + 0.1230
y = 11507
Es decir, se pueden esperar aproximadamente entre once y doce ventas de un trabajador con
16 años laborando.
Para la segunda pregunta, se tiene como dato que y = 14, o sea 14 ventas, de manera que
sustituyendo en la ecuación de la recta, se obtiene:
14 = 0.7115x + 0.1230
x = 19.5
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
105
Significa que se requieren aproximadamente de diez y nueve a veinte años de servicio para
alcanzar 14 ventas.
Ejemplo 2: la relación entre el numero de semanas (x) de haber comenzado con un negocio
y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla.
¿Cuántas semanas pueden esperarse para que las pérdidas sean nulas?
X 1 2 3 4 5 6 7
Y 12.3 11 9 8 6 5.2 4
SOLUCIÓN: lo primero que debe encontrarse es la ecuación de regresión, es decir, la
ecuación de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.
Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de
esta tabla. El diagrama de dispersión correspondiente a dicha tabla se muestra en la figura
38.
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7 8
Figura 40
Puede apreciarse en el diagrama de dispersión que los puntos insinúan una recta, de la cual
se va a calcular su ecuación.
Para eso, conforme a la experiencia obtenida en el trabajo de capítulos anteriores, por
inspección de las formulas 1 y 2, se puede establecer que se requiere elaborar una tabla con
cuatro columnas, de la siguiente forma:
La 1ª columna encabezada con X; la 2ª columna encabezada con Y; la 3ª columna
encabezada con XY y la 4ª columna encabezada con X2 de la siguiente manera:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
106
X Y XY X2
1 12.3 12.3 1
2 11 22 4
3 9 27 9
4 8 32 16
5 6 30 25
6 5.2 31.2 36
7 4 28 49
ΣΧ= 28 ΣY= 55.5 ΣΧY= 182.5 Σ X2= 140
De manera que utilizando la formula (1):
(1)
m = n ΣΧY-ΣΧΣY
n ΣΧ2-(ΣΧ)
2
m = (7)(182.5) - (28)(55.5)
(7)(140) - (28)2
m = -1.41
Y utilizando la formula (2):
(2)
b = ΣΧ2ΣY-ΣΧΣΧY
n ΣΧ2-(ΣΧ)
2
b = (140)(55.5) - (28)(182.5)
(7)(140) - (28)2
b = 13.57
La ecuación de la recta buscada es
y = -1.41x + 13.57
Esta ecuación sirve para poder contestar la pregunta formulada en el enunciado del
problema: ¿Cuántas semanas pueden esperarse para que las pérdidas sean nulas?
Como en la ecuación anterior, x representa el número de semanas de haber comenzado con
un negocio mientras que y las pérdidas registradas, para la pregunta se tiene como dato que
y = 0, de manera que sustituyéndolo en la ecuación de la recta, se obtiene:
0 = -1.41 + 13.57
x = 9.62
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
107
Es decir, se pueden esperar aproximadamente que entre la novena y la décima semanas las
perdidas desaparezcan.
CUESTIONARIO 22
1. Se realizó una encuesta en diversas familias para relacionar el numero de hijos
en la familia (X) con el porcentaje de gastos médicos realizados al mes (Y), la
cual se muestra en la siguiente tabla:
Hijos
X
% de gastos
Y
Familia Carranza 0 1%
Familia Corrales 1 4.6
Familia Benítez 1 4.7
Familia Dávila 1 5
Familia Méndez 1 5.1
Familia Obregón 2 8.9
Familia Reyes 2 9
Familia Jiménez 3 13
Familia Ballesteros 4 17.1
Familia Uribe 4 17.2
Familia Zavala 5 20.8
Familia Quiñones 5 21
Familia Ruiz 5 21.1
Familia Hernández 6 25
a) ¿Qué porcentaje de gastos médicos puede esperarse de una familia con 11
hijos?
b) Si una familia tiene un gasto aproximado del 40%, ¿cuántos hijos se espera
que tenga?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
108
2. Se realizó una encuesta en diversas familias para relacionar el numero de hijos
en la familia (X) con el porcentaje de gastos en ropa realizados al mes (Y), la
cual se muestra en la siguiente tabla:
Hijos
X
% de gastos
Y
Familia Calderón 1 1%
Familia Corrales 1 2
Familia Benítez 1 4.3
Familia Durango 1 4.5
Familia Mondragón 1 3.1
Familia Olvera 2 8.9
Familia Reyes 2 9
Familia Justiniani 3 14
Familia Balbuena 3 17.9
Familia Uribe 4 20
Familia Zavala 4 23
Familia Quiñones 4 26
Familia Rentería 5 31.1
Familia Hernández 5 30
Familia Ocaranza 6 37
a) ¿Qué porcentaje de gastos en ropa puede esperarse de una familia con 10
hijos?
b) Si una familia tiene un gasto aproximado del 51%, ¿cuántos hijos se espera
que tenga?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
109
3. Se realizó una encuesta en una fabrica para relacionar el numero de
enfermedades al año (X) de cada trabajador con el porcentaje de rendimiento en
el trabajo (Y), la cual se muestra en la siguiente tabla:
# de enfermedades
X
% de rendimiento
Y
Ismael Carranza Z. 0 100
José Benito Corrales Y. 0 96.6
Ramón Benítez F. 0 94.7
Marco Dávila G. 1 91
Estanislao Méndez M. 1 88.2
Juan Obregón L. 1 90
Jesús de la O. Reyes 2 82
Arturo Jiménez A. 2 79.1
Clemente Ballesteros H. 2 85.7
Dionisio Uribe Q. 3 73.2
Estanislao Zavala R. 3 73
Roberto Quiñónez D. 4 64
Rubén Ruiz de la T. 4 60.8
Fernando Hernández y H. 5 55
a) Si un trabajador tiene un rendimiento aproximado de 10%, ¿cuántas
enfermedades al año se espera que tenga?
b) ¿Qué porcentaje de rendimiento puede esperarse de un trabajador que se
enferme siete veces durante el año?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
110
4. Se realizó una encuesta en una fabrica para relacionar el numero de años de
experiencia de cada trabajador (X) con el porcentaje de eficiencia en el trabajo
(Y), la cual se muestra en la siguiente tabla:
Antigüedad
X
% de eficiencia
Y
Ismael Carranza Z. 0 50
José Benito Corrales Y. 0 53.6
Ramón Benítez F. 0 55.7
Marco Dávila G. 1 57
Estanislao Méndez M. 1 58
Juan Obregón L. 1 57
Jesús de la O. Reyes 2 60.5
Arturo Jiménez A. 2 61
Clemente Ballesteros H. 2 61
Dionisio Uribe Q. 3 65.2
Estanislao Zavala R. 3 68.1
Roberto Quiñónez D. 4 69.2
Rubén Ruiz de la T. 4 69
Fernando Hernández y H. 5 69
Francisco Ocaranza L. 5 73
a) ¿Qué porcentaje de rendimiento puede esperarse de un empleado con 7 años
de experiencia en el trabajo?
b) Si se desea que los trabajadores alcancen un rendimiento aproximado del
90%, ¿cuántos años de experiencia laboral debe esperarse que tengan?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
111
5. Se realizó una encuesta en una fábrica de combustible en 15 vehículos de la
misma marca y modelo, para relacionar la velocidad (X) en km/h con el gasto de
combustible (Y) en litros por kilómetro, la cual se muestra en la tabla siguiente:
Velocidad (km/h)
X
Consumo de combustible
Y
Vehículo 1 4.35 5
Vehículo 2 10 4.66
Vehículo 3 15 4.51
Vehículo 4 15 4.46
Vehículo 5 15 4.36
Vehículo 6 20 4
Vehículo 7 20 3.95
Vehículo 8 20 4.06
Vehículo 9 25 3.77
Vehículo 10 25 3.86
Vehículo 11 30 3.61
Vehículo 12 30 3.2
Vehículo 13 35 3.17
Vehículo 14 35 3.15
Vehículo 15 40 2.87
a) Si un vehículo gasta 1 litro por kilómetro, ¿A qué velocidad debe correr
aproximadamente para lograr ese consumo?
b) ¿Qué gasto de combustible puede esperarse de un vehículo cuando corra a
la velocidad de 40 km/h?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
112
6. Se realizó una encuesta en diferentes ciudades importantes de un país para
relacionar el grado de contaminación ambiental (X) en imecas con el porcentaje
de población afectado de las vías respiratorias (Y), la cual se muestra en la
siguiente tabla:
imecas
X
% de población afectada
Y
Población 1 45 2
Población 2 45 1.5
Población 3 50 4
Población 4 55 6
Población 5 65 9
Población 6 65 10
Población 7 70 11
Población 8 70 12
Población 9 70 13
Población 10 75 13
Población 11 80 16
Población 12 90 21
Población 13 95 22
Población 14 95 25
Población 15 100 24
Población 16 120 32
a) Si un vehículo alcanza 150 imecas, ¿Qué porcentaje de su población es de
esperarse que padezca de las vías respiratorias?
b) Si una población tiene el 60% de enfermos de las vías respiratorias, ¿Qué
grado de contaminación es de suponerse que tenga?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
113
7. Se realizó una encuesta en diferentes ciudades para relacionar el numero de
cigarros fumados al día por persona (X) con el porcentaje de habitantes
fumadores que adquirieron cáncer pulmonar (Y), la cual se muestra en la
siguiente tabla:
# de cigarros al día
X
% de fumadores que
adquirieron cáncer
pulmonar
Y
Población 1 2 15
Población 2 2 16
Población 3 3 17.5
Población 4 3 18
Población 5 3 18
Población 6 5 23.5
Población 7 5 24
Población 8 10 37.8
Población 9 10 38
Población 10 12 42
Población 11 12 43
Población 12 12 44
Población 13 15 52
Población 14 15 53
Población 15 20 66.5
Población 16 25 80
a) Si una persona fuma 8 cigarros al día, ¿Qué probabilidad aproximada tiene
de adquirir cáncer pulmonar?
b) Si una persona tiene el 95% de probabilidad de adquirir cáncer pulmonar,
¿Cuántos cigarros al día aproximadamente fuma?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
114
8. Se realizó una encuesta en diferentes hogares para relacionar el nivel economico
de las familias medido en numero de salarios mínimos de ingreso (X) con el
numero de kilos de basura diarios producidos al consumir comida chatarra (Y),
la cual se muestra en la siguiente tabla:
Ingreso en salarios
mínimos
X
# de kilos de basura al día
Y
Hogar 1 1 8
Hogar 2 1 8.5
Hogar 3 1.5 7
Hogar 4 1.5 6.5
Hogar 5 2 6
Hogar 6 2 5.8
Hogar 7 2 5.5
Hogar 8 2.5 5
Hogar 9 2.5 4.7
Hogar 10 3 3.6
Hogar 11 3 3.5
Hogar 12 3.5 2.5
Hogar 13 3.5 2.2
Hogar 14 4 2
Hogar 15 4 1.7
Hogar 16 4 1.5
a) Si una familia tiene un ingreso de 6 salarios mínimos, ¿cuántos kilos de
basura producidos por el consumo de comida chatarra es de esperarse que
tiren?
b) Si una familia produce 4 kilos diarios de basura de desperdicios de comida
chatarra, ¿de cuántos salarios mínimos de ingresos es de esperarse que sea
su nivel de vida?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
115
9. se sabe que las higuerillas crecen mejor en aguas contaminadas. Por lo tanto, se
realizó una encuesta en diferentes ríos con aguas contaminadas para relacionar el
numero de higuerillas (X) que crecen en sus riveras por cada 5 kilómetros, con el
grado de contaminación de las aguas (Y), la cual se muestra en la siguiente tabla:
# de higuerillas
X
Grado de contaminación
Y
Río 1 6 1
Río 2 11 2
Río 3 28 5
Río 4 30 5
Río 5 31 5
Río 6 48 8
Río 7 50 9
Río 8 60 10
Río 9 65 10
Río 10 88 15
Río 11 90 15
Río 12 90 16
Río 13 96 16
Río 14 115 20
Río 15 120 20
Río 16 180 31
a) Si en un río se localizan 225 higuerillas a lo largo de kilómetros, ¿qué
porcentaje de contaminación en sus aguas es de esperarse?
b) Para un río cuyas aguas estén contaminadas al 70%, ¿cuántas higuerillas
puede esperarse que se encuentren en su rivera por cada 5 km?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
116
10. Para determinar el posible rendimiento de cada jugador, se realizó una
encuesta para relacionar la edad del deportista (X) con el tiempo en minutos (Y)
que soporta antes de bajar su rendimiento por agotamiento, la cual se muestra en
la siguiente tabla:
edad
X
tiempo
Y
Jugador 1 15 100
Jugador 2 15 105
Jugador 3 16 98
Jugador 4 16 96
Jugador 5 17 93
Jugador 6 18 90
Jugador 7 19 85
Jugador 8 19 82
Jugador 9 20 82
Jugador 10 25 65
Jugador 11 25 70
Jugador 12 28 55
Jugador 13 30 50
Jugador 14 30 47
Jugador 15 35 30
Jugador 16 35 26
a) Si un jugador rinde 74 minutos, ¿qué edad es de esperarse que tenga?
b) Para un jugador de 32 años, ¿cuántos minutos de rendimiento pueden
esperarse?
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
117
COEFICIENTE DE CORRELACIÓN
Al hacer el diagrama de dispersión y trazar sobre él la recta perteneciente a la ecuación
obtenida, se nota que mientras algunos puntos pertenecen a la recta, es decir, están sobre
ella, por lo general la mayoría de los puntos quedan afuera de ella.
Si los puntos que quedan afuera están situados muy próximos a la recta, o sea hay poca
distancia entre la recta y cada punto, se dice que “hay poca dispersión”; a la inversa, si los
puntos que quedan afuera están situados distantes a la recta, o sea hay mucha distancia
entre la recta y cada punto, se dice que “hay mucha dispersión”.
Obviamente, cuando se hacen predicciones a partir de la recta obtenida, estas serán más
confiables mientras menos dispersión exista. Para tener un parámetro o medida de esa
dispersión se utiliza una formula que arroja ciertos resultados numéricos, los cuales tienen
el siguiente significado: si da igual a 1 quiere decir que todos los puntos están sobre la
recta; si da 0 quiere decir que la grafica no se parece en nada a una recta. Los valores
intermedios tienen el significado intermedio entre los dos extremos antes citados.
Dicha formula es:
r = n ΣΧY - ΣΧΣY
[n ΣΧ2- (ΣΧ)
2] [n ΣY
2- (ΣY)
2]
Puede verse que las sumatorias que se requieren son casi las mismas obtenidos en la
elaboración de la tabla para calcular la ecuación de regresión de la recta, es decir con esa
misma tabla puede obtenerse la pendiente m, la ordenada al origen b y el coeficiente de
correlación r, agregando solamente una columna más como se verá en el siguiente ejemplo.
Ejemplo 1: la relación entre el numero de semanas (x) de haber comenzado con un negocio
y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla:
obtener su coeficiente de correlación.
X 1 2 3 4 5 6 7
Y 12.3 11 9 8 6 5.2 4
SOLUCIÓN: se requiere elaborar una tabla con cinco columnas, de la siguiente forma:
M.A. Eduardo Aguilera Oseguera
Profesor de la Facultad de Contaduría
y Ciencias Administrativas de la U.M.S.N.H.
118
La 1ª columna encabezada con X; la 2ª columna encabezada con Y; la 3ª columna
encabezada con XY; la 4ª columna encabezada con X2 y la 5ª columna encabezada con Y
2
de la siguiente manera:
X Y XY X2 Y
2
1 12.3 12.3 1 151.29
2 11 22 4 121
3 9 27 9 81
4 8 32 16 64
5 6 30 25 36
6 5.2 31.2 36 27.04
7 4 28 49 16
ΣΧ= 28 ΣY= 55.5 ΣΧY= 182.5 Σ X2= 140 Σ Y
2=496.3
3
Así que utilizando la fórmula del coeficiente de correlación
r = n ΣΧY - ΣΧΣY
[n ΣΧ2- (ΣΧ)
2] [n ΣY
2- (ΣY)
2]
Sustituyendo: r = 7(182.5) - (28)(55.5)
[7(140) - (28)2] [7(496.33) - (55.5)
2]
r = 1277.5 - 1554
(980 - 784)(3474.31 - 3080.25)
r = -276.5
77235.76
r = -0.9949
El valor obtenido es negativo porque la recta tiene pendiente negativa y además es un valor
muy cercano al 1, lo que significa que los puntos están realmente muy cercanos a la recta
calculada.