capitulo 1 de matematicas... · m.a. eduardo aguilera oseguera profesor de la facultad de...

118
M.A. Eduardo Aguilera Oseguera Profesor de la Facultad de Contaduría y Ciencias Administrativas de la U.M.S.N.H. 1 0 1 2 3 4 5 6 7 1 2 3 4 5 INDICE PARTICULAR Conceptos y definiciones Población Muestra Datos nominales Datos nominales numéricos Datos nominales sustantivos Datos ordinales Estadística descriptiva Estadística inferencial Cuestionario 1

Upload: doandien

Post on 02-Oct-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

1

0

1

2

3

4

5

6

7

1 2 3 4 5

INDICE PARTICULAR

Conceptos y definiciones

Población

Muestra

Datos nominales

Datos nominales numéricos

Datos nominales sustantivos

Datos ordinales

Estadística descriptiva

Estadística inferencial

Cuestionario 1

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

2

1

CONCEPTOS Y DEFINICIONES

La estadística es el conjunto de métodos o técnicas que se aplican a la recolección,

organización, presentación, análisis e interpretación de datos numéricos.

La estadística consiste en los cuatro pasos fundamentales que se acaban de mencionar:

primero se recolectan datos, los cuales, por lo general, en ese primer paso quedan en

desorden; se podría decir que se tienen los datos, pero todos revueltos. ¿Por qué?

Supóngase, por ejemplo, que se quiere saber el promedio del peso (en kilogramos) de las

personas que viajan en avión. Entonces, para recolectar esos datos se les indicará a los

viajeros que pasen a pesarse a la báscula. Una persona se encargará de registrar el peso que

va dando cada persona. Y evidentemente lo mismo podrá salir en primer lugar una gente

con 80 kilos que otra con 60; el siguiente apenas con 48 o con 75 kilos; y así

sucesivamente. Es decir, conforme pase a la bascula cada viajero quedarán registrados

todos sus pesos, pero sin ningún orden.

Para eso es la segunda etapa, la de organizar los datos. Organizar los datos significa

ponerlos en orden, ya sea de menor a mayor o a la inversa, cuando los datos son de tipo

numérico, como los pesos de un grupo de personas, o sus edades, o las calificaciones de un

grupo escolar, etc., o también por intervalos, anotando cuántos datos se registraron de cada

valor, aunque hay veces que esos datos no son de tipo numérico, como por ejemplo cuando

se desea saber las causas de mortandad en una población, o las enfermedades mas

frecuentes en algún periodo del año, o las preferencias de la gente en ciertas compras de

artículos. De cualquier forma, ya sea que se traten de datos numéricos o no, estos suele

hacerse a través de tablas.

La presentación de esos datos ya ordenados es para visualizar el comportamiento del grupo

en estudio. Suelen hacerse esas presentaciones por medio de gráficas.

Y finalmente la cuarta etapa es la interpretación, que de hecho es realmente el objetivo que

se persigue con la estadística. Sin la interpretación de los datos carecería de sentido la

estadística. Seria el equivalente a tener muchos datos recolectados y ya.

Cada una de estas etapas será motivo de estudio en forma individual cada una en diferente

capítulo.

La estadística o métodos estadísticos son de gran utilidad en muchas disciplinas, ya que en

la vida práctica frecuentemente se necesita extraer conclusiones válidas y confiables

respecto de un grupo de individuos u objetos. Por ejemplo, una fábrica de tornillos

seguramente requerirá saber el porcentaje de tornillos defectuosos que produce.

La medicina, la biología, la economía, la sociología, los deportes, la astronomía, la

docencia, etc., aplican los métodos estadísticos en diferentes niveles de complejidad, desde

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

3

aquellos que utilizan técnicas muy elaboradas hasta los que solamente requieren tablas de

información. En la actualidad la mayoría de las ciencias debe recurrir a la estadística de

manera indispensable para su enriquecimiento.

Una población es el conjunto de individuos u objetos con una característica común, acerca

del cual se quiere saber algo.

Ejemplos: Una población puede ser un grupo del 3er semestre de la escuela, acerca del cual

se desea saber su promedio de calificaciones en un mes determinado, o bien mes por mes.

Una población pueden ser los habitantes de una ciudad de la cual se desea saber el índice de

enfermedades en las diferentes épocas del año. Una población pueden ser los trabajadores

de una fábrica de los que se desea saber su porcentaje de rendimiento en el trabajo. Una

población puede ser una especie seleccionada de animales de la cual se desea investigar

patrones de comportamiento. Una población pueden ser todos los tornillos producidos en

una fábrica durante una semana o un mes.

Una población, dicho con otras palabras, es el conjunto universal, es decir, es el todo.

Una muestra es una parte representativa de la población.

A veces no es conveniente analizar uno a uno todos los elementos de una población, ya sea

por razones de costo, de tiempo o de posibilidad, en cuyos casos se seleccionan de manera

representativa algunos integrantes de la población. Esos son la muestra.

Por ejemplo, supóngase que se desea estimar el porcentaje de tornillos defectuosos que se

producen en una fábrica en cierto periodo. Si se fabrican 500 mil piezas a la semana, no es

costeable pagar a un trabajador para que se dedique a analizar uno a uno todos los tornillos.

Entonces se seleccionan algunos de los tornillos bajos ciertas técnicas que proporciona la

estadística, se calcula el porcentaje de tornillos defectuosos detectados en esa muestra y el

resultado se hace extensivo a toda la población, es decir, si en la muestra el 5% resultó

defectuoso, debe esperarse que en toda la población el promedio sea igual o muy próximo a

ese 5%.

En otros casos no se puede analizar toda la población porque ésta se destruiría. Por

ejemplo, supóngase que se desea saber el tiempo promedio de duración de ciertas piezas

antes de que sufran desgaste considerable. Una manera de hacerlo sería probando pieza por

pieza, pero eso implica que haya que someter a todas las piezas a la prueba y esperar a que

se desgasten hasta su inutilización para obtener su tiempo y promediar; entonces se tendría

ciertamente la información exacta del tiempo promedio de duración de las piezas

fabricadas, pero a costa de haberlas destruido. De manera que para evitar lo anterior, se

recurre a la muestra.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

4

Existen también ciertos eventos que dependen del tiempo, siendo la población total los

eventos del pasado, los del presente y los que acontecerán en el futuro, por lo tanto resulta

imposible analizar a los del futuro. En tales casos la muestra vienen siendo los sucesos ya

verificados (del pasado). Por ejemplo, se realiza una análisis durante 50 años sobre las

temperaturas promedio en las diferentes épocas del año en una ciudad; al observarse que en

Mayo las temperaturas siempre oscilaron entre los 29 y 32 grados, podrá hacerse una

especie de “predicción” para los años futuros en el sentido que se repetirán las mismas

temperaturas en el mes de Mayo. Aquí la muestra son los cincuenta años ya pasados que

fueron estudiados, mientras que la población la forman todos los años, incluyendo a los que

están por venir.

Finalmente, hay casos en que resulta imposible estudiar a todos los elementos de una

población, por lo que se recurre a la muestra. Seria el caso, por ejemplo, del biólogo que

desea descubrir rasgos de comportamiento de alguna especie animal como podría ser su

longevidad, o sea, los años que vive. No es posible investigar uno a uno a todos los

animales, por lo que se recurre a una muestra y de ellos se sacan conclusiones que se

extienden a toda la población.

Las dos características más importantes que debe tener una muestra son: uno, ser aleatorias,

esto es que cada miembro de la población tenga igual oportunidad de salir en la muestra, o

sea la misma probabilidad de ser escogido, y, dos, ser representativas de la población.

Al proceso de seleccionar o de obtener una muestra se le llama muestreo. La teoría del

muestreo abarca un capitulo completo dentro de la estadística; sin embargo, como esto

queda fuera del presente programa, no se abundará en este tema más allá que la simple

mención.

Una muestra, dicho en otras palabras, es un subconjunto de la población, es decir, es una

parte del todo.

Los datos nominales son aquellos que representan o exhiben los rasgos o características de

la población o de la muestra que se examina.

Se llaman datos nominales porque se refieren a su nombre. Por ejemplo, son datos

nominales las edades recabadas de ciertas personas, o las enfermedades más frecuentes en

cierto periodo del año, o el numero de muertes provocadas por determinada enfermedad, o

los sueldos de los trabajadores de una fábrica, o las temperaturas registradas en un lugar en

las diferentes épocas del año, o los metros cúbicos de lluvia anuales, etc.

Los datos nominales pueden ser:

a) Numéricos: si son números. Por ejemplo, la edad de las personas de cierto grupo, las

temperaturas registradas durante el año en una ciudad, etc.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

5

b) Sustantivos: si son nombres propios o comunes. Por ejemplo, si se refiere a los

árboles frutales de alguna región, o a las enfermedades que provocan muertes, las

marcas de vehículos más comerciales, etc.

Los datos ordinales son aquellos que, una vez ordenados, simplemente señalan el orden

que ocupa cada dato nominal.

Se llaman datos ordinales porque se refieren al orden que tienen dentro de todo el conjunto.

Por ejemplo, se desean saber las edades de un grupo de personas. Al realizar la encuesta se

obtiene que la siguiente tabla de edades una vez ordenados de menor a mayor:

DATO

(orden del dato)

EDAD

(“nombre” del dato)

1 23

2 24

3 24

4 24

5 24 6 25

7 25

8 26

9 27

Entonces se dice que al dato numero 3 (en el sentido de “tercer dato”), le corresponde el

dato 24. A veces se hace necesaria la pregunta: ¿Cuál es el dato que está a la mitad, o sea

que tiene igual número de datos antes y después de él? La respuesta podría darse como “es

el dato 5”, o bien “es el dato 24”. Cuando se refiere al “dato 5” es en el sentido del orden

del dato, o sea del que está en quinto lugar, mientras que cuando se responde que es “el

dato 24” se refiere al nombre o valor numérico del dato situado a la mitad. Debe entonces

distinguirse perfectamente el uso de la misma palabra con dos significaciones distintas,

igual que como sucede con casi todas las palabras en el Español.

Aunque en estadística realmente no se utilizan tablas en las que se muestren los datos

ordinales, a veces sí es necesario obtener, deducir o referirse a alguno de ellos, como se

verá en el presente curso al analizar el concepto de mediana; sin embargo, para evitar

confusiones, a los datos nominales se les llama también variables, porque varían de valor

de caso en caso y se representan con la letra “x”.

La estadística descriptiva es la que sus conclusiones se vierten exclusivamente sobre los

individuos analizados en función de los rasgos o datos extraídos de ellos.

Por ejemplo, el promedio de calificaciones del grupo “A” del 3er semestre en el mes de

noviembre fue de 7.12 en Matemáticas. Esta conclusión se debe a que se consideraron las

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

6

calificaciones de todos los alumnos, no de unos cuantos. Es decir, el promedio obtenido de

7.12 está describiendo en forma real a ese grupo.

Otro ejemplo: al efectuar el censo en la ciudad, se obtuvo que el 23% de la población no

había terminado sus estudios de secundaria. Como el censo se realiza casa por casa, es

decir, considerando uno por uno a todos los habitantes, la conclusión anterior describe en

forma real a esa población.

La estadística inferencial es la que sus conclusiones se generalizan sobre todos los

individuos de la población, en función de los rasgos o datos extraídos de una muestra.

Por ejemplo, se analizan 300 animales de la misma especie y de ellos se obtiene que su

edad promedio de vida es de 12 años. Se concluye, es decir, se infiere, que esa especie de

animales viven aproximadamente 12 años.

Otro ejemplo: en una muestra aleatoria de 450 transistores producidos en una fábrica, 14 de

ellos resultaron defectuosos. Se concluye, es decir se infiere, que el 3.1% de los 12 000

transistores que forman la producción total deben, o pueden, ser defectuosos.

También puede aplicarse el concepto de que “sus conclusiones se generalizan sobre todos

los individuos de la población”, a los que por ser dependientes del tiempo, solo pueden

analizarse los que ya acontecieron, extendiéndose las conclusiones a los que pertenecen al

futuro. En tales casos, la muestra son los acontecimientos pasados, únicos posibles de

haberse analizado, mientras que la población se considera a todos los sucesos iguales

incluyendo a los que en el futuro habrán de acontecer.

Por ejemplo, se realiza un análisis durante 100 años sobre los meses que llueve; al

observarse que en casi todos esos 100 años las lluvias se formalizaron en la segunda

quincena de Junio y que concluyeron a mediados de Octubre, puede hacerse una especie de

“predicción” para los años futuros en el sentido que se repetirá el ciclo de la misma manera.

Aquí la muestra son los cien años ya pasados que fueron estudiados, mientras que la

población la forman todos los años, incluyendo a los que están por venir.

Otro ejemplo: por análisis estadísticos se observa que el crecimiento de una población en

los últimos quince años ha estado en relación al 5% anual; puede entonces predecirse que

para el presente año también el crecimiento va a ser alrededor de ese 5%

Debe entenderse que cuando se habla de “predicción” es en cierto sentido un tanto

simbólica, pues la interpretación de los datos no va a llevar a contemplar de manera

infalible el futuro, sino simplemente con un alto grado de certeza que así sucederá.

De tal forma que la estadística sirve fundamentalmente para tres cosas: primero, para

describir el comportamiento o ciertos rasgos de una población a partir del estudio realizado

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

7

a cada uno de los integrantes de dicha población; segundo, para hacer generalizaciones

sobre toda una población a partir de rasgos comunes en una muestra; y, tercero, para

“predecir” características de sucesos futuros.

CUESTIONARIO

1. ¿Qué es la estadística?

2. ¿Cuáles son las cuatro etapas de la estadística?

3. ¿Qué es “una población”?

4. Citar dos ejemplos, diferentes a los del libro, de “poblaciones”.

5. ¿Qué es una muestra?

6. Citar dos ejemplos, diferentes a los del libro, de “muestras”.

7. Citar un ejemplo, diferente al del libro, en el que no resulta costeable

analizar a todos los individuos de una población.

8. Citar un ejemplo, diferente al del libro, en el que no se pueden analizar a

todos los individuos de una población porque ésta se destruiría.

9. Citar un ejemplo, diferente al del libro, en el que resulta imposible analizar a

todos los individuos de una población, por lo que se recurre a una muestra.

10. ¿Cuáles son las dos características fundamentales que debe tener una

muestra?

11. Al conjunto universal, es decir, al todo, al que abarca a todos los individuos,

¿cómo se le llama?.

12. Al subconjunto de la población, ¿cómo se le llama?

13. ¿Qué es un dato “ordinal”?

14. ¿Qué es un dato “nominal”?

15. ¿Por qué se la llama “ordinal” a ese dato?

16. ¿Por qué se le llama “nominal” a ese dato?

17. ¿A qué se le llama también “variable”?

18. ¿Con qué letra se representan las variables?

19. ¿Qué es la estadística descriptiva?

20. ¿Qué es la estadística inferencial?

21. Cuando se hace estadística analizando a todos los individuos de una

población, ¿qué tipo de estadística es?

22. Cuando se hace estadística analizando una muestra de la que se generaliza

hacia toda la población, ¿qué tipo de estadística es?

23. Cuando se hace estadística analizando acontecimientos pasados a partir de

los cuales “se predice” alguno futuro, ¿qué tipo de estadística es?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

8

0

1

2

3

4

5

6

7

1 2 3 4 5

INDICE PARTICULAR

Organización de datos

Frecuencia

Distribución de frecuencia

Distribución de frecuencias simple

Cuestionario 2

Distribución de frecuencias por intervalos

Cuestionario 3

Frecuencias acumuladas

Cuestionario 4

Porcentajes y porcentajes acumulados

Cuestionario 5

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

9

2

ORGANIZACIÓN DE DATOS

Siendo el dato el material que se debe procesar, es decir, la materia prima de la estadística,

el primer paso es entonces la recolección de datos, para lo cual se emplean diferentes

técnicas, como la entrevista personal, el cuestionario, la observación, etc.

El segundo paso es la organización y ordenamiento de los datos, lo que se hace a través de

tablas, las cuales pueden ser simples o con intervalos, en ambos casos agrupando todos

aquellos que corresponden a un mismo dato nominal o variable y expresando en una

columna el número de veces que aparece esa variable.

Frecuencia es el número de veces que aparece cada variable o dato nominal.

Por ejemplo, se desea hacer una tabla que muestre las calificaciones en Matemáticas de un

grupo escolar. Se ve que hubieron dos alumnos que sacaron 10 de calificación, siete

estudiantes sacaron 9, etc.; se dice entonces que la frecuencia del dato nominal 10 es de

dos; la frecuencia de la variable 9 es 7.

Una distribución de frecuencias es el resultado de organizar los datos recolectados en

grupos, mostrando la frecuencia de cada uno. Esta puede ser simple o por intervalos.

DISTRIBUCION DE FRECUENCIAS SIMPLE

Organizar los datos recolectados, ya sea de menor a mayor o viceversa, de manera que se

muestre la frecuencia de cada uno de ellos, es hacer una distribución de frecuencias simple.

El primer paso es localizar el dato menor y el dato mayor dentro del conjunto de datos

recolectados aún en desorden, en el caso que los datos sean de carácter numérico. Una vez

conseguido lo anterior, en una primera columna se escriben todos los números que van

desde el menor hasta el mayor, incluidos éstos. Luego, se cuenta cuántas veces aparece el

primer valor nominal, para lo cual se aconseja ir marcando con una línea ( / ) cada vez que

se cuente uno. El proceso debe repetirse para cada variable. Finalmente se cuentan el

numero de marcas que se hayan registrado para cada valor nominal y se procede a construir

la tabla definitiva.

Ejemplo: Ordenar y construir una tabla de frecuencias simple del siguiente conjunto de

datos recolectados.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

10

24 20 32 32 29 21

21 22 33 30 27 26

23 24 20 25 26 32

28 22 29 29 33 35

31 28 32 35 33 32

27 21 33 29 25 24

SOLUCION:

Primer paso: se localizan los números más chico y más grande: son el 20 y el 33.

Segundo paso: se hace una lista completa de números desde el 20 hasta el 35:

20 24 28 32

21 25 29 33

22 26 30 34

23 27 31 35

Tercer paso: se cuenta cuántos datos nominales 20 aparecen y por cada uno que aparezca

se pone una “rayita” ( / ). Se hace lo mismo para cada valor:

20 // 24 /// 28 // 32 /////

21/// 25 // 29 //// 33 ////

22 // 26 // 30 / 34

23 / 27 // 31 / 35 //

A manera de comprobación, para tener la seguridad de que no se escapó alguno o no se

contaron de más, la suma de todas las “rayitas” ( / ) debe ser igual al numero de datos

nominales del conjunto inicial. En este caso existen 36 datos nominales y 36 “rayitas”, lo

que significa que el conteo fue correcto.

Cuarto paso: se elabora la tabla definitiva:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

11

DATO NOMINAL

(variable) x

FRECUENCIA

ƒ

20 2

21 3

22 2

23 1

24 3

25 2

26 2

27 2

28 2

29 4

30 1

31 1

32 5

33 4

34 0

35 2

TOTAL: 36

Es conveniente y a veces necesario obtener el total de una columna en una tabla, lo cual se

especifica como lo muestra la tabla anterior.

CUESTIONARIO 2

1. ¿Cuál es la “materia prima” de la estadística?

2. ¿Cuál es el primer paso que se verifica en la estadística?

3. ¿Cuáles son las diferentes técnicas que se emplean en la recolección de

datos?

4. ¿Cuál es la técnica más simple para contar el número de veces que aparece

cada dato?

5. ¿Cuál es el segundo paso en la estadística?

6. Para llevar a cabo el segundo paso, ¿qué se utilizan?

7. ¿Cómo pueden ser las tablas?

8. ¿Qué es frecuencia?

9. ¿Qué es una distribución de frecuencias?

10. ¿Cuántas clases de distribución de frecuencias existen y cuáles son?

11. ¿En qué consiste la distribución de frecuencias simple?

12. ¿En qué consiste la distribución de frecuencias por intervalos?

13. Describir los cuatro pasos que deben seguirse para hacer una distribución de

frecuencias simple.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

12

14. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

1 5 4 4 9

8 8 6 5 2

9 9 5 3 3

8 7 7 4 2

5 7 7 9 3

15. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

5 2 2 1 9

8 3 3 5 2

9 4 6 6 3

8 8 1 1 2

4 2 4 3 9

16. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

10 15 14 14 9

18 18 16 15 12

9 19 15 13 13

18 17 17 14 12

17. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

21 25 22 24 28

28 28 22 25 28

29 29 25 20 23

28 27 27 24 22

18. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

31 25 34 34 29

28 38 26 25 32

39 29 25 33 30

28 27 27 24 23

38 38 26 35 32

33 29 35 33 30

38 37 27 32 23

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

13

19. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

51 65 63 64 59

58 58 60 55 52

59 69 65 63 63

68 67 67 64 62

58 58 56 55 53

53 69 65 53 58

58 67 62 63 62

20. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

30 26 36 34 29

28 33 36 21 32

39 39 32 23 30

22 23 32 34 23

38 38 26 25 22

33 29 34 36 36

38 37 37 22 23

21. Organizar el siguiente conjunto de datos en una tabla de frecuencias simple:

35 23 36 33 32

32 32 23 24 32

39 29 22 22 30

22 23 32 24 23

38 28 27 27 21

31 27 35 35 36

38 39 37 24 23

DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS

Los datos recolectados pueden también organizarse por intervalos. Por ejemplo, al realizar

un censo en una ciudad, podría interesar cuántas personas tienen 0, 1 o 2 hijos, cuántas 3, 4

o 5 hijos, cuántas 6, 7 u 8 hijos, etc. Cada intervalo se llama también clase.

El ancho de clase o longitud del intervalo es la resta de el límite superior menos el limite

inferior de cada clase o intervalo. Así, en el ejemplo anterior, el intervalo de 0 a 2 hijos

tiene un ancho de 2 – 0 = 2. No debe confundirse el ancho de la clase con el número de

datos nominales que contiene el intervalo. El ancho de la clase 0 – 2 es de 2 mientras que el

numero de datos nominales que contiene es tres (0, 1 y 2).

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

14

A la organización de los datos recolectados en tablas por intervalos se le llama distribución

de frecuencias por intervalos. La característica más importante es que el ancho de cada

clase o longitud del intervalo debe ser el mismo para cada intervalo.

Se llama rango a la diferencia que existe entre el dato nominal mayor menos el dato

nominal menor.

Ejemplo: Ordenar y construir una tabla de frecuencias con cuatro intervalos del siguiente

conjunto de datos recolectados.

24 20 32 32 29 21

21 22 33 30 27 26

23 24 20 25 26 32

28 22 29 29 33 35

31 28 32 35 33 32

27 21 33 29 25 24

SOLUCIÓN:

Conviene iniciar de la misma manera que en la organización de frecuencias simple.

Entonces se localizan los números más chico y más grande: son el 20 y el 33 y se hace una

lista completa de números desde el 20 hasta el 35. A continuación se cuentan cuántos datos

nominales aparecen por cada uno y se pone una “rayita” ( / ), de lo que resulta:

20 // 24 /// 28 // 32 /////

21 /// 25 // 29 //// 33 ////

22 // 26 // 30 / 34

23 / 27 // 31 / 35 //

A manera de comprobación, para tener la seguridad de que no se escapó alguno o no se

contaron de más, la suma de todas las “rayitas” ( / ) debe ser igual al numero de datos

recolectados del conjunto inicial. En este caso existen 36 datos recolectados y 36 “rayitas”,

lo que significa que el conteo fue correcto.

Después, se cuenta cuántos datos nominales existen dentro del conjunto. En este caso hay

16. Este valor se puede obtener multiplicando 4 por 4, ya que están dispuestos en cuatro

filas y cuatro columnas, o bien restando 35 menos 20 (dato mayor menos datos menor) y al

resultado sumándole uno, ya que hay que recordar que en una resta uno de los extremos no

queda incluido y en el ejemplo presente ambos extremos, el 20 y el 35, están incluidos.

Entonces, como hay 16 datos nominales y se piden cuatro intervalos, simplemente se

dividen o se reparte, por lo que cada intervalo incluirá a cuatro datos nominales, como lo

muestra la siguiente tabla:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

15

INTERVALO FRECUENCIA

ƒ

20 – 23 8

24 – 27 9

28 – 31 8

32 – 35 11

TOTAL: 36

CUESTIONARIO 3

1. ¿Qué otro nombre recibe un intervalo?

2. ¿Qué significa “ancho de clase”?

3. ¿Qué significa “longitud del intervalo”?

4. ¿Cuál es la característica principal que deben tener los intervalos?

5. A la organización de los datos recolectados en tablas por intervalos, ¿cómo se le

llama?

6. ¿Qué es una distribución de frecuencias por intervalos?

7. ¿Qué es un rango?

8. Organizar el siguiente conjunto de datos en una tabla que contenga 3 intervalos:

1 5 4 4 9

8 8 6 5 2

9 9 5 3 3

8 7 7 4 2

6 9 5 8 3

5 7 3 4 2

9. Organizar el siguiente conjunto de datos en una tabla que contenga 3 intervalos:

5 2 2 1 9

8 3 3 5 2

9 4 6 6 3

8 8 1 1 2

9 5 2 6 3

10. Organizar el siguiente conjunto de datos en una tabla que contenga 5

intervalos:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

16

10 15 14 14 10

18 18 16 15 12

10 19 15 13 13

18 17 17 14 12

15 18 13 11 12

10 11 11 14 19

11. Organizar el siguiente conjunto de datos en una tabla que contenga 4

intervalos:

31 25 34 34 29

28 38 26 25 32

39 29 25 33 30

28 27 27 24 24

38 38 26 35 32

33 29 34 33 30

38 37 27 32 26

12. Organizar el siguiente conjunto de datos en una tabla que contenga 5

intervalos:

21 25 22 24 28

28 28 22 25 28

29 29 25 20 23

28 27 27 24 22

13. Organizar el conjunto de datos del problema 11 en una tabla que contenga 8

intervalos.

14. Organizar el siguiente conjunto de datos en una tabla que contenga 5

intervalos:

31 26 34 34 29

28 38 26 25 32

36 29 25 33 30

28 31 27 27 29

38 38 26 35 32

33 29 34 33 30

38 37 27 32 24

15. Organizar el conjunto de datos del problema 11 en una tabla que contenga 8

intervalos.

16. Organizar el siguiente conjunto de datos en una tabla que contenga 9

intervalos:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

17

35 23 36 33 32

32 32 23 24 32

38 29 22 22 30

22 23 32 24 23

38 28 27 27 21

31 27 35 35 36

38 30 37 24 23

17. Organizar el conjunto de datos del problema 16 en una tabla que contenga 3

intervalos.

18. Organizar el conjunto de datos del problema 16 en una tabla que contenga 6

intervalos.

19. Organizar el siguiente conjunto de datos en una tabla que contenga 5

intervalos:

25 33 36 33 32

32 22 23 24 32

38 29 20 22 30

22 23 32 24 23

39 30 37 24 23

20. Organizar el conjunto de datos del problema 19 en una tabla que contenga 4

intervalos.

21. Organizar el conjunto de datos del problema 19 en una tabla que contenga 10

intervalos.

22. Organizar el siguiente conjunto de datos en una tabla que contenga 5

intervalos:

22 32 36 23 32

32 22 23 34 32

38 29 20 23 30

22 33 32 24 23

20 38 20 27 21

21 27 29 35 20

38 30 37 39 23

23. Organizar el conjunto de datos del problema 22 en una tabla que contenga 4

intervalos.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

18

FRECUENCIAS ACUMULADAS

Muchas veces resulta de gran utilidad, una vez organizados los datos recolectados en una

tabla de frecuencias, ya sea simple o por intervalos, tener información sobre la frecuencia

que a partir del inicio de la tabla se tiene hasta cierto dato nominal determinado. A lo

anterior se le conoce con el nombre de frecuencias acumuladas (fa), y se añade en una

columna en la misma tabla.

Ejemplo 1: En los datos del ejemplo de la página 11, sus frecuencias acumuladas son:

DATO NOMINAL

(variable) χ

FRECUENCIA

ƒ

FRECUENCIAS

ACUMULADAS

ƒα

20 2 2

21 3 5

22 2 7

23 1 8

24 3 11

25 2 13

26 2 15

27 2 17

28 2 19

29 4 23

30 1 24

31 1 25

32 5 30

33 4 34

34 0 34

35 2 36

TOTAL 36 36

Ejemplo 2: En los datos del ejemplo de la página 15, sus frecuencias acumuladas son:

DATO NOMINAL

(variable) χ

FRECUENCIA

ƒ

FRECUENCIAS

ACUMULADAS

ƒα

20-23 8 8

24-27 9 17

28-31 8 25

32-35 11 36

TOTAL: 36 36

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

19

CUESTIONARIO 4

1. Del cuestionario 2, problemas 14 a 21, organizar cada conjunto de datos en una

distribución de frecuencias simple, agregando una columna de frecuencias

acumuladas.

2. Del cuestionario 3, problemas 8 a 23, organizar cada conjunto de datos en una

distribución de frecuencias por intervalos, conforme al respectivo enunciado,

agregando una columna de frecuencias acumuladas.

PORCENTAJES Y PORCENTAJES ACUMULADOS

Otras dos informaciones muy útiles dentro de la etapa de organización de datos es calcular

el porcentaje de cada variable conforme a su frecuencia, lo mismo que su porcentaje

acumulado, ya sea en una distribución de frecuentas simple o por intervalos.

Para calcular el porcentaje basta hacer una regla de tres, en donde el 100% es el número N

de datos recolectados, o sea el total de las frecuencias, esto es

N / 100 = f / x %

Donde:

N = numero total de datos recolectados o frecuencia total

f = frecuencia particular del dato nominal del que se desea saber su porcentaje

x % = porcentaje correspondiente al dato nominal de frecuencia ƒ.

O bien, despejando, se obtiene que

x % = 100f / N

EJEMPLO 1: en la tabla del ejemplo 1, añadir una columna que exprese los porcentajes de

cada dato nominal y otra de sus porcentajes acumulados.

SOLUCIÓN:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

20

DATO

NOMINAL

(variable) χ

ƒ ƒα PORCENTAJE

x %

PORCENTAJE

ACUMULADO

% α

20 2 2 5.5555 5.5555 x %= 100 x 2/36 = 5.5555

21 3 5 8.3333 13.8888

22 2 7 5.5555 19.4443

23 1 8 2.7777 22.2222

24 3 11 8.3333 30.5553 x %= 100 x 3/36 = 8.333

25 2 13 5.5555 36.1108

26 2 15 5.5555 41.6663

27 2 17 5.5555 47.2218

28 2 19 5.5555 52.7773

29 4 23 11.1111 63.8884 x %= 100 x 4/36 = 11.11

30 1 24 2.7777 66.6661

31 1 25 2.7777 69.4438

32 5 30 13.8888 83.3326 x %= 100 x 5/36 = 13.88

33 4 34 11.1111 94.4437

34 0 34 0 94.4437

35 2 36 5.5555 99.9992

TOTAL: 36 99.9992

EJEMPLO 2: en la tabla del ejemplo 2, añadir una columna que exprese los porcentajes de

cada dato nominal y otra de sus porcentajes acumulados.

DATO

NOMINAL

(variable) χ

ƒ ƒα PORCENTAJE

x %

PORCENTAJE

ACUMULADO

% α

20-23 8 8 22.2222 22.2222

24-27 9 17 25 47.2222

28-31 8 25 22.2222 69.4444

32-35 11 36 30.5555 99.9999

TOTAL: 36 36 99.9999

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

21

CUESTIONARIO 5

1. Del cuestionario 2, problemas 14 a 21, organizar cada conjunto de datos en una

distribución de frecuencias simple, agregando una columna de porcentajes y otra

de porcentajes acumulados.

2. Del cuestionario 3, problemas 8 a 23, organizar cada conjunto de datos en una

distribución de frecuencias por intervalos, conforme al respectivo enunciado,

agregando una columna de porcentajes y otra de porcentajes acumulados.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

22

0

1

2

3

4

5

6

7

1 2 3 4 5

INDICE PARTICULAR

Presentación de datos

Grafica de barras

Cuestionario 6

Polígono de frecuencias

Cuestionario 7

Ojiva

Cuestionario 8

Grafica de sectores circulares o pastel

Cuestionario 9

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

23

3

PRESENTACIÓN DE DATOS

Los datos recolectados ya organizados en alguna de las formas vistas en el capitulo

anterior, para presentarlos en alguna forma fácil de entender o asimilar, por lo general es

mejor hacerlo a través de las gráficas.

Existen varias formas de graficas para representar los datos organizados, siendo las más

comunes aquellas que utilizan un sistema de coordenadas, las que deben cumplir los

siguientes requisitos:

1) El eje vertical debe comenzar forzosamente en cero. El eje horizontal puede

comenzar con otros valores, cuando son numéricos, o con nombres específicos

cuando no son numéricos, como por ejemplo, cuando son enfermedades,

nombres de frutas, ciudades, etc.

2) Si se hace necesario interrumpir alguna escala, ya sea la vertical o la horizontal,

debe mostrarse en forma clara con una línea en zig-zag, como lo muestra la

figura 1. Esto se hace cuando los valores representados en el eje horizontal

comienzan lejanos del cero y se desea interrumpir la escala, o cuando los valores

mínimos sobre el eje vertical alcanzan cifras elevadas.

3) Si se utilizan unidades, deben escribirse con toda claridad.

4) Los títulos deben ser claros y todos los letreros deben colocarse horizontalmente.

Se analizarán a continuación diferentes tipos de graficas.

FIGURA 1

23

22

21

2

1

0 1 2 20 21 22 23

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

24

GRÁFICA DE BARRAS

En este tipo de graficas deben cumplirse los siguientes requisitos, además de los requisitos

generales enumerados en la página anterior:

1) Siendo la gráfica de barras una representación grafica (valga la redundancia) de

una tabla, es requisito indispensable que antes de la grafica exista dicha tabla. En

este curso se exigirá que aparezca la tabla cuya representación es la grafica,

como medida de vigilancia hacia el alumno de que está procediendo

correctamente, aunque debe tenerse presente que cuando se utiliza una grafica ya

en la practica en cualquier campo de la vida, la tabla no se exhibe, pues

precisamente en su lugar se presenta la grafica para mostrar los datos ordenados.

2) Las barras deben tener todas el mismo ancho. Las figuras 2, 3 y 4 muestran

barras del mismo ancho todas, aunque las correspondientes a las figuras 3 y 4

poseen un defecto que se señalará en incisos siguientes, en cambio la figura 5

tiene el defecto de que las barras son de diferente ancho.

3) Debe evitarse en lo posible añadir a la grafica líneas horizontales a partir del

extremo superior de cada barra, para señalar el valor sobre el eje Y que le

corresponde, como lo muestra la figura 4. Para no generar la necesidad de esas

líneas es recomendable utilizar una cuadricula de fondo o en su defecto

solamente señalar sobre el eje vertical los valores que corresponden a cada una

de las barras.

4) La distancia entre cada barra debe ser siempre la misma, la que debe armonizar

con todo el conjunto. Distancias entre barras más grandes que el ancho de cada

barra o demasiado pequeñas desarmonizan la presentación de la grafica. La

figura 3 tiene el defecto de que las distancias entre barras, aunque son las

mismas, son demasiado grandes. Las figuras 4 y 5 tienen el defecto de que las

distancias entre barras son diferentes.

5) Cuando la grafica de barras no es la representación de datos numéricos, sino de

datos sustantivos, es decir datos con nombres específicos, debe evitarse poner el

nombre de cada barra en forma vertical, pues dificulta su lectura. La figura 6

muestra en primer termino una forma correcta de colocar los identificadores de

las barras en forma horizontal, mientras que la que aparece en segundo termino

muestra lo que indebidamente suele hacerse, escribiendo verticalmente dichos

identificadores.

6) Cuando la grafica de barras es la representación de datos numéricos organizados

por intervalos, justamente en los extremos de cada barra deben colocarse los

valores de los intervalos, como se muestra en la figura 7. A veces dará mayor

claridad escribir los limites del intervalo separados con un guión, como, por

ejemplo, 2 – 5, aunque esto último no es indispensable. Ver figura 10.

7) Debe evitarse rellenar cada barra con identificadores diferentes, colocando

después en otro sitio la lista de significados de cada uno de ellos, pues esto

complica su lectura, ya que la grafica debe mostrar todo el contenido de lo que

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

25

es o representa a primera vista. Hacerlo a base de rellenos implica doble lectura: una

de la grafica misma y la otra de la lista de significados. Es obvio que la lectura

resulta más ágil cuando, en vez de identificadores a base de rellenos, se utilizan

directamente los nombres de lo que representan, como en la parte correcta de la

figura 6.

Figura 2 Figura 3

Figura 4

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

26

Figura 5

CORRECTO

0

20

40

60

80

100

120

melón sandía mango mamey

INCORRECTO

0

20

40

60

80

100

120

me

lón

sandía

ma

ngo

ma

me

y

Figura 6

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

27

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8 9 10

CALIFICACIONES

0

5

10

15

20

25

2 5 7 10 12 15

0

5

10

15

20

25

2 5 7 10 12 15

2 5 7 10 12 15

Figura 7 Figura 8

------------------------------------------------------------------------------------

Ejemplo 1: Representar por medio de una gráfica de barras los datos organizados en la

siguiente tabla:

SOLUCIÓN:

Calificación ƒ

0 1

1 1

2 1

3 2

4 8

5 13

6 12

7 10

8 7

9 5

10 2

Figura 9

------------------------------------------------------------------------------------

Ejemplo 2: Representar por medio de una gráfica de barras los datos organizados en la

siguiente tabla:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

28

SOLUCIÓN:

Figura 10

------------------------------------------------------------------------------------

Ejemplo 3: Representar por medio de una gráfica de barras los datos organizados en la

siguiente tabla:

SOLUCIÓN: Rigurosamente la gráfica debería quedar como lo muestra la

figura 11.

0

1

2

3

4

5

6

7

1 3 5 7 9 11 13 15 17 19 21 23

Figura 11

Sin embargo, en casos como éste en los que queda un gran espacio vacío entre el eje

vertical y la primera barra es cuando se debe interrumpir la escala horizontal, para

“recorrerla” hacia el eje vertical conforme se dijo.

χ ƒ

1 – 3 4

4 – 6 6

7 – 9 7

10 – 12 5

13 – 15 6

χ ƒ

20 2

21 6

22 3

23 5

24 2

0

1

2

3

4

5

6

7

8

1 - 3 4 - 6 7 - 9 10 - 12 13 - 15

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

29

La idea es simular que el papel ocupado por el espacio en blanco se dobló para acercar la

gráfica hacia el eje vertical. Entonces, señalándolo con una línea en zig – zag, la gráfica

debe quedar como lo muestra la figura 12.

9

8

7

6

5

4

3

2

1

0

Figura 12

------------------------------------------------------------------------------------

CUESTIONARIO 6

1. Representar por medio de una gráfica de barras las tablas obtenidas en el

cuestionario 2, problemas 14 a 21.

2. Representar por medio de una gráfica de barras las tablas obtenidas en el

cuestionario 3, problemas 8 a 23.

POLÍGONO DE FRECUENCIAS

Esta gráfica se utiliza en la representación de tablas por intervalos. Consiste en unir los

puntos medios de cada barra, o lo que es lo mismo, los puntos medios de cada intervalo,

comenzando y terminando sobre el eje horizontal a una distancia equivalente al punto

medio de la siguiente barra, simulando que ésta existiera.

Ejemplo 1: Construir el polígono de frecuencias correspondiente a los datos organizados

en la tabla siguiente:

1

20 21 22 24 23

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

30

χ ƒ

1 – 3 4

4 – 6 6

7 – 9 7

10 – 12 5

13 – 15 6

SOLUCIÓN: la gráfica de barras correspondiente a la tabla es la que se muestra en la parte

izquierda de la figura 13, a la cual se le ha añadido una línea quebrada que une los puntos

medios. Eliminando las barras se obtiene el polígono de frecuencias.

0

1

2

3

4

5

6

7

8

1 - 3 4 - 6 7 - 9 10 - 12 13 - 15

POLÍGONO DE

FRECUENCIAS

0

2

4

6

8

2 5 8 11 14

Figura 13

------------------------------------------------------------------------------------

CUESTIONARIO 7

1. Representar por medio de un polígono de frecuencias cada una de las tablas

obtenidas en el cuestionario 3, problemas 8 a 23.

OJIVA

La palabra “ojiva” se emplea en el Español para denotar la línea curva compuesta por dos

arcos de circunferencia del mismo radio y sus concavidades en sentido contrario, como lo

muestra la figura 14.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

31

En Estadística se le llama ojiva, ya que en un buen numero de casos, toma forma semejante

a una ojiva, a la curva que se obtiene al graficar los datos nominales contra la distribución

de frecuencias acumuladas en sentido ascendente, es decir, comenzando en cero hasta llegar

la frecuencia total.

Pero debe quedar claro que no siempre la gráfica de una distribución de frecuencias

acumuladas toma una forma semejante a la de la figura 14.

Figura 14

La expresión “los datos nominales contra la distribución de frecuencias acumuladas”

significa que sobre el eje de las “x” se grafican los valores de los datos nominales, mientras

que sobre el eje de las “y” se representan las frecuencias acumuladas.

Ejemplo 1: la distribución acumulativa de las estaturas de un grupo, que indica el número

de alumnos que midieron menos de la estatura señalada, se muestra en la siguiente tabla.

Construir su ojiva correspondiente.

Estatura 123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5

Alumnos

(ƒα) 0 1 5 14 38 67 89 103 108

SOLUCIÓN: las coordenadas de los puntos de la ojiva son el equivalente a los de la

tabulación de una ecuación, en donde los valores de las “x” corresponden a la de los datos

nominales, en este caso a las estaturas, mientras que los valores de las “y” corresponden a

las frecuencias acumuladas, de la siguiente manera:

χ 123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5

γ 0 1 5 14 38 67 89 103 108

cuya gráfica es:

r 1

r 2

r1 = r2

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

32

0

20

40

60

80

100

120

123.5 128.5 133.5 138.5 143.5 148.5 153.5 158.5 163.5

datos nominales

frecu

en

cia

s a

cu

mu

lad

as

Figura 15

Ejemplo 2: Dibujar la ojiva correspondiente a la distribución de frecuencias acumuladas de

la tabla de la página 20.

SOLUCIÓN: las coordenadas de los puntos de la ojiva se muestran en la siguiente tabla:

χ 20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34

ƒα 2 5 7 8 11 13 15 17 19 23 24 25 30 34 34 36

cuya gráfica es:

0

5

10

15

20

25

30

35

40

20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 34

datos nominales

fre

cu

en

cia

s a

cu

mu

lad

as

Figura 16

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

33

CUESTIONARIO 8

1. Dibujar la ojiva correspondiente a la distribución de frecuencias acumuladas de

los problemas 14 a 21, cuestionario 4.

2. Dibujar la ojiva correspondiente a la distribución de frecuencias acumuladas de

los problemas 8 a 23, cuestionario 4.

GRÁFICA DE SECTORES CIRCULARES O PASTEL

Este tipo de gráfica es recomendable para datos nominales sustantivos, no numéricos,

cuando no son muchos y cuando se desea mostrar el porcentaje de cada uno de ellos,

aunque puede utilizarse en otros casos.

Para ello se recomienda seguir los siguientes pasos.

1) Calcular los porcentajes, respecto del total, de cada frecuencia correspondiente a

cada dato nominal sustantivo. Por una regla de tres simple, en donde la suma de

todas las frecuencias es el 100%, se obtiene

Σf / 100 = f / x%

despejando:

x% = 100f / Σf

en donde:

Σf = suma de todas las frecuencias

f = frecuencia particular del dato seleccionado

x% = porcentaje del dato particular

2) Calcular los grados de la circunferencia que corresponden a cada uno de esos

porcentajes. También por una regla de tres simple, en donde los 360° de la

circunferencia son el 100%, se establece que

360° / 100% = x° / x%

despejando:

x° = (360) (x%) / 100

en donde:

x° = grados correspondientes al porcentaje x%.

x% = porcentaje calculado anteriormente para cada frecuencia.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

34

3) Marcar en un círculo, a partir de cualquier origen arbitrario, los grados de cada

sector obtenidos en el paso anterior.

4) Colocar dentro de cada sector las siguientes dos leyendas:

a) el dato nominal a que corresponde;

b) el porcentaje que le corresponde.

Solamente en caso de que no quepan las leyendas anteriores, se colocarán afuera de los

sectores, relacionando con claridad por medio de líneas, en caso necesario, cada sector con

sus respectivas leyendas.

A pesar de tener mucha aceptación, no es buena practica rellenar cada sector con

identificadores diferentes, colocando después en otro sitio la lista de sus significados, ya

que esto complica la lectura en virtud de que obliga a dos lecturas en dos espacios

diferentes.

Ejemplo 1: obtener la gráfica de sectores circulares de la siguiente tabla.

Dato nominal sustantivo ƒ

Plátano 2500

Manzana 1700

Guayaba 3000

Uva 4000

Σf =

11200

SOLUCIÓN: calculando el porcentaje de cada dato nominal sustantivo, se obtiene

a) para plátano

x% = 100 x 2500 / 11200 = 22.321%

b) para manzana

x% = 100 x 1700 / 11200 = 15.178%

c) para guayaba

x% = 100 x 3000 / 11200 = 26.785%

d) para uva

x% = 100 x 4000 / 11200 = 35.714%

A la tabla original conviene agregarle dos columnas más, una para los porcentajes de cada

dato nominal sustantivo y la otra para los grados que les corresponden a esos porcentajes,

las que se irán llenando conforme se realicen los cálculos correspondientes, de la siguiente

manera:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

35

Dato nominal

sustantivo ƒ % grados

Plátano 2500 22.321

Manzana 1700 15.178

Guayaba 3000 26.785

Uva 4000 35.714

Σf = 11200 99.998

Calculando como siguiente paso del proceso los grados de la circunferencia que

corresponden a cada uno de esos porcentajes:

a) para plátano

x° = 360 x 22.321 / 100 = 80.355

b) para manzana

x° = 360 x 15.178 / 100 = 54.640

c) para guayaba

x° = 360 x 26.785 / 100 = 96.426

d) para uva

x° = 360 x 35.714 / 100 = 128.570

Vaciando estos resultados en la última columna de la tabla, queda así:

Dato nominal

sustantivo ƒ % grados

Plátano 2500 22.321 80.355

Manzana 1700 15.178 54.640

Guayaba 3000 26.785 96.426

Uva 4000 35.714 128.570

Σf = 11200 99.998 359.991

Obsérvense que las sumas del porcentaje y de los grados no dan exactamente 100% ni

360°, en virtud de los decimales que no se tomaron, pero sus respectivos resultados casi

dieron esas cifras esperadas.

Marcando en un círculo, a partir de cualquier origen arbitrario, aunque de preferencia por

su fácil localización se escoge el eje vertical superior y avanzando en el sentido de las

manecillas del reloj en el mismo orden en que aparecen en la tabla, los grados de cada

sector obtenidos en el paso anterior y concentrados en la última columna, agregando en

cada sector la leyenda del dato nominal sustantivo y su porcentaje correspondiente, la

gráfica de sectores circulares resulta como se muestra en la figura 17.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

36

uva

36%

plátano

22%

manzana

15%

guayaba

27%

Figura 17

Debe entenderse que cada sector circular fue dibujado con auxilio de un transportador,

dando a cada uno de ellos el ángulo en grados que le corresponde, según la tabla.

Se dijo que no es recomendable rellenar cada sector con identificadores diferentes,

colocando después en otro sitio la lista de sus significados, ya que esto complica la lectura

en virtud de que obliga a dos lecturas en dos espacios diferentes, como la gráfica de la

figura 18. En otras palabras, hacer gráficas como ésta es colocar distractores a la lectura.

Aunque tampoco puede descartarse esta forma de hacer gráficas de sectores circulares, pues

a pesar del inconveniente anterior, también tiene algunas ventajas, las que resultan de más

peso para ciertos trabajos. Una de ellas es la presentación, ya que una gráfica como la de la

figura 18 parece más elegante que la de la figura 17. Depende entonces qué se prefiera: si

agilidad para su lectura o que sea agradable a la vista.

uva

guayaba

manzana

plátano

Figura 18

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

37

A partir de la gráfica por sectores circulares elemental se pueden crear diferentes formas

estilizadas para darle “estética” a la presentación, como pueden ser gráficas inclinadas

como las de las figuras 20 y 21, o gráficas con grosor como las figuras 20 y 21, o en forma

de anillos como la figura 21, o combinando las anteriores formas de inclinación o grosor,

etc., sin embargo, en este curso se trabajará solamente con compás y transportador para

construir la gráfica de sectores circulares simple, como la de la figura 17.

manzan

a

15%

guayaba

27%

uva

36%

plátano

22%plátano

22%

manzana

15%

guayaba

27%

uva

36%

Figura 19 Figura 20

plátano

22%

manzana

15%

guayaba

27%

uva

36%

Figura 21

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

38

CUESTIONARIO 9

Dibujar la gráfica de sectores circulares para cada uno de los siguientes casos, construyendo

una tabla con las cuatro columnas.

1)

Datos nominales ƒ

Gatos 12500

Perros 16000

Borregos 10250

Caballos 22750

2)

Datos nominales ƒ

Frijol 650

Maíz 220

Garbanzo 335

Chicharo 119

3)

Datos nominales ƒ

Frutas 350

Legumbres 600

Carnes 250

Enlatados 750

4)

Datos nominales ƒ

Gripes 23650

Amibas 33220

Sarampión 15335

Presión 5119

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

39

5)

Datos nominales ƒ

Luz $990

Teléfono 2600

Agua 250

Gas 650

Renta 3000

6)

Datos nominales ƒ

Cine 3220

Teatro 3990

Futbol 5335

Toros 2119

Otros 4966

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

40

0

1

2

3

4

5

6

7

1 2 3 4 5

INDICE PARTICULAR

Medidas de tendencia central

La media

La media, frecuencias simples

Cuestionario 10

La media, frecuencias por intervalos

Cuestionario 11

La moda

La moda, frecuencias simples

La moda, frecuencias por intervalos

Cuestionario 12

La mediana

La mediana, frecuencias simples

Cuestionario 13

La mediana, frecuencias por intervalos

Cuestionario 14

Interpretación y utilización

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

41

4

MEDIDAS DE TENDENCIA CENTRAL

A veces, de los datos recolectados ya organizados en alguna de las formas vistas en

capítulos anteriores, se desea encontrar una especie de punto central en función de sus

frecuencias. En Estadística se conocen tres diferentes, llamadas “medidas de tendencia

central”, cuya utilización varía de acuerdo con lo que se desee del conjunto de datos

recolectados. Esas tres medidas de tendencia central son la media, la mediana y la moda.

Cada una de ellas se estudiará en dos partes: primero, cuando los datos están organizados

en tablas de frecuencias simples; y, segundo, cuando están organizados en intervalos.

LA MEDIA

La media, llamada pomposamente “media aritmética”, es la medida de tendencia central

conocida popularmente como “promedio”.

1) FRECUENCIAS SIMPLES:

Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la

media se puede calcular por medio de la formula

_

X = Σ fx / n

En donde:

_

X = media

Σ fx = suma de las frecuencias por su correspondiente dato nominal.

n = suma de todas las frecuencias (numero de datos recolectados).

Para calcular la media, debe añadirse una columna a la tabla original en la que se registren

los resultados correspondientes al producto de la frecuencia por su valor nominal (fx).

Ejemplo 1: las calificaciones de Matemáticas de los grupos “A” y “B” se muestran en la

tabla siguiente. Calcular el promedio (la media) obtenido por esos grupos.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

42

Calificaciones χ ƒ

0 2

1 3

2 3

3 6

4 8

5 9

6 17

7 22

8 10

9 6

10 5

n= 91

SOLUCIÓN: debe añadirse a la tabla original una columna encabezada por ƒχ en donde se

anotarán los resultados correspondientes a las multiplicaciones de cada valor nominal χ por

su frecuencia respectiva.

Por ejemplo, para la primera fila:

fx = 2 x 0 = 0

para la segunda fila:

fx = 3 x 1 = 3

para la tercera fila:

fx = 3 x 2 = 6

La tabla completa con las tres columnas queda como se muestra en la siguiente tabla. La

suma de los valores de la columna ƒχ es 544, de manera que utilizando la formula para el

promedio, se obtiene:

_

X = 544 / 91

_

X = 5.97

Calificaciones χ ƒ

0 2

1 3

2 3

3 6

4 8

5 9

6 17

7 22

8 10

9 6

10 5

n= 91

ƒχ

0

3

6

18

32

45

102

154

80

54

50

544

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

43

Ejemplo 2: los precios de los 97 artículos que se venden en una tienda están señalados en

la tabla siguiente. Calcular el precio promedio que existe en dicha tienda.

Precios χ ƒ

$ 250.00 5

305.50 3

330.00 4

395.75 6

400.00 8

465.80 8

500.00 18

512.35 20

525.00 13

530.00 9

540.40 2

550.00 1

n = 97

SOLUCIÓN: debe añadirse, como en el ejemplo anterior, a la tabla original una columna

encabezada por ƒχ en donde se anotarán los resultados correspondientes a las

multiplicaciones de cada valor nominal χ por su frecuencia respectiva.

Por ejemplo, para la primera fila:

fx = 5 x 250.00 = 1250

para la segunda fila:

fx = 3 x 305.50 = 916.5

para la tercera fila:

fx = 4 x 330.00 = 1320.00

La tabla completa con las tres columnas queda como se muestra en la tabla. La suma de los

valores de la columna ƒχ es 45 260.2, de manera que utilizando la formula para el

promedio, se obtiene:

_

X = 45 260.2 / 97

_

X = 466.66

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

44

Precios χ ƒ ƒχ

$ 250.00 5 1250.00

305.50 3 916.50

330.00 4 1320.00

395.75 6 2374.50

400.00 8 3200.00

465.80 8 3726.40

500.00 18 9000.00

512.35 20 10247.00

525.00 13 6825.00

530.00 9 4770.00

540.40 2 1080.80

550.00 1 550.00

n = 97 45260.2

CUESTIONARIO 10

1. ¿A qué se le llama en Estadística “medidas de tendencia central”?

2. Mencionar las tres medidas de tendencia central.

3. ¿Qué es la media?

4. ¿Qué otros dos nombres tiene la media?

5. ¿Qué columna debe agregarse a la tabla original para calcular la media, cuando

está organizada en una distribución de frecuencias simples?

6. Calcular el promedio de los datos organizados en las tablas obtenidas en el

cuestionario 2, problemas 14 a 21.

2) FRECUENCIAS POR INTERVALOS

Cuando los datos recolectados han sido organizados en una tabla de frecuencias por

intervalos, la media se puede calcular por medio de la formula:

_

X = Σfx / n

En donde:

_

X = media

x = punto medio del intervalo

Σfx = suma de las frecuencias por su correspondiente dato nominal

n = suma de todas las frecuencias (numero de datos recolectados)

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

45

Obsérvese que es la misma formula que la correspondiente a los datos organizados en

tablas de frecuencias simples, en donde la única diferencia es la interpretación de la “x”. en

una representa el valor nominal, en ésta el punto medio del intervalo. De hecho, esta

situación se va a repetir en las otras dos medidas de tendencia central que faltan de estudiar

aún, la mediana y la moda, ya que también se estudiarán en dos casos: cuando los datos

estén organizados en tablas con frecuencias simples o cuando estén por intervalos.

Para calcular la media de datos organizados por intervalos, deben añadirse ahora dos

columnas a la tabla original: la primera columna añadida es para anotar el valor del punto

medio del intervalo (x) y la otra en la que se registren los resultados correspondientes al

producto de la frecuencia por el correspondiente valor del punto medio del intervalo (fx).

Ejemplo 1: calcular el promedio (la media) de los valores agrupados en intervalos de la

tabla siguiente.

Intervalos ƒ

0 – 2 12

3 – 5 13

6 – 8 23

9 – 11 16

12 – 14 18

n = 82

SOLUCIÓN: deben añadirse a la tabla original dos columnas encabezadas por χ y por ƒχ,

en donde se anotarán los resultados correspondientes a los puntos medios de cada intervalo

y al producto de la frecuencia por ese punto medio. La tabla completa con las cuatro

columnas queda como se muestra a continuación:

Intervalos ƒ Punto medio χ ƒχ

0 – 12 12 1 12

3 – 5 13 4 52

6 – 8 23 7 161

9 – 11 16 10 160

12 – 14 18 13 234

n = 82 Σfx = 619

La suma de los valores de la columna ƒχ es 619, de manera que utilizando la formula para

el promedio, se obtiene:

_

X = Σfx / n = 619 / 82

_

X = 7.548

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

46

CUESTIONARIO 11

1. ¿Qué columnas deben agregarse a la tabla original para calcular la media, cuando

está organizada en una distribución de frecuencias por intervalos?

2. Calcular el promedio de los datos organizados en intervalos en las tablas

obtenidas en el cuestionario 3, problemas 8 a 23.

LA MODA

La moda es la medida de tendencia central que se define simplemente como aquel valor

nominal que tiene la frecuencia mayor. Por lo tanto, una distribución de frecuencias puede

tener más de una moda.

La moda se simboliza con sus dos primeras iniciales: Mo

1) FRECUENCIAS SIMPLES:

Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la

moda se obtiene buscando en la columna de frecuencias simples el o los valores que tengan

mayor frecuencia.

Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.

TABLA “A”

x f

35 12

40 8

45 13

50 11

55 16

60 10

65 11

70 15

75 14

80 5

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

47

TABLA “B”

x f

100 25

200 29

300 27

400 29

500 22

600 24

700 28

800 25

900 28

1000 19

SOLUCION: para la tabla “A”, basta recorrer la columna de las frecuencias y localizar que

la mayor frecuencia es f = 16, que corresponde al dato nominal 55. Por lo tanto la moda es

Mo = 55.

Para la tabla “B”, basta recorrer la columna de las frecuencias y localizar que la mayor

frecuencia es f = 29, que corresponde a los datos nominales 200 y 400. por lo tanto la moda

es Mo = 200 y también Mo = 400, es decir, la tabla “B” tiene dos modas.

2) FRECUENCIAS POR INTERVALOS

Cuando los datos recolectados han sido organizados en una tabla de frecuencias por

intervalos, la moda se obtiene buscando en la columna de frecuencias el o los valores que

tengan mayor frecuencia. Entonces la moda es el punto medio del intervalo que tiene la

mayor frecuencia.

Ejemplos: de las dos tablas siguientes, localizar la moda de cada una de ellas.

TABLA “A”

Intervalo f

3 – 5 52

6 – 8 68

9 – 11 53

12 – 14 41

15 – 17 70

18 – 20 64

21 – 23 69

24 – 26 68

27 – 29 55

30 – 32 52

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

48

33 – 35 66

36 – 38 61

39 – 41 45

42 – 44 64

45 – 47 52

TABLA “B”

Intervalo f

11 – 20 75

21 – 30 62

31 – 40 77

41 – 50 55

51 – 60 77

61 – 70 70

71 – 80 58

81 – 90 63

91 – 100 69

101 – 110 72

111 – 120 77

121 – 130 76

131 – 140 75

141 – 150 42

151 – 160 53

SOLUCIÓN: para la tabla “A”, basta recorrer la columna de las frecuencias y localizar que

la mayor frecuencia es f = 70, que corresponde al intervalo 15 – 17. Por lo tanto la moda es

el punto medio de ese intervalo, es decir, Mo = 16.

Para la tabla “B”, basta recorrer la columna de las frecuencias y localizar que la mayor

frecuencia es f = 77, que corresponde a los intervalos 31 – 40, 51 – 60 y 111- 120. Por lo

tanto la moda es el punto medio de cada uno de esos intervalos, esto es Mo = 35.5 y

también Mo = 55.55, y también Mo = 115.5, es decir, la tabla “B” tiene tres modas.

CUESTIONARIO 12

1. ¿Qué es la moda?

2. ¿Por qué una distribución de frecuencias puede tener más de una moda y en

cambio no puede tener más que una media exactamente?

3. ¿Cómo se simboliza la moda?

4. ¿Cómo se obtiene la moda cuando los datos están organizados en intervalos?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

49

5. Localizar la moda de los datos organizados en las tablas obtenidas en el

cuestionario 2, problemas 14 a 21.

6. Localizar la moda de los datos organizados en intervalos en las tablas obtenidas

en el cuestionario 3, problemas 8 a 23.

LA MEDIANA

La mediana es la medida de tendencia central que se define como aquel valor nominal que

tiene, dentro de la tabla, arriba y abajo de él, el mismo numero de datos nominales. En otras

palabras, es el que está a la mitad.

Para facilitar la localización de la mediana en una tabla, conviene agregarle una columna en

la que se anoten las frecuencias acumuladas. Entonces, el número total de datos

recolectados más uno, dividido entre dos, ese resultado se busca en la columna de las

frecuencias acumuladas y al dato nominal que le corresponda, es la mediana.

La mediana se simboliza con las letras: Mdn

1) FRECUENCIAS SIMPLES:

Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, la

mediana se obtiene buscando en la columna de frecuencias acumuladas el valor que esté

situado exactamente a la mitad. Si los datos recolectados son numero impar, algún valor

real existente de la tabla coincide con la mediana; pero si son numero par, la mediana se

toma como la media de aquellos dos que fluctúan a la mitad.

Ejemplo 1: localizar la mediana del conjunto de calificaciones mostrado en la siguiente

tabla.

x f fa

0 1 1

1 1 2

2 3 5

3 5 10

4 6 16

5 7 23

6 11 34

7 15 49

8 25 74

9 20 94

10 23 117

117

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

50

SOLUCIÓN: a la tabla original ya se le añadió la columna de frecuencias acumuladas. La

máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales, es

de 117. Es decir, la tabla corresponde a las calificaciones de 177 alumnos.

El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando

1 al 117 y dividiéndolo entre dos, es decir,

fc = 1 + 117 / 2 = 59

Que significa que el dato ordinal 59 es el que está situado a la mitad de todos. Observando

la columna de las frecuencias acumuladas se ve que hasta la calificación 7, contadas desde

el principio, van apenas 49 alumnos, mientras que hasta la calificación 8 ya van 74. Esto

significa que dentro de la calificación 8 está el alumno número 59, que es el central. Por lo

tanto, la mediana es Mdn = 8.

Dicho de otra forma: cuando se fueron ordenando una por una las calificaciones, al contar

el último siete se llevaban en ese momento 49 calificaciones ordenadas. Al continuar, el

50° (quincuagésimo) dato o calificación fue de valor 8; el 51° (quincuagésimo primer) dato

fue también de valor 8; el 52° (quincuagésimo segundo) dato o calificación fue también de

valor 8, y así sucesivamente hasta el 74° (septuagésimo cuarto), o sea 25 más (que es la

frecuencia del dato nominal x = 8) Eso significa que el 59° (quincuagésimo noveno) dato

correspondió al valor nominal x = 8.

El error más común que se comete a la hora de intentar localizar la mediana es buscar el

dato nominal x central en vez del dato ordinal, o sea, el error consiste en buscar en la

columna de los datos nominales x el que está a la mitad y eso no es. En el ejemplo anterior,

el dato nominal x central es el 5 y ése no es la mediana.

Ejemplo 2: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.

x f fa

500 10 10

525 10 20

550 13 33

600 12 45

700 11 56

750 7 63

800 7 70

900 5 75

950 5 80

1000 3 83

1200 2 85

1250 2 87

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

51

1350 1 88

1400 1 89

89

SOLUCIÓN: la tabla anterior es la tabla original a la que ya se le añadió la columna de

frecuencias acumuladas.

La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,

es de 89. Es decir, la tabla corresponde a 89 datos recolectados.

El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene

sumando 1 al 89 y dividiéndolo entre dos, es decir,

fc = 1 + 89 / 2 = 45

que significa que el dato ordinal 45 es el que esta situado a la mitad de todos, o sea, hay 44

antes y 44 después de él. Observando la columna de las frecuencias acumuladas se ve que

hasta el dato nominal x = 600, contados desde el principio, van 45 datos recolectados. Esto

significa que de los 12 datos nominales x = 600, justamente el ultimo de ellos ocupa el

orden 45, que es el central. Por lo tanto, la mediana es Mdn = 600.

Dicho de otra forma: cuando se fueron ordenando uno por uno los datos nominales, al

contar el ultimo correspondiente al valor x = 550, se llevaban hasta allí 33 datos

recolectados. Al continuar, el 34° (trigésimo cuarto) dato fue de valor x = 600, el 35°

(trigésimo quinto) dato fue de valor x = 600, el 36° (trigésimo sexto) dato fue de valor x =

600, y así sucesivamente hasta el 45° (cuadragésimo quinto), o sea 12 más (que es la

frecuencia del dato nominal x = 600) Eso significa que el 45° (cuadragésimo quinto) dato

correspondió al valor nominal x = 600.

Obsérvese que la mediana Mdn = 600 no es el que está situado a la mitad de la columna de

los datos nominales x.

Ejemplo 3: localizar la mediana del conjunto de datos mostrado en la siguiente tabla.

x f fa

45 100 100

46 106 206

47 63 269

48 112 381

49 81 462

50 70 532

51 27 559

52 5 564

58 10 574

574

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

52

SOLUCIÓN: debe entenderse que la tabla original consta solamente de las dos primeras

columnas x y f.

La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,

es de 574. Es decir, la tabla corresponde a 574 datos recolectados.

El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene

sumando 1 al 574 y dividiéndolo entre dos, es decir,

fc = 1 + 574 / 2 = 287.5

que significa que tanto el dato ordinal 287 como el 288 son los que están situados a la

mitad de todos. Observando la columna de las frecuencias acumuladas se ve que dentro del

conjunto de 112 datos recolectados con valor nominal x = 48, están los que ocupan el orden

287 y 288, de manera que en este caso no hay conflicto para determinar la mediana y ésta

es Mdn = 48.

Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al

contar el ultimo dato nominal con valor x = 47, se llevaban en ese momento 269 datos

recolectados ordenados. Al continuar, el 270° (bicentésimo septuagésimo) dato fue de valor

48; el 271° (bicentésimo septuagésimo primer) dato fue también de valor 48; el 272°

(bicentésimo septuagésimo segundo) dato fue también de valor 48, y así sucesivamente

hasta 112 más (que es la frecuencia del dato nominal x = 48) Eso significa que el 287°

(bicentésimo octagésimo séptimo) dato, lo mismo que el 288° (bicentésimo octagésimo

octavo), correspondieron al valor nominal x = 48.

Obsérvese que la mediana Mdn = 48 no es el que está situado a la mitad de la columna de

los datos nominales x.

Ejemplo 4: las edades de un grupo de 28 personas van de los 45 a los 58 años. Localizar la

mediana de dicho conjunto de datos, mostrado ya organizado en la siguiente tabla.

Edad x f fa

45 2 2

46 1 3

47 3 6

48 3 9

49 5 14

50 6 20

51 2 22

52 4 26

58 2 28

28

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

53

SOLUCIÓN: debe entenderse que la tabla original consta solamente de las dos primeras

columnas x (edades) y f. este es un ejemplo para ilustrar el caso de conflicto para localizar

la mediana.

La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,

es de 28. Es decir, la tabla corresponde a 28 datos recolectados.

El valor central respecto de las frecuencias, no de los datos nominales x, se obtiene

sumando 1 al numero total de datos 28 y dividiéndolo entre dos, es decir,

fc = 1 + 28 / 2 = 14.5

que significa que tanto el dato ordinal 14 como el 15 son los que están situados a la mitad

de todos, ya que debe comprenderse que no existen datos ordinales fraccionarios, sino

solamente enteros, o sea, existe el 1er dato, el 2° dato, el 3er dato, el 8° dato, el 19° dato,

etc., pero no puede existir el 14.5° (el décimo cuarto punto cinco) dato, si acaso el 14°

(décimo cuarto) exactamente.

Observando la columna de las frecuencias acumuladas se ve que el 14° dato fue el ultimo

correspondiente al dato nominal x = 49, mientras que el 15° dato es el primero que

corresponde al dato nominal x = 50, por lo que se entra en el conflicto de cuál de los dos ha

de ser la mediana. En casos así, la media de ambos se toma como la mediana, es decir, la

mediana es Mdn = 49.5.

CUESTIONARIO 13

1. ¿Qué es la mediana?

2. ¿Cómo se simboliza la mediana?

3. ¿Cuántas y cuáles columnas deben agregarse a la tabla original para localizar la

mediana en una distribución de datos sin agrupar?

4. ¿Cuál es la confusión o error más frecuente que se tiene al intentar localizar una

mediana?

5. ¿Puede haber más de una mediana en una distribución de frecuencias, así como

puede tener dos o más modas? Explicar por qué.

6. Localizar la mediana de los datos organizados en las tablas obtenidas en el

cuestionario 2, problemas 14 a 21.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

54

2) FRECUENCIAS POR INTERVALOS O AGRUPADAS:

Cuando los datos recolectados han sido organizados en una tabla de frecuencias por

intervalos, la mediana podría considerarse el punto medio del intervalo en donde se localiza

el valor central de todas las frecuencias; sin embargo, se acostumbra más bien localizar con

exactitud un punto dentro de ese intervalo que sea el más representativo, por lo que la

mediana se obtiene por medio de una formula.

Para utilizar la formula mencionada debe añadirse primero a la tabla una columna de

frecuencias acumuladas.

Se le llama “clase de la mediana” al intervalo en donde se encuentra la mediana. “Clase” o

intervalo es lo mismo. El resultado que se obtiene con la formula es una valor que se

encuentra dentro de la clase de la mediana.

La formula correspondiente es

Mdn = L + (n/2 - fa / f) i

En donde:

Mdn = mediana

L = limite inferior de la clase (o intervalo) de la mediana

n = numero total de datos

fa = frecuencia acumulada en la clase (intervalo) inmediata inferior a la clase (intervalo) de

la mediana

f = frecuencia de la clase de la mediana

i = diferencia entre los limites de la clase (intervalo) de la mediana

Para localizar el intervalo de la mediana se procede igual que para datos no agrupados.

Ejemplo 1: localizar la mediana del conjunto de datos organizados en intervalos, mostrado

en la siguiente tabla.

Intervalo x f fa

0 – 30 1 1

31 – 60 1 2

61 – 90 3 5

91 – 120 5 10

121 – 150 6 16

151 – 180 7 23

181 – 210 11 34

211 – 240 15 49

49

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

55

SOLUCIÓN: a la tabla original ya se le añadió la columna de frecuencias acumuladas.

La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,

es de 49.

El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando

1 al 49 y dividiéndolo entre dos, es decir,

fc = 1 + 49 / 2 = 25

que significa que el dato ordinal 25 es el que está situado a la mitad de todos. Observando

la columna de las frecuencias acumuladas se ve que hasta el intervalo 151 – 180, contadas

desde el principio, van apenas 23 datos ordenados, mientras que hasta el intervalo 181 –

210 ya van 34. Esto significa que dentro del intervalo 181 – 210 está el dato ordinal numero

25, que es el central. Por lo tanto, la clase de la mediana es 181 – 210.

Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al

contar el ultimo del intervalo 151 -180 se llevaban en ese momento 23 datos ordenados. Al

continuar, el 24° (vigésimo cuarto) dato fue ya del intervalo 181 – 210; el 25° (vigésimo

quinto) dato fue también de la clase 181 – 210, y así sucesivamente hasta el 34° (trigésimo

cuarto), o sea 11 más (que es la frecuencia del intervalo) Eso significa que el 25° (vigésimo

quinto) dato correspondió al intervalo 181 – 210.

Así que se tienen los siguientes datos para ser sustituidos en la formula:

L = 181

n = 49

fa = 23

f = 11

i = 210 – 180 = 30

de modo que

Mdn = 181 + (49/2 - 23 / 11) 30

Mdn = 181 + (0.13636)30

Mdn = 185.09

Obsérvese que, como se dijo antes, el valor de la mediana está adentro del intervalo de la

clase de la mediana, es decir, adentro de 181 – 210. Lo contrario sería una contradicción,

pues si se afirma que el intervalo (la clase) de la mediana es 181 – 210, precisamente dentro

de ese intervalo debe estar la mediana.

Ejemplo 2: localizar la mediana del conjunto de datos organizados en intervalos, mostrado

en la siguiente tabla.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

56

Intervalo x f fa

5 – 13 16 16

14 – 22 11 27

23 – 31 30 57

32 – 40 5 62

41 – 49 2 64

50 – 58 7 71

59 – 67 1 72

68 – 76 3 75

75

SOLUCIÓN: a la tabla original ya se le añadió la columna de frecuencias acumuladas.

La máxima frecuencia acumulada, que es lo mismo que el número total de datos nominales,

es de 75.

El valor central respecto de las frecuencias, no de los datos nominales x se obtiene sumando

1 al 75 y dividiéndolo entre dos, es decir,

fc = 1 + 75 / 2 = 38

que significa que el dato ordinal 38 es el que está situado a la mitad de todos. Observando

la columna de las frecuencias acumuladas se ve que hasta el intervalo 14 - 22, contadas

desde el principio, van apenas 27 datos ordenados, mientras que hasta el intervalo 23 – 31

ya van 57. Esto significa que dentro del intervalo 23 – 31 está el dato ordinal numero 38,

que es el central. Por lo tanto, la clase de la mediana es 23 – 31.

Dicho de otra forma: cuando se fueron ordenando uno por uno los datos recolectados, al

contar el ultimo del intervalo 14 – 22 se llevaban en ese momento 27 datos ordenados. Al

continuar, el 28° (vigésimo octavo) dato fue ya del intervalo 23 – 31; el 29° (vigésimo

noveno) dato fue también del mismo intervalo 23 – 31, y así sucesivamente hasta el 57°

(quincuagésimo séptimo), o sea 30 más (que es la frecuencia del intervalo) Eso significa

que el 38° (trigésimo octavo) dato correspondió al intervalo 23 – 31.

Así que para calcular la mediana, se tienen los siguientes datos para ser sustituidos en la

formula:

L = 23

n = 75

fa = 27

f = 30

i = 31 – 23 = 8

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

57

de modo que

Mdn = 23 + (75/2 - 27 / 30) 8

Mdn = 23 + (0.35)8

Mdn = 25.8

Obsérvese que, como se dijo antes, el valor de la mediana está adentro del intervalo de la

clase de la mediana, es decir, adentro de 23 - 31. Lo contrario sería una contradicción, pues

si se afirma que el intervalo (la clase) de la mediana es 23 - 31, precisamente dentro de ese

intervalo debe estar la mediana.

CUESTIONARIO 14

1. ¿Cuántas y cuáles columnas deben agregarse a la tabla original para localizar la

mediana en una distribución de datos agrupados?

2. Localizar la mediana de los datos organizados en las tablas obtenidas en el

cuestionario 3, problemas 8 a 23.

INTERPRETACION Y UTILIZACION

Tres cosas son las importantes respecto de las medidas de tendencia central: Primero,

saberlas obtener; segundo, saberlas interpretar; y tercero, saberlas utilizar. Quedan entonces

pendientes hasta este momento las dos últimas.

Para la interpretación de cada una de las tres medidas de tendencia central debe suponerse

que se graficaron todos los valores nominales (eje de las “x”) contra sus frecuencias (eje de

las “y”) hasta obtener su curva correspondiente. Mientras mayor sea el número de datos

recolectados, mayor será la precisión.

a) La media es un punto de equilibrio, algo así como un centro de gravedad.

b) La mediana tiene la característica de dividir el área bajo la curva en dos partes

iguales.

c) La moda es la abscisa (la “x”) correspondiente a la mayor ordenada (la “y”), o sea,

señala el pico más alto de la curva.

La siguiente gráfica muestra cada uno de estos casos:

Figura 22

La media: centro de gravedad

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

58

A1 A2

La mediana. A1 = A2

La moda: el pico más alto

Un caso especial es aquel en el que la media, la mediana y la moda coinciden en el centro

en una misma línea, lo cual da una gráfica llamada “curva normal”. Tiene la característica

de ser simétrica respecto de esa línea común. La figura 23 muestra tal caso.

La curva normal es de mucha utilidad y más adelante se estudiará en forma más detallada.

Figura 23

A1 A2

Media = mediana = moda

A1 = A2

Puede hacerse una similitud entre las tres medidas de tendencia central con algunas líneas

principales de los triángulos: la altura y la mediana. Recordando:

La altura es la perpendicular levantada desde uno de sus lados (o su prolongación) y que

pasa por el vértice opuesto. Tiene la característica de que señala el punto más elevado del

triangulo. Puede compararse con la moda.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

59

La mediana es la línea que va del punto central de un lado al vértice opuesto. Tiene la

característica de que divide en dos áreas iguales al triangulo. Puede compararse con la

mediana de las medidas de tendencia central.

Un caso también especial en los triángulos es el del isósceles, en el cual la altura, la

mediana y la mediatriz forman una sola línea. Podría compararse con la curva normal.

Figura 24

punto

medio

A1 A2

mediana

A1 = A2

La utilización de cada una de las tres medidas de tendencia central está en función de la

forma en que se distribuyan los datos y de lo que se desee obtener. En este curso no es

posible detallar al respecto, pero con un ejemplo el alumno podrá intuir bastante sobre la

manera de utilizarlos.

Por ejemplo, el líder de los trabajadores de una fábrica sostiene que deben elevarles los

salarios, ya que ganan muy poco, mientras que el patrón alega que no es cierto, ya que

ganan en promedio $197.27 diarios ($5 918.18 al mes). La siguiente tabla muestra los

salarios de cada trabajador. ¿Quién tiene la razón?

punto más

alto

altura

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

60

TRABAJADOR SUELDO (diario)

Jorge Méndez $950.00

Arturo Gil 850.00

Emmanuel Ruiz 60.00

Luis Cortés 50.00

René Cordoba 50.00

Juan Estrada 40.00

José Aburto 40.00

Luis Soto 40.00

Jorge Fallh 30.00

Sandra Paz 30.00

Elena Ruiz 30.00

PROMEDIO $197.27

El patrón tiene razón en cuanto a que el promedio de sus salarios es de $197.27, solamente

que la medida de tendencia central utilizada no es la adecuada en este caso, pues existe una

gran dispersión en el extremo superior, ya que mientras los dos primeros ganan cerca de mil

pesos diarios, los demás están por debajo de los $61.00.

La mediana en este caso seria posiblemente la medida de tendencia central más equilibrada,

o sea el dato ordinal central que corresponde a $40.00.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

61

0

1

2

3

4

5

6

7

1 2 3 4 5

INDICE PARTICULAR

Medidas de dispersión

El rango

La desviación media

La desviación media, frecuencias simples

Cuestionario 15

La desviación media, frecuencias por intervalos

Cuestionario 16

La desviación estándar

La desviación estándar, frecuencias simples

Cuestionario 17

La desviación estándar, frecuencias por intervalos

Cuestionario 18

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

62

5

MEDIDAS DE DISPERSIÓN

En el capitulo anterior se estudiaron las medidas de tendencia central, que son un indicador

de cómo los datos se agrupan o concentran en una parte central del conjunto. Sin embargo,

para una información completa de dicho conjunto de datos hace falta saber el

comportamiento opuesto, es decir, de qué manera se dispersan o se alejan algunos datos de

esa parte central.

Por ejemplo, al tomar las temperaturas en una región “A” durante diferentes épocas del año

y a distintas horas del día, se registraron los datos que se muestran en la columna “A”; por

su parte, las de otra región diferente “B”, son las de la columna “B”.

Al obtener la media, en ambos casos resultó que la temperatura promedio fue de 20.687°,

cuya interpretación podría ser que en torno, alrededor o cerca de 20.687° fluctúan los

demás valores.

“A” “B”

19.3° -3°

20° 0°

20.2° 6°

20.4° 22°

21° 31.5°

21.3° 34°

21.3° 36°

22° 39°

20.687° 20.687°

Como puede verse, eso es bastante aproximado para los datos de la columna “A”, no así

para los de la “B”. los datos más alejados en “A” son 19.3° y 22°, que realmente están

próximos a 20.687°; en cambio, los datos mas alejados en “B” son -3° y 39°, que están muy

distantes del promedio.

¿Por qué si en ambos casos se tiene igual promedio, no se puede afirmar lo mismo de los

valores que están a su alrededor? La respuesta está en que no se ha tomado en cuenta la

dispersión, es decir, la manera en que se disgregan los datos respecto de la media, pues en

“A” casi no se dispersan mientras que en “B” si. Cabría decir que el conjunto de datos “A”

es bastante compacto mientras que el “B” es muy dilatado.

Las principales medidas de dispersión son tres: el rango, la desviación media y la

desviación estándar. De manera semejante a las medidas de tendencia central, las medidas

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

63

de dispersión deben considerarse en sus dos opciones: cuando no están agrupados los datos

y cuando están por intervalos.

EL RANGO

El rango es la diferencia entre los datos mayor y menor del conjunto. También se le suele

llamar “recorrido”.

En un conjunto de datos, mientras mayor sea el rango, mayor será su dispersión y, a la

inversa, mientras menor sea su rango, menor su dispersión. Dicho de otra forma; mientras

mayor sea el rango, mayor “espacio” tendrán los datos para dispersarse, o mientras menor

sea el rango, más estrechos estarán.

En los casos de las temperaturas del ejemplo anterior, el rango de “A” es R = 22 – 19.3, es

decir, R = 2.7; en cambio, el de “B” es B = 39 – (-3), es decir, R = 42.

LA DESVIACIÓN MEDIA

_

Dado un conjunto de datos cuya media aritmética o promedio es X, la diferencia o la

distancia de cada valor nominal x a la media aritmética se llama “desviación del dato x con

respecto a la media. Es decir, es una medición de cuanto se alejó cada valor nominal x de la

media.

Por ejemplo, de los datos mostrados en la tabla siguiente, en donde x = dato nominal y d =

desviación de la media, la media aritmética es:

x d

50 50 – 75 = -25

60 60 – 75 = -15

70 70 – 75 = -5

80 80 – 75 = 5

90 90 – 75 = 15

100 100 – 75 = 25

Σx = 450

_

X = Σx / n

_

X = 450 / 6 = 75

_

X = 75

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

64

Entonces

_

La desviación del dato x = 50 con respecto de la media X es d = 50 – 75 = -25

_

La desviación del dato x = 60 con respecto de la media X es d = 60 – 75 = -15

_

La desviación del dato x = 70 con respecto de la media X es d = 70 – 75 = -5

_

La desviación del dato x = 80 con respecto de la media X es d = 80 – 75 = 5

_

La desviación del dato x = 90 con respecto de la media X es d = 90 – 75 = 15

_

La desviación del dato x = 100 con respecto de la media X es d = 100 – 75 = 25

_

Resulta obvio que siendo la media aritmética X el punto central de todos los valores de los

datos x, existan simétricamente valores positivos y negativos, o lo que es lo mismo, la suma

de todas las desviaciones a la media siempre es cero. Para evitar lo anterior, dicha suma se

toma como valor absoluto, esto es:

_

La desviación del dato x = 50 con respecto de la media X es d = |50 – 75| = 25

_

La desviación del dato x = 60 con respecto de la media X es d = |60 – 75| = 15

_

La desviación del dato x = 70 con respecto de la media X es d = |70 – 75| = 5

_

La desviación del dato x = 80 con respecto de la media X es d = |80 – 75| = 5

_

La desviación del dato x = 90 con respecto de la media X es d = |90 – 75| = 15

_

La desviación del dato x = 100 con respecto de la media X es d = |100 – 75| = 25

1) FRECUENCIAS SIMPLES

Cuando los datos recolectados han sido organizados en una tabla de frecuencias simples, es

decir, sin agrupar, la desviación media DM se calcula por medio de la formula:

_

DM = Σf |x – X| / n

Al conjunto de datos deben añadirse a la tabla original tres columnas: la primera

encabezada con fx, que servirá para calcular la media aritmética; la segunda encabezada con

_ _

|x – X|, que servirá para obtener la tercera, y la tercera con f |x – X|, que servirá para obtener

el numerador de la formula luego de realizar la sumatoria.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

65

Ejemplo 1: obtener la desviación media DM del conjunto de datos mostrado en la siguiente

tabla.

Edad x f

45 2

46 1

47 3

48 3

49 5

50 6

51 2

52 4

58 2

28

SOLUCIÓN: la tabla es la original a la que deben agregársele tres columnas:

a) La primera agregada se encabeza con fx que representa la multiplicación de cada

frecuencia f por su respectivo valor nominal x. al concluir de llenar esta columna se

debe efectuar la sumatoria Σƒχ, para calcular la media aritmética

_

X = Σfx / n = 1392/28 = 49.7142

_

b) La segunda agregada se encabeza con |x – X|, que representa el valor absoluto de la

resta de cada valor nominal menos la media obtenida en el paso anterior, y

_

c) La tercera agregada se encabeza con f |x – X|, que representa la multiplicación de

cada frecuencia f (2ª columna) por el valor absoluto correspondiente obtenido en la 4ª

_

columna. Al concluir de llenar esta columna se debe efectuar la sumatoria Σf |x – X|.

La tabla, con esas columnas agregadas, queda así:

x f fx _

|x – X|

_

f |x – X|

45 2 90 4.7142 9.4285

46 1 46 3.7142 3.7142

47 3 141 2.7142 8.1428

48 3 144 1.7142 5.1428

49 5 245 0.7142 3.5714

50 6 300 0.2857 1.7142

51 2 102 1.2857 2.5714

52 4 208 2.2857 9.1428

58 2 116 8.2857 16.5714

Σf =28 Σƒχ = 1392 Σf |x – X| =

59.9995

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

66

Se tiene con esta tabla toda la información requerida para utilizar la formula de la

desviación media

_

DM = Σf |x – X| / n

DM = 59.999 / 28 = 2.142

Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es

de 2.142.

CUESTIONARIO 15

1. ¿Qué son las medidas de dispersión?

2. ¿Cuántas y cuáles son las principales medidas de dispersión?

3. ¿Qué es el rango?

4. ¿Qué es la desviación media?

5. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular la

desviación media, cuando se organizan los datos sin intervalos?

6. Obtener la desviación media de los datos organizados en el cuestionario 2,

problemas 14 a 21.

2) FRECUENCIAS POR INTERVALOS

Cuando los datos han sido organizados en clases o intervalos, la desviación media se

obtiene de manera similar a los procesos anteriores, es decir, con la misma formula

aplicada a la organización de frecuencias simples, solamente que x debe ser el punto

medio del intervalo.

Esto significa que al conjunto de datos original deben añadirse a la tabla ahora cuatro

columnas: la primera encabezada con x para señalar el punto medio de cada intervalo; la

segunda encabezada con fx; que servirá para calcular la media aritmética; la tercera

_ _

encabezada con |x – X|, que servirá para obtener la cuarta, y la cuarta con f |x – X|, que

servirá para obtener el numerador de la formula luego de realizar su sumatoria.

Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se

muestran en la siguiente tabla. Obtener la desviación media DM.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

67

Intervalo ƒ

4 – 9 12

10 – 15 11

16 – 21 13

22 – 27 19

28 – 33 21

34 – 39 16

40 – 45 8

100

SOLUCIÓN: la tabla es la original a la que deben agregársele tres columnas:

a) La primera agregada se encabeza con x que representa el punto medio de cada

intervalo

b) La segunda agregada se encabeza con fx que representa la multiplicación de cada

frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta

columna se debe efectuar la sumatoria Σƒχ, para calcular la media aritmética

_

X = Σfx / n = 2486/100 = 24.86

_

c) La tercera agregada se encabeza con |x – X|, que representa el valor absoluto de la

resta de cada punto medio del intervalo menos la media obtenida en el paso anterior.

Así:

_

Primera fila: |x – X| = |6.5 – 24.86| = 18.36

_

Segunda fila: |x – X| = |12.5 – 24.86| = 12.36

_

Tercera fila: |x – X| = |18.5 – 24.86| = 6.36

_

Cuarta fila: |x – X| = |24.5 – 24.86| = 0.36

_

Quinta fila: |x – X| = |30.5 – 24.86| = 5.64

_

Sexta fila: |x – X| = |36.5 – 24.86| = 11.64

_

Septima fila: |x – X| = |42.5 – 24.86| = 17.64

_

d) La cuarta agregada se encabeza con f |x – X|, que representa la multiplicación de cada

frecuencia f (2ª columna) por el valor absoluto correspondiente obtenido en la 5ª

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

68

_

columna. Al concluir de llenar esta columna se debe efectuar la sumatoria Σf |x – X|.

La tabla, con esas columnas agregadas, queda así:

Intervalo ƒ χ ƒχ _

|x – X|

_

f |x – X|

4 – 9 12 6.5 78 18.36 220.32

10 – 15 11 12.5 137.5 12.36 135.96

16 – 21 13 18.5 240.5 6.36 82.68

22 – 27 19 24.5 465.5 0.36 6.84

28 – 33 21 30.5 640.5 5.64 118.44

34 – 39 16 36.5 584 11.64 186.24

40 – 45 8 42.5 340 17.64 141.12

100 Σfx = 2486 _

Σf |x – X| =

891.6

Se tiene con esta tabla toda la información requerida para utilizar la formula de la

desviación media

_

DM = Σf |x – X| / n

DM = 891.6 / 100 = 8.916

Esto significa que el promedio de alejamiento de todos los valores respecto de la media, es

de 8.916.

CUESTIONARIO 16

1. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular

la desviación media cuando se organizan los datos por intervalos?

2. Obtener la desviación media de los datos organizados en el cuestionario 3,

problemas 8 a 23.

LA DESVIACION ESTANDAR

La tercera medida de dispersión se llama desviación estándar, porque con ella se pueden

estandarizar en todos los casos, todas las desviaciones de datos recolectados, como se verá

más adelante.

La desviación estándar se simboliza con la letra s.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

69

_

Aquí el truco para quitar los valores negativos de la resta de x – X es elevar al cuadrado y

luego regresar con una raíz cuadrada.

1) FRECUENCIAS SIMPLES

Cuando los datos están ordenados en una distribución de frecuencias simples, la desviación

estándar se calcula mediante la formula

_

s = Σƒ (x – X)2

n

en donde:

s = desviación estándar

f = frecuencia

x = valor nominal

_

X = media aritmética

Significa que a la tabla original hay que agregarle cuatro columnas, aunque la tercera es

opcional. La primera encabezada con fx, servirá para calcular la media aritmética. La

segunda encabezada con (x – X). La tercera con los cuadrados de la anterior, es decir con

_ _

(x – X)2. Y la cuarta con el producto de la frecuencia f por la anterior, o sea f(x – X)

2.

Ejemplo 1: obtener la desviación estándar s del conjunto de datos mostrado en la siguiente

tabla.

Nota: por ser el mismo ejemplo que el utilizado para la desviación media, una vez resuelto

este ejemplo compárense ambos resultados.

Edad x f

45 2

46 1

47 3

48 3

49 5

50 6

51 2

52 4

58 2

28

SOLUCIÓN: la tabla es la original a la que deben agregársele cuatro columnas:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

70

a) La primera agregada se encabeza con fx que representa la multiplicación de cada

frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se

debe efectuar la sumatoria Σƒχ, para calcular la media aritmética:

_

X = Σfx / n = 1392/28 = 49.7142

_

b) La segunda agregada se encabeza con (x – X), que representa la resta de cada valor

nominal menos la media obtenida en el paso anterior. Esta columna es opcional, pues

directamente se puede elevar al cuadrado y el respectivo valor vaciarlo en la columna

que se especifica en el siguiente inciso; de la siguiente forma:

_

Primera fila: x – X = 45 – 49.7142 = -4.7142

_

Segunda fila: x – X = 46 – 49.7142 = -3.7142

_

Tercera fila: x – X = 47 – 49.7142 = -2.7142

_

Cuarta fila: x – X = 48 – 49.7142 = -1.7142

_

Quinta fila: x – X = 49 – 49.7142 = -0.7142

_

Sexta fila: x – X = 50 – 49.7142 = 0.2857

_

Séptima fila: x – X = 51 – 49.7142 = 1.2857

_

Octava fila: x – X = 52 – 49.7142 = 2.2857

_

Novena fila: x – X = 58 – 49.7142 = 8.2857

c) La tercera agregada, o segunda en caso de haber omitido la anterior, se encabeza con

_

(x – X)2, que representa el cuadrado de cada valor obtenido en la columna anterior;

_

Primera fila: (x – X)2 = (-4.7142)

2 = 22.2236

_

Segunda fila: (x – X)2 = (-3.7142)

2 = 13.7952

_

Tercera fila: (x – X)2 = (-2.7142)

2 = 7.3668

_

Cuarta fila: (x – X)2 = (-1.7142)

2 = 2.9384

_

Quinta fila: (x – X)2 = (-0.7142)

2 = 0.5100

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

71

_

Sexta fila: (x – X)2 = (0.2857)

2 = 0.0816

_

Septima fila: (x – X)2 = (1.2857)

2 = 1.6530

_

Octava fila: (x – X)2 = (2.2857)

2 = 5.2244

_

Novena fila: (x – X)2 = (8.2857)

2 = 68.6528

d) La cuarta columna agregada o tercera si se omitió la opcional, se encabeza con

_

f (x – X)2, que representa el producto de cada frecuencia f por su correspondiente

cuadrado obtenido en la columna anterior.

La tabla, con esas columnas agregadas, queda así:

χ ƒ ƒχ _

(x – X)2

_

f (x – X)2

45 2 90 22.2236 44.4472

46 1 46 13.7952 13.7952

47 3 141 7.3668 22.1004

48 3 144 2.9384 8.8152

49 5 245 0.5100 2.55

50 6 300 0.0816 0.4896

51 2 102 1.6530 3.306

52 4 208 5.2244 20.8976

58 2 116 68.6528 137.3056

Σf = 28 Σfx = 1392

_

Σf (x – X)2 =

253.7068

Se tiene con esta tabla toda la información requerida para utilizar la formula de la

desviación estándar

_

s = Σƒ (x – X)2

n

s = 253.7068

28

s = 3.0101

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

72

Otra formula para calcular la desviación estándar que lleva exactamente al mismo resultado

es la siguiente:

_

s = Σƒx2 _

X2

n

lo que implica agregar solamente tres columnas a la tabla original, la primera encabezada

con fx para obtener la media, igual que en el caso anterior; la segunda encabezada con x2 y

la otra con el producto fx2, por lo que suele resultar menos laborioso el calculo de la

desviación estándar con esta formula que con la anterior.

Ejemplo 2: obtener la desviación estándar s del conjunto de datos mostrado en la siguiente

tabla.

Nota: la tabla es la misma que se utilizó para el ejemplo 1, con el objeto de comparar

resultados.

Edad x f

45 2

46 1

47 3

48 3

49 5

50 6

51 2

52 4

58 2

28

SOLUCIÓN: la tabla es la original a la que deben agregársele tres columnas:

a) La primera agregada se encabeza con fx que representa la multiplicación de cada

frecuencia f por su respectivo valor nominal x. Al concluir de llenar esta columna se

debe efectuar la sumatoria Σƒχ, para calcular la media aritmética:

_

X = Σfx / n = 1392/28 = 49.7142

b) La segundo columna agregada se encabeza con x2 que representa el correspondiente

valor al cuadrado de cada dato nominal;

Primera fila: x2 = 45

2 = 2025

Segunda fila: x2 = 46

2 = 2116

Tercera fila: x2 = 47

2 = 2209

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

73

Cuarta fila: x2 = 48

2 = 2304

Quinta fila: x2 = 49

2 = 2401

Sexta fila: x2 = 50

2 = 2500

Septima fila: x2 = 51

2 = 2601

Octava fila: x2 = 52

2 = 2704

Novena fila: x2 = 58

2 = 3364

c) La tercera agregada se encabeza con fx2, que representa el producto de cada

frecuencia por el valor obtenido en la columna anterior;

Primera fila: fx2 = (2)(2025) = 4050

Segunda fila: fx2 = (1)(2116) = 2116

Tercera fila: fx2 = (3)(2209) = 6627

Cuarta fila: fx2 = (3)(2304) = 6912

Quinta fila: fx2 = (5)(2401) = 12005

Sexta fila: fx2 = (6)(2500) = 15000

Septima fila: fx2 = (2)(2601) = 5202

Octava fila: fx2 = (4)(2704) = 10816

Novena fila: fx2 = (2)(3364) = 6728

La tabla, con esas columnas agregadas, queda así:

χ ƒ ƒχ x2 fx

2

45 2 90 2025 4050

46 1 46 2116 2116

47 3 141 2209 6627

48 3 144 2304 6912

49 5 245 2401 12005

50 6 300 2500 15000

51 2 102 2601 5202

52 4 208 2704 10816

58 2 116 3364 6728

Σf =28 Σfx =1392 Σfx2 =69456

Se tiene con esta tabla toda la información requerida para utilizar la segunda formula de la

desviación estándar.

_

s = Σƒx2 _

X2

n

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

74

s = 69456 _

49.71422

28

s = 3.0101

Que es el mismo resultado del ejemplo 1, tal y como era de esperarse.

CUESTIONARIO 17

1. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular la

desviación estándar cuando se organizan los datos por frecuencias simples y se

emplea la formula

_

s = Σƒ (x – X)2

n

2. ¿Cuántas y cuáles columnas se deben agregar a la tabla original para calcular la

desviación estándar cuando se organizan los datos por frecuencias simples y se

emplea la formula

_

s = Σƒx2 _

X2

n

3. Obtener la desviación estándar de los datos organizados en el cuestionario 2,

problemas 14 a 21, utilizando la primera formula.

4. Obtener la desviación estándar de los datos organizados en el cuestionario 2,

problemas 14 a 21, utilizando la segunda formula.

2) FRECUENCIAS POR INTERVALOS

Cuando los datos han sido organizados en clases o intervalos, la desviación estándar se

obtiene de manera similar a los procesos anteriores, es decir, con la misma formula aplicada

a la organización de frecuencias simples, solamente que x debe ser el punto medio del

intervalo.

De tal manera que pueden emplearse, cuando la organización sea por intervalos,

cualesquiera de las dos formulas vistas para la desviación estándar en frecuencias simples,

motivo por el cual solamente se pondrá un ejemplo, pues debe suponerse que a estas alturas

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

75

del curso el alumno ya está familiarizado con este tipo de procesos, es decir, cuando los

datos se organizan por frecuencias simples y cuando se hace por intervalos, en los que se

emplea la misma formula, pero dando un significado diferente a la x en cada caso: en uno

es el valor nominal, en el otro es el punto medio.

Ejemplo 1: cien datos recolectados se organizaron en siete intervalos, los que se muestran

en la siguiente tabla. Obtener la desviación estándar.

Nota: este ejemplo es el mismo que se utilizó para calcular la desviación media, por lo que

conviene al final comparar los resultados.

Intervalo ƒ

4 – 9 12

10 – 15 11

16 – 21 13

22 – 27 19

28 – 33 21

34 – 39 16

40 – 45 8

100

SOLUCIÓN: la tabla es la original a la que deben agregársele cuatro columnas:

a) La primera agregada se encabeza con x que representa el punto medio de cada

intervalo

b) La segunda agregada se encabeza con fx que representa la multiplicación de cada

frecuencia f por su respectivo punto medio x del intervalo. Al concluir de llenar esta

columna se debe efectuar la sumatoria Σƒχ, para calcular la media aritmética

_

X = Σfx / n = 2486/100 = 24.86

_

c) La tercera agregada se encabeza con x – X, que representa la resta de cada punto

medio del intervalo menos la media obtenida en el paso anterior. Aunque debe

recordarse que esta columna es opcional si el estudiante puede sin equivocarse obtener

directamente sus cuadrados:

_

d) La cuarta agregada se encabeza con (x – X)2, que representan los cuadrados de cada

resta obtenidos en la columna anterior.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

76

_

e) La quinta columna agregada se encabeza con ƒ(x – X)2 en donde se vaciarán los

resultados de cada producto de la frecuencia por el respectivo valor de la columna

anterior.

La tabla, con esas columnas agregadas, queda así:

Intervalo ƒ χ ƒχ _

(x – X)2

_

f (x – X)2

4 – 9 12 6.5 78 337.0896 4045.0752

10 – 15 11 12.5 137.5 152.7697 1680.4656

16 – 21 13 18.5 240.5 40.4496 525.8448

22 – 27 19 24.5 465.5 0.1296 2.4624

28 – 33 21 30.5 640.5 31.8096 668.0016

34 – 39 16 36.5 584 135.4896 2167.8336

40 – 45 8 42.5 340 311.1696 2489.3568

100 Σf = 2486 _

Σf (x – X)2 =

11579.04

Sustituyendo en la formula de la desviación estándar

_

s = Σƒ (x – X)2

n

s = 11579.04

100

s = 10.7605

Otra formula para calcular la desviación estándar cuando los datos han sido organizados

por intervalos, que lleva exactamente al mismo resultado es la siguiente:

_

s = Σƒx2 _

X2

n

donde, como se ha establecido en casos anteriores, x representa el punto medio del

intervalo.

Ejemplo 2: cien datos recolectados se organizaron en siete intervalos, los que se muestran

en la siguiente tabla. Obtener la desviación estándar con la segunda formula.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

77

Nota: este ejemplo es el mismo que se utilizó para calcular la desviación estándar por

intervalos, por lo que conviene al final comparar los resultados.

Intervalo ƒ

4 – 9 12

10 – 15 11

16 – 21 13

22 – 27 19

28 – 33 21

34 – 39 16

40 – 45 8

100

SOLUCIÓN: la tabla es la original a la que deben agregársele cuatro columnas: las dos

primeras son las mismas del ejemplo anterior hasta obtener la media.

c) La tercera columna agregada se encabeza con x2 que representa el cuadrado de los

puntos medios de cada intervalo.

d) la cuarta columna agregada se encabeza con fx2, que representa el producto de la

frecuencia por el correspondiente cuadrado del punto medio.

La tabla, con esas columnas agregadas, queda así:

Intervalo ƒ χ x2 fx

2

4 – 9 12 6.5 42.25 507

10 – 15 11 12.5 156.25 1718.75

16 – 21 13 18.5 342.25 4449.25

22 – 27 19 24.5 600.25 11404.75

28 – 33 21 30.5 930.25 19535.25

34 – 39 16 36.5 1332.25 21316

40 – 45 8 42.5 1806.25 14450

100 Σfx2 =73381

Sustituyendo en la segunda formula de la desviación estándar:

s = 73 381 _

(24.86)2

100

s = 10.7605

CUESTIONARIO 18

1. Obtener la desviación estandar de los datos organizados en el cuestionario 3,

problemas 8 a 23.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

78

0

1

2

3

4

5

6

7

1 2 3 4 5

INDICE PARTICULAR

Distribución normal

Estandarización de datos

Cuestionario 19

Tabla de áreas bajo la curva normal

Cuestionario 20

Porcentaje entre dos datos nominales

Cuestionario 21

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

79

6

DISTRIBUCIÓN NORMAL

En los capítulos anteriores se estudiaron las medidas de tendencia central y las medidas de

dispersión, que son un indicador de cómo y cuanto se concentran los datos en torno a cierto

valor y de cómo y cuánto se alejan del mismo.

Ya se mencionó el caso especial de datos en que la media, la moda y la mediana coinciden

en el centro en una misma línea, dando una grafica llamada “curva normal”, la cual es

simétrica respecto de esa línea común. Este capitulo se encargará de hacer un estudio de

esta curva, o lo que es lo mismo, de los datos recolectados que dan esa grafica.

Para comenzar aclarando la idea de esa “línea común”, supóngase que se recolectaron los

datos mostrados en la siguiente tabla. Calcular su media, su moda y su mediana. Asimismo,

hacer su grafica.

χ ƒ ƒχ ƒα

6 1 6 1

7 2 14 3

8 3 24 6

9 5 45 11

10 9 90 20

11 15 165 35

12 18 216 53

13 15 195 68

14 9 126 77

15 5 75 82

16 3 48 85

17 2 34 87

18 1 18 88

88 1056

A) Para la media, utilizando la formula vista:

X = Σfx / n = 1056/88 = 12

B) Para la moda, conforme a lo visto, es el de mayor frecuencia, en este caso es

el valor nominal 12 que tiene frecuencia 18, o sea

Mo = 12

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

80

C) Para la mediana, conforme a lo visto, es el dato ordinal que se encuentra a la

mitad, el que se obtiene sumando uno al numero total de datos recolectados,

es decir

fc = 1 + 88 / 2 = 44.5

los datos ordinales 44 y 45 son los que están al centro, pero ambos corresponden al valor

nominal 12, o sea que la mediana es

Mdn = 12

_

Obsérvese que se obtuvo que X = Mo = Mdn = 12.

Para graficar esos datos como se pidió en el enunciado, primeramente se hace una grafica

de barras y luego se unen sus puntos medios, a manera de “polígono de frecuencias”, como

lo muestra la figura 25.

6 7 8 9 10 11 12 13 14 15 16 17 18

Figura 25

La gráfica se “suaviza” quitándole las líneas rectas que unen esos puntos medios de cada

barra y curveándola hasta que tome la forma de la figura 26.

0

2

4

6

8

10

12

14

16

18

6 7 8 9 10 11 12 13 14 15 16 17 18

Figura 26

Curva normal

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

81

La figura 26 muestra lo que es una curva normal, que conforme a lo dicho al inicio de este

capitulo, es la que resulta de graficar una distribución de datos tales que son simétricos y

que, por lo mismo, sus tres medidas de tendencia central coinciden en una misma. La

simetría no solamente se ve en la grafica, sino desde la tabla misma, pues a partir del dato

nominal central x = 12, las frecuencias hacia arriba y hacia debajo de ese dato avanzan en la

misma distancia o son las mismas.

La distribución de datos que da origen a la curva normal se llama distribución normal.

Una característica muy importante de la curva normal es que a partir de su eje de simetría,

se puede dividir como lo muestra la figura 27, de tal manera que el valor igual a cero

corresponda siempre a la media aritmética de la distribución normal de datos, que el valor

de 1 corresponda siempre a un cierto valor de la distribución normal, y así sucesivamente

hasta +3 y -3, aproximadamente.

Dicho de otra forma, en toda distribución normal, los datos nominales se pueden

transformar a uno equivalente de la escala de -3 a +3 de la figura 26. por eso, a los datos

comprendidos en la escala de -3 a +3 se les llama dato estándar.

En esa escala estandarizada, el 1 representa “una desviación estándar”, el 2 representa

“dos desviaciones estándares”, y así sucesivamente. El signo positivo solamente indica

que está a la derecha del cero y el signo negativo significa que está a la izquierda. Con los

ejemplos venideros se aclararán esos significados.

ESTANDARIZACIÓN DE DATOS

Por lo dicho en el párrafo anterior, los datos pertenecientes a una distribución normal se

pueden estandarizar o normalizar, lo cual se consigue utilizando la formula:

_

z = x – X / s

En donde:

-3 -2 -1 0 1 2 3

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

82

z = dato estandarizado o normalizado

x = valor nominal del dato a estandarizar

_

X = media aritmética del conjunto de datos

s = desviación estándar

Ejemplo 1: convertir cada uno de los datos nominales de la tabla de la página 79 a datos

estandarizados.

SOLUCIÓN: para transformar un dato nominal en dato estándar, también llamado “dato

z”, se requiere calcular la media de todo el conjunto. Para este caso ya se calculó en la

página 79, resultado que

_

X =12

Debe calcularse también la desviación estándar, para lo cual a la tabla original hay que

agregarle las columnas que se muestran en la siguiente tabla:

χ ƒ x2 fx

2

6 1 36 36

7 2 49 98

8 3 64 192

9 5 81 405

10 9 100 900

11 15 121 1815

12 18 144 2592

13 15 169 2535

14 9 196 1764

15 5 225 1125

16 3 256 768

17 2 289 578

18 1 324 324

88 13132

Entonces, utilizando la formula de la página 72

_

s = Σƒx2 _

X2

n

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

83

s = 13 132 _

122

88

s = 2.28632

Se tienen ya todos los datos para utilizar la formula del dato z:

_

z = x – X / s

Los cálculos para cada dato se muestran en la siguiente tabla:

Dato nominal x Sustituyendo Dato z

6 z = 6 – 12 / 2.28632 z = -2.62430

7 z = 7 – 12 / 2.28632 z = -2.18692

8 z = 8 – 12 / 2.28632 z = -1.74953

9 z = 9 – 12 / 2.28632 z = -1.31215

10 z = 10 – 12 / 2.28632 z = -0.87476

11 z = 11 – 12 / 2.28632 z = -0.43738

12 z = 12 – 12 / 2.28632 0

13 z = 13 – 12 / 2.28632 z = 0.43738

14 z = 14 – 12 / 2.28632 z = 0.87476

15 z = 15 – 12 / 2.28632 z = 1.31215

16 z = 16 – 12 / 2.28632 z = 1.74953

17 z = 17 – 12 / 2.28632 z = 2.18692

18 z = 18 – 12 / 2.28632 z = 2.62430

A partir de que la media aritmética del conjunto es x = 12 y la desviación estándar es s =

2.28632, el significado es el siguiente: un valor estandarizado z = 1 significa una distancia

de la media aritmética igual a una desviación estándar a la derecha, es decir una distancia

de 2.28632. Un valor estandarizado z = -2 significa una distancia de la media aritmética

igual a dos desviaciones estándar a la izquierda, es decir, una distancia de 4.57264.

Ahora bien, si al dato nominal x = 6 le corresponde un dato estándar z = -2.62430, significa

que ese 6 se alejó de la media, 2.62430 desviaciones estándares a la izquierda.

Si al dato nominal x = 13 le corresponde un dato estándar z = 0.43738, significa que ese 13

se alejó de la media, 0.43738 desviaciones estándares a la derecha.

Si al dato nominal x = 17 le corresponde un dato estándar z = 2.18692, significa que ese 17

se alejó de la media, 2.18692 desviaciones estándares a la izquierda. Y así con cada uno de

los datos nominales x.

Gráficamente:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

84

Datos x

Datos z z = -2.6243 z = 1 z = 1 z = 1

2.28632 2.28632 2.28632

1 desviación estándar

Figura 28

CUESTIONARIO 19

1. ¿Qué es una “curva normal”?

2. ¿Qué es una “distribución normal”?

3. En los datos z, ¿qué significa un valor de z = 1?

4. En una curva normal, el eje de simetría de la figura ¿qué es o que representa?

5. En una curva normal, el eje de simetría ¿qué valor estandarizado le

corresponde?

6. Si a un dato nominal le corresponde un dato estandarizado z = 1.2, ¿qué

significa?

7. Convertir a datos estándar o dato z cada uno de los datos nominales de las

siguientes tablas con distribución normal:

0

2

4

6

8

10

12

14

16

18

6 7 8 9 10 11 12 13 14 15 16 17 18

12 14.28632 16.5664 18.85896

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

85

a)

χ ƒ

4 20

5 21

6 27

7 35

8 27

9 21

10 20

b)

χ ƒ

9 1

11 3

13 8

15 10

17 8

19 3

21 1

c)

χ ƒ

14 10

15 11

16 17

17 19

18 17

19 11

20 10

d)

χ ƒ

2 100

4 300

6 800

8 900

10 800

12 300

14 100

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

86

e)

χ ƒ

40 200

45 210

50 245

55 265

60 245

65 210

70 200

f)

χ ƒ

39 10

40 13

41 16

42 20

43 16

44 13

45 10

TABLA DE AREAS BAJO LA CURVA NORMAL

En una curva normal, el área bajo la curva desde el extremo izquierdo hasta la media, es

decir, hasta el eje de simetría, es del 50% y, obviamente, el otro 50% está en la parte

derecha.

Una característica importante de la curva normal y de los datos normalizados es que el área

bajo la curva desde la media hasta una desviación estándar, es decir para z = 1, ya sea a la

izquierda o a la derecha, es del 34.13%. Ver parte superior de la figura 29.

De la misma forma, el área bajo la curva desde la media hasta dos desviaciones estándar, es

decir para z = 2, ya sea a la izquierda o a la derecha, es del 47.72%. Ver parte inferior de la

figura 29.

A

34.13 %

Z= 1

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

87

Figura 29

Como la curva normal sale de graficar los datos recolectados, es obvio que esos porcentajes

de áreas bajo la curva también lo son para dichos datos, es decir, para una desviación

estándar, el porcentaje de datos entre la media y z = 1 es de 34.13%; para dos desviaciones

estándar el porcentaje de datos entre la media y z = 2 es de 47.72%.

Por lo tanto, es posible obtener el porcentaje de datos entre la media y cualquier valor

estandarizado, lo cual se ha concentrado en una tabla. La tabla de la siguiente pagina

expresa el porcentaje de área correspondiente a cada valor z, medidos desde la media.

Esto último es muy importante: debe tomarse en cuenta que los valores mostrados en la

tabla son siempre desde la media hasta el valor estandarizado z.

Resulta entonces muy simple obtener el porcentaje de datos y el numero de datos

comprendidos entre la media y un valor recolectado dado. El proceso es el siguiente:

a) Si el enunciado no lo proporciona, calcular la media aritmética del conjunto de datos.

b) Si el enunciado no lo proporciona, calcular la desviación estándar del conjunto de

datos.

c) Convertir a dato z el dato nominal.

d) Buscar en las tablas el porcentaje de área que le corresponde a ese dato

estandarizado.

e) Calcular, con el porcentaje anterior y el numero total de datos recolectados, el

numero de datos comprendidos entre la media y ese valor nominal por una regla de tres

simple.

PORCENTAJES DE AREAS BAJO LA CURVA NORMAL

DESDE Z=0 HASTA Z = 3.99

A

47.72 %

Z= 2

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

88

Z 0 1 2 3 4 5 6 7 8 9

0.0 0 0.40 0.80 1.20 1.60 1.99 2.39 2.79 3.19 3.59

0.1 3.98 4.38 4.78 5.17 5.57 5.96 6.36 6.75 7.14 7.59

0.2 7.93 8.32 8.71 9.10 9.48 9.87 10.26 10.64 11.03 11.41

0.3 11.79 12.17 12.55 12.93 13.31 13.68 14.06 14.43 14.80 15.17

0.4 15.54 15.91 16.28 16.64 17.00 17.36 17.72 18.08 18.44 18.79

0.5 19.15 19.50 19.85 20.19 20.54 20.88 21.23 21.57 21.90 22.24

0.6 22.58 22.91 23.24 23.57 23.89 24.22 24.54 24.86 25.18 25.49

0.7 25.80 26.12 26.42 26.73 27.04 27.34 27.64 27.94 28.23 28.52

0.8 28.81 29.10 29.39 29.67 29.96 30.23 30.51 30.78 31.06 31.33

0.9 31.59 31.86 32.12 32.38 32.64 32.89 33.15 33.40 33.65 33.89

1.0 34.13 34.38 34.61 34.85 35.08 35.31 35.54 35.77 35.99 36.21

1.1 36.43 36.65 36.86 37.08 37.29 37.49 37.70 37.90 38.10 38.30

1.2 38.49 38.69 38.88 39.07 39.25 39.44 39.62 39.80 39.97 40.15

1.3 40.32 40.49 40.66 40.82 40.99 41.15 41.31 41.47 41.62 41.77

1.4 41.92 42.07 42.22 42.36 42.51 42.65 42.79 42.92 43.06 43.19

1.5 43.32 43.45 43.57 43.70 43.82 43.94 44.06 44.18 44.29 44.41

1.6 44.52 44.63 44.74 44.84 44.95 45.05 45.15 45.25 45.35 45.45

1.7 45.54 45.64 45.73 45.82 45.91 45.99 46.08 46.16 46.25 46.33

1.8 46.41 46.49 46.56 46.64 46.71 46.78 46.86 46.93 46.99 47.06

1.9 47.13 47.19 47.26 47.32 47.38 47.44 47.50 47.56 47.61 47.67

2.0 47.72 47.78 47.83 47.88 47.93 47.98 48.03 48.08 48.12 48.17

2.1 48.21 48.26 48.30 48.34 48.38 48.92 48.96 48.50 48.54 48.57

2.2 48.61 48.64 48.68 48.71 48.75 48.78 48.81 48.84 48.87 48.90

2.3 48.93 48.96 48.98 49.01 49.04 49.06 49.09 49.11 49.13 49.16

2.4 49.18 49.20 49.22 49.25 49.27 49.29 49.31 49.32 49.34 49.36

2.5 49.38 49.40 49.41 49.43 49.45 49.46 49.48 49.49 49.51 49.52

2.6 49.53 49.55 49.56 49.57 49.59 49.60 49.61 49.62 49.63 49.64

2.7 49.65 49.66 49.67 49.68 49.69 49.70 49.71 49.72 49.73 49.74

2.8 49.74 49.75 49.76 49.77 49.77 49.78 49.79 49.79 49.80 49.81

2.9 49.81 49.82 49.82 49.83 49.84 49.84 49.85 49.85 49.86 49.86

3.0 49.87 49.87 49.87 49.88 49.88 49.89 49.89 49.89 49.90 49.90

3.1 49.90 49.91 49.91 49.91 49.92 49.92 49.92 49.92 49.93 49.93

3.2 49.93 49.93 49.94 49.94 49.94 49.94 49.94 49.95 49.95 49.95

3.3 49.95 49.95 49.95 49.96 49.96 49.96 49.96 49.96 49.96 49.97

3.4 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.97 49.98

3.5 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98 49.98

3.6 49.98 49.98 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99

3.7 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99

3.8 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99 49.99

3.9 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00 50.00

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

89

_

Ejemplo 1: al recolectar 250 datos, se obtuvo que la media es X = 7.65 y la desviación

estándar s = 2.24. Calcular el numero de datos aproximados que hay entre la media y el

dato nominal x = 8.1.

SOLUCIÓN: en este caso el enunciado proporciona los valores de la media y de la

desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,

continuando con el inciso c), hay que convertir a dato z el valor nominal x = 8.1 con la

formula dada, o sea:

_

z = x – X / s

z = 8.1 – 7.65 / 2.24 = 0.20

Figura 30

Se toman solamente dos decimales porque así vienen en las tablas. A continuación,

conforme a lo establecido en el inciso d) se busca en las tablas el valor de z

= 0.20 y se localiza que le corresponde A = 7.93%; que significa que el porcentaje de área

entre la media y el dato z = 0.20 es de 7.93%, pero como ese porcentaje también

corresponde a los datos recolectados, entonces puede obtenerse por una simple regla de tres

el numero de datos nominales comprendidos en esa región.

250 / 100% = n.d./ 7.93%

de donde el numero de datos n.d. es

n.d. = 250 x 7.93 / 100

n.d. = 19.825

El numero datos en forma calculada es n.d. = 19.825, pero ese valor carece de sentido, ya

que los datos recolectados siempre son números enteros porque se recolectan 200 datos, o

A

7. 93 %

Dato estandarizado z Z = 0 z = 0..2

Dato nominal x x = 7.65 x = 8.1

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

90

220 datos, o 300 datos, pero jamás 291.8 puesto que es imposible. Entonces entre la media

aritmética y el dato z = 0.2008 no pueden haber 19.825 datos nominales, o hay 19 o hay 20,

pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano

y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es

entonces.

_

SOLUCIÓN: hay aproximadamente 20 datos entre la media X = 7.65 y el dato nominal x

= 8.1.

_

Ejemplo 2: al recolectar 1200 datos, se obtuvo una media de X = 47.5 y una desviación

estándar s = 6.4. Calcular el numero de datos aproximados que hay entre la media y el dato

nominal x = 55.

SOLUCIÓN: en este caso el enunciado proporciona los valores de la media y de la

desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,

continuando con el inciso c), hay que convertir a dato z el valor nominal x = 55, con la

formula dada, o sea:

_

z = x – X / s

z = 55 – 47.5 / 6.4 = 1.17

Figura 31

Se toman solamente dos decimales porque así vienen en las tablas. A continuación,

conforme a lo establecido en el inciso d) se busca en las tablas el valor de z = 1.17 y se

localiza que le corresponde A = 37.90%, que significa que el porcentaje de area entre la

media y el dato z = 1.17 es de 37.90%, pero como ese porcentaje también corresponde a los

datos recolectados, entonces puede obtenerse por una simple regla de tres el numero de

datos nominales comprendidos en esa región.

1200 / 100% = n.d./ 37.9%

de donde el numero de datos n.d. es

A

37.9 %

Dato estandarizado z Z = 0 z = 1.17

Dato nominal x x = 47.5 x = 55

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

91

n.d. = 1200 x 37.90 / 100

n.d. = 454.8

El numero datos en forma calculada es n.d. = 454.8, pero ese valor carece de sentido, ya

que los datos recolectados siempre son números enteros. De tal manera que entre la media

aritmética y el dato z = 1.17 no pueden haber 454.8 datos nominales, o hay 454 o hay 455,

pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano

y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es

entonces

_

SOLUCIÓN: hay aproximadamente 455 datos entre la media X = 47.5 y el dato nominal x

= 55.

_

Ejemplo 3: al recolectar 850 datos, se obtuvo una media de X = 27 y una desviación

estándar s = 5.34. Calcular el numero de datos aproximados que hay entre la media y el

dato nominal x = 20.

SOLUCIÓN: en este caso el enunciado proporciona los valores de la media y de la

desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces,

continuando con el inciso c), hay que convertir a dato z el valor nominal x = 20, con la

formula dada, o sea:

_

z = x – X / s

z = 20 – 27 / 5.34 = -1.31

Figura 32

En este caso el valor de z es negativo, lo que significa que el dato nominal x = 20 está a la

izquierda de la media aritmética, pero en las tablas se busca simplemente como z = 1.31

localizándose que le corresponde un área de A = 40.49%; que significa que el porcentaje de

área comprendido entre la media y el dato z = 1.31 es de 40.49%, pero como ese porcentaje

A

40.49 %

Dato nominal x x = 20 x = 27

Dato estandarizado z Z = -1.31 z = 0

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

92

corresponde también a los datos recolectados, entonces puede obtener por una simple regla

de tres el numero de datos nominales comprendidos en esa región.

850 / 100% = n.d./ 40.49%

de donde el numero de datos n.d. es

n.d. = 850 x 40.49 / 100

n.d. = 344.16

El numero datos en forma calculada es n.d. = 344.16, pero ese valor carece de sentido, ya

que los datos recolectados siempre son números enteros. De tal manera que entre la media

aritmética y el dato z = 1.31 no pueden haber 344.16 datos nominales, o hay 344 o hay 345,

pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano

y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es

entonces

_

SOLUCIÓN: hay aproximadamente 344 datos entre la media X = 27 y el dato nominal x =

20.

CUESTIONARIO 20

1. El área bajo la curva normal a la izquierda de la media aritmética. ¿Qué

porcentaje de toda el área representa?

2. ¿Qué tiene que ver el área bajo la curva normal con los datos recolectados?

3. ¿Qué porcentaje de área bajo la curva existe en toda curva normal desde la media

aritmética hasta el dato estandarizado z = 1?

4. En las tablas, el porcentaje de área que aparece para cada dato estandarizado,

¿desde donde hasta donde siempre es considerado?

5. Al recolectar 350 datos, se obtuvo una media de 20.7 y una desviación estándar

de 7.84. Calcular el numero de datos que hay entre la media y el dato nominal x

= 30.

6. Al recolectar 1300 datos, se obtuvo una media de 420.15 y una desviación

estándar de 4.4. Calcular el numero de datos que hay entre la media y el dato

nominal x = 426.

7. Al recolectar 2500 datos, se obtuvo una media de 2.25 y una desviación estándar

de 2.8. Calcular el numero de datos que hay entre la media y el dato nominal x =

3.3.

8. Al recolectar 1430 datos, se obtuvo una media de 120 y una desviación estándar

de 6.6. Calcular el numero de datos que hay entre la media y el dato nominal x =

125.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

93

9. Al recolectar 373 datos, se obtuvo una media de 220.1 y una desviación estándar

de 7. Calcular el numero de datos que hay entre la media y el dato nominal x =

211.

10. Al recolectar 800 datos, se obtuvo una media de 99 y una desviación

estándar de 5.42. Calcular el numero de datos que hay entre la media y el dato

nominal x = 90.

11. Al recolectar 425 datos, se obtuvo una media de 80.725 y una desviación

estándar de 1.8. Calcular el numero de datos que hay entre la media y el dato

nominal x = 78.3.

12. Al recolectar 1720 datos, se obtuvo una media de 120 y una desviación

estándar de 9.6. Calcular el numero de datos que hay entre la media y el dato

nominal x = 115.

PORCENTAJE ENTRE DOS DATOS NOMINALES

En el tema anterior se estudió la forma de obtener el número de datos recolectados entre la

media aritmética y un dato nominal establecido. Sin embargo, otro problema que puede

presentarse es como obtener el número de datos recolectados ya no a partir de la media,

sino entre dos datos nominales.

Hay dos opciones: la primera es que los datos estandarizados z1 y z2 se localicen uno a la

derecha y el otro a la izquierda de la media. La solución a este nuevo problema es muy

simple, pues por una lógica muy elemental se puede deducir que el área total es igual a la

suma del área 1 más el área 2, como se ve en la figura 33.

A

z1 z 2

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

94

A = A1 + A2

Figura 33

En donde A1 es el área desde la media hasta el dato estandarizado z1, la que se obtiene en

tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el área desde la

media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2

es la suma de áreas o porcentajes de cada uno.

Otra opción que puede presentarse es la que se muestra en la figura 34, consistente en que

ambos valores estandarizados z1 y z2 se encuentren del mismo lado respecto de la media,

en la que también por una lógica muy elemental puede deducirse que el área total es

simplemente la resta del área 1 menos el área 2.

A

z1 z2

A2

z2

A1

z1

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

95

A = A1 + A2

Figura 34

En donde A1 es el área desde la media hasta el dato estandarizado z1, la que se obtiene en

tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el área desde la

media hasta el dato estandarizado z2. De tal manera que el porcentaje de datos entre z1 y z2

es la suma de áreas o porcentajes de cada uno.

Ejemplo 1: al recolectar 500 datos, se obtuvo una media aritmética de 55 y una desviación

estándar de 8.80. Calcular el numero de datos aproximados que hay entre los datos

nominales x1 = 51 y x2 = 64.

SOLUCIÓN: convirtiendo a dato normalizado o estandarizado x1 = 51 y x2 = 64:

_

z = x – X / s

z1 = 51 – 55 / 8.8 = -0.45

z2 = 64 – 55 / 8.8 = 1.02

Buscando en tablas se obtiene que para z1 = 0.45 le corresponde un porcentaje de área de

A1 = 17.36% y para z2 = 1.02 le corresponde un porcentaje de área de A2 = 34.61%

A2

z2

A1

z1

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

96

A1 + A2 = A

Figura 35

Como se ve en la figura 35, el porcentaje de área total es la suma de A1 + A2, es decir A=

17.36% + 34.61% = 51.97%, porcentaje que también corresponde, como ya se dijo antes, a

los datos entre x1 y x2. De manera que por una simple regla de tres:

500 / 100% = n.d. / 51.97%

n.d. = 500 x 51.97 / 100

n.d. = 259.85

A= 51.97%

z1 z2

A2 =34.61%

z2 = 1.02

A1=17.36%

z1 = -0.45

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

97

El numero datos en forma calculada es n.d. = 259.85, pero ese valor carece de sentido, ya

que los datos recolectados siempre son números enteros. De tal manera que entre el dato z

= -0.45 y el dato z = 1.02 no pueden haber 259.85 datos nominales, o hay 259 o hay 260,

pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano

y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es

entonces

SOLUCIÓN: hay aproximadamente 260 datos entre el dato nominal x = 51 y el dato

nominal x = 64.

Ejemplo 2: al recolectar 750 datos, se obtuvo una media aritmética de 205 y una

desviación estándar de 9.68. Calcular el numero de datos aproximados que hay entre los

datos nominales x1 = 213 y x2 = 230.

SOLUCIÓN: convirtiendo a dato normalizado o estandarizado x1 = 213 y x2 = 230:

_

z = x – X / s

z1 = 213 – 205 / 9.68 = 0.82

z2 = 230 – 205 / 9.68 = 2.58

Buscando en tablas se obtiene que para z1 = 0.82 le corresponde un porcentaje de área de

A1 = 29.32% y para z2 = 2.58 le corresponde un porcentaje de área de A2 = 49.51%

Como se ve en la figura 36, el porcentaje de área total es la resta de A2 – A1, es decir A=

49.51% - 29.32% = 20.19%, porcentaje que también corresponde, como ya se dijo antes, a

los datos entre x1 y x2. De manera que por una simple regla de tres:

750 / 100% = n.d. / 20.19%

n.d. = 750 x 20.19 / 100

n.d. = 151.42

El numero datos en forma calculada es n.d. = 151.42, pero ese valor carece de sentido, ya

que los datos recolectados siempre son números enteros. De tal manera que entre el dato z

= 0.82 y el dato z = 2.58 no pueden haber 151.42 datos nominales, o hay 151 o hay 152,

pero no una fracción de ellos. De manera que lo correcto es redondear el valor mas cercano

y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución es

entonces

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

98

SOLUCIÓN: hay aproximadamente 151 datos entre el dato nominal x = 213 y el dato

nominal x = 230.

CUESTIONARIO 21

1. Al recolectar 450 datos, se obtuvo una media de 50 y una desviación estándar de

17.4. Calcular el numero de datos que hay entre el dato nominal x1= 34 y el dato

nominal x2 = 61.

2. Al recolectar 1700 datos, se obtuvo una media de 400 y una desviación estándar

de 14. Calcular el numero de datos que hay entre el dato nominal x1= 387 y el

dato nominal x2 = 430.

3. Al recolectar 2500 datos, se obtuvo una media de 225 y una desviación estándar

de 12. Calcular el numero de datos que hay entre el dato nominal x1= 200 y el

dato nominal x2 = 235.

4. Al recolectar 1940 datos, se obtuvo una media de 120 y una desviación estándar

de 16. Calcular el numero de datos que hay entre el dato nominal x1= 96 y el

dato nominal x2 = 150.

5. Al recolectar 873 datos, se obtuvo una media de 220.1 y una desviación estándar

de 17. Calcular el numero de datos aproximados que hay entre el dato nominal

x1= 230 y el dato nominal x2 = 259.

6. Al recolectar 807 datos, se obtuvo una media de 99 y una desviación estándar de

5.42. Calcular el numero de datos aproximados que hay entre el dato nominal

x1= 103 y el dato nominal x2 = 112.

7. Al recolectar 457 datos, se obtuvo una media de 809 y una desviación estándar

de 21.8. Calcular el numero de datos aproximados que hay entre el dato nominal

x1= 830 y el dato nominal x2 = 852.

8. Al recolectar 1725 datos, se obtuvo una media de 120 y una desviación estándar

de 19. Calcular el numero de datos aproximados que hay entre el dato nominal

x1= 145 y el dato nominal x2 = 164.

9. Al recolectar 2730 datos, se obtuvo una media de 2520 y una desviación estándar

de 21. Calcular el numero de datos aproximados que hay entre el dato nominal

x1= 2500 y el dato nominal x2 = 2481.

10. Al recolectar 1687 datos, se obtuvo una media de 109 y una desviación

estándar de 10. Calcular el numero de datos aproximados que hay entre el dato

nominal x1= 100 y el dato nominal x2 = 97.

11. Al recolectar 570 datos, se obtuvo una media de 89 y una desviación

estándar de 21. Calcular el numero de datos aproximados que hay entre el dato

nominal x1= 73 y el dato nominal x2 = 52.

12. Al recolectar 1756 datos, se obtuvo una media de 120 y una desviación

estándar de 13. Calcular el numero de datos aproximados que hay entre el dato

nominal x1= 110 y el dato nominal x2 = 84.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

99

0

1

2

3

4

5

6

7

1 2 3 4 5

INDICE PARTICULAR

Regresión lineal

Ecuación de la recta

Formulas para “m” y para “b”

Cuestionario 22

Coeficiente de correlación lineal

Cuestionario 23

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

100

7

REGRESIÓN LINEAL

En el capitulo anterior se estudiaron aquellos casos en los que los datos recolectados tienen

simetría, dando origen a la “curva normal”. Evidentemente que no todos los casos son

como ésos, por lo que según sus características se clasifican de distintas formas. En este

capitulo se estudiarán ahora aquellos otros datos que al graficarse, en vez de dar la “curva

normal”, dan una línea recta.

El estudio consiste en tratar de encontrar con la mayor aproximación la ecuación de la recta

a la que más se acercan todos los puntos para, a partir de ella, intentar deducir o inferir el

comportamiento de los que no aparecen en la tabla.

Ejemplo 1: se realizó una encuesta en una fábrica de pinturas para relacionar la cantidad de

cierto aditivo químico agregado al colorante con el tiempo de secado, obteniéndose los

resultados mostrados en la siguiente tabla.

Graficar esos resultados y señalar la recta que más se aproxima a dichos valores.

Cantidad de aditivo

x

Tiempo de secado

y

1 2.6

2 2.3

3 2.2

4 2

5 1.8

6 1.8

7 1.4

8 1.2

9 1.3

SOLUCIÓN: graficando los datos de la tabla en donde las abscisas (las “X”) son los

valores de la primera columna y las ordenas (las “Y”) los de la segunda columna, se

obtienen los puntos señalados en la figura 37. A la grafica correspondiente a todos esos

puntos se le llama diagrama de dispersión.

Una recta aproximada a esos puntos también se ha marcado con línea punteada en la misma

figura 37.

Se ve que se trata de un caso en el que los datos dan aproximadamente una línea recta.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

101

1 2 3 4 5 6 7 8 9

Por lo pronto en este ejemplo no se hará ninguna deducción a partir de la grafica. Se trata

por el momento solamente de mostrar visualmente como hay casos en los que los datos

graficados dan aproximadamente una línea recta.

ECUACION DE LA RECTA

La ecuación de la recta en forma particular es:

y = mx + b

En donde:

m = pendiente de la recta

b = ordenada al origen

Ejemplos de ecuaciones de rectas son las mostradas en la tabla siguiente, en la que se han

especificado los correspondientes valores de la pendiente m y de la ordenada al origen b.

ECUACIÓN m b

y = 2x – 1 m = 2 b = -1

y = -x/3 + 11 m = - 1/3 b = 11

y = 2x /7 m = 2/7 b = 0

De tal manera que cuando se tiene un conjunto de datos tales que su grafica de

aproximadamente una recta, el primer paso es obtener su ecuación, para lo cual se requieren

los valores de la pendiente m y de la ordenada al origen b. a esa ecuación se le llama

ecuación de regresión, que significa algo así como “ecuación con la que se regresa a la

recta” y existen dos formulas que dan cada una respectivamente el valor de m el de b..

Dichas formulas son:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

102

(1)

m = n ΣΧY-ΣΧΣY

n ΣΧ2-(ΣΧ)

2

(2)

b = ΣΧ2ΣY-ΣΧΣΧY

n ΣΧ2-(ΣΧ)

2

Ejemplo 1: la relación entre el número de años (x) laborando para la empresa y el número

de ventas logradas (y) por cada vendedor es la mostrada en la siguiente tabla. ¿Cuántas

ventas pueden esperarse en un trabajador con 16 años de servicio? ¿Cuántos años,

aproximadamente se requieren para lograr 14 ventas?

Vendedor Años laborando

x

Ventas

y

Abel 3 2

Manuel 4 3

Luis 4 4

Gloria 5 4

Jorge 5 4

Eva 6 3

Roque 6 4

Pedro 7 4

Saúl 7 5

Daniel 7 6

Raúl 8 6

Flor 9 6

Teresa 9 7

Irma 10 7

Efraín 10 8

SOLUCIÓN: lo primero que debe encontrarse es la ecuación de regresión, es decir, la

ecuación de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.

Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de

esta tabla. El diagrama de dispersión correspondiente a dicha tabla se muestra en la figura

38.

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

103

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12

Figura 38

Puede apreciarse en el diagrama de dispersión que los puntos insinúan una recta, de la cual

se va a calcular su ecuación.

Para eso, conforme a la experiencia obtenida en el trabajo de capítulos anteriores, por

inspección de las formulas 1 y 2 de la página anterior, se puede establecer que se requiere

elaborar una tabla con cuatro columnas, de la siguiente forma:

La 1ª columna encabezada con X; la 2ª columna encabezada con Y; la 3ª columna

encabezada con XY y la 4ª columna encabezada con X2 de la siguiente manera:

X Y XY X2

Abel 3 2 6 9

Manuel 4 3 12 16

Luis 4 4 16 16

Gloria 5 4 20 25

Jorge 5 4 20 25

Eva 6 3 18 36

Roque 6 4 24 36

Pedro 7 4 28 49

Saúl 7 5 35 49

Daniel 7 6 42 49

Raúl 8 6 48 64

Flor 9 6 54 81

Teresa 9 7 63 81

Irma 10 7 70 100

Efraín 10 8 80 100

ΣΧ= 100 ΣY= 73 ΣΧY= 536 Σ X2= 736

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

104

De manera que utilizando la formula (1):

(1)

m = n ΣΧY-ΣΧΣY

n ΣΧ2-(ΣΧ)

2

m = (15)(536) - (100)(73)

(15)(736) - (100)2

m = 0.7115

Y utilizando la formula (2):

(2)

b = ΣΧ2ΣY-ΣΧΣΧY

n ΣΧ2-(ΣΧ)

2

b = (736)(73) - (100)(536)

(15)(736) - (100)2

b = 0.123

La ecuación de la recta buscada es

y = 0.7115x + 0.1230

Esta ecuación sirve para poder contestar las dos preguntas formuladas en el enunciado del

problema: ¿Cuántas ventas pueden esperarse en un trabajador con 16 años de servicio?

¿Cuántos años, aproximadamente se requieren para lograr 14 ventas?

Como en la ecuación anterior, x representa los años laborando y y las ventas, para la

primera pregunta se tiene como dato que x = 16, de manera que sustituyéndolo en la

ecuación de la recta, se obtiene:

y = 0.7115 (16) + 0.1230

y = 11507

Es decir, se pueden esperar aproximadamente entre once y doce ventas de un trabajador con

16 años laborando.

Para la segunda pregunta, se tiene como dato que y = 14, o sea 14 ventas, de manera que

sustituyendo en la ecuación de la recta, se obtiene:

14 = 0.7115x + 0.1230

x = 19.5

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

105

Significa que se requieren aproximadamente de diez y nueve a veinte años de servicio para

alcanzar 14 ventas.

Ejemplo 2: la relación entre el numero de semanas (x) de haber comenzado con un negocio

y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla.

¿Cuántas semanas pueden esperarse para que las pérdidas sean nulas?

X 1 2 3 4 5 6 7

Y 12.3 11 9 8 6 5.2 4

SOLUCIÓN: lo primero que debe encontrarse es la ecuación de regresión, es decir, la

ecuación de la recta que con mayor fidelidad une a todos los puntos de la tabla anterior.

Para darse una idea visual del trabajo que se va a realizar conviene graficar los puntos de

esta tabla. El diagrama de dispersión correspondiente a dicha tabla se muestra en la figura

38.

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7 8

Figura 40

Puede apreciarse en el diagrama de dispersión que los puntos insinúan una recta, de la cual

se va a calcular su ecuación.

Para eso, conforme a la experiencia obtenida en el trabajo de capítulos anteriores, por

inspección de las formulas 1 y 2, se puede establecer que se requiere elaborar una tabla con

cuatro columnas, de la siguiente forma:

La 1ª columna encabezada con X; la 2ª columna encabezada con Y; la 3ª columna

encabezada con XY y la 4ª columna encabezada con X2 de la siguiente manera:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

106

X Y XY X2

1 12.3 12.3 1

2 11 22 4

3 9 27 9

4 8 32 16

5 6 30 25

6 5.2 31.2 36

7 4 28 49

ΣΧ= 28 ΣY= 55.5 ΣΧY= 182.5 Σ X2= 140

De manera que utilizando la formula (1):

(1)

m = n ΣΧY-ΣΧΣY

n ΣΧ2-(ΣΧ)

2

m = (7)(182.5) - (28)(55.5)

(7)(140) - (28)2

m = -1.41

Y utilizando la formula (2):

(2)

b = ΣΧ2ΣY-ΣΧΣΧY

n ΣΧ2-(ΣΧ)

2

b = (140)(55.5) - (28)(182.5)

(7)(140) - (28)2

b = 13.57

La ecuación de la recta buscada es

y = -1.41x + 13.57

Esta ecuación sirve para poder contestar la pregunta formulada en el enunciado del

problema: ¿Cuántas semanas pueden esperarse para que las pérdidas sean nulas?

Como en la ecuación anterior, x representa el número de semanas de haber comenzado con

un negocio mientras que y las pérdidas registradas, para la pregunta se tiene como dato que

y = 0, de manera que sustituyéndolo en la ecuación de la recta, se obtiene:

0 = -1.41 + 13.57

x = 9.62

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

107

Es decir, se pueden esperar aproximadamente que entre la novena y la décima semanas las

perdidas desaparezcan.

CUESTIONARIO 22

1. Se realizó una encuesta en diversas familias para relacionar el numero de hijos

en la familia (X) con el porcentaje de gastos médicos realizados al mes (Y), la

cual se muestra en la siguiente tabla:

Hijos

X

% de gastos

Y

Familia Carranza 0 1%

Familia Corrales 1 4.6

Familia Benítez 1 4.7

Familia Dávila 1 5

Familia Méndez 1 5.1

Familia Obregón 2 8.9

Familia Reyes 2 9

Familia Jiménez 3 13

Familia Ballesteros 4 17.1

Familia Uribe 4 17.2

Familia Zavala 5 20.8

Familia Quiñones 5 21

Familia Ruiz 5 21.1

Familia Hernández 6 25

a) ¿Qué porcentaje de gastos médicos puede esperarse de una familia con 11

hijos?

b) Si una familia tiene un gasto aproximado del 40%, ¿cuántos hijos se espera

que tenga?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

108

2. Se realizó una encuesta en diversas familias para relacionar el numero de hijos

en la familia (X) con el porcentaje de gastos en ropa realizados al mes (Y), la

cual se muestra en la siguiente tabla:

Hijos

X

% de gastos

Y

Familia Calderón 1 1%

Familia Corrales 1 2

Familia Benítez 1 4.3

Familia Durango 1 4.5

Familia Mondragón 1 3.1

Familia Olvera 2 8.9

Familia Reyes 2 9

Familia Justiniani 3 14

Familia Balbuena 3 17.9

Familia Uribe 4 20

Familia Zavala 4 23

Familia Quiñones 4 26

Familia Rentería 5 31.1

Familia Hernández 5 30

Familia Ocaranza 6 37

a) ¿Qué porcentaje de gastos en ropa puede esperarse de una familia con 10

hijos?

b) Si una familia tiene un gasto aproximado del 51%, ¿cuántos hijos se espera

que tenga?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

109

3. Se realizó una encuesta en una fabrica para relacionar el numero de

enfermedades al año (X) de cada trabajador con el porcentaje de rendimiento en

el trabajo (Y), la cual se muestra en la siguiente tabla:

# de enfermedades

X

% de rendimiento

Y

Ismael Carranza Z. 0 100

José Benito Corrales Y. 0 96.6

Ramón Benítez F. 0 94.7

Marco Dávila G. 1 91

Estanislao Méndez M. 1 88.2

Juan Obregón L. 1 90

Jesús de la O. Reyes 2 82

Arturo Jiménez A. 2 79.1

Clemente Ballesteros H. 2 85.7

Dionisio Uribe Q. 3 73.2

Estanislao Zavala R. 3 73

Roberto Quiñónez D. 4 64

Rubén Ruiz de la T. 4 60.8

Fernando Hernández y H. 5 55

a) Si un trabajador tiene un rendimiento aproximado de 10%, ¿cuántas

enfermedades al año se espera que tenga?

b) ¿Qué porcentaje de rendimiento puede esperarse de un trabajador que se

enferme siete veces durante el año?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

110

4. Se realizó una encuesta en una fabrica para relacionar el numero de años de

experiencia de cada trabajador (X) con el porcentaje de eficiencia en el trabajo

(Y), la cual se muestra en la siguiente tabla:

Antigüedad

X

% de eficiencia

Y

Ismael Carranza Z. 0 50

José Benito Corrales Y. 0 53.6

Ramón Benítez F. 0 55.7

Marco Dávila G. 1 57

Estanislao Méndez M. 1 58

Juan Obregón L. 1 57

Jesús de la O. Reyes 2 60.5

Arturo Jiménez A. 2 61

Clemente Ballesteros H. 2 61

Dionisio Uribe Q. 3 65.2

Estanislao Zavala R. 3 68.1

Roberto Quiñónez D. 4 69.2

Rubén Ruiz de la T. 4 69

Fernando Hernández y H. 5 69

Francisco Ocaranza L. 5 73

a) ¿Qué porcentaje de rendimiento puede esperarse de un empleado con 7 años

de experiencia en el trabajo?

b) Si se desea que los trabajadores alcancen un rendimiento aproximado del

90%, ¿cuántos años de experiencia laboral debe esperarse que tengan?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

111

5. Se realizó una encuesta en una fábrica de combustible en 15 vehículos de la

misma marca y modelo, para relacionar la velocidad (X) en km/h con el gasto de

combustible (Y) en litros por kilómetro, la cual se muestra en la tabla siguiente:

Velocidad (km/h)

X

Consumo de combustible

Y

Vehículo 1 4.35 5

Vehículo 2 10 4.66

Vehículo 3 15 4.51

Vehículo 4 15 4.46

Vehículo 5 15 4.36

Vehículo 6 20 4

Vehículo 7 20 3.95

Vehículo 8 20 4.06

Vehículo 9 25 3.77

Vehículo 10 25 3.86

Vehículo 11 30 3.61

Vehículo 12 30 3.2

Vehículo 13 35 3.17

Vehículo 14 35 3.15

Vehículo 15 40 2.87

a) Si un vehículo gasta 1 litro por kilómetro, ¿A qué velocidad debe correr

aproximadamente para lograr ese consumo?

b) ¿Qué gasto de combustible puede esperarse de un vehículo cuando corra a

la velocidad de 40 km/h?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

112

6. Se realizó una encuesta en diferentes ciudades importantes de un país para

relacionar el grado de contaminación ambiental (X) en imecas con el porcentaje

de población afectado de las vías respiratorias (Y), la cual se muestra en la

siguiente tabla:

imecas

X

% de población afectada

Y

Población 1 45 2

Población 2 45 1.5

Población 3 50 4

Población 4 55 6

Población 5 65 9

Población 6 65 10

Población 7 70 11

Población 8 70 12

Población 9 70 13

Población 10 75 13

Población 11 80 16

Población 12 90 21

Población 13 95 22

Población 14 95 25

Población 15 100 24

Población 16 120 32

a) Si un vehículo alcanza 150 imecas, ¿Qué porcentaje de su población es de

esperarse que padezca de las vías respiratorias?

b) Si una población tiene el 60% de enfermos de las vías respiratorias, ¿Qué

grado de contaminación es de suponerse que tenga?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

113

7. Se realizó una encuesta en diferentes ciudades para relacionar el numero de

cigarros fumados al día por persona (X) con el porcentaje de habitantes

fumadores que adquirieron cáncer pulmonar (Y), la cual se muestra en la

siguiente tabla:

# de cigarros al día

X

% de fumadores que

adquirieron cáncer

pulmonar

Y

Población 1 2 15

Población 2 2 16

Población 3 3 17.5

Población 4 3 18

Población 5 3 18

Población 6 5 23.5

Población 7 5 24

Población 8 10 37.8

Población 9 10 38

Población 10 12 42

Población 11 12 43

Población 12 12 44

Población 13 15 52

Población 14 15 53

Población 15 20 66.5

Población 16 25 80

a) Si una persona fuma 8 cigarros al día, ¿Qué probabilidad aproximada tiene

de adquirir cáncer pulmonar?

b) Si una persona tiene el 95% de probabilidad de adquirir cáncer pulmonar,

¿Cuántos cigarros al día aproximadamente fuma?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

114

8. Se realizó una encuesta en diferentes hogares para relacionar el nivel economico

de las familias medido en numero de salarios mínimos de ingreso (X) con el

numero de kilos de basura diarios producidos al consumir comida chatarra (Y),

la cual se muestra en la siguiente tabla:

Ingreso en salarios

mínimos

X

# de kilos de basura al día

Y

Hogar 1 1 8

Hogar 2 1 8.5

Hogar 3 1.5 7

Hogar 4 1.5 6.5

Hogar 5 2 6

Hogar 6 2 5.8

Hogar 7 2 5.5

Hogar 8 2.5 5

Hogar 9 2.5 4.7

Hogar 10 3 3.6

Hogar 11 3 3.5

Hogar 12 3.5 2.5

Hogar 13 3.5 2.2

Hogar 14 4 2

Hogar 15 4 1.7

Hogar 16 4 1.5

a) Si una familia tiene un ingreso de 6 salarios mínimos, ¿cuántos kilos de

basura producidos por el consumo de comida chatarra es de esperarse que

tiren?

b) Si una familia produce 4 kilos diarios de basura de desperdicios de comida

chatarra, ¿de cuántos salarios mínimos de ingresos es de esperarse que sea

su nivel de vida?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

115

9. se sabe que las higuerillas crecen mejor en aguas contaminadas. Por lo tanto, se

realizó una encuesta en diferentes ríos con aguas contaminadas para relacionar el

numero de higuerillas (X) que crecen en sus riveras por cada 5 kilómetros, con el

grado de contaminación de las aguas (Y), la cual se muestra en la siguiente tabla:

# de higuerillas

X

Grado de contaminación

Y

Río 1 6 1

Río 2 11 2

Río 3 28 5

Río 4 30 5

Río 5 31 5

Río 6 48 8

Río 7 50 9

Río 8 60 10

Río 9 65 10

Río 10 88 15

Río 11 90 15

Río 12 90 16

Río 13 96 16

Río 14 115 20

Río 15 120 20

Río 16 180 31

a) Si en un río se localizan 225 higuerillas a lo largo de kilómetros, ¿qué

porcentaje de contaminación en sus aguas es de esperarse?

b) Para un río cuyas aguas estén contaminadas al 70%, ¿cuántas higuerillas

puede esperarse que se encuentren en su rivera por cada 5 km?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

116

10. Para determinar el posible rendimiento de cada jugador, se realizó una

encuesta para relacionar la edad del deportista (X) con el tiempo en minutos (Y)

que soporta antes de bajar su rendimiento por agotamiento, la cual se muestra en

la siguiente tabla:

edad

X

tiempo

Y

Jugador 1 15 100

Jugador 2 15 105

Jugador 3 16 98

Jugador 4 16 96

Jugador 5 17 93

Jugador 6 18 90

Jugador 7 19 85

Jugador 8 19 82

Jugador 9 20 82

Jugador 10 25 65

Jugador 11 25 70

Jugador 12 28 55

Jugador 13 30 50

Jugador 14 30 47

Jugador 15 35 30

Jugador 16 35 26

a) Si un jugador rinde 74 minutos, ¿qué edad es de esperarse que tenga?

b) Para un jugador de 32 años, ¿cuántos minutos de rendimiento pueden

esperarse?

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

117

COEFICIENTE DE CORRELACIÓN

Al hacer el diagrama de dispersión y trazar sobre él la recta perteneciente a la ecuación

obtenida, se nota que mientras algunos puntos pertenecen a la recta, es decir, están sobre

ella, por lo general la mayoría de los puntos quedan afuera de ella.

Si los puntos que quedan afuera están situados muy próximos a la recta, o sea hay poca

distancia entre la recta y cada punto, se dice que “hay poca dispersión”; a la inversa, si los

puntos que quedan afuera están situados distantes a la recta, o sea hay mucha distancia

entre la recta y cada punto, se dice que “hay mucha dispersión”.

Obviamente, cuando se hacen predicciones a partir de la recta obtenida, estas serán más

confiables mientras menos dispersión exista. Para tener un parámetro o medida de esa

dispersión se utiliza una formula que arroja ciertos resultados numéricos, los cuales tienen

el siguiente significado: si da igual a 1 quiere decir que todos los puntos están sobre la

recta; si da 0 quiere decir que la grafica no se parece en nada a una recta. Los valores

intermedios tienen el significado intermedio entre los dos extremos antes citados.

Dicha formula es:

r = n ΣΧY - ΣΧΣY

[n ΣΧ2- (ΣΧ)

2] [n ΣY

2- (ΣY)

2]

Puede verse que las sumatorias que se requieren son casi las mismas obtenidos en la

elaboración de la tabla para calcular la ecuación de regresión de la recta, es decir con esa

misma tabla puede obtenerse la pendiente m, la ordenada al origen b y el coeficiente de

correlación r, agregando solamente una columna más como se verá en el siguiente ejemplo.

Ejemplo 1: la relación entre el numero de semanas (x) de haber comenzado con un negocio

y las perdidas registradas (y) en tanto se aclientelaba es la mostrada en la siguiente tabla:

obtener su coeficiente de correlación.

X 1 2 3 4 5 6 7

Y 12.3 11 9 8 6 5.2 4

SOLUCIÓN: se requiere elaborar una tabla con cinco columnas, de la siguiente forma:

M.A. Eduardo Aguilera Oseguera

Profesor de la Facultad de Contaduría

y Ciencias Administrativas de la U.M.S.N.H.

118

La 1ª columna encabezada con X; la 2ª columna encabezada con Y; la 3ª columna

encabezada con XY; la 4ª columna encabezada con X2 y la 5ª columna encabezada con Y

2

de la siguiente manera:

X Y XY X2 Y

2

1 12.3 12.3 1 151.29

2 11 22 4 121

3 9 27 9 81

4 8 32 16 64

5 6 30 25 36

6 5.2 31.2 36 27.04

7 4 28 49 16

ΣΧ= 28 ΣY= 55.5 ΣΧY= 182.5 Σ X2= 140 Σ Y

2=496.3

3

Así que utilizando la fórmula del coeficiente de correlación

r = n ΣΧY - ΣΧΣY

[n ΣΧ2- (ΣΧ)

2] [n ΣY

2- (ΣY)

2]

Sustituyendo: r = 7(182.5) - (28)(55.5)

[7(140) - (28)2] [7(496.33) - (55.5)

2]

r = 1277.5 - 1554

(980 - 784)(3474.31 - 3080.25)

r = -276.5

77235.76

r = -0.9949

El valor obtenido es negativo porque la recta tiene pendiente negativa y además es un valor

muy cercano al 1, lo que significa que los puntos están realmente muy cercanos a la recta

calculada.