antologia - estadística descriptiva - lae.pdf

16
CENTRO DE ESTUDIOS VERACRUZ Estadística Descriptiva Administración de Empresas Félix Flores Olivares

Upload: felix-flores-olivares

Post on 08-Feb-2016

51 views

Category:

Documents


10 download

TRANSCRIPT

CENTRO DE ESTUDIOS VERACRUZ

Estadística Descriptiva Administración de Empresas

Félix Flores Olivares

Estadística Descriptiva

CEV – Félix Flores Olivares Página 2

ESTADÍSTICA DESCRIPTIVA

La estadística descriptiva es la rama de las Matemáticas que recolecta, presenta y caracteriza un

conjunto de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela,

temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas

características de ese conjunto.

POBLACIÓN

Es el conjunto de personas u objetos que poseen ciertas características comunes, las cueles deben

ser claramente definidas de tal manera que sea posible identificar con precisión si un elemento

pertenece o no a la población; para ello, la delimitación en tiempo y espacio ayudara a precisar la

población.

A cada integrante que conforma una población se le denomina elemento.

Los elementos no solo son tangibles o materiales; por ejemplo un conjunto de dialecto,

“Zapoteco” es el elemento.

La población es finita cuando incluye un número limitado de elementos. Siempre que sea posible

contar el número total de elementos se considera finita la población.

Ejemplo: Población de una ciudad, niños en una escuela, población de aves.

La población infinita incluye un gran número de elementos que no pueden contarse en su

totalidad.

Ejemplo: La cantidad de estrellas del Universo, cantidad de granos de arena del mar

MUESTRA

Es la parte o subconjunto de elementos de una población.

PARÁMETRO Y ESTADÍSTICO

Todo valor numérico que describa a una población recibe el nombre de parámetro; si se refiere a

una muestra recibe el nombre de estadístico.

Ejemplo: El coeficiente intelectual promedio de todos los estudiantes de quinto de

bachillerato en Veracruz es un parámetro; pero si dicho promedio se obtiene de una

muestra es estadístico.

VARIABLE

Es una característica que puede tener distintos valores, a medida que se observa en los diferentes

elementos de una población.

Estadística Descriptiva

CEV – Félix Flores Olivares Página 3

DATO

Es el valor de la variable asociado a un elemento de una población o una muestra.

EXPERIMENTO

Es la actividad realizada, según un plan definido, cuyos resultados producen un conjunto de datos.

Es el método, así como la manera de cavar información.

VARIABLES CUANTITATIVAS Y CUALITATIVAS

CUALITATIVAS

En una variable cualitativa sus valores o categorías nos permiten clasificar los elementos de la

población y contabilizar el número de veces que se presentan por categoría. Pueden ser

nominales u ordinales.

Es un ejemplo de valores hombre y mujer no tiene por sí mismo un criterio para establecer

un orden entre ellos, su escala es nominal.

En un variable grado máximo (lista opcional), la escala de medición se llama ordinal.

CUANTITATIVAS

Variables cuantitativas continuas. Cuando entre dos valores se puede tomar cualquiera de los

infinitos comprendidos entre ellos. Ejemplo la estatura 1.70cm 1.75cm 1.80cm

Variables cuantitativas discretas. Aquella cuya medición solo puede expresarse en números

enteros, porque entre dos valores consecutivos no puede haber ninguno intermedio.

En una variable cuantitativa podemos encontrar dos tipos de escalas de medición: de intervalo y

de razón.

ENCUESTAS

Las encuestas se pueden realizar sobre el total de la población o sobre una parte representativa de

la misma que llamaremos muestra. Una encuesta realizada al total de la población es el Censo

referido al 31 de marzo de los anos terminados en 1 en el que se recoge información sobre todos

los censados en cada uno de los municipios disponiendo de una base de datos el Instituto Nacional

de Estadística para estudios posteriores de la población, a que estos datos se van actualizando y

poniendo al día para saber en cada momento la situación del país.

Exceptuado estos estudios a toda la población, las encuestas se suelen realizar sobre una muestra

representativa. Diversos motivos inducen a tomar muestras de las poblaciones, entre las que cabe

destacar:

Estadística Descriptiva

CEV – Félix Flores Olivares Página 4

Cuando la población es muy grande.

Por motivo económicos.

Por falta de personal adecuado.

Por motivo de calidad de los resultados.

Por mayor rapidez en recoger los datos y presentar los resultados.

No obstante también se presentan unas limitaciones a la toma de muestras representativas, que

se pueden resumir en:

Cuando se necesita información de todos los elementos de la población.

Cuando no se domina la técnica de muestreo.

Cuando la población es muy pequeñina.

Cuando se toma información de todos y cada uno de los elementos de la población de interés, se

está realizando un censo. Tomar información de un muestra, se denomina muestreo.

ORDENAMIENTO DE DATOS

Muchas veces uno se pregunta, ¿para qué sirven las encuestas que a veces se hacen en la calle?,

¿Cómo saber si una estación de radio se escucha más que otra? , ¿Cuál candidato puede ganar? La

respuesta se comienza con la recaudación de datos.

Los datos son información que se recoge, esto puede ser opinión de las personas sobre un tema,

edad o sexo de encuestados, dónde viven, cuántas personas viven en una casa, qué tipo de sangre

tiene un grupo de personas, etc.

Hay datos que pueden ser de mucha utilidad a diferentes profesionales en la toma de decisiones,

para resolver problemas o para mostrar resultados de investigaciones. Una vez que se haya

Estadística Descriptiva

CEV – Félix Flores Olivares Página 5

recogido toda la información, se procede a crear una base de datos, donde se registran todos los

datos obtenidos.

REPRESENTACIÓN GRAFICA

TABLA DE FRECUENCIA

Toda la información recopilada se llama dato. La información puede ser la opinión de una persona

encuestada, gustos, edad, sexo, el lugar donde viven, etc.

Una vez acopiado la información, se crea una base de datos donde estos se registran, se manipula

la información y agrupa, llegando a lo que en estadística llamamos tabla de frecuencia.

Frecuencia Absoluta y Frecuencia Relativa

Frecuencia absoluta es la cantidad de datos que integran cada una de las clases, o que son las

repeticiones que encontramos dentro de una misma clase.

Frecuencia relativa es la cantidad de repeticiones obtenidas para cada clase, en relación con el

total de las observaciones. Las frecuencias relativas son un porcentaje, ya que relacionan una parte

del conjunto con el total.

EJ. Se realizo una encuesta a 10 jóvenes de 15 años para saber que animal tienen en su casa y

estos fueron los resultados:

Animal que tienen en su casa Frecuencia (f) Frecuencia Relativa

Perro 4 4/10 = 0.4

Gato 2 2/10 = 0.2

Pez 1 1/10 = 0.1

Ninguno 3 3/10 = 0.3

Total 10 1

Frecuencia Acumulada y Relativa Acumulada

Este concepto es aplicable solamente para datos cuantitativos. La frecuencia acumulada es aquella

que acumula frecuencias hasta un determinado valor de la variable.

Sumando la frecuencia de todos los valores inferiores de un límite fijado obtenemos la frecuencia

relativa acumulada hasta ese valor.

Frecuencia de Variables Agrupada en Intervalo

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces,

entonces conviene agruparlos por intervalos.

Estadística Descriptiva

CEV – Félix Flores Olivares Página 6

Debemos entender por recorrido o rango la diferencia entre el dato mayor y el dato menor en los

valores observados de la variable en estudio: por ejemplo el dato menor de una muestra es 63 y

el mayor es 128 el recorrido es:

Recorrido = 128-63=65 Amplitud del intervalo = Rango/Números de Intervalos Deseados

EJERCICIO

Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34,

33, 33, 29, 29.

Construir la tabla de frecuencias

Temperatura Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Acumulada

Frecuencia Relativa Acumulada

27

28

29 6

30

31 0.258

32

33

34 31 1

31 1

Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:

[50 - 60] [60 - 70] [70 - 80] [80 - 90] [90 - 100] [100 - 110] [110 - 120]

Peso 8 10 16 14 10 5 2

Rango Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Acumulada

Frecuencia Relativa Acumulada

[51 - 60] 8

[61 - 70] 10

[71 - 80] 16

[81 - 90] 14 0.22

[91 - 100] 10

[101 - 110] 5

[111 - 120] 2 65 0.99

65

Estadística Descriptiva

CEV – Félix Flores Olivares Página 7

Los datos a continuación representan los tiempos, en minutos, que les tomó a un grupo de

personas contestar una prueba estandarizada.

Obtener el Recorrido tomando en cuenta el dato menor como 15 y el mayor 35

Obtener la amplitud del intervalo de 5

Elaborar una tabla de frecuencias que contenga, frecuencia absoluta, frecuencia relativa,

frecuencia acumulada y frecuencia relativa acumulada.

Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen

3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13, 22, 27,

47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

Obtener el Recorrido

Obtener la amplitud del intervalo de 10

Elaborar una tabla de frecuencias que contenga, frecuencia absoluta, frecuencia relativa,

frecuencia acumulada y frecuencia relativa acumulada.

HISTOGRAMA

Un histograma es una representación gráfica de una variable en forma de barras.

Estadística Descriptiva

CEV – Félix Flores Olivares Página 8

MEDIDAS DE TENDENCIA CENTRAL

Cuando queremos sintetizar un grupo de datos de una población o muestra necesitamos señalas al

menos como se concentran los valores y como se dispersan, para ello requerimos las medidas de

tendencia central.

Las medidas de tendencia central son llamadas así porque tienden a localizarse en el centro de la

información (de ahí que también se les conoce como medidas de posición).

Las principales medidas de tendencia central son:

Media

Mediana

Moda

CALCULO DE MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS

MEDIA

Es la Medida de Tendencia Central más utilizada. La media de un conjunto de valores es igual a la

suma de dichos valores dividido entre el numero de ellos. El símbolo que utilizaremos para

representarla será 𝑋 (equis barra).

𝑋 = 𝑋

𝑛

Se toma el registro sobre el numero de cigarros que fuma un señor en una semana y se obtienen

los siguientes datos: 4, 3, 5, 6, 4, 3, 5. El primer dato corresponde al lunes, el segundo al martes y

así sucesivamente.

𝑋 = 𝑋

𝑛=

4 + 3 + 5 + 6 + 4 + 3 + 5

7=

30

7= 4.2 𝑐𝑖𝑔𝑎𝑟𝑟𝑜𝑠

Tomando en contexto la situación, significa que el seños fuma en promedio 4.2 cigarros al día.

Calculo de la Media para Datos Organizados

Un grupo de 50 bailarinas se presento a un casting para una comedia musical, registrando las

siguientes edades.

Estadística Descriptiva

CEV – Félix Flores Olivares Página 9

Aplicando la formula de la media tenemos:

𝑋 = 𝑋

𝑛=

21 + 19 + +22 + 19 + 18 + 20 + …+ 17

50=

1008

50= 20.1

Si observamos con atención los datos nos daremos cuenta que el primer valor 21 se repite 12

veces y el 19 se repite 16, lo cual simplificaremos los cálculos gracias a la relación entre la suma y

la multiplicación organizando los datos de la siguiente forma:

𝑋 = 1 17 + 3 18 + 16 19 + 10 20 + 12 21 + 5 22 + 1 23 + 2 24

50=

1008

50= 20.1

Así, la fórmula para calcular la media sufre algunas modificaciones:

𝑋 = 𝑓𝑋

𝑛

Los números también son sensibles

Como se ha dicho, la Media o Promedio es una de las medidas más utilizadas, pero tiene una

desventaja: es muy sensible a los valores extremos. Veamos el siguiente ejemplo:

Supongamos que 19 trabajadores de una empresa perciben un sueldo quincenal de $2,000.00,

mientras que el gerente general tiene un sueldo de $22,000.00. Si obtenemos la media de los

sueldos quincenales de estos 20 trabajadores – incluyendo al gerente general – se obtiene lo

siguiente:

𝑋 = 19 2,000 + 1(22,000)

20=

38,000 + 22,000

20=

60,000

20= 3,000 𝑝𝑒𝑠𝑜𝑠

Interpretando, diríamos que el salario quincenal promedio de estos trabajadores es de $3,000.00,

lo cual no es representativo de la mayoría de los salarios, esta cantidad es engañoso.

Cuando la variable incluye valores muy dispares o extremos, la media pierde representatividad, en

estos casos es más conveniente utilizar la mediana.

MEDIANA

Es el valor que divide al grupo de datos en dos partes iguales, 50% por debajo de él y el otro 50%

por arriba del mismo.

Para encontrar la mediana, para la cual utilizaremos el símbolo Me, se procede de la siguiente

manera:

1. Se ordenan los datos de menor a mayor

2. Identificamos el valor que se ubique justo en medio de los datos. Aquí se pueden

presentar dos casos

a) Cuando el número de n es impar, la mediana queda precisamente en medio de ellos.

Estadística Descriptiva

CEV – Félix Flores Olivares Página 10

b) Cuando es par, la median es el promedio de los dos valores centrales.

Hallemos la mediana de los siguientes valores, los cuales representan las calificaciones de 5

estudiantes en una prueba.

3.9 7.7 5.1 8.1 7.8

3.9 5.1 7.7 7.8 8.1

Veamos el siguiente ejemplo donde n es par.

6 8 10 7 9 9

6 7 8 9 9 10

𝑀𝑒 = 8 + 9

2=

17

2= 8.5

Existe una fórmula para conocer la posición de la mediana, la cual es muy útil especialmente

cuando el número de datos n es muy grande.

La formula es la siguiente:

𝑃𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑃𝑀𝑒 = 𝑛 + 1

2, 𝑟𝑒𝑐𝑜𝑟𝑑𝑎𝑛𝑑𝑜 𝑞𝑢𝑒 𝑛 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

Se ha entregado a un grupo de 15 adultos una lista de 100 palabras y se le ha pedido a cada uno

de ellos que recuerde el mayor número de palabras posibles, obteniendo los siguientes valores:

7 3 9 5 4 6 5 7 8 11 10 7 4

6 8

Ordenemos los datos mediante el auxilio de la siguiente tabla:

Posición o lugar Palabras recordadas

1 3

2 4

3 4

4 5

5 5

6 6

7 6

8 7

9 7

10 7

11 8

12 8

Estadística Descriptiva

CEV – Félix Flores Olivares Página 11

13 9

14 10

15 11

Aplicando la fórmula para conocer la posición de la mediana y recordando que n = 15 se tiene que:

𝑃𝑀𝑒 = 15 + 1

2= 8

Lo cual significa que la mediana ocupa el octavo lugar, por lo tanto, Me = 7 palabras.

Cuando se presentan los datos ya organizados en una tabla de frecuencia simple, la formula

anterior adquiere mayor relevancia en cuanto a su utilidad.

La siguiente figura se presenta las calificaciones de un examen de Taller de Lectura y Redacción de

un grupo de alumnos de bachillerato, indicando las siguientes frecuencias.

Calificación (X) Número de Alumnos (f)

3 2

4 3

5 3

6 5

7 17

8 9

9 5

10 3

Total n = 47

Para proceder a ubicar la posición de la mediana, necesitamos agregar la columna de frecuencias

acumuladas, quedando la tabla anterior así:

Calificación (X) Número de Alumnos (f) fa

3 2 2

4 3 5

5 3 8

6 5 13

7 17 30

8 9 39

9 5 44

10 3 47

Total n = 47

𝑃𝑀𝑒 = 47 + 1

2= 24

Estadística Descriptiva

CEV – Félix Flores Olivares Página 12

Lo anterior indica que la mediana se encuentra en el lugar 24. Para hallar el valor ubicamos en la

tercera columna: la primera fila, fa=2, significa que las dos primeras calificaciones son iguales a 3,

la segunda fila, fa=5, significa que del tercero al quinto datos las calificaciones son iguales a 4 y así

sucesivamente hasta llegar a la posición de la mediana, la cual es Me=7.

MODA

Es el dato o valor de la variable que ocurre con mayor frecuencia. El símbolo que utilizaremos es

Mo.

CALCULO DE MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS

Recuerda que cuando hablamos de datos agrupados nos referimos a que están distribuidos en

intervalos de clase.

MARCA DE CLASE

Se llama marca de clase de un intervalo al valor que está justo en medio del mismo y se obtiene

promediando los límites del intervalo, es decir, sumándolos y dividiendo el resultado entre dos.

𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = 𝑀𝐶 = 𝐿𝐼 + 𝐿𝑆

2

Donde: LI = Limite inferior LS= Limite superior Así, la marca de clase del intervalo 11-20 es:

𝑀𝐶 = 11 + 20

2= 15.5

LIMITES REALES Se llaman límites reales a los que obtiene de restar y sumar medida unidad a los límites inferiores y superiores del intervalo, respectivamente. Limite real inferior = LRI = 11 – 0.5 = 10.5 Limite real superior = LRS = 20 + 0.5 = 20.5 AMPLITUD O ANCHURA Al tamaño del intervalo de le denomina amplitud o anchura del intervalo y se calcula obteniendo la diferencia entre los limites reales del intervalo. La amplitud del intervalo 11 – 20 es: a = 20.5 – 10.5 = 10

Estadística Descriptiva

CEV – Félix Flores Olivares Página 13

MEDIA

𝑋 = 𝑓𝑋

𝑛

MEDIANA

El procedimiento para calcular la mediana cuando los datos están agrupados es el siguiente:

1. Se identifica el intervalo que contiene al valor de la mediana, para ello debemos conocer

qué lugar ocupa:

𝑃𝑀𝑒 = 𝑛

2

2. Se calcula la frecuencia acumulada fa correspondiente al intervalo inmediato inferior al

que contiene a la mediana.

3. Se identifica la frecuencia absoluta f del intervalo que contiene a la mediana.

4. Se mide la amplitud o anchura a del intervalo que contiene a la mediana.

5. Se identifica el limite real inferior L del intervalo que contiene a la mediana.

𝑀𝑒 = 𝐿 +

𝑛2− 𝑓𝑎

𝑓 (𝑎)

MODA

Para obtener ese valor cuando tenemos los datos agrupados en intervalos, nos fijamos en el

intervalo que tenga la frecuencia más alta, la moda será la marca de clase de ese intervalo.

MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Las medidas de dispersión, también llamadas de variabilidad, indican ciertos aspectos del conjunto

de datos que no nos los dicen las medidas de tendencia central; por lo tanto, una descripción mas

completa de la naturaleza de un conjunto de datos se obtiene cuando se utilizan tanto las medidas

de tendencia central como las de variabilidad o dispersión.

Una variación o dispersión pequeña indica un alto grado de homogeneidad en los datos, mientras

que una variación grande indica poca homogeneidad.

Por ejemplo, si en una fábrica que se dedica a producir tornillos se encontraran una alta variación

de los diámetros de los mismos, esto causara un alto porcentaje de productos defectuosos. Por

otro lado si se tratara de elegir entre varios aspirantes a ocupar el puesto de contador y el examen

arrojara poca variación en los puntajes, la decisión se tornara difícil al tener una población

relativamente homogénea de aspirantes.

Existen varias medidas de variabilidad, las que nosotros abordaremos son:

Estadística Descriptiva

CEV – Félix Flores Olivares Página 14

Varianza

Desviación típica DESVIACIÓN TÍPICA Es la medida de variabilidad mas adecuada por sus propiedades algebraicas, se le conoce también como desviación estándar. La desviación típica es una medida de la variación de los valores con respecto a la media. Es una especie de desviación promedio con respecto a la media. La desviación típica se calcula con la siguiente fórmula:

𝑠 = (𝑋 − 𝑋 )2

𝑛

ó

𝑠 = 𝑓(𝑋 − 𝑋 )2

𝑛

VARIANZA La varianza es una medida de variabilidad que se obtienen elevando al cuadrado la desviación estándar.

𝑠2

MEDIDAS DE POSICIÓN

Son indicadores estadísticos que muestran la frecuencia acumulada hasta un valor k cualquiera. PERCENTILES Los percentiles representan los valores de la variable que están por debajo de un porcentaje, el cual puede ser una valor de 1% a 100% (en otras palabras, el total de los datos es divido en 100 partes iguales). La notación empleada será:

𝑃𝑘 Donde k es equivalente al porcentaje de datos acumulados, y 𝑃𝑘 es el valor de la variable que representa dicho porcentaje. Por ejemplo, 𝑃5 es el valor de la variable que deja por debajo el 5% de los datos. 𝑃78 será entonces el valor que agrupa el 78% de los datos.

Estadística Descriptiva

CEV – Félix Flores Olivares Página 15

Así, si en un grupo de personas el percentil 70 de las estaturas es de 1.73 metros; esto significa que lo a sumo el 70% de las personas es más baja que 1,73 y que lo a sumo el 30% es más alta que 1.73 El cálculo percentil es diferente, según los datos estén sin agrupar o agrupados. Calculo percentil para datos sin agrupar: Ejemplo 1. Al medir las estaturas de 9 personas, se encuentran los siguientes resultados: 1.83, 1.72, 1.76, 1.62, 1.56, 1.78, 1.60, 1.66 y 1.58. Encuentre el percentil 30.

1.56, 1.58, 1.60, 162, 166, 1.72, 1.76, 1.78, 1,83 Ejemplo 2. Al tomar a 20 alumnos un examen de Matemáticas, las calificaciones fueron: 54, 21, 34, 78, 93, 45, 66, 38, 50, 87, 63, 88, 31, 62, 96. 80, 71, 59, 35 y 42. Hallar el percentil 60 de las calificaciones obtenidas.

21, 31, 34, 35, 38, 42, 45, 50, 54, 59, 62, 63, 66, 71, 78, 80, 87, 88, 93, 96 Calculo percentil para datos agrupados Ejemplo 1. Determinar el percentil 40 y el percentil 75, en la siguiente distribución de frecuencias:

Clase 10-19 20-29 30-39 40-49 50-59 60-69 70-79

Frecuencia 12 26 55 61 40 28 4

Limites Reales

<19.5 <29.5 <39.5 <49.5 <59.5 <69.5 <79.5

Frecuencia Acumulada

12 38 93 154 194 222 226

Existen 226 datos y se quiere encontrar el “Percentil 40”; por tanto, hay que calcular el 40% de 226, que resulta ser 90.4

Estadística Descriptiva

CEV – Félix Flores Olivares Página 16

El intervalo donde cae 𝑃40 es el tercero, pues en él en donde se alcanza esta frecuencia acumulada de 38 y termina con una de 93.

𝑃𝑘 = 𝐿 +

𝑛𝑘100

− 𝑓𝑎

𝑓 (𝑎)

Aplicando la formula anterior obtenemos como resultado 39.03 que significa que el 40% de ellos es menor que el valor 39.03 y el 60% restante es mayor que 39.03. Al hallar el percentil de 75 nos da como resultado 53.38