Download - clase 4 de bandis
Clase 4 /
El objetivo de la Estadística Descriptiva como se estableciera en la primera clase es presentar de
manera resumida la información contenida en un conjunto de datos. Esta finalidad se logra
presentando los datos en tablas, gráficos como se describiera en la clase dos. Otra manera de
resumir los datos es mediante medidas que proporcionan alguna información sobre diferentes
aspectos y características de la serie de datos. Estas medidas descriptivas se denominan en
general medidas de resumen y se pueden calcular a partir de los datos de una muestra o de los
datos de una población. Para distinguirlas entre sí se tienen las siguientes definiciones:
1. Una medida descriptiva calculada a partir de los datos de una muestra se llama estadística.
2. Una medida descriptiva calculada a partir de los datos de una población se llama parámetro.
Además se pueden considerar diferentes tipos de medidas de resumen. Entre ellas se tienen:
1. De posición: si la información que proveen se refiere a la ubicación (en el eje de las x) del
conjunto de datos y en particular si indican el lugar donde se encuentra el centro de la serie,
reciben el nombre de medidas de tendencia central.
2. De variabilidad o dispersión: es el caso en el que se trata de proporcionar una idea acerca
de la distribución de los datos.
3. De asimetría.
4. De kurtosis: se refiere al grado de concentración de los valores centrales.
MEDIDAS DE POSICIÓN:
Dentro de ellas se encuentran las medidas de tendencia central que se denominan así porque
indican la ubicación del centro del conjunto de datos. De acuerdo al criterio usado para determinar
el centro, las tres medidas de tendencia central de uso más frecuente son: la media aritmética, la
mediana y el modo.
A continuación se desarrollarán el concepto, características y forma de cálculo de cada una de
ellas.
Media aritmética:
Es la medida de tendencia central más conocida. La mayoría de la gente tiene en mente esta
medida cuando se habla de promedio. Se obtiene sumando todos los valores en una población o
muestra y se divide entre el número de valores sumados.
Para una población se la define como:
donde el símbolo significa que todos los valores para la variable se suman desde el primero
hasta el último. Este símbolo se conoce como signo de sumatoria. Los valores de la variable se
representan como:
donde el subíndice “ i “ varía de 1 a N, cantidad de datos de la población.
Para el caso de una muestra se expresa de la siguiente forma:
En este caso se tiene:
donde el subíndice “ i “ varía de 1 a n, cantidad de datos de la muestra.
Ejemplo:
Se tiene disponible una muestra que se compone de 10 (n =10) edades de pacientes que ingresan
a una sala de emergencia.
Entonces:
La media aritmética tiene las siguientes propiedades:
Es única. Para un conjunto de datos hay una y sólo una media aritmética.
Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
La suma de los desvíos es cero. Si se designa con la letra d a los diferencias entre cada
valor y la media se define el desvío como:
Se puede demostrar que:
Es sensible a los valores extremos. Como todos los valores del conjunto de datos se consideran en
el cálculo de la media, ésta resulta muy afectada por los valores extremos que influyen sobre la
misma y que en algunos casos pueden distorsionarla y por lo tanto no resulta una medida
apropiada de tendencia central.
Cálculo para una serie de frecuencias
Su fórmula de cálculo en series de frecuencias es:
donde:
En este caso el subíndice “ i “ varía de 1 a k, donde “k” indica la cantidad de clases de la serie de
frecuencias.
Ejemplo:
El siguiente ejemplo será desarrollado para el cálculo de todas las medidas (posición y dispersión)
a lo largo de esta clase.
Considere la siguiente tabla de frecuencias que muestra estaturas en metros de 100 pacientes que
ingresaron a una sala de emergencia en un período determinado.
La primera columna indica las clases, la segunda, los intervalos de clase, la tercera, el punto medio
o marca de clase, la cuarta columna indica la frecuencia, la quinta es una columna adicional
necesaria para el cálculo de la media y la sexta columna es la columna de las frecuencias
acumuladas que se utilizarán para el cálculo de la mediana.
En este caso el valor de la media se calcula entonces como:
Mediana:
Es aquel valor que divide al conjunto de datos ordenado en dos partes iguales, de forma tal que el
número de valores mayor o igual a la mediana es igual al número de valores menores o iguales a
ésta. Si el número de valores es impar, la mediana es el valor medio. Cuando el número de valores
en el conjunto de datos es par, entonces la mediana corresponde a la media aritmética de los dos
valores centrales. A continuación se ejemplifican estas dos situaciones que se pueden dar para
series simples de datos.
Ejemplo (n impar):
Calcular la mediana en la siguiente serie de datos que corresponde a edades de 7 pacientes:
: 23 , 12 , 14 , 21 , 7, 32 , 24
En primer término se ordenan los datos de la serie
7, 12, 14, 21, 23, 24, 32
Entonces la mediana que se denota ( o Mna o Md) va a ser igual en este caso a 21 años.
Md = 21años
Ejemplo (n par):
Calcular la mediana en la siguiente serie de datos que corresponde a edades de 6 pacientes
: 23 , 12 , 14 , 22 , 7, 26
En primer término se ordenan los datos de la serie
7, 12, 14, 22, 23, 26
Entonces la mediana en este caso va a ser la media aritmética entre los dos valores centrales (14 y
22).
Cálculo para una serie de frecuencias
Para obtener la mediana en una serie de frecuencia primero se debe ubicar la clase que contiene la
mediana. Para ello se procede de la siguiente manera: se establece el valor de y aquella clase
cuya frecuencia acumulada supera este valor constituye la clase de la mediana. Teniendo esto en
cuenta se aplica la siguiente fórmula de cálculo para series de frecuencias (no se realizará la
deducción de esta fórmula).
donde:
Ejemplo:
Utilizando el mismo ejemplo que se usó para el cálculo de la media para series de frecuencias,
primero se ubica la clase de la Mediana, esto es:
, entonces se observa la columna de las frecuencias acumuladas y se busca aquella clase que
supere el valor 50. Esto corresponde a la cuarta clase. Y ahora teniendo presente que esa es la
clase que contiene la Mediana, se aplica la fórmula y se procede de la siguiente manera.
Modo:
Es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, se dice que la
serie no tiene modo. Por otro lado, puede ocurrir que haya más de un modo.
El modo se puede utilizar para describir datos cualitativos. Por ejemplo, supongamos una serie de
pacientes de una clínica de salud mental que reciben los siguientes diagnósticos: retardo mental,
síndrome cerebral orgánico, psicosis, neurosis y trastornos de personalidad. Aquel diagnóstico que
ocurriera con mayor frecuencia en el grupo de pacientes se denominaría diagnóstico modal.
Ejemplo :
Calcular el modo en la siguiente serie de datos que corresponde a edades de 9 pacientes
: 23 , 12 , 14 , 21 , 7, 32 , 24, 21, 21
En este caso el Modo (que se denota como Mo o ) sería 21 años.
Mo = 21 años
Cálculo para una serie de frecuencias
Para su cálculo en series de frecuencia primero se debe ubicar la clase modal. La clase modal se
define como aquella clase con mayor frecuencia. Una vez obtenida la clase modal o la clase que
contiene el modo se aplica la siguiente fórmula de cálculo en series de frecuencias (su deducción
no se realizará).
donde:
Ejemplo:
Utilizando el mismo ejemplo ya tratado, se ubica primero la clase modal o aquella clase que
contiene el modo. Para ello se observa la columna de las frecuencias y aquella con la mayor
frecuencia es la clase modal. En este caso se trata de la cuarta clase. Se aplica entonces la fórmula
y se obtiene lo siguiente:
Otras medidas de posición pero no necesariamente de tendencia central lo constituyen los cuartiles,
deciles y percentiles. Estas medidas se explican en la Unidad 4 del Módulo de manera más
detallada.
MEDIDAS DE DISPERSIÓN:
La dispersión de un conjunto de observaciones se refiere a la variabilidad que muestran estos
valores. La magnitud de la dispersión es pequeña cuando los valores, aunque diferentes, son
cercanos entre sí. Si los valores están ampliamente esparcidos, la dispersión es mayor. Como
medidas de dispersión se tienen: la amplitud o rango, la varianza y la desviación estándar. Estas se
conocen como medidas de variabilidad absoluta. Como medida de variabilidad relativa se tiene el
coeficiente de variación. A continuación se explican estas medidas.
Rango o amplitud:
Esta medida de variación se define como la diferencia entre el valor mas grande y el valor más
pequeño de una serie de datos. Se la denota con la letra R.
Su utilidad es limitada ya que solamente depende de los valores extremos y se pueden tener dos
series de datos con el mismo rango pero diferente variabilidad ya que en el centro de la serie los
datos se comportan de diferente manera. Esta situación no es evidenciada por el rango. Su ventaja
reside en la simplicidad de su cálculo.
Ejemplo:
Se tiene disponible una muestra que se compone de 10 (n =10) edades de pacientes que ingresan
a una sala de emergencia.
12 , 28 , 74 , 15 , 3 , 16 , 7 , 58 , 8 , 45
Los datos ordenados son: 3 , 7 , 8 , 12 , 15 , 16 , 28 , 45 , 58 , 74
Por lo tanto el rango está dado por:
Cálculo para una serie de frecuencias
Ejemplo:
Utilizando el ejemplo ya considerado de las estaturas de pacientes se tiene:
Varianza:
Cuando los valores de un grupo de datos se encuentran ubicados cerca de la media, la dispersión
es menor que cuando están más dispersos. Esta idea permite considerar una medida de dispersión
que tenga en cuenta la variabilidad alrededor de la media. Esta medida se conoce como varianza o
variancia. Para calcularla se resta la media de cada uno de los valores individuales y a estas
diferencias se elevan al cuadrado y se suman. Luego a esta suma se divide por la cantidad de
datos.
Se hace la distinción según se calcule la variancia en la población o en la muestra (de manera
similar a como se procedió con la media aritmética)
En la población se tiene:
En la muestra este cálculo se realiza de la siguiente manera:
El denominador en este caso es (n-1) y no n como se podría pensar. La razón de este denominador
no está al alcance de este módulo, solamente se dice que de esta manera S2 calculado en la
muestra estima mejor al verdadero valor de la población.
Ejemplo: Se considera el mismo ejemplo donde se calculó la media Se recuerda que en el mismo
se obtuvo . Se construye la siguiente tabla con las columnas auxiliares necesarias
para el cálculo de la varianza.
Entonces:
Cálculo para una serie de frecuencias
donde:
Ejemplo:
Para poder calcular la varianza (y posteriormente) la desviación estándar se agregarán columnas a
la tabla del ejemplo de series de frecuencias utilizado para el cálculo de las medidas de tendencia
central anteriormente presentada.
Se recuerda que el valor de la media aritmética ya obtenido fue de 1.477. Al aplicar entonces la
fórmula utilizando los cálculos intermedios que se observan en la tabla se tiene:
Para la primera fila de esta tabla se tendrían los siguientes cálculos que se repiten para las
restantes filas:
Desviación estándar:
Es solamente la raíz cuadrada de la variancia con lo cual las unidades vuelven a ser las originales.
Para una serie simple de cálculos se tiene:
Ejemplo:
Para la serie simple ya trabajada para el cálculo de la variancia se tiene:
Se observa que las unidades en las que se expresa la desviación estándar son las unidades
originales de la variable (años, en este caso en particular)
Cálculo para una serie de frecuencias
Ejemplo:
Para la serie de frecuencias considerada la desviación estándar estará dada por:
Coeficiente de variación:
Se denota como C.V. La desviación estándar es útil como medida de dispersión pero cuando se
quiere comparar la dispersión de dos conjuntos de datos, la comparación de las dos desviaciones
estándar puede dar resultados equivocados. Esto ocurre si las dos variables involucradas tienen
medidas en diferentes unidades (por ejemplo si se comparan estatura y peso) o si utilizando las
mismas unidades de medición, las dos medias pueden ser diferentes (por ejemplo si se comparan
pesos de niños y de adultos). En estos casos se necesita de una medida que expresa la desviación
estándar como porcentaje de la media. La fórmula es como sigue:
Se observa que la desviación estándar y la media se expresan en las mismas unidades y por lo
tanto se obtiene una medida adimensional que al multiplicarla por cien nos da la medida en
porcentaje.
Veamos el siguiente ejemplo:
Si se comparan las desviaciones estándar de las dos muestras referida a los pesos, parecería
indicar que presentan ambas muestras la misma variabilidad. Pero si se calculan los C.V. para
ambas muestras se obtiene