indices descriptivos y n=1
DESCRIPTION
Chavez y Tron - Metodología de la investigación. Capítulo: Indices descriptivos.TRANSCRIPT
-
CAPTULO 5
Aprendiendo a definir, aplicar e interpretar las
medidas descriptivas en Psicologa
Rocio Tron lvarez
Margarita Chvez Becerra
Un criterio que frecuentemente es utilizado para evaluar los hallazgos de las
investigaciones aplicadas es el criterio estadstico, el cual recurre a conceptos y
procedimientos estadsticos con la finalidad de conocer el comportamiento de la
o las variables de inters.
Estos procedimientos estadsticos pertenecen a las denominadas estadstica
descriptiva y estadstica inferencial. El anlisis de los datos a nivel descriptivo
incluye una serie de conceptos y procedimientos que permiten clasificar,
representar, resumir y describir el comportamiento de las variables objeto de
estudio.
Entre otros procedimientos, los mtodos estadsticos descriptivos ms utilizados
comprenden la organizacin, representacin y descripcin de datos a travs de
tablas, grficas, medidas o ndices de tendencia central y de dispersin. Estos
mtodos son el contenido clsico de la literatura dedicada al estudio de la
estadstica aplicada en cualquier rea de conocimiento, adems los ndices de
tendencia central y de dispersin son las medidas cuantitativas bsicas para la
comprensin y aplicacin de anlisis estadsticos ms avanzados.
Bajo estas consideraciones, el propsito del presente captulo se centra en la
exposicin, aplicacin, clculo e interpretacin de las medidas o ndices de
tendencia central y dispersin.
-
Medidas de tendencia central
Las medidas de tendencia central son los ndices estadsticos descriptivos ms
comunes, y se definen como aquellas medidas que resumen un conjunto de
datos en un valor numrico, lo que permite conocer la concentracin de los datos
en torno a un valor central. Las medidas de tendencia central ms usuales son
la moda, la mediana y la media.
La moda es la nica medida que se puede obtener con datos en cualquier escala
de medicin, para la mediana los datos deben de ser cuando menos ordinales y
finalmente, la media requiere que los datos sean numricos, es decir, que se
encuentren en escala de intervalo o de razn.
La moda
La moda (Mo) es la medida de tendencia central ms fcil de obtener y se define
como la categora o puntuacin que se repite un mayor nmero de veces, o bien
en otras palabras que se presenta con mayor frecuencia. La moda se puede
obtener por simple inspeccin, como se har evidente por medio de los ejemplos
que aqu se presentan.
A continuacin se muestra la forma de obtener la moda cuando los datos se
expresan en diferentes niveles de medicin (nominal, ordinal o de
intervalo/razn) y en diferentes formas de presentacin de los datos, ya sea un
conjunto de datos ordenados por su magnitud, una distribucin de frecuencia
simple o bien una distribucin de datos agrupados. Cada uno de los siguientes
ejemplos se acompaa de su representacin grfica mostrando el valor de la
moda.
La moda cuando los datos son nominales
Considrense los siguientes problemas por los que asisti un grupo de 100 nios
a la clnica universitaria de la salud (ver tabla 5.1).
-
Con estos datos se identifica la categora que se repite un mayor nmero de
veces (mayor frecuencia), la que corresponde a la categora de problemas de
conducta, por lo que Mo problemas de conducta (ver figura 5.1).
Figura 5.1. Tipo de problema por el que 100 nios asistieron
a la clnica universitaria.
La moda cuando los datos son ordinales
Un grupo de 120 personas de la tercera edad, califican el servicio de atencin de
las clnicas del ISSSTE de la siguiente forma (ver tabla 5.2).
Tabla 5.1. Tipo de problema
Categoras f
Problemas auditivos 10
Problemas de lenguaje 20
Problemas de conducta 40
Problemas visuales 15
Problemas de lecto-escritura 15
100n
0
10
20
30
40
Auditivos Conducta Lecto-escritura
f
Tipo de problema
Mo
Moda
-
Con mayor frecuencia las personas de la tercera edad califican el servicio de
atencin como malo, siendo esta categora la que asume el valor de la moda
Mo Malo (ver figura 5.2).
Figura 5.2. Calificacin al servicio de atencin que se proporciona
en las clnicas del ISSSTE.
La moda cuando los datos son numricos (escala de intervalo o de
razn)
Un conjunto de datos ordenados por su magnitud
Considrese la serie de datos ordenados de menor a mayor (ver figura 5.3).
Tabla 5.2. Calidad de la atencin
Calidad de la atencin f
Psimo 15
Malo 63
Regular 30
Bueno 10
Muy bueno 2
120n
0
10
20
30
40
50
60
70
Psimo Malo Regular Bueno Muy bueno
f
Calificacin
Mo
Moda
-
Figura 5.3. Horas de estudio extra clase a la semana de ocho
estudiantes universitarios a finales de semestre.
La moda para este grupo de estudiantes es de 10 horas de estudio, por ser la
puntuacin que se repite un mayor nmero de veces (Mo = 10). Cabe aclarar
que la moda es el valor que se repite un mayor nmero de veces o el ms
frecuente, y no la frecuencia de esta puntuacin (3 veces se presenta el valor
10).
Por otra parte existen situaciones en las que: a) dos puntuaciones adyacentes
comparten la frecuencia mayor, b) dos puntuaciones no adyacentes tienen la
mayor de las frecuencias, c) cuando existen tres o ms puntuaciones no
adyacentes que comparten la frecuencia mayor y d) todas las puntuaciones
tienen la misma frecuencia.
a) En el caso en el que dos puntuaciones adyacentes comparten la frecuencia
mayor, la moda es el promedio de las dos puntuaciones (ver figura 5.4).
Figura 5.4. Horas de estudio de trece estudiantes.
La moda para este conjunto de observaciones es 10, dado que 9 ms 11 igual a
20, dividido entre dos es igual a 10: 9 11 20 / 2 10 , 10Mo horas de estudio
b) Cuando dos puntuaciones no adyacentes comparten la frecuencia mayor se
dice que existen dos modas y se denomina a ese conjunto de datos como
bimodal (ver figura 5.5).
5 7 8 8 9 9 9 11 11 11 13 14 16
5 5 9 10 10 10 11 14
-
Figura 5.5. Horas de estudio de once estudiantes.
En este caso la moda es 6 y 10 (bimodal); ya que ambas aparecen con una
frecuencia de dos, 6 10Mo y horas de estudio (ver figura 5.6).
Figura 5.6. Horas de estudio.
c) Cuando en un conjunto de datos existen tres o ms puntuaciones no
adyacentes que comparten la frecuencia mayor, se dice que el conjunto de datos
es multimodal (ver figura 5.7).
Figura 5.7. Horas de estudio de diez estudiantes.
4 5 6 6 7 8 9 10 10 11 12
5 6 6 7 8 8 9 10 10 11
Mo
Mo
0
0,5
1
1,5
2
4 5 6 7 8 9 10 11 12
f
Horas
Mo
-
La moda es 6, 8 y 10, ( 6, 8 10Mo y horas de estudio ). En la figura 5.8 se
presenta la frecuencia de las horas de estudio con sus respectivos valores
modales.
Figura 5.8. Frecuencia de horas de estudio.
d) Cuando todas las puntuaciones tienen la misma frecuencia, se dice que
no existe moda (ver figura 5.9).
Figura 5.9. Horas de estudio de ocho estudiantes.
En este conjunto de datos no hay moda.
Datos ordenados en una distribucin de frecuencia simple
Para obtener la moda cuando los datos se presentan en una distribucin de
frecuencia simple se debe, primeramente observar la frecuencia ms alta y
posteriormente identificar la categora o puntaje al que le corresponde esa
frecuencia ms alta.
5 7 8 9 11 13 14 16
0
0,5
1
1,5
2
5 6 7 8 9 10 11
f
Horas de estudio
Mo Mo
Mo
-
Si se observa la tabla 5.3 que presenta las horas de estudio de un grupo de 30
estudiantes, tenemos que la frecuencia ms alta es 10, y esta frecuencia
corresponde al puntaje de 8 horas de estudio, por lo tanto la moda es 8 ( =
8 ).
En la figura 5.10 se presentan estos datos y se resalta el valor modal
Figura 5.10. Frecuencia de horas de estudio a la semana.
Tabla 5.3. Horas de estudio
Horas f
5 3
6 5
7 8
8 10
9 3
10 1
Mo
0
2
4
6
8
10
5 6 7 8 9 10
f
Horas
Frecuencia mayor Moda
-
Datos ordenados en una distribucin de frecuencia agrupada
En una distribucin de frecuencia agrupada, la moda se designa como el punto
medio del intervalo de clase con la frecuencia mayor.
Para obtener la moda se siguen los siguientes pasos:
1. Observar la frecuencia ms alta.
2. Identificar el intervalo al que le corresponde esa frecuencia ms alta.
3. Calcular el punto medio del intervalo con la frecuencia ms alta.
En la tabla 5.4 se presenta el nmero de aciertos obtenidos en el examen de
admisin a la carrera de Psicologa, por un grupo de 120 aspirantes.
La frecuencia ms alta es 45 y corresponde al intervalo de 51 a 65 aciertos, al
calcular el punto medio se suma 51 ms 65 y se divide entre dos:
58
2
116
2
6551 58 ,Mo aciertos la que se representa en la figura 5.11.
Tabla 5.4. Nmero de aciertos obtenidos
en el examen de ingreso a la carrera de
Psicologa
N de aciertos /Punto medio
Marca de clase
f Intervalo de clase
21 - 35 28 20
36 - 50 43 25
51- 65 58 45
66- 80 73 15
81- 95 88 10
96- 110 103 5
Frecuencia mayor Intervalo
-
Figura 5.11. Nmero de aciertos en un examen de ingreso
a la carrera de psicologa.
La mediana
La mediana (Mdn) es el valor que divide a un conjunto de datos ordenados por
su magnitud o a una distribucin de frecuencias en dos partes iguales, de tal
forma que la mitad de las puntuaciones son menores a la mediana y la otra mitad
son mayores a ella. Lo que origina que quede igual nmero de puntuaciones en
cada mitad.
La obtencin de la mediana para datos ordenados por su magnitud vara
dependiendo de si el conjunto de observaciones es impar o par.
1. Cuando se tiene un conjunto de datos impares la mediana es el valor que
divide en dos partes iguales ese conjunto de observaciones, por lo que
queda el 50% de datos debajo de ese valor y el otro 50% arriba de ste.
Por ejemplo, en la tabla 5.5 se muestran los puntajes de Coeficiente
Intelectual (CI) de nueve nios que asisten a terapia de educacin
especial, en ella se puede observar que el puntaje 79 (que ocupa la quinta
posicin), es el valor que divide en dos partes iguales este conjunto de
observaciones (quedando 4 valores menores a 79 y 4 mayores), por lo
que el valor de la mediana corresponde al CI de 79 ( =
79 ).
0
10
20
30
40
50
28 43 58 73 88 103
f
Aciertos
Mo
-
Tabla 5.5. Coeficiente intelectual de nueve nios
CI 75 76 77 78 79 80 81 82 83
Posicin 1a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a
50% Mdn = 79 50%
2. En el caso de un conjunto de datos pares, el valor de la mediana ser el
promedio de los dos valores centrales; considrense los puntajes de Coeficiente
Intelectual (CI) de 12 nios que se presentan en la tabla 5.6, como son doce
datos, la mediana se encuentra entre los valores centrales 84 y 86 (sexta y
sptima posicin), esto es, son los valores centrales porque dejan cinco
puntuaciones debajo de ellas y cinco por arriba, valores que se promedian y se
obtiene que 852
170
2
8684
( 85Mdn puntos de CI ).
Tabla 5.6. Coeficiente intelectual de doce nios
CI 74 76 78 80 82 84 86 88 90 92 94 96
Posicin 1 a 2 a 3 a 4 a 5 a 6 a 7 a 8 a 9 a 10a 11a 12a
50% 85Mdn 50%
La mediana en distribuciones de frecuencia simple
Para el clculo de la mediana cuando los datos se ordenan en una distribucin
de frecuencia simple, se siguen los siguientes pasos:
1) Se obtiene la frecuencia acumulada fa de los datos de la distribucin.
2) Se calcula la posicin de la mediana, sumndole 1 al total de
observaciones (n) y dividindolo entre 2. Posicin de la mediana 2
1n
.
-
3) Se localiza la posicin de la mediana en la columna de frecuencia
acumulada.
4) Se identifica a qu puntaje corresponde esa posicin, siendo ste el valor
de la mediana.
Frecuentemente, a la obtencin de la mediana, mediante este procedimiento, se
le denomina mediana aproximada.
A manera de ejemplo, se tiene en la tabla 5.7 el nmero de errores de ortografa,
en un ensayo de diez cuartillas, de 91 estudiantes universitarios. Siguiendo los
pasos antes sealados tenemos que:
1. Se calcula la frecuencia acumulada de la distribucin, la que se
obtiene al sumar la frecuencia con la que se presenta un puntaje, ms
la frecuencia anterior (como se ejemplifica en la tercera columna de la
Tabla 5.7).
2. Se obtiene la posicin de la mediana al sumarle 1 al total de
observaciones y se divide entre dos: 91 1 92
462 2
. El valor de
la mediana ocupa la posicin 46.
3. Se localiza la posicin de la mediana (46) en la columna de frecuencia
acumulada, la que est contenida en la 60fa .
4. Se identifica a qu puntaje o valor corresponde la 60fa , en este
caso le corresponde al 6, por lo que ste es el valor que divide la
distribucin en dos partes iguales 6 errores ortogrficosMdn .
-
De acuerdo al valor de la mediana se puede afirmar que el 50% de los
estudiantes cometi 6 o ms errores de ortografa, o bien, que el 50% obtuvo 6
o menos errores.
La mediana se representa grficamente, lo que se consigue trazando el polgono
de frecuencias del nmero de errores de ortografa, posteriormente en el eje de
las X se ubica el valor de la mediana y se traza una lnea paralela al eje de las
Y, hasta tocar los bordes del polgono, tal y como aparece en la figura 5.12.
Tabla 5.7. Errores de ortografa en un
ensayo de 10 cuartillas
No. de
errores
f
Obtencin
de fa
fa
2 2 2 2
3 7 2+7=9 9
4 14 9+14=23 23
5 21 23+21=44 44
6 16 44+16=60 60
7 12 60+12=72 72
8 9 72+9=81 91
9 8 81+8=89 89
10 2 89+2=91 91
= 91
En esta fa se encuentran contenidas desde la primera hasta la posicin 60. Por lo que es aqu en donde se ubica la posicin 46
Mdn=6
-
Figura 5.12. Nmero de errores de ortografa.
La mediana exacta con distribuciones de frecuencia simple
La mediana exacta cuando los datos estn organizados en una distribucin de
frecuencia simple, se calcula utilizando la frmula siguiente:
f
fan
LiMdn
2
En donde:
Li Lmite inferior real de la clase que contiene a la mediana aproximada
n Nmero total de observaciones
fa Frecuencia acumulada anterior al puntaje que contiene a la mediana
aproximada
f Frecuencia del puntaje en el que se encuentra la mediana
aproximada
Para obtener la mediana exacta con los datos presentados en la tabla 8, hay que
seguir los siguientes pasos:
0
5
10
15
20
25
f
Nmero de errores
Mdn= 6
-
1. Obtener la posicin de la mediana al dividir el total de observaciones entre
dos:
5.45
2
91. El valor de la mediana ocupa la posicin 45.5.
2. Se obtiene la frecuencia acumulada para la distribucin.
3. Se localiza la posicin de la mediana en la columna de frecuencia
acumulada (la que se encuentra en la 60fa ).
4. Se identifica que el valor que ocupa la posicin nmero 45.5,
corresponde a 6 errores de ortografa, siendo ste el valor con base al
cual se desarrolla la frmula.
f
fan
LiMdn
2
De acuerdo a los datos de la tabla 5.8, se tiene:
5.5Li (se obtiene restando .5 al 6, que es el valor que contiene a la
mediana aproximada)
91n
44fa
16if
-
Sustituyendo:
9144
45.5 44 1.52 25.5 5.5 5.5
16 16 16
5.5 0.0938 5.5939 6 6
nfa
Mdn Lif
Mdn
Empleando esta frmula se tiene el mismo resultado 6Mdn que con el
procedimiento de la mediana aproximada, sin embargo, con este procedimiento
se obtiene en lugar de un valor aproximado (mediana aproximada) un valor
exacto (mediana exacta).
La mediana exacta en distribuciones de frecuencia agrupada
Su clculo se realiza de manera similar al de las distribuciones de frecuencia
simple, con la salvedad de que en la frmula, se incluye la amplitud de intervalo
de clase.
Tabla 5.8. Errores de ortografa en un
ensayo de 10 cuartillas
Lmite inferior
real (Li)
No. de
errores
f
fa
1.5 2 2 2
2.5 3 7 9
3.5 4 14 23
4.5 5 21 44
5.5 6 16 60
6.5 7 12 72
7.5 8 9 91
8.5 9 8 89
9.5 10 2 91
n=91
fa
f Mdn = 6
-
cf
fan
LiMdn
2
En donde:
Li Lmite inferior real del intervalo que contiene a la mediana
aproximada
n Nmero total de observaciones
fa Frecuencia acumulada anterior al intervalo que contiene a la
mediana aproximada
f Frecuencia del intervalo en el que se encuentra la mediana
aproximada
c Amplitud del intervalo de clase (nmero de elementos que contiene
el intervalo, se obtiene 1Ls Li ).
Para ilustrar lo anterior, considrese el nmero de aciertos en el examen de
ingreso a la carrera de Psicologa por 130 estudiantes, para la estimacin de la
mediana exacta con datos en una distribucin de frecuencia agrupada (ver tabla
5.9).
Para identificar el intervalo que contiene a la mediana aproximada se divide el
total de observaciones entre dos,
2
n y el resultado se busca en la columna de
frecuencia acumulada.
-
El total de observaciones n=130, se divide entre dos:
65
2
130
2
n, valor que
indica que la mediana aproximada ocupa la posicin 65, se busca en la columna
de la frecuencia acumulada; en este ejemplo, la frecuencia 65 se ubica en el
intervalo de 51 a 65 aciertos. Una vez identificado el intervalo, el lmite inferior
real corresponde a 50.5, se determina la amplitud del intervalo de clase que
corresponde a 15 y con esta informacin se procede a desarrollar la frmula.
En donde:
50.5 51 .05 50.5Li
130n
45fa 45f
15 65 51 1 15c
Sustituyendo:
Tabla 5.9. Nmero de aciertos en el
examen de ingreso a la carrera de
Psicologa
Intervalo de clase
f fa
21 35 20 20
36 50 25 45
51- 65 45 90
66- 80 15 105
81- 95 15 120
96- 110 10 130
130n
fa
f
Intervalo que contiene a la Mediana
-
575716.57
666.65.50154444.05.501545
205.50
1545
45655.5015
45
452
130
5.502
Mdn
cf
fan
LiMdn
Por lo que en este caso, el valor que divide la distribucin en dos partes iguales
es 57 57Mdn , es decir, el 50% de los aspirantes obtienen 57 o ms aciertos
en el examen de ingreso a la carrera de Psicologa.
Su representacin grfica se obtiene de la misma forma sealada con la
distribucin de frecuencia simple (ver figura 5.13).
Figura 5.13. Nmero de aciertos en un examen de ingreso a la universidad.
La media
La media es el ndice de tendencia central ms sensible, importante, y
frecuentemente utilizado en el anlisis de las investigaciones psicolgicas.
Se define como la suma de las puntuaciones o valores de la caracterstica
medida, dividida entre el nmero total de puntuaciones, por lo que en esencia es
un promedio. Es comn encontrar en los textos de estadstica denotar a la media
como X , sin embargo, tambin puede encontrarse en algunos textos de
Psicologa como Y .
0
10
20
30
40
50
28 43 58 73 88 103
f
Aciertos
Mdn=57
-
La expresin numrica para la obtencin de la media es:
n
X
X
n
i
i 1
En donde:
X Notacin de la media y se le refiere como X barra o testada
n Nmero de valores observados
iX Cada uno de los elementos del conjunto de datos observados
La definicin y frmula anterior corresponden a lo que se denomina media
aritmtica, la ms usual y frecuente.
A fin de mostrar la obtencin de la media aritmtica, considrese el nmero de
errores de tipo ortogrfico, durante una tarea de dictado, a cinco nios de
segundo ao. Donde el nmero de errores por nios fue: 8, 10, 12, 13 y 14,
identificando los elementos de la frmula de la media, se tiene que:
5n
iX 8, 10, 12, 13, y 14
Sustituyendo en frmula de la media:
5
18 10 12 13 14 57
11.4 115 5
n
i
i
X
Xn
Este resultado indica que los cinco nios cometieron en promedio 11 errores de
tipo ortogrfico en la tarea de dictado 11X .
La media en distribuciones de frecuencia simple
El clculo de la media en distribuciones de frecuencia simple se obtiene
desarrollando la siguiente frmula:
-
nXf
X
n
i
ii 1
En donde:
X Notacin de la media
n Nmero de valores observados
iX Cada uno de los elementos del conjunto
if Nmero de veces (frecuencia) con que aparece cada uno de los
elementos del conjunto
iiXf Producto de cada uno de los elementos del conjunto por su
frecuencia
Continuando con el ejemplo anterior, pero con un mayor nmero de datos, se
presenta en el tabla 5.10 una distribucin de frecuencia de los errores de tipo
ortogrficos que cometieron 48 nios.
-
Sustituyendo en la frmula se tiene que:
48
18 4 9 6 10 9 11 11 12 9 13 6 14 3
48
52510.93 11
48
n
i i
i
f X
Xn
Este resultado indica que en promedio los cuarenta y ocho nios cometieron 11
errores ortogrficos en el dictado ( 11X ) y la media se representa en la figura
5.14.
Tabla 5.10. Nmero de errores ortogrficos
que cometieron 48 nios de segundo ao de
primaria
N de errores
if
iiXf
8 4 32
9 6 54
10 9 90
11 11 121
12 9 108
13 6 78
14 3 42
48n 525
48
1
n
i
iiXf
iX
-
Figura 5.14. Nmero de errores de ortografa de un grupo de 48
nios de 2 ao de primaria.
La media en distribuciones de frecuencia agrupada
El clculo de la media en distribuciones de frecuencia agrupada, se obtiene
desarrollando la misma frmula que se emplea con distribuciones de frecuencia
simple, con la variante de que se toma iX como el punto medio del intervalo de
clase:
n
Xf
X
n
i
ii 1
En donde:
X Notacin de la media
n Nmero de valores observados
iX Punto medio del intervalo de clase 2
LsLi
if Frecuencia (nmero de veces) con que aparece cada uno de los
elementos del conjunto de datos
iiXf Producto de cada punto medio por su frecuencia
A partir del ejemplo del nmero de aciertos en el examen de ingreso a la carrera
de Psicologa, se calcular la media para datos agrupados (ver tabla 5.11):
0
2
4
6
8
10
12
8 9 10 11 12 13 14
f
Errores de ortografa
Media=11
-
Sustituyendo la sumatoria de los productos de cada uno de los valores de iX
por su respectiva frecuencia
130
1
7690n
i
iiXf en la frmula:
130
17690
59130
n
i i
i
f X
Xn
Conociendo la media, se tiene que los 130 estudiantes obtuvieron en promedio
59 aciertos ( 59X ) en el examen de ingreso a la universidad (ver figura 5.15).
Figura 5.15. Nmero de aciertos en el examen de ingreso a la carrera de Psicologa en una universidad.
Tabla 5.11. Distribucin de frecuencia de los aciertos obtenidos en el
examen de ingreso a la carrera de Psicologa en una universidad
Intervalo de clase Punto medio
iX
if
iiXf
21 - 35 28 20 560
36 - 50 43 25 1075
51 - 65 58 45 2610
66 - 80 73 15 1095
81 - 95 88 15 1320
96 - 110 103 10 1030
130n
130
1
n
i
iiXf
7690
0
10
20
30
40
50
28 43 58 73 88 103
f
Aciertos
Media=59
-
Propiedades de la media
La media tiene dos propiedades que es importante conocer y tener presentes.
a) La primera propiedad enuncia, que la suma de las desviaciones de las
puntuaciones respecto a la media es igual a cero, representndola
estadsticamente:
n
i
i XX1
0
Para ilustrar esta propiedad se deben seguir los siguientes pasos:
1. Obtener la media n
X
X
n
i
i 1
2. Restar la media a cada una de las puntuaciones XX i
3. Sumar estas diferencias
n
i
i XX1
Para ejemplificar esta propiedad en la tabla 5.12, se presentan los errores de
sustitucin de la letra b por d en un dictado de una prosa, en cinco nios que
cursan el tercer ao de primaria.
Tabla 5.12. Errores de sustitucin
en el dictado de una prosa
iX XX i
2 4
4 2
6 0
8 2
10 4
5
305
1
n
Xn
i
i 0
5
1
n
i
i XX
-
Siguiendo los pasos sealados se tiene:
1- Media 65
30
5
1
n
X
X
n
i
i
2- Restar la media a cada una de las puntuaciones
61068666462 XX 3- Sumar estas diferencias
5
1
4 2 0 2 4 0n
i
X X
Esto es: 5
1
0n
i
i
X X
Al sumar las diferencias de cada puntaje con respecto a la media, la suma es
igual a 0, tal y como lo enuncia esta primera propiedad.
b) La segunda propiedad de la media enuncia, que la suma de los cuadrados
de las desviaciones respecto a la media, es menor que la suma de los
cuadrados de las desviaciones respecto a cualquier otro valor del conjunto
de datos observados, que no sea la media. Esta propiedad se conoce
como mnimos cuadrados y en notacin estadstica se expresa como:
2 2
1 1
n n
i i n
i i
X X X X
Para mostrar esta propiedad, nuevamente se recurre a los datos de los errores
de sustitucin de la letra b por d.
En la tabla 5.13 se presentan los clculos necesarios para poder desarrollar la
suma de los cuadrados de las diferencias respecto a la media ( 6X ).
-
2
1
n
i
i
X X
1) Obtener la diferencia de cada puntaje con respecto a la media
2 6 , 4 6 , 6 6 , 8 6 10 6iX X y
2) Elevar a cuadrado cada una de las diferencias de los puntajes con
respecto a la media
3) Sumar cada una de las diferencias elevadas al cuadrado
2222225
1
61068666462XX i
n
i
2 2 2 2 2
4 2 0 2 4 16 4 0 4 16 40
Esto es: 5 2
1
40n
i
i
X X
El desarrollo para obtener la suma de los cuadrados de las desviaciones
respecto a cualquier otro valor del conjunto de datos observados, que no sea la
media 2
1
n
i n
i
X X
, se presenta en la tabla 5.14 y como se puede tomar
cualquier valor, en este ejemplo se elige el segundo valor 42 X . Por lo que:
Tabla 5.13. Desarrollo numrico de los cuadrados
de las diferencias respecto a la media
iX XX i 2XX i
21 X 4 16
42 X 2 4
63 X 0 0
84 X 2 4
105 X 4 16
5
305
1
n
Xn
i
i 0
5
1
n
i
XX 5 2
1
40n
i
i
X X
-
1) Obtener la diferencia de cada puntaje con respecto al valor igual a 4
42 X
410,48,46,44,422 XX i
2) Elevar al cuadrado cada una de las diferencias de los puntajes con
respecto al valor cuatro 42 X
2222222 410,48,46,44,42 XX i
3) Sumar cada una de las diferencias elevadas al cuadrado
5 5
2 2 2 2 2 2 2
2
1 1
4 2 0 2 4 6
4 0 4 16 36 60
n n
i i
i i
X X X
Esto es: 5
2
2
1
60n
i
i
X X
Con lo anterior queda demostrada la segunda propiedad de la media, siendo
menor la sumatoria de los cuadrados de las desviaciones de los puntajes con
respecto a la media, que la sumatoria de los cuadrados de las desviaciones de
los puntajes con respecto a cualquier otro valor.
Tabla 5.14. Desarrollo numrico para obtener la suma de
los cuadrados de las desviaciones respecto a 42 X
iX 4iX 2
4iX
21 X -2 4
42 X 0 0
63 X 2 4
84 X 4 16
105 X 6 36
5
305
1
n
Xn
i
i
52
1
4 60n
i
i
X
-
2
1
40n
i
i
X X
<
2
1
60n
i n
i
X X
Medidas de dispersin
La dispersin se refiere a la variabilidad que existe en un conjunto de
observaciones, de tal manera que si todas las puntuaciones son iguales no hay
variabilidad, pero s las puntuaciones son diferentes, la variabilidad se presenta
en mayor o menor medida. La magnitud de esta variabilidad ser mayor, cuando
existan diferencias considerables entre las puntuaciones de un conjunto de
datos; por otro lado esta magnitud ser menor cuando las diferencias entre las
puntuaciones sean muy pequeas. Los ndices estadsticos descriptivos que
permiten estimar cuantitativamente este grado de dispersin, variabilidad o
heterogeneidad de un conjunto de datos, son las medidas de dispersin.
Las medidas de dispersin a revisar en este apartado son: el rango, la desviacin
estndar, la varianza y el coeficiente de variabilidad. Para poder calcular estas
medidas es necesario que las variables sean numricas.
El rango
El rango permite conocer la variacin o dispersin total de un conjunto de
observaciones; es el ndice de dispersin ms sencillo de conocer, ya que slo
es necesario obtener la diferencia entre el puntaje ms alto Pa y el puntaje
ms bajo Pb .
Con el fin de mostrar la obtencin del rango, considrese el siguiente conjunto
de datos que representa el nmero de berrinches de un nio, registrados durante
cinco das: 8, 9, 10, 11, 12. Con estos datos, el rango se obtiene al restar de la
puntuacin ms alta la puntuacin ms baja, esto es, 12 8 4Pa Pb , por lo
que la variacin total de los berrinches del nio durante los cinco das de registro
fue de 4.
-
Este rango es conocido como rango excluyente, por que deja fuera una de las
puntuaciones, es decir, al tener 5 datos y el obtener un rango de 4 se excluye un
valor. Para no dejar una puntuacin fuera se puede recurrir al rango incluyente,
el que se obtiene al sumar una unidad al resultado de la diferencia entre la
puntuacin ms alta y la ms baja 1 12 8 1 5Pa Pb , en este caso s
se consideran los cinco los valores.
Rango en distribuciones de frecuencia simple y frecuencia agrupada
El rango es una medida que no est influida por la frecuencia en la que se
presentan los datos, de este modo tanto en una distribucin de frecuencia simple
como en una agrupada, para obtener el rango, slo se requiere restar a la
puntuacin ms alta la puntuacin ms baja Pa Pb , tal y como se realiz con
los datos organizados de menor a mayor.
Para ejemplificar la obtencin del rango de datos organizados en una distribucin
de frecuencia simple, en la tabla 5.15 se presenta la distribucin del nmero de
errores de ortografa en un ensayo de 10 cuartillas en que incurren 91
estudiantes de nivel medio superior, obtenindose un rango de variacin total de
8 errores ortogrficos, dado que la puntuacin ms alta es 10 y la ms baja es 2
( 10 2 8Pa Pb )
-
Para obtener el rango de variacin de datos presentados en una distribucin de
frecuencia agrupada, considrese la distribucin del nmero de aciertos logrados
en el examen de ingreso a la carrera de Psicologa, por 130 estudiantes (ver
tabla 5.16). Como la puntuacin ms alta es 110 y la ms baja 21, se tiene que
el rango de variacin de los aciertos en el examen es de 89 aciertos, dado que
110 21 89Pa Pb .
Tabla 5.15. Errores de ortografa
en un ensayo de 10 cuartillas
N de errores if
2 2
3 7
4 14
5 21
6 16
7 12
8 9
9 8
10 2
91n
Tabla 5.16. Aciertos obtenidos en
el examen de ingreso a la carrera
de Psicologa
Intervalo de clase if
21 - 35 20
36 - 50 25
51 - 65 45
66 - 80 15
81 - 95 15
96 - 110 10
130n
Puntuacin ms alta
Puntuacin ms baja
Puntuacin ms alta
Puntuacin ms baja
-
Desviacin estndar o tpica
Es la medida estadstica descriptiva ms ampliamente utilizada para la
estimacin de la dispersin o variabilidad de un conjunto de observaciones;
mediante este ndice se analiza y mide la variacin de las caractersticas de las
variables en estudio, entre individuos.
La desviacin estndar s , se define como el promedio de dispersin de un
conjunto de observaciones con respecto a su media.
Para el clculo de la desviacin estndar se requiere de las desviaciones de los
puntajes con respecto a la media XX i , elevadas cada una de ellas al
cuadrado 2XX i , para posteriormente sumarlas. Elevar al cuadrado las
diferencias entre cada uno de los valores y su media evita que al obtener la
sumatoria, sta sea igual a cero. La suma de las diferencias al cuadrado es
conocida como suma cuadrtica o suma de cuadrados, la cual se divide entre el
total de observaciones y del resultado de la divisin, se obtiene raz cuadrada, lo
que nos proporciona el valor de la desviacin estndar.
Enseguida se presentan los pasos a seguir cuando se calcula la desviacin
estndar con datos organizados de menor a mayor o de mayor a menor, tanto
en distribuciones de frecuencia simple como en datos agrupados.
La frmula para obtener el valor de la desviacin estndar en un conjunto de
datos organizados de mayor a menor o de menor a mayor es:
n
XX
s
n
i
i
1
2
En donde:
s Smbolo de la desviacin estndar
-
XX i Restar la media a cada uno de los puntajes
2XX i Elevar al cuadrado cada una de las diferencias
n
i
i XX1
2 Sumar cada una de las diferencias elevadas al
cuadrado (suma cuadrtica o suma de cuadrados)
2
1
n
i
i
X X
n
Dividir la suma de cuadrados entre el nmero de datos
n
XXn
i
i
1
2
obtener la raz cuadrada de la suma de cuadrados entre
el nmero de datos
Ejemplo. Al aplicar el inventario de depresin de Beck a ocho estudiantes
universitarios, se obtienen los puntajes que aparecen en la tabla 5.17; en donde
tambin se muestran los clculos necesarios implicados en el desarrollo de la
frmula:
n
XX
s
n
i
i
8
1
2
-
Desarrollando la frmula:
1) Clculo de la media
13.518
409
8
1
n
X
X
n
i
i
2) Obtener la diferencia (restar) de cada puntaje con respecto a la media
(39 51.13),(44 51.3), 48 51.13 ,...,(60 51.13)iX X
3) Elevar al cuadrado cada una de las diferencias de los puntajes con respecto a la media
2 22 2 2( 12.13) ,( 7.13) , 3.13 ,..., (8.88)iX X
4) Sumar las diferencias al cuadrado y dividirlas entre el nmero de datos
8 2
1147 50.7 9.766 ... 78.77 361
45.138 8
n
i
i
X X
n
5) Obtener la raz de la sumatoria de las diferencias al cuadrado entre el
nmero de datos
Tabla 5.17. Puntajes de depresin en el inventario de Beck
obtenidos por 8 estudiantes universitarios
iX XX i 2XX i
39 -12.13 147
44 -7.13 50.77
48 -3.13 9.766
51 -0.13 0.0156
53 1.88 3.516
56 4.88 23.77
58 6.88 47.27
60 8.88 78.77
8
1
409
8
n
i
i
X
n
8 2
1
361n
i
i
X X
-
8 2
1 45.13 6.7
n
i
i
X X
sn
La desviacin estndar para estos datos es de 6.7, redondeando 7 7s , es
decir, en promedio los puntajes de depresin varan 7 puntos con relacin a la
media.
Desviacin estndar para distribuciones de frecuencia simple
La estimacin de la desviacin estndar para datos presentados en esta
modalidad a diferencia de como se calcul con los datos ordenados, requiere
incorporar a la frmula, la multiplicacin de las frecuencias con que aparecen los
datos en la distribucin, por las desviaciones al cuadrado de cada puntaje con
respecto a la media, tal y como lo indica la frmula:
n
XXf
s
n
i
ii
1
2
En donde:
s Smbolo de la desviacin estndar
XX i Restar la media a cada uno de los puntajes
2XX i Elevar al cuadrado cada una de las diferencias
2XXf ii Multiplicar la frecuencia con que aparecen los datos por cada una de las diferencias elevadas al cuadrado
n
i
ii XXf1
2 Sumar los productos de las frecuencias por cada una
de las diferencias elevadas al cuadrado
-
n
XXfn
i
ii
1
2
Dividir la suma, de los productos de las frecuencias por
cada una de las diferencias elevadas al cuadrado, entre el nmero de datos
n
XXfn
i
ii
1
2
Obtener la raz cuadrada de la divisin de los productos
de las frecuencias por cada una de las diferencias elevadas al
cuadrado, entre el nmero de datos
Para mostrar su desarrollo en la tabla 5.18 se muestran los puntajes de
depresin en el inventario de Beck, obtenidos por 35 estudiantes universitarios,
y las operaciones requeridas para el desarrollo de la frmula.
Tabla 5.18. Desarrollo numrico para obtener la desviacin estndar con
el mtodo de las diferencias cuadrticas
iX if iiXf XX i 2XX i 2
XXf ii
39 3 117 -11.14 124.1 372.3
44 4 176 -6.140 37.70 150.8
48 7 336 -2.140 4.580 32.06
51 8 408 0.860 0.740 5.917
53 6 318 2.860 8.180 49.08
56 4 224 5.860 34.34 137.4
58 2 116 7.860 61.78 123.6
60 1 60 9.860 97.22 97.22
35n 1755
35
1
n
i
iiXf
3.96835
1
2
n
i
ii XXf
-
Desarrollando:
1) Estimacin de la media
14.5035
1755
35
1
n
Xf
X
n
i
ii
2) Restar la media a cada uno de los puntajes
(39 50.14),(44 50.14), 48 50.14 ,...,(60 50.14)iX X
3) Elevar al cuadrado cada una de las diferencias
2 22 2 2( 11.14) ,( 6.14) , 2.14 ,..., (9.86)iX X
4) Multiplicar la frecuencia con que aparecen los datos, por cada una de las
diferencias elevadas al cuadrado
35 2
1
3(124.1),4(37.7),7 4.58 ,...,1(97.22)n
i i
i
f X X
5) Sumar los productos de las frecuencias por cada una de las diferencias
elevadas al cuadrado
35 2
1
372.3 150.8 32.06 ... 97.22 968.3n
i i
i
f X X
6) Dividir la suma, de los productos de la frecuencia por cada una de las
diferencias elevadas al cuadrado, entre el nmero de datos
67.27
35
3.968
35
1
2
n
XXfn
i
ii
7) Obtener la raz cuadrada de la divisin de los productos de la frecuencia
por cada una de las diferencias elevadas al cuadrado, entre el nmero de
datos
-
526.567.27
35
1
2
n
XXf
s
n
i
ii
La desviacin estndar para estos datos es de 5 5s , por lo que se dice que
el promedio de dispersin de los puntajes de depresin con respecto a su media,
es de 5 puntos para la muestra estudiada.
La estimacin de la desviacin estndar utilizando el clculo de las diferencias
al cuadrado, tal y como en los ejemplos anteriores se realiz, se designa como
el mtodo de las diferencias cuadrticas.
Existe un mtodo alterno para conocer la desviacin estndar, que se desarrolla
sin calcular los cuadrados de las desviaciones de las puntuaciones con respecto
a la media, se efecta con los puntajes originales, por lo que se le denomina
mtodo de puntuaciones originales y proporciona el mismo resultado que el
mtodo de desviaciones al cuadrado, su frmula es:
21
2
Xn
Xf
s
n
i
ii
En donde:
s Smbolo de la desviacin estndar
if Nmero de veces (frecuencia) con que aparece cada uno de los
elementos del conjunto
iX Cada uno de los elementos del conjunto
X La media
n Nmero de valores observados
2ii Xf Multiplicacin de cada uno de los elementos del conjunto
elevado l cuadrado por su frecuencia
-
Desarrollando este mtodo de puntuaciones originales, con el ejemplo anterior
se tiene que (ver tabla 5.19):
1) Elevar al cuadrado cada una de las puntuaciones
2 2 2 2 2(39) ,(44) ,(48) ,...,(60)iX
2) Multiplicar la frecuencia de cada puntaje por el cuadrado de cada una de
las puntuaciones
2( ) 3(1521),4(1936),7 2304 ,...,1(3600)i if X
3) Obtener la sumatoria de los productos de las frecuencias por el cuadrado
de cada uno de los valores observados
352
1
( ) 4563 7744 16128 ... 3600 88969n
i i
i
f X
Didividir la suma de los productos de las frecuencias por el cuadrado de
las puntuaciones entre el nmero de estudiantes
254135
88969)( 2
35
1
n
Xf i
n
i
i
Tabla 5.19. Desarrollo numrico para obtener la desviacin
estndar con el mtodo de puntuaciones originales
iX if iiXf 2
iX 2)( ii Xf
39 3 117 1521 4563
44 4 176 1936 7744
48 7 336 2304 16128
51 8 408 2601 20808
53 6 318 2809 16854
56 4 224 3136 12544
58 2 116 3364 6728
60 1 60 3600 3600
35n 1755
35
1
n
i
iiXf
88969)( 235
1
i
n
i
i Xf
-
4) Obtener la media y elevarla al cuadrado
14.5035
1755
35
1
n
Xf
X
n
i
ii
2514)14.50()( 22 X
5) Restar a la divisin, de la sumatoria de los productos de las frecuencias
por el cuadrado de las puntuaciones entre el nmero de observaciones,
la media elevada al cuadrado 2)(X
2725142541)(
)(2
235
1
Xn
Xf i
n
i
i
6) Obtener la raz cuadrada
Como se puede observar, con el mtodo de puntuaciones originales y el de
diferencias al cuadrado, se obtiene el mismo resultado, una desviacin estndar
de 5 puntos en el inventario de depresin 5s .
Desviacin estndar para distribuciones de frecuencia agrupada
El clculo de la desviacin estndar en distribuciones de frecuencia agrupada, al
igual que ocurre con las distribuciones de frecuencia simple se puede realizar
tanto con el mtodo de puntuaciones originales como por el de las diferencias
cuadrticas, con la salvedad de que el valor de iX corresponde al punto medio
o marca de clase de cada intervalo. Enseguida se muestra su estimacin con el
mtodo de diferencias cuadrticas y su desarrollo mediante la expresin:
n
XXf
s
n
i
ii
1
2
5196.527)(
2
35
1
2
Xn
Xf
s
n
i
ii
-
En donde:
s Smbolo de la desviacin estndar
XX i Restar la media a cada uno de los puntajes (punto medio)
2XX i Elevar al cuadrado cada una de las diferencias
21 XXf i Multiplicar la frecuencia por cada una de las diferencias
elevadas al cuadrado
n
i
ii XXf1
2 Sumar los productos de la frecuencia por cada una de
las diferencias elevadas al cuadrado
n
XXfn
i
ii
1
2
Dividir la suma de los productos de la frecuencia por
cada una de las diferencias elevadas al cuadrado, entre el nmero de
datos
n
XXfn
i
ii
1
2
Obtener la raz cuadrada de la divisin de los
productos de la frecuencia por cada una de las diferencias
elevadas al cuadrado, entre el nmero de datos
En la tabla 5.20, se despliegan los puntajes de depresin alcanzados en el
inventario de Beck por una muestra de 60 estudiantes universitarios, as como
las operaciones necesarias para la estimacin de la desviacin estndar con
datos agrupados, mediante el mtodo de diferencias cuadrticas.
-
1) Calculando la media se tiene que
60
13510
58.560
n
i i
i
f X
Xn
2) Restar la media X a cada punto medio
(14.5 58.5),(24.5 58.5), 34.5 58.5 ,...,(114.5 58.5)iX X
3) Elevar al cuadrado los valores obtenidos al restar la media a cada punto
medio )( iX
2 22 2 2( 44) ,( 34) , 24 ,..., (56)iX X
4) Multiplicar la frecuencia con que aparece cada uno de los datos, por cada
una de las diferencias elevadas al cuadrado
Tabla 5.20. Puntajes de depresin obtenidos por 60 estudiantes en el inventario
de Beck y desarrollo numrico para la estimacin de la desviacin estndar con
el mtodo de diferencias cuadrticas
Intervalos if PM
iX
iiXf XX i 2XX i 2
XXf ii
10-19 3 14.5 43.50 -44 1936 5808
20-29 4 24.5 98.00 -34 1156 4624
30-39 7 34.5 241.5 -24 576 4032
40-49 8 44.5 356.0 -14 196 1568
50-59 9 54.5 490.5 -4 16 144
60-69 10 64.5 645.0 6 36 360
70-79 7 74.5 521.5 16 256 1792
80-89 6 84.5 507.0 26 676 4056
90-99 3 94.5 283.5 36 1296 3888
100-109 2 104.5 209.0 46 2116 4232
110-119 1 114.5 114.5 56 3136 3136
60n
60
1
n
i i
i
f X
3510
60 2
1
n
i i
i i
f X X
33640
-
2
3(1936),4(1156),7(576),...,1(3136)i if X X
5) Sumar los productos de las frecuencias por cada una de las diferencias
elevadas al cuadrado
60 2
1
5808 4624 4032 ... 3136 33640n
i i
i
f X X
6) Dividir la suma de los productos, de la frecuencia por cada una de las
diferencias elevadas al cuadrado, entre el nmero de datos
60 2
133640
560.760
n
i i
i
f X X
n
7) Obtener la raz cuadrada de la divisin de los productos de la frecuencia
por cada una de las diferencias elevadas al cuadrado, entre el nmero de
datos
60 2
1 560.7 23.68 24
n
i i
i
f X X
sn
La desviacin estndar para estos datos es de 23.68 24s , esto es, los
puntajes de depresin varan 24 puntos con respecto a su media para la muestra
estudiada.
Para la estimacin de la desviacin estndar con puntuaciones originales, se
desarrolla la siguiente expresin:
21
2
Xn
Xf
s
n
i
ii
En donde:
s Smbolo de la desviacin estndar
if Nmero de veces (frecuencia) con que aparece cada uno de los
elementos del conjunto
iX Punto medio (PM) de cada intervalo
X Media
-
n Nmero de valores observados
2)( ii Xf Multiplicacin de cada uno de los elementos del conjunto
elevados al cuadrado por su frecuencia
A fin de ejemplificar la estimacin de la desviacin estndar con este mtodo de
puntuaciones originales para datos agrupados, en la tabla 5.21 se muestran los
puntajes de depresin de 60 estudiantes en el inventario de Beck y los clculos
para su desarrollo.
Tabla 5.21. Puntajes de depresin de 60 estudiantes en el inventario de Beck
y desarrollo numrico para la estimacin de la desviacin estndar con el
mtodo de puntuaciones originales
iX
if
PM
iX
iiXf
2
iX
2)( ii Xf
10-19 3 14.5 43.50 210.3 630.8
20-29 4 24.5 98.00 600.3 2401
30-39 7 34.5 241.5 1190 8332
40-49 8 44.5 356.0 1980 15842
50-59 9 54.5 490.5 2970 26732
60-69 10 64.5 645.0 4160 41603
70-79 7 74.5 521.5 5550 38852
80-89 6 84.5 507.0 7140 42842
90-99 3 94.5 283.5 8930 26791
100-109 2 104.5 209.0 10920 21841
110-119 1 114.5 114.5 13110 13110
60n
60
1
n
i i
i
f X
3510
602
1
( )n
i i
i
f X
238975
Sustituyendo:
1) Elevar al cuadrado cada uno de los valores observados (punto medio)
2 2 2 2 2(14.5) ,(24.5) ,(34.5) ,...,(114.5)iX
-
2) Multiplicar la frecuencia de cada intervalo por el cuadrado de cada uno
de los valores observados
2( ) 3(210.3),4(600.3),7(1190)...,1(13110)i if X
3) Obtener la sumatoria de los productos de las frecuencias por el cuadrado
de cada uno de los valores observados
602
1
( ) 630.8 2401 8332 ... 13110 238975n
i i
i
f X
4) Dividir la sumatoria, de los productos de las frecuencias por el cuadrado
de los valores observados, entre el nmero de datos observados
602
1
( )238975
398260
n
i i
i
f X
n
5) Obtener la media y elevarla al cuadrado
2 2( ) (58.5) 3422X
6) Restar a la divisin, de la sumatoria de los productos de las frecuencias
por el cuadrado de las puntuaciones entre el nmero de observaciones,
la media elevada al cuadrado 2)(X
602
21
( )
( ) 3982 3422 560
n
i i
i
f X
Xn
7) Obtener la raz cuadrada
602
21
( )
560 23.66 24
n
i i
i
f X
s Xn
Como se puede apreciar con cualquiera de los dos mtodos, desviaciones
cuadrticas o puntuaciones originales, se obtiene el mismo resultado, una
desviacin estndar de 24 puntos en el inventario de depresin 24s .
-
La varianza
La varianza 2s , al igual que la desviacin estndar, es una medida a la que se
recurre con mucha frecuencia para la estimacin de la variabilidad o dispersin
de un conjunto de observaciones con respecto a su media. De la misma manera
que con la desviacin estndar, el desarrollo numrico para su obtencin, implica
la estimacin de la sumatoria de las diferencias cuadrticas de los puntajes con
respecto a la media 2
1
n
i
i
X X
. Sumatoria que se divide entre el total de
observaciones, lo que nos proporciona el valor de la varianza. Por lo que la
varianza se define como el promedio cuadrtico de dispersin y simblicamente
se representa como:
n
XX
s
n
i
i
1
2
2
En donde:
2s Smbolo de la varianza
XX i Restar la media a cada uno de los puntajes
2XX Elevar al cuadrado cada una de las diferencias
n
i
i XX1
2Sumar cada una de las diferencias elevadas al cuadrado
(suma cuadrtica o suma de cuadrados)
n
XXn
i
i
1
2
= Dividir la suma de cuadrados entre el nmero de datos
Ejemplo. En la tabla 5.22 aparece el nmero de cigarrillos, que reportan fumar
cinco personas al da, as como los clculos necesarios para la estimacin de la
varianza siguiendo los siguientes pasos: 1) calcular la media, 2) obtener la
diferencia de cada puntaje con respecto a la media, 3) elevar al cuadrado cada
una de las diferencias, 5) sumar cada una de las diferencias cuadrticas (suma
de cuadrados) y 6) dividir la suma de cuadrados entre el nmero de
observaciones.
-
Tabla 5.22. Nmero de cigarros fumados por
cinco personas en un da y los clculos
necesarios para la estimacin de la varianza
N de cigarros
iX
XX i
2XX i
2 -4 16
4 -2 4
6 0 0
8 2 4
10 4 16
305
1
n
i
iX
5n
5 2
1
40ii
X X
Sustituyendo los clculos:
1) 65
30
5
1
n
X
X
n
i
i
2) 4025
1
i
i XX
3)
8
5
40
5
1640416
5
1
2
2
n
XX
s
n
i
i
La varianza para estos datos es de 8 82 s , es decir, la dispersin o variabilidad
cuadrtica promedio, del nmero de cigarros fumados por cinco personas en un
da es de 8.
La varianza en distribuciones de frecuencia simple
La varianza en distribuciones de frecuencia simple mediante el mtodo de las
diferencias cuadrticas se obtiene al desarrollar la siguiente frmula:
-
n
XXf
s
n
i
ii
1
2
2
En donde:
2s Smbolo de la varianza
XX i Restar (diferencia) la media a cada uno de los puntajes
2XX Elevar al cuadrado cada una de las diferencias
2XXf ii Multiplicar la frecuencia por cada una de las diferencias
elevadas al cuadrado
n
i
ii XXf1
2Sumar el producto de la frecuencia por cada una de las
diferencias elevadas al cuadrado
n
XXfn
i
ii
1
2
= Dividir la suma del producto de la frecuencia por cada una
de las diferencias elevadas al cuadrado, entre el nmero de datos
Ejemplo. En la tabla 5.23 se presenta el nmero de pensamientos negativos en
un da que reportan tener un grupo de 26 personas, as como los clculos
necesarios para sustituir en la frmula de la varianza.
Como primer paso se obtiene la media:
69.1126
30426
1
n
i
ii
n
XfX
Una vez que se conoce la media se realizan los clculos como se muestra en la
tabla 5.23, para finalmente sustituir en la frmula.
-
Sustituyendo:
1) Restar la media a cada valor ( 69.11X )
(8 11.69),(9 11.69),(10 11.69),...,(14 11.69)X X
2) Elevar al cuadrado cada una de las diferencias
2
2 2 2 2( 3.69) ,( 2.69) ,( 1.69) ,..., (2.31)X X
3) Multiplicar por su frecuencia cada una de las diferencias al cuadrado
2( ) 1(13.62),1(7.236),3(2.856),...,3(5.336)i if X X
4) Sumar los productos de las frecuencias por cada una de las diferencias
elevadas al cuadrado
26 2
1
13.62 7.236 8.568 ... 16.01 55.54n
i i
i
f X X
5) Dividir la suma anterior entre el nmero de datos
262
12 1
( )55.54
2.14 226
n
i
i
f X X
sn
Tabla 5.23. Nmero de pensamientos negativos en un da en un
grupo de 26 personas y desarrollo numrico para la estimacin de
la varianza con el mtodo de diferencias cuadrticas
iX 1f iiXf XX i 2XX i 2
XXf ii
8 1 8 -3.69 13.62 13.62
9 1 9 -2.69 7.236 7.236
10 3 30 -1.69 2.856 8.568
11 5 55 -0.69 0.4761 2.381
12 9 108 0.31 0.0961 0.8649
13 4 52 1.31 1.716 6.864
14 3 42 2.31 5.336 16.01
26n
26
1
n
i
iiXf
304
26
1
2n
i
ii XXf
55.54
-
La varianza para el nmero de pensamientos negativos es de 2.14, es decir, el
promedio de variabilidad cuadrtica, redondeando es de 2.
Como en la desviacin estndar, es posible la estimacin de la varianza sin
calcular las desviaciones de las puntuaciones con respecto a la media, utilizando
el mtodo de puntuaciones originales, procedimiento que proporciona el mismo
resultado que el mtodo de desviaciones al cuadrado, su frmula es:
21
2
2 )(
)(
Xn
Xf
s
n
i
ii
En donde:
2s Smbolo de la varianza
if Nmero de veces (frecuencia) con que aparece cada uno de los
elementos del conjunto
iX Cada uno de los elementos del conjunto
X Media
n Nmero de valores observados
iiXf Multiplicacin de cada uno de los elementos del conjunto por su
frecuencia
En la tabla 5.24 aparecen los clculos a seguir para obtener la varianza mediante
este procedimiento de puntuaciones originales.
-
Tabla 5.24. Nmero de pensamientos negativos en un da en un grupo
de 26 personas y desarrollo numrico para la estimacin de la varianza
con el mtodo de puntuaciones originales
iX if iiXf 2
iX 2)( ii Xf
8 1 8 64 64
9 1 9 81 81
10 3 30 100 300
11 5 55 121 605
12 9 108 144 1296
13 4 52 169 676
14 3 42 196 588
26n
26
1
n
i
iiXf
304
3610)( 226
1
i
n
i
i Xf
Sustituyendo en la formula se tiene:
1) Elevar al cuadrado cada uno de los valores observados
2 2 2 2 2(8) ,(9) ,(10) ,...,(14)iX
2) Multiplicar la frecuencia de cada puntaje por el cuadrado de cada uno de
los valores observados
2( ) 1(64),1(81),3(100)...,3(196)i if X
3) Obtener la sumatoria de los productos de las frecuencias por el cuadrado
de cada uno de los valores observados
262
1
( ) 64 81 300 ... 588 3610n
i i
i
f X
4) Dividir la sumatoria de los productos de las frecuencias por el cuadrado
de los valores observados entre el nmero de datos observados
262
1
( )3610
138.8526
n
i i
i
f X
n
5) Obtener la media y elevarla al cuadrado
69.1126
30426
1
n
i
ii
n
XfX
-
66.13669.11)( 22 X
6) Restar a la divisin de la sumatoria, de los productos de las frecuencias
por el cuadrado de las puntuaciones entre el nmero de observaciones,
la media elevada al cuadrado 2)(X
262
2 21
( )
( ) 138.85 136.66 2.19 2
n
i i
i
f X
s Xn
La varianza es igual a 2 22 s , el mismo resultado obtenido con el mtodo de
diferencias cuadrticas.
Clculo de la varianza en distribuciones de frecuencia agrupada
Para la estimacin de la varianza en distribuciones de frecuencia agrupada, se
utiliza el mismo desarrollo numrico que para distribuciones de frecuencia
simple, tanto por el mtodo diferencias cuadrticas o el de puntuaciones
originales, con la nica diferencia de que el valor de iX corresponde al punto
medio o marca de clase de cada intervalo.
Para mostrar el clculo de la varianza utilizando el mtodo de diferencias
cuadrticas, considrese el nmero de pensamientos negativos agrupados en
intervalos, de un grupo de 48 personas (ver tabla 5.25).
-
Tabla 5.25. Nmero de pensamientos negativos en un da en un grupo de 48
personas; y desarrollo numrico para la estimacin de la varianza con el
mtodo de desviaciones cuadrticas
iX
PM
iX
1f
iiXf
2XX i
2XX i
2XXf ii
8-12 10 4 40 -16.67 277.8 1111
13-17 15 5 75 -11.67 136.1 680.6
18-22 20 6 120 -6.67 44.44 266.7
23-27 25 8 200 -1.67 2.778 22.22
28-32 30 12 360 3.33 11.11 133.3
33-37 35 7 245 8.33 69.44 486.1
38-42 40 6 240 13.33 177.8 1067
48n
48
1
n
i
iiXf
1280
248
1
n
i
ii XXf
3767
Estimacin de la media:
67.2648
1280
48
1
n
Xf
X
n
i
ii
Una vez que se conoce la media se desarrolla la frmula de la varianza con el
mtodo de las desviaciones cuadrticas:
n
XXf
s
n
i
ii
1
2
2
En la tabla 5.25 aparece paso a paso el desarrollo de las operaciones requeridas.
Sustituyendo se tiene:
1) Restar la media a cada valor ( 67.26X )
(10 26.67),(15 26.67),(20 26.67),...,(40 26.67)iX X
2) Elevar al cuadrado cada una de las diferencias
-
2
2 2 2 2( 16.67) ,( 11.67) ,( 6.67) ,..., (13.33)iX X
3) Multiplicar por su frecuencia cada una de las diferencias al cuadrado
2
4(277.8),5(136.1),6(44.44),...,6(177.8)ifi X X
4) Sumar los productos de las frecuencias por cada una de las diferencias
elevadas al cuadrado
48 2
1
1111 680.6 266.7 ... 1067 3767n
i i
i
f X X
5) Dividir la suma anterior entre el nmero de datos
48 2
2 13767
78.46 7848
n
i i
i
f X X
sn
Esto es, el promedio de variabilidad cuadrtica de los pensamientos negativos
en un da que reportan los 48 participantes es de 78 782 s
Ahora bien, para la estimacin de la varianza mediante el procedimiento de
puntuaciones originales se desarrolla la expresin:
21
2
2 )(
)(
Xn
Xf
s
n
i
ii
En la tabla 5.26 se desglosa el desarrollo numrico que se debe seguir para
estimar la varianza con este mtodo.
-
Tabla 5.26. Nmero de pensamientos negativos en un da en un
grupo de 48 personas y desarrollo numrico para la estimacin de
la varianza con el mtodo de puntuaciones originales
iX if PM
iX
iiXf 2
iX 2)( ii Xf
8-12 4 10 40 100 400
13-17 5 15 75 225 1125
18-22 6 20 120 400 2400
23-27 8 25 200 625 5000
28-32 12 30 360 900 10800
33-37 7 35 245 1225 8575
38-42 6 40 240 1600 9600
48n
48
1
n
i
iiXf
1280
248
1
)( i
n
i
i Xf
37900
Sustituyendo se tiene:
1) Elevar al cuadrado cada uno de los valores observados (punto medio)
2 2 2 2 2(10) ,(15) ,(20) ,...,(40)iX
2) Multiplicar la frecuencia de cada intervalo por el cuadrado de cada uno
de los valores observados
2( ) 4(100),5(225),6(400)...,6(1600)i if X
3) Obtener la sumatoria de los productos de las frecuencias por el cuadrado
de cada uno de los valores observados
482
1
( ) 400 1125 2400 ... 9600 37900n
i i
i
f X
4) Dividir la sumatoria de los productos, de las frecuencias por el cuadrado
de los valores observados, entre el nmero de datos observados
482
1
( )37900
789.648
n
i i
i
f X
n
5) Obtener la media y elevarla al cuadrado
-
67.2648
1280
48
1
n
Xf
X
n
i
ii
3.71167.26)( 22 X
6) Restar a la divisin de la sumatoria de los productos de las frecuencias
por el cuadrado de las puntuaciones entre el nmero de observaciones,
la media elevada al cuadrado 2)(X
482
2 21
( )
( ) 789.6 711.3 78.30 78
n
i i
i
f X
s Xn
El valor obtenido para la varianza con el mtodo de puntuaciones originales es
el mismo que con el mtodo de desviaciones cuadrticas 782 s
La varianza como se seal al inicio del apartado es una de las medidas de
dispersin ms utilizadas, sin embargo, su interpretacin se complica al estar
expresada en unidades cuadrticas, por lo que se requiere, hacer una
transformacin, que permita la expresin de la dispersin en las unidades
originales en que se midieron las caractersticas de las variables en estudio. En
dos de los ejemplos aqu desarrollados para la estimacin de la varianza, el
nmero de cigarrillos fumados y el nmero de pensamiento negativos,
constituyen las unidades de medicin originales.
La transformacin de las unidades cuadrticas proporcionadas por la varianza a
unidades originales, se consigue obteniendo la raz cuadrada positiva de la
varianza 2s , lo que conduce a la obtencin de la desviacin estndar, tal y como se puede apreciar en la siguiente expresin:
n
XX
ss
n
i
i
1
2
2
-
La facilidad de la interpretacin de la desviacin estndar al expresar la
dispersin en las unidades originales de medicin, explica el por qu es ms
comn su eleccin para la evaluacin de la dispersin que la varianza. Es
conveniente resaltar que la varianza y la desviacin estndar, son medidas
estrechamente relacionadas y que al obtener cualquiera de ellas, fcilmente se
consigue la otra mediante su respectiva transformacin. De tal manera que si se
conoce la desviacin estndar s , al elevarla al cuadrado se tiene la estimacin
de la varianza 2s y, si se calcula la varianza primero, la desviacin estndar se
obtiene mediante la raz cuadrada positiva de las varianza 2s .
Coeficiente de variabilidad
El coeficiente de variabilidad es un ndice que estima la dispersin de un conjunto
de observaciones en trminos relativos, mediante la transformacin de la
desviacin estndar en un porcentaje de variacin. Dicha transformacin en
porcentaje facilita la interpretacin y comunicacin de la variabilidad, as como la
comparacin entre variables expresadas en unidades de medicin diferentes.
El coeficiente de variabilidad (CV) se obtiene al dividir la desviacin estndar s
de un conjunto de observaciones entre el valor de su media ( X ), resultado que
se multiplica por 100, lo que se expresa con la siguiente notacin:
100X
sCV
Para ejemplificar la obtencin del coeficiente de variabilidad, se retoma el
ejemplo de los puntajes de depresin obtenidos por ocho estudiantes en el
inventario de Beck (ver Tabla 17), en el cual se obtuvo una media de 51 ( 51X
) y una desviacin estndar de 7 puntos 7s , sustituyendo estos valores se
tiene:
%14%7.13)100(137.010051
7100
X
sCV
-
Esto significa que las puntuaciones de los ocho estudiantes en el Inventario de
Beck, en promedio presentan una variabilidad del 14%.
Retomando dos ejemplos de los puntajes de depresin obtenidos por
estudiantes universitarios, desarrollados para la estimacin de la desviacin
estndar tanto con una distribucin de frecuencia simple (ver tabla 5.18) como
con una distribucin de frecuencia agrupada (ver tabla 5.20), en la tabla 5.27 se
muestran sus respectivas medias, desviaciones estndar y coeficientes de
variabilidad.
Tabla 5.27. Coeficiente de variabilidad de dos grupos
n X )(s )100(
X
s
CV
35 50.14 5 )100(
14.50
5 %1097.9
60 58.5 24 24(100)
58.5
41.03 41%
De acuerdo a los valores obtenidos en los coeficientes de variabilidad, se tiene
que para el caso del grupo de 35 estudiantes, el promedio de variacin o
dispersin de los puntajes de depresin con respecto a la media es del 10%.
Para el caso de la muestra de 60 estudiantes, el promedio de dispersin es del
41%. Es claro que la muestra de 35 estudiantes tiene una variabilidad menor
%10CV que la muestra de 60 estudiantes 41%CV .
Hasta aqu, se ha resaltado la estimacin de los ndices de medida central y
dispersin, as como su utilidad para describir las propiedades de un conjunto de
observaciones, a travs de las cuales se estudia el comportamiento de las
variables de inters. En el siguiente apartado se ilustra la utilidad de estas
medidas como ndices comparativos.
-
Medidas de tendencia central y dispersin como ndices
comparativos
Este apartado tiene un doble propsito, por una parte repasar la obtencin de los
ndices antes expuestos, as como mostrar su aplicacin e interpretacin al ser
utilizados para comparar dos o ms grupos de observaciones.
Con frecuencia se intenta dar respuesta a preguntas tales como Las mujeres
obtienen mayores puntajes de depresin que los hombres?, El nmero de
cigarrillos que consume un grupo de estudiantes fumadores en perodo de
exmenes y entrega de trabajos es mayor del que habitualmente consumen?,
Los estudiantes que tienen el hbito de la lectura cuentan con una mejor
ortografa que los estudiantes que no tienen el hbito de leer?, Hay diferencias
en el rendimiento acadmico entre alumnos que nicamente se dedican a
estudiar y los que adems de estudiar trabajan?
Ntese que la respuesta a estas interrogantes implica necesariamente una
comparacin entre grupos. Una forma de hacer dicha comparacin, es mediante
la utilizacin de los diferentes ndices de tendencia central y dispersin;
especficamente, la media es el ndice ms utilizado para llevar a cabo estas
comparaciones, siempre y cuando las variables de estudio sean variables
numricas.
A continuacin se presenta un ejemplo, que nos permitirn comparar dos grupos
empleando los ndices de tendencia central y dispersin.
Ejemplo. Promedio de calificacin de dos grupos de estudiantes que cursan la
carrera de Psicologa, un grupo de estudiantes nicamente estudian y otro grupo
de alumnos que adems de estudiar trabajan (Tabla 5.28).
-
Grupo 1. Estimacin de los ndices descriptivos de los promedios de calificacin
de los alumnos que nicamente se dedican a estudiar. En la tabla 5.29, se
presentan los clculos necesarios para la estimacin de las medidas de
tendencia central y dispersin.
De acuerdo a los promedios de calificacin para el grupo de estudiantes que
nicamente se dedican a estudiar (ver tabla 5.29), el valor que se presenta con
Tabla 5.28. Promedio de calificacin de dos grupos de
estudiantes que cursan la carrera de Psicologa
Grupo 1 Alumnos que
nicamente estudian
Grupo 2 Alumnos que
estudian y trabajan
iX if iX if
6 3 6 3
7 7 7 8
8 9 8 13
9 11 9 9
10 5 10 2
35n 35n
Tabla 5.29. Grupo 1. Desarrollo numrico para la estimacin
de los ndices de tendencia central y dispersin de los
promedios de calificacin de los alumnos que nicamente
estudian.
iX if fa iiXf 2
iX 2)( ii Xf
6 3 3 18 36 108
7 7 10 49 49 343
8 9 19 72 64 576
9 11 30 99 81 891
10 5 35 50 100 500
35n
35
1
n
i
iiXf
288
235
1
)( i
n
i
i Xf
2418
Mo
Mdn
-
mayor frecuencia 11f es la calificacin de 9, siendo ste el valor modal
9Mo .
La calificacin que divide en dos partes iguales a los promedios de los 35
estudiantes, ocupa la posicin 18
18
2
36
2
135
2
1n, posicin que se
encuentra contenida en la frecuencia acumulada igual a 19 19fa , por lo que
el promedio de calificacin con la posicin 18 corresponde al valor 8, esto es, la
mediana es la calificacin de 8 8Mdn .
La media de los promedios de calificacin del grupo de alumnos que slo se
dedican a estudiar es de 8.23 23.8X , valor que se obtiene al desarrollar la
frmula de la media:
35
1288
8.2335
i i
i
f X
Xn
En cuanto a las medidas de dispersin, al restar a la puntuacin ms alta la
puntuacin ms baja, se obtiene un rango igual a 4 4610 PbPa . La
desviacin estndar estimada a travs del mtodo de puntuaciones originales es
igual a 1.17 17.1s . Valor que se obtiene al sustituir en la formula, la sumatoria
de los productos de los cuadrados de iX por su respectiva frecuencia (ver tabla
5.29).
352
221
( )2418 2418
(8.23) (67.73)35 35
i i
i
f X
s Xn
(69.09) (67.73) 1.36 1.166 1.17
Para obtener la varianza se sustituye 2418)( 235
1
i
n
i
i Xf , en la frmula:
-
352
2 2 21
( )2418 2418
( ) (8.23) 67.73 69.09 67.73 1.3635 35
i i
i
f X
s Xn
Por lo que la varianza es igual a 1.36 2 1.36s , valor que tambin es posible
conseguir al elevar al cuadrado la desviacin estndar, tal y como se seal al
final del apartado de la varianza:
Si 1.166s , al elevar al cuadrado 2
1.166 , se obtiene 1.36 :
2 2
1.166 1.36s
El Coeficiente de Variabilidad es igual a 14.17% 14.17%CV :
1.166
100 100 0.1417(100) 14.178.23
sCV
X
Grupo 2. Estimacin los ndices descriptivos de los promedios de calificacin de
los alumnos que estudian y trabajan. El desarrollo numrico para el clculo de
las medidas de tendencia central y dispersin se muestra en la tabla 5.30.
Tabla 5.30. Grupo 2. Desarrollo numrico para la estimacin de los ndices de
tendencia central y dispersin del promedio de calificacin de estudiantes que
estudian y trabajan
iX if fa iiXf 2
iX 2)( ii Xf
6 3 3 18 36 108
7 8 11 56 49 392
8 13 24 104 64 832
9 9 33 81 81 729
10 2 35 20 100 200
35n
35
1
n
i
iiXf 279
235
1
)( i
n
i
i Xf 2261
Mo y Mdn
-
Considerando los datos de la tabla 30, la calificacin que se presenta con mayor
frecuencia en el grupo de los 35 alumnos que adems de estudiar trabajan es 8,
siendo este el valor modal 8Mo . En cuanto a la calificacin que divide en dos
partes iguales los promedios de estos estudiantes, ocupa la posicin 18
18
2
36
2
135
2
1n, valor que corresponde al promedio de 8, por lo tanto 8
es el valor de la mediana ( 8)Mdn . Al sustituir 27935
1
n
i
iiXf en la frmula de la
media como se muestra enseguida, se encuentra que sta es igual a 7.97
97.7X .
35
1279
7.9735
i i
i
f X
Xn
Para las medidas de dispersin, se tiene que el rango es igual a 4
4610 PbPa . Sustituyendo 2261)( 235
1
i
n
i
i Xf en la frmula de la
desviacin estndar por el mtodo de puntuaciones originales, se obtiene un
promedio de dispersin de 1.04 1.04s :
352
221
( )2261 2261
(7.97) (63.52)35 35
i i
i
f X
s Xn
(64.6) (63.52) 1.08 1.04
Para el clculo de la varianza, se sustituye 2261)( 235
1
i
n
i
i Xf en:
352
2 2 21
( )2261 2261
( ) (7.97) 7.97 64.6 63.52 1.0835 35
i i
i
f X
s Xn
La varianza de acuerdo al desarrollo de la frmula es de 1.06 06.12 s . Otra
manera de obtenerla es elevar al cuadrado la desviacin estndar, tal y como se
realiz con el grupo 1:
1.04s , al elevar al cuadrado 2
1.04 , se obtiene 1.08: 2 2
1.04 1.08s
-
La variabilidad en trminos relativos es de 13.05% 13.05%CV :
1.04
100 100 0.1305(100) 13.057.97
sCV
X
Una vez calculados los ndices de tendencia central y dispersin para ambos
grupos los resultados se presentan en la tabla 5.31, con base a ella se puede
decir que en el Grupo 1 9Mo hay mayor nmero de alumnos que tienen un
promedio de 9 que en el Grupo 2 8Mo ; en ambos grupos, el 50% de los
estudiantes obtienen una calificacin igual o mayor a 8 ( 8)Mdn ; el promedio
de calificacin es ms alto para el grupo de estudiantes que nicamente estudian
8.23X (ver figura 5.16); comparten el mismo rango de variacin 4R , su
dispersin tanto en desviacin estndar como en la varianza es mayor para el
Grupo 1, y esto se puede apreciar claramente al observar los valores del
coeficiente de variacin, que muestran que el porcentaje de variacin
.%14CV es mayor para los estudiantes que no trabajan comparndolos con
los alumnos que estudian y adems trabajan %13CV .
Con base a lo anterior y recordando que se realiz un anlisis descriptivo, se
podra decir que aun cuando el grupo 1 tiene un promedio de calificacin ms
alto, la diferencia con respecto al promedio de calificacin del grupo 2, es muy
pequea.
Tabla 5.31. Medidas descriptivas del promedio de calificacin
del Grupo 1 y Grupo 2
Mo Mdn X R s 2s CV *
Grupo 1 9 8 8.23 4 1.17 1.36 14%
Grupo 2 8 8 7.97 4 1.04 1.08 13%
*Los valores se presentan redondeados
-
Figura 5.16. Promedio de calificacin del grupo de alumnos que slo estudian y del grupo que estudia y trabaja.
Otros ndices descriptivos utilizados en algunas situaciones son las medidas de
posicin y las de forma. ndices que se presentan de manera general en los
siguientes apartados.
Medidas de posicin
Los ndices o medidas de posicin permiten identificar el lugar o nivel en que se
encuentra una o varias puntuaciones en referencia a un conjunto o grupo de
observaciones. Por ejemplo, cuando un profesor afirma que uno de sus
estudiantes alcanz una calificacin en matemticas ms alta que el 75% del
grupo, est utilizando un ndice de posicin. As tambin, mediante la obtencin
de estas medidas, el profesor puede determinar que entre el 50% y 75% de sus
alumnos tienen una calificacin de 7.0 a 8.5, o bien sealar que slo el 10%
obtuvo una calificacin menor a 7. 0.
Los ndices de posicin ms conocidos son los cuartiles, deciles y percentiles (la
mediana tambin es un ndice de posicin). Para estimar estos ndices siempre
se debe considerar al conjunto de datos como el 100%, de tal forma que con los
cuartiles Q se divide el conjunto de datos en cuatro partes iguales, en los
0
2
4
6
8
10
12
14
5 6 7 8 9 10
f
Calificacin
Grupo 1
Grupo 2
-
deciles D en diez y en los percentiles P en cien. A cada una de las partes se
le denomina cuartil, decil y centil, respectivamente.
0D 5D 10D
Deciles 1D 2D 3D 4D 6D 7D 8D 9D
0Q
4Q
Cuartiiles 1Q 2Q 3Q
La obtencin de estas medidas se consigue desarrollando la expresin siguiente:
cf
fai
nk
LiZi
*
En donde:
Z Medida de posicin a estimar, por lo que si se calculan percentiles en
el lugar de Z , se debe cambiar por P si son percentiles, si son deciles
porD y si son cuartiles por Q .
Li Lmite inferior real del intervalo de clase que contiene la particin a
estimar
k Nmero de particin a computar (decil, 1, 2, 3, ..10; cuartil 1. 2, 3,
4, percentil, 10, 24, 33, 56, 80, 100)
* Multiplicar
i Partes en las que se dividir el conjunto de datos (4, 10 100)
n Nmero de observaciones
fa Frecuencia acumulada anterior al valor que contiene la particin de
inters
0P
50P
100P
Percentiles 10P 20P 30P 40P
60P 70P 80P 90P
-
if Frecuencia del intervalo de clase que comprende la particin
c Amplitud del intervalo de clase
Puesto que la estimacin numrica de las medidas de posicin sigue la misma
lgica, nicamente se ejemplifica el desarrollo e interpretacin de los cuartiles.
Ejemplo. Nmero de aciertos de 130 aspirantes en un examen de ingreso a una
universidad. El examen consta de 120 reactivos, con una puntuacin mnima de
0 y mxima de 120 (ver tabla 5.32).
Tabla 5.32. Nmero de aciertos en
un examen de ingreso a una
universidad
Intervalo de clase if
21 35 20
36 50 25
51 - 65 45
66- 80 15
81- 95 15
96- 110 10
130n
Como los ndices de inters son los cuartiles, la expresin para su estimacin
queda como:
cf
fai
nk
LiQi
i
*
En donde:
iQ Cuartil a calcular
iL Lmite inferior real del intervalo de clase que contiene la particin del
cuartil a estimar 1 2 3 425%, 50%, 75%, 100%Q Q Q Q
k Nmero de cuartil a computar (1, 2, 3, 4)
i Las 4 partes en las que se dividir el conjunto de datos
-
n Nmero de observaciones
fa Frecuencia acumulada anterior al intervalo que contiene el cuartil de
inters
if Frecuencia del intervalo de clase que comprende el cuartil a conocer
c Amplitud del intervalo de clase
Para conocer el lmite inferior real del intervalo de clase que contiene la particin
del cuartil a estimar, se calcula el porcentaje, posteriormente se obtiene el
porcentaje acumulado, y se localiza en ste el intervalo de clase que contenga,
el 25% de los casos 1Q , el 50% 2Q , y el 75% 3Q .
Con los aciertos obtenidos por los 130 aspirantes a la universidad, en la tabla
5.33, y de acuerdo con la columna de porcentaje acumulado se tiene que:
El 25% de los casos se encuentra en el intervalo 36-50
El 50% de los casos se encuentra en el intervalo 51-65
El 75% de los casos se encuentra en el intervalo 66-80
Tabla 5.33. Nmero de aciertos en el examen de ingreso
Intervalo de
clase
if
fa
%
%acumulado
21 35 20 20 15.4 15.4
36 50 25 45 19.2 34.6 1 43Q
51- 65 45 90 34.6 69.2 2 57Q
66- 80 15 105 11.5 80.8 3 73Q
81- 95 15 120 11.5 92.3
96- 110 10 130 7.7 100.0
130n
Con los datos presentados en la tabla 33 se puede desarrollar la frmula para
estimar el cuartil 1 1Q :
-
cf
fai
nk
LiQi
*
1
En donde:
5.35iL Lmite inferior real del intervalo que contiene el 25% de los casos
1k Nmero de cuartil a estimar 1Q
4i Las cuatro partes en que se dividir el conjunto de observaciones
130n Total de observaciones
20fa Frecuencia acumulada anterior al intervalo que contiene el 25% de
los casos
25if Frecuencia del intervalo que contiene el 25% de los casos
15c Amplitud del intervalo de clase
Sustituyendo en la frmula:
1525
205.325.3515
25
204
130
5.351525
204
130*1
5.351Q
435.75.35155.05.351525
5.125.35 431 Q
Para obtener el cuartil 2 2Q , se siguen los mismos pasos que con 1Q .
Identificados cada uno de los elementos necesarios para el desarrollo de la
frmula, se tiene:
1545
45655.5015
45
454
260
5.501545
454
130*2
5.502Q
5716.5766.65.501544.05.501545
205.50 2 57Q
-
Como era de esperarse el valor del cuartil dos 572 Q corresponde al valor de
la mediana 57Mdn , estimado en la seccin correspondiente a la mediana
para distribuciones de frecuencia agrupada.
La estimacin del cuartil 3 3Q , se obtiene al desarrollar:
1515
905.975.6515
15
904
390
5.651515
904
130*3
5.653Q
735.75.65155.05.651515
5.75.65 733 Q
Una vez calculados los cuartiles podemos afirmar que el 25% de los aspirantes
a la universidad, alcanzan una puntuacin menor a 43 aciertos; el 50% una
puntuacin menor a 57 y finalmente, el 75 % obtienen una puntuacin menor a
73. Dicho de otra forma, el 25% logra puntuaciones mayores a 73 3Q aciertos,
el 50% entre 43 1Q y 73 3Q puntos y el 25% restante, consigue menos de 43
1Q aciertos (ver figura 5.17).
Figura 5.17. Presentacin de los cuartiles en el nmero de aciertos en un examen de ingreso a la universidad.
0
10
20
30
40
50
28 43 58 73 88 103
f
Aciertos
Q1
Q2
Q3
-
Medidas de forma: asimetra y curtosis
La asimetra y la curtosis son medidas que ayudan a describir la forma de una
distribucin. La asimetra permite analizar hasta que punto los datos se reparten
de forma equilibrada alrededor de la media, mientras que la curtosis hace
referencia al nivel de apuntamiento o aplanamiento de una distribucin.
Distribucin simtrica
Se dice que una distribucin es simtrica cuando los datos se reparten de forma
equilibrada por abajo y encima de la media, en este caso la media coincide con
la moda (ver figura 5.18).