capitulo iv: nociones básicas de estadística
TRANSCRIPT
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 1
CAPITULO IV: Nociones básicas de estadística
Definición La estadística es comúnmente considerada como una colección de hechos numéricos
expresados en términos de una relación sumisa, y que han sido recopilados a partir de otros datos numéricos.
Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadística como un valor resumido, calculado, como base en una muestra de observaciones que generalmente, aunque no por necesidad, se considera como una estimación de parámetro de determinada población; es decir, una función de valores de muestra.
"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivos, cuya mediación requiere una masa de observaciones de otros fenómenos más simples llamados individuales o particulares" (Gini, 1953).
Murray R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.
"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos". (Yale y Kendal, 1954).
Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la estadística, debido al gran campo de aplicación que posee.
La estadística y las estadísticas El objeto de estudio de la Estadística, que es una rama de las matemáticas, es el
conjunto de los métodos que permiten el análisis y la comprensión de los fenómenos más diversos, a partir de una recolección y de un procesamiento de datos.
Las Estadísticas se refieren al resultado de la aplicación de la Estadística a los datos.
2
Un poco de historia No existe un acuerdo explícito sobre el origen de la palabra estadística, pro aún así se
mencionan tres orígenes posibles.
Es el origen que mas han aceptado los entendidos, status, vocablo en latín
cuyo significado es estado en el sentido estrictamente político, ya que en la antigüedad lso
gobiernos la utilizaban para recolectar datos.
Statera, vocablo de origen griego que significa balanza. Esto se debe a la
función que cumple la estadísitica en la medición o peso de los eventos que son objeto de
estudio; de allí se desprende el término ponderar, tan utilizado en estadística.
Staat, vocablo de origen alemán que significa estado como organización
política.
En la Antigüedad ya existían estadísticas rudimentarias vinculadas con los registros y censos del campo, enfocado a lo social, económico y educacional.
Aproximadamente 2000 años AC, se hacían recuentos de población, cultivos, propiedades, fortunas y otras, esto fue una incipiente aparición de la estadística fundamentada en el conteo.
Simultáneamente en otros pueblos como Siria, Persia y Egipto, realizaban empadronamientos o censos de población y catastros de territorios, como así también la renta del país.
En la Biblia también se encuentran indicios de recuentos estadísticos, Moisés habla del registro de los israelitas y de los trabajadores (agrícolas y dedicados al pastoreo). El nacimiento de Cristo coincide con el empadronamiento o censo de los israelitas.
En el imperio romano fue empleada por los gobernantes querían obtener información sobre las diferentes provincias en que se encontraba dividido el estado, como así también para realizar el conteo de los integrantes de sus ejércitos.
En el mundo de habla hispana europeo, se registran el uso de la estadística desde el año 720.
La Estadística, tal como se acaba de definir, se fundamenta en el cálculo de las probabilidades y se desarrolló a partir del inicio del siglo XX. A veces se denomina Estadística matemática en oposición a la Estadística estatal, cuya misión es el registro de las estadísticas de los estados: población, empleo, consumo, etc. La Estadística estatal remonta a las primeras civilizaciones conocidas (5000 años A.C., Sumer, Mesopotamia, Egipto).
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 3
Los campos de aplicación
La investigación en ciencias físicas y médicas. Física (mecánica, cuántica), Agronomía, Biología, Farmacia (pruebas farmacéuticas y clínicas), Medicina y Epidemiología.
La industria.
Investigación industrial, marketing, Comercio, Administración de empresas, gestión de los stocks, de la producción, mejoramiento de la calidad.
Las Ciencias Económicas y las Ciencias Humanas. Administración de las colectividades y de los estados. Bancos y Seguros, Demografía, Ciencias políticas, Geografía física o humana, Urbanismo, Transportes, medio ambiente, Arqueología, Sociología, Psicología, Lingüística, etc.
Áreas de la Estadística
Estadística descriptivo o deductiva
Es una de las ramas de la estadística que recolecta, caracteriza y presenta un
conjunto de datos, obteniendo un resumen de los mismos y una visión general del
fenómeno que se está observando., Se construyen tablas y gráficos que permiten simplificar
la complejidad de los datos
Estadística inferencial o inductiva
La Estadística inferencial o inductiva: Es una técnica mediante la cual se obtienen generalizaciones o se toman decisiones en base a una información parcial (muestras) , utiliza resultados obtenidos mediante la estadística descriptiva y tiene un sustento muy importante en el cálculo de probabilidades. Permite a partir del estudio de una muestra de la población, inferir lo que ocurre en la totalidad de esa población.
También permite establecer si la presencia de un evento particular fue solo causal.
Nota: Inferencia es la deducción arriesgada que tiene probabilidad de error
4
La Estadística descriptiva o deductiva Conceptos preliminares Antes de avanzar en el estudio de los métodos de la estadística, es necesario definir algunos conceptos preliminares.
Población Es el conjunto de individuos, animales u objetos que son de interés o estudio estadístico y de los cuales queremos obtener un resultado. La especificación no es trivial, porque es imprescindible que no haya ambigüedad respecto a quienes pertenecen o no a ese conjunto, para lo deben estar claramente definidos los criterios de inclusión y exclusión en los que se debe establecer la ubicación espacial y temporal.
Por ejemplo, si el interés es el estudio del hábito de fumar de los niños entre 10 y 14 años de Tucumán, en el año 2014, la población es "todos los niños de Tucumán entre 10 y 14 años en 2014". Si el interés es evaluar diferentes tratamientos de la diabetes, la población es "todos los diabéticos".
Tamaño de la población: Es el número de individuos que la componen. Su cardinal se denomina con N. Población finita: Es aquella en la que el número de individuos que la componen puede contarse en forma física. Población infinita: Es aquella en la que el número de individuos no es posible de enumerar en forma física. Parámetro: Es una medida de resumen que se calcula para describir una característica de toda la población.
Muestra Si la población a estudiar es muy grande, es decir que contienen un número de individuos que hace imposible analizarlos en su totalidad, entonces, en lugar de observar a todos los elementos de esa población, se realiza una selección de un subconjunto de ella y se usa la información de este subconjunto para conocer algo sobre la población. Este subconjunto se denomina muestra y deberá ser “representativa” de la población de origen en el sentido de tratar de reproducir lo más idénticamente posible las características de la población de la cual fue seleccionada. La representatividad de la muestra puede obtenerse si cualquier individuo de la población tiene la misma probabilidad de ser seleccionado.
En síntesis es un conjunto de individuos representativo de la población de referencia; en el cual los individuos fueron seleccionados en forma aleatoria.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 5
Tamaño muestral
Es el número de elementos que se seleccionan, siempre es menor que el de la población y se lo denomina con n.
Muestreo
Es el conjunto de técnicas para obtener estas muestras y el procedimiento que reúne los datos que se desean estudiar, obteniéndolos en una proporción reducida, y representativa de la población.
Estadístico
Magnitud correspondiente a una muestra aleatoria extraída de la población. Es una medida de resumen que se calcula para describir una característica de una muestra de la población.
Individuo, unidad de observación o unidad estadística Son las personas, animales u objetos, o conjuntos de ellos que pertenecen a una población y que contienen información sobre el fenómeno que se estudia
Continuando con el ejemplo de la población, son unidades de observación “cada niño de Tucumán entre 10 y 14 años” y para el ejemplo de la población “todos los diabéticos”, la unidad de observación es “cada uno de los diabéticos”.
Variable Característica observada, en los individuos de una población, susceptible de ser medida.
Propiedades, rasgos o cualidades que poseen las unidades de observación.
Para el ejemplo de arriba, las variables observadas en las unidades de observación pueden ser: el hábito de fumar y la edad de los niños de Tucumán entre 10 y 14 años.
Datos Valores observados o medidos en una variable, en el ejemplo del hábito de fumar en niños de Tucumán entre 10 y 14 años, los datos para las variables son las edades de los niños y las observaciones del hábito de fumar para cada niño.
6
Variables Definir las variables permitirá dar respuestas a lo que se quiera estudiar.
Establecer el tipo de variable a estudiar y la forma en que serán medidas, es un aspecto clave de cualquier estudio.
Una inadecuada identificación de las variables puede dar lugar a sesgos importantes que afectarán la validez del estudio.
Las variables pueden definirse como:
“Aquellos atributos o características de los eventos, de las personas o de los grupos de estudio que cambian de una situación a otra o de un tiempo a otro y que por lo tanto, pueden tomar diversos valores. Para su estudio es necesario medirlas en el objeto investigado y es en el marco del problema y de las hipótesis planteadas donde adquieren carácter de variables.”
Una vez identificadas las variables el investigador debe definirlas de manera operativa, especificando el método y la escala con las cuales se llevará a cabo su medición.
Medir:
Consiste en asignar un número o una calificación a alguna propiedad específica de un individuo, una población o un evento, usando ciertas reglas.
Solo puede medirse lo que antes se ha concebido teóricamente.
Clasificación de las variables
Cuadro I. Clasificación de variables según criterios de definición.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 7
Variables cualitativas Son aquellas que son expresados en forma de cualidades o atributos y no pueden medirse en escala numérica, aunque si puede contarse el número de individuos pertenecientes a cada una de sus categorías o modalidades. Nominales: Datos correspondientes a una variable cualitativa que se agrupan sin ninguna jerarquía de una categoría o modalidad sobre otra. Por ejemplo: Estado civil, etnia, religión, etc. Ordinales: Las categorías o modalidades que adopta la variable cualitativa poseen un orden entre ellas. En ellas existe un orden jerárquico, pero no puede obtenerse valoración numérica lógica entre las categorías. Por ejemplo: Grado de desnutrición, nivel socioeconómico, intensidad de consumo de alcohol, nivel de instrucción, etc. Según el número de categorías o modalidades que contemple una variable cualitativa puede ser: Dicotómica: tiene solo dos categorías o modalidades posibles de adoptar. Por ejemplo: Sexo (femenino/masculino), Condición de infectado (si/no), vivo/muerto. Politómica: tiene más de dos categorías o modalidades posibles de adoptar. Por ejemplo: Estado civil, nivel de instrucción, nivel socioeconómico, condición de alta etc.
Variables cuantitativas Son aquellas que se pueden medir, expresar y cuantificar en forma numérica. Continuas: Son aquellas variables cuantitativas para las que entre dos valores cualquiera que adopten existen infinitos valores posibles de asumir por la variable, es decir que la escala de medición es el conjunto de los números reales. Por ejemplo: Peso, talla, tensión arterial, glucemia, edad, etc. Discretas: Son aquellas variables cuantitativas que al medirlas solo pueden tomar valores numéricos enteros, no existen valores intermedios entre dos valores ENTEROS consecutivos cualquiera Por ejemplo: Número de hijos, Nº de cigarrillos que fuma por día, etc.
8
Nivel de medición de las variables El nivel de medición de las variables en general, es de suma importancia debido a que indica el tipo de operaciones que pueden realizarse con las variables, es decir cada uno de ellos tienen métodos estadísticos específicos. Existen cuatro niveles de medición:
Nivel nominal Si dos o más valores de una variable sólo permiten percibir tas diferencias o semejanzas de las unidades estadísticas que se midan su nivel de medición es nominal. Tales valores son como etiquetas que identifican a las unidades estadísticas y las hacen iguales o diferentes entre si .Es el nivel más simple de observación, clasifica a los individuos en categorías designadas con un nombre o código.
Si se asignan números a estos valores cualitativos (modalidades), con estos no se pueden realizar operaciones aritméticas. Sólo son válidas las relaciones de igualdad (=) y no igualdad (≠). Por ejemplo, la variable "sexo" asigna a las unidades de observación dos valores: "masculino" y "femenino" que son de escala nominal. Con los valores de esta variable las personas están en una misma modalidad o en modalidades diferentes. Si se asignara el 0 a la modalidad “femenino” y 1 a la modalidad “masculino”, sólo se puede decir que el símbolo 0 es distinto al símbolo 1, pero no podemos decir que 1 es mayor que 0, o que 0 es menor que 1.
Las variables estadísticas: "estado civil", "religión", entre otras, tienen modalidades que son de nivel nominal.
Nivel ordinal El nivel de medición de una variable es ordinal cuando los valores que adopta se pueden ordenar en forma ascendente (o descendente), pero no es posible determinar diferencias entre los valores de los datos, o tales diferencias carecen de significado. En una escala ordinal los valores o modalidades reflejan el orden de las unidades estadísticas. Si se asignan números a tales modalidades, con estos, no se pueden realizar operaciones aritméticas. Sólo son válidas las relaciones de igualdad (=), de no igualdad (≠) y de orden (≤). Este nivel se utiliza de manera nominal pero para jerarquizar las modalidades que adopte la variable. El nivel de medición ordinal puede observarse por ejemplo en el “estatus socioeconómico”, variable cualitativa; que puede adoptar las modalidades bajo, medio y alto;
En el caso de este tipo de variables, en ocasiones, pueden medirse en escalas numéricas, como por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones matemáticas con estas cantidades. ¡Un dolor de intensidad 4 no duele el doble que otro de intensidad 2!
Nivel de intervalo Este nivel de medición permite clasificar y ordenar a los individuos, posee todas las características del nivel ordinal, y además, permite cuantificar la diferencia entre dos clases. y el valor cero no representa ausencia de una característica, es lo que puede decirse un “cero relativo” . El ejemplo clásico es la temperatura: cero grado no indica ausencia de
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 9
temperatura. 10° no indica la mitad de frío de 20°, pero sí me indica 10 grados menos de temperatura. Por lo tanto vemos que el cero es relativo o convencional. En este nivel se pueden hacer comparaciones por diferencia entre los valores que adopte la variable.
Con los valores de esta escala son válidas las relaciones de igualdad, de no igualdad y de orden.
Nivel de razón Es similar al nivel de intervalo pero además existe un cero absoluto o natural, es decir hay ausencia real de la propiedad. Es el mayor nivel de medición, todas las operaciones son válidas y permite mayor número de técnicas y precisión.
Por ejemplo, “ingresos”, “edad”, “nivel de glucosa”, son comparables por cociente (doble, mitad). Alguien que gana $12.000 de sueldo, gana el doble que otro que gana $6.000 y por supuesto, también puedo decir que gana $6.000 menos.
Un aspecto interesante a destacar es que estos niveles forman ellos mismos una escala "acumulada". Por ejemplo el nivel ordinal posee todas las propiedades del nivel nominal más aquellas que le son propias. El nivel de intervalo posee todas las propiedades de los dos anteriores más las propias y de la misma forma el nivel de razón también posee las propiedades de los otros tres, siendo el nivel más elevado donde el cero es absoluto y son posibles todas las operaciones. Cada una de estos niveles puede descender a sus niveles de menor grado, lo que a veces nos vemos obligados a hacer, sabiendo que se pierde información, según las técnicas estadísticas de que dispongamos o que utilicemos.
Relación entre variables Si atendemos a la relación existente entre las variables, estas pueden ser:
Independientes: Es una característica estable en función de la cual varían los valores de otras variables. En estudios experimentales es la variable que manipula el investigador.‐
Dependientes: también llamadas de resultado o efecto, son aquellas características que varían en función de los cambios experimentados por la variable independiente. Es el factor que es observado y medido para determinar el efecto de la variable independiente.
Nunca debemos olvidar a la hora de hablar de variables, las categorías o modalidades que adopten cada una de ellas independientemente de lo que midan deben ser:
Mutuamente excluyentes: cada dato pertenece a un único intervalo, categoría. O modalidad.
Exhaustivas: todos los datos pueden ser clasificados o incluidos en alguna de las categorías, modalidades o intervalos.
10
En un estudio, las variables son los eventos o características que se van a observar en las personas, lugares o tiempos, susceptibles de ser descriptas o medidas en alguna escala, que varía o puede hacerlo en alguna dimensión
Lo que se tiene como información de una variable en una muestra es un número n de datos, es decir, de valores o anotaciones sobre que modalidad (cualitativas) o que valor (cuantitativas), tiene cada elemento de la muestra; a este conjunto de datos se le llama distribución y excepto cuando el tamaño n de la muestra sea demasiado pequeño, se debe resumir para que la lectura de los resultados sea comprensible.
La organización y el resumen de la información son dos procesos distintos y los mismos se desarrollan por separado.
La organización de los datos hace referencia al arreglo de ellos en un formato lógico para su interpretación.
El resumen de la información implica la condensación de varias mediciones en una forma compacta, ya sea gráfica o numéricamente.
Organización de los datos La información estadística puede organizarse de diversas maneras: ordenando el conjunto
de datos como una combinación ordenada o en un arreglo denominado tallo y hojas, otro de los métodos usados es el uso de tablas y más específicamente la tabla de frecuencias.
Combinación o arreglo ordenado: consiste en el ordenamiento de menor a mayor o de mayor a menor de los datos correspondientes a una variable observada. Sin esta mínima organización de los datos, los mismos arrojan muy poca información.
Por ejemplo ante esta colección de datos que representan el peso en kilogramos de 30 personas.
82 95 92 62 85 92
82 95 70 85 84 95
91 82 94 76 88 91
87 80 68 58 76 85
110 60 75 88 64 74
Podemos observar que estos datos organizados de este modo no aportan mayor información
a cerca del comportamiento de la variable observada. Pero si estos datos los ordenamos de
menor a mayor.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 11
58 70 80 85 88 94
60 74 82 85 91 95
62 75 82 85 91 95
64 76 82 87 92 95
68 76 84 88 92 110
La información que proporciona comienza a ser más interesante, porque podemos concluir que:
El peso mas bajo es 58 kg. El más alto 110 kg.
Hay un vacío entre los 65 kg. y los 110 kg., es decir que hay una cierta continuidad desde el
peso mas bajo (58 Kg.) y los 95 kg, y el 110 se encuentra un poco mas alejado del grupo de
datos.
Arreglo de tallo y hojas: es una técnica que resume de manera simultánea los datos en forma
numérica y presenta una ilustración gráfica de la distribución.
Se trata de organizar los datos numéricos en dos columnas divididas por una línea vertical.
La primera de las columnas, denominada tallo, corresponderá a las decenas, centenas o
unidades superiores que representan el grupo de datos y en la segunda, llamada hojas, irán
las correspondientes unidades. Para construir el correspondiente arreglo de tallo y hojas.
para el peso en kilogramos de las 30 personas que se mencionan anteriormente pensaremos
en cada uno de los datos separando las decenas y centenas de las unidades, colocando en la
primera columna las centenas y decenas, en este ejemplo de 5 a 11, estos números
representarán el tallo y luego en la siguiente columna se listan las unidades, que
representarán las hojas, de manera ordenada, de cada uno de los datos registrados y
correspondientes con su respectiva decena
Tallo Hojas
5 8
6 0 2 4 8
7 0 4 5 6 6
8 0 2 2 2 4 5 5 5 7 8 8
9 1 1 2 2 4 5 5 5
10
11 0
12
Al mismo tiempo que se ordenan los datos en forma ascendente, también se puede visualizar como es el comportamiento de los mismos, puede observarse que entre los 80 y los 90 kg. se concentran la mayor parte de las mediciones obtenidas y se ve claramente el vacío que se produce entre los 95 y los 110 kg.
Para entenderle un poco más, hemos de decir que el segundo renglón que dice:
6 | 0 2 4 8 quiere decir que entre la lista de datos se encuentran los valores 60, 62,64.y 68.
En realidad una representación de tronco y hojas presenta la misma información que la lista original de datos, pero de una manera mucho más compacta (especialmente si la lista de datos es más grande) y manejable.
Sin embargo, información más compleja resulta un poco más difícil de manejar, por lo que en ocasiones conviene redondear los datos, ignorar sus partes decimales o utilizar las centenas u otras posiciones de los números para las troncos. En cada uno de esos casos conviene hacer alguna anotación, o poner una nota, a fin que los lectores puedan identificar las adecuaciones realizadas y así poder interpretar lo que se quiere transmitir.
Tablas de frecuencias El primer paso para realizar el resumen de datos es siempre el recuento de las repeticiones de un mismo valor o modalidad; ello nos conduce al concepto fundamental de frecuencia.
Frecuencia Es el número de veces que se repite una misma observación.
Una frecuencia puede expresarse en dos formas: en términos absolutos o en términos relativos.
Frecuencia absoluta: Es específicamente el número de repeticiones de una misma
observación en números absolutos
Por ejemplo:
5 casos de rubéola
1 caso de meningitis
130 casos de bronquitis
Frecuencia relativa: es la expresión en términos de porcentajes de la frecuencia absoluta.
La misma se obtiene como el cociente entre la frecuencia absoluta y el número total de observaciones. La frecuencia relativa debe acompañarse siempre por una cifra absoluta para su correcta interpretación
10% de niños con diarrea (n=150)
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 13
Cuadro II – Tipo de frecuencias
SIMPLE (ni) Nº de repeticiones que presenta una
observación
ni ABSOLUTAS
ACUMULADA
(fi)
Suma de los distintos valores de las
frecuencias absolutas tomando como
referencia un individuo dado. La
última frecuencia acumulada es el
total del número de observaciones
f(a)
SIMPLE (fa) Frecuencia absoluta dividida por el
número total de observaciones y suele
expresarse en %. La suma total es igual
al 100%.‐
f(i)
T
I
P
O
D
E
F
R
E
C
U
E
N
C
I
A
S
RELATIVAS
ACUMULADA
(Fi)
Frecuencia absoluta acumulada
dividida por el total de observaciones.
También puede definirse a partir de la
suma de la frecuencia relativa
tomando como referencia a un
individuo dado. La última frecuencia
relativa acumulada es 100%
F(i)
Las frecuencias son aplicables a cualquier tipo de variables y de ahí su importancia, además
pese a ser muy simples introducen a conceptos importantes como el de proporción y son
base para la construcción de cualquier resumen de datos.
Distribución de frecuencias
Según los datos que muestre puede clasificarse en:
Distribución de frecuencias simple:
Se utilizan cuando el número posible de valores o categorías que puede asumir la variable
(sea cuantitativa discreta o cualitativa) es relativamente reducido
14
Por ejemplo;
Se tiene el siguiente número de respuestas correctas en un examen:
6,4,5,4,0,2,8,5,7,3,1,9,6,4,6,0,9,1,3,10
Construir una distribución de frecuencias
Ordenar los datos de menor a mayor
0,0,1,1,2,3,3,4,4,4,5,5,6,6,6,7,8,9,9,10
Nº de respuestas correctas
xi
Frecuencia absoluta
ni
Frecuencia relativa
fi
Frecuencia acumulada
fa
Frecuencia relativa acumulada
Fi
0 2 0,1 = 10% 2 0,1 = 10%
1 2 0,1 = 10% 4 0,2 = 20%
2 1 0,05 = 5% 5 0,25 = 25%
3 2 0,1 = 10% 7 0,35 = 35%
4 3 0,15 = 15% 10 0,50 = 50%
5 2 0,1 = 10% 12 0,60 = 60%
6 3 0,15 = 15% 15 0,75 = 75%
7 1 0,05 = 5% 16 0,80 = 80%
8 1 0,05 =5% 17 0,85 = 85%
9 2 0,1 = 10% 19 0,95 = 95%
10 1 0,05 = 5% 20 1 = 100%
Total 20 1 = 100%
También pueden ser utilizadas las distribuciones de frecuencias simples para describir
ordenadamente datos cualitativos, en este caso las xi son las modalidades o categorías que
asume la variable cualitativa.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 15
Por ejemplo
Distribución de frecuencia del estado civil de los empleados del Hospital “Estrella de Mar”
Ciudad Sueño del Mar ‐ Enero 2014
Estado civil ni fi (%) fa Fi (%)
Soltero 30 30,0 30 30,0
Casado 40 40,0 70 70,0
Viudo 10 10,0 80 80,0
Divorciado 15 15,0 95 95,0
Otros 5 5,0 100 100,0
Total 100 100
Distribución de frecuencias para datos agrupados
Este tipo de distribución de frecuencias se utiliza solo para describir y presentar datos
cuantitativos.
La elaboración de una distribución de frecuencias para datos agrupados requiere de alguna
preparación previa de los mismos que no solo consiste en el ordenamiento de menor a
mayor únicamente, sino que también deben tenerse en cuenta algunas condiciones
necesarias para poder agrupar adecuadamente los valores que asume la variable, entre los
que encontramos:
Rango: es la diferencia entre el valor máximo y el mínimo que asume la variable a describir.
16
Intervalo de clase Llamamos intervalo de clase a cada uno de los intervalos contiguos en que pueden agruparse los valores que adopta una variable cuantitativa, cuando se trabaja con gran cantidad de valores.
Los intervalos se definen para tener una idea mas concreta de la realidad.
Siempre que se agrupa una variable por intervalos se produce una pérdida de información, pues lo que se tiene en cuenta es la pertenencia o no de cada dato al intervalo y no su valor exacto; se considera que la distribución dentro del intervalo es homogénea.
Los intervalos de clase seleccionados, al igual que las categorías de una variable cualitativa deben ser: exhaustivos y mutuamente excluyentes. (Ver pag. 9).
No existe un criterio claro de cuál debe ser el número de intervalos que debemos escoger, se suele fijar entre 5 y 15, de tal manera que cada clase contenga al menos 5 valores distintos.
Entre los criterios para decidir el número de intervalos (k) destacamos:
Regla de Sturges: k debe ser el número entero mayor más próximo a k=1+3,322*log n,
Regla de Norcliffe: k debe ser aproximadamente igual a la raíz cuadrada positiva del número de datos (N).
Amplitud del intervalo de clase (ai): es el cociente entre el rango (R) y el número de intervalos (k). Si este cociente no es entero, entonces debe redondearse al entero superior.
Límites de clase: todo intervalo de clase tiene dos límites uno inferior y otro superior.
Límite inferior: es el valor más pequeño que pueden tomar los datos que se encuentran en un intervalo.
Límite superior: es el valor más grande que pueden tomar los datos que se encuentran en un intervalo.
Es necesario definir con claridad los límites de estos grupos o intervalos de clase, de modo que sepamos bien a que intervalo pertenece una observación individual.
Por ejemplo: para la variable edad.
Se pueden establecer intervalos de clase como los siguientes:
A B
0‐4 0‐5
5‐9 5‐10
10‐14 10‐15
15‐19 15‐20
20‐24 20‐25
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 17
También podemos mencionar otro elemento de los intervalos que son los límites reales (LR), en realidad cada intervalo de clase tiene dos límites reales, el límite real inferior (LRI) y el límite real superior (LRS), la particularidad de estos limites reales consiste en que el LRS de una clase es igual al LRI de la siguiente, estos se calculan como la semisunma de los límites de clase superior e inferior de intervalos contiguos.
En el ejemplo (A) anterior:
Los límites reales del segundo intervalo son LRI = 4+5/2= 4,5 LRS= 9+10/2=9,5
Marca de clase: es el punto medio de un intervalo de clase ( c )
Se obtiene como cálculo de la semisuma de los extremos del intervalo
2si LL
c
Donde Li es el límite inferior del intervalo y Ls es el límite superior del mismo intervalo
Una vez que hemos preparado los datos recién estaremos en condiciones de comenzar a confeccionar la tabla de frecuencias para datos agrupados.
En resumen los pasos para la confección de dicha tabla son:
Calcular el número de intervalos a establecer, a partir de la raíz cuadrada del número de datos u otro método del cálculo.
NervalosdenúmeroeldatosdenúmeroelesNsi int
Calcular el Rango de los datos, localizando el valor mínimo y máximo que adoptan los datos de la distribución, y efectuando la diferencia entre ellos.
MínMáxRango
Calcular el tamaño o amplitud del intervalo de clase.‐ (ai)
)(intº
)(
kclasedeervalosdeN
Rrangoai
Si el rango es un número divisible entre el número de intervalos, entonces el cociente da su amplitud.
Si el rango es un número que no es divisible por el número de intervalos, se busca el primer número entero por exceso, ahora el cociente entre este número y el número de intervalos, será la amplitud de los mismos.
Cuando esto ocurre y es necesario redondear la amplitud del intervalo, también es necesario recalcular el rango (R), multiplicando la cantidad de intervalos que se van a definir por la amplitud de modo que:
R*= k X ai
18
Una vez realizado el cálculo del R* se plantea una diferencia por exceso del tipo
R* ‐ R, si el resultado de esa diferencia es par se divide en dos y el valor obtenido se resta al valor mínimo de la distribución y se suma al valor máximo de la misma
Min‐R*/2
Max + R*/2
Si en el cálculo del exceso se hubiera obtenido un número impar, la distribución de los excesos entre los límites se calcula considerando hacia dónde se agrupan más los datos.
Luego para obtener los límites de los intervalos, el método consistirá en:
Delimitar los límites inferiores (LI) de los intervalos:. Partiendo del valor mínimo de la serie, se suma la amplitud y se obtiene el LI del intervalo siguiente, a este se le suma la amplitud y se obtiene el subsiguiente, y así hasta llegar al último LI de la escala.
Delimitar los límites superiores (LS) de los intervalos: se hará sustrayendo una unidad al LI siguiente. En el caso del LS del último intervalo, se obtiene sumándole la amplitud al último LI, y luego restando al resultado una unidad.
Se sugiere redondear el tamaño de la amplitud a un número entero
Por ejemplo:
Se obtienen los siguientes valores de la medición de una variable continua
204,4 239,1 249,0 250,8 240,3 315,5 197,7226,8 186,5 233,0 237,9 254,0 239,0 240,2238,9 290,3 247,4 244,4 234,6 309,2 276,0241,0 211,7 257,3 288,3 286,0 302,0 184,5243,0 282,9 217,4 229,3 199,3 194,6 220,7
Rango = 315,5‐184,5= 131
69161,535int ervalosNúmerode
Amplitud de los intervalos
226,216
131ia
Recalcular el rango
13222*6** iakR
Diferencia por exceso
1131132* RR
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 19
Estos valores obtenidos de los cálculos pueden ser orientativos, por lo cual si
atendiéramos a estas sugerencias obtendríamos:
184‐205
206‐227
228‐249
250‐271
272‐293
294‐315
316‐337
Luego una vez que hemos establecido los intervalos de clase ya estamos en condiciones
de construir la distribución de frecuencias de la siguiente forma:
Intervalo Frecuencia Marca de Clase Fa Fr. Fra
184‐205 6 194,5 6 0,17 0,17
206‐227 4 216,5 10 0,11 0,29
228‐249 14 238,5 24 0,40 0,69
250‐271 3 260,5 27 0,09 0,77
272‐293 5 282,5 32 0,14 0,91
294‐315 3 304,5 35 0,09 1,00
316‐337 0 326,5 0 0 1
Total 35
20
Presentación de los datos Tablas Una tabla es una forma de presentación de los datos estadísticos ordenados sistemáticamente para facilitar la descripción y análisis de los hechos. La tabla es una herramienta para mostrar información y para analizarla. En una investigación o en cualquier actividad que se trabaja con datos, cada tabla que se construye tiene como fin contestar alguna pregunta precisa, las cuales han sido formuladas al definir los objetivos. Existen diferentes tipos de tablas, dependiendo de lo que se quiera mostrar. Aún así entre ellas hay elementos comunes como:
ASEGURADOS EN LA COMPAÑIA Z de Ciudad Sueño del Mar SEGÚN SECTOR Y DIVISION
DEACTIVIDAD ECONÓMICA
2003‐2013‐EN MILES DE PERSONAS
Sector Servicios
Año Comercio Transporte y
comunicaciones
Servicios para
empresas y el
hogar
Servicios
sociales y
comunales
Otros
grupos(1)
Eventuales del
campo en
general(2)
1995 1676 483 1672 993 1614 ND
1997 1919 551 2020 1084 1962 203
1998 2070 586 2185 1039 2111 159
1999 2676 619 2328 1159 2360 146
2000 2322 654 2415 1259 2518 152
2001 2380 654 2424 1329 2768 166
2002 2436 659 2471 1376 3103 156
2003 2427 660 2539 1444 3424 100
2004 2454 674 2669 1500 3707 85
2005 2599 706 2895 1480 3881 99
2006 2769 740 3190 1546 4217 115
Nota: Los años 1995 y 1996, no registran datos de asegurados eventuales del campo en general.‐
(1) Comprende: seguro individual y colectivo, continuación voluntaria, trabajadores independientes y no especificados, estudiantes.‐
(2) Comprende: eventuales del campo no distribuidos por actividad económica hasta 2003
ND: cifra no disponible
Fuente: Compañía Z‐ Memoria estadística – Ciudad Soñada
Tabla IA
B1
B2
D1
D2
D3
D4
B3
C
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 21
A. Título
Describe el contenido haciendo referencia a algunos aspectos como:
Expresar el nombre de las variables, indicadores o categorías observadas.
Indicar el espacio territorial donde se produjeron los datos.
Indicar la fecha o período de tiempo al que se refieren los datos estadísticos.
Indicar la referencia de la unidad de medidas adoptadas.
Debe ser breve, completo y preciso. Se ubica preferentemente en la parte superior de la tabla para que sea más visible. Por ejemplo: Total de nacimientos por provincia – Argentina – Año 2014. B1. Encabezado en columna de la matriz En esta parte se enuncian las categorías, variables o indicadores que se muestran en las filas de la matriz. B2.‐ Descriptor de filas Enuncian los conceptos a los que se refieren los datos de cada fila. B∙.‐ Matriz de cifras Espacio en el cual se incorporan los valores cuantitativos de los datos o los símbolos que representen la ausencia de los mismos. C.‐ Indicador de orden Expresan el número de tabla y la secuencia de las partes si la misma se encuentra fraccionada. D1.‐Nota Información general sobre definiciones o referencias técnicas o metodológicas de los datos presentados. D2.‐ Llamada Información específica referida a algún elemento de la tabla D3.‐ Símbolos aclaratorios Signos convencionales que indicados mediante una letra o abreviatura D4.‐ Fuente Indica la procedencia de la información
22
Tipos de tablas
Se pueden tener distintos tipos de tablas según se presenten datos clasificados de acuerdo
con una o más características, las cuales pueden tener a su vez diferente naturaleza.
Observemos:
Tablas de una sola entrada:
Son aquellas en las que se presentan los datos clasificados de acuerdo con una única
característica o variable.
Esta característica mencionada puede ser de diferente naturaleza o medida en distinta
escala, por lo que tendremos:
A.1.‐ Tablas Con una escala cualitativa
CUADRO 1. Distribución de los residentes de pediatría encuestados, por hospital.
Argentina 2014
Hospital Ciudad Nº de residentes
encuestados
%
Elizalde Buenos Aires 96 27,5
Gutierrez Buenos Aires 66 18,9
Santísima Trinidad Córdoba 44 12,6
Ludovica La Plata 38 10,9
Infantil Córdoba 35 10
Garrahan Buenos Aires 33 9,5
Notti Mendoza 26 7,4
Castro Rendón Neuquén 11 3,2
Total 349 100
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 23
Distribución por sustancias y/o sus metabolitos encontradas en los fallecidos por reacción
aguda a sustancias psicoactivas – Ciudad Sueno del Mar ‐ 2014
DROGA NÚMERO % (Sobre el total de sujetos)
A. OPIÁCEOS
Heroína‐Morfina 18 17
Metadona 31 29,2
Otros Opiáceos 14 13,2
B. ESTIMULANTES
Cocaína 45 42,4
C. HIPNÓTICOS Y SEDANTES
Benzodiacepinas 56 52,8
Antipsicóticos 18 17
Otros 6 5,7
E. ANTIDEPRESIVOS 23 21,7
F. CANNABIS 4 3,8
G. ALCOHOL 23 21,7
Fuente: dirección de Estadísticas de Salud – ciudad Sueño del Mar ‐ 2014
24
A.2.‐ TABLAS CON UNA ESCALA CUANTITATIVA DISCRETA
Distribución del número de hijos de los empleados del Hospital Estrella de Mar‐ Ciudad
Sueño del Mar – Año 2014
Hijos Empleados %
0
1
2
3
4
5
6
7
8
60
50
80
50
30
15
8
6
1
20,0
16,7
26,6
16,7
10,0
5,0
2,7
2,0
0,3
Total 300 100,0
Fuente: SIE – Hospital Estrella de Mar – Ciudad Sueño del Mar
Número de hijos por hogar del Barrio Los Calamares Ciudad Sueño del Mar – 2014
Número de hijos Número de hogares Porcentaje
1 16 32,00
2 11 22,00
3 11 22,00
4 6 12,00
5 6 12,00
Total 50 100,00
Fuente: Dirección de Estadística – Ciudad Sueño del Mar – 2015
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 25
A.3.‐ TABLA CON UNA ESCALA CUANTITATIVA CONTINUA
Distribución por grupos de edad de los fallecidos por reacción aguda a sustancias psicoactivas – Hospital Estrella de Mar – Ciudad Sueño del Mar – 2014
Grupos de edad Frecuencia Porcentaje
15‐19 1 0,94
20‐24 2 1,89
25‐29 6 5,66
30‐34 11 10,38
35‐39 14 13,21
40‐44 25 23,58
45‐49 19 17,92
50‐54 15 14,15
55‐59 6 5,66
60‐64 5 4,72
SD 2 1,89
Total 106 100,00
Fuente: Dirección de Estadística – Ciudad Sueño del Mar 2015
Tabla Nº 4: Recién Nacidos según peso al nacer. Instituto de Maternidad e Infancia. Ciudad Sueño del Mar. Año 2014
Peso al nacer Nº %
Menos de 500 91 1
500‐999 92 1
1000‐1499 152 1
1500‐1999 274 3
2000‐2499 601 5
2500 y más 9958 89
Total 11168 100
Fuente: SIE ‐ Instituto de Maternidad e Infancia – Ciudad Sueño del Mar ‐2015
26
Tablas de doble entrada
Son aquellas en las que se presentan datos clasificados de acuerdo con dos variables, es
decir que los individuos son observados bajo dos características, e interesa analizar la
relación entre ambas. Esto da origen a las tablas de asociación si las dos variables son
cualitativas o una es cualitativa y la otra cuantitativa. En caso de dos variables cuantitativas
las tablas son de correlación.
B.1. TABLAS CON DOS ESCALAS CUALITATIVAS Tabla Nº 9. Peso al Nacer según alfabetismo de la madre. Instituto de Maternidad e Infancia Ciudad Sueño de Mar – Año 2014
Peso al nacer Alfabetas Analfabetas Total
Nº % Nº % Nº %
Bajo 914 9 296 22 1210 11
Normal 8915 91 1043 78 9958 89
Total 9829 100 1339 100 11168 100
Fuente: SIE – Instituto de Maternidad e Infancia – Ciudad Sueño del Mar
B.2. TABLAS CON UNA ESCALA CUALITATIVA Y OTRA CUANTITATIVA
Tabla Nº 5.Distribución de Recién nacidos según peso al nacer y sexo. Instituto de
Maternidad e Infancia – Ciudad Sueño del Mar – Año 2014
Peso al nacer Masculino Femenino Total
Nº % Nº % Nº %
Menos de 500 47 1 44 1 91 1
500‐999 48 1 44 1 92 1
1000‐1499 79 1 73 1 152 1
1500‐1999 142 2 132 2 274 3
2000‐2499 313 5 288 5 601 5
2500 y más 5178 89 4780 89 9958 89
Total 5807 100 5361 100 11168 100
Fuente: SIE – Instituto de Maternidad e Infancia – Ciudad Sueño del Mar
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 27
Tabla Nº 1 .Distribución por sexo y edad de 1.859 casos de Tuberculosis denunciados en la
ciudad Sueño del Mar .2010‐2014
Sexo 0-4 5-14 15-24 25-34 35-44 45-54 55-64 65 y más
Hombres 1.326 72 57 109 364 263 225 94 142
(71,3%)
Mujeres 533 52 47 99 134 64 37 24 76
(28,7%)
Total 1.859 124 104 208 498 327 262 118 218
(100%) (6,7%) (5,6%) (11,2%) (26,8%) (17,6%) (14,1%) (6,3%) (11,7%)
Fuente: Departamento de Estadísticas de Salud – Ciudad Sueño del Mar
B.3. TABLAS CON DOS ESCALAS CUANTITATIVAS (TABLAS DE CORRELACION)
< 20 > 20 Total Nro de Hijos Nro % Nro % Nro %
0 8 16,00 14 26,92 22 21,57
1‐2 20 40,00 6 11,54 26 25,49
3‐4 10 20,00 19 36,54 29 28,43
5‐6 10 20,00 6 11,54 16 15,69
más de 6 2 4,00 7 13,46 9 8,82
Total 50 52 102
Fuente: encuesta
Madres consultantes al Servicio de Ginecología del Hospital Estrella de Mar
según edad materna y número de hijos – Ciudad Sueño del Mar 2014.‐
28
C. Casos especiales C.1. Cronológicas - Series de Tiempo Definición
“Una serie en el tiempo es un conjunto de observaciones tomadas en instantes específicos, generalmente a intervalos iguales.”
Matemáticamente, una serie en el tiempo está definida por valores Y1, Y2, ... de una variable, en tiempos t1, t2, ... Así pues, Y es una función de t; Y = F(t), donde t es la variable independiente : tiempo.
“Y" es la variable cuyo comportamiento a través del tiempo se desea estudiar o sea que la serie de tiempo es una serie estadística (información cuantitativa) cuyos valores han sido observados en el tiempo.
Las variables que intervienen pueden ser: años, meses, días, horas, quinquenios, etc (t). Trabajando generalmente con intervalos iguales e " y": totales, promedios índices, etc.
Aplicación
La teoría y análisis de las series de tiempo pueden ser aplicados a múltiples campos, pudiendo afirmarse que todo hecho representable cuantitativamente y que sucede a lo largo de un período de tiempo puede estudiarse como una serie de tiempo: podemos mencionar como ejemplo:
Temperatura ambiente, temperatura de los pacientes, electrocardiogramas‐Movimiento demográfico‐ Accidentes de trabajo‐ cantidad de pasajeros transportados‐ Series Meteorológicas‐ Monto de Ventas ‐ Precios minoristas ‐ Mayoristas‐ Montos de producción agrícola, ganadero o industrial ‐ volumen de exportaciones e importaciones ‐ Crecimiento ‐ Población, etc.
Ejemplo
Esperanza de vida en años de Argentina – 1960-2012Año EV/ en años1960 65,18
1965 65,63
1970 66,55
1975 68
1980 69,47
1985 70,59
1985 70,59
1990 71,5
1995 72,62
2000 73,72
2005 74,74
2010 75,63
2011 75,85
2012 76,92
Fuente: Banco Mundial ‐ 2015
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 29
C.2. TABLAS DE 2X2 O TETRACÓRICAS.
Es muy usual que en Epidemiología se analice la distribución de una variable en relación con otra, buscando generalmente un patrón que indique la relación existente o no, entre ellas.
Este análisis suele ser clave en la identificación de las posibles causas de los problemas de salud, y también de factores que, aun cuando no puedan ser finalmente considerados causales, resulten estar asociados a estos daños y constituyan importantes elementos prácticos para la identificación de grupos con mayores riesgos de padecer el mencionado daño. El estudio de la influencia de una variable (variable independiente) sobre la forma en que se modifica otra (variable dependiente) es conocido como análisis bivariado.
Las tablas de contingencia (tablas de doble entrada) son una herramienta fundamental para este tipo de análisis. En su expresión más elemental, las tablas tienen solo 2 filas y 2 columnas (tablas de 2x2), donde las filas identifican la exposición a la variable en estudio y las columnas la presencia o no del efecto (daño‐enfermedad)
Para examinar este problema, un primer paso puede ser calcular la frecuencia relativa de cada celda, Sin embargo, el análisis de la relación entre las variables estudiadas es más directo cuando se computan medidas de asociación. Estas medidas, basadas en la comparación entre las frecuencias del daño en diferentes grupos ( expuestos y no expuestos), pueden realizarse a través de razones.
Tabla 2. Tabla de contingencia para el sexo femenino: Ecografía Versus diagnóstico anatomopatológico – Ciudad Sueño del Mar – 2014
ECO Anatomía patológica (+) Anatomía patológica (‐)
Ecografía (+) 25 5
Ecografía(‐) 16 4
Fuente: Servicio de Ginecología – Hospital de Maternidad e Infancia – Ciudad Sueño del Mar
Gráficos En estadística denominamos gráficos a aquellas imágenes que combinando la utilización de elementos como sombreado, colores, puntos, líneas, símbolos, números, texto y un sistema de referencia (coordenadas), permiten presentar información.
Los gráficos sirven para sustituir las tablas como herramienta para el análisis de datos.
Las gráficas son una herramienta poderosa y eficaz para comunicar visualmente diversos tipos de información numérica de manera que facilite tanto la comprensión de conjuntos de datos complejos, como evidenciar relaciones, patrones y tendencias.
30
Propósitos de un gráfico
Representar la realidad. No generar realidades inexistentes fuera de la propia imagen. Permitir una rápida impresión visual de la información que resume.
Para que los propósitos enunciados puedan cumplirse, los gráficos deben:
Ser Autoexplicativos. Ser Sencillos. Justificarse. Contener la cantidad de información suficiente. Inducir a pensar en el contenido y no en la apariencia. Favorecer la comparación. Adecuados para el soporte al que van a ser destinados
Una presentación gráfica de información estadística se compone de tres partes fundamentales.
Título:
Describe el contenido de la información presentada, en relación con los siguientes aspectos: características del fenómeno bajo estudio, nombre de las variables observadas, espacio territorial al que se refieren los datos , momento, fecha o período en el que ocurren y una magnitud constante que es adoptada como referencia (unidad de medida).
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 31
Cuerpo o ilustración gráfica:
Es la ilustración de los valores asociados a los datos presentados, compuesta por:
Figura: conjuntos de puntos, líneas o figuras que representan los datos.
Referencia del concepto: descripción del nombre de las categorías o indicadores que se están representando.
Referencia escalar: línea recta que representa la escala de medición de las variables representadas, no todos los gráficos la requieren y no siempre es explícita.
Leyenda: descripción de la simbología, que puede utilizarse como, colores, sombreados, texturados, o tipos de líneas que permiten diferenciar los datos estadísticos.
Etiquetas de datos: expresión específica de los valores estadísticos.
Pie de gráfica
Se utiliza para realizar aclaraciones referentes al contenido conceptual, técnico o metodológico general del gráfico y está compuesto por:
Nota: Información general sobre definiciones o referencias técnicas o metodológicas de los datos.
Llamadas y símbolos: Información sobre elementos específicos de los componentes título y cuerpo de la gráfica; incluye descripciones del significado convencional de letras aplicadas para indicar particularidades o acotaciones en determinados valores o conceptos de referencia de los datos.
Enunciado de fuentes: Indica la procedencia de la información.
Número de Gráfica: Elemento de identificación necesario para ordenar y distinguir a cada gráfico en un documento, no es obligatorio su uso ya que se reserva para aquellos documentos que contengan más de un gráfico.
Debido a la necesidad de analizar en detalle la información estadística, se ha creado una variedad muy amplia de representaciones gráficas, dentro de las cuales encontramos:
Gráficos de ejes coordenados Gráficos de área Gráficos Radiales o de Radar Cartogramas Combinación de tipos de gráficos.
Gráficos de ejes coordenados
Consisten en la intersección de líneas rectas ortogonales, una de las cuales se selecciona para indicar la escala de valores de los datos estadísticos, y, la otra, para indicar los conceptos a los que se refieren los datos estadísticos objeto de representación.
32
Eje vertical: se llama eje de ordenadas, corrientemente conocido como eje de las “y”, y sobre él se representan las frecuencias que pueden expresarse en cifras absolutas o relativas (%). La escala se inicia en 0 y hasta la máxima frecuencia.
0
5
10
15
20
25
30
35
Nº
0
5
10
15
20
25
30
35
40
%
Si las frecuencias son muy diferentes de 0 se hace un corte a una distancia pequeña del origen del eje iniciando la graduación del mismo con un valor cercano al menor observado.
Igual sucede cuando las observaciones están muy concentradas entre cierto rango de valores.
Eje horizontal: es llamado de abscisas o eje de las “x” y en él se coloca la escala (valores o categorías de una variable).
En el eje de ordenadas se debe indicar si se mide en números absolutos o en porcentajes.
En el eje de las abscisas se indica cada una de las categorías o modalidades que adopta la variable observada.
Gráficos de áreas
Consisten en la presentación de un área en forma circular (pay) o rectangular (barra seccionada), que corresponde al valor total de una categoría, la cual es segmentada, en los valores de las clases en que se distribuye la categoría, de acuerdo con determinada variable. La diferenciación de las secciones y su correspondencia con las clases requiere el uso de lo que en este documento denominamos simbología (colores y leyenda). Para este tipo de gráfico se presentan dos modalidades: circular o rectangular.
Gráficos radiales
Sistema de ejes radiales, con origen común en cero y escalas estandarizadas. En cada eje se representan los valores de una variable distinta, que básicamente sean comparables entre si.
Cartogramas
Sistema basado en la utilización de mapas territoriales, para referenciar cada uno de los valores de una variable en las diferentes unidades territoriales o también para representar valores de un indicador de movimiento o flujo entre unidades territoriales distintas.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 33
Tipos de gráficos Los gráficos al igual que las tablas pueden ser seleccionados según la naturaleza de los datos que se deseen analizar y/o presentar, como también del número de variables que se involucren en el análisis. En el siguiente cuadro se indica cual será la forma de tabular los datos mas adecuada como así también el tipo de gráficos que pueden seleccionarse según se observen una o dos variables.
Nro. de variables a observar
Tipo de variable Tabulación Gráfico
Cualitativa Frecuencia
Proporción
porcentaje
Barras
Áreas
Pictogramas‐ Cartogramas
Cuantitativa discreta Frecuencia
Proporción
Porcentaje
Simples y acumulados
Barras
Áreas
1 variable
Cuantitativa continua Frecuencia
Proporción
Simples y acumuladas
Histograma
Polígono de frecuencias
Cualitativa + cualitativa Frecuencia
Proporción
porcentaje
Barras
Barras 100%
Barras segmentadas
Cualitativa + cuantitativa
Frecuencia
Proporción
Porcentaje
Simples y acumulados
Barras
Barras segmentadas
Cajas y bigotes 2 variables
Cuantitativa + cuantitativa
Correlación
Gráficos de barras
Los datos clasificados en escala cualitativa y cuantitativa discreta se representan en el gráfico de barras o columnas; son rectángulos de igual base , sobre el eje en que se represente la /s variable/s observada/s , en tanto que la altura del rectángulo indica la magnitud o frecuencia
34
de cada grupo. Cuando el gráfico presenta varias barras, las mismas deben ordenarse de menor a mayor o inversamente. El orden depende del objetivo.
Las barras pueden representarse tanto en forma horizontal como vertical. Una norma para determinar la orientación de las barras es que éstas se tracen verticalmente, si ello no impide escribir debajo de las mismas la leyenda correspondiente a cada una, caso contrario se representarán horizontalmente.
La leyenda explicativa no debe ser escrita en los extremos finales de las barras ni dentro de ellas, pues esto dificultaría la comparación. El ancho de las barras, debe ser mayor que los espacios dejados entre ellas.
Cuando se grafica mas de una categoría existen diferentes variedades de presentación.
Gráficos de barras simples Caso de una variable cualitativa
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 35
Caso de dos variables cualitativas
36
Caso de una variable cualitativa y una cuantitativa
Grafico de Barras Segmentadas o Proporcionales
Además de las barras simples podemos usar un gráfico de barras segmentadas en que una
sola de estas representa el total de observaciones ó 100% y se divide proporcionalmente en
el número de grupos que exista.
Caso de dos variables cualitativas
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 37
Caso de una variable cualitativa y una cuantitativa
Gráfico de barras agrupadas
Este tipo de gráfico representa tablas donde se presenta la relación entre dos variables. Se
utiliza para mostrar la distribución de dos variables cualitativas y en algunos casos
cuantitativas discretas o continuas cuando la cantidad de valores o intervalos de clases
considerado es pequeño, y para representar la distribución de una variable cualitativa en dos
o más grupos.
38
Gráficos de puntos
Es un tipo de representación que suele utilizarse para sustituir a la gráfica de barras, si se pretende representar una sola variable. El diagrama de puntos es una representación de datos útil para muestras pequeñas, hasta (digamos) unas 20 observaciones (Douglas C. Montgomery, 2009).
Si en cambio se necesita representar y/o analizar la relación de dos variables cuantitativas, el gráfico de puntos del que estaremos hablando es un gráfico de correlación, en el que cada uno de los puntos se ubican según un par de coordenadas que le corresponden. En este tipo de gráficos los dos ejes representan las escalas, a diferencia de los casos anteriores que solo el eje de abscisas estaba graduado con su escala.
Gráficos de correlación
Dadas dos variables cuantitativas X y Y tomadas sobre el mismo elemento de la población, el diagrama de dispersión o correlación es simplemente un gráfico de puntos, de coordenadas (x,y) , donde en el eje x (la abscisa) se grafica la variable independiente, y en el otro eje, y (la ordenada) se grafica la variable dependiente.
Ambos ejes representan las escalas a diferencia de los casos anteriores en que solo la abscisa estaba graduada con la escala.
Aquí cada individuo está representado por un punto determinado por las perpendiculares levantadas en los ejes en los valores correspondientes.
Es importante resaltar que los puntos de un gráfico de correlación no se unen.
NOTA:
Si las variables están correlacionadas, el gráfico mostraría algún nivel de correlación
(tendencia) entre las dos variables. Si no hay ninguna correlación, el gráfico presentaría una
figura sin forma, una nube de puntos dispersos en el gráfico.
Ejemplo
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 39
Gráficos de líneas
En estos gráficos los valores se representan con puntos, los que se unen con líneas para facilitar la visualización de la variación de una variable continua. Se utilizan generalmente cuando se desean representar series de tiempo.
Series de tiempo o cronológicas
Una serie en el tiempo que involucra a una variable Y se representa por un gráfico de Y respecto de t (tiempo)
Se usan para mostrar la evolución o magnitud de un fenómeno a través del tiempo (Series de tiempo o cronológicas).
Se construyen uniendo los puntos cuyas coordenadas son la frecuencia (ordenada) y la unidad de tiempo de observación (abscisa). En este tipo de gráfico es particularmente importante la relación de proporcionalidad entre los ejes para evitar malas interpretaciones del fenómeno que se presenta.
Caso de una variable cuantitativa
40
Caso de una variable cuantitativa y una cualitativa
Movimientos característicos de series en el tiempo
Es interesante pensar en el gráfico de una serie en el tiempo como un gráfico que describe un punto moviéndose con el paso del tiempo, análogo en muchos aspectos a la trayectoria de una partícula física que se mueve bajo la influencia de fuerzas físicas. Claro está que. en lugar de fuerzas físicas, aquí cabe pensar en el resultado de una combinación de fuerzas, económicas, sociológicas, psicológicas o de otros tipos.
La experiencia con muchos ejemplos de series en el tiempo ha revelado ciertos movimientos y variaciones características que aparecen a menudo, y cuyo análisis es de gran interés por muchas razones, una de ellas el problema de predicción de futuros movimientos.
Movimientos de series en el tiempo
1. Movimientos a largo plazo o seculares. Se refieren a la dirección general en la que el gráfico de una serie en el tiempo parece progresar en un largo período de tiempo. este movimiento secular (o variación secular o tendencia secular, como se llama a veces) se indica por una curva de tendencia, en trazo discontinuo. Para algunas series en el tiempo puede ser apropiada una recta de tendencia.
2. Movimientos característicos o variaciones cíclicas. Estas se refieren a las oscilaciones a largo término en torno a una recta o curva de tendencia. Estos ciclos, como se les llama, pueden ser periódicos o no; es decir, pueden seguir o no esquemas repetidos en intervalos iguales de tiempo. Un importante ejemplo de movimientos característicos lo constituyen los llamados ciclos económicos, que representan intervalos de prosperidad, recesión, depresión y recuperación.
3. Movimientos estacionales o variaciones estacionales. Estos se refieren a los esquemas idénticos o casi idénticos que una serie en el tiempo parece seguir durante meses correspondientes en años sucesivos. Tales movimientos se deben a sucesos recurrentes que tienen lugar anualmente. Aunque los movimientos estacionales se refieren generalmente en teoría de periodicidad anual, las ideas en juego admiten
Fuente: Dirección Nacional de Estadísticas e
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 41
extensión a intervalos cualesquiera de periodicidad (días, horas o semanas), según el tipo de datos de que disponemos.
4. Movimientos irregulares o aleatorios. Estos se refieren a los movimientos esporádicos series en el tiempo debidos a sucesos de azar, tales como inundaciones, huelgas o elecciones. Si bien se suele suponer que tales sucesos producen variaciones que pierden su influencia tras poco tiempo, cabe la posibilidad de que sean tan intensos que den lugar a movimientos cíclicos o de otro tipo.
Gráfico semilogarítmico
En este tipo de gráficos, en el eje de las ordenadas se utiliza una escala logarítmica y en el
eje de las abscisas una escala aritmética.
Si se examina el papel semilogarítmico podrá notarse que la distancia entre las marcas no es
uniforme, va decreciendo de 1 a 10. Además la distancia entre 1 y 10, es la misma que entre
10 y 100 o entre 100 y 1.000.
Recordemos:
Log 1 = 0
Log 10 = 1
Log 100 = 2
Log 1.000 = 3
Esta característica permite representar conjuntamente cantidades pequeñas y muy grandes
en el mismo dibujo.
Sin embargo, este tipo de gráfico es especialmente útil cuando se examinan series de datos
en un período de tiempo y estamos más interesados en los cambios relativos (tasas) que en
los valores absolutos.
Las ventajas del gráfico semilogarítmico son:
a) Una línea recta indica una tasa que se ha mantenido constante en el tiempo (‐.‐.‐.‐.‐)
b) La pendiente de la línea indica la tasa de incremento o de decrecimiento (________)
c) Dos o más líneas paralelas indican idénticas tasas de incremento o decrecimiento.
42
Una ilustración de este tipo de gráfico se muestra a continuación:
Gráficos de sectores, circular o pastel Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres).
Mediante un sector circular se representan las medidas angulares correspondientes a las diferentes categorías, respetando el orden establecido en la tabla, partiendo de un punto dado de la circunferencia. Ese punto dado generalmente es el punto más alto de la circunferencia (12hs. en el reloj). Si lo que se representa en cada sector no puede colocarse
Fuente: Departamento de Estadística Ciudad
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 43
dentro del mismo, se elabora una leyenda o se coloca fuera, adyacente al mismo. Se acostumbra a diferenciar los sectores con tramas o colores diferentes, lo que hace que resulte un gráfico más vistoso que el de barras simples.
Este tipo de gráficos son apropiados para representar estructuras, ya que permiten visualizar la participación de cada una de las partes dentro del total al que pertenecen.
Caso de una variable cualitativa
Histograma El histograma es el más conocido de los gráficos para resumir un conjunto de datos numéricos y pretende responder a las mismas preguntas que un gráfico de tallo‐hojas. Una ventaja del gráfico de tallo‐hojas es que retiene los valores de las observaciones, sin embargo, esta característica puede ser una desventaja al momento de tratar gran cantidad de datos. Construir manualmente un histograma es más laborioso que construir un gráfico de tallo‐hojas, pero la mayoría de los paquetes estadísticos producen histogramas
Para construir un histograma es necesario previamente construir una tabla de frecuencias.
Construcción del histograma
a) Intervalos de clase todos de la misma longitud.
Se trazan dos ejes de coordenadas cartesianas, sobre el eje horizontal (x) se representan los valores de la variable y en el eje vertical (y) una medida de frecuencia (frecuencia absoluta, frecuencia relativa o frecuencia relativa porcentual. Indicamos en el eje horizontal los límites de los intervalos de clase. Asociamos a cada clase una columna cuya base cubre el intervalo de clase y cuya altura indica cuantos datos “caen” en un intervalo a través de la frecuencia o la frecuencia relativa de la clase. El gráfico se construye sin dejar espacio horizontal entre categorías, a menos que una clase esté vacía (es decir tenga altura cero).
44
El propósito de un histograma es mostrar la forma de la distribución de los datos, por lo que debemos estar atentos a los aspectos visuales de la representación.
El histograma debería representar la frecuencia asociada a cada clase en el área de la barra y no en su altura. Cuando las clases son todas de la misma longitud representar la frecuencia en la altura es equivalente a representarla en el área, ya que en todas las barras el área y la altura son proporcionales,
En ocasiones es necesario construir histogramas con intervalos de clase de distinto tamaño, por ejemplo, cuando se toma información de datos sociales o económicos publicados por el estado. En estos casos, la altura de la barra debe ser tal que el área de la barra sea proporcional a la frecuencia.
b) Intervalos de clase de distinta longitud.
¿Cómo construimos el histograma teniendo en cuenta que los intervalos de clase son de distinta longitud?
La barra debe tener una altura tal que el área (base x altura) sea igual a la frecuencia (o a la frecuencia relativa).
Es decir, frecuencia observada = amplitud del intervalo* altura de la barra
altura de la barra = frecuencia observada / amplitud del intervalo
La altura de la barra definida de este modo se denomina escala densidad porque indica el número de datos por unidad de la variable.
Debido a la forma de obtención de esas alturas, el eje de las frecuencias debe rotularse como
número de individuos por unidad de medida de la variable en cuestión, por ejemplo:
'defunciones por año de edad'; 'número de individuos por kg de peso; etc.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 45
Polígono de frecuencias Se utiliza, al igual que el histograma, para representar distribuciones de frecuencias de variables cuantitativas continuas, pero como no se utilizan barras en su confección sino segmentos de recta, de ahí el nombre de polígono. Habitualmente se usa cuando se quiere mostrar en el mismo gráfico más de una distribución o una clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta, ya que por la forma de construcción del histograma sólo se puede representar una distribución.
Para su confección, una vez construidas y rotuladas las escalas, de manera similar a como se realiza para un histograma, los valores de alturas obtenidos se plotean sobre el punto medio o marca de clase de los intervalos correspondientes y luego se procede a unir esos puntos con segmentos de recta. El polígono se cierra uniendo su primero y último punto con la línea base del gráfico. De esta manera el área del polígono resulta aproximadamente igual al área del histograma que se obtendría si para los datos se adoptara tal tipo de representación.‐
Veamos un ejemplo de polígono de frecuencias
46
Gráfico de cajas y bigotes (Box plot) El gráfico de caja es una técnica estadística que se construye para cumplir con dos objetivos principales:
• visualizar las características o propiedades que tienen un conjunto dado de datos
• detectar la presencia de valores "outliers", o sea valores que resultan ser sospechosos.
Permite representar datos correspondientes a variables cuantitativas o a una variable cuantitativa y una o más cualitativa.
Los elementos necesarios para realizar la construcción de un gráfico de cajas y bigotes (BOX PLOT) serán desarrollados más adelante, por lo que en este caso solo se mostrarán ejemplos.
Para el caso de una variable cuantitativa
Para el caso de una variable cuantitativa y una cualitativa
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 47
Otras formas de representación gráfica
mapas pirámides de población pictogramas Los mapas se utilizan para mostrar la distribución geográfica de una característica. Su repetición para distintos períodos permite visualizar si han ocurrido modificaciones a través del tiempo.
La confección de este gráfico es muy sencilla y consiste en sombrear o colorear distintas áreas de un mapa de acuerdo con la magnitud de las características.
Como regla se debe tener en cuenta que cuando se utiliza sombreado, el más oscuro corresponde a los valores más altos.
Ejemplos
Cuando deseamos representar la composición de una población por sexo y edad usamos la
pirámide de población que permite la comparación de cada grupo de edad para ambos sexos.
La Pirámide se construye sobre dos ejes perpendiculares. A la izquierda del eje vertical se
representan los datos correspondientes a la población masculina y a la derecha los
correspondientes a la femenina. Es un histograma confeccionado a partir de barras
horizontales donde la altura de cada una de ellas expresará la cantidad de individuos que
pertenecen a un grupo de edad específico y según si encuentren a la derecha o la izquierda
del eje central serán se sexo masculino o femenino
En el eje vertical se marcan los distintos grupos de edades, en forma creciente hacia arriba, y
sobre el horizontal figuran las escalas de frecuencia, una para los varones y otra para las
mujeres; haciendo coincidir el cero con la intersección de los dos ejes resultan una serie de
48
rectángulos horizontales que van disminuyendo su longitud a medida que correspondan a
edades avanzadas.
En ciertas ocasiones se desean presentar datos en forma simple y agradable, por ejemplo,
para representar la producción se utilizan dibujos de bolsas de distintos tamaños, etc., estos
gráficos son llamados Pictogramas.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 49
Población del Partido de General Pueyrredón en los Años 1960 – 2010.
1960
224.824
1970
323.350
1980
434.160
1991
532.845
2001
564.056
2010 618.989
Fuente: Instituto Nacional de Estadísticas y Censos.
50
Resumen de los gráficos comúnmente utilizados
Resumen de los gráficos comúnmente utilizados para representar los diferentes tipos de datos:
TIPO DE DATOS NATURALEZA DE LA
VARIABLE TIPO DE DIAGRAMA
CUALITATIVA
Barras Segmentadas Barras Simples
Área Pictogramas
CUANTITATIVA DISCRETA O DISCONTINUA
Barras Área
Pictogramas
DISTRIBUCIONES DE
FRECUENCIA
CUANTITATIVA CONTINUA
Histograma Polígono de frecuencia Gráfico de correlación (caso doble entrada)
TENDENCIA (o VARIACION CON EL TIEMPO Y LA EDAD)
CONTINUA Series de tiempo
Curvas Semilogarítmicos
Errores más comunes en la construcción de gráficos En la confección de un gráfico se pueden cometer dos tipos de errores: errores de forma y errores de contenido. Aquí mencionaremos los que se han observado con más frecuencia en las publicaciones científicas.
De forma:
∙ No uso de la identificación.
∙ No aparición de título o títulos extremadamente extensos.
∙ Títulos que no responden a las preguntas básicas.
∙ Gráficos muy cargados y/o sumamente complejos de interpretar.
∙ Desproporción notable entre las longitudes de los ejes.
∙ Omisión de los rótulos de los ejes y/o las unidades de medida.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 51
De contenido:
Uso de gráficos inadecuados dada la naturaleza de lo que se representa. Omisión de la leyenda donde se han usado claves o símbolos. No respetar alguna de las reglas establecidas para la construcción del gráfico en
particular.
Por ejemplo, barras unidas cuando se trabaja con variable cualitativa o discreta.
El énfasis, en la presentación gráfica, debe ser la facilidad para comparar e identificar
comportamientos en los datos, por lo cual se recomienda evitar el uso de elementos ajenos
que distraigan la atención del usuario y dificulten la consulta de la información, como
perspectivas, terceras dimensiones, fotografías, dibujos de fondo, pictogramas y colores
llamativos.
52
Evitar en una gráfica la inclusión de distintas líneas de datos que impliquen la intersección en
varios puntos y esto dificulte su consulta.
No presentar gráficas de sectores si se dificulta la identificación de cada sección, ya sea por
el número de ellas o por la concentración de la mayor parte de éstas en una porción
pequeña del área. Se recomienda un máximo de 7 secciones en este tipo de gráfica.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo IV: Nociones Básicas de Estadística
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 53
Bibliografía
Armijo R.R. Epidemiología básica en Atención primaria de salud. Madrid: Díaz de Santos;
1993.
Rothman K.J. Epidemiología Moderna. Madrid: Ediciones Días de Santos; 1987.
Kelsey JL., Thompson WD., Evans AS. Methods in Observational Epidemiology. New York:
Oxford University Press; 1986. [Amazon]
Hennekens CH., Buring JE. Epidemiology in Medicine Boston: Litte, Brown and Company;
1987.
Sackett DL., Haynes RB., Guyatt GH., Tugwell P. Epidemiología clínica. Ciencia básica para
la medicina clínica. 2ª ed. Madrid: Editorial Médica Panamericana; 1994.
Fletcher RH., Fletcher SW., Wagner EH. Epidemiología clínica. 2ª ed. Barcelona: Masson‐
Williams & Wilkins; 1998.
Kleinbaum DG., Kupper LL., Morggenstern H. Epidemiologic Research. Principles and
Quantitative Methods. Belmont, California: John Wiley & Sons; 1982.
Miettinem OS. Theoretical Epidemiology. New York: Jhon Wiley & Sons; 1985.
Rothman KJ. (ed). Causal Inference. Chesnut Hill: Epidemiology Resources Inc; 1988.
Susser M. Conceptos y estrategias en epidemiología. El pensamiento causal en ciencias
de la salud. México: Biblioteca de la Salud; 1991.
Pita Fernandez, S ;Unidad de Epidemiología Clínica y Bioestadística. Complexo
Hospitalario Juan Canalejo. A Coruña.
Pita Fernández, S. Epidemiología. Conceptos básicos. En: Tratado de Epidemiología
Clínica. Madrid; DuPont Pharma, S.A.; Unidad de Epidemiología Clínica, Departamento de
Medicina y Psiquiatría. Universidad de Alicante: 1995. p. 25‐47. (Actualizado
28/02/2001).
Diseño de estudios Epidemiológicos, Mauricio Hernandez‐Avila Ph.D., Centro de
Investigación en Salud Poblacional, Instituto Nacional de Salud Pública (INSP), México.
Francisco Garrido Latorre, M en C, Centro de Investigación en Sistemas de Salud, INSP,
México.; Sergio Lopez Moreno, MC, Centro de Investigación en Sistemas de Salud, INSP,
México. Salud Pública de México / vol.42, no.2, marzo‐abril de 2000.
Presentación de datos estadísticos en cuadros y gráficos‐ Instituto Nacional de Estadística
y Geografía (México); 2011.
Pértega Díaz S., Pita Fernández S. Representación gráfica en el Análisis de Datos. Unidad
de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Juan Canalejo. A
Coruña. Actualización 02/04/2001.
Referencias : Walker AM. Observation and inference. An introduction to the methods of
epidemiology. Chestnut Hill, MA: Epidemiology Resources Inc, 1991.
Kelsey JL, Thompson WD, Evans AS. Methods in observational epidemiology. Nueva York:
Oxford University Press, 1986.
Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic research. Principles and
quantitative methods. Belmont, CA: Lifetime Learning Publications, 1982.
54
Rothman KJ, Greenland S. Modern epidemiology. 2a. edition. East Washington Square,
PA: Lippincott‐Raven Publishers, 1998.
Miettinnen OS. Theoretical epidemiology. Principles of occurrence research medicine.
Nueva York: A Wiley Medical Publication, 1985.
Cocco P, Blair A, Congia P, Saba G, Ecca AR, Palmas C. Long‐term health effects of the
occupational exposure to DDT. A preliminary report. Ann NY Acad Sci 1997;837:246‐256.
Hunter DJ. Hankinson SE. Laden F. Colditz GA. Manson JE. Willett WC et al.
Plasmaorganochlorine levels and the risk of breast cancer [see comments]. N Engl J Med
1997;337(18):1253‐1258.
Romieu I, Hernández M, Lazcano E, Weber JP, Dewali E. Breast cancer, lactation history
and serum organochlorines. Am J Epidemiol 2000. En prensa.
Wang XQ. Gao PY. Lin YZ. Chen CM. Studies on hexachlorocyclohexane and DDT contents
in human cerumen and their relationships to cancer mortality. Biomed Environ Sci
1988;1(2):138‐151.
Capítulo V Medición de eventos de salud
La epidemiología tiene entre uno de sus objetivos primordiales el estudio de la distribución y los determinantes de los diferentes eventos de salud. La cuantificación y la medida de los eventos de interés son elementos fundamentales para formular y probar hipótesis, asi como para permitir la comparación de las frecuencias de los mismos entre diferentes poblaciones o entre personas con o sin una exposición o característica dentro de una población determinada. La medida más elemental de frecuencia de un evento en general, es el número de personas que lo padecen o lo presentan (por ejemplo, el número de pacientes con hipertensión arterial, el número de fallecidos por accidentes de tránsito o el número de pacientes con algún tipo de cáncer en los que ha registrado una recidiva). Sin embargo, dicha medida por si sola carece de utilidad para determinar la importancia de un problema de salud determinado, pues debe referirse siempre al tamaño de la población de donde provienen los casos y al periodo de tiempo en el cual éstos fueron identificados. Para este propósito, en epidemiología suele trabajarse con diferentes tipos de expresiones fraccionarias que permiten cuantificar correctamente la magnitud de un determinado evento. La información que se maneja en Epidemiología frecuentemente está constituida por cifras absolutas: número de afectados por determinada enfermedad, número de muertes, total de individuos expuestos a riesgo, etc. Pero a pesar de la utilidad de estas cifras que ya llamamos anteriormente frecuencias absolutas (número de repeticiones de una misma observación en números absolutos); generalmente es necesario disponer de medidas de resumen que permitan cuantificar correctamente la relevancia de un determinado evento epidemiológico. Cuando se hace el recuento del número de veces que se presenta un hecho en una población, como por ejemplo: 20 casos de tétanos, 10 personas intoxicadas, 400 muertos por tumores; los números obtenidos se denominan “cifras absolutas” o también “frecuencias absolutas”. Algunas veces las cifras absolutas son suficientes para analizar un problema, por ejemplo:
6 casos de poliomelitis 1 caso de viruela
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Debido a que en estas patologías no se espera ningún caso, por lo tanto, cualquier número
adquiere importancia y permite un análisis sobre el problema.
Pero...
¿Qué pasa si se dice que en una provincia(A) se notificaron 8 .183 casos de diarrea
durante el año 2015?
¿Es éste un número de casos alto o bajo?
Para contestar la pregunta se deben hacer comparaciones con otra u otras provincias o con
la ocurrencia de casos de diarrea en la misma provincia pero en años distintos
Si en el mismo año en otra provincia (B) se notificaron 14.754 casos de diarrea.
Ahora se tiene un punto de referencia. Pero, ¿son suficientes estas dos cifras absolutas para
sacar conclusiones?
Provincia A ‐ 8.183 casos
Provincia B ‐ 14.754 casos
¿Es correcto decir que en la provincia A el problema causado por las diarreas es menor que en la provincia B?
Absolutamente NO Es necesario conocer el número de habitantes y relacionar los casos con la población de las
provincias.
La población varía día a día; será necesario utilizar un dato promedio para el período de
tiempo estudiado. Para esto se estima la población en el punto medio del período.
Siguiendo con el ejemplo, los datos de población estimados a mitad del año x para ambas
provincias son:
Provincia A ‐ 280.500 habitantes
Provincia B ‐ 2.304.000 habitan
Se debe relacionar el número de casos y la población de la siguiente manera:
2
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Ahora sí, los resultados de estos dos cocientes permitirán comparar la magnitud del
problema en uno y otro lugar. Pero los resultados de estas divisiones son:
0,029173 caso por habitante y 0,006406 caso por habitante
aunque se redondee en: 0,029 caso por habitante y 0,006 caso por habitante
Estos números son difíciles de manejar para descubrir el problema y sacar conclusiones.
Mucho mejor será ponerse de acuerdo y multiplicar el resultado por un factor de
amplificación.
En este caso se multiplicará por 100.000 y el resultado expresará el número de casos que
ocurrieron cada 100.000 habitantes.
Entonces se tendrá:
Ahora es posible realizar un análisis correcto. El problema causado por diarrea es mucho
más importante en la Provincia A que en la Provincia B.
Los resultados obtenidos no son cifras absolutas. Han surgido de relacionar un número con
otro, razón por la cual reciben el nombre genérico de cifras relativas y específicamente por la
forma en que se han calculado, se denominan tasas.
3
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Medidas de resumen:
Son aquellas que permiten sintetizar a través de algunas cifras toda la
información obtenida, facilitando de este modo la descripción y
comparación de las observaciones.
El tipo de medida de resumen varía según el tipo de variable que se
observe.
Métodos para resumir datos: clasificados en escala cualitativa
Razón
EXPRESA
‐El comportamiento de un suceso en una población a lo largo del
tiempo.
La relación aritmética existente entre dos eventos en una misma
población, dos categorías de un mismo evento o un solo evento en dos
poblaciones distintas
‐La comparación mediante un cociente entre dos cifras de diferente o
similar naturaleza.
Un cociente en el que el numerador no forma parte del denominadorES
Supongamos que de 400 alumnos de una universidad, 300 tienen ojos oscuros y el resto
tienen ojos claros, empleando el concepto de razón se tiene:
4
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
¿Cómo se interpreta este resultado?
El resultado expresa que hay 3 alumnos con ojos oscuros por cada alumno con ojos claros,
referido al lugar y tiempo en que se calcula la medida.
Observación: el numerador y el denominador no tienen elementos en común (son
disjuntos), no se encuentran contenidos uno en el otro.
Si a esta razón la multiplicamos por 100 el nuevo número obtenido se denomina INDICE.
Nota Importante:
Proporción
Cuando la razón se calcula entre la probabilidad de que ocurra un evento y la
probabilidad que este no ocurra, entonces la razón recibe el nombre de odds.
ES
EXPRESA
Un cociente en el que el numerador está incluido en el denominador.
La relación de una parte con el total al que pertenece
Los valores que pueden adoptar las proporciones pueden variar entre 0 y 1 debido a que el
numerador siempre está incluido en el denominador, por lo tanto es un número menor o a
lo sumo igual a él. Las proporciones suelen expresarse en términos de porcentajes, los que
se obtienen al multiplicar el resultado del cociente 100, por lo que corrientemente se lo
denomina porcentaje.
Continuando el ejemplo anterior, ahora intentemos determinar la proporción de alumnos
con ojos oscuros, en la población de estudiantes de la universidad
5
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
En términos de porcentaje
¿Cómo se interpreta este resultado?
El resultado expresa que 3 de cada 4 alumnos tienen ojos oscuros, o lo que es lo mismo que
el 75% de los alumnos tienen ojos oscuros.‐
Nota
El porcentaje nos permite analizar el aporte; peso específico o importancia de una categoría sobre el total al que pertenece.
Si se está observando una variable dicotómica, entonces pueden utilizarse tanto razones
como proporciones; en el caso de variables politómicas, se utilizarán solo proporciones.
Tasa
Siempre que sea necesario medir el riesgo de ocurrencia de un fenómeno, en determinada
población se dispone de una medida sumamente valiosa: las tasas.
MIDE
ES
EXPRESA
La magnitud de cambio de una variable (evento de salud) por unidad
de cambio de otro (tiempo) en relación con el tamaño de la población
en riesgo de experimentar el suceso.
La expresión numérica de un riesgo al que estuvo sometida una
población.
La fuerza con que se produce un evento determinado en una
población, y esto es igual a riesgo.
Un riesgo de salud (enfermedad o muerte) en términos probabilísticos.
6
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
El concepto de tasa es similar al de proporción, con la diferencia de que las tasas llevan
incorporado el concepto del tiempo.
Las tasas consideran todos los casos de un evento de salud ocurridos en una población en un
lugar y período determinado.
Dado que las tasas incorporan el concepto de tiempo y lugar, es decir que numerador y
denominador deben estar referidos al mismo tiempo y lugar de ocurrencia, se pueden hacer
pronósticos en base a las mismas que hayan sido calculadas en períodos inmediatamente
anteriores.‐
K=100,1.000,10.000,100.000
Las tasas están compuestas por tres elementos:
‐Numerador: número de veces que ocurre el evento observado en un lugar y período de
tiempo determinados.
‐Denominador: número de habitantes de la población en el cual puede ocurrir el fenómeno.‐
‐K: factor de ampliación, es un múltiplo de 10
Debido a que las tasas son proporciones, el numerador está incluido en el denominador; por
lo tanto es menor que él; como consecuencia ese cociente será menor que 1, por eso suele
multiplicarse por un factor de ampliación para que la relación mencionada adquiera
significado
Advertencia:
Excepcionalmente algunas tasas no son proporciones por cómo se
construyen y esto se debe generalmente a la imposibilidad de obtener el
denominador adecuado. Este concepto será ampliado mas adelante con los
ejemplos concretos de esta situación.
7
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Uso de las cifras relativas
La elección de las cifras que se utilizan para analizar un conjunto de datos, depende del análisis que se desea realizar de ellos. Para analizar la siguiente información:
Muertes por accidentes de tránsito de conductores de vehículos según sexo Ciudad X – Año 2012
Sexo Nº Muertes
Mujeres 21
Hombres 51
Total 72
¿Qué cifra relativa se debe emplear para analizar esta información?
Si calculamos proporciones…
%6,2972
21
%4,7272
51
Mujeres
Varones
Interpretación: por cada 100 muertes por accidentes de tránsito de conductores en la
Ciudad X en el año 2012, 70 corresponden a varones y 30 a mujeres.
Si calculamos una razón …
429,221
51
Mujeres
Varones
Interpretación: por cada muerte en accidentes de tránsito de conductores del sexo femenino
en la Ciudad X, en el año 2012 murieron más de 2 varones.
Observemos que tanto los resultados del porcentaje (proporción) y de la razón muestran que
son mas frecuentes las muertes por accidentes de tránsito de conductores del sexo
masculino que las del sexo femenino.
8
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 9
¿Esto significa que los hombres tienen mayor riesgo de morir por accidentes de tránsito que las
mujeres?
NO
Para establecer el riesgo que corren tanto hombres como mujeres y compararlos, habría que
relacionar las muertes con la población expuesta bajo riesgo.
Deberíamos considerar para esta estimación de riesgo la población expuesta, que en este
caso serían los conductores de sexo femenino y masculino.
En tal caso se deberían calcular las siguientes tasas:
Nº de muertes de conductores en accidentes de tránsito del sexo masculino
Nº de hombres que conducen vehículos X 1.000
Nº de muertes de conductores en accidentes de tránsito del sexo femenino
Nº de mujeres que conducen vehículos X 1.000
Recomendaciones para la construcción de cifras relativas
Expresar el resultado con – por lo menos – un decimal para no confundirlas con las cifras absolutas.
El valor de la cifra relativa muestra la magnitud de la relación que existe entre los datos que intervienen en el cálculo.
La publicación de toda cifra relativa debe ir acompañado de por lo menos una, de las frecuencias absolutas con que fue calculada.
No deben calcularse cifras relativas cuando el denominador es un número muy pequeño, porque las mismas pueden volverse inestables.
Regla aproximada: no se calculan cifras relativas cuando el denominador es menor de 20. En Salud Pública las tasas se expresan por 100,1.000, 10.000 ó 100.000 según la
magnitud de la relación entre el numerador y el denominador. El uso de estos factores de amplificación ha determinado la utilización de cada uno de
ellos para las principales tasas.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Tasas de uso más frecuente en salud
Las tasas son las cifras relativas de mayor importancia en el análisis de problemas de salud.
Las tasas más frecuentemente usadas son las tasas de mortalidad, natalidad y morbilidad.
Mortalidad
ES
Es una categoría de naturaleza estrictamente poblacional, a diferencia de los conceptos de muerte y defunción que reflejan la pérdida de la
vida biológica en forma individual.
La magnitud con la que se presenta la muerte en una población en un
momento determinado. EXPRESA
En consecuencia la mortalidad expresa la dinámica de las muertes acaecidas en las poblaciones a
través del tiempo y el espacio; y solo admite comparaciones en ese nivel de análisis.
La mortalidad se clasifica de la siguiente forma:
La Tasa de Mortalidad General
ES
EXPRESA
El volumen de muertes ocurridas por una o todas las causas de
enfermedad, en el total de la población.
El riesgo que tienen todos los habitantes de una población, en un
momento determinado de morir por cualquier causa.
Son tasas de mortalidad general o brutas.
10
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Tasa bruta de mortalidad general
Total de muertes ocurridas por todas las causas en un área determinada durante un período de tiempo
Población del área a la mitad del período considerado
* 1.000
Tasa bruta de mortalidad por una causa determinada (pe: cáncer)
Total de muertes ocurridas por cáncer en un área determinada durante un período de tiempo
Población del área a la mitad del período considerado
* 1.000
La tasa de Mortalidad específica
11
ES
Riesgo para subgrupos de población.
La que se calcula cuando existen razones para suponer que la
mortalidad puede variar entre distintos subgrupos de la población.
EXPRESA
Las tasas obtenidas de esa forma adoptan su nombre según la fracción poblacional que se reporte.
Son tasas de mortalidad específica.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
En algunos casos no es posible obtener el dato exacto de la población expuesta a riesgo y se utiliza
por convención un dato aproximado, este es el caso de la tasa de mortalidad materna.
La tasa de mortalidad materna por su construcción es una razón, pero esta se utiliza para medir el
riesgo de morir por complicaciones del embarazo, parto o puerperio.
En este caso el denominador tampoco es el exacto ya que muchos nacidos vivos del año anterior
estuvieron expuestos al riesgo de morir con menos de un año durante el período estudiado.
En realidad a pesar que llamamos tasas a aquellas que tienen a nacidos vivos en el denominador por
su construcción son razones.
En este caso el denominador correcto sería el número de mujeres que estuvieron embarazadas
durante el período considerado, pero ese dato es imposible de obtener.
12
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Mortalidad Proporcional
Suele usarse para establecer la importancia de la contribución de la mortalidad específica
para una causa, a la mortalidad general.
Por ejemplo, la mortalidad proporcional según sexo para un área en un tiempo determinado.
Si hiciéramos el mismo cálculo para los varones la suma dará el 100% de las muertes en el área y tiempo establecidos.
Si bien a este indicador se lo suele denominar Tasa de Mortalidad Proporcional, en
realidad no cumple el requisito de relacionar un evento con la población expuesta al
riesgo de que ese evento ocurra, sino que expresa el PESO del numerador sobre el total
(denominador), por lo que no mide riesgo de morir.
ES
EXPRESA
la medida empleada para mostrar la proporción de la mortalidad por
una causa específica.
el porcentaje de muertes que se deban a una causa específica.
Este es un indicador de uso muy difundido, que prescinde del dato de población, siendo por su
construcción un simple porcentaje.
13
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
La Tasa de Letalidad
La letalidad en sentido estricto es una proporción ya que expresa el número de defunciones entre el
número de casos del cual las defunciones forman parte. No obstante generalmente se expresa como
tasa de letalidad y se reporta como el porcentaje de muertes de una causa específica con respecto al
total de enfermos de esa causa.
La tasa de letalidad no es de fácil construcción debido a la inexistencia de registros de
morbilidad, es difícil obtener los denominadores, por lo cual se estima de la forma
mencionada.
ES
EXPRESA
una medida de la gravedad de una enfermedad considerada desde el
punto de vista poblacional, que se define como proporción de casos de
una enfermedad que resultan mortales con respecto al total de casos
en un período y área determinados.
la importancia de la enfermedad en términos de su capacidad para
producir la muerte.
l d d d f d d
14
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Natalidad
Tasa Bruta de Natalidad
ES
la velocidad relativa con que aumenta la población mediante los
nacimientos.
Un índice que relaciona todos los nacimientos acaecidos en una
población dada con la población total.
MIDE
Influyen sobre la natalidad factores tales como la composición por edad (cuanto más joven
es la población mayor es la tasa de natalidad), el nivel socio‐económico (a menor nivel
mayor tasa de natalidad) y la fecundidad propiamente dicha, con los que se puede evaluar
en forma indirecta el mayor riesgo de una población. En general las altas tasas de natalidad
se acompañan de otros factores de riesgo.
La tasa bruta de natalidad sola, no debe usarse para comparar el nivel de fecundidad de dos
poblaciones, por cuanto no toma en cuenta las diferencias en la estructura de las mismas,
especialmente con respecto a la composición por edad de la población.
La natalidad es el factor de mayor peso en la conformación de la estructura poblacional.
Cuanto mayor sea la natalidad, tanto mayor será la proporción de los grupos etarios jóvenes,
característica de países con escaso grado de desarrollo. De no cambiar los patrones
culturales al llegar estos grupos a la edad reproductiva, continuarán o acentuarán el
fenómeno descripto. Este factor se mide por la Tasa de Natalidad:
Se consideran nacidos vivos registrados a los ocurridos en el año de registro y en el año
inmediato anterior.
15
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Morbilidad
El estudio de la morbilidad tiene serias dificultades. Desde luego, a diferencia de las
muertes que ocurren una sola vez y en un momento bien definido, y es un hecho
permanente. La enfermedad puede ocurrir varias veces en la vida de un mismo individuo, ya
se trate de una misma enfermedad o de enfermedades distintas y por último, ellas pueden
tener una duración variable.
La morbilidad es la ocurrencia de enfermedad y puede medirse en términos de tasas.
Las unidades que se pueden medir en cuanto a la morbilidad son:
a) las personas enfermas
b) las enfermedades
c) los episodios de enfermedad
Por eso se recomienda que, en las estadísticas de morbilidad, se especifique claramente a cuál de estos tres criterios se refiere.
En la medición de la morbilidad interesa fundamentalmente medir la frecuencia de la enfermedad en la población, su duración y gravedad.
En cuanto a la medición de la frecuencia de la enfermedad esta puede hacerse mediante:
Prevalencia
ES
MIDE
Es una proporción que indica la frecuencia con que ocurre un evento.
El número de personas de una población que tienen una enfermedad en
un momento dado.
La proporción de individuos de una población que padecen una
enfermedad en un momento o período de tiempo determinado.
RIESGO DE ESTAR ENFERMO
EXPRESA la probabilidad que un individuo sea un caso o presente el evento
observado en un momento dado.
No tiene dimensión y toma valores mayores que 0 y menores que 1
16
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Se expresa como casos por 100 o 1000 habitantes y es frecuente expresarla en términos de
porcentajes.
La prevalencia puede calcularse como:
Prevalencia de punto Se emplea para determinar la prevalencia de un evento en la población en un momento en el tiempo, sin contemplar cuando se ha originado. En este caso la medición se realiza en un período de tiempo corto.
Prevalencia de período Determina la cantidad de casos existentes durante un período. Resuelve el problema de la aparición de nuevos casos mientras se está ejecutando el
estudio. Lo que ocurre en caso de enfermedad de elevada frecuencia de aparición o porque el
estudio requiere un período de tiempo mayor para su realización. Identifica el número de personas que presentan la enfermedad o atributo a lo largo de
un período determinado. Medida cada vez menos empleado debido a las confusiones que origina.
Construcción de la tasa de prevalencia de período
Numerador: Todos los casos existentes (incluyendo los casos nuevos diagnosticados durante
el estudio).
Denominador: Población estimada a mitad de período considerado.
17
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
El cálculo de la prevalencia es especialmente apropiado para la medición de procesos o
eventos de carácter prolongado, y perderá sentido para evaluar fenómenos de carácter más
momentáneo (diabetes vs. Gripe.)
Incidencia
ES
MIDE
El número de casos nuevos de un evento que se desarrollan en una
población durante un período de tiempo determinado.
el flujo que se establece entre la salud y la enfermedad, es decir la
aparición de casos nuevos.
la aparición de enfermedad, y refleja el ritmo de aparición.
RIESGO DE ENFERMAR
EXPRESA los cambios de estado (salud/enfermedad), indicando la frecuencia con
que aparecen casos nuevos.
La incidencia puede medirse de dos maneras diferentes:
Tasa de incidencia o densidad de incidencia Incidencia Acumulada
Tasa de incidencia o densidad de incidencia
Esta tasa como medida epidemiológica mide la velocidad de aparición de una enfermedad, pero el desarrollo del mismo lo reservaremos para un estudio más avanzado de la epidemiología.
18
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Incidencia Acumulada Acumulada
ES
MIDE
una medida basada en el número de individuos en riesgo.
el riesgo medio de los miembros de una población de sufrir un evento
en un período dado.
la probabilidad de que un individuo desarrolle el evento en estudio por
lo que también se lo denomina riesgo.
EXPRESA únicamente el volúmen de casos nuevos ocurridos en una población
durante un período de tiempo.
19
Por ser una proporción la Incidencia Acumulada toma valores mayores que 0 y menores que
Las cifras obtenidas al calcular la incidencia acumulada proporcionan una medida
a
Proporciona una estimación de la probabilidad o riesgo de que un individuo libre de una
Construcción de la Incidencia acumulada
Numerador: número de personas que desarrollan una enfermedad en un período de estudio
Denominador: Número de individuos libres de la enfermedad al comienzo del período y que
Por ser una proporción la Incidencia Acumulada toma valores mayores que 0 y menores que
Las cifras obtenidas al calcular la incidencia acumulada proporcionan una medida
a
Proporciona una estimación de la probabilidad o riesgo de que un individuo libre de una
Construcción de la Incidencia acumulada
Numerador: número de personas que desarrollan una enfermedad en un período de estudio
Denominador: Número de individuos libres de la enfermedad al comienzo del período y que
1 y es adimensional. 1 y es adimensional.
sum mente útil para comparar los diferentes riesgos de las distintas poblaciones. sum mente útil para comparar los diferentes riesgos de las distintas poblaciones.
determinada enfermedad la desarrolle dentro de un período especificado de tiempo, lo que
implica asumir que la población entera expuesta a riesgo al principio del estudio es seguida
durante todo el período de tiempo para observar si se desarrollaba la enfermedad objeto del
estudio, pero lo que en realidad sucede es que las personas objeto de la investigación
ingresan al estudio en diferentes momentos en el tiempo, el seguimiento de los mismos no
es uniforme, y por otra parte algunos abandonan el estudio y solo proporcionan seguimiento
durante un periodo limitado de tiempo.
determinada enfermedad la desarrolle dentro de un período especificado de tiempo, lo que
implica asumir que la población entera expuesta a riesgo al principio del estudio es seguida
durante todo el período de tiempo para observar si se desarrollaba la enfermedad objeto del
estudio, pero lo que en realidad sucede es que las personas objeto de la investigación
ingresan al estudio en diferentes momentos en el tiempo, el seguimiento de los mismos no
es uniforme, y por otra parte algunos abandonan el estudio y solo proporcionan seguimiento
durante un periodo limitado de tiempo.
(casos nuevos). (casos nuevos).
por lo tanto estaban en riesgo de padecerla. por lo tanto estaban en riesgo de padecerla.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Nota: la duración del período de observación influye directamente sobre la Incidencia
Acumulada, por lo que debe considerarse siempre que se interprete esta medida.
ara tener en consideración estas variaciones de seguimiento existentes en el tiempo, una
P
primera aproximación sería la limitación del cálculo de la incidencia acumulada al período de
tiempo durante el cual la población entera proporcione información.
En síntesis:
INCIDENCIA significa CASOS NUEVOS Mide riesgo de enfermar
20
PREVALENCIA significa TODOS LOS CASOS
Mide riesgo de estar enfermo
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 21
Diferencias entre incidencia y prevalencia
INCIDENCIA
PREVALENCIA
NUMERADOR Número de casos nuevos
de enfermedad durante un
período de tiempo
especificado.
Número de casos
existentes de una
enfermedad en un
momento dado.
DENOMINADOR
Población expuesta a
riesgo.
Población expuesta a
riesgo.
ENFASIS Que el evento sea un caso
nuevo.
El momento de inicio de la
enfermedad.
Presencia o ausencia de
enfermedad.
El período de tiempo es
arbitario, ya que es como
una “foto” en un momento
dado.
USOS Expresar el riesgo de pasar
del estado sano al estado
de enfermedad.
Es la principal medida de
frecuencia de
enfermedades o procesos
agudos, aunque en algunos
casos puede usarse para
enfermedades crónicas.
Es más útil que la
prevalencia en los estudios
de causa.
Estimar la probabilidad de
enfermedad en la
población en el período de
tiempo que se estudia.‐
Es útil para el estudio de
carga de enfermedad en
procesos crónicos y sus
implicaciones en los
servicios de salud.
Adaptado de Epidemiología Básica . Segunda Edición – R. Bonita, R Beaglehole, T. Kjellstrom ‐ OPS
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 22
Un cambio en la incidencia significa que hay cambio en el equilibrio de factores etiológicos,
ya sea por motivos naturales o por la aplicación de un programa preventivo eficaz.
La prevalencia en cambio, depende de dos factores:
la incidencia, y
la duración de la enfermedad
La prevalencia cambia como consecuencia de:
una mayor duración de la enfermedad,
la prolongación de la vida sin que el enfermo se cure,
el aumento de los casos nuevos (incidencia),
inmigración de casos,
la emigración de personas sanas
la mejoría de posibilidades diagnósticas
inmigración de susceptibles,
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Factores que influyen sobre la tasa de prevalencia
Aumenta Disminuye
Mayor duración de la enfermedad
Menor duración de la
enfermedad
Prolongación de la vida de los pacientes sin curación
Elevada tasa de letalidad
por la enfermedad
Aumento de la incidencia (casos nuevos)
Disminución de la
incidencia (casos nuevos)
Inmigración de casos Inmigración de personas
sanas
Emigración de personas sanas
Emigración de casos
Mejora de las posibilidades
diagnosticadas (mejor información)
Aumento de la tasa de
curación
23
Adaptado de Epidemiología Básica. Segunda Edición – R. Bonita, R Beaglehole, T. Kjellstrom ‐ OPS
La figura siguiente representa la relación entre la Incidencia y la Prevalencia
Caldero de Prevalencia
P = I x d
Incidencia
Restablecimiento
Muerte Muerte P = I x d
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
La prevalencia es el producto de la incidencia por la duración de la enfermedad. Esta relación
es más patente en una enfermedad estable y crónica. En este caso se puede deducir la
incidencia, siempre que se conozcan prevalencia y la duración.
En el planeamiento de acciones de salud se emplea la prevalencia porque mide la necesidad
de tratamiento, de camas hospitalarias, instalaciones y necesidades de potencial humano.
Por otro lado, la prevalencia es más fácil medir, (se la puede estimar mediante una sola
encuesta), en cambio la incidencia es más trabajosa. Para ello se necesita contar con una
población sana, bien definida, que pueda ser seguida durante un cierto período de tiempo a
fin de precisar la cifra de casos nuevos.
Tasas de Ataque
En algunos casos es posible que se presente el problema planteado por la aparición
inesperada de casos de una determinada patología, ya sea por una epidemia o episodio de
breve duración, en toda una comunidad o en un sector pequeño de la población como ser:
asistentes a un banquete, empleados de una fábrica, vecinos de un barrio, etc.
Se conoce como tasa de ataque al cociente entre el número de casos y la población expuesta
a riesgo:
Otra medición posible e interesante de hacer es la de la morbilidad entre los contactos de
cada uno de los individuos considerados “casos” del brote, para lo que se debe relacionar:
24
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Ambas tasas de ataque expresan la contagiosidad y patogenicidad del agente responsable del brote o
epidemia.
Medidas de asociación
Son indicadores epidemiológicos que evalúan la fuerza con la que una determinada
enfermedad o evento de salud (que se presume como efecto) se asocia con un determinado
factor (que se presume como su causa)
Epidemiológicamente:
Las medidas de asociación son comparaciones de incidencia, la incidencia
de la enfermedad en los individuos que se expusieron al factor estudiado
(o incidencia entre los expuestos), contra la incidencia de la enfermedad en
los que no se expusieron a dicho factor.
Estadísticamente:
Miden la magnitud de la diferencia observada, establecen la fuerza con la
que la exposición se asocia a la enfermedad.‐
Las medidas de asociación más sólidas se calculan utilizando la incidencia, con el fin de medir
la influencia que pueden tener los factores de riesgo sobre la ocurrencia del evento.
Entre las medidas de asociación encontramos al Riesgo Relativo (RR) y se calcula como una
razón:
25
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
El riesgo relativo, expresa el riesgo de un grupo que tiene un factor de riesgo o exposición,
en comparación con el riesgo de un grupo de referencia sin ese factor.
Mide la fortaleza de una asociación entre un factor de riesgo o exposición y cierto resultado
final, cuantifica la importancia de la asociación entre ellos.
Es un indicador que responde a la pregunta ¿Cuánto riesgo tienen aquellos sujetos
expuestos a un factor en relación con aquellos que no lo están?, nos indicará cuanto más
probable es que ocurra el suceso en el grupo expuesto al factor de riesgo frente al grupo no
expuesto
El RR puede utilizarse solo en aquellos estudios en los que puede medirse la incidencia, por
lo que NO es apropiado como medida de asociación en los estudios que no arrojan datos de
casos nuevos (por ejemplo: casos y controles, transversales, etc.); pues por las características
de estos de diseño, no se puede conocer las tasas de incidencia del resultado.
Por ejemplo:
Un grupo de investigadores estudia el efecto de una nueva droga para el tratamiento
del Infarto Agudo de Miocardio, participaron del estudio 1740 pacientes, de los cuales 150
murieron. Del total de los participantes, 725 fueron tratados con la nueva droga, y de
aquellos que no recibieron el nuevo tratamiento murieron 80 pacientes.
¿Cual es el RR de mortalidad?, ¿Podemos considerar como beneficiosa a la nueva droga?
Murieron No murieron Total
Expuestos 70 655 725
No Expuestos 80 935 1015
Total 150 1590 1740
26
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
No, con un RR>1 los tratados con la droga tendrían 1,23 veces el riesgo de morir que
aquellos que no han recibido el nuevo tratamiento.
Actualmente el concepto de incidencia es tan amplio que CASOS NUEVOS pueden referirse a
enfermedad o muerte.
En Síntesis:
Las medidas de resumen para datos cualitativos más frecuentemente utilizadas son:
las razones, las proporciones y las tasas
Cada uno de ellas tiene diferente interpretación. Los más refinados son las tasas, pues expresan el riesgo de ocurrencia del evento consignado en su numerador.
Se debe tener cuidado con el cálculo de las tasas para poblaciones pequeñas, porque suelen ser inestables.
Las tasas pueden dividirse en generales y específicas.
En el ámbito sanitario, las tasas más usadas son las de natalidad, mortalidad y morbilidad.
Las medidas de asociación más sólidas son aquellas que se calculan utilizando los datos de incidencia, como el Riesgo Relativo
Por eso decimos que la tasa de mortalidad es una tasa de incidencia.
Ambas tasas de ataque expresan la contagiosidad y patogenicidad del agente responsable del brote o epidemia.
27
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 28
Tasas de uso más frecuente en salud referidas a unidades de tiempo y lugar:
AREA TASA DE
NUMERADOR (Número de )
DENOMINADOR (Poblaci6n)
Por OBSERVACIONES
NUPCIALIDAD Personas que
se casan
Población estimada a
mitad del período 1.000
NATALIDAD
Nacidos vivos en un año
Población estimada a
mitad del período 1.000
MORTALIDAD FETAL
Defunciones Fetales
Número de nacidos vivos 1.000
Defunción fetal: muerte del producto de la concepción que ocurre antes de su expulsión o extracción completa del cuerpo de la madre, independientemente de la duración del embarazo
TEMPRANA
Defunciones fetales de menos de 20 semanas de
gestación
Número de nacidos vivos 1.000
INTERMEDIA
Defunciones fetales de 20 a 27
semanas de gestación
Número de nacidos vivos 1.000
TARDIA (o Mortinatalidad)
Defunciones fetales de más de 27 semanas de
gestación
Número de nacidos vivos 1.000
MORTALIDAD PERINATAL
Suma de: defunciones fetales tardías
mas defunciones de menores de 7 días de vida
Número de nacidos vivos 1.000
Los ingleses usan como numerador la suma de la mortalidad de la primera semana y como denominador el número total de nacidos (vivos o muerto)
MORTALIDAD INFANTIL
Muertos menores de 1 año
Número de nacidos vivos 1.000
MORTALIDAD NEONATAL
Defunciones de menores de 28
días Número de nacidos vivos 1.000
Tiene valor la relación porcentual que la mortalidad neonatal guarda con la mortalidad infantil
MORTALIDAD INFANTIL TARDIA
Defunciones de niños de 11 meses
y 28 días. Número de nacidos vivos 1.000
Refleja mejor el peso de los factores ambientales
M A T E R N O I N F A N T I L
MORTALIDAD MATERNA
Muertes maternas Números de nacidos vivos 1.000 Muerte materna: aquella por complicaciones del embarazo, parto o puerperio
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 29
BRUTA DE
MORTALIDAD
GENERAL
Muertes por todas
las causas
ocurridas en 1 año
Población estimada a mitad
del período 1.000
MORTALIDAD
ESPECIFICA POR
EDAD
Muertes en grupo
de edad específico
Población estimada en ese
mismo grupo de edad a
mitad de período
1.000
MORTALIDAD POR
CAUSA ESPECIFICA
POR EDAD
Muertes por una
causa determinada
en un grupo de
edad especifico
Población estimada en ese
mismo grupo de edad a
mitad de período
100.000
M
O
R
T
A
L
I
D
A
D
LETALIDAD Muertes por causa
determinada
Número de enfermos por al
misma causa
100
1.000
Mide riesgo de morir entre
enfermos. Es más bien una
razón porcentual entre
muertos y enfermos. No
debe confundirse con una
tasa de mortalidad
INCIDENCIA
Casos nuevos en la
unidad de tiempo
(1 año
habitualmente)
Población estimada a mitad
del perídodo
1.000
10.000
100.000
PREVALENCIA
Número total de
casos existentes en
un período o fecha
determinada
Población estimada para el
mismo período o fecha
100
1.000
10.000
100.000
ATAQUE Total de casos de
un brote localizadoPoblación expuesta a riesgo
100
1.000
Usada en epidemias o
episodios de breve
duración
M
O
R
B
I
L
I
D
A
D ATAQUE
SECUNDARIO
Número de casos
secundarios
Población expuesta al
riesgo (contactos)
100
1.000
Usada en epidemias. El
denominador puede
circunscribirse a contactos
susceptibles.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 30
Métodos para resumir datos clasificados en escala cuantitativa
Al trabajar con histogramas y polígonos de frecuencias, vimos que las distribución de
los datos pueden adoptar varias formas. En algunas distribuciones los datos tienden a
agruparse más en una parte de la distribución que en otra. Comenzaremos a analizar las
distribuciones con el objeto de obtener medidas descriptivas numéricas, que nos ayuden en
el análisis de las características de los datos.
Parámetros: cantidad numérica calculada sobre una población
Por ejemplo …..la altura de los individuos de un país
Estadísticos: cantidad numérica calculada sobre una muestra de la población.
Por ejemplo: altura de los alumnos de este curso
Habitualmente interesa conocer un parámetro pero por la dificultad que conlleva estudiar a
TODA la población, se tiende a calcular un estimador sobre una muestra y confiar en que
sean próximos, si es representativa de la población.
Cuando se ha reunido un conjunto de datos clasificados en escala cuantitativa, es necesario
condensarlos para que aparezcan claramente las características principales de dicho
conjunto. En lugar de trabajar con toda la tabla de frecuencias, los estadísticos o parámetros
resumen los valores que separan a los datos en grupos significativos.
Si se comparan dos o más variables, la condensación es aún más necesaria.
Para resumir datos clasificados en escala cuantitativa se dispone de varios parámetros,
estadísticos o medidas en general:
De posición De dispersión De forma
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Medidas de posición Las medidas de posición nos aportan la información de dónde se encuentran los datos, pero no nos permite saber cómo se distribuyen. ¿ALREDEDOR DE QUE VALORES SE AGRUPAN LOS DATOS?
Medidas de posición central Las medidas de posición central son valores típicos o representativos de un conjunto de datos, que nos ayudan a saber dónde están los datos , pero impiden saber cómo se distribuyen.‐Son valores alrededor de los que las observaciones tienden a agruparse y permiten ubicar lo que en algún sentido puede llamarse el “centro” de la distribución. Las medidas que aportan esta información son:
Media aritmética o promedio La suma de todos los valores de las observaciones dividido entre el número total de observaciones (n) ó tamaño muestral.
Propiedades
Es el centro de gravedad de los datos Puede hallarse en todo conjunto de datos Incluye a todos los valores de la distribución Cada conjunto de valores tiene una sola media La cantidad de datos a evaluar no la afecta Es un concepto familiar e intuitivamente claro Es conveniente cuando los datos se distribuyen simétricamente con
respecto a ese valor Puede malinterpretarse si los datos no forman un conjunto homogéneo Es muy sensible a valores extremos No puede calcularse si la distribución tiene clases abiertas
Cálculo:
Media para datos sin agrupar
n= tamaño de la muestra ∑= sumatoria xi =cada uno de los valores que toma la variable observada
n
x
n
xxxX
n
ii
n
121 ........
31
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Por ejemplo: si se desea calcular la media aritmética de las siguientes mediciones de
Mantoux:
5, 10, 0, 0, 2, 3 mm
.3,36
20
6
3200105mmX
Media para una serie simple de frecuencias
Nos referimos al caso donde cada uno de los valores que toma la variable de observación se
repite más de una vez, en ese caso nos encontramos ante una distribución de frecuencias y
el cálculo de la media consiste en obtener el cociente entre la sumatoria de los productos de
cada valor de la variable por la frecuencia con que se presenta y el tamaño de la muestra.
n
fx
n
fxfxfxX
n
iii
nn
12211 ........
fi= número de veces que se presenta
cada valor de la variable
xi =cada uno de los valores que toma
la variable observada
∑= sumatoria
n tamaño de la muestra
32
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
RESULTADO DE LA REACCION DE MANTOUX CON PPD 20 UT 2 MESES DESPUÉS DE APLICADA LA VACUNA BCG ‐
ESTUDIANTES SECUNDARIOS ‐ CIUDAD X ‐ AÑO X
TAMAÑO DE LA REACCION DE MANTOUX
DESPUES DE LA VACUNACION EN mm
x i
Nº DE EXAMINADOS
(Frecuencia absoluta)
fi
Producto del valor de la variable por la frecuencia
absoluta
xi . fi
14 2 14 x 2= 28
15 4 15 x 4= 60
16 7 16 x 7= 112
17 4 17 x 4 = 68
18 7 18 x 7= 126
19 6 19 x 6= 114
20 12 20 x 12 = 240
21 5 21 x 5= 105
22 1 22 x 1 = 22
23 ‐ ‐
24 2 24 x 2= 48
25 ‐ ‐
26 ‐ ‐
27 1 27
Total 51 950
mmX 6,1851
950
33
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Media para datos agrupados
Los valores que toma la variable observada pueden ser demasiados como para
mencionarlos uno a uno, por lo que en tales casos puede recurrirse a agruparlos en
intervalos.
Si tenemos los datos agrupados en intervalos el procedimiento varía en algunos
aspectos:
Hay que calcular el punto medio de cada intervalo (marca de clase) Hay que multiplicar este punto medio por la frecuencia
correspondiente a cada intervalo El resultado de la suma de todos los productos anteriores se divide por
el tamaño de la muestra
34
n
fX
n
fXfXfXX
n
iii
nn
12211 ........
Nota: la marca de clase se obtiene como semi suma de los extremos del intervalo
2is LL
X
Ls= Extremo superior del
intervalo
fi= número de veces que se
presenta cada valor de la
variable
∑= sumatoria
X i = marca de clase (punto
medio de cada uno de los
intervalos de clase)
n tamaño de la muestra
Mediana Es el valor que está ubicado en el centro de la distribución, es decir, el valor que supera a la
mitad de los de la muestra y se ve superado por la otra mitad.
Se calcula buscando el valor de la muestra que ocupa el lugar (n+1)/2, con los datos
ordenados.
No busca el valor central del recorrido de la variable según la cantidad de observaciones,
sino que busca determinar el valor que tiene aquella observación que divide la cantidad de
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
observaciones en dos mitades iguales. Por lo tanto es necesario atender a la ordenación de
los datos y debido a ello, este cálculo depende de la posición relativa de los valores
obtenidos.
Es necesario, antes que nada, ordenar los valores y se denota por Me.
Propiedades
La mediana es única para cada conjunto de datos. No se ve afectada por los valores extremos (muy grandes o muy
pequeños). Puede obtenerse para datos cualitativos ordinales y cuantitativos. Puede utilizarse cuando la distribución de frecuencias tiene clases
abiertas, a menos que la mediana caiga en una clase abierta.
Cálculo
Mediana para datos sin agrupar
La mediana es el valor del dato central si hay un número impar de observaciones o el valor
de la semisuma de los valores de los dos datos centrales si se tiene un número par de datos.
)2(2
)1(
)12
()2
(
)2/)1((
paresnsi
xx
imparesnsix
Me nn
n
35
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Ejemplo Calcular la mediana de las siguientes mediciones de Mantoux:
TAMAÑO DE LA REACCION DE MANTOUX EN MM DESPUES DE LA VACUNACIÓN BCG
14 16 17 18 19 20 21 24
14 16 17 18 19 20 21 27
15 16 17 18 20 20 21
15 16 18 19 20 20 21
15 16 18 19 20 20 21
15 16 18 19 20 20 22
16 17 18 19 20 20 24
Me = 19 mm
En este ejemplo el número de mediciones es impar por lo que :
Me = 19 mm.
Si aplicamos (1) Me= x(51+1/2)= x26= 19 mm. Si se hubiesen tomado solo 50 mediciones
36
TAMAÑO DE LA REACCION DE MANTOUX EN MM DESPUESDE LA VACUNACIÓN BCG
14 16 17 18 19 20 21 24
14 16 17 18 19 20 21
15 16 17 18 20 20 21
15 16 18 18 20 20 21
15 16 18 19 20 20 21
15 16 18 19 20 20 22
16 17
Me = 19 mm
18 19 20 20 24
Aplicando (2) .5,182
1918
222625
)12
50()
2
50(
mmxx
xx
Me
Mediana para series de frecuencias
Para el caso de los datos agrupados en series de frecuencias debemos observar la
frecuencia relativa acumulada, la mediana será el valor donde la frecuencia relativa
acumuladas alcanzan el valor 0,50 o el 50%.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
RESULTADO DE LA REACCION DE MANTOUX CON PPD 20 UT 2 MESES DESPUÉS DE APLICADA LA VACUNA BCG ‐ ESTUDIANTES SECUNDARIOS ‐ CIUDAD X ‐ AÑO X
TAMAÑO DE LA REACCION DE MANTOUX DESPUES DE LA VACUNACION EN
mm
x i
Nº DE EXAMINADOS
(Frecuencia absoluta)
Fi
%
Frecuencia relativa
%
Frecuencia relativa
acumulada
14 2 2/51*100= 3,9 3,9
15 4 4/51*100=7,8 11,7
16 7 7/51*100=13,7 25,4
17 4 4/51*100=7,8 33,2
18 7 7/51*100=13,7 46,9
19 6 6/51*100= 11,8 58,7
20 12 12/51*100=23,5 82,2
21 5 5/51*100=9,8 92,0
22 1 1/51*100=1,96 93,96
23 ‐ 0 93,96
24 2 2/51*100=3,9 97,86
25 ‐ 0 97,86
26 ‐ 0 97,86
27 1 1/51*100=1,96 100,0
Total 51 100
37
Me = 19
Interpretación: el 50% de los resultados de la reacción de Mantoux con PPD UT 2 meses después de aplicada la vacuna BCG, en estudiantes secundarios de Ciudad X, en el Año X es de hasta 19 mm. Mediana para datos agrupados en intervalos En el caso de variables discretas donde cada categoría es el valor de la variable, se puede tomar como un caso de intervalo de amplitud 1 y en ese caso el cálculo de la mediana funciona exactamente como lo visto para datos sin agrupar o para series de frecuencias. Cuando trabajamos con variables agrupadas por intervalos es imposible determinar con precisión los valores que toman los datos, ya que esa información se ha perdido en privilegio del agrupamiento por clases. Por lo tanto, en este caso, debemos buscar otro método para determinar el valor de la mediana.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
De la misma forma que en el caso de las series de frecuencias la mediana corresponderá en
este caso a la clase donde la frecuencia relativa acumulada alcanza el 50%. La diferencia para
los datos agrupados en intervalos es que mediante este mecanismo conocemos a que clase
o intervalo pertenece la mediana, pero no conocemos el valor que toma exactamente, para
lo que debemos emplear la siguiente fórmula:
l i= es el límite inferior del intervalo de la clase
donde está la mediana.
fi= es la frecuencia de la clase donde está la
mediana.
ai= es la amplitud de la clase
n = nº de observaciones – tamaño de la muestra.‐
Fi‐1= frecuencia acumulada de la clase anterior a la
clase donde está la mediana.
iii
i
laf
Fn
Me
12
Ejemplo
TAMAÑO DE LA REACCION DE MANTOUX DESPUES DE LA VACUNACION EN mm
x i
Nº DE EXAMINADOS
(Frecuencia absoluta)
Fi
Fi(a) %
Frecuencia relativa
%
Frecuencia relativa
acumulada
14‐15 6 6 11,8 11,8
16‐17 11 17 21,5 33,3
18‐19 13 30 25,5 58,8
20‐21 17 47 33,3 92,1
22‐23 1 48 1,96 94,06
24‐25 2 50 3,92 97,98
26‐27 1 51 1,96 100,0
Total 51 100,0
mmMe 65,1818113
172
51
Moda Es aquel valor de la variable que más se repite, es decir aquel valor de la variable (que
puede ser o no un único valor) con mayor frecuencia.
38
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Propiedades:
Es la medida de tendencia central más fácil de calcular. No se ve afectada por valores extremos. Puede utilizarse cuando los intervalos de clase sean abiertos. Su interpretación tiene sentido en variables con pocas categorías o valores. Es la medida que se relaciona con la frecuencia con que se presentan los datos
con mayor incidencia, con lo que se considera la posibilidad de que exista más de una moda para un conjunto de datos.
Puede observarse en variables cuantitativas y cualitativas. Si un conjunto de datos contiene dos categorías adyacentes con la misma
frecuencia común (mayor que cualquier otra), la moda es el promedio del valor de las dos.
Según el número de valores más frecuentes que tenga una distribución es: Unimodal: aquella en la que hay una categoría que tiene mayor frecuencia que todo el resto de ellas. Bimodal: cuando 2 categorías no adyacentes de la variable observada tienen igual y la mayor frecuencia.‐ Amodal: es cuando todas las categorías tienen la misma frecuencia.
Nota: Conjuntos muy numerosos que presenten un polígono de frecuencias con dos
lomos, aún cuando las frecuencia de cada uno de los picos no sean exactamente
iguales pueden denominarse bimodales (distorsiones de la definición permitidas), en
este caso podrán distinguirse entre moda mayor y moda menor.
Moda para variables cualitativas
Se ha realizado un estudio para valorar el grupo sanguíneo de un grupo de mujeres
embarazadas y obtenemos los siguientes datos:
Grupo sanguíneo Nº de mujeres
A 14
B 11
AB 5
0 10
Total 40
En este ejemplo la moda se corresponde con el valor A, ya que es el que presenta mayor
frecuencia.
39
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Moda para series de frecuencias
Dada la siguiente serie de frecuencias
Edad Frecuencia
24 0
25 1
26 3
27 1
28 1
29 3
30 5
31 2
32 3
33 2
34 10
35 1
36 7
37 1
Se observa que la moda es 34 años, ya que es la edad que mas se repite. Hay 10 mujeres que
tienen 34 años.
Moda para datos agrupados en intervalos
Cuando los datos están agrupados en intervalos la moda corresponde con el punto medio
del intervalo de mayor frecuencia.
Para la siguiente distribución:
24‐26 4
27‐29 5
30‐32 10
33‐35 13
36‐38 8
40
34342
3335
oMX
40
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Es importante observar si la distribución presenta 1 ó más modas. Si posee una sola moda se
la denomina unimodal, y si tiene dos es bimodal y en su defecto será multimodal.
Posiciones relativas de la media, mediana y modo
La posición relativa de las medidas de posición central permiten conocer el tipo de
distribución que tienen los datos y de ello dependerá cual de las medidas sea la más
representativa de esa distribución.
Distribución de frecuencias simétrica
Simétrica
Medidas: ModoXMe (o sus valores son muy cercanos entre sí).
Representación gráfica: curva de Gauss.
Solo contienen un modo. El valor que mejor representa la distribución es la media aritmética o promedio.
Es simétrica respecto del promedio
Asimétrica o sesgadas
Medidas: ModoXMe
Representación gráfica: se encuentra desplazada a la derecho o la izquierda de la curva de Gauss.
El valor que mejor representa la distribución es la mediana.
No es simétrica respecto de ninguna medida de posición central.
41
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Distribución sesgada a derecha o con sesgo positivo
Medidas: XMeModo Representación gráfica: curva sesgada a la derecha.
El parámetro más adecuado para representar la distribución es la mediana ya que se encuentra entre el Modo y el promedio y no se encuentra influenciada por valores extremos.
El Modo se encuentra en el punto mas alto de la distribución.
Distribución sesgada a izquierda o con sesgo negativo
Medidas: MoMeX Representación gráfica: curva sesgada a la izquierda.
El parámetro más adecuado para representar la distribución es la mediana ya que se encuentra entre el Modo y el promedio y no se encuentra influenciada por valores extremos.
Consideraciones importantes sobre las distribuciones simétricas
Usualmente se plantea la discusión sobre si una distribución es simétrica o no, en relación a
los resultado obtenidos en el cálculo de las medidas de tendencia central, debido a que en
los eventos referidos a unidades biológicas es poco probable que ocurra la estricta igualdad
entre los mencionados valores.
42
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
¿CÓMO SE DISTRIBUYEN LOS DATOS?
Medidas de posición no central
Las medidas de posición no centrales permiten conocer otros puntos característicos de la
distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una
serie de valores que dividen la muestra en tramos iguales, mismo número de valores.
Cuantiles Son aquellos valores de la variable que dividen a la distribución en partes, de tal manera que
cada una de las partes tiene el mismo número de frecuencias, entre los cuantiles más
conocidos se encuentran:
Percentileso Centiles (Pi) Son los valores de la variable que dividen al conjunto de datos (ordenados de menor a
mayor) en cien partes iguales, (1% por cada una de las partes), dejando por debajo de ellos
determinados porcentajes. Se los identifica como Pi por ejemplo P30, P66
Deciles( Di) Son las nueve partes iguales en las que se divide una distribución ordenada de menor a
mayor, conteniendo cada una de ellas el 10 % de la distribución. Se los identifica como Di por
ejemplo D5, D9
Cuartiles (Qi) Son los valores de la variable que dividen al conjunto de datos (ordenados de menor a
mayor) en cuatro partes iguales, (25% por cada una de las partes), dejando por debajo de
ellos determinados porcentajes. Se los identifica con Q1, Q2, Q3 de manera tal que Q1 = P25,
Q2 = P50= Me y Q3 = P75
43
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Cuartiles y percentiles para datos sin agrupar Cálculo
Sea pq LóL la posición del cuartil o percentil deseado
q = cuartil
p= percentil
n = nº de datos
4100
qnL
pnL qp
pq LóL indican la posición del p‐ésimo percentil y del q‐ésimo cuartil, luego una vez
establecida la posición del parámetro ocurre:
Si pq LóL no es entero, este número se redondea al valor inmediato superior, luego el valor ubicado en esa posición es el p‐ésimo percentil ó el q‐ésimo cuartil.
Si pq LóL es entero, el p‐ésimo percentil ó el q‐ésimo cuartil es el promedio de los
valores de los datos ubicados en 11 qqpp LLoLL
Por ejemplo:
Calcular el percentil 80 para:
0‐1‐2‐3‐3‐3‐5‐5‐6‐7‐7‐9
106,95
48
100
801280 pL , en este caso el percentil 80 corresponde al número 7
Cuartiles y percentiles para datos agrupados El cálculo de los percentiles y cuartiles para datos agrupados es similar al de la mediana.
44
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Ni‐1= frecuencia acumulada de la clase anterior a la
clase donde esta el percentil/cuartel.
ni= es la frecuencia de la clase donde esta el
percentil/cuartil.
ai= es la amplitud de la clase
li= es el limite inferior del intervalo de la clase
anterior donde esta la el percentil/cuartil.
n = nº de observaciones – tamaño de la muestra.‐
i
i
i
ii
i
i
i
ii
an
Nn
LQ
an
Nn
LP
1
1
1
1
4
100
Uso de los cuartiles y percentiles
Los cuartiles se usan para:
Indicar el porcentaje igual o menor que el valor de un cuartil. Construir una curva epidémica. Describir el 50% central de la distribución. Elaborar el gráfico de caja. Establecerle rango intercuartílico.
Los percentiles se usan para:
Comparar un valor individual con un conjunto de normas. Determinar rangos normales de análisis de laboratorio. Los límites normales de
muchas determinaciones de laboratorio se ubican entre los percentiles 2,5 y 97,5.
45
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
¿CÓMO SE PRESENTAN LOS DATOS?
Medidas de dispersión o Variabilidad Las medidas de posición no informan de la totalidad de la distribución. Dos conjuntos de
datos pueden tener una media idéntica y sin embargo ser diferentes en cuanto a la forma
que el resto de los datos se distribuyen en torno a ella.
Hasta el momento las preguntas planteadas han sido: ¿Alrededor de qué valor se agrupan los
datos? Y en ese caso la respuesta se encontraría atada a las medidas de posición central
(media, mediana, modo), cuando la preguntas es:¿Cómo se distribuyen los datos?, la
respuesta las otorgan las medidas de posición no central, si en cambio la pregunta es ¿Cómo
se presentan esos datos?,¿muy concentrados? ,¿muy dispersos?, las medidas de dispersión
son quienes responden a esta pregunta.
Por ejemplo:
Las calificaciones de 15 alumnos de un curso dictado en la Facultad de la ciudad Sueño del
Mar son:
Area de estudio Calificaciones Promedio Mediana Moda
Eje Temático 1 5,6,8,5,5,7,9,8,10,4,3,6,7,4,8 6,33 6 8
Eje Temático 2 3,5,10,8,8,6,2,3,6,2,8,10,8,10,6 6,33 8 8
Observemos que en ambos casos los valores del promedio y la moda en los dos grupos son
iguales, pero las calificaciones obtenidas no los son, es por eso que para describir
adecuadamente una distribución de datos, no basta con conocer las medidas de posición
central, sino es necesario conocer en qué medida cada dato de la misma se aleja del punto
central que se ha calculado.
Para establecer estos valores utilizamos las medidas de dispersión.
Rango Tal y como se expuso en el anteriormente, el rango es la distancia entre el mayor y el menor de los
valores que adquiere la variable. Se lo indica con R.
Desventajas:
No utiliza todas las observaciones. Esta afectado por observaciones extremas (máximo y mínimo valor que asume la
variable).
46
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
No tiende a disminuir a medida que aumenta el número de observaciones.
Continuando con el ejemplo de los alumnos del curso dictado en la Facultad de la Ciudad
Sueño del Mar
Rango Intercuartílico Es la distancia entre el tercer y el primer cuartil.
13 QQRi
Es una medida similar al rango pero elimina las observaciones extremas inferiores y
superiores, por lo tanto no es tan sensible a esos valores extremos
Varianza Se la define como la media de los cuadrados de las diferencias entre cada valor de la variable en estudio y la media de la distribución de datos de la misma. y se la indica con S2, (en publicaciones científicas puede encontrársela como VAR). Mide el promedio de las distancias (al cuadrado) de las observaciones con respecto de la media. Es sensible a los valores extremos (alejados de la media). Sus unidades son diferentes a las unidades de la variable del conjunto original de datos, son el cuadrado de las unidades de la variable, por ejemplo se si esta observando la variable que mide el tiempo de espera de una persona en minutos, las unidades de la varianza están dadas en minutos al cuadrado (min2) ¿Qué es un minuto al cuadrado?, esto provoca que su interpretación sea difícil. Es una expresión de gran belleza “natural” ya que contiene la información geométrica relevante de muchas situaciones donde la energía interna de un sistema depende de la posición de sus partículas.
Se calcula:
Xi= valores que asume la
variable
N
XXS
n
ii
1
2
2
)(
X= media o promedio
N = total de datos de la muestra
47
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Varianza para datos no agrupados Se limita a aplicar la fórmula anterior:
Calcular la media de la distribución Aplicar la fórmula Su unidad de medida es el cuadrado de las unidades de medida en que se midió la
variable
Varianza para datos agrupados
Se calcula mediante:
fi= frecuencia de cada intervalo de
clase
N = total de datos de la muestra
en estudio
X= media o promedio
xi= punto medio de cada intervalo
de clase
N
XxfS
n
iii
1
2
2
)(
Debido a las dificultades para su comprensión cuando se la relaciona con los datos que se
están observando, para comprender la variación del conjunto de datos se calcula desviación
estándar.
Desviación típica ó estándar El desvío estándar es el valor que se obtiene de calcular la raíz cuadrada de la varianza y se
lo indica con Sx .En publicaciones científicas puede encontrarse indicado con DE o SD.
2xx SS
Se expresa en las mismas unidades que las variables.
Para poder interpretar el desvío estándar como una medida de variabilidad o fluctuación de
los datos, debe partirse de la siguiente premisa:
En el intervalo , por lo menos se encuentra el por ciento de las
observaciones, donde es el promedio, kes una constante y DE es el valor del desvío
estándar.
48
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
En el caso de distribuciones simétricas, el 68 % de las observaciones se encuentran en el
intervalo , el 95% de las observaciones se encuentra en el intervalo
y el 99 % de las observaciones se encuentra en el
intervalo , tal como se observa en la gráfica siguiente.
Características de la Varianza y el Desvío estándar
Siempre toman valores positivos. Si los valores de una distribución son iguales entre sí la varianza es igual al desvío
estándar y a 0. Índices muy sensibles a la variación de cualquier valor que adquiera la variable. Solo se utilizan para variables cuantitativas. No es recomendable su cálculo cuando tampoco lo es el de la media. Cuando los datos se alejan mucho de la media (dispersos) el numerador de la fórmula
será muy grande y por lo tanto ambos medidas serán grandes.
Usos
Se utilizan en inferencia estadística. Para el cálculo del tamaño de la muestra.
En muchas ocasiones es necesario comparar la dispersión entre distintos conjuntos de datos,
y las variables observadas tienen diferentes unidades de medida, en estos casos, con la
desviación estándar y la varianza no se podrá obtener una conclusión válida referida a la
desviación de los datos. Aún cuando las variables tuvieran la misma unidad de medida, las
mediciones pueden variar considerablemente.
49
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Por ejemplo:
Si se intenta compara el desvío estándar de la altura de los niños de 5 a 14 años de una comunidad, con el mismo desvío pero de la de los estudiantes ingresantes a la universidad, es altamente probable que este último sea mayor, solo porque las tallas de los ingresantes universitarios son mayores con respecto a las de los niños entre 5 y 14 años y no porque la variabilidad sea mayor.
Coeficiente de variación
El coeficiente de variación de un conjunto de datos muestrales o poblacionales, expresado
en términos de porcentaje, describe el desvío estándar relativo a la media, este de indica
con CV.
Por Ejemplo:
Si se observan la talla y el peso de 40 individuos pertenecientes a una muestra de la
población de estudiantes universitarios de la Ciudad Sueño del Mar y se obtiene las
siguientes medidas.
Media Desvio estándar (DE)
Talla 173.5 cm. 7,7 cm.
Peso 78.3 kg. 11,9 kg.
Entonces los correspondientes coeficientes de variación para la talla y el peso son:
50
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA” 51
En este caso la diferencia de las unidades de las variables observadas imposibilitaría comparar los desvíos estándar, pero si es posible comparar los coeficientes de variación debido a que carecen de unidad y están expresados en términos de porcentajes, lo que nos permite observar que la variación en el peso es sensiblemente superior a la de la talla. Estos resultados tienen sentido, ya que es bastante común que entre los individuos exista variación importante de peso y no de talla, es decir no es común que encontremos un adulto que mida la mitad que otro, pero si podríamos dar más frecuentemente con uno que pese la mitad que otro.
¿Cómo se ven los datos?
Medidas de forma
Anteriormente se abordó el tema del análisis de la forma de la distribución de frecuencias desde su aproximación gráfica. Dicha aproximación es la forma más directa e intuitiva de tener una idea en cuanto a la forma de la distribución de una variable.
Es notoria la importancia de conocer la forma de la distribución, para decidir que medidas son más convenientes utilizar en el caso de las variables cuantitativas.
A partir de ahora esta parte, analizaremos las medidas de forma, es decir, que información nos aporta según la forma que tengan la disposición gráfica de los datos.
Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o bloques: medidas de asimetría y medidas de curtosis.
Medidas de asimetría La simetría de una distribución de frecuencias refiere al grado en que valores que toma la variable, equidistantes a un valor que se considere centro de la distribución, poseen frecuencias similares.
Es un concepto más intuitivo a nivel visual, especialmente, si se observa una representación gráfica (diagrama de barras, histograma…) de la distribución de frecuencias. Ésta será simétrica si la mitad izquierda de la distribución es la imagen especular de la mitad derecha.
Para saber si una distribución de frecuencias es simétrica hay que precisar con respecto a qué: media, mediana o modo?
Para las variables cuantitativas continuas es con respecto a la mediana, ya que esta divide a la distribución en dos partes iguales, en cambio para las variables discretas la medida de referencia será el promedio.‐ Parecería que existe una arbitrariedad en los conceptos anteriores, pero en realidad no hay tal, pues si una variable es continua, coinciden ambos criterios de simetría (con respecto a la media y a la mediana). Es más, se tiene que media y mediana coinciden para distribuciones continuas simétricas. Por otro lado, en el caso de variables discretas, la distribución es simétrica si el lado derecho del diagrama se obtiene por imagen especular desde la media. En este caso coincide la media con la mediana si el número de observaciones es impar.
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Si la variable es continua simétrica y unimodal, coinciden la media, la mediana y la moda.
Cuando al trazar una vertical, en el gráfico de barras o histograma, de una variable, según sea esta discreta o continua, por el valor de referencia, si esta vertical, se transforma en eje de simetría, decimos que la distribución es simétrica. En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría.
IMPORTANTE:
Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de frecuencias sea totalmente simétrica. En la práctica diremos que la distribución de frecuencias es simétrica si lo es de un modo aproximado.
Una distribución es simétrica cuando:
sesgo = 0
Una distribución es asimétrica cuando tiene algún tipo de sesgo
Moda ≠ Mediana ≠ Media
Tipos de asimetría
La asimetría de un conjunto de datos puede ser, positiva o negativa:
Asimetría Positiva: Tiene sesgo a la derecha y las medidas de posición central se relacionan
de manera que: Moda < mediana < media
52
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Asimetría Negativa: Tiene sesgo a la izquierda y las medidas de posición central se relacionan
de manera que: Moda> mediana > media
Existen Índices estadísticos que permiten cuantificar el nivel de asimetría de una variable
cuantitativa o cualitativa ordinal.
Cabe destacar que para variables cualitativas nominales no tiene sentido el plantear este
tipo de índices, dado que no existe un orden intrínseco a los valores de la variable.
Medidas de apuntamiento o curtosis
El apuntamiento o curtosis de una distribución de frecuencias no tiene un referente
natural propio, como en el caso de la simetría, sino que se sustenta en la comparación
respecto a una distribución de referencia, en concreto, la distribución normal o campana de
Gauss, es el parámetro de comparación En consecuencia, su obtención sólo tendrá sentido
en variables cuya distribución de frecuencias sea similar a la de la curva normal –en la
práctica ello se reduce, básicamente, a que sea unimodal y “más o menos” simétrica.
El apuntamiento, expresa el grado en que una distribución acumula casos en sus colas en
comparación con los casos acumulados en las colas de una distribución normal cuya
dispersión sea equivalente (Pardo y Ruiz, 2002).
53
MANUAL DE EPIDEMIOLOGIA. NIVEL BASICO
Capítulo V: Medición de Eventos de Salud
INSTITUTO NACIONAL DE EPIDEMIOLOGIA “DR. JUAN H. JARA”
Así, de forma análoga a la asimetría, se diferencian 3 grandes categorías de apuntamiento:
Distribución platicúrtica (apuntamiento negativo): indica que en las colas hay más casos
acumulados que en las colas de una distribución normal.
Distribución leptocúrtica (apuntamiento positivo): en las colas de la distribución hay menos
casos acumulados que en las colas de la distribución normal.
Distribución mesocúrtica (apuntamiento normal): la acumulación de casos en las colas de la
distribución es como en la distribución normal.(Curva de Gauss).
Mesocúrtica Leptocúrtica Platicúrtica
Curva de Gauss
54