7 Intervalos de Confianza
7.1 Estimaciones puntuales
Supongamos que se quiere estudiar un conjunto (población) de objetos homogéneos respecto a cierto
índice cualitativo o cuantitativo que caracteriza estos objetos. Por ejemplo, si se tiene un lote de piezas,
como índice cualitativo puede servir el estándar de la pieza y como cuantitativo, la dimensión controlable
de la pieza.
A veces se realiza una investigación total, es decir, se examina todo uno de los objetos del conjunto
respecto al índice que interesa. En la práctica, sin embargo, la investigación total se practica con relativa
rareza. Por ejemplo, si el conjunto contiene un número muy grande de objetos, físicamente es imposible
realizar un examen total. Si el examen del objeto está vinculado con su destrucción o requiere grandes
gastos materiales, prácticamente no tiene sentido efectuar la investigación total. En estos casos se
escogen fortuitamente del total un número limitado de objetos y se someten éstos al estudio.
Se llama conjunto muestral, o simplemente muestra, conjunto de objetos tomados fortuitamente.
Se llama conjunto general el conjunto de objetos, de los cuales se saca muestreo.
Se llama volumen del conjunto (muestral o general) el número de objetos do ese conjunto. Por
ejemplo, si de 1000 piezas se escogen para el examen 100 piezas, el volumen del conjunto general es N =
1000 y el volumen de la muestra n = 100
Supongamos que se quiere estudiar una característica cuantitativa de un conjunto general. Admitamos
que de unas consideraciones teóricas se haya logrado establecer, precisamente qué tipo de la distribución
tiene esta característica (por ejemplo normal) pero no se conocen los parámetros de esta distribución (por
ejemplo el promedio, la varianza, etc.). Naturalmente surge el problema de estimar los parámetros que
determinan esta distribución, por ejemplo, si se conoce previamente que la característica estudiada está
distribuida normalmente en el conjunto general, hay que estimar (hallar aproximadamente; la esperanza
matemática y la desviación cuadrática media, ya que estos dos parámetros determinan completamente la
distribución normal. Generalmente, el investigador dispone solamente de los datos de la muestra, por
ejemplo, los valores de la característica cuantitativa 1 2, , , nx x x , obtenidos como resultado de n
observaciones (aquí y en adelante las observaciones se suponen independientes). Mediante estos datos
se expresa el parámetro a estimar, por ejemplo el valor promedio, en una forma aproximada.
Así pues, se llama estimación estadística de un parámetro desconocido de una distribución normal la
función de las magnitudes aleatorias observadas. Para que las estimaciones estadísticas den «buenas»
aproximaciones de los parámetros estimados, ellas deben satisfacer determinados requisitos. A
continuación se indican estas exigencias.
Denotemos * la estimación estadística de un parámetro desconocido , el cual generalmente es una
función f X de una característica X de un conjunto general con una distribución en este conjunto
conocida teóricamente. Admitamos que mediante la muestra de volumen n está hallada estimación 1 *
Repetimos el experimento, es decir, extraemos del conjunto general otra muestra de igual volumen y por
sus datos obtenemos la estimación 2 * . Reiterando la prueba varias veces, obtenemos los números
1 2*, *, , *k cuales, en general, serán diferentes entre sí. Por consiguiente, la estimación * se
puede considerar como una magnitud aleatoria, mientras que los números 1 2*, *, , *k , como sus
valores posibles.
Supongamos que la estimación * da un valor aproximado de con exceso; en tal caso, cada número
*, 1,2, ,i i k , hallado según los datos de las muestras, serán mayor que el valor real de
.Evidentemente, en este caso la esperanza matemática (valor medio) de la magnitud aleatoria *
también será mayor que * , es decir *M . Está claro que si * es un valor subestimado,
tendremos *M .
De este modo, el empleo de la estimación estadística, cuya esperanza matemática no es igual al
parámetro a estimar, daría lugar a errores sistemáticos (del mismo signo). Por este motivo es natural
exigir que la esperanza matemática de la estimación * sea igual al parámetro que se estima. A pesar de
que este requisito no elimina los errores (unos valores de * son mayores y otros son menores que ),
sin embargo con igual frecuencia se tropezarán con errores de distintos signos. En otras palabras, el
cumplimiento de la condición *M garantiza contra la obtención de errores sistemáticos.
La estimación estadística * cuya esperanza matemática es igual al parámetro que se estima X para
todo volumen de la muestra, es decir, *M , se llama centrada (o insesgada). La estimación
cuya esperanza matemática no es igual al parámetro que se estima, se llama no centrada (o sesgada)
y se define sesgo de * cómo *M .
Sería erróneo considerar que la estimación no desviada siempre da una buena aproximación del
parámetro que se estima. En efecto, los valores posibles de * pueden ser fuertemente dispersos
alrededor su valor medio, es decir, la dispersión *D puede ser considerable. En este caso, la
estimación hallada por los datos de una muestra, por ejemplo, *i puede resultar muy alejada del valor
medio * , y también del propio parámetro estimado ; y por lo tanto, tomando *i como valor
aproximado de , cometeríamos un gran error. Si nosotros sugiramos que la dispersión * sea
pequeña, se excluye la posibilidad de cometer un gran error. Por esta causa la estimación estadística debe
satisfacer el requisito de eficacia.
La estimación estadística se llama eficiente cuando tiene la dispersión mínima posible (para un
volumen dado de la muestra n). Al considerar muestras de gran volumen (n es grande!) la estimación
estadística debo satisfacer además el requisito de consistencia. La estimación estadística se llama
consistente cuando la probabilidad la estimación difiere del parámetro que se estima tiende a cero para n . Esta condición se cumple por ejemplo, sí la dispersión de la estimación centrada tiende a cero
para n , es decir * 0n
D
esta estimación resulta precisamente consistente. Resumiendo se
puede decir que una estimación puntual debe ser centrada, eficiente y consistente.
Esencialmente son tres los parámetros de interés: la media de la población general , la varianza
de la población general D y la proporción de elementos de la población general P , que
pertenecen a cierta categoría Consideremos una variable X cuantitativa, que caracteriza un
conjunto general de dimensión N y 1 2, , , Nx x x sus valores en este conjunto general y los valores
correspondientes 1 2, , , nx x x de una muestra de dimensión n (siempre n N y por lo general n N ). En
este caso definimos la media de la población general y su estimación, la media muestral x
definimos como:
1 2 1 1 2 1*
N n
i i
N i n i
x xx x x x x x
xN N n n
(7.1)
La varianza de la población general, 2D y su estimación, la media muestral
2*D sdefinimos como:
2 2
2 22 2
1 1 1 12 21 1
1 1
*1 1
N N n nN n
i i i ii ii i i ii i
x x x xx x xN n
D D sN N n n
(7.2)
Si M N valores de la población correspondiente al conjunto general, 1 2, , , Nx x x pertenecen a cierta
categoría C, entonces la probabilidad de encontrar un elemento perteneciente a esta categoría P y su
estimación a partir de una muestra 1 2, , , nx x x que contiene m n elementos pertenecientes a la misma
categoría, *p P definimos como:
*M m
P p PN n
(7.3)
Se puede demostrar matemáticamente que todas tres estimaciones muestrales definidas a través de las
formulas (7.1), (7.2) y (7.3) son centradas, eficientes y consistentes.
7.2 Estimaciones por intervalos. Nivel de Confianza
En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima
que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos
números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido
es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 y se
denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de
significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo
más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un
intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Hay
que tener en cuenta que para construir un determinado intervalo de confianza es necesario conocer la
distribución teórica que sigue el parámetro a estimar. En definitiva, un intervalo de confianza 1 2,
definido para un nivel de confianza 1 para la estimación de un parámetro de un conjunto
general en la base de una estimación * con una determinada distribución de probabilidad, *P debe
satisfacer la condición:
1 2 1P (7.4)
En la mayoría de los casos (esto se puede demostrar matemáticamente) la densidad de la
distribución *f de la estimación * (hay que tener en cuenta que la estimación * es una variable
aleatoria que varía de una muestra a la otra) tiene la forma de una campana, coincidente o similar a la de
la distribución normal. Por esta razón, los valores posibles de la característica del conjunto general
forman un intervalo de ancho 2 con el centro en el punto * , donde el parámetro define el valor
máximo de las posibles discrepancias entre la característica del conjunto general y la estimación,
max * (ver Fig. 7.1)
Fig. 7.1 La densidad de distribución de la estimación muestral. La zona sombreada muestra el intervalo de confianza para la característica del conjunto general correspondiente a nivel de confianza .
Se puede ver de la Fig. 7.1 que la probabilidad de que la característica del conjunto general está
ubicada dentro del intervalo de confianza * , * con la probabilidad 1 crrespondiente al nivel
de confianza debe cumplirse la desigualdad:
* * 1P (7.5)
Desde la Fig.7.1 se puede ver que la condición (7.5) es equivalente a la otra condición, más simple:
* * / 2 1 2P P (7.6)
Las fronteras de un intervalo de confianza usando las relaciones (7.5) y (7.6) se puede expresar en los
términos de percentiles p , correspondientes a la probabilidad p de la distribución aleatoria de la
estimación * (ver Anexo A). Las condiciones (7.5) y (7.6) en estos términos puede ser escrita como:
2 2 1 2 1 2* * * *
(7.7)
7.3 Intervalos de confianza para la media poblacional con muestras grandes
De una población general de media μ y desviación estándar σ se pueden tomar muestras de n elementos cada una. Cada una de estas muestras tiene a su vez una media x definidas con la formulas
(7.1), la cual presenta una variable aleatoria con una distribución desconocida. Pero si el tamaño de las
muestras es lo suficientemente grande,la distribución de medias muestrales definidas a través de formula
(7.1) según el teorema central de límites es, prácticamente, una distribución normal (o gaussiana) con un
valor medio μ (la estimación es no sesgada) y una desviación estándar típica dada por la siguiente
expresión: x n (demuéstrelo!). Esto se representa en nuestras notaciones como ,x N n . Si
estandarizamos esta variable aleatoria se sigue que: 0,1x n Z N . En esta distribución
normal estándar puede calcularse fácilmente un intervalo dentro del cual caigan un determinado
porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que 1 2P z 1z z , donde
(1-α)·100 es el porcentaje deseado.
Se desea obtener una expresión tal que 1 2 1 . En esta distribución normal de
medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral x , con una confianza determinada. Habitualmente se manejan valores de
confianza del 95 y del 99 por ciento. A este valor se le llamará 1−α (debido a que α, el nivel de
significación, es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto (el percentil ver el anexo A) 1 2x , o, mejor dicho, su versión
estandarizada 1 2z — junto con su "opuesto en la distribución, - 1 2z . Estos dos puntos delimitan la
probabilidad para el intervalo, como se muestra en la siguiente imagen:
Fig. 7.2 Intervalo de confianza para el medio de la población general para muestras grandes.
Observando los gráficos en la Fig. 7.2 se puede concluir que para el intervalo de confianza debe cumplirse la condición siguiente:
1 2 1 2 1x
z zn
(7.8)
Haciendo operaciones es posible despejar μ para obtener el intervalo:
1 2 1 2 1x z n x z n (7.9)
De lo cual se obtendrá el intervalo de confianza:
1 2 1 2x z n x z n (7.10)
Si no se conoce σ y n es grande (habitualmente se toma n ≥ 30) la desviación estándar de la población general en la fórmula (7.10) se reemplaza por su estimación s :
1 2 1 2x z s n x z s n (7.11)
donde:
2
2 2
1 121 1
1
;1 1
n nn n
i ii ii ii i
x xx x xn
x sn n n
(7.12)
Aproximaciones para el valor 1 2z para los niveles de confianza estándar son 1,96 para 1−α =95% y
2,576 para 1−α =99%.
Para hallar los percentiles de la distribución normal a través de la tabla de la función de errores hay
que tener en cuenta que
1 2 2 1 2
1 11
2 2 2F z z z (7.13)
7.4 Intervalos de confianza para la media poblacional con muestras pequeñas
Las fórmulas que hemos utilizando en la sección anterior para los parámetros del intervalo de
confianza para las muestras grandes en la forma resumida son las siguientes 2
2 2
1 121 1
2
1
; ;1 1
n nn n
i ii ii ii i
x xx x xnx
Z x sn n ns n
La variable Z en estas relaciones para las muestras grandes según el teorema central de límites tiene la
distribución normal, i.e. 0,1Z N . Este resultado nos permitió expresar los intervalos de confianza en
los términos de los percentiles de la distribución normal 1 2z .
En el caso cuando el tamaño de la muestra no es tan grande ( 30n ) la variable aleatoria Z ya
tiene una distribución diferente de normal. Y es la distribución de Student (ver anexo B) con n-1 gradops
de libertad. Pero la fórmula para el intervalo de confianza en este caso debe ser similar a (7.11), con la
única diferencia: el percentil de la distribución normal debe ser reemplazado por el percentil de la
distribución de Student. Las formulas correspondientes tienen la forma: 2
2 2
1 121 11
2
1
; ;1 1
n nn n
i ii ii ii i
n
x xx x xnx
T x sn n ns n
(7.14)
En este caso el intervalo de confianza se escribe como:
1 1
1 2 1 2
n nx t s n x t s n (7.15)
Los percentiles de la distribución de Student son las raices de la ecuación:
11 1 2
12
nnT t (7.16)
7.5 Intervalo de confianza para una proporción
El intervalo de confianza para estimar una proporción p, conocida una proporción muestral pn de una
muestra de tamaño n, calculada como np m n (m es el número de sucesos favorables en n pruebas) a un
nivel de confianza del (1-α)·100% es:
En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal.
Anexo A. Percentiles de una distribución
Una medida de posición muy útil para describir una población, es la denominada 'percentil'. En
forma intuitiva podemos decir que es un valor tal que supera un determinado porcentaje de los miembros
de la población. Por ejemplo, considere un curso de cuarenta alumnos que se forma en línea por orden de
estatura, primero los grandes y al final los chicos. Suponga, además, que se considera ‘chico’ a un
alumno de la cuarta parte final de esta línea. Éste es un concepto relativo a este curso, con toda
seguridad variará al referirse a otro. Es fácil aceptar que los ‘chicos’ de octavo básico tienen menor
estatura que los ‘chicos’ de cuarto medio.
Como la cuarta parte corresponde al 25% de la población, en el ejemplo que se menciona, los
chicos de un curso, son aquellos cuya estatura no supera el ‘percentil veinticinco’ de la población formada
por los alumnos del curso.
Si una variable pudiese asumir muchos valores, la representación de la proporción del total, menor o igual
que un valor, tendría una forma creciente parecida a la siguiente:
La definición: Sea una variable aleatoria X tenga una función de la distribución F x , el percentil pX de
esta variable se define como un umbral que separe la región px X donde la variable aleatoria X se
encuentra con la probabilidad , 0 1p p , es decir pX es un punto que satisface la condición:
p px X F X p (A1.1)
Fig. 1 La interpretación gráfica de un percentil
Fig.2 Ejemplo: Interpretación de los percentiles de la distribución normal.
Anexo B. Las distribuciones relacionadas con la distribución normal
Distribución “Chi-cuadrato” χ²
Densidad de probabilidad Función de distribución
En estadística, la distribución χ² (de Pearson) es una de las más usadas
Distribución de probabilidad con un parámetro k que representa el número de los grados de libertad de la
variable aleatoria 2 2 2 21 2 3k kV Z Z Z Z
donde Zi son variables aleatorias normales independientes de media cero y varianza uno 0,1N . El que
la variable aleatoria X tenga esta distribución se representa habitualmente así: 2
k kV .
Es conveniente tener en cuenta que la letra griega χ se transcribe al latín como chi y se pronuncia en
castellano como ji
Cuando k es suficientemente grande, como consecuencia del teorema central del límite, puede
aproximarse por una distribución normal:
Parámetros número de grados de libertad
Dominio
Función de densidad (pdf)
Media
Mediana Aproximadamente
Moda si
Varianza
Distribución t de Student
Densidad de distribución Función de distribución
La distribución t de Student es la distribución de probabilidad del cociente donde
Z tiene una distribución normal de media nula y varianza 1
V tiene una distribución chi-cuadrado con ν grados de libertad
Z y V son independientes y Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t de
Student /Z V no central con parámetro de no-centralidad μ.
Parámetros grados de libertad (real)
Dominio
Función de
densidad
Función de
distribución donde es la
función hipergeométrica
Media 0 para ν > 1, indefinida para otros valores
Mediana 0
Moda 0
Varianza para ν > 2, indefinida para otros valores
En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la
media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y
para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la
desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.
Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media μ y varianza σ2. Sea
la media muestral. Entonces
sigue una distribución normal de media 0 y varianza 1.
Sin embargo, dado que la desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente relacionado,
donde
es la varianza muestral y demostró que la función de densidad de T es
donde ν es igual a n − 1.La distribución de T se llama ahora la distribución-t de Student. El parámetro ν representa el número de
grados de libertad. La distribución depende de ν, pero no de μ o σ, lo cual es muy importante en la práctica
Historia La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica de cerveza, Guiness, que
prohibía a sus empleados la publicación de artículos científicos debido a una difusión previa de secretos industriales. De ahí que
Gosset publicase sus resultados bajo el seudónimo de Student.1