Download - 7.1 Estimaciones puntuales - ilia.miscomunidades.com Methods...muestras es lo suficientemente grande,la distribución de medias muestrales definidas a través de formula (7.1) según

7 Intervalos de Confianza

7.1 Estimaciones puntuales

Supongamos que se quiere estudiar un conjunto (población) de objetos homogéneos respecto a cierto

índice cualitativo o cuantitativo que caracteriza estos objetos. Por ejemplo, si se tiene un lote de piezas,

como índice cualitativo puede servir el estándar de la pieza y como cuantitativo, la dimensión controlable

de la pieza.

A veces se realiza una investigación total, es decir, se examina todo uno de los objetos del conjunto

respecto al índice que interesa. En la práctica, sin embargo, la investigación total se practica con relativa

rareza. Por ejemplo, si el conjunto contiene un número muy grande de objetos, físicamente es imposible

realizar un examen total. Si el examen del objeto está vinculado con su destrucción o requiere grandes

gastos materiales, prácticamente no tiene sentido efectuar la investigación total. En estos casos se

escogen fortuitamente del total un número limitado de objetos y se someten éstos al estudio.

Se llama conjunto muestral, o simplemente muestra, conjunto de objetos tomados fortuitamente.

Se llama conjunto general el conjunto de objetos, de los cuales se saca muestreo.

Se llama volumen del conjunto (muestral o general) el número de objetos do ese conjunto. Por

ejemplo, si de 1000 piezas se escogen para el examen 100 piezas, el volumen del conjunto general es N =

1000 y el volumen de la muestra n = 100

Supongamos que se quiere estudiar una característica cuantitativa de un conjunto general. Admitamos

que de unas consideraciones teóricas se haya logrado establecer, precisamente qué tipo de la distribución

tiene esta característica (por ejemplo normal) pero no se conocen los parámetros de esta distribución (por

ejemplo el promedio, la varianza, etc.). Naturalmente surge el problema de estimar los parámetros que

determinan esta distribución, por ejemplo, si se conoce previamente que la característica estudiada está

distribuida normalmente en el conjunto general, hay que estimar (hallar aproximadamente; la esperanza

matemática y la desviación cuadrática media, ya que estos dos parámetros determinan completamente la

distribución normal. Generalmente, el investigador dispone solamente de los datos de la muestra, por

ejemplo, los valores de la característica cuantitativa 1 2, , , nx x x , obtenidos como resultado de n

observaciones (aquí y en adelante las observaciones se suponen independientes). Mediante estos datos

se expresa el parámetro a estimar, por ejemplo el valor promedio, en una forma aproximada.

Así pues, se llama estimación estadística de un parámetro desconocido de una distribución normal la

función de las magnitudes aleatorias observadas. Para que las estimaciones estadísticas den «buenas»

aproximaciones de los parámetros estimados, ellas deben satisfacer determinados requisitos. A

continuación se indican estas exigencias.

Denotemos * la estimación estadística de un parámetro desconocido , el cual generalmente es una

función f X de una característica X de un conjunto general con una distribución en este conjunto

conocida teóricamente. Admitamos que mediante la muestra de volumen n está hallada estimación 1 *

Repetimos el experimento, es decir, extraemos del conjunto general otra muestra de igual volumen y por

sus datos obtenemos la estimación 2 * . Reiterando la prueba varias veces, obtenemos los números

1 2*, *, , *k cuales, en general, serán diferentes entre sí. Por consiguiente, la estimación * se

puede considerar como una magnitud aleatoria, mientras que los números 1 2*, *, , *k , como sus

valores posibles.

Supongamos que la estimación * da un valor aproximado de con exceso; en tal caso, cada número

*, 1,2, ,i i k , hallado según los datos de las muestras, serán mayor que el valor real de

.Evidentemente, en este caso la esperanza matemática (valor medio) de la magnitud aleatoria *

también será mayor que * , es decir *M . Está claro que si * es un valor subestimado,

tendremos *M .

De este modo, el empleo de la estimación estadística, cuya esperanza matemática no es igual al

parámetro a estimar, daría lugar a errores sistemáticos (del mismo signo). Por este motivo es natural

exigir que la esperanza matemática de la estimación * sea igual al parámetro que se estima. A pesar de

que este requisito no elimina los errores (unos valores de * son mayores y otros son menores que ),

sin embargo con igual frecuencia se tropezarán con errores de distintos signos. En otras palabras, el

cumplimiento de la condición *M garantiza contra la obtención de errores sistemáticos.

La estimación estadística * cuya esperanza matemática es igual al parámetro que se estima X para

todo volumen de la muestra, es decir, *M , se llama centrada (o insesgada). La estimación

cuya esperanza matemática no es igual al parámetro que se estima, se llama no centrada (o sesgada)

y se define sesgo de * cómo *M .

Sería erróneo considerar que la estimación no desviada siempre da una buena aproximación del

parámetro que se estima. En efecto, los valores posibles de * pueden ser fuertemente dispersos

alrededor su valor medio, es decir, la dispersión *D puede ser considerable. En este caso, la

estimación hallada por los datos de una muestra, por ejemplo, *i puede resultar muy alejada del valor

medio * , y también del propio parámetro estimado ; y por lo tanto, tomando *i como valor

aproximado de , cometeríamos un gran error. Si nosotros sugiramos que la dispersión * sea

pequeña, se excluye la posibilidad de cometer un gran error. Por esta causa la estimación estadística debe

satisfacer el requisito de eficacia.

La estimación estadística se llama eficiente cuando tiene la dispersión mínima posible (para un

volumen dado de la muestra n). Al considerar muestras de gran volumen (n es grande!) la estimación

estadística debo satisfacer además el requisito de consistencia. La estimación estadística se llama

consistente cuando la probabilidad la estimación difiere del parámetro que se estima tiende a cero para n . Esta condición se cumple por ejemplo, sí la dispersión de la estimación centrada tiende a cero

para n , es decir * 0n

D

esta estimación resulta precisamente consistente. Resumiendo se

puede decir que una estimación puntual debe ser centrada, eficiente y consistente.

Esencialmente son tres los parámetros de interés: la media de la población general , la varianza

de la población general D y la proporción de elementos de la población general P , que

pertenecen a cierta categoría Consideremos una variable X cuantitativa, que caracteriza un

conjunto general de dimensión N y 1 2, , , Nx x x sus valores en este conjunto general y los valores

correspondientes 1 2, , , nx x x de una muestra de dimensión n (siempre n N y por lo general n N ). En

este caso definimos la media de la población general y su estimación, la media muestral x

definimos como:

1 2 1 1 2 1*

N n

i i

N i n i

x xx x x x x x

xN N n n

(7.1)

La varianza de la población general, 2D y su estimación, la media muestral

2*D sdefinimos como:

2 2

2 22 2

1 1 1 12 21 1

1 1

*1 1

N N n nN n

i i i ii ii i i ii i

x x x xx x xN n

D D sN N n n

(7.2)

Si M N valores de la población correspondiente al conjunto general, 1 2, , , Nx x x pertenecen a cierta

categoría C, entonces la probabilidad de encontrar un elemento perteneciente a esta categoría P y su

estimación a partir de una muestra 1 2, , , nx x x que contiene m n elementos pertenecientes a la misma

categoría, *p P definimos como:

*M m

P p PN n

(7.3)

Se puede demostrar matemáticamente que todas tres estimaciones muestrales definidas a través de las

formulas (7.1), (7.2) y (7.3) son centradas, eficientes y consistentes.

7.2 Estimaciones por intervalos. Nivel de Confianza

En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima

que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos

números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido

es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 y se

denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de

significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.

El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo

más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un

intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Hay

que tener en cuenta que para construir un determinado intervalo de confianza es necesario conocer la

distribución teórica que sigue el parámetro a estimar. En definitiva, un intervalo de confianza 1 2,

definido para un nivel de confianza 1 para la estimación de un parámetro de un conjunto

general en la base de una estimación * con una determinada distribución de probabilidad, *P debe

satisfacer la condición:

1 2 1P (7.4)

En la mayoría de los casos (esto se puede demostrar matemáticamente) la densidad de la

distribución *f de la estimación * (hay que tener en cuenta que la estimación * es una variable

aleatoria que varía de una muestra a la otra) tiene la forma de una campana, coincidente o similar a la de

la distribución normal. Por esta razón, los valores posibles de la característica del conjunto general

forman un intervalo de ancho 2 con el centro en el punto * , donde el parámetro define el valor

máximo de las posibles discrepancias entre la característica del conjunto general y la estimación,

max * (ver Fig. 7.1)

Fig. 7.1 La densidad de distribución de la estimación muestral. La zona sombreada muestra el intervalo de confianza para la característica del conjunto general correspondiente a nivel de confianza .

Se puede ver de la Fig. 7.1 que la probabilidad de que la característica del conjunto general está

ubicada dentro del intervalo de confianza * , * con la probabilidad 1 crrespondiente al nivel

de confianza debe cumplirse la desigualdad:

* * 1P (7.5)

Desde la Fig.7.1 se puede ver que la condición (7.5) es equivalente a la otra condición, más simple:

* * / 2 1 2P P (7.6)

Las fronteras de un intervalo de confianza usando las relaciones (7.5) y (7.6) se puede expresar en los

términos de percentiles p , correspondientes a la probabilidad p de la distribución aleatoria de la

estimación * (ver Anexo A). Las condiciones (7.5) y (7.6) en estos términos puede ser escrita como:

2 2 1 2 1 2* * * *

(7.7)

7.3 Intervalos de confianza para la media poblacional con muestras grandes

De una población general de media μ y desviación estándar σ se pueden tomar muestras de n elementos cada una. Cada una de estas muestras tiene a su vez una media x definidas con la formulas

(7.1), la cual presenta una variable aleatoria con una distribución desconocida. Pero si el tamaño de las

muestras es lo suficientemente grande,la distribución de medias muestrales definidas a través de formula

(7.1) según el teorema central de límites es, prácticamente, una distribución normal (o gaussiana) con un

valor medio μ (la estimación es no sesgada) y una desviación estándar típica dada por la siguiente

expresión: x n (demuéstrelo!). Esto se representa en nuestras notaciones como ,x N n . Si

estandarizamos esta variable aleatoria se sigue que: 0,1x n Z N . En esta distribución

normal estándar puede calcularse fácilmente un intervalo dentro del cual caigan un determinado

porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que 1 2P z 1z z , donde

(1-α)·100 es el porcentaje deseado.

Se desea obtener una expresión tal que 1 2 1 . En esta distribución normal de

medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral x , con una confianza determinada. Habitualmente se manejan valores de

confianza del 95 y del 99 por ciento. A este valor se le llamará 1−α (debido a que α, el nivel de

significación, es el error que se cometerá, un término opuesto).

Para ello se necesita calcular el punto (el percentil ver el anexo A) 1 2x , o, mejor dicho, su versión

estandarizada 1 2z — junto con su "opuesto en la distribución, - 1 2z . Estos dos puntos delimitan la

probabilidad para el intervalo, como se muestra en la siguiente imagen:

Fig. 7.2 Intervalo de confianza para el medio de la población general para muestras grandes.

Observando los gráficos en la Fig. 7.2 se puede concluir que para el intervalo de confianza debe cumplirse la condición siguiente:

1 2 1 2 1x

z zn

(7.8)

Haciendo operaciones es posible despejar μ para obtener el intervalo:

1 2 1 2 1x z n x z n (7.9)

De lo cual se obtendrá el intervalo de confianza:

1 2 1 2x z n x z n (7.10)

Si no se conoce σ y n es grande (habitualmente se toma n ≥ 30) la desviación estándar de la población general en la fórmula (7.10) se reemplaza por su estimación s :

1 2 1 2x z s n x z s n (7.11)

donde:

2

2 2

1 121 1

1

;1 1

n nn n

i ii ii ii i

x xx x xn

x sn n n

(7.12)

Aproximaciones para el valor 1 2z para los niveles de confianza estándar son 1,96 para 1−α =95% y

2,576 para 1−α =99%.

Para hallar los percentiles de la distribución normal a través de la tabla de la función de errores hay

que tener en cuenta que

1 2 2 1 2

1 11

2 2 2F z z z (7.13)

7.4 Intervalos de confianza para la media poblacional con muestras pequeñas

Las fórmulas que hemos utilizando en la sección anterior para los parámetros del intervalo de

confianza para las muestras grandes en la forma resumida son las siguientes 2

2 2

1 121 1

2

1

; ;1 1

n nn n

i ii ii ii i

x xx x xnx

Z x sn n ns n

La variable Z en estas relaciones para las muestras grandes según el teorema central de límites tiene la

distribución normal, i.e. 0,1Z N . Este resultado nos permitió expresar los intervalos de confianza en

los términos de los percentiles de la distribución normal 1 2z .

En el caso cuando el tamaño de la muestra no es tan grande ( 30n ) la variable aleatoria Z ya

tiene una distribución diferente de normal. Y es la distribución de Student (ver anexo B) con n-1 gradops

de libertad. Pero la fórmula para el intervalo de confianza en este caso debe ser similar a (7.11), con la

única diferencia: el percentil de la distribución normal debe ser reemplazado por el percentil de la

distribución de Student. Las formulas correspondientes tienen la forma: 2

2 2

1 121 11

2

1

; ;1 1

n nn n

i ii ii ii i

n

x xx x xnx

T x sn n ns n

(7.14)

En este caso el intervalo de confianza se escribe como:

1 1

1 2 1 2

n nx t s n x t s n (7.15)

Los percentiles de la distribución de Student son las raices de la ecuación:

11 1 2

12

nnT t (7.16)

7.5 Intervalo de confianza para una proporción

El intervalo de confianza para estimar una proporción p, conocida una proporción muestral pn de una

muestra de tamaño n, calculada como np m n (m es el número de sucesos favorables en n pruebas) a un

nivel de confianza del (1-α)·100% es:

En la demostración de estas fórmulas están involucrados el Teorema Central del Límite y la aproximación de una binomial por una normal.

Anexo A. Percentiles de una distribución

Una medida de posición muy útil para describir una población, es la denominada 'percentil'. En

forma intuitiva podemos decir que es un valor tal que supera un determinado porcentaje de los miembros

de la población. Por ejemplo, considere un curso de cuarenta alumnos que se forma en línea por orden de

estatura, primero los grandes y al final los chicos. Suponga, además, que se considera ‘chico’ a un

alumno de la cuarta parte final de esta línea. Éste es un concepto relativo a este curso, con toda

seguridad variará al referirse a otro. Es fácil aceptar que los ‘chicos’ de octavo básico tienen menor

estatura que los ‘chicos’ de cuarto medio.

Como la cuarta parte corresponde al 25% de la población, en el ejemplo que se menciona, los

chicos de un curso, son aquellos cuya estatura no supera el ‘percentil veinticinco’ de la población formada

por los alumnos del curso.

Si una variable pudiese asumir muchos valores, la representación de la proporción del total, menor o igual

que un valor, tendría una forma creciente parecida a la siguiente:

La definición: Sea una variable aleatoria X tenga una función de la distribución F x , el percentil pX de

esta variable se define como un umbral que separe la región px X donde la variable aleatoria X se

encuentra con la probabilidad , 0 1p p , es decir pX es un punto que satisface la condición:

p px X F X p (A1.1)

Fig. 1 La interpretación gráfica de un percentil

Fig.2 Ejemplo: Interpretación de los percentiles de la distribución normal.

Anexo B. Las distribuciones relacionadas con la distribución normal

Distribución “Chi-cuadrato” χ²

Densidad de probabilidad Función de distribución

En estadística, la distribución χ² (de Pearson) es una de las más usadas

Distribución de probabilidad con un parámetro k que representa el número de los grados de libertad de la

variable aleatoria 2 2 2 21 2 3k kV Z Z Z Z

donde Zi son variables aleatorias normales independientes de media cero y varianza uno 0,1N . El que

la variable aleatoria X tenga esta distribución se representa habitualmente así: 2

k kV .

Es conveniente tener en cuenta que la letra griega χ se transcribe al latín como chi y se pronuncia en

castellano como ji

Cuando k es suficientemente grande, como consecuencia del teorema central del límite, puede

aproximarse por una distribución normal:

Parámetros número de grados de libertad

Dominio

Función de densidad (pdf)

Media

Mediana Aproximadamente

Moda si

Varianza

http://es.wikipedia.org/wiki/Archivo:Chi-square_distributionCDF.png

http://en.wikipedia.org/wiki/File:Standard_deviation_diagram.svg

http://es.wikipedia.org/wiki/Archivo:Chi-square_distributionPDF.png


































Distribución t de Student

Densidad de distribución Función de distribución

La distribución t de Student es la distribución de probabilidad del cociente donde

Z tiene una distribución normal de media nula y varianza 1

V tiene una distribución chi-cuadrado con ν grados de libertad

Z y V son independientes y Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t de

Student /Z V no central con parámetro de no-centralidad μ.

Parámetros grados de libertad (real)

Dominio

Función de

densidad

Función de

distribución donde es la

función hipergeométrica

Media 0 para ν > 1, indefinida para otros valores

Mediana 0

Moda 0

Varianza para ν > 2, indefinida para otros valores

En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la

media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y

para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la

desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.

Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media μ y varianza σ2. Sea

la media muestral. Entonces

sigue una distribución normal de media 0 y varianza 1.

Sin embargo, dado que la desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente relacionado,

donde

http://es.wikipedia.org/wiki/Probabilidad

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad

http://es.wikipedia.org/wiki/Estimaci%C3%B3n

http://es.wikipedia.org/wiki/Media_aritm%C3%A9tica

http://es.wikipedia.org/wiki/Poblaci%C3%B3n_estad%C3%ADstica

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal

http://es.wikipedia.org/wiki/Tama%C3%B1o_de_la_muestra

http://es.wikipedia.org/wiki/Prueba_t_de_Student

http://es.wikipedia.org/wiki/Intervalo_de_confianza

http://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica

http://es.wikipedia.org/wiki/William_Sealy_Gosset

es la varianza muestral y demostró que la función de densidad de T es

donde ν es igual a n − 1.La distribución de T se llama ahora la distribución-t de Student. El parámetro ν representa el número de

grados de libertad. La distribución depende de ν, pero no de μ o σ, lo cual es muy importante en la práctica

Historia La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica de cerveza, Guiness, que

prohibía a sus empleados la publicación de artículos científicos debido a una difusión previa de secretos industriales. De ahí que

Gosset publicase sus resultados bajo el seudónimo de Student.1

http://es.wikipedia.org/wiki/1908

http://es.wikipedia.org/wiki/William_Sealy_Gosset

http://es.wikipedia.org/wiki/Guiness

http://es.wikipedia.org/wiki/Seud%C3%B3nimo

http://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student#cite_note-0

Download - 7.1 Estimaciones puntuales - ilia.miscomunidades.com Methods...muestras es lo suficientemente grande,la distribución de medias muestrales definidas a través de formula (7.1) según

Top Related