distribuciones muestrales

UNVERSIDAD DE SAN CARLOS DE GUATEMALA CENTRO UNIVERSITARIO DE PETÉN CURSO BÁSICO DE ESTADÍSTICA PARA PROFESORES Facilitador: Amílcar Rolando Corzo Márquez NOTAS DE LA CLASE INTRODUCCIÓN A LA TEORÍA DEL MUESTREO Población: colección de elementos acerca de los cuales deseamos hacer una inferencia. Muestra: subconjunto representativo de la población. Modelos estadísticos simples: La media aritmética se define como la suma de los datos dividida entre el número de los mismos.

Media de una muestra : Media de una población: Propiedades de la Media: La media es sensible al valor exacto de todos los datos de la distribución, No sucede así ni con la mediana ni con la moda. La suma de las desviaciones con respecto a la media es igual a cero. Hagamos un ejemplo: X: 3,4,5,6,7 La media es muy sensible a los datos extremos, más que la mediana o la moda. La suma de los cuadrados de las desviaciones de todos los datos en torno a su media es la más pequeña posible. Debido a esto la media se usa en la estadística inferencial En la mayoría de los casos, de todas las medidas utilizadas para calcular la tendencia central, la media es la menos susceptible a las variaciones debidas al muestreo, varía menos que la mediana y la moda. Media, desviación, suma de cuadrados, varianza [SS/(N-1)] y desviación estándar. La desviación estándard es una medición de qué tan bien la media representa los datos. Datos 1, 2, 3, 3 y 4. El gráfico muestra cómo se desvían los datos de la media.

Miremos un ejemplo: Tenemos dos juegos de datos:

Calificación 1: 3, 2, 3, 3 y 2 Calificacion 2: 4, 2, 5, 1, y 2

Asumamos que estas son la calificación dada por los alumnos (en promedio) a un profesor. ¿Qué modelo representa mejor el rendimiento docente?

Estadísticos descriptivos

N Mínimo Máximo Media Desv.

típ.

Calificación 1 5 2.00 3.00 2.6000 .54772

Calificación 2 5 1.00 5.00 2.8000 1.64317

N válido (según

lista) 5

Miremos el comportamiento en forma gráfica:

Es claro que la calificación 1 representa un desempeño mejor, aunque la media es la

misma. La Distribución Normal: La media, la mediana y la moda son indicadores de la forma que tiene una distribución. Pueden indicar si hay sesgo:

O indican la curtosis en la distribución:

La desviación estándar es un estadístico importante en el análisis inferencial estadístico. Nos indica la exactitud de la media como modelo de los datos. Indica la forma como se distribuyen los datos.

Entonces, ¿qué es una distribución normal estándar? Es un modelo estadístico de la distribución teórica de una variable que sirve para calcular probabilidades de ocurrencia de un evento. Se utiliza una distribución con media cero (µ = 0) y desviación estándar uno (σ = 1). Cualquier variable en análisis debe transformarse a puntuaciones Z para hacer inferencias. MUESTRA Como se ha dicho, en la estadística inferencial se obtiene una muestra para poder, a partir de ella hacer inferencias sobre la población. Se debe preguntar el investigador ¿es mi muestra representativa de la población? En un estudio se toman múltiples observaciones. Las muestras pueden variar ligeramente entre sí, a la característica de esa variación entre todas las muestras se le llama error estándar. Un valor pequeño de error estándar indica que la mayoría de las medias de las muestras son similares a la media de la población, por lo tanto, nuestras muestras podrían reflejar correctamente a la población.

Al calcular la desviación estándar de las medias de las muestras, podremos saber cuánta variabilidad existe entre las medias de las diferentes muestra, esto es conocido como el error estandar de la media (standar error of the mean – SE).

DISTRIBUCIONES MUESTRALES Una distribución muestral es una descripción matemática de todos los resultados posibles y la probabilidad asociada a cada uno. Estimación puntual: es un estadístico dado sin indicar un rango de error. Muestreo repetido: implica tomar una muestra y calcular sus estadísticos, luego tomar una segunda muestra y calcular sus estadísticos, una tercera, una cuarta y así sucesivamente. El muestreo repetido revela la naturaleza del error de muestreo. Error de muestreo: es la diferencia entre el valor calculado de un estadístico de la muestra y el valor real de un parámetro de la población: x - µ. DISTRIBUCIÓN MUESTRAL DE VARIABLES DE INTERVALO/RAZÓN En la Oficina del Censo de los Estados Unidos, se reportaba que para el año 2000, la población de médicos en los Estados Unidos tenía una edad promedio de 48 años, con una desviación estándar de 6 años. Dado que la edad de los médicos es una variable que se distribuye de manera normal, ¿cómo se comporta la distribución de sus valores? El gráfico siguiente muestra el comportamiento de la distribución de la variable con µ = 48 y σ = 6.

Ahora suponga que se toman 10,000 muestras, cada una de 144 médicos y para cada muestra se le calcula la media. Las medias calculadas de las muestras se disponen en el eje x y con sus frecuencias en el eje y se construye un histograma. Las medias de las muestras tendrán una distribución normal cuya desviación estándar será el error estándar de la media. ¿Cómo sería la curva? Error estándar: el error estándar de la media es la desviación estándar de una distribución muestral. El error estándar mide la dispersión del error de muestreo que ocurre cuando se muestrea repetidamente un población.

Dado que la desviación estándar de la población es 6 y el tamaño de cada muestra es 144 médicos, entonces el error estándar (la desviación estándar de la distribución muestral) es: S = 6/ √144 = 0.5.

El error estándar como se sabe se ve afectado por el tamaño de la muestra y el nivel de confianza esperado, además de por la característica intrínseca de los datos. Ley de los Grandes Números: Entre mayor sea el tamaño de la muestra, menor será el error de estimación. Teorema del Límite Central: sin importar la forma de una distribución de puntuaciones brutas, su distribución muestral será normal cuando el tamaño de muestra se suficientemente grande1 y su media se centrará en la media de la población verdadera. Intervalos de Confianza: Otra forma de determinar la representatividad de mi muestra es construir un intervalo de confianza. Un intervalo de cofianza es un rango de valores posibles de un parámetro, expresado con un grado específico de confianza. Intervalos de confianza usuales son del 90%, 95% o 99% La media será siempre el centro del intervalo de confianza. Límite inferior = X – (Z * SE) Límite superior = X + (Z * SE), donde: X = media, Z = la distancia estandarizada asociada al porcentaje de confianza, y SE = el error estándar de la distribución muestral. Nivel de confianza: es el grado de confianza calculado en que un procedimiento estadístico realizado con datos muestrales producirá un resultado correcto para la población muestreada. Nivel de error esperado es la diferencia entre el nivel de confianza declarado y la confianza perfecta del 100%. NIVELES DE CONFIANZA USUALES: 90%, Z asociado 1.64. IC 90% = X +/- 1.64* EE 95%, Z asociado 1.96 IC 95% = X +/- 1.96 * EE 99%, Z asociado 2. 576 IC 99% = X +/- 2.576 * EE.

1 Para algunos autores “suficientemente grande” pueden ser 28 o 30 casos, en las ciencias sociales suele

utilizarse más de 121 casos.

distribuciones muestrales

Documents