elementos de muestreo - sheffer apunte

78
MAGISTER EN INVESTIGACIÓN SOCIAL Y DESARROLLO DEPARTAMENTO DE SOCIOLOGÍA Y ANTROPOLOGÍA FACULTAD DE CIENCIAS SOCIALES UNIVERSIDAD DE CONCEPCION TÉCNICAS DE MUESTREO PROFESORA: MARÍA PAZ CASANOVA LAUDIEN APUNTES DE CLASE AÑO 2008 – 02

Upload: fernanda-carcamo

Post on 22-Nov-2015

63 views

Category:

Documents


2 download

TRANSCRIPT

  • MAGISTER EN INVESTIGACIN SOCIAL Y DESARROLLO DEPARTAMENTO DE SOCIOLOGA Y ANTROPOLOGA

    FACULTAD DE CIENCIAS SOCIALES UNIVERSIDAD DE CONCEPCION

    TCNICAS DE

    MUESTREO

    PROFESORA: MARA PAZ CASANOVA LAUDIEN APUNTES DE CLASE AO 2008 02

  • Programacin de Tcnicas de Muestreo: Se proyectan las siguientes sesiones de clase, basadas en material de clase, apunte de la profesora y texto gua. La asistencia mnima exigida es de un 75%. Sesin 1: Captulos 1, 2. Sesin 2: Captulo 3. Sesin 3: Captulo 4 (4.1-4.5). Sesin 4: Captulo 4 (4.6-4.7, Ej.). Sesin 5: Captulo 5 (5.1-5.5). Sesin 6: Captulo 5 (5.6-5.11, Ej.). Sesin 7: Captulo 6 (6.1-6.4). Sesin 8: Captulo 6 (6.5-6.9, Ej.). Sesin 9: Captulo 7. Sesin 10: Captulo 8 (8.1-8.5). Sesin 11: Captulo 8 (8.6-8.9, Ej.). Sesin 12: Captulo 9. Sesin 13: Captulo 10. Sesin 14: Captulo 11, 12. Sesin 15: Evaluacin. Texto gua: Scheaffer Richard L., Lyman Ott R. , Mendenhall William (1987). Elementos de Muestreo. Grupo Editorial Iberoamrica, Mxico.

  • Evaluacin del curso: El curso se evaluar mediante un nico trabajo final el cual se describe a continuacin.

    Trabajo Final del Curso: Descripcin del trabajo: En base a un problema real del rea de su inters, realice las siguientes actividades:

    1) Narre brevemente la situacin que motiva o justifica la investigacin; delimite la poblacin a estudiar, defina variables y parmetros de inters.

    2) Plantee el problema, pregunta de investigacin o hiptesis. 3) Disee un plan de muestreo, justifique el que se utiliz o bien critique el

    que se utiliz y propongas uno mejor. 4) Calcule tamaos de muestra, especifique las restricciones o condiciones

    impuestas. 5) Estime parmetros puntualmente y por intervalos. 6) D repuesta a la pregunta que motiva la investigacin.

    Informes y fechas: Se solicitan dos informes.

    - El primero debe contener los puntos 1 y 2, y una propuesta del punto 3. - El segundo debe estar completo (puntos 1 a 6).

    Evaluacin del trabajo: La nota final depender de las evaluaciones parciales de ambos informes, donde el segundo contiene al primero con las correcciones solicitadas.

    - Primer informe: 27 de octubre, 30%. - Segundo informe: 01 de diciembre, 70%.

  • Tcnicas de Muestreo Clase 1: Introduccin (primera parte)

    Incerteza y azar:

    En lenguaje coloquial hablamos de estadsticas de ftbol, por ejemplo, refirindonos a promedios y frecuencia de ciertos eventos, sin embargo este concepto no es adecuado tcnicamente. La estadstica es la ciencia que estudia la incerteza, de modo que si un problema tiene una solucin fija exacta, no es materia de la estadstica sino de las matemticas.

    La incerteza se relaciona con el concepto de evento o fenmeno aleatorio, entendemos por fenmeno aleatorio un evento o situacin cuyo resultado no se conoce, y para el cual existe ms de un resultado posible. Por ejemplo, resultado del lanzamiento de un dado, postura expresada por un encuestado elegido al azar respecto de un planteamiento, ingreso per cpita de una familia elegida al azar en cierto sector. En rigor, cuando hablamos de una seleccin al azar nos referimos a que los individuos o elementos han sido numerados, estos nmeros (como esferas numeradas, papeles numerados, etc) han sido depositados en un recipiente y mezclados, para luego seleccionar uno de ellos (y por tanto un individuo) sin mirar los nmeros. Por supuesto, es poco prctico en la mayora de los casos, llevar una tmbola para realizar la seleccin de elementos.

    Existen mtodos alternativos, como el uso de la tabla de nmeros aleatorios, nmeros aleatorios de una calculadora (funcin RAN), nmeros aleatorios de excell (funcin =aleatorio()).

    1) Tabla de nmeros aleatorios: Determinar el nmero de dgitos del tamao de la Poblacin N:

    El tamao de la Poblacin N tiene una cierta cantidad de dgitos (por ejemplo N=6.114 tiene cuatro dgitos).

    Seleccin del punto de partida: Se escoge un punto inicial de la tabla sin mirarla, por ejemplo, fila 5 (horizontal) y columna 12 (vertical).

    Seleccin del camino a realizar: Se decide, antes de mirar la tabla, el camino a seguir con los nmeros dentro de la tabla, por ejemplo, se seguir hacia la derecha (o se seguir hacia abajo, o en diagonal, etc).

    Se eligen los nmeros: Se sigue la pauta decidida en los dos puntos anteriores, escogiendo nmeros de la cantidad de dgitos deseados, hasta completar el tamao de muestra deseado n y eliminando aquellos que sean mayores a N o que estn repetidos. Por ej., considere n=10.

    Ejemplo: Columna 12 19947 73392 89710 00758 96958 99928 65432 96152 13565 64136 92337 05985 34293 20053 90874 30380 79485 69481 90965 67897 16705 60046 69702 85894 08235 23753 21522

    Fi la 4 85071 05345 85722 69533 40638 51244 27112 55986 39335 21852 50617 10713 4063 13487 03842 47792 02194 26467

    Nmeros elegidos: 5.722, 6.953*, 3.406, 3.851, 2.442, 7.112*, 5.598, 5.393, 3.521, 8.525*, 617, 1.071, 3.406**, 3.134. La muestra son los nmeros en negrita (* se eliminan por ser mayor que N y ** se elimina por estar repetido).

  • 2) Nmeros aleatorios de la calculadora: La calculadora, al presionar la tecla RAN entrega un nmero entre cero y uno, con una cierta cantidad de decimales. Se leen slo la cantidad de dgitos deseados, eliminando valores superiores a N o repetidos.

    3) Nmeros aleatorios de excell: Excell se puede usar igual que la calculadora, pero tambin hay otras formas, por ejemplo, para seleccionar 10 nmeros entre 1 y 6.114, la siguiente frmula slo requerir eliminar repetidos:

    =redondear.mas(aleatorio()*6114;0). Esta frmula no entregar ceros ni nmeros superiores a 6.114, elegidos al azar, y sin decimales (por eso la instruccin redondear y el cero al final que indica el nmero de decimales).

    Conceptos de Muestreo:

    Muestra m

    Poblacin P Se define como Poblacin al conjunto de todos los individuos o elementos respecto de los cuales se desea inferir o de inters para el estudio. La poblacin debe ser bien definida al iniciar el estudio. Como muestra la Figura, una muestra es un subconjunto de la Poblacin. Este subconjunto ser utilizado para, en base a los hallazgos en este conjunto, proyectar las conclusiones a la Poblacin completa. Para que tenga sentido realizar esta proyeccin, la muestra debe cumplir con ciertas propiedades. En particular, debe ser representativa de la Poblacin, es decir, una Poblacin en tamao pequeo. Para que con una alta probabilidad se den en la muestra caractersticas semejantes a las de la poblacin, esta muestra debe satisfacer que, todos los individuos o elementos de la Poblacin deben tener la misma probabilidad de pertenecer a ella. Para lograr esto, en un nivel muy bsico, es necesario escoger la muestra al azar. Es por esto que se habla de muestra aleatoria. El objetivo del estudio siempre se refiere a ciertas caractersticas de la poblacin, las cuales son medidas a los individuos de la muestra. Los individuos o elementos de la poblacin son las unidades a ser medidas. En ocasiones, la seleccin de elementos requiere acceder primero a unidades ms grandes que incluyen varios elementos, en este caso se habla de unidades de muestreo.

  • El conjunto del cual se extrae la muestra se denomina marco muestral, y consiste de algn tipo de lista de los elementos de la poblacin. En muchas ocasiones el marco muestral no es igual a la poblacin, y se puede requerir ms de un marco muestral para acceder a la poblacin completa. Cuando no existe un marco muestral completo para una poblacin, ser necesario redefinir la poblacin a la cual se proyectarn las conclusiones. Las caractersticas que se miden a los individuos, se denominan variables. Por ejemplo:

    - sueldo (variable) de los obreros de la ciudad (elemento de la poblacin), - nmero de integrantes (variable) de la familia (elemento de la poblacin), - postura poltica (variable) de un residente (elemento de la poblacin).

    Respecto de las variables, el inters no est centrado en valores particulares medidos en ciertos individuos, sino en ciertos parmetros o medidas poblacionales de ellas. Por ejemplo:

    - sueldo de los obreros Parmetro: sueldo promedio de todos los obreros de la ciudad.

    - nmero de integrantes de la familia Parmetro: nmero total de habitantes de la villa.

    - postura poltica de los residentes Parmetro: porcentaje de los residentes que son de derecha.

    Los parmetros son caractersticas poblacionales de la variable de inters. Por lo general son desconocidos (se requerira un censo para conocer su valor) pero su valor es fijo o constante. Se define como estadstico a una funcin matemtica de los valores de la muestra, por ejemplo la suma de ellos, el valor mayor, la multiplicacin de ellos, etc. Como la muestra es aleatoria, es decir, no es fija, puede constar de diferentes elementos, entonces el estadstico, como depende de ella o se calcula en base a ella, tambin es aleatorio, es decir, puede tomar diferentes valores. Existen infinitos estadsticos, tantos como funciones matemticas uno pueda crear; sin embargo algunos de ellos son de inters, en particular aquellos que de algn modo son anlogos a los parmetros. A estos estadsticos se les conoce como estimadores. Cada parmetro tiene asociado un estimador. Los estimadores son estadsticos que sirven para estimar un parmetro. Por ejemplo:

    - Parmetro: sueldo promedio de todos los obreros de la ciudad Estimador: sueldo promedio de los obreros en la muestra.

    - Parmetro: nmero total de habitantes de la villa Estimador: promedio de habitantes por casa en la muestra

    multiplicado por el nmero de casas de la villa. - Parmetro: porcentaje de los residentes que son de derecha Estimador: porcentaje de individuos de derecha en la muestra.

    Naturalmente, al ser estadsticos, los estimadores tambin son aleatorios.

  • Tipos de Muestreo: No en todos los casos el diseo del muestreo es el mismo, en efecto hay varios tipos de muestreo. La seleccin del diseo a utilizar se basa en la estructura de la poblacin (si est constituida o no de subgrupos, el grado de heterogeneidad de stos y la accesibilidad de los elementos).

    1) Muestreo Aleatorio Simple M.A.S.: La poblacin no presenta subgrupos o estos son desconocidos para el investigador y la variable a ser medida en ella tiene un comportamiento relativamente homogneo. Por ejemplo, interesa estudiar la postura poltica de los N mineros de Lota, los cuales son todos varones. Se realiza un empadronamiento y se selecciona una muestra al azar de n mineros de dicha lista.

    2) Muestro Aleatorio Estratificado M.A.E.: La poblacin presenta subgrupos llamados estratos que, respecto de la variable medida, tienen la caracterstica de ser heterogneos entre ellos (diferentes) y homogneos dentro de ellos (la estratificacin agrupa a los individuos con aquellos similares a ellos). Por ejemplo, interesa estudiar los sueldos de la totalidad de los N trabajadores de un hospital. Estos individuos se pueden estratificar por estamento. Para ello se establecen los tamaos de cada estamento (N1 mdicos, N2 enfermeros, N3 auxiliares de enfermera, N4 otros profesionales de la salud, N5 administrativos, N6 auxiliares de limpieza, N7 guardias, y se seleccionan muestras en cada uno, de tamaos proporcionales, n1,..., n7,

    tales que n = n1+...+n7 y nni = N

    Ni para todo i = 1,...,7.

    3) Muestreo Sistemtico M.S.:

    La poblacin no presenta subgrupos o estos son desconocidos para el investigador y la variable a ser medida en ella tiene un comportamiento relativamente homogneo. Adems se cuenta con un marco muestral completo ordenado en el cual los individuos estn numerados o pueden numerarse fcilmente. Finalmente, el ordenamiento en el marco muestral no guarda relacin con la variable de inters, en el sentido de que no se observa algn tipo de patrn, por ejemplo cclico, en ellos. Por ejemplo, se desea estudiar el comportamiento sexual de los N = 4.900 estudiantes de primer ao de la Universidad de Concepcin, los cuales estn ordenados en un listado en orden alfabtico. La muestra corresponder a un 5% de la poblacin (n = 245). Esto significa que se seleccionar en forma sistemtica uno de cada k = 20 individuos

    (k =nN = 245

    4.900= 20). Para definir el nmero inicial, se selecciona un

    nmero al azar entre 1 y k = 20, sale elegido el nmero 16. El primer individuo en la muestra es el que corresponde en la lista al 16. A partir de este nmero se salta cada vez 20 para elegir el que sigue, es decir, se escoge a los individuos nmero 16, 36, 56, 76, 96, 116, ... , 4.896.

  • 4) Muestreo por Conglomerados M.C.: La poblacin presenta subgrupos llamados conglomerados que, respecto de la variable medida, tienen la caracterstica de ser heterogneos dentro de ellos (variados representando cada conglomerado a una poblacin en miniatura) y homogneos entre ellos (los conglomerados son semejantes entre ellos de modo que da lo mismo seleccionar uno u otro). Adems, existen problemas de acceso a los elementos, y la seleccin de conglomerados los soluciona, en muchas ocasiones los conglomerados son unidades de muestreo. Por ejemplo, se conduce un estudio de la necesidad de un centro abierto para nios en una poblacin que est compuesta de 50 edificios de departamentos. Interesa obtener una muestra del 10% de las familias, para lo cual se seleccionan al azar 5 de los 50 edificios y luego se realiza la consulta en todos los departamentos de los edificios en la muestra.

    5) Muestreo Multietpico M.M.:

    Para acceder a las unidades muestrales, es preciso realizar una sucesin de aproximamientos, desde entidades ms grandes a entidades ms pequeas. Cada aproximacin o etapa involucra un proceso aleatorio. Por ejemplo, interesa estudiar el fenmeno Bullying en cursos (unidad muestral) de primer ciclo de educacin bsica para las comunas principales de la zona urbana de la provincia. Para ello se definen las comunas involucradas (Poblacin: cursos de primer ciclo bsico en colegios de Concepcin, Talcahuano, Chiguayante, San Pedro de la Paz, Hualpn y Penco) y se definen sectores fsicos (por estrato socioeconmico) dentro de las comunas. Se indaga sobre el nmero de colegios fiscales, particulares y subvencionados (clasificacin por dependencia) en cada sector y la cantidad de cursos de educacin bsica existentes. De esta forma se establece la cantidad de cursos a escoger por dependencia y por comuna (M.A.E. doble, por comuna y dependencia, 18 estratos) y cada tamao muestral se subdivide proporcionalmente para los sectores (M.A.E.). En cada sector se han empadronado los cursos existentes en listas por dependencia (3 listas por sector). Se eligen al azar (M.A.S.) los cursos de las listas. Se concurre para entrevistar a los profesores, apoderados y alumnos de los cursos seleccionados.

    Los tamaos de muestra, la forma de seleccin de ellas muestra y el clculo de estimadores se abordarn para cada tipo de muestreo en los captulos siguientes.

  • Tcnicas de Muestreo Clase 2: Introduccin (segunda parte)

    Tipos de Variables Aleatorias: En general la informacin total obtenida de la muestra debe resumirse mediante:

    - Tablas, - Grficos, - Medidas (estimadores, estadsticos).

    Tanto los estimadores como los estadsticos son variables aleatorias, por lo cual tienen una distribucin (llamada distribucin muestral, ya que su variabilidad se debe a que la muestra es aleatoria). Las variables aleatorias corresponden a caractersticas numricas de los individuos. Cada variable aleatoria tiene asociado un Recorrido, el recorrido es el conjunto de valores posibles, valores que puede asumir esta caracterstica. Cada uno de los valores que pueden asumir estas variables aleatorias, es decir, cada elemento del recorrido, tiene asociada una funcin de probabilidad, es decir una funcin matemtica que indica cun posible es que se obtenga tal valor. Esta funcin matemtica se conoce como Distribucin de Probabilidad. Las variables aleatorias (v.a.) y pueden ser de dos tipos:

    - Discretas, - Continuas.

    Un conjunto es contable si es finito, es decir, se puede contar sus elementos. Un conjunto es numerable si se puede numerar sus elementos en algn orden, es decir, asignarle un nmero a cada elemento. Un conjunto numerable no necesariamente es finito, hipotticamente uno podra numerar infinitamente sus elementos, ya que tienen un orden especfico. Las v.a. discretas son aquellas cuyo recorrido es numerable o contable. Ejemplos: Nmero de hijos de una mujer, Nmero de aos de servicio de un empleado, Edad (aos cumplidos), Aos de estudio, etc. Las v.a. continuas son aquellas cuyo recorrido no es numerable ni contable, sino que entre cada par de valores posibles existen infinitos valores ms. Ejemplos: Estatura, peso de una persona. En ocasiones una variable continua puede medirse mediante una escala de medicin discreta. Ejemplos: Edad real (25 aos, dos meses, 13 das, 5 horas, 3 minutos, 5 segundos, etc.) Edad en aos cumplidos (25 aos) Sueldo lquido real ($354.211,6666) Sueldo lquido en pesos ($354.212). En otras ocasiones una variable continua o discreta se puede medir en intervalos.

  • Ejemplos: Marque a qu categora de sueldo pertenece usted: a. Menos de $300.000 b. $300.001 a $800.000 c. Ms de $800.000. En qu grupo etreo se ubica el jefe de hogar: a. Menos de 30 aos b. Entre 30 y 45 aos c. Entre 46 y 60 aos d. Ms de 60 aos

    Finalmente hay variables que se categorizan, es decir, los nmeros se transforman en una clasificacin no numrica. Si se trata slo de dos categoras, se dice que la variable se ha dicotomizado.

    Grupo etreo del jefe de hogar: Joven (18-40), Adulto (41-59), Adulto mayor (ms de 60).

    Grupo de nivel socioeconmico: A, B, C. D. E. Viven menores de edad en el domicilio? S (1 ms menores de edad),

    No (0 menores de edad). El sueldo per cpita es superior a $200.000? Si ($200.000 ms), No

    (menos de $200.000). Distribuciones de Probabilidad importantes: Variable Aleatoria Discreta Importante: Binomial: Un experimento es cualquier situacin que genera diversos resultados. Un experimento Bernoulli es un experimento dicotmico a cuyos resultados se denomina xito y fracaso, para el cual las realizaciones son independientes (si la muestra es aleatoria se asegura la independencia) y la probabilidad de xito es constante (si la muestra es extraa de una poblacin o subpoblacin homognea se asegura que la probabilidad de xito es igual para todos los individuos). La probabilidad de xito se denota por p. Una v.a. Binomial se puede definir como: nmero de xitos en n realizaciones de un experimento Bernoulli. Se denota por X ~ b(n, p). El n de realizaciones n es fijo. Ejemplo: Se encuesta a 100 personas extradas al azar (independientes) de la fuerza de trabajo femenina de la ciudad de Concepcin (ser homogneo este grupo?), para consultarles respecto una modificacin en la ley laboral (experimento), que les afecta. Poblacin: fuerza laboral femenina de la ciudad. X: N de personas (de un total de 100 encuestadas) que estn a favor (xito) de la modificacin. X ~ b(n=100, p), donde p es la proporcin real en la poblacin de personas a favor de la modificacin. Histograma: Grfico de barras verticales, que ubica en el eje horizontal los valores de la variable en intervalos de tamao constante, y en el eje vertical la frecuencia o el nmero de ocurrencias en cada intervalo (se puede reemplazar la frecuencia por el porcentaje).

  • Ejemplo:

    % d

    e in

    divi

    duos

    Edad

    Variables aleatorias Continuas Importantes:Uniforme: Todos los valores son igualmente probables. Si se construye un histograma la figura es semejante a la siguiente:

    Pro

    babi

    lidad

    X

    Exponencial: Los valores bajos son altamente probables y las probabilidades decrecen rpidamente para valores altos. Si se construye un histograma la figura es semejante a la siguiente: Normal: El histograma resulta simtrico (un lado corresponde al reflejo del otro, como visto en un espejo) y unimodal (un solo valor mximo). Los valores centrales son ms probables y las probabilidades decrecen rpidamente para valores alejados del centro. Si se construye un histograma la figura es semejante a la siguiente:

    Pro

    babi

    lidad

    X

    Pro

    babi

    lidad

    X

  • Verificacin de Modelos:Para verificar si un modelo es binomial, se debe realizar un anlisis intelectual del problema. Para verificar los modelos continuos en cambio, es conveniente realizar la grfica del histograma. Parmetros y Estimadores Binomial: El parmetro de inters es la proporcin poblacional p y el estimador es la proporcin muestral . El clculo de p requiere un clculo sobre toda la poblacin, cuyo tamao es N: p =

    p

    Npoblacin laen xitos N . En poblaciones

    homogneas, p=nesrealizacio N

    muestra laen xitos NnX = .

    Normal: El parmetro de inters es la media poblacional o esperanza y el estimador es la media muestral o promedio .

    El clculo de se realiza sobre toda la poblacin, de tamao N: = N

    XN

    1ii

    = .

    En poblaciones homogneas, para una muestra de tamao n, X= =n

    Xn

    1ii

    = .

    La distribucin normal adems tiene otro parmetro, es la varianza poblacional 2. Su estimador es la varianza muestral = S2 2. La raz cuadrada de la varianza poblacional es la desviacin estndar , medida de la variabilidad o dispersin de los valores poblacionales. La raz cuadrada de la varianza muestral es la desviacin estndar S, medida de la variabilidad o dispersin de los valores muestrales. El clculo de 2 se realiza sobre toda la poblacin, cuyo tamao es N:

    2 = N

    )X(XN

    1i

    2i

    =

    . En poblaciones homogneas, si el tamao de muestra es n, se

    tiene que = S2 2 = 1-n

    )X(Xn

    1i

    2i

    =

    .

    Medidas: Proporcin, media y varianza no son las nicas medidas que existen. Las medidas, en general, se dividen en medidas de localizacin y variabilidad, y se pueden clasificar del modo siguiente:

  • Caractersticas de las Distribuciones: Muestra Aleatoria: Conjunto de variables aleatorias (valores medidos en los individuos) independientes (los individuos fueron extrados al azar) y con igual distribucin (provienen de la misma Poblacin homognea). Esto se denota como m.a. i.i.d. Notacin: Parmetro; Estimador. Distribucin normal: Parmetro Estimador =X. Parmetro 2 Estimador = S2 2. Distribucin binomial: Parmetro p Estimador p=

    nX .

    Media Poblacional o Esperanza:

    E(X) = N

    XN

    1ii

    = es el promedio de la variable en la Poblacin.

    El estadstico anlogo es la media muestral X. Propiedades: Sea a, b constantes y X, X1, , Xn variables.

    E(a) = a, E(a X) = a E(X), E(a X + b) = a E(X) + b, E( ) = = n E(X).

    =

    n

    1iiX

    =

    n

    1ii )E(X

    Igual Distribucin Varianza Poblacional:

    V(X) = N

    )X(XN

    1i

    2i

    =

    es el promedio de las desviaciones cuadradas respecto de la

    media en la Poblacin. El estadstico anlogo es la varianza muestral S2. Propiedades: Sea a, b constantes y X, X1, , Xn variables.

    V(a) = 0, V(a X) = a2 V(X), V(a X + b) = a2 V(X), V( ) = = n V(X).

    =

    n

    1iiX

    =

    n

    1ii )V(X

    Independencia Igual Distribucin Propiedades de Bondad de los Estimadores:

    Insesgamiento: E( ) = La distribucin muestral de se ubica alrededor de centrada en .

    Varianza pequea: V( ) La distribucin muestral de es poco dispersa, est concentrada alrededor de .

  • Resultados Importantes: Normal: X N(, 2) E(X) = ; V(X) = 2.

    E(X ) = )E(n

    Xn

    1ii

    = = )E(=

    n

    1iiXn

    1 = =

    n

    1ii )E(Xn

    1 = )E(Xnn1

    i = E(X) = . X es estimador insesgado de E(X) = .

    V(X ) = )(n

    Xn

    1ii

    V

    = = )(=

    n

    1ii2 XVn

    1 = =

    n

    1ii2 )V(Xn

    1 = )V(Xnn1

    i2 = nV(X) =

    n 2 .

    la varianza deX decrece a medida que el tamao de muestra crece. E(S2) = V(X) = 2 S2 es estimador insesgado de V(X) = 2. Binomial: X b(n, p) E(X) = n p; V(X) = n p (1- p). E(p ) = )E(

    nX = )E(X

    n1 = pn

    n1 = p.

    p es estimador insesgado de p. V(p ) = )(

    nXV = )(XV

    n12 = p)(1pnn

    12 = n

    p)(1p . la varianza de p decrece a medida que el tamao de muestra crece. Caractersticas de la Distribucin Normal: Teorema del Lmite Central TLC: Para muestras grandes (n 30 n 50), se tiene que, independiente de la

    distribucin original de las observaciones: X N(E(X), n

    V(X) ).

    Algunas consecuencias y observaciones importantes son las siguientes:

    Si la distribucin de origen es normal: X N(,n2 ).

    Si la distribucin de origen es continua no normal: X N(E(X), n

    V(X) ).

    Si la distribucin de origen es binomial: p N(p, n

    p)-(1p ).

  • Teorema de Chebyshev: Para muestras de cualquier tamao (en particular pequeas), se tiene que,

    independiente de la distribucin original: P(| - | B) 1 2B)V( .

    Algunas consecuencias y observaciones importantes son las siguientes:

    n Distrib. normal u otra continua: P(|X | 2)XV(2

    ) 1 )X V(4

    )XV( = .

    2 )pV( Distrib. binomial: P(|p p| 2 np)(1p ) 1

    )p V(4)pV(

    = .

    Error de Estimacin e Intervalo de Confianza: El error de estimacin es la diferencia absoluta entre el valor real y el valor estimado de un parmetro E = | - |. En el caso normal, corresponde a E = | - |. En el caso binomial, corresponde a E = |p - p|. Se denota por B al error mximo permitido y por (1 ) al nivel de confianza en la estimacin. Esto se resume en la siguiente expresin: P(| - | B) = 1 . Esta expresin tambin es anloga a decir que, con un nivel de confianza (1- ) se tiene que el verdadero valor pertenece al Intervalo de Confianza

    [ - B, + B]. El nivel de confianza quiere decir que, si se construyeran un gran nmero de intervalos, cada uno basado en una muestra extrada al azar, el verdadero valor del parmetro estara contenido en el porcentaje dado por 1 de ellos. Intervalos de Confianza y TLC Para tamaos de muestra grande, podemos decir que:

    Con 95% de confianza, est en el intervalo [X - 2 n ;X + 2 n ] Con 95% de confianza, p est en el intervalo [p-2

    np)(1p ;p+2

    np)(1p ]

    Como es un valor desconocido, se p de aproximar por S, especialmente si la muestra es grande. De igual forma, p se puede aproximar por p . Intervalos de Confianza y Teorema de Tchebys v Para tamaos de muestra cualquiera (pequeo), p

    Con 75% de confianza, est en el interva Con 75% de confianza, p est en el interva

    Tambin en este caso se pueden aproximar y existen alternativas para S (se vern ms adelanteel valor medio 0,5. heueodemos decir que: lo [X - 2 n ;X + 2 n ] lo [p-2

    np)(1p ;p+2

    np)(1p ]

    p. Si la muestra es pequea, )y p se puede aproximar por

  • Ejercicios: 1) Considere el conjunto dado a continuacin y correspondiente a los sueldos

    de los 50 empleados de una reparticin. a. Calcule los valores poblacionales = E(X) y = V(X) . b. Realice el histograma de los datos. c. Obtenga 20 muestras de tamao 5.

    i. Para cada una calcule X, S y el intervalo de confianza para . ii. Vea a cuntos intervalos pertenece el valor real de . iii. Realice el histograma de valores de X. iv. Comente.

    d. Obtenga 20 muestras de tamao 30. i. Para cada una calcule X, S y el intervalo de confianza para . ii. Vea a cuntos intervalos pertenece el valor real de . iii. Realice el histograma de valores de X. iv. Comente.

    2) Considere el conjunto dado a continuacin y correspondiente a la postura

    de los 50 empleados de una reparticin respecto de las nuevas polticas de la empresa.

    a. Calcule el valor poblacional p. b. Realice el histograma de los datos (codifique como 1: a favor y

    0: en contra). c. Obtenga 20 muestras de tamao 5.

    i. Para cada una calcule p y el intervalo de confianza para p. ii. Vea a cuntos intervalos pertenece el valor real de p. iii. Realice el histograma de valores de p . iv. Comente.

    d. Obtenga 20 muestras de tamao 30. i. Para cada una calcule p y el intervalo de confianza para p. ii. Vea a cuntos intervalos pertenece el valor real de p. iii. Realice el histograma de valores de p . iv. Comente.

  • Ayuda para trabajo en Excell Datos Problema 1 (sueldos de los 50 empleados de una reparticin, ordenados):

    156.000 279.000 340.000 414.000 546.000 173.000 279.000 343.000 423.000 557.000 178.000 287.000 346.000 430.000 570.000 215.000 290.000 352.000 440.000 580.000 218.000 297.000 353.000 451.000 605.000 235.000 298.000 356.000 459.000 649.000 240.000 319.000 367.000 477.000 684.000 250.000 320.000 386.000 490.000 699.000 269.000 323.000 391.000 510.000 716.000 278.000 332.000 412.000 530.000 740.000

    a) Ubique los datos en una columna de Excell, con el ttulo Sueldos

    (columna A). A

    Sueldos 156.000 173.000 178.000

    Etc. b) Utilice los siguientes intervalos para los datos: 151.000-200.000,

    201.000-250.000, 251.000, 300.000, etc. Escrbalos en una columna de Excell con el ttulo Intervalos (columna B).

    B Intervalos 151-200 201-250 251-300

    Etc. Para utilizar estos intervalos, se debe ubicar en una columna de Excell los lmites superiores de los intervalos: 200.000, 250.000, 300.000, etc. Llame a esa columna Clases (columna C).

    C Clases 200.000 250.000 300.000

    Etc. c) Debajo de la Columna Sueldos calcule promedio y desviacin estndar

    (poblacional), con las frmulas en el ejemplo: 50 716.00051 740.00052 Promedio 53 =promedio(A2:A51) 54 Varianza Poblacional 55 =varp(A2:A51) 56 Desv. Est. Poblacional 57 =raiz(A55)

  • d) Para el histograma de los datos, se utiliza la columna Clases. Presione los Men Herramientas Complementos marque Herramientas para Anlisis Aceptar (esto se hace una sola vez, despus quedan activadas las opciones estadsticas). Luego para acceder a las herramientas estadsticas, presione los Men Herramientas Anlisis de Datos Histograma. Se abre un cuadro de dilogo donde se debe completar la informacin como en el siguiente ejemplo:

    e) La imagen obtenida ser la que se muestra en el siguiente ejemplo:

  • Haciendo clic sobre las barras se marcarn las columnas fuente del grfico, la idea es ubicarse con el Mouse sobre la columna destacada en morado, presionar botn izquierdo del Mouse, y mover el cuadr morado a la columna de los Intervalos:

    f) Obtenga las frecuencias relativas o porcentajes, calculando, al lado de las Frecuencias, con la frmula en el ejemplo:

    D E F Clases Frecuencia Porcentaje

    200000 3 =E2/50 250000 5

    Arrastre la frmula de la celda F2 hacia abajo, desde la esquina inferior derecha hasta F13 y presione el Men de porcentaje:

    g) Ahora presione otra vez las barras del grfico y mueva la columna azul a la de porcentajes. Finalmente reduzca con el Mouse el largo de las columnas de fuente de los datos:

  • h) Finalmente el grfico se puede mejorar eliminando la Leyenda (el cuadro

    que dice Frecuencia), ensanchando las columnas (botn derecho sobre las barras, Formato de Serie de Datos Opciones Ancho del Rango: 0 Aceptar), cambiando direccin o tamao de las letras (botn derecho sobre eje horizontal, Formato de Ejes Fuente Tamao 7 Alineacin: 0 grados Aceptar) y cambiando los ttulos.

    Distribucin de Sueldos de Empleados de una Reparticin

    0%

    2%

    4%

    6%

    8%

    10%

    12%

    14%

    16%

    18%

    151-200 201-250 251-300 301-350 351-400 401-450 451-500 501-550 551-600 601-650 651-700 701-750

    Intervalos de Sueldos

    Por

    cent

    aje

    i) Para generar las muestras, en la Hoja 2 copie la columna A de la Hoja 1.

    Luego cree una columna de Probabilidades (columna C). Como todos los datos deben tener la misma probabilidad de salir elegidos y son 50, la probabilidad es 1/50=0,02:

    A B 1 Sueldos Probabilidades2 156.000 0,023 173.000 0,024 178.000 0,02

  • Luego presione los Men: Herramientas Anlisis de Datos Generacin de Nmeros Aleatorios y rellene los datos del cuadro de dilogo como en la figura: j) Luego ponga ttulo a cada columna en que se presenta una muestra

    extrada del conjunto: A B C D 1 Sueldos Probabilidades Muestra 1 Muestra 2 2 156.000 0,02 477000 352000 3 173.000 0,02 414000 279000 4 178.000 0,02 716000 451000 5 215.000 0,02 386000 319000 6 218.000 0,02 546000 740000

    k) En las filas inferiores calcule los estimadores para cada muestra: promedio (=promedio()), desviacin estndar muestral (=desvest()), y construya las frmulas del lmite inferior y superior de cada intervalo, recordando que n=5.

  • Datos Problema 2 (postura de los 50 empleados de una reparticin, respecto de una nueva poltica de la empresa): En contra En contra En contra En contra A favor En contra A favor En contra En contra En contra En contra En contra En contra En contra A favor En contra A favor A favor A favor En contra En contra A favor A favor En contra En contra A favor En contra En contra En contra En contra En contra En contra A favor En contra En contra En contra A favor A favor En contra A favor En contra En contra En contra En contra En contra En contra En contra En contra En contra En contra

    Los desarrollos en este caso son muy semejantes a los del problema 1, pero presentan algunas diferencias, en primer lugar, que es factible definir la distribucin de probabilidad poblacional a ojo o con la funcin Contar.si (vea el ejemplo) y luego dividiendo por 50 para calcular la probabilidad:

    A B C 1 Postura Resultados Frecuencia 2 En contra A favor =CONTAR.SI(A2:A51;"A Favor") 3 En contra En contra 4 En contra Codificacin Probabilidad 5 En contra 1 =C1/50 6 En contra 0 7 A favor

    Entonces, en la generacin de muestras (nmeros aleatorios) slo se usarn como fuente de los datos Codificacin y Probabilidad: .

  • Tcnicas de Muestreo Clase 3: Elementos del Problema de Muestreo

    Tamao de la Muestra: Cada elemento de la poblacin contiene una cierta cantidad de informacin relativa a ella, a las variables en juego, a sus distribuciones y a sus parmetros; sin embargo cada unidad muestreada implica un costo, lo que motiva la determinacin del mnimo tamao muestral que permita el logro de los objetivos de la estimacin (precisin y confianza deseadas), dada la variabilidad (desviacin estndar del estimador) existente y el tamao de la Poblacin. De estos cuatro factores, dos son propios del problema y no se pueden alterar (variabilidad, tamao de la poblacin), mientras que los otros dos son definidos por el investigador (precisin y confianza). El ideal es que se pueda contar con que las mediciones hayan sido realizadas en forma exacta. En caso contrario, se habla de error de medicin. Este tipo de error debe minimizarse. Definiciones importantes: Elemento: Objeto al cual se le pueden tomar (y eventualmente se le toman) las mediciones. Poblacin: Coleccin de elementos acerca de los cuales se desea realizar inferencias. Unidades de muestreo: Colecciones no traslapadas de elementos que cubren la poblacin completa. Marco muestral: Lista de unidades de muestreo. Muestra: Una coleccin de unidades seleccionadas de uno o de varios marcos muestrales. Diseo del Muestreo: El objetivo del muestreo es la estimacin de parmetros de la poblacin. La estimacin se basa en la informacin muestral. La precisin de esta estimacin es determinada por el investigador como el error mximo de estimacin B.

    E = | | B. La probabilidad 1 de que la estimacin tenga un error que no supere a esta cota se denomina nivel de confianza.

    P( E B) = P(| | B) = 1 .

    Como se vio anteriormente, si consideramos B = 2( ) y: el tamao de muestra n es grande, o la distribucin es normal, se tiene

    que la probabilidad es 1 = 0,95 (95%); el tamao de muestra n es pequeo, se tiene que la probabilidad es

    1 = 0,75 (75%).

  • Note que la cantidad 2( ) corresponde al error de muestreo, lo cual es muy diferente del error de medicin.

    Intervalos de Confianza: Una forma general de escribir un Intervalo de Confianza de probabilidad o nivel 1 para (las cotas que probablemente contengan al parmetro), es la siguiente:

    [ 2( ); + 2( ) ] = [ B; + B ]. Fuentes de Error en Encuestas y Posibles Soluciones:

    Como se mencion antes, existe el error de muestreo, que se debe nicamente a que no es posible medir la poblacin completa, y el error de medicin, que se refiere a errores provenientes no de la seleccin de individuos sino de la medicin misma. Respecto de estos ltimos podemos mencionar algunos subtipos:

    1) Omisin: Si se desea realizar inferencias sobre una poblacin, es importante considerar que aquellas personas que acceden a responder a la encuesta no necesariamente constituyen una muestra representativa de ella. Muchas veces las personas que no responden a una encuesta corresponden a un grupo con caractersticas diferentes, las cuales motivan que no respondan. Por ejemplo, si a un individuo un tema le es indiferente, es muy posible que no responda, slo para no darse el trabajo de hacerlo; mientras que si el individuo est desconforme con la situacin de la que se trata, se ver muy motivado a expresar su opinin. Incluso, si el individuo piensa que la consulta no tiene como fin producir algn tipo de cambio, independiente de que el tema le interese o preocupe, probablemente no responder. Basar las inferencias en una muestra con alto porcentaje de omisin llevar a conclusiones sesgadas (inclinadas en algn sentido, a cierto grupo).

    Soluciones: Los incentivos son una forma de evitar omisiones, sin embargo, estos deben ser ofrecidos a la muestra seleccionada al azar, ya que una muestra basada en aquellas personas que, al saber que haban incentivos, decidieron responder, sera sesgada. Estos incentivos pueden ser econmicos (dinero, artculos), pero tambin puede ser la seguridad de que las respuestas permitirn mejorar la situacin se la que se trata o de los entrevistados.

    2) Respuestas inexactas: En este caso nos referimos tanto a las respuestas inexactas que son entregadas con la intencin de mentir u ocultar la verdad, como a aquellas que se responden en forma equivocada porque la pregunta no es clara para quien la responde. En el primer caso, se debe presentar las preguntas de tal forma que la persona no se sienta amenazada ni cohibida, o de forma que se amortige al mximo su efecto; mientras que en el segundo caso, previo a editar la versin final del cuestionario, es un buen ejercicio presentar el cuestionario a amigos que nos ayuden a determinar si se las preguntas se entienden.

  • Soluciones: Un adecuado adiestramiento de los encuestadores permitir obtener respuestas difciles o sobre temas incmodos. Por otra parte, la revisin pronta de la planilla de datos permitir verificacin de informacin extraa (valores imposibles por ejemplo), y recuperacin de datos mientras los encuestados an estn disponibles.

    3) Sesgo de seleccin: Es una prctica comn y muy inconveniente, reemplazar en forma ms o menos arbitraria a los individuos muestreados ausentes por sus vecinos. En este caso, as como en el caso de no respuesta, la ausencia de los individuos podra guardar relacin con su postura frente a las interrogantes que se les plantearn, por ejemplo, puede que sea ms comn (probable) encontrar en el domicilio a una familia con nios que a una conformada por adultos solamente, lo cual puede sesgar las respuestas de los individuos. La nica forma de obtener una muestra representativa y que satisfaga las propiedades de stas, es medir a los individuos debidamente seleccionados en forma aleatoria.

    Soluciones: Las reentrevistas programadas en diferentes horarios y das de la semana son una forma de minimizar las omisiones en una encuesta que se realiza en terreno.

    Mtodos de recoleccin de datos: Algunos mtodos de recoleccin de datos son:

    1) Entrevista Personal: Se tiende a tener menos omisin cuando el individuo es confrontado en forma personal. Las ventajas de una entrevista son: el lenguaje no verbal es considerado, se puede explicar las preguntas evitando omisiones; desventajas son: se puede provocar sesgo por las actitudes o gestos del entrevistador, si el entrevistador no es experimentado puede cohibir al encuestado o perder informacin. En general, se puede usar una pauta rgida o un punteo. Si se trata de una entrevista tcnica, se requiere del individuo su opinin experta, por lo cual es conveniente llevar debidamente escritas las preguntas e interiorizarse del tema previamente. Si se trata de una entrevista testimonial, en cambio, se da libertad al encuestado para que se exprese libremente.

    2) Entrevista Telefnica: Las entrevistas telefnicas resultan ms econmicas que las personales, sin embargo deben ser ms cortas, ya que el encuestado tiende a impacientarse. Por otra parte, generalmente utilizar la gua telefnica como marco muestral produce sesgo, ya que no todas las casas tienen telfono, de las que tienen no todas estn en la gua y muchos telfonos de la gua no corresponden a casas.

    3) Cuestionarios Autoaplicados: Las encuestas en que no se cuenta con un entrevistador, sino que el individuos las responde por s mismo, son ms econmicas. En ocasiones se hacen en un lugar especfico al cual concurren los encuestados; pero la mayora de las veces se hacen llegar por correo, postal o electrnico, este tipo de encuestas tiene muy bajo porcentaje de respuesta. En cualquiera de los casos, la encuesta debe redactarse de forma muy cuidadosa, para evitar errores u omisiones.

  • 4) Observacin Directa: Un muestreo en el cual no se realiza mediciones a las personas puede ser obtenido de primera fuente (nmero de vehculos que pasan por cierta interseccin, por ejemplo). Tambin, en ocasiones, se requiere informacin objetiva, presente en archivos, la cual es ms exacta que aquella que pudieran proveer los mismos individuos muestreados (fichas de hospital, por ejemplo). En general este tipo de muestreo es demoroso pero econmico.

    Diseo de un Cuestionario: El diseo cuidadoso del instrumento (cuestionario) permitir disminuir las potenciales fuentes de error de medicin. Algunos factores a considerar son:

    1) Orden de las Preguntas: Si las preguntas estn relacionadas entre s, y estn presentadas en un orden especfico, ste puede incidir en las respuestas de los individuos, ya que a medida que se responde puede ir generando en ellos un estado anmico (inducido por las preguntas) que produzca percepciones distintas a las que se hubieran manifestado al enfrentarse a ellas en forma individual. Por ejemplo, 1)Ha presenciado usted alguna vez un acto delincuencial? 2)Algn conocido suyo ha sufrido a causa de la delincuencia? 3)Se siente ud. atemorizado por la delincuencia? Por otra parte, es conveniente ubicar las preguntas menos complicadas al principio, por un efecto de rompe-hielo (por ejemplo, sexo), las medianas al final (por ejemplo, ubquese en un rango de ingreso familiar) y las ms difciles en la parte central, ya sea porque el rompe-hielo permite hacer la pregunta (por ejemplo, ha experimentado usted en su familia alguna situacin de violencia intrafamiliar), o porque la pregunta requiere concentracin por parte del encuestado, el cual estar cansado al final de la encuesta (por ejemplo, ubquese en un rango de gastos mensuales en alimentacin). Finalmente, ciertas preguntas tienen un orden lgico, debido a la informacin que proveen, y existen preguntas de filtro que permiten indicar a un individuo que no se requiere que responda a algn grupo de ellas.

    2) Preguntas cerradas y abiertas: En general las preguntas abiertas se usan en estudios exploratorios, cuando an no se han detectado las posibles respuestas que darn los encuestados. Las ventajas de las preguntas cerradas se relacionan con un menor tiempo de codificacin de la informacin, y con una lectura ms objetiva de las respuestas. Hay que tener cuidado con que las preguntas cerradas cumplan con dos condiciones: ser exhaustivas (cada individuos debe poder responder a la pregunta, nadie puede quedar excluido) y excluyentes (cada individuo debe poder marcar una sola alternativa). Por ejemplo, Cul es su Hobby? no es exhaustiva porque hay individuos que no tienen hobby, mientras que, Marque el tipo de msica que escucha: a) Folclrica b) Metal c) Clsica d) Pop ... no es excluyente, porque el individuo puede escuchar msica de varios tipos. Aunque se debe evitar opciones neutras, a las que el encuestado se puede inclinar para salir del paso, en ocasiones el individuo realmente no sabe o no tiene posicin respecto de cierto planteamiento; para preservar la exhaustividad, se debe incluir la opcin neutra (no s, no se pronuncia).

  • 3) Redaccin ambigua: Es importante que las preguntas sean claras para todos los encuestados. Por ejemplo: aos de educacin puede llevar a algunos encuestados a responder sobre los aos de estudios superiores y a otros sobre la escolaridad completa. Si la encuesta ser respondida por personas de cierto grupo, el lenguaje debe ser el adecuado a ellos (nios, personas sin educacin, etc). Por otra parte, las preguntas deben redactarse de forma que no induzcan a una respuesta particular ni den indicios de que quien disea e instrumento tiene tal o cual posicin. Por ejemplo, qu opinin le merece el mal manejo del problema del transantiago?. Finalmente, la forma en que se plantea la pregunta debe hacer sentir al encuestado que toda respuesta es admisible. Por ejemplo, con qu frecuencia se emborracha usted? a) ms de dos veces a la semana b) mximo dos veces a la semana c) muy rara vez e) nunca, hace sentir que emborracharse es normal, no as se emborracha usted frecuentemente? a) si b) no.

    Planificacin de una Encuesta: Los principales aspectos a considerar a la hora de planificar una encuesta son:

    1) Objetivos: Es importante tener claros los objetivos de la investigacin a la hora de confeccionar el cuestionario, para cumplirlos todos y para no realizar preguntas innecesarias.

    2) Poblacin Objetivo: Es importante definir la Poblacin de forma que sea posible extraer la muestra a partir de ella, que se cuente con un marco muestral.

    3) Marco Muestral: Se construye un marco muestral que sea lo ms parecido posible a la poblacin.

    4) Diseo del Muestreo: Se decide el tipo de muestreo ptimo y se obtiene el tamao de muestra requerido.

    5) Mtodos de Medicin: Se escoge el tipo de encuesta o entrevista a realizar, de acuerdo al tipo de individuos y a los objetivos.

    6) Instrumentos de Medicin: Se construye con mucho cuidado el instrumento (encuesta, entrevista).

    7) Seleccin y adiestramiento de investigadores de campo: Se debe instruir a los encuestadores sobre qu informacin recopilar y cmo hacerlo.

    8) Prueba Piloto: La utilizacin de una muestra piloto permite revisar el proceso de muestreo diseado, las habilidades de los encuestadores, las preguntas del instrumento, etc. Todo esto permite modificaciones antes de aplicar la encuesta final. Por otra parte, esta Prueba Piloto tambin permite estimar la variabilidad existente, con el fin de definir ms claramente el tamao muestral.

    9) Organizacin del Trabajo de Campo: Se debe confeccionar un protocolo que incluya todos los pasos que se deben dar para recolectar, almacenar, controlar, codificar, procesar y analizar la informacin.

    10) Anlisis de Datos: Se debe listar, en el protocolo, el detalle de todos los anlisis estadsticos a realizar, y los aspectos que sern incluidos en el reporte final. Esto se debe planificar antes de recolectar la informacin, ya que el tipo de datos recolectados, las tcnicas estadsticas a utilizar y los objetivos de la investigacin estn ntimamente vinculados.

  • Por ejemplo, si el objetivo es verificar que cierta intervencin ha disminuido el riesgo social en la mayora de los individuos, es necesaria una medicin antes y una medicin despus de la intervencin, y es necesario que estas mediciones se realicen ambas veces en los mismo individuos para realizar la prueba de muestras pareadas. Ejercicios:

    Para los siguientes problemas, considere la informacin disponible y determine el tamao de muestra a considerar, siendo que el tipo de muestreo ptimo es aleatorio simple: 1) Se desea conocer la proporcin de individuos que estn a favor de una

    propuesta en una poblacin de 50 empleados de una reparticin. Se quiere, con una confianza alta, estimar la proporcin real con un error mximo del 10%. a) Calcule el tamao de muestra si no se puede obtener una muestra

    piloto. b) Calcule el tamao de muestra si una muestra piloto de tamao n = 5

    arroj una persona a favor. c) Calcule el tamao de muestra si se sabe que es proporcin est

    entre el 20 y 40%. d) Calcule el tamao de muestra si se sabe que esa proporcin est

    entre 40 y 60%. e) Comente diferencias y similitudes entre los resultados obtenidos para

    los casos (a) a (d). f) En base a (a) obtenga la muestra respectiva del conjunto de datos de

    la clase anterior, estime la proporcin y construya un intervalo de confianza para ella.

    g) En base a la idea planteada en (b), obtenga una muestra piloto de tamao 5, y en base a su resultado, obtenga el tamao muestral definitivo, la muestra, el estimador y el intervalo de confianza.

    h) Comente las semejanzas y diferencias entre los resultados obtenidos para los casos (g) y (h).

    2) Se desea conocer el sueldo promedio de los individuos en una poblacin de 50 empleados de una reparticin. Se quiere, con una confianza alta, estimar la media real con un error mximo del $15.000. a) Calcule el tamao de muestra si se cree que la desviacin estndar

    de los sueldos es a lo ms de $50.000. b) Calcule el tamao de muestra si una muestra piloto de tamao n = 5

    arroj una desviacin estndar de $70.000. c) Comente diferencias y similitudes entre los resultados obtenidos para

    los casos (a) y (b). d) En base a (a) obtenga la muestra respectiva del conjunto de datos de

    la clase anterior, estime la media y construya un intervalo de confianza para ella.

    e) En base a la idea planteada en (b), obtenga una muestra piloto de tamao 5, y en base a su resultado, obtenga el tamao muestral definitivo, la muestra, el estimador y el intervalo de confianza.

    f) Comente las semejanzas y diferencias entre los resultados obtenidos para los casos (d) y (e).

  • Ayuda: Para muestreo aleatorio simple:

    n

    XX

    n

    ii

    === 1

    11

    2

    1

    2

    1

    2

    =

    == ==

    n

    XnX

    n

    )XX(S

    n

    ii

    n

    ii

    n

    S)( =

    nXp =

    n

    )p(p)p( = 1

    El error mximo de estimacin es B = 2 ( ). Si el tamao de la Poblacin N es finito, n =

    Nn

    n0

    0

    1+. En caso contrario, n = n0.

    Para una muestra grande o normal y un nivel de confianza 95%, el tamao de muestra se calcula despejando n0 desde B = B0, donde B0 es el error mximo permitido.

  • Tcnicas de Muestreo Clase 4: Muestreo Aleatorio Simple

    Introduccin: Si el diseo del proceso de muestreo asegura que cada posible muestra tiene la misma probabilidad de resultar elegida, se habla de Muestreo Aleatorio Simple. Esta condicin no es equivalente a aquella que hemos establecido anteriormente: todos los individuos tienen la misma probabilidad de ser elegidos; sin embargo, el hecho de que todas las posibles muestras sean equiprobables implica que todos los individuos lo son. Para asegurar la condicin de muestras equiprobables, se deben escoger todos los individuos en la muestra en forma aleatoria desde la poblacin sin reemplazo (sin reemplazo significa que no se puede seleccionar a un mismo individuo ms de una vez y con reemplazo significa que cada vez que se selecciona un elemento, todos pueden ser elegidos, incluso los que fueron seleccionados antes). Esto se hace mediante un sorteo en el cual se seleccionan n individuos de los N existentes en la poblacin. En primer lugar los N individuos de la poblacin son numerados (en muchos casos ya lo estn) y posteriormente se eligen n individuos utilizando una tmbola, una tabla de nmeros aleatorios, nmeros aleatorios de la calculadora o del computador, o cualquier otro mtodo que preserve el azar. Una muestra escogida de esta forma se denomina Muestra Aleatoria Simple y el diseo se conoce como Muestreo Aleatorio Simple (MAS). Este diseo es adecuado cuando la poblacin es homognea respecto de la caracterstica de inters, o bien no se puede a priori obtener informacin sobre eventuales grupos en ella. Clculos: El clculo de la combinatoria permite determinar cuntas posibles muestras existen:

    n)!(N n!N!

    nNN

    nC =

    = ,

    donde es una notacin para la expresin que se lee Combinatoria

    de N sobre n y se interpreta como de cuntas formas se pueden seleccionar n elementos de un grupo de N elementos, y donde N! es una notacin para la expresin que se lee Factorial de N, se interpreta como todas las formas en que se pueden ordenar N elementos y se calcula como el producto de los nmeros desde 1 hasta N, es decir:

    NnC

    nN

    N! = N (N 1) (N 2) 3 2 1.

  • Parmetros de inters: En general, los parmetros de inters o a estimar en estos casos, son: 1) Si la variable de inters X es continua:

    Media (promedio de la variable en la poblacin), por ejemplo, X: ingreso familiar mensual de los residentes de Hualpn, = ingreso familiar promedio de los residentes de Hualpn.

    Total (suma de los valores X de los individuos en la poblacin), por ejemplo, X: N de infracciones cursadas a conductores de taxi-colectivo de la ciudad de Concepcin (2007), = nmero total de infracciones cursadas en 2007 a conductores de taxi-colectivo de Concepcin.

    2) Si la variable X es dicotmica:

    Proporcin p (proporcin o porcentaje de individuos en la poblacin con la caracterstica de inters), por ejemplo, X: nmero de cesantes en una muestra extrada de los titulados en el ao 2006 en la UdeC", p = proporcin de los titulados en la UdeC el ao 2006 que se encuentran cesantes.

    Estimadores e intervalos: El objetivo de este diseo de muestreo, como en cualquier otro, es la estimacin de parmetros de la poblacin. Los estimadores son insesgados y de varianza mnima y dependiendo de si el tamao muestral final es grande o pequeo, se generan intervalos con nivel de confianza 95% 75%, respectivamente. Dado un tamao poblacional N, para cada parmetro nos interesa su estimador , pero para establecer la precisin de la estimacin, tambin nos interesa el error estndar (desviacin estndar del estimador) ( ) y en particular el error estndar estimado .

    )()s( = Para establecer lmites entre los cuales se encuentra el parmetro se utiliza su error de estimacin B, de donde se obtiene el intervalo de confianza. Finalmente se requiere el tamao muestral n. Todos estos clculos se obtienen para

    tamao de poblacin pequeo respecto del tamao muestral (nN < 20), en

    cuyo caso las cantidades consideran un factor de correccin 1-Nn-N .

    tamao de poblacin grande respecto del tamao muestral (nN 20), en

    cuyo caso el factor de correccin se elimina por ser superior a 0,95, es decir cercano a 1. En este caso se habla de poblacin infinita.

  • 1) Parmetro Media : El estimador es =X El error estndar es

    1-Nn-N

    n)( = ; con N grande

    n)( .

    El error est. estimado es 1-Nn-N

    nS)()s( == ; con N grande

    nS)s( .

    El error de estimacin es )s(2B = . El intervalo de confianza es [ ]BX B;-X + , de nivel 95% si n grande y 75%

    en caso contrario.

    El tamao de muestra es 222

    4B1)-(NN4n +

    = ; con N grande 22

    B4n = .

    Si se cuenta con una muestra piloto, se reemplaza por su desviacin estndar Sp, es decir, 2

    p2

    2p

    S4B1)-(N

    SN4n +

    = y con N grande 2

    2p

    B

    S4n

    = .

    2) Parmetro Total = N : El estimador es = N = N X El error estndar es

    1)-(Nnn)-(NN)( = ; con N grande n

    N)( .

    El error estndar estimado es 1)-(Nn

    n)-(NNS)()s( == ; con N grande

    nNS)s( = .

    El error de estimacin es )s(2B = . El intervalo de confianza es [ ]BX B;-X + , de nivel 95% si n grande y 75%

    en caso contrario.

    El tamao de muestra es 22

    NB

    2

    41)-(NN4n

    )( += ; con N grande

    2

    22

    BN4n = =

    2NB

    2

    )(4 . Si se cuenta con una muestra piloto, se reemplaza

    por su desviacin estndar Sp, es decir, 2p

    2NB

    2p

    S41)-(N

    SN4n

    )( += y con N

    grande 2

    2p

    2

    B

    SN4n

    = = 2

    NB

    2p

    )(S4

    .

  • 3) Parmetro Proporcin p: El estimador es

    nXp = .

    El error estndar es 1-Nn-N

    n)p(1p)p( = ; si N grande

    n)p(1p)p( .

    El error estndar estimado es 1-Nn-N

    1-n)p(1p)ps( = ; si N grande

    1n)p(1p)ps(

    . El error de estimacin es )ps(2B = . El intervalo de confianza es [ ]Bp B;-p + , de nivel 95% si n grande y 75%

    en caso contrario.

    El tamao de muestra es )p(1p4B1)-(N

    )p(1pN4n

    002

    00

    += , donde p0 es la

    proporcin en una muestra piloto; con N grande 200

    B)p(1p4

    n= .

    Si no se cuenta con una muestra piloto, pero se sabe que la proporcin est entre ciertos lmites, se escoge el valor p0 ms cercano a 0,5 en el intervalo. Finalmente, si no se tiene ningn indicio del valor de p, se utiliza el valor p0 = 0,5, de donde

    1B1)-(NNn 2 += y si N es grande 2B

    1n = . Muestreo con probabilidades proporcionales al tamao: Todo el desarrollo anterior se basa en el concepto de que todos los elementos de la poblacin son igualmente importantes para el estudio, respecto de la informacin que entregan; sin embargo, en algunos casos, los elementos de la poblacin no entregan informacin equivalente, ya que sus tamaos difieren, y estos tamaos se vinculan a la cantidad de informacin que contienen. Cuando hablamos de tamao no necesariamente se trata de cantidad de individuos, sino de alguna caracterstica del elemento que se vincula a la variable de inters en forma significativa. En estos casos es conveniente asignarle pesos o ponderaciones i diferentes a los elementos seleccionados que permitan una representacin diferenciada en la muestra, en la cual aquellas unidades con mayor informacin de inters tengan mayor probabilidad de ser seleccionadas. La asignacin de ponderaciones es previa a la recoleccin de la informacin, pero el conocimiento previo de la variable de inters no es posible, si as lo fuera la muestra no sera necesaria. En lugar de la informacin de inters X, para designar las ponderaciones se puede buscar una variable que est relacionada con ella (digamos Y), en funcin de las cuales se puedan construir las ponderaciones. Este procedimiento provoca que las unidades en la poblacin tengan diferentes probabilidades de ser elegidas, en efecto, que la probabilidad de ser elegida sea aproximadamente proporcional a la informacin que entregan.

  • Por ejemplo, si interesa la productividad cientfica de las universidades chilenas (X: nmero de artculos en revistas de corriente principal publicados en el ltimo ao), una variable relacionada con ella es el nmero de doctores en la planta de la universidad (Y). Esta variable permitir estimar la ponderacin . Para designar las ponderaciones se realiza, para cada elemento de la poblacin, el siguiente clculo:

    i = T

    iYY ,

    donde YT es la suma de todos los valores Yi en la poblacin, es decir:

    YT = . =

    N

    1jjY

    Naturalmente, las estimaciones no pueden ser las mismas que en los desarrollos anteriores, debido a que ciertas unidades han sido ponderadas ms que otras, por lo cual se debe reducir su influencia en el momento de la estimacin; esto se logra dividiendo por la ponderacin. Es as como se obtienen estimadores insesgados y de varianza mnima. La seleccin de la muestra se hace de la siguiente manera: Se construye una tabla en que la primera columna contiene a los elementos

    de la poblacin, la segunda las ponderaciones y la tercera los valores acumulados de (cada valor acumulado es el acumulado anterior ms el valor actual).

    Se escogen n nmeros aleatorios entre 0 y 1. Para cada nmero aleatorio escogido se escoge el elemento con valor

    acumulado superior a l y para el cual el valor acumulado anterior es inferior a l.

    Por ejemplo: Elemento acumulado

    1 0,2 0,2 0 + 0,2 2 0,25 0,45 0,2 + 0,25 3 0,15 0,6 0,45 + 0,15 4 0,1 0,7 0,6 + 0,1 5 0,2 0,9 0,7 + 0,2 6 0,1 1 0,9 + 0,1

    Si los n = 3 nmeros aleatorios son 0,375 0,499 0,070, estos se relacionan con los elementos Elemento 2: 0,2

  • 1) Parmetro Media :

    El estimador es = =n

    1iiZnN

    1 = NZ .

    El error estndar es ( ) =nN

    Z .

    El error estndar estimado es = )s(nN

    SZ .

    El error de estimacin es )s(2B = . El intervalo de confianza es [ ]BX B;-X + , de nivel 95% si n grande y 75%

    en caso contrario.

    El tamao de muestra es 222Z

    BN4n

    = . Si se cuenta con una muestra piloto,

    Z se reemplaza por su desviacin estndar SZp, es decir, 222Zp

    BN

    S4n

    = . 2) Parmetro Total = N : El estimador es = Z El error estndar es = )(

    nZ .

    El error estndar estimado es )s( =nZS .

    El error de estimacin es )s(2B = . El intervalo de confianza es [ ]BX B;-X + , de nivel 95% si n grande y 75%

    en caso contrario.

    El tamao de muestra es 22Z

    B4n = . Si se cuenta con una muestra piloto,

    Z se reemplaza por su desviacin estndar SZp, es decir, 22Z

    BS4n = .

    Ejercicios: 1) La empresa distribuidora de agua potable y el municipio ha financiado un

    estudio basado en una muestra aleatoria simple de 100 medidores de agua controlados dentro de una comunidad para estimar el promedio de consumo diario por casa, durante un perodo de sequa. La media y desviacin estndar muestrales fueron, respectivamente, x = 12,5 y s = 11,2. El nmero total de casas en la comunidad es N = 10.000. a) Estime el consumo diario promedio de agua por familia, puntualmente y

    por intervalo. Interprete. b) Estime el consumo diario total de agua en la comunidad, puntualmente y

    por intervalo. Interprete.

  • c) Imagine que una muestra piloto arroj los valores de promedio y desviacin estndar dados y obtenga el tamao muestral necesario para estimar el consumo total con un error mximo de 10.000.

    d) Si se deseara utilizar un muestreo proporcional al tamao, de qu forma lo diseara?

    2) En una encuesta de opinin se entrevist a 1684 adultos de todo Estados

    Unidos (Gainesville Sun, julio 4, 1983). En la encuesta se report tener un 6% de margen de error para los resultados referentes a las proporciones de entrevistados que estaban a favor ciertas decisiones. a) Qu puede decir respecto del error reportado? b) Estime la proporcin de estadounidenses a favor de cierta decisin,

    puntualmente y por intervalo, si en la muestra 950 personas se pronunciaron a favor. Interprete.

    c) Qu tamao muestral hubiese obtenido usted si considerara aceptable un error de estimacin del 2% (considere que son varias decisiones las que estn en juego)?

    d) Qu tamao muestral hubiese obtenido usted si considerara aceptable un error de estimacin del 2% y si respecto de las decisiones se sabe que a lo ms un 35% est a favor de cualquiera de las decisiones?

    3) La Tabla adjunta muestra gastos de consumo personal en Estados Unidos para una seleccin de bienes y servicios (en millones de dlares).

    Categora 1981 1982

    Vehculos automotores 101,6 109,9 Muebles y enseres domsticos 93,3 93,5 Alimentos 375,9 396,9 Ropa 115,3 119,0 Gasolina y aceite 94,6 91,5 Combustible y carbn 20,7 20,0 Vivienda 302,0 334,1 Funcionamiento de la vivienda 128,4 144,3 Transporte 65,5 68,4

    Fuente: The World Almanac Book of Facts, 1984 edition. a) Seleccione una muestra de tres categoras con probabilidades

    proporcionales a los gastos de 1981. En base a ella estime puntualmente y por intervalo el gasto total personal de 1982, en millones de dlares. Interprete.

    b) Qu tamao muestral hubiese obtenido usted si considerara aceptable un error de estimacin del 100? Utilice valores obtenidos en (a) como si fuesen una muestra piloto.

    4) Se est formulando un caso legal para el sindicato de secretarias de cierta

    empresa, quienes alegan que les estn pagando un sueldo injustamente bajo. Las 64 secretarias de la empresa tienen un sueldo mensual promedio de $350.000, con una desviacin estndar de $25.000; mientras que el sueldo promedio de las secretarias en la ciudad en que se localiza la empresa es de $390.000. Es posible sustentar el alegato de las secretarias mediante argumentos estadsticos? De ser as, plantee los argumentos y las premisas que los fundamentan.

  • 5) La comisin para la igualdad de oportunidades de empleo acusa a una

    empresa de la novena regin de transgredir las normas en contra de la discriminacin racial, puesto que de sus 100 empleados solamente 30 son de origen indgena. Se sabe que en el rea de mercado laboral para esa empresa el 36% de los empleados disponibles son de origen indgena. Se puede sostener la acusacin con argumentos estadsticos? De ser as, plantee los argumentos y las premisas que los fundamentan.

  • Tcnicas de Muestreo Clase 5: Muestreo Aleatorio Estratificado

    Introduccin: Como se vio en el captulo introductorio, la eleccin del diseo de muestreo depende de factores relativos a la estructura de la poblacin. En este captulo abordaremos el caso en el cual la poblacin est compuesta de grupos que son heterogneos entre ellos respecto de la variable de inters, pero que presentan un comportamiento homogneo de la variable dentro de ellos. Estos grupos se conocen como Estratos. En estos casos se suele utilizar el mtodo conocido como Muestreo Aleatorio Estratificado, el cual consiste en la seleccin de muestras aleatorias simples independientes dentro de los subgrupos o Estratos. La utilizacin del Muestreo Aleatorio Estratificado (MAE) permite reducir la variabilidad total del estimador utilizado, ya que sta depende de la variabilidad de la variable de inters, la cual es baja dentro de los grupos. Como sabemos, la variabilidad del estimador incide en el error de estimacin, de modo que se obtendr una estimacin mucho ms precisa. Ventajas de la Estratificacin: Por supuesto, la estratificacin se realiza debido a sus ventajas y cuando stas lo ameritan. Algunos de estos beneficios son: 1) Mayor precisin: Para un mismo tamao muestral, la estratificacin

    produce un lmite ms pequeo para el error de estimacin que el que se generara a partir de un MAS. Este resultado es ms efectivo mientras ms homogneos sean internamente los estratos, es decir, mientras ms adecuada y necesaria sea la estratificacin. Por ejemplo, estratificar por sexo en un estudio relacionado con el peso reducir notablemente la variabilidad; en un estudio relacionado con sueldos, si se cree que existe discriminacin al respecto.

    2) Reduccin de costos: La estratificacin en grupos convenientes permite reducir los costos monetarios y temporales de la recoleccin de datos. Por ejemplo si se trata de individuos que viven en diferentes sectores, organizar el proceso de recoleccin en cada sector por separado resulta ms econmico.

    3) Estimaciones para los estratos: La estratificacin permite, a la vez que estimar respecto del grupo total, obtener estimaciones de los estratos mismos. Cuando stos son grupos de inters, estos resultados resultan muy tiles. Si la estratificacin es por grupos socioeconmicos, ser mucho ms til contar con las mediciones para cada grupo particular que para el grupo total.

  • Proceso de Estratificacin: El proceso de estratificacin es un diseo de muestreo en etapas. Una vez que se ha determinado que el MAE es el diseo ms adecuado, las etapas son las siguientes: 1) Definicin de Estratos: Definir claramente los L estratos existentes en la

    poblacin, de modo que cada elemento de la poblacin pertenezca a un estrato y slo a un estrato.

    2) Tamao de los Estratos: Determinar o estimar el tamao de cada estrato N1, , NL, donde naturalmente el tamao de la poblacin es la suma de los

    tamaos de los estratos: N = . =

    L

    1iiN

    3) Tamao muestral: Determinar el tamao muestral total y por estrato es un proceso que se realiza de diferentes formas, las cuales sern mencionadas ms adelante.

    4) Seleccin de la muestra: Seleccionar la muestra dentro de cada uno de los estratos en forma independiente mediante un diseo de MAS.

    Estimadores e intervalos: El objetivo de este diseo de muestreo es la estimacin de parmetros de la poblacin y de los estratos. Los estimadores son insesgados y, dependiendo de las prioridades establecidas, de varianza mnima o con costo mnimo. Dependiendo de si el tamao muestral por estrato es grande o pequeo, se generan intervalos con nivel de confianza 95% 75%, respectivamente. Para las estimaciones, es necesario precisar la notacin por estratos. Las medias, desviaciones estndar y proporciones para las muestras del i-simo estrato se denotan, respectivamente, por Xi, Si y ; mientras que los respectivos parmetros se denotan por

    ipi, i y pi.

    En ocasiones se cuenta con poca informacin previa, lo cual dificulta la estimacin de las desviaciones estndar. En estos casos se puede usar la siguiente regla:

    i 4Mnimo-Mximo .

    Tambin se contar con estimaciones para el caso en que los tamaos de los

    estratos son muy grandes respecto de las muestras (i

    i

    nN 20 para todos los

    estratos) y para el caso en que no es as (i

    i

    nN 20 para algn estrato).

  • a) Parmetro Media : a) Global:

    El estimador es = E iL

    1ii XNN

    1 =

    El error estndar es ( ) = E =

    L

    1i i

    2i

    iii n)n-(N N

    N1 ; con N1, , NL grandes

    ( ) nN

    N1 L

    1i i

    2ii

    =

    2 .

    El error estndar estimado es s( )= =E )( E =

    L

    1i i

    2i

    iii nS)n-(N N

    N1 ; con

    N1, , NL grandes grandes s( ) E nSN

    N1 L

    1i i

    2ii

    =

    2 . El error de estimacin es B = 2 s( ). E El intervalo de confianza es [ ]BX B;-X + , de nivel 95% si n1, , nL

    grandes y 75% en caso contrario.

    El tamao de muestra es

    =

    =

    +

    = L

    1i

    2ii

    22

    L

    1i i

    2i

    2i

    N4BN

    wN4

    n , con wi tal que ni = wi n.

    Si se cuenta con una muestra piloto, i se reemplaza por su desviacin

    estndar Si, es decir,

    =

    =

    +

    = L

    1i

    2ii

    22

    L

    1i i

    2i

    2i

    SN4BN

    wSN4

    n .

    b) Por estrato: El estimador es = Xi i. El error estndar es ( ) =i

    ii

    2iii

    nNn-(N

    ) ; si Ni grande ( ) i

    i

    i

    n .

    El error estndar estim. es s( ) =iii

    2iii

    nNSn-(N

    ) ; si Ni grande s( ) i

    i

    i

    nS .

    El error de estimacin es Bi = 2 s( ). i El intervalo de confianza es [ ]iiii BX ;B-X + , de nivel 95% si ni grande y

    75% en caso contrario.

  • b) Parmetro Total = N :

    a) Global:

    El estimador es E = N = E iL

    1ii XN

    =.

    El error estndar es ( E ) = =

    L

    1i i

    2i

    iii n)n-(N N ; con N1, , NL grandes

    ( E ) nNL

    1i i

    2ii

    =

    2 .

    El error estndar estimado es s( E )= =)( E =

    L

    1i i

    2i

    iii nS)n-(N N ; con

    N1, , NL grandes grandes s( E ) nSNL

    1i i

    2ii

    =

    2 . El error de estimacin es B = 2 s( E ). El intervalo de confianza es [ E B; E +`B], de nivel 95% si n1, , nL

    grandes y 75% en caso contrario.

    El tamao de muestra es

    =

    =

    +

    = L

    1i

    2ii

    2

    L

    1i i

    2i

    2i

    N4B

    wN4

    n , con wi tal que ni = wi n.

    Si se cuenta con una muestra piloto, i se reemplaza por su desviacin

    estndar Si, es decir,

    =

    =

    +

    = L

    1i

    2ii

    2

    L

    1i i

    2i

    2i

    SN4B

    wSN4

    n .

    b) Por estrato: El estimador es i = Ni Xi. El error estndar es ( i ) =

    i

    2iiii

    nn-(NN ) ; si Ni grande ( i )

    i

    ii

    nN .

    El error estndar estimado es s( i ) =i

    2iiii

    nSn-(NN ) ; si Ni grande

    s( i ) i

    ii

    nSN .

    El error de estimacin es Bi = 2 s( i ). El intervalo de confianza es [ ]iiii B ;B- + , de nivel 95% si ni grande y

    75% en caso contrario.

  • c) Parmetro Proporcin p:

    a) Global:

    El estimador es =

    =L

    1iiiE pNN

    1p .

    El error estndar es =

    =L

    1i i

    iiiiiE n

    )p(1p)n-(NNN1)p( ; con N1, , NL

    grandes =

    L

    1i i

    ii2i

    E n)p(1pN

    N1)p( .

    El error estndar estimado es =

    =L

    1i i

    iiiiiE n

    )p(1p)n-(NNN1)ps(

    1 ; con

    N1, , NL grandes =

    L

    1i i

    ii2i

    E n)p(1pN

    N1)ps(

    1 .

    El error de estimacin es . )ps(2B E= El intervalo de confianza es [ ]Bp B;-p EE + , de nivel 95% si n1, , nL

    grandes y 75% en caso contrario.

    El tamao de muestra es

    =

    =

    +

    = L

    1iiii

    22

    L

    1i i

    ii2i

    )p(1pN4BN

    w)p(1pN4

    n , donde pi son las

    proporciones en una muestra piloto. Si no se cuenta con una muestra piloto, pero se sabe que las proporciones estn entre ciertos lmites, se escogen los valores pi ms cercanos a 0,5 en el intervalo. Finalmente, si no se tiene ningn indicio de los valores pi, se utiliza el valor

    pi = 0,5, de donde NBN

    wN

    n 22

    L

    1i i

    2i

    +=

    = y si N es grande ==L

    1i i

    2i

    22 wN

    BNn 1 .

    b) Por estrato:

    El estimador es i

    ii n

    Xp = , con Xi nmero de ocurrencias del evento de inters en la psima muestra.

    El error estndar es 1-Nn-N

    np(1p)p(

    i

    ii

    i

    iii = ) ; si Ni grande

    i

    iii n

    p(1p)p( ) .

  • El error estndar estimado es 1-Nn-N

    1-np(1p)ps(

    i

    ii

    i

    iii = )

    ; si N grande

    1)

    i

    iii n

    p(1p)ps( .

    El error de estimacin es . )ps(2B ii = El intervalo de confianza es [ ]iiii Bp ;B-p + , de nivel 95% si n grande y

    75% en caso contrario. Tamaos Muestrales por Estrato: Anteriormente hemos designado simplemente como wi a las ponderaciones que permiten determinar que proporcin de la muestra total es extrada de cada estrato. En esta seccin veremos cmo escoger estas ponderaciones. El criterio general para designar los tamaos muestrales consiste en obtener una cantidad de informacin suficiente, logrando error de estimacin bajo y al menor costo posible. Esto implica que los mtodos de asignacin estn influenciados por tres factores: El costo de obtener informacin en cada estrato har que se limite la

    cantidad de informacin originaria de estratos donde el costo para obtenerla es muy alto.

    La variabilidad de las observaciones dentro de los estratos hace que en algunos estratos sea necesaria una mayor cantidad de informacin para lograr una estimacin precisa, debido a su mayor variabilidad, mientras en otros estratos una cantidad pequea de informacin es suficiente por su homogeneidad.

    Los tamaos relativos de los estratos motivan que se utilice ms informacin de los estratos grandes que de los pequeos.

    Estos factores nos llevan a tres mtodos, segn cul de ellos es el que prima: 1) Asignacin ptima ajustada por costos:

    i) ERROR FIJO: Este caso considera tanto los costos en cada estrato, las diferentes variabilidades en ellos, y sus tamaos relativos, ajustando tamao muestral total y en los estratos para un error de estimacin mximo fijo B.

    a) Media :

    wi =

    =

    L

    1j j

    jj

    i

    ii

    c

    NcN

    ; n =

    =

    ==

    +

    L

    1i

    2ii

    22

    L

    1iiii

    L

    1i i

    ii

    N4BN

    cNcN4

  • b) Total :

    wi =

    =

    L

    1j j

    jj

    i

    ii

    c

    NcN

    ; n =

    =

    ==

    +

    L

    1i

    2ii

    2

    L

    1iiii

    L

    1i i

    ii

    N4B

    cNcN4

    c) Proporcin p:

    wi =

    =

    L

    1j j

    jjj

    i

    iii

    cpp

    N

    cppN

    )1(

    )1(

    ; n =

    =

    ==

    +

    L

    1iiii

    22

    L

    1iiiii

    L

    1i i

    iii

    ppN4BN

    cppNc

    ppN4

    )1(

    )1()1(

    ;

    y wi =

    =

    L

    1j j

    j

    i

    i

    c

    Nc

    N

    ; n =NBN

    cNc

    N

    22

    L

    1iii

    L

    1i i

    i

    +

    ==, si no se conocen los pi (pi = 0,5).

    ii) COSTO FIJO: Este caso considera tanto los costos en cada estrato, las

    diferentes variabilidades en ellos, y sus tamaos relativos, ajustando tamao muestral total y en los estratos para un costo mximo fijo C.

    a) Media y total :

    wi =

    =

    L

    1j j

    jj

    i

    ii

    c

    NcN

    ; n =

    =

    L

    1iii Cw

    C .

    b) Proporcin p:

    wi =

    =

    L

    1j j

    jjj

    i

    iii

    cpp

    N

    cppN

    )1(

    )1(

    ; n =

    =

    L

    1iii Cw

    C .

    y wi =

    =

    L

    1j j

    j

    i

    i

    c

    Nc

    N

    ; n =

    =

    L

    1iii Cw

    C , si no se conocen los pi (pi = 0,5).

  • 2) Asignacin ptima ajustada por variabilidad: Este caso no considera los costos (asume que son todos iguales), pero si considera las diferentes variabilidades en los estratos y sus tamaos relativos, ajustando tamao muestral total y en los estratos para un error de estimacin mximo fijo B. a) Media :

    wi = =

    L

    1jjj

    ii

    N

    N ; n =

    =

    =

    +

    L

    1i

    2ii

    22

    L

    1iii

    N4BN

    N42

    b) Total :

    wi = =

    L

    1jjj

    ii

    N

    N ; n =

    =

    =

    +

    L

    1i

    2ii

    2

    L

    1iii

    N4B

    N42

    c) Proporcin p:

    wi = =

    L

    1jiij

    iii

    ppN

    ppN

    )1(

    )1(; n =

    =

    =

    +

    L

    1iiii

    22

    L

    1iiii

    ppN4BN

    ppN4

    )1(

    )1(2

    y wi = =

    L

    1jj

    i

    N

    N ; n =NBN

    N22

    2

    + , si no se conocen los pi (pi = 0,5).

    3) Asignacin proporcional:

    Este caso no considera los costos (asume que son todos iguales), ni tampoco considera las diferentes variabilidades en los estratos, es decir, asume que no difieren demasiado; pero s considera los tamaos relativos de ellos. El tamao muestral total y en los estratos se ajusta para un error de estimacin mximo fijo B. a) Media :

    wi = =

    L

    1jj

    i

    N

    N ; n =

    =

    =

    +

    L

    1i

    2ii

    22

    L

    1i

    2ii

    N4BN

    NN4

  • b) Total :

    wi = =

    L

    1jj

    i

    N

    N ; n =

    =

    =

    +

    L

    1i

    2ii

    2

    L

    1i

    2ii

    N4B

    NN4

    c) Proporcin p:

    wi = =

    L

    1jj

    i

    N

    N ; n =

    =

    =

    +

    L

    1iiii

    22

    L

    1iiii

    )p(1pN4BN

    )p(1pNN4

    y wi = =

    L

    1jj

    i

    N

    N ; n =NBN

    N22

    2

    + , si no se conocen los pi (pi = 0,5).

    Regla para formar los estratos: En la mayora de los casos es posible relacionar la variable de inters con otras variables que permiten una estratificacin en grupos que estn predefinidos o que tienen sentido por s mismos (grupos socioeconmicos, residentes de una localidad, sexo, grupos etreos, estatus laboral, etc.), sin embargo, en ocasiones slo se cuenta con un conocimiento mnimo de la variable de inters, dado por frecuencias aproximadas (por ejemplo sueldos promedio por grupos socioeconmicos obtenidos de un estudio anterior) o la distribucin de una variable muy relacionada (por ejemplo nivel educacional mediano de los individuos puede estar relacionado con el sueldo). En estos casos, para la estratificacin se recurre al histograma (grfico de barras verticales), y se observa en l cuantas cimas hay, estas indican en muchos casos que existe la superposicin de distribuciones de diferentes grupos, y permite determinar el nmero de estratos. Por ejemplo, el histograma siguiente:

  • se puede entender como la superposicin de los siguientes histogramas:

    Uno puede detectar en forma aproximada en qu lugar se ubican los cortes observando las cimas (*) y valles. Veamos la distribucin de frecuencias de sueldos en cierta empresa (miles de pesos):

    Sueldo N individuos 100-200 4 200-300 9 300-400 49* 400-500 36 500-600 49* 600-700 16 700-800 36* 800-900 25 900-1000 4

    De aqu se puede estimar que los intervalos que permiten la estratificacin son aproximadamente 100 - 450, 450 - 650, 650 - 1000. Existe otro mtodo, y es el siguiente:

    Se construye la distribucin de frecuencias. Se agrega una columna con raz de la frecuencia. Se agrega una columna acumulando la raz de la frecuencia. El valor final de la ltima columna se divide por el nmero de estratos. Se busca los valores aproximados que acumulan el valor obtenido en el

    punto anterior y sus mltiplos.

  • En el ejemplo:

    Intervalo FrecuenciaRaiz de

    Frecuencia Raz Frec

    Acumulada 100-200 4 2 2 200-300 9 3 5 300-400 49 7 12* 400-500 36 6 18* 500-600 49 7 25 600-700 16 4 29* 700-800 36 6 35 800-900 25 5 40 900-1000 4 2 42*

    El valor final 42 se divide por 3, esto da: 14. Los mltiplos son 14, 28, 42. Estos valores (*) se buscan en la ltima columna. As se llega aproximadamente a los siguientes intervalos para los estratos: 100 - 430, 430 - 680, 680 - 1000; los cuales son bastante semejantes a los intervalos encontrados antes. Estratificacin despus de seleccionar la muestra: Existen casos en los cuales claramente es adecuado usar un diseo de muestreo estratificado, sin embargo no es posible determinar el estrato al cual pertenecen los individuos antes de recolectar la muestra, por ejemplo, una encuesta telefnica impide determinar previamente el sexo de la persona que responder la llamada, en un sistema de archivo hospitalario no computacional, no se puede saber la razn por la cual concurre el paciente a emergencia antes de observar la ficha. Para estratificar la informacin en forma posterior a la recoleccin de datos es necesario conocer aproximadamente los tamaos relativos de los estratos. Por ejemplo si los tamaos de dos estratos son iguales (50%), w1 = w2 = 0,5. En otro caso, si tres estratos corresponden aproximadamente a un 40%, 30% y 30% de la poblacin, w1 = 0,4; w2 = w3 = 0,3. Con esta informacin, ya es posible realizar la recoleccin. En estos casos, lo que se debe hacer es tomar una muestra de la poblacin, como se hara con una muestra aleatoria simple, del tamao deseado, cada observacin es estratificada a posteriori y luego se obtienen los estimadores. El ltimo paso consiste en balancear la informacin, es decir, cada estimador debe ponderarse por la proporcin que corresponde a ese estrato en la poblacin:

  • 1) Media :

    a) Global:

    El estimador es ==

    ==L

    1iii

    L

    1iiiE Xww

    El error estndar es ( ) = E =

    L

    1i i

    2i2

    i n w .

    El error estndar estimado es s( )=E =

    L

    1i i

    2i2

    i nS w .

    El error de estimacin es B = 2 s( ). E El intervalo de confianza es [ ]BX B;-X + , de nivel 95% si n1, , nL

    grandes y 75% en caso contrario. b) Por estrato:

    El estimador es = Xi i. El error estndar es ( ) i

    i

    i

    n .

    El error estndar estim. es s( ) ii

    i

    nS .

    El error de estimacin es Bi = 2 s( ). i El intervalo de confianza es [ ]iiii BX ;B-X + , de nivel 95% si ni grande y

    75% en caso contrario. 2) Parmetro Total = N :

    a) Global:

    El estimador es EE N = El error estndar es ( E ) =

    =

    L

    1i i

    2i2

    i n wN .

    El error estndar estimado es s( E )= =

    L

    1i i

    2i2

    i nS wN .

    El error de estimacin es B = 2 s( E ). El intervalo de confianza es [ ]B B;- + , de nivel 95% si n1, , nL grandes

    y 75% en caso contrario.

  • b) Por estrato: El estimador es i = Ni Xi. El error estndar es ( i )

    i

    ii

    nN .

    El error estndar estimado es s( i ) i

    ii

    nSN .

    El error de estimacin es Bi = 2 s( i ). El intervalo de confianza es [ ]iiii B ;B- + , de nivel 95% si ni grande y

    75% en caso contrario. 3) Parmetro Proporcin p:

    a) Global:

    El estimador es . =

    =L

    1iiiE pwp

    El error estndar es =

    L

    1i i

    ii2i

    E n)p(1pw)p( .

    El error estndar estimado es =

    L

    1i i

    ii2i

    E n)p(1pw)ps(

    1 .

    El error de estimacin es . )ps(2B E= El intervalo de confianza es [ ]Bp B;-p EE + , de nivel 95% si n1, , nL

    grandes y 75% en caso contrario.

    b) Por estrato:

    El estimador es i

    ii n

    Xp = , con Xi nmero de ocurrencias del evento de inters en la psima muestra.

    El error estndar es i

    iii n

    p(1p)p( ) .

    El error estndar estimado es 1

    )

    i

    iii n

    p(1p)ps( .

    El error de estimacin es . )ps(2B ii = El intervalo de confianza es [ ]iiii Bp ;B-p + , de nivel 95% si n grande y

    75% en caso contrario.

  • Ejercicios: 1) Bajo qu condiciones ocurre que la estratificacin produce grandes

    ganancias en precisin respecto del muestreo aleatorio simple? Suponga costos constantes.

    2) Una corporacin desea estimar el nmero total de horas-hombre perdidas

    debido a accidentes de los empleados en un mes determinado. Ya que los obreros, los tcnicos y los administrativos tienen tasas de accidentes diferentes, el investigador decide usar muestreo aleatorio estratificado, con cada grupo formando un estrato. Datos de aos previos presentan las varianzas mostradas en la tabla anexa, para el nmero de horas-hombre perdidas por empleado en los tres grupos, y de datos actuales se obtuvieron los tamaos de los estratos.

    I II III

    Obreros Tcnicos Administrativos 1 = 6 2 = 5 3 = 3

    N1 = 152 N2 = 92 N3 = 27 a) Determine la asignacin de Neyman para una muestra de n = 30

    empleados. b) Estime el nmero total de horas-hombre perdidas durante el mes

    indicado y establezca un lmite para el error de estimacin. Use los datos de la tabla anexa, obtenida de una muestra de 18 obreros, 10 tcnicos y 2 administrativos.

    I II III

    Obreros Tcnicos Administrativos 8 24 0 4 5 1 0 16 32 0 24 8 6 0 16 8 12 7 4 4 3 2 9 5 8 1 8 18 2 0

    c) Calcule e interprete el Intervalo de Confianza para el total de

    horas-hombre perdidas. d) Si el costo por hora perdida para individuos en los estratos es,

    respe