lectura complementaria muestreo.pdf

Upload: juan-castillo

Post on 17-Oct-2015

90 views

Category:

Documents


0 download

TRANSCRIPT

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    1

    ELEMENTOS BSICOS DE MUESTREO

    1. Definicin El muestreo es aquella rama de la estadstica que estudia los procesos estadsticos para seleccionar un subconjunto de observaciones o muestra de una poblacin de inters, con el propsito de obtener conclusiones sobre toda la poblacin. Cuando el muestreo se realiza siguiendo un plan probabilstico o una funcin de determinadas caractersticas, se dice que es un muestreo probabilstico.

    En un muestreo probabilstico se conoce a priori la probabilidad de seleccionar un elemento de la poblacin con el fin de incluirlo en la muestra. Por esto, en un muestreo probabilstico se deben cumplir las siguientes condiciones:

    1. Se puede definir el total de muestras posibles que pueden seleccionarse de la poblacin de acuerdo al procedimiento de muestreo.

    2. Toda muestra s del universo o poblacin debe tener una probabilidad p s de seleccin mayor que cero. 3. p s debe ser conocida y preestablecida como parte del diseo. 4. El mecanismo de seleccin debe ser tal que cada muestra reciba exactamente la probabilidad p s que se le asign

    de antemano. En general, cualquier tipo de muestreo que no cumpla con alguna de las anteriores condiciones es un muestreo no probabilstico. Aunque algunos tipos de muestreo no probabilsticos pueden ofrecer informacin til, sin embargo, no es posible aplicar en tales casos la teora de muestreo, adems, la precisin de tales muestras puede ser indeterminada.

    2. Importancia del muestreo En muchas reas se necesita recolectar informacin sobre variables o caractersticas de una poblacin grande, sobre la cual resulta imposible o no es econmico censar a cada unidad componente de dicha poblacin; es necesario seleccionar una parte de sta para medir las caractersticas de inters, por mtodos que permitan considerar a la muestra como representativa para hacer inferencias sobre tales caractersticas poblacionales. Ospina (2001) enuncia tres situaciones principales donde conviene seleccionar una muestra: Cuando la poblacin es grande y su estudio completo excede los recursos disponibles. Cuando las unidades poblacionales son suficientemente homogneas con respecto a la caracterstica o variable a

    medir.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    2

    Cuando el proceso de medicin es destructivo. Adems, el muestreo permite un control estricto sobre la recoleccin de la informacin, pues los llamados errores no muestrales son considerablemente menores que en el caso de un censo (Ospina, 2001).

    3. Pasos para el diseo de investigaciones por muestreo (Ospina, 2001) 1. Determinacin del diseo muestral 2. Determinacin de las mediciones a realizar 3. Planeacin del trabajo de campo 4. Planeacin del anlisis estadstico

    3.1 El diseo muestral Comprende: El plan de muestro: La metodologa para seleccionar la muestra de la poblacin. Los procedimientos de estimacin: Algoritmos para obtener estimaciones de parmetros poblacionales y su

    confiabilidad a partir de los datos muestrales.

    Para la seleccin del diseo muestral se debe tener en cuenta: Variables a medir Estimaciones requeridas Niveles de confiabilidad necesarios Restricciones de recursos

    3.2 Determinacin de las mediciones a realizar Segn el criterio de expertos en el asunto o tema de la investigacin. Implica el diseo de encuestas, cuestionarios, o planillas a diligenciar para recolectar la informacin adecuada. Esta etapa debe ser superada antes de la recoleccin y procesamiento de la informacin. 3.3 El trabajo de campo Debe iniciar despus de la elaboracin, ensayo y modificacin de los instrumentos para recoleccin de la informacin. Debe asegurarse que los encargados de recolectar la informacin hayan sido entrenados en el procedimiento y conozcan claramente los objetivos y la importancia del estudio y de la labor que desempean. En muchos casos es conveniente tomar

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    3

    una muestra piloto para probar y refinar los instrumentos de recoleccin y de procesamiento de la informacin. La informacin debe ser recolectada segn el diseo muestral escogido. 3.4 El anlisis estadstico Implica el procesamiento de la informacin y la obtencin de las estimaciones de las caractersticas poblacionales objeto del estudio. Se debe contar con los mejores recursos disponibles para esta tarea.

    4. Definicin de trminos 4.1 Universo: Conjunto de todos los elementos o individuos bajo estudio o sobre los cuales se va a extender las conclusiones a partir de la muestra. Comnmente el universo es identificado como la poblacin objetivo. 4.2 Poblacin de muestreo: Es el universo accesible, o parte del universo al cual realmente se puede acceder en el estudio, es decir es el conjunto de elementos susceptibles de ser medidos u observados. 4.3 Poblacin estadstica: Conjunto de mediciones hechas sobre los elementos de un universo. Cada variable medida tiene una poblacin estadstica distinta. Si un conjunto de variables son medidas simultneamente sobre cada elemento, entonces la poblacin estadstica es una poblacin estadstica multivariada. 4.4 Unidad elemental: Unidad, elemento o individuo sobre el cual se desea realizar una observacin, medicin o conteo. 4.5 Unidad de enumeracin, de lista o de muestreo: Puede abarcar ms de una unidad elemental, y constituyen las unidades sobre las cuales es factible muestrear, para posteriormente, obtener la informacin correspondiente a las unidades elementales. Ej. Manzanas, hogares, parcelas, intervalos de tiempo, lotes de producto, etc. 4.6 Marco de muestreo: Lista completa de todas las unidades de muestreo, o cualquier material o mecanismo que permita delimitar o identificar en forma apropiada los elementos de una poblacin (Ospina, 2001). A partir del marco muestral se selecciona la muestra aleatoria. Srndal, Swenson y Wretman (1992) dicen que un marco muestral debe cumplir las siguientes propiedades: Identificacin de las unidades en el marco mediante algn cdigo. Adems cada elemento slo debe aparecer una

    vez en el marco y el marco debe listar las unidades de la poblacin de inters y no incluir a ninguna unidad ajena a

    dicha poblacin.

    Factibilidad de hallar a cada unidad listada que sea seleccionada para la muestra.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    4

    Organizacin en forma sistemtica: Alfabtica, geogrfica, por tamao, etc. Contener informacin adicional necesaria par obtener las principales caractersticas de un diseo muestral, y que sea

    tambin til para construir estimadores que involucren variables auxiliares. Las variables del marco son llamadas

    variables de diseo.

    En la estimacin por dominios o subpoblaciones, el marco debe especificar el dominio al cual pertenece cada unidad. 4.7 Variables de estudio: Caractersticas a ser medidas, observadas o contadas en las unidades o elementos de la poblacin de inters. Pueden ser cuantitativas (discretas o continuas) o cualitativas (atributos, categoras). Una variable se

    indicar por Y , y los valores de esta variable en la i-sima unidad elemental se denotar por iy .

    4.8 Parmetros: Valores que identifican la distribucin de una variable en una poblacin estadstica. Los parmetros son las caractersticas poblacionales a estimar. Los parmetros de inters, entre otros, son: La media poblacional de la distribucin de una variable de inters La varianza poblacional 2 de la distribucin de una variable de inters El total poblacional de los valores de una variable de inters El total de elementos en la poblacin con una caracterstica o atributo dado, A La proporcin de elementos en la poblacin con una caracterstica o atributo dado, p

    4.9 Estadsticos, estimadores y errores de estimacin: Un estadstico es una funcin de los valores muestrales de una variable. Cuando los estadsticos son calculados para estimar un parmetro poblacional se denominan estimadores. Los

    estimadores se denotarn en general por , pero en cada caso ser reemplazado por el parmetro especfico. Es necesario considerar el error estndar del estimador , donde es la varianza de . Tambin es necesario fijar un lmite para el error absoluto de estimacin: , es decir .

    4.10 Tamao de la poblacin de muestreo: El total de unidades elementales de la poblacin accesible, se denotar por N 4.11 Tamao de muestra: El total de unidades elementales que sern seleccionadas de la poblacin de acuerdo al diseo muestral. El tamao muestral ser indicado por n .

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    5

    4.12 Muestra piloto: Es una pequea muestra extrada para obtener informacin y que sirve de gua para el diseo del estudio principal; puede servir para estimar las cantidades necesarias para el clculo del tamao de la muestra final a tomar. La muestra piloto se puede seleccionar de forma aleatoria, por lo tanto la informacin recolectada podr utilizarse para el estudio final, o podra estar dirigida a una parte especial de la poblacin, en este caso no se puede utilizar tal muestra para la muestra definitiva. Con el fin de calcular los tamaos de muestra es necesario especificar adems, los niveles de confianza de los estimadores y el margen de error B que se est dispuesto a admitir en las estimaciones de los parmetros de inters.

    5. Sesgos y errores en el muestreo Una muestra perfecta debera ser una versin a escala de la poblacin, pero tal muestra no existe para poblaciones complejas, y an si existiera no podramos determinar que es perfecta sin medir a toda a la poblacin. Sin embargo una buena muestra reproduce las caractersticas de inters que existen en la poblacin de la manera ms cercana posible (Lohr, 2000). Esta muestra ser considerada como una muestra representativa, en el sentido de que cada unidad muestreada representar las caractersticas de una cantidad conocida de unidades en la poblacin. Cuando la muestra no es representativa, corresponde a una muestra sesgada. Los sesgos posibles en el muestreo, son: 5.1 Sesgo de seleccin: Ocurre cuando alguna parte de la poblacin objetivo no est representada en la muestra. Casos de muestreo con este tipo de sesgo son las muestras de conveniencia, en stas se incluyen las unidades que son fciles de elegir o que probablemente respondern una encuesta. Tambin se incurre en este sesgo cuando no se especifica apropiadamente a la poblacin objetivo, o no se incluye a todos los elementos de muestreo de dicha poblacin en el marco muestral. Otro caso de sesgo de seleccin ocurre cuando se sustituyen o cambian miembros de la muestra; cuando ocurre la no respuesta, o cuando se permite que la muestra conste slo de voluntarios (por ejemplo, las encuestas a travs de la recepcin de llamadas). 5.2 Sesgo de medicin: Ocurre cuando el instrumento con el que se mide tiende a desviarse del valor verdadero en alguna direccin. En encuestas suele suceder porque las personas mienten, no entienden las preguntas, olvidan, cambian su respuesta segn quien pregunta, o dicen lo que el entrevistador quiere or. Tambin la forma en que se llevan a cabo las mediciones o se aplican las encuestas puede sesgar los resultados, incluso el orden en que se formulan las preguntas de una encuesta pueden tener efecto sobre las respuestas. En cuanto a los errores en el muestreo, estos pueden ser:

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    6

    5.3 Errores de muestreo: Es el resultado de considerar una muestra y no a toda la poblacin. Estos errores se reportan en trminos probabilsticos. 5.4 Errores que no son de muestreo: Imprecisiones que no se pueden atribuir a la variabilidad entre las muestras. Los dos tipos de sesgos mencionados previamente ocasionan errores que no son de muestreo.

    6. Diseos muestrales o mtodos de muestreo La eleccin depende de los objetivos de la investigacin y del tipo de anlisis que se quiera implementar. Pero cualquier mtodo de muestreo que se seleccione deber estar supeditado al principio bsico de conocer a priori la probabilidad de seleccionar un elemento de la poblacin a fin de incluirlo en la muestra. Cabe mencionar los siguientes mtodos bsicos: Muestreo aleatorio simple (M.A.S), con o sin reemplazo Muestreo aleatorio estratificado (M.A.E) Muestreo por conglomerados Muestreo sistemtico Diseos muestrales avanzados (muestreos polietpicos)

    Se estudiarn los casos M.A.S sin reemplazo y M.A.E. 6.1 Muestreo aleatorio simple sin reemplazo o irrestrictamente aleatorio Para una poblacin finita de tamao N , se toma una muestra de tamao n de forma que cada elemento slo pueda

    seleccionarse una sola vez. En este diseo muestral todas las muestras posibles del mismo tamao tienen la misma probabilidad de ser seleccionadas, por lo tanto, todas las unidades de la poblacin tendrn la misma probabilidad de estar en la muestra. NOTA: Para aplicar el muestreo aleatorio simple hay que garantizar que la poblacin es homognea.

    La probabilidad de una muestra especfica es n! N n !N !

    La probabilidad de que una unidad cualquiera de la poblacin est presente en la muestra es nN

    6.1.1 Cmo obtener una muestra aleatoria simple sin reemplazo?

    1. Asignar a cada unidad del marco muestral un nmero de 1 a N. 2. Seleccionar n unidades distintas del marco muestral usando algn mecanismo de aleatorizacin, por ejemplo, un

    generador de nmeros aleatorios: Generar una columna cuyas entradas sean los nmeros enteros de 1 a N. En una

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    7

    segunda columna generar un nmero aleatorio (con cuatro o cinco cifras), uno por cada entrada de la primera columna. Ordenar luego el conjunto de datos resultante con base en el orden ascendente de los nmeros aleatorios generados. Los n primeros nmeros que quedan en la primera columna son los correspondientes a las unidades del marco muestral que se seleccionan para la muestra.

    En R puede realizarse lo anterior mediante la siguiente funcin (es un ejemplo), en la cual el objeto X, es el marco muestral definido en forma matricial, en el cual las filas son las unidades de muestreo y sus columnas correspondiendo alguna informacin adicional identificando las unidades de muestreo; el argumento size es para especificar el tamao de la muestra. MAS

  • 8

    Estimadores insesgados para parmetros de inters, e intervalos de confianza

    Parmetro a estimar

    Estimador puntual

    Varianza del estimador Varianza Estimada del estimador

    Intervalo de confianza

    de (1-)100%

    1

    1

    N ii

    yN

    1

    1 ni

    iy y

    n 21N nV y N n

    2N n sV yN n 1 2n , / y t V y

    1

    N

    ii

    y N

    N y 2V N V y 2 V N V y 1 2n , / N y t N V y ApN

    apn

    11 1

    p pN nV pN n

    1

    1 p pN n V p

    N n 1 2n , / p t V p

    A A N p 2 V A N V p 2 V A N V p 1 2n , / N p t N V p Donde:

    221

    11

    n

    ii

    S y yn

    es la varianza muestral y su valor esperado es a es el nmero total de unidades en la muestra que poseen un atributo o caracterstica dada

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    9

    En el caso de proporciones, si la proporcin real p es o muy pequea o muy cercana a 1, es posible que se obtenga un intervalo de confianza con lmites inconsistentes (lmites inferiores negativos o lmites superiores mayores que 1) con la aproximacin normal, an si el tamao de muestra es grande. El problema es ms crtico si el tamao de muestra es pequeo. En estos casos se recomienda el uso de lmites de confianza exactos calculados a travs de la distribucin hipergeomtrica, o aproximados a partir de la distribucin binomial. 6.1.2 Cuntas unidades muestrear? En general se observa que:

    1. Con n grande y 2 pequeo, se obtienen estimaciones ms precisas de los parmetros. 2. Si N es relativamente grande, influye poco en la precisin de los estimadores. 3. Para una precisin dada, n est relacionado con la variabilidad poblacional. 4. El tamao muestral depende del parmetro a estimar 5. La confiabilidad deseada afecta directamente el tamao muestral

    Para el clculo de n se toma como base la aproximacin normal:

    / 2 Z EE

    de donde, con una significancia de al menos 1 100% , el error mximo absoluto de estimacin no exceder de / 2

    Z EE , es decir, , por tanto tomamos /2 B Z EE . Recuerde que

    EE V es el error estndar del estimador y 2/Z es el percentil 1 2/ 100% de la distribucin normal estndar. Para un nivel de confianza del 95% tomamos 2B EE .

    NOTA: En general 2 es desconocido, y debe estimarse previamente. Sea 2*S tal estimacin. Igualmente, es desconocido y debe estimarse previamente. Sea tal estimacin.

    NOTA: La magnitud de B depende de: La asimetra de la distribucin de la variable respuesta El rango de variacin de la variable respuesta La validez de la aproximacin del Teorema del Lmite Central

    A continuacin se esquematizan las diferentes frmulas para el clculo de n. La frmula en el caso de p se obtiene asumiendo que es la media de una muestra aleatoria de variables Bernoulli.

  • 10

    Clculo de n para controlar el error mx. absoluto 2 2B EE V

    Parmetro a estimar Estimador Frmula general Frmula para N grande

    Promedio de una variable, , donde

    Total de una variable, , donde

    Una proporcin, , donde

    0 2

    4 (1 )p pnB

    max 2

    1nB

    (cuando ) CMO OBTENER LA VARIANZA : Note en la tabla anterior que es necesario conocer la varianza para hallar n. Podemos obtener una estimacin *2S recurriendo a lo siguiente.

    1. De estudios anteriores: Tener en cuenta tipo de variable, tiempo en que se hizo el estudio y similaridad de la poblacin estudiada 2. Muestra piloto de tamao n1

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    11

    6.2 Muestreo aleatorio estratificado o M.A.E (sin reemplazo) El M.A.S slo es apropiado cuando la poblacin de la cual se muestrea puede considerarse homognea, es decir, cuando la distribucin de valores de la variable de inters no depende de ciertas caractersticas de las unidades o elementos de la poblacin. Por el contrario, si la distribucin de valores de una variable depende de ciertas caractersticas que crean subgrupos poblacionales disjuntos previamente identificados, en ese caso, un M.A.S conllevara a estimaciones menos precisas y no representativas para todos los subgrupos poblacionales. Los subgrupos poblacionales disjuntos reciben el nombre de estratos. Los estratos pueden establecerse de acuerdo a variables cualitativas o cuantitativas sobre las cuales se posee suficiente informacin, por ejemplo, variables geogrficas, demogrficas, socio econmicas, tecnolgicas, entre otras. Los estratos en muestreo deben cumplir con ciertas caractersticas que hacen de las muestras estratificadas un mtodo prctico y eficiente. Estas caractersticas se concentran en la homogeneidad que debe existir dentro de los estratos y en la heterogeneidad entre los estratos. Esto conlleva a mejorar la precisin de los estimadores y a minimizar costos en la recoleccin de la informacin. Sintetizando, las razones por las cuales se recurre al M.A.E son (Lohr, 2000): Para protegernos contra la posibilidad de obtener una mala muestra. Para obtener datos de precisin sobre subgrupos o estratos. Para mayor eficiencia en la administracin y reduccin de costos. Se pueden usar distintos esquemas de muestreo

    para diversos estratos.

    Si se hace correctamente, para obtener estimaciones ms precisas para toda la poblacin. Recordar que es condicin necesaria para una buena estratificacin que Los elementos individuales dentro de cada estrato deben tener cierta homogeneidad pero las medias de los estratos

    debern diferir entre s lo ms posible.

    No se deben presentar traslapes entre estratos y todos juntos debern formar la poblacin completa. 6.2.1 Idea bsica del M.A.E El procedimiento aplicado en este diseo muestral consiste en considerar a cada uno de los estratos como una subpoblacin: Suponga que la poblacin es dividida en L estratos; en cada uno podemos definir los parmetros siguientes, con

    (todas las variables y parmetros usados en relacin a los estratos tendrn subndice i):

    iN corresponde al tamao de la poblacin en el i simo estrato.

    ijy es el valor de la variable de inters en la j sima unidad o elemento del i simo estrato.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    12

    1

    1 iNi ij

    ji

    yN

    es la media poblacional de la variable de inters en el i simo estrato.

    1

    iN

    i ijj

    y

    es el total poblacional de la variable de inters en el i simo estrato. iA corresponde al nmero total de individuos o elementos de la poblacin del i simo estrato que poseen una caracterstica

    dada.

    i i ip A / N es la proporcin de elementos o unidades de la poblacin del i simo estrato que poseen una caracterstica dada. Luego, los parmetros poblacionales globales en funcin de los parmetros poblacionales de cada estrato, estn dados por:

    1 1

    L L

    i i ii i

    N

    el total global de la variable de inters en la poblacin

    1 1

    L Li i

    ii i

    NN N

    el promedio global de la variable de inters en la poblacin

    1

    L

    ii

    A A

    el nmero total global de individuos en la poblacin que poseen cierta caracterstica

    1 1

    L Li ii

    i i

    A Np p

    N N la proporcin global de individuos que en la poblacin poseen cierta caracterstica.

    Para efectos de muestreo y estimacin se procede de la siguiente manera:

    1. Se determina el tamao global de muestra n .

    2. Se determinan los tamaos de muestra en cada estrato, in , tal que 1

    L

    ii

    n n

    (procedimiento de afijacin de tamaos de muestra)

    3. De cada estrato se toma una M.A.S sin reemplazo de tamao in respectivamente.

    4. Se obtienen las estimaciones de los parmetros de inters en cada estrato. 5. Se combinan las estimaciones de los parmetros de inters para generar la estimacin puntual global del

    parmetro en la poblacin.

    En la figura 1 se esquematiza el procedimiento de muestreo y estimacin descrito.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    13

    Figura 1. Procedimiento de muestreo y estimacin en M.A.E

    6.2.2 Estimaciones Para estimar los parmetros de inters en cada estrato, se aplican las frmulas correspondientes al M.A.S sin reemplazo. Las estimaciones en los estratos se combinan para obtener una estimacin global. En el caso de las medias y proporciones poblacionales globales las estimaciones poblacionales son bsicamente promedios ponderados de las respectivas estimaciones en los estratos, en los que el factor de peso es: . En la tabla siguiente se resumen los

    estimadores poblacionales y los intervalos de confianza correspondientes.

    M.A.S SOBRE CADA ESTRATO,

    muestras de tamao

    ESTIMACIONES DE PARMETROS EN LOS ESTRATOS,

    COMBINAR PARA OBTENER LAS RESPECTIVAS ESTIMACIONES POBLACIONALES

    M.A.S SOBRE CADA ESTRATO,

    muestras de tamao

    ESTIMACIONES DE PARMETROS EN LOS ESTRATOS,

    COMBINAR PARA OBTENER LAS RESPECTIVAS ESTIMACIONES POBLACIONALES

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    14

    ESTIMADORES E INTERVALOS DE CONFIANZA

    Parmetro a estimar

    Estimador puntual

    Varianza Estimada del estimador

    Intervalo de confianza para el

    parmetro, de (1-)100%

    1

    L

    st i ii

    y W y

    21

    L

    st i ii

    V y W V y

    2st n L, / sty t V y

    1 1

    = L L

    st st i i ii i

    N y N y

    2st st V N V y 2st n L, / stN y t N V y p

    1

    L

    st i ii

    p W p

    21

    L

    st i ii

    V p W V p

    2st n L, / st p t V p

    A 1 1

    L L

    st st i i ii i

    A Np N p A

    2

    2

    1

    st st

    L

    i ii

    V A N V p

    N V p

    2st n L, / st A t N V p y por M.A.S sin reemplazo, en cada estrato, se tienen:

    1

    inij

    ij i

    yy

    n , ii

    i

    apn

    , 2

    22

    1

    , 1

    in ij ii i ii i

    ji i i

    y yN n sV y s

    N n n

    1 1

    i ii ii

    i i

    p pN nV pN n

    ,

    Los intervalos de confianza especificados son apropiados si los tamaos de muestras en los estratos, in , son suficientemente

    grandes para aplicar la aproximacin normal. De lo contrario, las estimaciones de las varianzas tienden a ser inestables. 6.2.3 Tamaos de muestra en M.A.E para estimacin de medias y totales poblacionales En cuanto a los tamaos de muestra, en este diseo muestral es necesario:

    1. Clculo del tamao de muestra global n , es decir el total de unidades o elementos que se muestrearn de toda la

    poblacin. 2. Afijacin de la muestra, lo cual responde a la pregunta dado un tamao de muestra total n , cmo distribuirlo

    entre los estratos?, es decir, cmo calcular los tamaos de muestra para cada estrato (los in )?

    6.2.3.1 Determinacin del tamao de la muestra total: El tamao de muestra aproximado para estimar para un valor prefijado para la varianza del respectivo estimador es dada por la siguiente ecuacin:

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    15

    (1)

    con igual a , respectivamente. es llamada la fraccin de afijacin de la muestra de tamao n entre los estratos, de forma que . Cuando se impone un lmite para el error de estimacin B, con un nivel de confianza del 95%, la ecuacin anterior toma la siguiente forma

    (2)

    con cuando se estima y cuando se estima . En la tabla siguiente aparecen diferentes frmulas de tamao de muestra segn la informacin conocida y objetivos (minimizacin de varianza del estimador de la media y/o de los costos de muestreo) involucrados con los criterios de afijacin los cules determinan los valores de los en

    las ecuaciones (1) y (2). (ver criterios de afijacin).

    Determinacin de n para estimacin de la media poblacional a) Cuando queremos minimizar los costos totales del muestreo (sin restriccin presupuestal), para un valor de stV y que previamente debemos prefijar: ( es el costo unitario en el estrato )

    1 1

    2 2

    1

    L L

    i i i i i ii i

    L

    st i ii

    N C N Cn

    N V y N

    Para stV y prefijada en , tenemos

    1 1

    2 2

    1

    L L

    i i i i i ii i

    L

    i ii

    N C N Cn

    N D N

    Para hallar los se debe usar afijacin ptima para costos variables. Desde que las varianzas aparecen en la ecuacin stas deben ser pre-estimadas (usar los )

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    16

    Determinacin de n para estimacin de la media poblacional (continuacin) b) Cuando queremos minimizar stV y y no conocemos costos unitarios de muestreo en los estratos (o se asumen iguales), pero s tenemos conocimiento sobre las varianzas dentro de los estratos (son pre estimadas con los valores ), usamos multiplicadores de Lagrange para hallar los in que minimizan stV y y luego, prefijamos este ltimo valor y despejamos a n :

    c) Cuando desconocemos costos o se asumen iguales y no estamos seguros de valores a asignar a las varianzas dentro de los estratos (aunque s se requieren las estimaciones previas 2*iS ), lo nico que podemos hacer es prefijar stV y y calcular:

    2

    1

    2 2

    1

    L

    i ii

    L

    st i ii

    Nn

    N V y N

    Para stV y prefijada en , tenemos 2

    1

    2 2

    1

    L

    i ii

    L

    i ii

    Nn

    N D N

    Para hallar los se debe usar afijacin ptima. Desde que las varianzas aparecen en la ecuacin stas deben ser pre-estimadas (usar los )

    2

    12

    1

    L

    i ii

    Li i

    sti

    Nn

    NN V yN

    Para stV y prefijada en , tenemos 2

    12

    1

    L

    i ii

    Li i

    i

    Nn

    NN DN

    Para hallar los se debe usar afijacin proporcional. Desde que las varianzas aparecen en la ecuacin stas deben ser pre-estimadas (usar los )

    6.2.3.2 Afijacin Respecto a la afijacin, bsicamente existen tres formas, que dependen de la informacin que se conozca y de lo que se desea minimizar. A continuacin, se presentan los mtodos de afijacin para la estimacin de medias y totales

    poblacionales (en las siguientes ecuaciones, en general, i se reemplaza por su estimacin previa *iS ): Afijacin proporcional: Si no tenemos informacin alguna sobre costos de muestreo ni sobre las varianzas de la

    variable respuesta en cada estrato, lo ms que podemos hacer es asignar los tamaos de muestra proporcionalmente al tamao de los estratos:

    ii i

    Nn W n nN

    observe que en este caso la fraccin de afijacin es .

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    17

    Afijacin ptima (Neyman): Si conocemos las varianzas 2i dentro de cada estrato (aunque no los costos de ninguna ndole o asumimos que son iguales), podemos minimizar la varianza del estimador ( de la media o del total

    poblacional) sujetos a que1

    L

    ii

    n n

    con el siguiente valor de in (para demostrarlo hay que usar multiplicadores de Lagrange):

    1

    i ii L

    k kk

    Nn nN

    En este caso la fraccin de afijacin es

    Afijacin ptima para costos variables: Sea iC el costo por unidad del estudio de muestreo en el estrato . Supongamos que tambin son conocidas las varianzas de la variable respuesta en cada estrato: Debemos buscar cmo asignar el tamao global de muestra n de modo que se garantice la menor variabilidad del estimador para los

    costos fijos o que minimice los costos totales para la varianza prefijada para el estimador, donde el costo del muestreo es dado por

    Ecuacin de costo total: 1

    L

    i ii

    n C

    Luego, la afijacin ptima corresponde a:

    1

    i i

    ii L

    k k

    k k

    NC

    n nN

    C

    En este caso la fraccin de afijacin corresponde a

    El procedimiento a seguir

    1. Determinar primero n sin aproximarlo a ningn entero (es decir tomarlo con cifras decimales).

    2. Determinar los in con el mtodo de afijacin apropiado, redondearlos al entero ms prximo.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    18

    3. Comprobar que ,1

    L

    i redondeados redondeadoi

    n n

    4. Si la anterior condicin no se cumple por defecto (es decir es menor que el valor de n redondeado), aumentar el

    tamao de muestra para aquel estrato (o estratos) con la cantidad no entera (decimal) ms grande antes del redondeo. Si la condicin no es cumplida por exceso, tomar la parte entera como tamao de muestra para aquel estrato que originalmente tiene la mayor parte decimal.

    6.2.4 Tamaos de muestra en M.A.E para estimacin de proporciones y total de individuos con cierta caracterstica Por M.A.S sin reemplazo en cada estrato se conocen las varianzas para las proporciones estimadas en los estratos, y globalmente considerando la independencia de los estimadores entre estratos en toda la poblacin. Para las siguientes frmulas, se asume que las observaciones son variables Bernoulli (es decir, tomando slo valores de 0 1) as que

    y las varianzas en los estratos corresponden a , luego, podemos usar las ecuaciones vistas en el

    caso de la media de una variable cuantitativa. 6.2.4.1 Determinacin del tamao de la muestra total: El tamao de muestra aproximado para estimar p para un valor prefijado para la varianza del respectivo estimador , es dado por la siguiente ecuacin:

    (3)

    Cuando se impone un lmite para el error de estimacin B, con un nivel de confianza del 95%, la ecuacin anterior toma la siguiente forma

    (4)

    con . En forma similar al caso de estimacin de la media poblacional, en la tabla siguiente se dan las diferentes

    frmulas de tamao de muestra segn la informacin conocida y objetivos (minimizacin de varianza del estimador de la proporcin y/o de los costos de muestreo) involucrados con los criterios de afijacin los cules determinan los valores de los

    en las ecuaciones (3) y (4). (ver criterios de afijacin). Las frmulas aplican suponiendo que los estratos son grandes

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    19

    Determinacin de n

    a) Cuando queremos minimizar los costos totales del muestreo (sin restriccin de presupuesto) para un valor de stV p que previamente debemos fijar:

    1 1

    2

    1

    11

    1

    L Li i

    i i i i ii ii

    L

    st i i ii

    p pN N p p C

    Cn

    N V p N p p

    Para prefijada en , tenemos,

    1 1

    2

    1

    11

    1

    L Li i

    i i i i ii ii

    L

    i i ii

    p pN N p p C

    Cn

    N D N p p

    Para el clculo de los in se debe usar afijacin ptima para costos variables, para proporciones. Desde que las proporciones aparecen en la ecuacin stas deben ser pre-estimadas (usar los ) b) Cuando queremos minimizar stV p y no conocemos costos unitarios de muestreo en los estratos (o se asumen iguales), pero s tenemos informacin de las proporciones en cada estrato, usamos multiplicadores de Lagrange para hallar los in que minimizan stV p y luego, prefijamos este ltimo valor y despejamos a n :

    c) Cuando desconocemos los costos o se asumen iguales y asumimos la homogeneidad en cada estrato, lo nico que podemos hacer es prefijar stVAR p y asignar proporcionalmente los in , de lo que se tiene que:

    2

    1

    2

    1

    1

    1

    L

    i i ii

    L

    st i i ii

    N p pn

    N V p N p p

    Para prefijada en , tenemos,

    2

    1

    2

    1

    1

    1

    L

    i i ii

    L

    i i ii

    N p pn

    N D N p p

    Para el clculo de los in se debe usar afijacin ptima para estimacin de proporciones. Desde que las proporciones aparecen en la ecuacin stas deben ser pre-estimadas (usar los )

    1

    1

    1

    1 1

    L

    i i ii

    L

    st i i ii

    N p pn

    N V p N p pN

    Para prefijada en , tenemos,

    1

    1

    1

    1 1

    L

    i i ii

    L

    i i ii

    N p pn

    N D N p pN

    Para el clculo de los in se debe usar afijacin proporcional. Desde que las proporciones aparecen en la ecuacin stas deben ser pre-estimadas (usar los )

    6.2.4.2 Afijacin Las afijaciones en este caso se calculan como sigue:

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    20

    Afijacin proporcional:

    ii i

    Nn W n nN

    En este caso la fraccin de afijacin es .

    Afijacin ptima:

    1

    1

    1

    i i ii L

    k k kk

    N p pn n

    N p p

    En este caso, la fraccin de afijacin es

    Afijacin ptima para costos variables para estimacin de proporciones:

    1

    1

    1

    i ii

    ii

    Lk k

    kk k

    p pN

    Cn n

    p pN

    C

    La fraccin de afijacin en este caso corresponde a

    Las aproximaciones en todos los casos se hacen suponiendo que los estratos son grandes. De nuevo, el procedimiento a seguir es

    1. Determinar primero n sin aproximarlo a ningn entero (es decir tomarlo con cifras decimales).

    2. Determinar los in con el mtodo de afijacin apropiado, redondearlos al entero ms prximo.

    3. Comprobar que ,1

    L

    i redondeados redondeadoi

    n n

    4. Si la anterior condicin no se cumple por defecto (es decir es menor que el valor de n redondeado), aumentar el

    tamao de muestra para aquel estrato (o estratos) con la cantidad no entera (decimal) ms grande antes del redondeo. Si la condicin no es cumplida por exceso, tomar la parte entera como tamao de muestra para aquel estrato que originalmente tiene la mayor parte decimal.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    21

    Pesos de muestreo

    Considere el estimador del total de una variable 1

    L

    st i ii

    N y

    podemos rescribir esta frmula de la siguiente manera:

    1 1 1 1 1 1

    i i in n nL L L

    ij ist i ij ij ij

    i j i j i ji i

    y NN y y

    n n

    donde el subndice j es para las unidades seleccionadas en cada estrato para la muestra.

    El peso de muestreo corresponde a la constante ij i iN / n y puede interpretarse como el nmero de unidades en la poblacin representadas por el miembro de la muestra (i, j). Si la poblacin tiene 1600 hombres y 400 mujeres, y el diseo muestral estratificado especifica una muestra de 200 hombre y 200 mujeres, entonces cada hombre de la muestra tiene un peso de 8 y por tanto se representa a s mismo y a otros 7 hombres que no estn en la muestra, en tanto que cada mujer de la muestra tiene un peso de 2 y por tanto se representa as misma y a otra mujer que no est en la muestra (Lohr, 2000).

    La probabilidad de elegir la unidad j del estrato i para estar en la muestra es ij i in / N , la fraccin de muestreo en el estrato i. Por tanto el peso de muestreo es el inverso de esta probabilidad.

    La suma de los pesos de muestreo es igual al tamao de toda la poblacin N, es decir 1 1

    inL

    iji j

    N

    , esto es cierto dado que como cada unidad de la muestra representa a cierta cantidad de unidades de la poblacin, entonces la muestra completa representa a toda la poblacin. La estimacin de la media poblacional haciendo uso de los pesos de muestreo corresponde por tanto a:

    1 1

    1 1

    i

    i

    nL

    ij iji jst

    st nL

    iji j

    y

    yN

    ANEXO 1: EL PROC SURVEYSELECT

    Este procedimiento, disponible en el paquete estadstico SAS, proporciona una variedad de mtodos para seleccionar muestras probabilsticas. Permite seleccionar desde muestras aleatorias simples hasta diseos muestrales multietpicos complejos. Tambin permite tomar muestras con probabilidades iguales y con probabilidades de muestreo distintas, especficamente por el mtodo denominado PPS (probabilidad proporcional al tamao de cada unidad de muestreo).

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    22

    Este procedimiento calcula por defecto los pesos de muestreo segn el diseo muestral, a menos que se le especifique directamente qu pesos usar. Cmo seleccionar un muestra con el PROC SURVEYSELECT?

    1. Ingrese en SAS el conjunto de datos que contiene al marco muestral o una lista de las unidades sobre las cuales se va a muestrear.

    2. Si la muestra va a ser una M.A.E, dentro del conjunto de datos SAS se debe haber incluido la variable estrato. Los estratos pueden ser identificados mediante cdigo alfanumrico o nombres de las categoras, o simplemente numerados como 1, 2, , etc.

    3. Se invoca el PROC SURVEYSELECT y sus diferentes opciones, como se ejemplifica a continuacin. a) M.A.S sin reemplazo Suponga que una empresa de servicios de conexin a Internet desea investigar la satisfaccin de sus clientes con los servicios prestados. La poblacin objetivo consiste de los suscriptores actuales de la compaa. La empresa posee una base de datos a partir de la cual construye el marco muestral en la cual incluye informacin sobre cdigo de identificacin del usuario, zona en el que est ubicado el usuario, promedio mensual en minutos de uso de la conexin de Internet, entre otros datos. Suponga que se ingresa en SAS este marco muestral en una data set denominado CLIENTES con un total de 13471 registros. Se desea tomar una muestra aleatoria simple sin reemplazo de tamao 100, entre los clientes para aplicarles una encuesta. Esto se puede hacer de la siguiente manera: PROC SURVEYSELECT data=CLIENTES method=srs n=100 seed=39647 out=MUESTRA1; run; donde: method=srs especifica que el muestreo es aleatorio simple sin reemplazo. seed=39647 es opcional. Con ella se fija la muestra en la correspondiente a la semilla 39647. n=100 indica el tamao de la muestra. En vez de n= puede usarse la opcin sampsize= . out=MUESTRA1 especifica que la muestra seleccionada se guarde en un data llamado MUESTRA1. Al ejecutar el anterior programa, el SAS genera una salida por pantalla como la que se muestra a continuacin, proporcionando informacin resumen sobre el proceso de seleccin:

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    23

    The SURVEYSELECT Procedure Selection Method Simple Random Sampling

    Input Data Set CLIENTES Random Number Seed 39647 Sample Size 100 Selection Probability 0.007423 Sampling Weight 134.71 Output Data Set MUESTRA1

    Puede observarse que para el caso, la probabilidad de seleccin para cada unidad es 0.007423 y el peso de muestreo usado es 134.71 (o sea el tamao de la poblacin dividido el tamao de la muestra) b) M.A.E sin reemplazo Considere ahora que la empresa desea realiza un diseo muestral por estratificacin, usando como variable de estratificacin la variable zona en el cual est localizado el suscriptor y suponga que esta variable ha sido nombrada zona en la base de datos. El PROC SURVEYSELECT requiere que la base de datos del marco muestral sea previamente ordenado en forma ascendente por los valores de la variable de estratificacin, lo cual se realiza mediante las siguientes lneas: PROC SORT data=CLIENTES; by zona; run; Los tamaos de muestra deben ser previamente calculados. Estos pueden especificarse directamente en el PROC SURVEYSELECT o remitiendo a un data set en el cual se hayan especificados. Suponga inicialmente que el nmero de estratos es 4 y que los tamaos de muestra calculados son 25, 25, 35, y 15 (para los estratos ordenados ascendentemente despus de aplicar el proc sort). Para tomar la muestra aleatoria estratificada, se procede de la siguiente manera: PROC SURVEYSELECT data=CLIENTES method=srs n=(25 25 35 15) seed=48702 out=MUESTRA2; strata zona; run;

    The SURVEYSELECT Procedure Selection Method Simple Random Sampling Strata Variable zona Input Data Set CLIENTES Random Number Seed 48702 Number of Strata 4 Total Sample Size 100 Output Data Set MUESTRA2

    En el data set MUESTRA2 queda guardada la muestral seleccionada, proporcionando la informacin de las variables originales en el marco muestral creado en SAS ms dos nuevas variables SelectionProb y SamplingWeight, que

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    24

    contienen respectivamente las probabilidades de seleccin y los pesos de muestreo para cada uno de los registros seleccionados de la base de datos Si los tamaos de muestra van a ser ledos del algn data set en SAS, este conjunto de datos debe contener todas las variables de estratificacin que se especifiquen en STRATA, con el mismo tipo y longitud y nombre que aparecen el marco muestral creado en SAS. En este nuevo data set los estratos deben aparecer en el mismo orden en que se dan en la base de datos del marco muestral ordenada segn variable de estratificacin, adems debe incluir la variable _NSIZE_ con la cual se especifica los tamaos de muestra para cada estrato. En muestreo sin remplazo estos tamaos no pueden exceder al tamao del respectivo estrato. Para el ejemplo, suponga que las cuatro zonas en las cuales se han estratificado los clientes, han sido codificadas como NC, NE, S, y W, luego, en SAS se procedera de la siguiente forma: data TAMANOS_MUESTRAS; INPUT zona $ @@; if zona='NC' then _NSIZE_=25; if zona='NE' then _NSIZE_=25; if zona='S' then _NSIZE_=35; if zona='W' then _NSIZE_=15; CARDS; NC NE S W ; run; proc surveyselect data=CLIENTES method=srs n=TAMANOS_MUESTRAS seed=48702 out=muestra2; strata zona; run; observe que cuando se especific en el data set TAMANOS_MUESTRAS las zonas, se hizo en orden alfabtico, es decir, en orden ascendente.

    ANEXO 2: EL PROC SURVEYMEANS

    Este procedimiento SAS produce estimaciones para las medias y totales poblacionales a partir de datos de una muestra. Tambin produce las varianzas, los lmites de intervalos de confianza y otros estadsticos descriptivos. El procedimiento tiene en cuenta el diseo muestral usado para la muestra que se analiza. El diseo muestral puede ser un M.A.S, un M.A.E, o un diseo muestral complejo.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    25

    El procedimiento usa el mtodo de expansin en series de Taylor para estimar los errores muestrales de los estimadores basados en diseos muestrales complejos. Cuando el diseo es estratificado, el procedimiento combina las estimaciones de las varianzas del estimador de inters en los estratos para calcular la estimacin de la varianza total del estimador global. a) Estimaciones en M.A.S sin reemplazo Suponga que se ha tomado una muestra aleatoria simple de tamao 40 de un marco muestral con 4000 registros. Los datos recolectados corresponden a gastos semanales (en cientos de pesos) en consumo de helados, de estudiantes de secundaria en los grados 7, 8 y 9, en cierta ciudad. Adems cada individuo en la muestra es clasificado en uno de dos grupos: los que gastan menos de $1000/semanales y los que gastan ms de $1000/semanales en la muestra. A continuacin se presenta la base de datos SAS de la muestra creada con el siguiente programa en SAS, estadsticos descriptivos de la muestra: data muestra3; input grado gasto grupo $; peso_muestreo=100; cards; 7 7 menos 7 7 menos 8 12 mas 9 10 mas 7 1 menos 7 10 mas 7 3 menos 8 20 mas 8 19 mas 7 2 menos 7 2 menos 9 15 mas 8 16 mas 7 6 menos 7 6 menos 7 6 menos 9 15 mas 8 17 mas 8 14 mas 9 8 menos 9 8 menos 9 7 menos 7 3 menos 7 12 mas 7 4 menos 9 14 mas 8 18 mas 9 9 menos 7 2 menos 7 1 menos 7 4 menos 7 11 mas 9 8 menos 8 10 mas 8 13 mas 7 2 menos

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    26

    9 6 menos 9 11 mas 7 2 menos 7 9 menos ; run; proc print data=muestra3;run; proc means data=muestra3 mean var; var gasto; run; proc means data=muestra3 mean var; class grado; var gasto; run; proc freq data=muestra3; tables grupo*grado; run; peso_ Obs grado gasto grupo muestreo 1 7 7 menos 100 2 7 7 menos 100 3 8 12 mas 100 4 9 10 mas 100 5 7 1 menos 100 6 7 10 mas 100 7 7 3 menos 100 8 8 20 mas 100 9 8 19 mas 100 . . . . . . . . . . . . . . . 37 9 6 menos 100 38 9 11 mas 100 39 7 2 menos 100 40 7 9 menos 100 The MEANS Procedure Analysis Variable : gasto Mean Variance ---------------------------- 8.7500000 28.8589744 ---------------------------- The MEANS Procedure Analysis Variable : gasto N grado Obs Mean Variance ---------------------------------------------------- 7 20 5.0000000 11.7894737 8 9 15.4444444 11.5277778 9 11 10.0909091 10.4909091 ----------------------------------------------------

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    27

    The FREQ Procedure Table of grupo by grado grupo grado Frequency Percent Row Pct Col Pct 7 8 9 Total ------------------------------------ mas 3 9 5 17 7.50 22.50 12.50 42.50 17.65 52.94 29.41 15.00 100.00 45.45 ------------------------------------ menos 17 0 6 23 42.50 0.00 15.00 57.50 73.91 0.00 26.09 85.00 0.00 54.55 ------------------------------------ Total 20 9 11 40 50.00 22.50 27.50 100.00 Observe que la variable gastos es cuantitativa en tanto que la variable grupo es cualitativa. En la base de datos de la muestra tambin debe incluirse una variable que especifique los pesos de muestreo aplicados a cada elemento, que para un M.A.S es simplemente N / n para todas las unidades, en el ejemplo tal variable corresponde a peso_muestreo con valor de 100 en todos los registros. Se desea estimar totales, promedios de la variable gasto y total y proporciones de la variable grupo en cada categora. Suponga que la muestra es guardada en SAS en un data set llamado MUESTRA3, a continuacin se aplica el proc surveymeans: PROC SURVEYMEANS data=MUESTRA3 total=4000 NOBS mean sum var clm varsum clsum sumwgt; var gasto grupo; weight peso_muestreo; ods output Statistics=estadist; run; donde: total=4000 indica al procedimiento que el tamao de la poblacin es de 4000 individuos. Tambin se puede usar N=4000 NOBS solicita que se imprima el nmero de individuos en la muestra para cada variable analizada. mean solicita que se imprima el promedio muestral de cada variable analizada. sum solicita los totales muestrales de las variables analizadas. var solicita que se imprima la varianza estimada de las medias muestrales para las variables analizadas. varsum solicita la impresin de la varianza estimada de los totales estimados para las variables analizadas. clm solicita los lmites para los intervalos de confianza de las medias de las variables analizadas. Por defecto se usa un nivel del confianza del 95%, si se desea modificarlo, por ejemplo un 99%, hay que especificar la opcin alpha=0.01.

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    28

    clsum solicita los lmites para los intervalos de confianza de los totales de las variables analizadas. Por defecto se usa un nivel del confianza del 95%, si se desea modificarlo, por ejemplo un 99%, hay que especificar la opcin alpha=0.01. var para especificar sobre cuales variables se realizarn los anlisis, para el ejemplo note que se invocan las variables denominadas gasto y grupo. sumwgt Solicita la suma de los pesos de muestreo para cada variable analizada. weight peso_muestreo le indica al procedimiento que los pesos de muestreo de cada unidad de la muestra estn en la base de datos de la muestra, en la variable peso_muestreo. ods output Statistics=estadist indica al SAS que guarde los estadsticos muestrales relativos a las medias de las variables analizadas, en un data set denominado estadist. El anterior procedimiento genera la siguiente salida SAS The SURVEYMEANS Procedure Data Summary Number of Observations 40 Sum of Weights 4000 Class Level Information Class Variable Levels Values grupo 2 mas menos Statistics Sum of Std Error Lower 95% Variable N Weights Mean of Mean Var of Mean CL for Mean ------------------------------------------------------------------------------------------------ gasto 40 4000.000000 8.750000 0.845139 0.714260 7.040545 grupo=mas 17 4000.000000 0.425000 0.078761 0.006203 0.265690 grupo=menos 23 4000.000000 0.575000 0.078761 0.006203 0.415690 ------------------------------------------------------------------------------------------------ Statistics Upper 95% Lower 95% Upper 95% Variable CL for Mean Sum Std Dev Var of Sum CL for Sum CL for Sum -------------------------------------------------------------------------------------------- gasto 10.459455 35000 3380.555257 11428154 28162 41838 grupo=mas 0.584310 1700.000000 315.045784 99254 1062.759753 2337.240247 grupo=menos 0.734310 2300.000000 315.045784 99254 1662.759753 2937.240247 ------------------------------------------------------------------------------------------------ Observe que sobre la variable grupo el procedimiento SAS calcula la proporciones de individuos en cada categora (informacin dada como un promedio), como tambin los respectivos totales de individuos (informacin que aparece como una suma). Suponga ahora que la muestra del ejemplo anterior fue extrada mediante un diseo estratificado, donde la variable de estratificacin es el grado. Poblacionalmente se tiene los tamaos de cada estrato correspondiendo a 1824 estudiantes del grado 7, 1025 estudiantes en el grado 8 y 1151 estudiantes en el grado 9. Estos tamaos deben especificarse en el PROC SURVEYMEANS en la opcin total de la declaracin en la que se invoca el procedimiento; esto se puede hacer creando un

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    29

    data set en el cual se definen los tamaos poblacionales de cada estrato, en una variable que debe nombrarse por _total_ , este data set debe ser especificado en la opcin total del PROC SURVEYMEANS. Adems, tambin se requiere que los

    pesos de muestreo, que para el diseo estratificado corresponden a ij i iN / n , estn definidos dentro de la base datos de la muestra. A continuacin se ilustra el uso del PROC SURVEYMEANS con muestras estratificadas usando la base de datos de la muestra del ejemplo anterior, para lo cual se crea un nuevo data set que se denominar muestra4, a partir del data muestra3. data muestra4 (drop=peso_muestreo); set muestra3; if grado=7 then peso_muest=1824/20; if grado=8 then peso_muest=1025/9; if grado=9 then peso_muest=1151/11; run; data TOTALES; input grado _total_; cards; 7 1824 8 1025 9 1151 ; run; PROC SURVEYMEANS data=muestra4 total=totales NOBS mean var clm sum varsum clsum sumwgt; strata grado/list; var gasto grupo; weight peso_muest; run; Observe que antes de invocar al procedimiento, se crea el data set denominado TOTALES en el cual se ha definido para cada grado el valor de la variable _total_ . La declaracin strata grado/list indica al procedimiento que use como variable de estratificacin a la variable grado. La opcin list imprime por pantalla informacin adicional sobre el diseo estratificado especfico. A continuacin se presentan los resultados SAS: The SURVEYMEANS Procedure Data Summary Number of Strata 3 Number of Observations 40 Sum of Weights 4000 Class Level Information Class Variable Levels Values grupo 2 mas menos

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    30

    Stratum Information Stratum Population Sampling Index grado Total Rate N Obs Variable N ------------------------------------------------------------------------------------ 1 7 1824 1.10% 20 gasto 20 grupo=mas 3 grupo=menos 17 2 8 1025 0.88% 9 gasto 9 grupo=mas 9 grupo=menos 0 3 9 1151 0.96% 11 gasto 11 grupo=mas 5 grupo=menos 6 ------------------------------------------------------------------------------------ Statistics Sum of Std Error Lower 95% Variable N Weights Mean of Mean Var of Mean CL for Mean ----------------------------------------------------------------------------------------------- gasto 40 4000.000000 9.141298 0.531799 0.282810 8.063771 grupo=mas 17 4000.000000 0.455445 0.058424 0.003413 0.337068 grupo=menos 23 4000.000000 0.544555 0.058424 0.003413 0.426177 ----------------------------------------------------------------------------------------------- Statistics Upper 95% Lower 95% Upper 95% Variable CL for Mean Sum Std Dev Var of Sum CL for Sum CL for Sum ----------------------------------------------------------------------------------------------- gasto 10.218825 36565 2127.196661 4524966 32255 40875 grupo=mas 0.573823 1821.781818 233.695008 54613 1348.270755 2295.292882 grupo=menos 0.662932 2178.218182 233.695008 54613 1704.707118 2651.729245 -----------------------------------------------------------------------------------------------

    Observe que el procedimiento calcula las tasas de muestreo, es decir ij i in / N , cuyos valores aparecen bajo el item SamplingRate en forma porcentual. El procedimiento usa los tamaos poblacionales de los estratos especificados en la opcin total= para aplicar el factor de correccin por muestreo de poblaciones finitas en el clculo de las varianzas estimadas. Si no se proporciona los tamaos de los estratos o las tasas de muestreo, entonces el procedimiento asume que la proporcin de la poblacin en la muestra es muy pequea, y por tanto no aplica el factor de correccin por poblacin finita en los clculos. A continuacin se presenta un ltimo ejemplo, en el cual se simula un marco muestral de tamao 2500 registros, donde la variable de inters es nombrada por x y la variable de estratificacin por estrato con 3 niveles identificados como 1, 2, y 3, cada uno de tamao 1000, 500 y 1000, respectivamente. Se toma una M.A.E de tamao 120, distribuida as, 30 unidades en el estrato 1, 20 en el estrato 2 y 70 en el estrato 3. data simul; estrato=1; do i=1 to 1000; x=500+10*normal(0); output; end;

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    31

    estrato=2; do i=1001 to 1500; x=100+12*normal(0); output;end; estrato=3; do i=1501 to 2500; x=800+10*normal(0); output; end; run; proc surveyselect data=simul method=srs n=(30 20 70) seed=1953 out=muestra1; strata estrato; run; proc means data=muestra1 mean var; class estrato; var x; run; data totales_estratos; input estrato _total_ @@; cards; 1 1000 2 500 3 1000 ; RUN; proc surveymeans data=muestra1 total=totales_estratos NOBS mean var clm sum varsum clsum sumwgt; strata estrato/list; var x; weight SamplingWeight;run; The MEANS Procedure Analysis Variable : x N estrato Obs Mean Variance --------------------------------------------------- 1 30 499.2023012 136.7242790 2 20 100.2417032 158.5128399 3 70 799.7962424 147.1919967 --------------------------------------------------- The SURVEYMEANS Procedure Data Summary Number of Strata 3 Number of Observations 120 Sum of Weights 2500 Stratum Information Stratum Population Sampling Index estrato Total Rate N Obs Variable N --------------------------------------------------------------------------------- 1 1 1000 3.00% 30 x 30 2 2 500 4.00% 20 x 20 3 3 1000 7.00% 70 x 70 ---------------------------------------------------------------------------------

  • Introduccin al Muestreo, Estadstica II Prof. Nelfi Gonzlez A. Escuela de Estadstica

    32

    Statistics Sum of Std Error Lower 95% Variable N Weights Mean of Mean Var of Mean CL for Mean -------------------------------------------------------------------------------------------------- x 120 2500.000000 539.647758 1.150892 1.324553 537.368476 -------------------------------------------------------------------------------------------------- Statistics Upper 95% Lower 95% Upper 95% Variable CL for Mean Sum Std Dev Var of Sum CL for Sum CL for Sum -------------------------------------------------------------------------------------------------- x 541.927040 1349119 2877.230714 8278457 1343421 1354818 -------------------------------------------------------------------------------------------------- BIBLIOGRAFA Scheaffer, R. L, Mendehall W. y Lyman O., R (2007) Elementos de Muestro. 6 ed. Thomson, Mxico D. F. Lohr, S. L. (2000). Muestreo: Diseo y Anlisis.International Thomson Editores, Mxico D.F. Ospina, D. (2001). Introduccin al Muestreo. Departamento de Matemticas y Estadstica, Facultad de Ciencias, Universidad

    Nacional de Colombia, Bogot. Srndal, C. E., Swenson, B. y Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag, New York. SAS Institute Inc., SAS/STAT Users Guide, Versin 8, Cary, NC: SAS Institute Inc., 1999. Chapter 61. SAS Institute Inc., SAS/STAT Users Guide, Versin 8, Cary, NC: SAS Institute Inc., 1999. Chapter 63.