muestreo 2015

TEMA: MUESTREO Y SUS APLICACIONES

Dr. Luis Roble Alemán

CURSO: BIOESTADISTICA

MUESTREO Y SUS APLICACIONES

Agenda

Introducción

Ventajas del muestreo

Términos relacionados al proceso de muestreo

Muestreo probabilístico: Muestreo Aleatorio Simple

Muestreo Sistemático

Muestreo Estratificado

Muestreo por Conglomerados

Muestreo empírico o no probabilístico

Tamaño de muestra: Para estimar una media aritmética: Cuando se conoce N y cuando no se conoce N

Para estimar una proporción: Cuando se conoce N y cuando no se conoce N

Inferencia Estadística

Censo

Muestreo

Población (N)

Parámetro

lpoblaciona estándar Desviación

lpoblaciona Proporción

lpoblaciona Media

P

muestral estándar Desviación

muestral Proporción

muestral Media

sp

x

Muestra (n)

Estadístico

Censo: Se analizan todos y cada uno de los elementos de la población.

Muestreo: Se analiza una parte de la población, con el cual se pretende inferir o generalizar

resultados de una muestra a una población. El proceso de inferencia se efectúa por medio de

métodos estadísticos basados en la probabilidad.

Introducción

Hay dos formas de estudiar las poblaciones: Por censo o por muestreo.

Ejemplo: Niños menores de 5 años

Introducción

Muestreo Es una herramienta de la investigación científica cuya función

básica es determinar qué parte de la población en estudio debe

examinarse con el fin de hacer inferencias sobre dicha población.

Inferencia estadística Permite elaborar conclusiones probabilísticas acerca de una

población en base a una muestra de dicha población.

Costos reducidos.

Mayor rapidez para obtener resultados.

Mayor exactitud o mejor calidad de la información,

debido a los siguientes factores:

-Volumen de trabajo reducido.

-Puede existir mayor supervisión en el trabajo.

-Se puede dar más entrenamiento al personal.

-Menor probabilidad de cometer errores durante el procesamiento

de la información.

Factibilidad de hacer el estudio cuando la toma de datos

implica técnicas invasivas, por ejemplo: análisis de sangre,

control de calidad, pruebas de germinación.

Ventajas del muestreo

Marco de muestreo

• Es un listado o mapa que contiene todas las unidades de muestreo y

por consiguiente cubre toda la población.

• Debe estar completamente actualizado porque de él se selecciona la

muestra.

Ejemplos: lista de personas, relación de viviendas, archivo o croquis de una

determinada comunidad, etc.

Unidad de muestreo

• Puede coincidir con la unidad de análisis.

• Corresponde a la entidad básica mediante la cual se accederá a la unidad

de análisis.

• Es la unidad seleccionada del marco de muestreo.

Ejemplos: hogares, escuelas, centro poblados, viviendas, manzanas de

viviendas de una ciudad, granjas, parcelas, etc.

Términos relacionados al proceso de

muestreo

Error muestral (Error aleatorio):

Es la diferencia entre el resultado obtenido de una muestra (estadístico) y

el resultado el cual deberíamos haber obtenido de la población

(parámetro).

Se relaciona con la falta de precisión.

Disminuye cuando la muestra es grande.

Los censos no presentan error de muestreo.

Se mide con el error estándar (desviación estándar de la distribución de los

errores muestrales). El error estándar es una medición de la dispersión

de las medias de muestras alrededor de la media de la población.

Error no muestral (Error sistemático):

La desviación estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una

población, es llamada el error estándar de la media. La desviación estándar de las proporciones de todas las

muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la proporción.

Es aquél que se produce de igual modo en todas las

mediciones que se realizan de una magnitud. Puede

estar originado en un defecto del instrumento, del

operador o del proceso de medición, etc.


Los estadísticos, en este caso x (media muestral) y s (desviación estándar

muestral), calculados en las diferentes muestras seleccionadas pueden resultar

iguales o diferentes.

Las diferencias se deben a la presencia de los errores muestrales. Para cuantificar

la variabilidad atribuida a los errores muestrales se utiliza la medida del error

estándar, el cual permite realizar las inferencias estadísticas.

mg/dl 5.2 s

mg/dl 86

100n

1: Muestra

1

1

x

mg/dl 5.7 s

mg/dl 89

100n

:2 Muestra

2

2

xmg/dl 3.2 s

mg/dl 103

100n

:4 Muestra

4

4

x

mg/dl 6.8 s

mg/dl 95

100n

:k Muestra

k

k

xmg/dl 6.1

mg/dl 89.5

mg/dl 7.4 s

mg/dl 98

100n

:3 Muestra

3

3

x


Población: personas de 40 a 50 años de edad cuyo nivel de

glucosa en ayunas tiene:

Nivel de Confianza:

El valor de Z para un nivel de confianza del 90% es de 1.64




Es la probabilidad de que el intervalo de confianza calculado contenga

al verdadero valor del parámetro.

Un nivel de confianza del 95% asume un riesgo α del 5% mientras que

un nivel de confianza del 99% asume un riesgo del 1%.

Población (N):

Parámetro:

PROBLEMA A INVESTIGAR

“Proporción de niños menores de 5 años con desnutrición crónica en SALITRAL”

Unidad de análisis:

Un hogar con niños menores de 5 años que viven en Salitral

Información censal y cartográfica del INEI

Un niño o niña menor de 5 años que vive en Salitral

Unidad de Muestreo:

Marco Muestral:

Los niños menores de 5 años que viven en Salitral

P= Proporción de niños menores de 5 años con desnutrición crónica en Salitral

Estadístico: p= Proporción muestral de niños menores de 5 años con desnutrición crónica

en Salitral

No se puede calcular estadísticamente el tamaño muestral y la decisión se basa en el

criterio del investigador

Técnicas de Muestreo

Probabilístico No Probabilístico

M. Aleatorio Simple

M. Sistemático

M. Estratificado

M. por Conglomerados

M. Accidental

M. por Conveniencia

M. por Cuotas

M. de Bola de nieve

Muestreo Probabilístico y No probabilístico

Muestreo Probabilístico: Es posible

evaluar y controlar la precisión de las

estimaciones mediante la determinación y

del error de muestreo cometido.

Muestreo No Probabilístico: No se

puede calcular estadísticamente el

tamaño muestral y la decisión se basa en

el criterio del investigador.

El muestreo probabilístico se basa en que cada unidad

de la población tiene una probabilidad distinta de

cero de ser elegida para integrar la muestra.

Esta premisa le da un carácter aleatorio a la elección

de las unidades de la población para integrar la muestra.

Se puede inferir a la población.

Muestreo Probabilístico

Se aplica cuando la población es finita y homogénea.

Una población es finita cuando sus unidades pueden ser

enumeradas y se puede identificar a la última de ellas.

En un muestreo aleatorio simple sin reposición a cada

elemento de la población le corresponde la misma

probabilidad de ser seleccionada para integrar la muestra,

y esto se denota:

n/N; donde: n= tamaño muestral y N= tamaño

poblacional.

Ejemplo: De una población de 150 personas se requiere una muestra de 10

personas

Fracción de muestreo


Muestreo Aleatorio Simple

15

1

150

10

N

np

Cuando se conoce N: • N : Tamaño de la población que es objeto de estudio.

• Z : desviación normal cuyo valor corresponde al grado de confianza

establecido.

• ² : Varianza poblacional de la población que es objeto de estudio.

En la práctica se desconoce, para ello se recomienda:

Recurrir a estudios similares que se han realizado y obtener el valor de ².

Realizar un estudio piloto para estimar ².

• E : Error absoluto o precisión de la estimación deseada de la media.

E = Margen de error permitido (determinado por el responsable del estudio).

Es la máxima diferencia que podemos tolerar entre el valor de la variable obtenido en la

muestra y el verdadero valor de ésta en la población. Para establecer el valor de “E”

debemos preguntarnos cuán precisos deseamos que sean los resultados de la investigación.

222

22

σZ1)(NE

NσΖn

A.- TAMAÑO DE MUESTRA

Para estimar una media aritmética

Nivel de confianza 90% 95% 99%

Z 1.64 1.96 2.57

Cuando se conoce N:

Ejemplo: Se busca conocer el colesterol promedio de los estudiantes de la Facultad de

Medicina (Número de estudiantes= 1800). Calcular el tamaño muestral (n)

considerando un grado de confianza del 95%

• Resultados de un estudio preliminar: x =210, s= 30 y Er= 6%

Solución

• Por definición:

Error relativo: Por consiguiente:

• Como el grado de confianza es 95%, Z=1.96

Para realizar el estudio se requiere como mínimo 22 estudiantes de la Facultad de

Medicina considerando un grado de confianza de 95% y un error absoluto de 12.6.

222

22

σZ1)(NE

NσΖn

100xE

Er 12.6100

2106

100

EE

xr x

222

22

301.96179912.6

1800301.96

21.53


Para estimar una media aritméica

Cuando NO se conoce N:

Ejemplo: Se desea estimar el tiempo medio de sangría en fumadores de más de 20

cigarrillos diarios, con edades comprendidas entre 35 y 40 años, con una precisión

de 5 segundos. Ante la ausencia de cualquier información acerca de la variabilidad

del tiempo de sangría es este tipo de individuos, se tomó una muestra preliminar

de 5 individuos, en los que se obtuvieron los siguientes tiempos (en segundos):

97, 80, 67, 91, 73.

Determinar el tamaño mínimo de muestra, al 95%, para cumplir el objetivo anterior.

Solución:

• Z=1.96

• s=12.4

• E=5

Se necesita una muestra de 24 fumadores de más de 20 cigarrillos diarios, con

edades comprendidas entre 35 y 40 años considerando un grado de confianza de

95% y un error absoluto de 5.

2

22

E

σΖn

2

22

E

σΖn


Para estimar una media aritmética

2423.632

22

5

12.41.96 x

Cuando se conoce N:

Donde :

• N: Tamaño de la población que es objeto de estudio.

• Z : desviación normal cuyo valor corresponde al grado de confianza establecido

• p: proporción de unidades que poseen el atributo de interés en la población.

En la práctica, este valor se desconoce. Para determinarlo se recomienda:

Recurrir a estudios similares realizados y extraer el valor de p.

En caso de no haber antecedentes, se recurre a un estudio piloto.

En caso contrario, se recurre a la máxima varianza, cuando p=0.5.

• q : 1 – p

• E: Error absoluto o precisión de la estimación de la proporción. Por lo general el

valor que asume es 0.05.

pqZ1)(NE

pqNΖn

22

2


Para estimar una proporción

Nivel de confianza 90% 95% 99%

Z 1.64 1.96 2.57

Cuando se conoce N: Ejemplo: Se desea conocer la proporción de estudiantes que fuman

cigarrillos en la Facultad de Medicina de la USMP (Número de

estudiantes = 1700). Calcular el tamaño de muestra considerando un

grado de confianza del 99%. De un estudio preliminar se ha determinado

que la proporción de alumnos que fuman cigarrillos es de p=0.40. El error

absoluto que se toma en cuenta es de E=0.05

Solución:

• Z=2.57

• p=0.4

• E=0.05

Se requiere para ejecutar el estudio por lo menos 462 estudiantes que

fuman cigarrillos, con un grado de confianza del 99% y precisión del 5%.

4620.60.42.5716990.05

17000.60.42.57

pqZ1)(NE

pqNΖn

xxx

xxx

22

2

22

2



Cuando se conoce N:

Ejemplo: Se desea conocer la proporción de estudiantes del primer al sétimo

año sobre la satisfacción en la atención de tutorías en la Facultad de

Medicina de la USMP (Número de estudiantes = 2607) durante el año

2013. Calcular el tamaño de muestra proporcional al año de estudio,

considerando un grado de confianza del 95% y un error absoluto de 0.05.

Población de estudiantes por año de estudios 2013



AÑO DE

ESTUDIO

2013

1 2 3 4 5 6 7 TOTAL

ESTUDIANTES 417 455 500 343 344 234 314 2607

Cuando se conoce N: Solución:

• Z=1.96 ; p=0.5 ; E=0.05

Para la selección de los estudiantes para integrar la muestra se determina

la afijación proporcional, ni = Ni * (n/N), es decir:

Se requiere para ejecutar el estudio por lo menos 335 estudiantes, con un

grado de confianza del 99% y precisión del 5%.

3350.50.51.961)-(26070.05

26070.50.51.96

pqZ1)(NE

pqNΖn

xxx

xxx

22

2

22

2



AÑO DE ESTUDIO

20131 2 3 4 5 6 7 TOTAL

ESTUDIANTES: Ni 417 455 500 343 344 234 314 N=2607

MUESTRA: ni 55 58 64 44 44 30 40 n=335

Cuando NO se conoce N:

Ejemplo: Un investigador está interesado en estimar la proporción de

muertes debidas a cáncer de estómago en relación con el número de

defunciones por cualquier tipo de neoplasia. Su experiencia le indica que

sería sorprendente que tal proporción supere el valor de 1/3. ¿Qué

tamaño de muestra debe tomar para estimar la anterior proporción, con

una confianza del 95%, para que el valor estimado no difiera del valor real

en más de 0,03?

Solución:

• Z=1.96

• p=1/3

• E=0.03

Se necesita una muestra de 949 defunciones por cualquier tipo de

neoplasia considerando un grado de confianza de 95% y un error

absoluto de 0.03.

2

2

E

pqΖn

949948.540.03

2/31/31.96

E

pqΖn

2

2

2

2xx



B.- PROCESO DE SELECCIÓN

Los pasos a seguir:

Obtener un listado de todos los integrantes de la población.

Numerar a todos los sujetos de la población (o unidades de

muestreo).

Utilizar una tabla de números aleatorios o un procedimiento similar

para seleccionar a los sujetos de la muestra.

Ubicar a los sujetos seleccionados y administrar los instrumentos

de recopilación de datos.



Ejemplo: De la población de 456

pacientes del CSMI BARRETO 2014, se

requiere una muestra de 10 pacientes.

Si N= 456 en la tabla de números

aleatorios se seleccionan 3

columnas (la población tiene 3

dígitos) y se buscan números

comprendidos entre 001 y 456.

Los 10 primeros números hallados

corresponden a los 10 alumnos que

serán incluidos en la muestra.

La muestra tomada es sin

reposición, si un número se repite

debe ser ignorado, sólo se puede

incluir una vez.

La solución del ejemplo sería:

227 221 028 425 164

453 230 264 345 126



B.- PROCESO DE SELECCIÓN

Del ejemplo anterior, los números aleatorios seleccionados son: 227, 221, 028,

425, 164, 453, 230, 264, 345 y 126

Por lo tanto, de la lista de 456 pacientes, la muestra estará compuesta por los

PACIENTES:



Nº PACIENTE 227 PALOMINO LABAN, MIRIAM 221 ROBLES ALEMAN LUIS 28 PEÑA G. LUIS ROBERTO

425 CUAN TIMANA, CINDY FIORELLA 164 GARCIA SALAS, JOSE ALBERTO 453 ZAVALA NEGRON, ANGELICA MABEL 230 VILCHEZ TORRE, CARLA MEDALIT 264 MORALES AGUILAR, DAVID FERNANDO 345 QUIROGA FERRER JUAN 126 DESMAISON IBARRA, ALEJANDRO JOSE

C.- PROCESO DE ESTIMACION DE PARAMETROS

Consiste en estimar los parámetros mediante sus respectivos estadísticos.

Estas estimaciones se realizan mediante dos formas: Puntual y por Intervalo,

dichas técnicas se vera en la parte de la inferencia estadística.

Del ejemplo anterior, la muestra estará compuesta por los pacientes y sus respectivas concentraciones de azúcar en la sangre:



Nº PACIENTE CONCENTRACION DE AZUCAR EN LA

SANGRE

227 PALOMINO LABAN, MIRIAM 108

221 ROBLES ALEMAN LUIS 106

28 PEÑA G. LUIS ROBERTO 94

425 CUAN TIMANA, CINDY FIORELLA 91

164 GARCIA SALAS, JOSE ALBERTO 103

453 ZAVALA NEGRON, ANGELICA MABEL 90

230 VILCHEZ TORRE, CARLA MEDALIT 80

264 MORALES AGUILAR, DAVID FERNANDO 107

345 QUIROGA FERRER JUAN 90

126 DESMAISON IBARRA, ALEJANDRO

JOSE 91

INTERES: ESTIMAR EN FORMA PUNTUAL LA

MEDIA, DESVIACION ESTANDAR Y EL ERROR

ESTÁNDAR DE LA MEDIA

Se aplica cuando la población es finita y heterogénea En este caso

se elige el primer individuo al azar y el resto viene condicionado

por aquél.

Los pasos a seguir:

Obtener un listado de todos los integrantes de la población.

Numerar a todos los sujetos de la población (o unidades de muestreo).

Determinar una relación de muestreo denotado por K

Donde: N= tamaño poblacional y n= tamaño muestral.

Conociendo K, se genera un intervalo de selección comprendido entre 1 y

K, incluyendo 1 y K,

Seleccionar al azar un número: el arranque aleatorio (r). La muestra estará

integrada por :

r r+K r+2K r+3K r+4K ......r+(n-1)K

nN

K

Muestreo Probabilístico Muestreo Sistemático

Ejemplo: De la población de 456 alumnos del curso de bioestadística 2012 se requiere

una muestra de 10 alumnos.

Marco muestral: lista de alumnos del curso de bioestadística 2012

Relación de muestreo: redondear K=46

Intervalo de selección entre 1 y 46.

Se elige al azar el arranque aleatorio r=20. Se tendrá la siguiente muestra:

20 20+46 20+2x46 20+3x46 ...20+9x46

20 66 112 158 204 250 296 342 388 434

De la lista de 456 alumnos, la muestra estará compuesta por los alumnos:

Muestreo Probabilístico Muestreo Sistemático

45.610

456

n

NK

Nº ALUMNO

20 ALVARO CASAÑO, MARJORAIN CLAIRE

66 CALLUPE ORE, NURIA NELLY

112 CUEVA SEVIERI, HEBER ENRIQUE

158 GARATE PORTILLA, JORGE LUIS

204 HURTADO ROJAS, ZARELA ARIADNE

250 MENDOZA SEPUT, JOSE MIGUEL

296 PAREJA MALDONADO, RUTH

342 RODRIGUEZ DE PIEROLA, JORGE LUIS

388 SULCA HERNANDEZ, BETHSY ELIZABETH

434 VENTOSILLA PORTOCARRERO, INGRID

Representación gráfica del Muestreo Sistemático



N

n

K=N/n=40/8=5

Arranque aleatorio r=1 (número entre 1 y 5).



Se utiliza cuando la población es heterogénea.

Consiste en considerar categorías típicas diferentes entre sí

(estratos) que poseen gran homogeneidad respecto a alguna

característica.

Cada estrato funciona independientemente, pudiendo aplicarse

dentro de ellos el muestreo aleatorio simple para elegir los

elementos que formarán parte de la muestra.

Ejemplo:

Se puede estratificar según la profesión, el municipio de residencia,

el género, el estado civil, etc.



Representación gráfica del Muestreo Estratificado

N



Estratos

n

Se utiliza cuando la población es heterogénea.

Consiste en dividir el conjunto de elementos en subconjuntos

llamados conglomerados, internamente heterogéneos en

relación a la variable en estudio pero son parecidos entre sí, al

comparar varios conglomerados.

Una vez dividida la población en “N” conglomerados, se escoge en

forma aleatoria “n” de ellos y se estudian todos sus elementos.

Ejemplo:

Son conglomerados las ciudades de un país, las manzanas de una

ciudad, o las viviendas de las manzanas, etc.



Representación gráfica del Muestreo por Conglomerados

N

n



También llamadas muestras dirigidas o intencionales.

Las unidades muestrales no se seleccionan al azar, se basa en el criterio

subjetivo del investigador.

Con este método no se puede elegir muestras representativas y no se

pueden hacer las inferencias estadísticas respectivas, porque no se

puede cuantificar el error muestral.

Sólo se puede usar para un estudio preliminar, piloto o exploratorio.

Inferencia Estadística

Muestreo

Población (N) Muestra (n)

Muestreo empírico o no probabilístico

Accidental: Ejemplo: Inclusión de los pacientes a

medida que van acudiendo a la consulta.

Por Conveniencia: Ejemplos: un profesor que realiza una investigación en una

universidad puede usar estudiantes voluntarios; los grupos focales.

Por Cuotas: Se fijan unas "cuotas“, número de individuos que reúnen unas

determinadas condiciones.

Ejemplo: Seleccionar 50 estudiantes que hayan cursado el cuarto ciclo de

Medicina Humana y que tengan un promedio mayor de 15. Se eligen a los

primeros 50 que cumplan con estas condiciones.

Se utiliza para realizar encuestas de opinión y mercado.

De Bola de nieve: Los miembros de la población en estudio se conocen entre sí.

Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros,

hasta conseguir una muestra suficiente.

Ejemplo: Cuando se desea estudiar grupos con problemas de alcoholismo,

drogadicción, etc., que son de difícil acceso.

Muestreo empírico o no

probabilístico

PARA REFORZAR LO

APRENDIDO

RESOLVER LOS

PROBLEMAS

DE LA GUÍA DE

TRABAJO.

muestreo 2015

Documents