Download - Aula 10 planejamento da amostra
População infinita
Como definir o tamanho da amostra?
• é o desvio padrão da população;
• é a margem de erro ou erro amostral, isto é, a diferença entre o resultado amostral e o verdadeiro valor populacional, identifica a diferença máxima entre a média amostral X e a média populacional .
• z/2 é o valor crítico que indica o grau de confiança desejado
2
2/
zn
E se não for conhecido?
• Duas soluções:
1) Utiliza-se uma aproximação:
é a amplitude da variável estudada.
2) Realizar um estudo piloto, iniciando o processo de amostragem.
Se forem coletados aleatoriamente pelo menos 31 valores amostrais, calcular o desvio-padrão amostral S e utilizá-lo em lugar de , neste caso utiliza-se z/2.
Se forem coletados menos de 31 valores amostrais, calcular o desvio-padrão amostral S e utilizá-lo em lugar de , neste caso utiliza-se t.
4
• Em que:
• N é o tamanho da população
• é o desvio padrão populacional
• Z/2 é o grau de confiança obtido da tabela da normal padrão
• é o erro amostral.
Obs: Se não for conhecido vale a proposição anterior.
População finita
2
2/
22
2
2/
2
)1(
zN
zNn
• A amostragem estratificada usa informação à priori para dividir a população em subgrupos internamente mais homogêneos. Cada subgrupo (estrato) é então amostrado por amostragem aleatória simples.
• Os estratos podem ser definidos com base em diversos fatores, tais como, topografia, fronteiras políticas, estradas, rios, características humanas, dependendo do contexto do problema, e tendo em atenção a variabilidade daqueles fatores em termos temporais ou espaciais.
Amostragem estratificada
• Seja N o número total de indivíduos na população.
• Esses N indivíduos são divididos em Li estratos de forma que a variância dentro dos estratos é menorque a variância da população.
• Cada estrato será composto por n’ elementos.
• Os n’ são escolhidos de acordo com um critério pré estabelecido, tais como, tamanho dos estrados, custo de operação, por uma margem de erro pré-estabelecida, etc.
Amostragem estratificada
• Para determinar n’ de acordo com o tamanho do estrato, primeiro determina-se uma amostra aleatória simples (para população finita ou infinita):
• Depois determina-se um peso para cada estrato dado por:
• Em que Ni é o tamanho do estrato i e N é o tamanho da população
Tamanho do estrato
2
2/
22
2
2/
2
)1(
zN
zNn
2
2/
zn
N
NW i
i
• Determina-se n’i fazendo:
• Se o desvio padrão da população não for conhecido, utiliza-se os critério descritos anteriormente para estimá-lo.
Tamanho do estrato
nWn ii '
Exemplo
• Deseja-se estudar a renda da população da cidade de Itajubá. Sabe-se que a população tem 92.000 habitantes e que essa população está dividida em três áreas: rural, industrial e residencial com 10.000, 5.000, 77.000 habitantes respectivamente. A renda da cidade varia de R$450,00 a R$ 10.000. Qual é o tamanho da amostra que deveremos coletar, para que com 90% de confiança, representemos adequadamente a renda média da população de Itajubá? (Margem de erro R$250,00)
• Estimando desvio padrão:
=(10.000-450)/4= 2387,5
• População finita:
• População infinita
65,24464,15,2387250)192000(
64,15,2387*92000222
22
n
30,245250
5,2387*64,12
n
Determinando a amostra por estrato
Estrato N Wi n'i
Rural 10000 0.1086957 27
Industrial 5000 0.0543478 13
Residencial 77000 0.8369565 205
Total 92000 1 245
• Para determinar o tamanho da amostra a ser sorteada utiliza-se para população infinita:
• Em que W é o peso de cada estrato, i é o desvio padrão do estrato i, é o erro amostral e z/2 é o grau de confiança.
Margem de erro pré-estabelecida
2
1
22
2/
L
i
iiWz
n
• Para determinar o tamanho da amostra a ser sorteada utiliza-se para população finita:
• Em que W é o peso de cada estrato, i é o desvio padrão do estrato i, é o erro amostral e z/2 é o grau de confiança.
Margem de erro pré-estabelecida
2
1
22
2/
2
1
22
2/
1
L
i
ii
L
i
ii
Wz
N
Wz
n
• Determina-se n’i fazendo:
• Desta forma considera-se que todos os estratos tem o mesmo desvio padrão.
• Se os desvios padrão forem diferentes para cada estrato:
Margem de erro pré-estabelecida
nWn ii '
L
i
ii
iii
W
nWn
1
'
• Para determinar o tamanho da amostra a ser sorteada utiliza-se:
• Em que Ci é o custo por unidade no estrato i, C0 é o orçamento disponível, Wi é o peso do estrato i, i é o desvio padrão do estrato i e z/2 é o grau de confiança.
Custo pré determinado
L
i i
ii
L
i i
ii
C
W
C
WzC
n
1
1
2
2/0
• Determina-se n’i fazendo:
• Desta forma considera-se que todos os estratos tem o mesmo desvio padrão e mesmo custo de serem amostrados.
• Se os desvios padrão forem diferentes para cada estrato, mas tiverem o mesmo custo:
Custo pré determinado
nWn ii '
L
i
ii
iii
W
nWn
1
'
• Se os desvios padrão e os custos por unidade dos estratos forem diferentes, tem-se :
• Caso o desvio padrão não seja conhecido, é necessário utilizar um dos procedimentos descritos anteriormente.
Custo pré determinado
L
i i
ii
i
ii
i
C
W
C
Wn
n
1
'
• Amostragem sistemática
• Amostragem por quotas
• Amostragem por conglomerados
• Amostragem em múltiplos estágios.
Outros procedimentos amostrais
Inferência Estatística
Definição:
População é a função de probabilidade, no caso discreto, ou função densidade de probabilidade, no caso contínuo, de uma variável aleatória X, que modela uma característica de interesse.
Estatísticas e parâmetros
Depois de obtida uma amostra, desejamos usá-la para produzir alguma característica de interesse, por exemplo, calcular a média da amostra (X1, X2,...,Xn).
A média é um exemplo de estatística.
)(1
21 nXXXn
X
Estatísticas e parâmetros
Uma estatística descreve uma característica da AMOSTRA, ou seja, uma estatística T é uma função de X1, X2,...,Xn
n
X
X
n
i
i 1
1
)(1
2
2
n
XX
S
n
i
i
),,,min( 21)1( nXXXX
),,,max( 21)( nn XXXX
Estatísticas e parâmetros
Um parâmetro é uma medida usada para descrever um característica da POPULAÇÃO.
][XE ][2 XVar
Distribuições amostrais
Considere uma amostra aleatória de n elementos sorteados da população.
Nossa afirmação será baseada numa estatística T, que será função da amostra (X1, X2, ..., Xn ).
Na amostra observamos um particular valor de T, que chamaremos de t0, e com base nesse valor, fazemos afirmações sobre um parâmetro (da população).
Distribuições amostrais
A validade de nossas afirmações é melhor compreendida quando sabemos o comportamento (distribuição) de T.
Isso acontece quando retiramos todas as possíveis amostras de tamanho n da população
Denominado de distribuição amostral da estatística T.
Distribuições amostrais
Esquematicamente, temos:
– Uma população X, com determinado parâmetro de interesse ;
– Todas as amostras retiradas da população, de acordo com certo procedimento (AAS);
– Para cada amostra, calculamos o valor t0 da estatística T; e,
– Os valores t formam uma nova população, cuja distribuição recebe o nome de distribuição amostral de T.
Distribuições amostrais
Exemplo: Considere a população {1,3,5,7}Definimos a variável X: valor assumido pelo elemento da população.
A distribuição de X é dada por:
Considere agora todas as amostras possíveis de tamanho 2 com reposição desta população. Indicamos por X1 o número selecionado na primeira extração e por X2 na segunda.
x 1 3 5 7
P(X = x) 1/4 1/4 1/4 1/4
Distribuições amostrais
Qual a distribuição conjunta de (X1, X2)?
1 3 5 7 Total
1
3
5
7
Total
X1
X2 1 3 5 7 Total
1 1/4*1/4=1/16 1/16 1/16 1/16 4/16
3 1/16 1/16 1/16 1/16 4/16
5 1/16 1/16 1/16 1/16 4/16
7 1/16 1/16 1/16 1/16 4/16
Total 4/16 4/16 4/16 4/16 1
Distribuições amostrais
Qual a distribuição da estatística ?
Quando a amostra selecionada é o par (1,1) a média será . , então a P( =1)=1/16
Quando a média é igual a três temos os eventos (5,1),(3,3),(1,5)
Logo P( =3)=1/16+1/16+1/16 = 3/16
2
21 XXX
X
X
12
11
Distribuições amostrais
Distribuição amostral da estatística T
Gráfico da função de probabilidade e função de distribuição:
1 2 3 4 5 6 7 Total
P( = x)
X
X
1 2 3 4 5 6 7 Total
P( = x) 1/16 3/16
1 2 3 4 5 6 7 Total
P( = x) 1/16 2/16 3/16 4/16 3/16 2/16 1/16 1
Distribuições amostrais
A população {1,3,5,7} tem média =4 e variância 2=5.
A média da distribuição amostral de T é:
416
64
16
17
16
33
16
22
16
11][
1
n
i
ii pxXE
5,2165,18][][][ 22
XEXEXVar
Distribuições amostrais
A média das médias amostrais coincide com a média da população e a variância da média é igual a variância de X dividida por n=2.
Exercício: Encontre a distribuição amostral de S2
1
)(1
2
2
n
XX
S
n
i
i
Distribuições amostrais
1o passo:
Calcular a estatística S2 para todas as amostras de dois elementos (X1,X2).
S2 1 3 5 7
1 0 2 8 18
3 2 0 2 8
5 8 2 0 2
7 18 8 2 0
Distribuições amostrais
2o passo:
Calcular a distribuição de S2:
Quando trabalhamos com populações identificadas por distribuição de probabilidades, não podemos gerar todas as amostras possíveis. É necessário determinar propriedades mais gerais
S2 0 2 8 18
P(S2 = x) 4/16 6/16 4/16 2/16
Distribuições amostral da média
Considere uma variável aleatória X cujos parâmetros são a média populacional e 2 a variância populacional.
Temos as propriedades:
• O teorema central do limite é muito importante, pois permite utilizar a distribuição normal para realizar inferências da média amostral, seja qual for a forma da distribuição da população.
Teorema do limite central
Quanto maior for o tamanho n da amostra, mais a média amostral se aproximará da média da população.
As propriedades da distribuição amostral asseguram que a média de uma amostra é uma boa estatística para inferir sobre a média da população da qual foi extraída.
Ao mesmo tempo, o teorema do limite central estabelece que se o tamanho da amostra n for suficientemente grande a distribuição da média amostral será normal, qualquer que seja a forma da distribuição da população.
Portanto, o teorema do limite central permite aplicar a distribuição normal para obter respostas da média de uma amostra de tamanho suficientemente grande retirada de uma população qualquer.
Teorema do limite central
O desvio padrão da distribuição das médias amostrais diminui quando aumenta o tamanho da amostra n.
Isso significa que à medida que n aumenta e mais informações são utilizadas, a média da amostra se aproxima da média da população, como pode-se ver na expressão do desvio padrão.
nX
Desvio padrão amostral
O desvio padrão é conhecido como erro amostral.
Considere uma população em que a proporção de indivíduos portadores de uma característica é p. Então define-se a variável aleatória X:
X tem distribuição de Bernoulli, com média =p e variância 2=p(1-p)
Distribuição amostral de uma proporção
0
1X
se o indivíduo for portador da característica
se o indivíduo NÃO for portador da característica
Retirando uma AAS de tamanho n dessa população, e indicando por Yn o total de indivíduos portadores da característica na amostra:
Yn ~ Bin(n,p)
A proporção de indivíduos portadores da característica na amostra é definida por:
Distribuição amostral de uma proporção
n
Yp nˆ
Estatística T:
• De acordo com o teorema do limite central a distribuição amostral de p pode ser aproximada pela distribuição normal
Distribuição amostral de uma proporção
nNp
2
,~ˆ
n
pppNp
)1(,~ˆ
p̂
Exercício 2• O número de divórcios, por indivíduo adulto casado, em certa
comunidade, foi modelado pela variável aleatória D, cuja função de probabilidade é apresentada a seguir:
• Uma amostra, representada por (D1,D2), foi sorteada com dois indivíduos e as seguintes estatísticas para média de divórcios foram consideradas:
• Para cada estatística obtenha sua distribuição de probabilidade.
• Construa o histograma e o gráfico da função de distribuição.
D 0 1 2 3
P(D=x) 0,5 0,4 0,05 0,05
minmax2211 DD
Exercício 3
• Uma variável aleatória assume quatro valores (-2, -1, 1, 2) com igual probabilidade. Para amostras de tamanho dois, obtenha a distribuição de S2 e verifique se ele é não viesado.