aula 10 planejamento da amostra

47
Planejamento da amostra

Upload: ariel-renno-chaves

Post on 14-Dec-2014

7.427 views

Category:

Documents


10 download

DESCRIPTION

 

TRANSCRIPT

Planejamento da amostra

População infinita

Como definir o tamanho da amostra?

• é o desvio padrão da população;

• é a margem de erro ou erro amostral, isto é, a diferença entre o resultado amostral e o verdadeiro valor populacional, identifica a diferença máxima entre a média amostral X e a média populacional .

• z/2 é o valor crítico que indica o grau de confiança desejado

2

2/

zn

E se não for conhecido?

• Duas soluções:

1) Utiliza-se uma aproximação:

é a amplitude da variável estudada.

2) Realizar um estudo piloto, iniciando o processo de amostragem.

Se forem coletados aleatoriamente pelo menos 31 valores amostrais, calcular o desvio-padrão amostral S e utilizá-lo em lugar de , neste caso utiliza-se z/2.

Se forem coletados menos de 31 valores amostrais, calcular o desvio-padrão amostral S e utilizá-lo em lugar de , neste caso utiliza-se t.

4

• Em que:

• N é o tamanho da população

• é o desvio padrão populacional

• Z/2 é o grau de confiança obtido da tabela da normal padrão

• é o erro amostral.

Obs: Se não for conhecido vale a proposição anterior.

População finita

2

2/

22

2

2/

2

)1(

zN

zNn

• A amostragem estratificada usa informação à priori para dividir a população em subgrupos internamente mais homogêneos. Cada subgrupo (estrato) é então amostrado por amostragem aleatória simples.

• Os estratos podem ser definidos com base em diversos fatores, tais como, topografia, fronteiras políticas, estradas, rios, características humanas, dependendo do contexto do problema, e tendo em atenção a variabilidade daqueles fatores em termos temporais ou espaciais.

Amostragem estratificada

• Seja N o número total de indivíduos na população.

• Esses N indivíduos são divididos em Li estratos de forma que a variância dentro dos estratos é menorque a variância da população.

• Cada estrato será composto por n’ elementos.

• Os n’ são escolhidos de acordo com um critério pré estabelecido, tais como, tamanho dos estrados, custo de operação, por uma margem de erro pré-estabelecida, etc.

Amostragem estratificada

• Para determinar n’ de acordo com o tamanho do estrato, primeiro determina-se uma amostra aleatória simples (para população finita ou infinita):

• Depois determina-se um peso para cada estrato dado por:

• Em que Ni é o tamanho do estrato i e N é o tamanho da população

Tamanho do estrato

2

2/

22

2

2/

2

)1(

zN

zNn

2

2/

zn

N

NW i

i

• Determina-se n’i fazendo:

• Se o desvio padrão da população não for conhecido, utiliza-se os critério descritos anteriormente para estimá-lo.

Tamanho do estrato

nWn ii '

Exemplo

• Deseja-se estudar a renda da população da cidade de Itajubá. Sabe-se que a população tem 92.000 habitantes e que essa população está dividida em três áreas: rural, industrial e residencial com 10.000, 5.000, 77.000 habitantes respectivamente. A renda da cidade varia de R$450,00 a R$ 10.000. Qual é o tamanho da amostra que deveremos coletar, para que com 90% de confiança, representemos adequadamente a renda média da população de Itajubá? (Margem de erro R$250,00)

• Estimando desvio padrão:

=(10.000-450)/4= 2387,5

• População finita:

• População infinita

65,24464,15,2387250)192000(

64,15,2387*92000222

22

n

30,245250

5,2387*64,12

n

Determinando a amostra por estrato

Estrato N Wi n'i

Rural 10000 0.1086957 27

Industrial 5000 0.0543478 13

Residencial 77000 0.8369565 205

Total 92000 1 245

• Para determinar o tamanho da amostra a ser sorteada utiliza-se para população infinita:

• Em que W é o peso de cada estrato, i é o desvio padrão do estrato i, é o erro amostral e z/2 é o grau de confiança.

Margem de erro pré-estabelecida

2

1

22

2/

L

i

iiWz

n

• Para determinar o tamanho da amostra a ser sorteada utiliza-se para população finita:

• Em que W é o peso de cada estrato, i é o desvio padrão do estrato i, é o erro amostral e z/2 é o grau de confiança.

Margem de erro pré-estabelecida

2

1

22

2/

2

1

22

2/

1

L

i

ii

L

i

ii

Wz

N

Wz

n

• Determina-se n’i fazendo:

• Desta forma considera-se que todos os estratos tem o mesmo desvio padrão.

• Se os desvios padrão forem diferentes para cada estrato:

Margem de erro pré-estabelecida

nWn ii '

L

i

ii

iii

W

nWn

1

'

• Para determinar o tamanho da amostra a ser sorteada utiliza-se:

• Em que Ci é o custo por unidade no estrato i, C0 é o orçamento disponível, Wi é o peso do estrato i, i é o desvio padrão do estrato i e z/2 é o grau de confiança.

Custo pré determinado

L

i i

ii

L

i i

ii

C

W

C

WzC

n

1

1

2

2/0

• Determina-se n’i fazendo:

• Desta forma considera-se que todos os estratos tem o mesmo desvio padrão e mesmo custo de serem amostrados.

• Se os desvios padrão forem diferentes para cada estrato, mas tiverem o mesmo custo:

Custo pré determinado

nWn ii '

L

i

ii

iii

W

nWn

1

'

• Se os desvios padrão e os custos por unidade dos estratos forem diferentes, tem-se :

• Caso o desvio padrão não seja conhecido, é necessário utilizar um dos procedimentos descritos anteriormente.

Custo pré determinado

L

i i

ii

i

ii

i

C

W

C

Wn

n

1

'

• Amostragem sistemática

• Amostragem por quotas

• Amostragem por conglomerados

• Amostragem em múltiplos estágios.

Outros procedimentos amostrais

Inferência Estatística

Definição:

População é a função de probabilidade, no caso discreto, ou função densidade de probabilidade, no caso contínuo, de uma variável aleatória X, que modela uma característica de interesse.

Estatísticas e parâmetros

Depois de obtida uma amostra, desejamos usá-la para produzir alguma característica de interesse, por exemplo, calcular a média da amostra (X1, X2,...,Xn).

A média é um exemplo de estatística.

)(1

21 nXXXn

X

Estatísticas e parâmetros

Uma estatística descreve uma característica da AMOSTRA, ou seja, uma estatística T é uma função de X1, X2,...,Xn

n

X

X

n

i

i 1

1

)(1

2

2

n

XX

S

n

i

i

),,,min( 21)1( nXXXX

),,,max( 21)( nn XXXX

Estatísticas e parâmetros

Um parâmetro é uma medida usada para descrever um característica da POPULAÇÃO.

][XE ][2 XVar

Estatísticas e parâmetros

Distribuições amostrais

Considere uma amostra aleatória de n elementos sorteados da população.

Nossa afirmação será baseada numa estatística T, que será função da amostra (X1, X2, ..., Xn ).

Na amostra observamos um particular valor de T, que chamaremos de t0, e com base nesse valor, fazemos afirmações sobre um parâmetro (da população).

Distribuições amostrais

A validade de nossas afirmações é melhor compreendida quando sabemos o comportamento (distribuição) de T.

Isso acontece quando retiramos todas as possíveis amostras de tamanho n da população

Denominado de distribuição amostral da estatística T.

Distribuições amostrais

Esquematicamente, temos:

– Uma população X, com determinado parâmetro de interesse ;

– Todas as amostras retiradas da população, de acordo com certo procedimento (AAS);

– Para cada amostra, calculamos o valor t0 da estatística T; e,

– Os valores t formam uma nova população, cuja distribuição recebe o nome de distribuição amostral de T.

Distribuições amostrais

Exemplo: Considere a população {1,3,5,7}Definimos a variável X: valor assumido pelo elemento da população.

A distribuição de X é dada por:

Considere agora todas as amostras possíveis de tamanho 2 com reposição desta população. Indicamos por X1 o número selecionado na primeira extração e por X2 na segunda.

x 1 3 5 7

P(X = x) 1/4 1/4 1/4 1/4

Distribuições amostrais

Qual a distribuição conjunta de (X1, X2)?

1 3 5 7 Total

1

3

5

7

Total

X1

X2 1 3 5 7 Total

1 1/4*1/4=1/16 1/16 1/16 1/16 4/16

3 1/16 1/16 1/16 1/16 4/16

5 1/16 1/16 1/16 1/16 4/16

7 1/16 1/16 1/16 1/16 4/16

Total 4/16 4/16 4/16 4/16 1

Distribuições amostrais

Qual a distribuição da estatística ?

Quando a amostra selecionada é o par (1,1) a média será . , então a P( =1)=1/16

Quando a média é igual a três temos os eventos (5,1),(3,3),(1,5)

Logo P( =3)=1/16+1/16+1/16 = 3/16

2

21 XXX

X

X

12

11

Distribuições amostrais

Distribuição amostral da estatística T

Gráfico da função de probabilidade e função de distribuição:

1 2 3 4 5 6 7 Total

P( = x)

X

X

1 2 3 4 5 6 7 Total

P( = x) 1/16 3/16

1 2 3 4 5 6 7 Total

P( = x) 1/16 2/16 3/16 4/16 3/16 2/16 1/16 1

Distribuições amostrais

A população {1,3,5,7} tem média =4 e variância 2=5.

A média da distribuição amostral de T é:

416

64

16

17

16

33

16

22

16

11][

1

n

i

ii pxXE

5,2165,18][][][ 22

XEXEXVar

Distribuições amostrais

A média das médias amostrais coincide com a média da população e a variância da média é igual a variância de X dividida por n=2.

Exercício: Encontre a distribuição amostral de S2

1

)(1

2

2

n

XX

S

n

i

i

Distribuições amostrais

1o passo:

Calcular a estatística S2 para todas as amostras de dois elementos (X1,X2).

S2 1 3 5 7

1 0 2 8 18

3 2 0 2 8

5 8 2 0 2

7 18 8 2 0

Distribuições amostrais

2o passo:

Calcular a distribuição de S2:

Quando trabalhamos com populações identificadas por distribuição de probabilidades, não podemos gerar todas as amostras possíveis. É necessário determinar propriedades mais gerais

S2 0 2 8 18

P(S2 = x) 4/16 6/16 4/16 2/16

Distribuições amostral da média

Considere uma variável aleatória X cujos parâmetros são a média populacional e 2 a variância populacional.

Temos as propriedades:

Teorema do limite central

• O teorema central do limite é muito importante, pois permite utilizar a distribuição normal para realizar inferências da média amostral, seja qual for a forma da distribuição da população.

Teorema do limite central

Quanto maior for o tamanho n da amostra, mais a média amostral se aproximará da média da população.

As propriedades da distribuição amostral asseguram que a média de uma amostra é uma boa estatística para inferir sobre a média da população da qual foi extraída.

Ao mesmo tempo, o teorema do limite central estabelece que se o tamanho da amostra n for suficientemente grande a distribuição da média amostral será normal, qualquer que seja a forma da distribuição da população.

Portanto, o teorema do limite central permite aplicar a distribuição normal para obter respostas da média de uma amostra de tamanho suficientemente grande retirada de uma população qualquer.

Teorema do limite central

O desvio padrão da distribuição das médias amostrais diminui quando aumenta o tamanho da amostra n.

Isso significa que à medida que n aumenta e mais informações são utilizadas, a média da amostra se aproxima da média da população, como pode-se ver na expressão do desvio padrão.

nX

Desvio padrão amostral

O desvio padrão é conhecido como erro amostral.

Considere uma população em que a proporção de indivíduos portadores de uma característica é p. Então define-se a variável aleatória X:

X tem distribuição de Bernoulli, com média =p e variância 2=p(1-p)

Distribuição amostral de uma proporção

0

1X

se o indivíduo for portador da característica

se o indivíduo NÃO for portador da característica

Retirando uma AAS de tamanho n dessa população, e indicando por Yn o total de indivíduos portadores da característica na amostra:

Yn ~ Bin(n,p)

A proporção de indivíduos portadores da característica na amostra é definida por:

Distribuição amostral de uma proporção

n

Yp nˆ

Estatística T:

• De acordo com o teorema do limite central a distribuição amostral de p pode ser aproximada pela distribuição normal

Distribuição amostral de uma proporção

nNp

2

,~ˆ

n

pppNp

)1(,~ˆ

Exercício 1

Exercício 2• O número de divórcios, por indivíduo adulto casado, em certa

comunidade, foi modelado pela variável aleatória D, cuja função de probabilidade é apresentada a seguir:

• Uma amostra, representada por (D1,D2), foi sorteada com dois indivíduos e as seguintes estatísticas para média de divórcios foram consideradas:

• Para cada estatística obtenha sua distribuição de probabilidade.

• Construa o histograma e o gráfico da função de distribuição.

D 0 1 2 3

P(D=x) 0,5 0,4 0,05 0,05

minmax2211 DD

Exercício 3

• Uma variável aleatória assume quatro valores (-2, -1, 1, 2) com igual probabilidade. Para amostras de tamanho dois, obtenha a distribuição de S2 e verifique se ele é não viesado.

Exercício 4

Exercício 4

• Uma variável de Bernoulli com probabilidade de sucesso p é amostrada, de forma independente, duas vezes.

• Apresente a função de probabilidade da média amostral.