parÂmetros de tÓpico variÁveis e distribuiÇÕes · 31 parÂmetros de variÁveis e...

25
PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 TÓPICO Gregório Ceccantini LICENCIATURA EM CIÊNCIAS · USP/ UNIVESP 2.1 Parâmetros de variáveis e distribuições 2.2 Medidas de tendência central: moda, média e mediana 2.3 Medidas de variação: amplitude, desvio padrão, variância, coeficiente de variação 2.4 Estudo de distribuições 2.4.1 Distribuição Normal Ou Gaussiana 2.4.2 Distribuição t 2.5 Cálculo de número amostral mínimo - n

Upload: buidien

Post on 12-Feb-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES2 TÓ

PICO

Gregório Ceccantini

Licenciatura em ciências · USP/ Univesp

2.1 Parâmetros de variáveis e distribuições2.2 Medidas de tendência central: moda, média e mediana2.3 Medidas de variação: amplitude, desvio padrão, variância, coeficiente de variação2.4 Estudo de distribuições

2.4.1 Distribuição Normal Ou Gaussiana2.4.2 Distribuição t

2.5 Cálculo de número amostral mínimo - n

Page 2: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

28

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

2.1 Parâmetros de variáveis e distribuiçõesJá ficou claro que o estudo da distribuição pode ajudar a entender como uma variável se

comporta. Apesar disso, a elaboração de uma distribuição não é um processo muito prático, a

menos que se disponha de um computador com programa estatístico. Do contrário, a elaboração

de distribuições é um processo tedioso e demorado. Por isso são usados cálculos matemáticos

que permitem entender características das distribuições sem precisar desenhar os histogramas.

Para isso são usados descritores, chamados genericamente de “parâmetros”. Alguns deles são

muito familiares no nosso vocabulário, de forma que nem nos damos conta de que eles são de

fato parâmetros estatísticos. São exemplos: a média e a moda – outros menos conhecidos são o

desvio padrão e o coeficiente de variação.

Comumente escutamos as pessoas falando ou lemos que para entender um problema ou uma

questão científica serão escolhidos parâmetros para a avaliação, ou algo similar. Nesses casos, há um

erro conceitual importante no qual se confundem as variáveis e os parâmetros. As variáveis são os

elementos que podem ser escolhidos para serem avaliados, como descrito no tópico 1 (Figura

1.2 e gráfico 1.1), enquanto os parâmetros são resultados de cálculos feitos com os dados da

população ou das amostras tomadas (média, mediana, desvio padrão, variância) explicados a seguir.

Algo que pode causar alguma estranheza ou confusão ao consultar livros de estatística é o fato

de que os parâmetros vêm representados por diversas letras, às vezes letras gregas. Por convenção, os

parâmetros mencionados como letras romanas (M, X, s) são parâmetros de amostras. Já os mesmos

parâmetros representados por letras gregas, referem-se a toda a população (µ, s). Em geral a média

da amostra é representada por X e a média da população por µ (mi). O desvio padrão amostral por

“s” e o desvio padrão da população por s (sigma). Vejamos agora como são feitos esses cálculos.

2.2 Medidas de tendência central: moda, média e mediana

Formalmente, são reconhecidas como medidas de tendência central de uma distribuição a

moda, a média, e a mediana.

A moda é um parâmetro estatístico cujo nome se confunde com a fala coloquial. No nosso

quotidiano, quando dizemos que algo está “na moda”, no senso comum, no fundo, estamos

Page 3: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

29

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

replicando o senso estatístico de que algo na moda é algo que é usado por grande número de

pessoas naquele momento. Formalmente, a moda é o valor que ocorre em maior frequência.

No gráfico 1.4, a moda é 26. O valor que ocorreu mais vezes.

Já a média (média aritmética) é uma medida muito usada e que até pode ter um significado

dúbio, pois esse nome tem uso muito coloquial. As pessoas se referem à média, mesmo quando

não estão usando formalmente o cálculo da média, mas quando querem se referir a um valor

intermediário. Também não deve ser confundida com a média ponderada, muitas vezes usada

por escolas que atribuem pesos a determinadas notas em bimestres e semestres. A média arit-

mética é o resultado do cálculo da somatória dos valores amostrados da variável, dividido pelo

número de amostragens, o n amostral.

A média é um parâmetro muito útil, mas ela é muito influenciada por valores extremos.

Por exemplo, se um ou dois alunos de uma turma tiram notas muito altas, isso influencia para

cima a média das notas da turma (geralmente desagradando aos colegas). Por esse motivo,

para certas comparações se usa a mediana, já que ela é uma medida geométrica que sofre

menos influência dos valores extremos. Além disso, é possível ter distribuições com variação

dos valores muito diferentes, mas com mesma média, ou média muito similar. Por esse motivo

para descrever bem uma distribuição, além da média, é importante usar além de uma medida

de tendência central, uma medida de dispersão, como o desvio padrão, a variância ou o

coeficiente de variação.

Como mencionado anteriormente, a média é um parâmetro muito útil, mas que pode ser

muito influenciado pelos valores extremos. Por outro lado, a mediana, que é um parâmetro

geométrico e não aritmético, pode ser usada para descrever uma distribuição de outra forma,

sem ser muito influenciada por valores muito altos ou muito baixos. Para o cálculo da mediana,

é necessário ordenar os dados coletados linearmente, em ordem crescente. No caso de número

Formalmente a média de uma variável A é: XA = (A1 + A

2 + A

3 + An) /n

ou

1niXA

n== Σ

Page 4: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

30

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

de dados ímpares, a mediana será o valor que está exatamente na metade da sequência. No caso

de números pares, a mediana será a média aritmética dos dois valores da posição mais central.

Por exemplo, num conjunto de dados de comprimentos de folhas de uma melastomatácea,

apresentado na tabela 2.1, a média calculada é de 161,4 mm, enquanto a mediana é 150. Isso

ocorre, pois a média é muito influenciada pelos valores das folhas 14 e 15, que são maiores

que 200 mm.

Folha 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Comprimento (mm)

100 109 125 132 146 148 148 150 157 163 173 175 197 218 280

Tabela 2.1: Medidas de folhas de Tibouchina granulosa (quaresmeira).

n = 15 Média = 2421/15 = 161,4 mm

Somatória = 2421 Mediana = 150 mm

Numa outra amostra (Tabela 2.2), com número par de exemplares medidos, para o cálculo

da mediana é necessário ordenar os dados e calcular a média dos valores centrais (128 e 134).

O resultado é 131 mm.

Folha 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Comprimento (mm)

88 94 96 112 114 115 128 134 138 144 146 151 154 182

Tabela 2.2: Medidas de folhas de Tibouchina granulosa (quaresmeira).

n = 14 Média = 1796/14 = 128,2857 mm

Somatória = 1796 Mediana = 131 mm

Page 5: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

31

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

2.3 Medidas de variação: amplitude, desvio padrão, variância, coeficiente de variação

Já sabemos que para conhecer um conjunto de dados de uma população, é muito útil saber

os pontos centrais da distribuição, como a média ou a mediana. A média é a medida de con-

centração mais usada no quotidiano e em trabalhos estatísticos, mas ela sozinha não é suficiente

para descrever bem uma população. Isso decorre do fato de ser possível ter várias amostras ou

populações com médias iguais, mas com variações muito diferentes.

Vejamos o exemplo das amostras na tabela 2.3 abaixo, que mostra os resultados de germi-

nação após 15 dias de cinco amostras tomadas de cinco diferentes lotes de sementes colocadas

para germinar. Nesse exemplo, os cinco lotes de semente tiveram comportamentos muito dife-

rentes, mas as médias de germinação foram iguais (40%).

Lotes Germinação (%) Média

Lote 1 40 40 40 40 40 40

Lote 2 60 30 35 50 25 40

Lote 3 30 45 40 40 45 40

Lote 4 20 0 40 100 40 40

Lote 5 0 100 0 0 100 40

Tabela 2.3: Porcentagem de germinação de cinco lotes de sementes após 15 dias.

A tabela permite serem feitas algumas observações:

1. O lote 1 é muito homogêneo. Tem germinação 40% e as amostras não variaram;

2. O lote 2 tem alguma variação, mas esta é bem menor que a do lote 4 e menor ainda

que a do lote 5;

3. O lote 3 tem uma variação um pouco maior que a do lote 1, mas bem menor que a

do lote 2.

4. O lote 5 varia muito, tem várias amostras com viabilidade nula (0%) e duas com viabi- várias amostras com viabilidade nula (0%) e duas com viabi- e duas com viabi-

lidade total (100%).

Essa variação é explicitada numericamente já na abordagem sobre amplitude logo abaixo.

Page 6: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

32

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

Assim, a média amostral só é um bom descritor da concentração dos dados e da média da

população quando a sua variação é pequena. Por isso, para estudar uma variável de interesse,

também são usados outros parâmetros que trazem informações sobre a dispersão dos valores.

Genericamente eles são chamados de medidas de dispersão ou de variação. São eles: a amplitu-

de, a variância, o desvio padrão e o coeficiente de variação.

Intervalo de variação e Amplitude

O intervalo de variação nada mais é que o intervalo compreendido pelo valor mínimo e

máximo que exibe a variável. Já a amplitude é o resultado da subtração entre o máximo e o

mínimo. No caso do exemplo de germinação, a amplitude varia bastante, desde nula no lote 1

até de 100% nos lotes 4 e 5, conforme mostra a tabela 2.4.

Lotes Amplitude

Lote 1 0

Lote 2 30

Lote 3 15

Lote 4 100

Lote 5 100

Tabela 2.4: Amplitudes de variação entre os lotes de sementes.

Nota-se que a amplitude ajuda a descrever melhor a variação, mas os lotes 4 e 5 apresentam

resultados contrastantes, entretanto, sua amplitude e média são as mesmas. Para compreender

melhor a variação é necessário recorrer a outros parâmetros que são a variância e o desvio padrão.

Variância (s2 e s2)

A variância é uma expressão da variação dos valores ao redor da média da amostra ou da

população. Para calculá-la é preciso ter em conta os desvios que os valores individuais exibem

em relação à média. Esses desvios em relação à média resultam da subtração do valor mensurado

da amostra. Eles podem variar bastante. Essa variação é que se tem interesse em conhecer, entre-

tanto não é possível conhecer a variação média, pois a soma desses desvios em relação à média

Page 7: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

33

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

amostral é sempre zero (0). Consideremos os lotes do exemplo sobre germinação, conforme se

observa na tabela 2.5.

Germinação (%) - Média = 40Somatórias dos desvios

Lote 1 40 40 40 40 40

Desvio em relação à média 0 0 0 0 0 0

Lote 2 60 30 35 50 25

Desvio em relação à média 20 -10 -5 10 -15 0

Lote 3 30 45 40 40 45

Desvio em relação à média -10 5 0 0 5 0

Lote 4 20 0 40 100 40

Desvio em relação à média -20 -40 0 60 0 0

Lote 5 0 100 0 0 100

Desvio em relação à média 0 100 0 0 100 0

Tabela 2.5: Resultados de germinação e desvios em relação à média amostral.

Não importa o conjunto de dados, sempre a soma dos desvios em relação à média será zero,

por isso, para o cálculo da variância, usa-se o quadrado desses desvios, já que o quadrado de

qualquer valor é sempre positivo, ou no mínimo zero. Assim calcula-se a soma dos quadrados

dos desvios em relação à média. Observemos na tabela 2.6 o valor para a germinação das

sementes do lote 2.

Lote 2 60 30 35 50 25 Soma

Desvio em relação à Média

20 -10 -5 10 -15 0

Quadrado 400 100 25 100 225 850

Tabela 2.6A: Resultados de germinação e quadrados dos desvios em relação à média amostral.

Page 8: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

34

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

Para calcular a variância da amostra (s2) divide-se a soma dos quadrados dos desvios pelo

número de amostras menos 1 (n − 1), que é o número denominado como número de graus de

liberdade (g.l.). Para calcular a variância da população (s2) divide-se por n graus de liberdade.

Assim, a variância da amostra acima é s2 = 850/5 − 1 = 212,5

Visto como se calculam as variâncias, vamos ver a diferença entre os lotes de mesma média

novamente, com os dados apresentados na tabela 2.3, exibidos com as variâncias na tabela 2.7.

Formalmente, o cálculo da variância de uma variável A é então feito pela seguinte fórmula:

Onde s2 é a variância; A são os valores medidos da variável; x é a média amostral calculada da variável; e n é o número de amostras tomadas.Algebricamente, a equação pode ser reduzida a:

Assim fica mais fácil o cálculo, pois bastam os quadrados dos valores tomados e não mais os quadrados dos desvios. Usando o exemplo da tabela 2.6.

Soma

Lote 2 60 30 35 50 25 200

Quadrado 3600 900 1225 2500 625 8850

Tabela 2.6B

22 ( )

1A xSn

Σ −=

2 22

1A AS

nΣ − Σ

=−

22

2

( )

1

AAnS

n

ΣΣ −

=−

2

2

20088505 212,5

4S

−= =

Page 9: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

35

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

Lotes Germinação (%) MédiaVariância

(%2)Lote 1 40 40 40 40 40 40 0

Lote 2 60 30 35 50 25 40 212,5

Lote 3 30 45 40 40 45 40 37,5

Lote 4 20 0 40 100 40 40 1400

Lote 5 0 100 0 0 100 40 3000

Tabela 2.7: Resultados de germinação e variâncias.

5. O lote 1 tem todos os valores iguais, portanto variância igual a zero (0);

6. O lote 2 tem uma variância menor do que a média;

7. O lote 3 tem uma variação um pouco maior que a do lote 1, mais de cinco vezes

menor que a do lote 2;

8. O lote 5 tem uma variância muito grande.

Consideradas as variâncias, surgem duas dificuldades:

I. A variância é um número, por vezes, grande, difícil de entender quando se observam

os dados. O lote 4 tem variância 1400 e o lote 5 tem variância 3000. Afinal, o que isso

quer dizer em relação a uma média de 40%?;

II. Por consequências algébricas, durante os cálculos, todas as unidades de medidas referentes

às medidas são elevadas ao quadrado. Se as medidas originais são expressas em milímetros,

a variância é expressa em mm2; variável em mm2 implica em variância em mm4; massa

em gramas e variância em g2. Essas variáveis são difíceis de entender e manejar.

Em decorrência desses dois fatos usa-se a raiz quadrada da variância para a maioria das

análises. Essa raiz quadrada é o desvio padrão.

Desvio padrão (s ou s)

Como exposto acima, é difícil manejar os grandes números que alcançam algumas variâncias

e também é difícil operar com unidades elevadas ao quadrado. Assim, o desvio padrão nada mais

é que a raiz quadrada da variância. Podemos também expor o desvio padrão amostral, quando

Page 10: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

36

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

é calculado a partir de amostras tiradas da população, denominado “s”, e desvio padrão da

população denominado “s ”(sigma).

Nos casos acima da tabela 2.7, podemos calcular os desvios padrões amostrais, expressos na

tabela 2.8.

Lotes Germinação (%) MédiaVariância

(%2)Desvio

Padrão (%)Lote 1 40 40 40 40 40 40 0 0

Lote 2 60 30 35 50 25 40 212,5 14,58

Lote 3 30 45 40 40 45 40 37,5 6,12

Lote 4 20 0 40 100 40 40 1400 37,42

Lote 5 0 100 0 0 100 40 3000 54,77

Tabela 2.8: Resultados de germinação e variâncias e desvios padrões amostrais.

Mesmo considerando que o desvio padrão tem a mesma unidade da variável e que a sua

ordem de grandeza é a mesma da média, ainda assim, quando não se conhece bem a variável, é

um pouco difícil saber de imediato se a variação de uma amostra ou população é grande. Para

que isso fique mais fácil, é interessante avaliar o desvio padrão em relação ao tamanho da média.

Faz-se isso usando o coeficiente de variação.

Coeficiente de Variação (CV )

O coeficiente de variação (CV ) é o valor percentual do desvio padrão em relação à média.

Para calculá-lo, basta dividir o desvio pela média. Multiplicando-se por 100, obtém-se o resul-á-lo, basta dividir o desvio pela média. Multiplicando-se por 100, obtém-se o resul-, basta dividir o desvio pela média. Multiplicando-se por 100, obtém-se o resul-

tado em porcentagem.

CV = (s/X ) × 100

Page 11: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

37

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

Lotes Germinação (%) MédiaVariância

(%2)Desvio

Padrão (%)CV

Lote 1 40 40 40 40 40 40 0 0 0

Lote 2 60 30 35 50 25 40 212,5 14,58 36

Lote 3 30 45 40 40 45 40 37,5 6,12 15

Lote 4 20 0 40 100 40 40 1400 37,42 93

Lote 5 0 100 0 0 100 40 3000 54,77 137

Tabela 2.9: Resultados de germinação e variâncias e desvios padrões amostrais.

Observando os CVs apresentados na tabela 2.9 para o exemplo da germinação de sementes,

é possível obter uma interpretação bem mais fácil da variação. Observa-se, da mesma forma,

como explicado anteriormente, que:

1. A variação do lote 1 é nula. Essa situação é quase impossível de ser encontrada na

realidade. Quase só ocorre quando todos os valores são zero;

2. Os lotes 4 e 5 têm variação enorme, correspondendo a 93% e 137% da média, respec-

tivamente;

3. Os lotes 2 e 3 apresentam variações dispares, sendo o lote 3 da ordem de 15%, ou seja

é bem homogêneo, e o lote 2 tem uma variação considerável, visto que alcança 36%

da média.

2.4 Estudo de distribuiçõesVocê já entendeu como se realizam amostragens e como os resultados dessas amostragens

podem ser expressos na forma de histogramas de distribuição de frequências. As distribuições de

frequência, por serem muito úteis, já foram alvo de estudos muito aprofundados por parte dos

estatísticos desde o fim do século XIX e durante todo o século XX. Assim, há diversos padrões

de distribuição reconhecidos, dependendo do tipo de variável envolvida, e suas propriedades.

Quando se reconhece que a distribuição estudada é similar a algum desses padrões, diversas

características podem ser evidenciadas de forma fácil. Por isso é importante conhecer algumas

delas. Sem dúvida a mais importante é a “Distribuição Normal”, e outra muito útil é a distri-

buição da variável conhecida como “t”.

Page 12: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

38

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

2.4.1 Distribuição Normal Ou Gaussiana

Uma vez entendido como se estuda uma distribuição de valores de uma variável, é im-

portante conhecer as características de algumas distribuições muito conhecidas e estudadas.

Uma delas é a chamada distribuição normal. A distribuição normal, como toda distribuição

de probabilidades, apresenta a probabilidade de ocorrer cada valor possível para uma variável

aleatória. Ela é a distribuição de probabilidades mais familiar verificada em uma infinidade de

fenômenos, chegando a ser considerada a distribuição de probabilidades mais importante na

estatística e na natureza.

A distribuição normal pode ser verificada em variáveis diversas, como na altura das pessoas

de uma população, no tamanho das partes do corpo de qualquer espécie, no peso de animais,

na espessura do fio de cabelo, na área foliar de plantas de uma espécie etc.

A distribuição normal é verificada para variáveis aleatórias contínuas. Em vez de representá-la

graficamente por barras, ela é representada por uma curva. O exemplo do tópico anterior, onde

se verificou a idade dos moradores do entorno de uma praça, possui uma distribuição muito

próxima de ser uma distribuição normal.

O gráfico 2.1 mostra a semelhança da distribuição verificada no estudo de caso 4 no

tópico 1 (Gráfico 1.6) com a distribuição normal:

Page 13: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

39

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

Como é possível observar, a distribuição normal pressupõe uma grande frequência de valores

próximos ao valor da média (µ) dos dados da amostra. Se somarmos as idades dos moradores

(exemplo do tópico anterior, gráfico 2.1a) e dividirmos pelo número de moradores, temos a

idade média (µ) igual a 26,9 anos – mais um indício de que tal distribuição é normal. Conforme

os valores se afastam da média, tanto para mais ou para menos, eles ficam menos frequentes.

Se tomarmos como exemplo a altura da população masculina adulta de uma cidade qual-

quer, provavelmente verificaremos uma alta probabilidade de encontrarmos uma pessoa com

estatura próxima à média da população. Mas se procurarmos uma pessoa muito mais baixa do

que a média, teremos maior dificuldade, pois as pessoas com tal estatura serão menos frequentes.

O mesmo se dará se procurarmos pessoas muito altas, com mais de 2,00 m, por exemplo. Esta

Gráficos 2.1: Representação gráfica comparando a distribuição de frequência vista no exemplo tópico anterior (A) com a distribuição normal (B). / Fonte: Cepa.

A

B

Page 14: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

40

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

distribuição de probabilidade da variável altura da população masculina adulta da cidade tem

grande potencial se ser “normal”.

E sua representação gráfica é uma curva simétrica e em forma de sino (Gráfico 2.2):

Embora sua fórmula seja aparentemente complicada, basta repararmos que ela recebe in-

fluência apenas dos parâmetros descritivos, média (µ) e desvio padrão (s) da variável aleatória

em questão. Com apenas esses dados já é possível descrever uma curva normal. A média é

considerada o valor de maior probabilidade, e é sempre apresentada no eixo de simetria da

curva, no ponto central do eixo X, que representa os valores possíveis para a variável aleatória.

O outro parâmetro importante para esta distribuição, o “desvio padrão”, interfere na curva

normal de forma a ampliar ou reduzir a abertura do sino. Quando o “desvio padrão” é baixo,

consequentemente a variação dos dados é baixa, e seus valores tendem a concentrar mais pró-

ximos à média, resultando em uma curva mais fechada. No caso oposto, com grande variação

dos dados, é possível encontrar dados com valores mais distantes da média, o que faz com que

a curva normal seja mais aberta (Gráficos 2.3).

A curva da distribuição normal se ajusta à fórmula:2

2( )

2

2

1( , , )2

x

f x e −µ

− s µ s =πs

Gráfico 2.2: Representação gráfica de uma curva normal padronizada. / Fonte: Cepa.

Page 15: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

41

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

Outra característica da distribuição normal é que sua área é numericamente igual à probabi-

lidade de encontrar determinados valores de amostras. Assim, a área total sob a curva é sempre

de valor 1, o que representa uma probabilidade de 100% para a ocorrência de qualquer valor na

abscissa. Contudo, embora seja de extrema importância trabalharmos com a área da distribuição

normal, apresentaremos antes o conceito de distribuição normal padrão, sobre a qual serão

feitos os cálculos de áreas e, consequentemente, de probabilidades.

Distribuição normal padronizada

A distribuição normal padronizada é uma distribuição importante para que se possa trabalhar

com as áreas sob a curva normal e, assim, trabalhar com as probabilidades. Como a curva normal

sempre tem a mesma forma de sino, e é convencionado que a área total sob a curva é igual a 1,

os cálculos de área podem ser feitos para toda e qualquer distribuição normal, levando-se em

conta os valores que interferem em sua forma: µ e s.

A curva normal padrão foi estabelecida como sendo a curva normal com µ = 0 (média

da população), s = 1 (desvio padrão da população) e o eixo das abscissas é representado pela

letra Z (Gráfico 2.4).

Gráficos 2.3: Interferência dos parâmetros µ e s na curva de normalidade. / Fonte: Cepa.

Page 16: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

42

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

Com base nessa padronização, foi calculada a área sob a curva para cada variação de 0,01 em

Z. Esses cálculos foram feitos apenas para valores positivos de Z e, sendo assim, vão até o valor

de 0,50, correspondente à 50% da área sob a curva. Esses valores são apresentados na tabela de

probabilidades de Z (Tabela 2.10, gráfico 2.5).

Gráfico 2.4: Curva normal padronizada. / Fonte: Cepa.

Gráficos 2.5: Exemplificação gráfica para o uso da tabela de probabilidade Z. / Fonte: Cepa.

COMO UTILIZAR A TABELA DE PROBABILIDADES ZPara utilizar esta tabela, o valor de Z deve ser lido tanto utilizando a primeira coluna (até a primeira casa decimal) quanto a primeira linha (para precisar a segunda casa decimal). Pronto. O número encontrado é a probabilidade de ocorrência do intervalo Z.

Page 17: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

43

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

Tomando-se o intervalo 0 (µ) = < Z < = + 1 (1s), verificamos a probabilidade de 0,3413

de sortearmos um valor que esteja nesse intervalo (Gráfico 2.5). Utilizando o princípio da

simetria, consequentemente teremos a mesma probabilidade de encontrar um valor entre

−1 (−1s) = < Z < = 0 (µ).

Com base nestes dados, podemos aferir que, para uma distribuição normal de variável alea-

tória, há 0,6826 (68,26%) de probabilidade de sortearmos, dentro de conjunto real de amostras,

valores X dentro do intervalo µ − 1 s < = X < = µ + 1 s.

Até então, procuramos uma probabilidade de acordo com um Z já determinado. Porém, as

vezes será necessário calcular o valor Z utilizando uma área já determinada. Neste caso, deve-se

raciocinar no sentido inverso.

Gráficos 2.6: Probabilidade de ocorrer um valor de Z entre 0 e 1. / Fonte: Cepa.

Page 18: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

44

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

Z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0 0 0,004 0,008 0,012 0,016 0,0199 0,0239 0,0279 0,0319 0,0359

0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753

0,2 0,0793 0,0832 0,0871 0,091 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141

0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,148 0,1517

0,4 0,1554 0,1591 0,1628 0,1664 0,17 0,1736 0,1772 0,1808 0,1844 0,1879

0,5 0,1915 0,195 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,219 0,2224

0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549

0,7 0,258 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852

0,8 0,2881 0,291 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133

0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,334 0,3365 0,3389

1 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,377 0,379 0,381 0,383

1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,398 0,3997 0,4015

1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177

1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319

1,5 0,4332 0,4345 0,4357 0,437 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545

1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633

1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,475 0,4756 0,4761 0,4767

2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817

2,1 0,4821 0,4826 0,483 0,4834 0,4838 0,4842 0,4846 0,485 0,4854 0,4857

2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,489

2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916

2,4 0,4918 0,492 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936

2,5 0,4938 0,494 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952

2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,496 0,4961 0,4962 0,4963 0,4964

2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,497 0,4971 0,4972 0,4973 0,4974

2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,498 0,4981

2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986

Page 19: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

45

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,499 0,499

3,1 0,499 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993

3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995

3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997

3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998

3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998

3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999

3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999

3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999

3,9 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5

4 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5

4,1 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5

4,2 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5

Tabela 2.10: Tabela de distribuição normal padronizada (Z).

Distribuições normais não padronizadas:

Entender as bases teóricas da distribuição normal padrão é importante, pois fundamenta a

interpretação de distribuições normais não padronizadas, que não possuem µ = 0 e s = 1.

A distribuição normal não padronizada é a que ocorre em praticamente todas as distribuições

de dados reais, com as quais nos deparamos normalmente. Para trabalhar com estas distribuições,

é necessário “padronizar” seus parâmetros por meio da seguinte fórmula:

Gráficos 2.7: / Fonte: Cepa.

Page 20: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

46

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

Estudo de caso

Um professor de biologia tem 120 alunos do 1º ano do colegial. O conjunto de notas finais de todos

seus alunos tem distribuição normal de µ = 6 e s = 2.

Qual a porcentagem dos alunos que tive-

ram nota final abaixo de 5 e não passaram

de ano direto?

Primeiramente, temos que calcular o valor Z

referente ao número 5 pela equação acima. Então,

temos Z = −0,5

Depois, tomando-se o diagrama de Z, verifi-

camos na tabela a área (ou probabilidade) para

Z = 0,5 (pois a curva é simétrica e a tabela só

tem área para Z > 0). Temos então o valor de

P(0,5) = 0,1915. De acordo com a simetria,

a probabilidade que queremos calcular é de

0,5 - P(0,5), ou seja, 0,5 − 0,1915 = 0,6915.

Assim, a porcentagem de alunos que passou de

ano sem recuperação é de 69,16%.

Quantos alunos foram muito bem e tive-

ram nota acima de 8?

Primeiramente, temos de encontrar o valor Z

correspondente à nota 8. Pela fórmula acima,

temos que Z = 1. Utilizando o eixo Z, calcula-

mos primeiramente o P(Z = 1), que, pela tabela,

é 0,3413. Por fim, subtraindo esse valor de 0,5,

teremos a probabilidade de ocorrer uma nota

Z > 1. Logo, 0,5 − 0,3413 = 0,1587.

Então, a porcentagem dos seus alunos que tive-

ram nota final maior que 8 é de 15,87%.

Gráficos 2.8: / Fonte: Cepa.

Gráficos 2.9: / Fonte: Cepa.

Page 21: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

47

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

Em uma atitude inovadora, o professor resolveu dar aulas particulares, além da recupe-

ração, para os 5% dos alunos que tiveram as piores notas. Qual a nota final mais alta de

um aluno que vai receber as aulas particulares?

Primeiramente, calculamos o Z. Pela tabela, a

área 0,05 corresponde à um Z = 1,65. Contudo,

devemos levar em conta que a área que queremos

é correspondente a um Z < 0. Então, pela sime-

tria, utilizaremos Z = −1,65. Agora é só aplicar a

fórmula para transformar o Z em X, valor corres-

pondente à nota que queremos saber.

Dessa forma, a maior nota final de um aluno que

receberá aulas particulares é 2,7.

Os 12 alunos com maiores notas serão presenteados pelo professor, com livros de bio-

logia. Será preciso ter tirado, no mínimo, que nota final para ser presenteado?

Primeiramente, os 12 alunos correspondem a

10% da amostragem (12/120). Segundo o gráfico,

temos que descobrir o valor de Z. Primeiramente,

pela tabela de Z, temos que, para uma área de

0,4, o Z = 1,28. Ao transformá-lo utilizando a

fórmula, temos um X = 8,56. Portanto, para ficar

entre os 12 alunos com maior nota e ser presen-

teado com um livro de biologia, o aluno tirou

nota acima de 8,56.

2.4.2 Distribuição tEm muitos casos biológicos precisamos utilizar a estatística para resolver problemas que

envolvem uma população muito grande. Quando precisamos estimar a média de qualquer

medida da população de uma cidade, ou de uma população de insetos, por exemplo, como não

podemos medir toda a população, utilizamos apenas uma parte dela, uma amostra. Por meio

desta amostragem, calculamos a média ou qualquer outro parâmetro.

Gráfico 2.10: / Fonte: Cepa.

Gráfico 2.11: / Fonte: Cepa.

Page 22: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

48

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

Esta média, contudo, não representa exatamente a média real de toda a população, pois para

isso teria de se medir todos os indivíduos. Se pegarmos outros indivíduos, mesmo mantendo o

mesmo número de medidas, encontraríamos um valor diferente da média anterior. É verdade que

esta diferença pode ser muito pequena, mas ela existe. Essa nova média é tão confiável quanto à

anterior. Tal procedimento mostra, em primeiro lugar, que existe uma variação da média de uma

amostragem de acordo com os indivíduos escolhidos, mesmo se pegarmos o mesmo número

deles. Em segundo lugar, mostra que nenhuma delas representa exatamente a média real de toda a

população, uma vez que são igualmente calculadas, mas possuem valores diferentes.

Ocorre que, em alguns casos, se faz necessário ter uma noção de quanto que estas médias se

aproximam da média real da população. Para distinguir a média da amostra (também dita média

pontual) em relação à média real da população, utilizaremos as notações X e µ respectivamente.

Para isso, se faz necessário calcular o “intervalo de confiança” da média pontual, com a qual se

garante que a média real esteja presente.

A esse intervalo sempre está associado um grau de confiança “α”. Este índice não é calculado,

mas estabelecido previamente, de acordo com a dificuldade de amostragem ou a precisão que

é necessária. Trabalhos em medicina costumam ser mais rigorosos, pois um mínimo erro da

média de concentração de algum fármaco em um comprimido, por exemplo, pode causar

sérios danos a milhares de pessoas. Nesse caso, é comum ser utilizada a confiança “α” de 99%

até 99,9%. Para as demais pesquisas, 95% é um grau de confiança bastante aceitável. Se existir

dificuldades de encontrar uma amostra suficientemente grande para este grau de confiança,

pode-se justificar o uso de 90%.

Quando escolhido um grau de confiança “α” de 95%, significa que, se tomarmos n diferentes

amostragens (com o mesmo número de medidas) de uma população, em 95% delas, a média real

da população estará contida no intervalo de confiança calculado (atenção aqui para não se chegar,

assim, à conclusão errônea de que esse valor possa significar 95% de chance da média real estar

dentro do intervalo). Esta explicação é conceitualmente equivocada, uma vez que a média ou está

dentro do intervalo ou não está. Não é possível que ela só esteja 95% dentro do intervalo.

Uma vez escolhido o grau de confiança, pode-se calcular a margem de erro da média

pontual, que nos dará o intervalo de confiança.

Segundo uma importante teoria da estatística, a teoria do limite central, se tomarmos n

médias pontuais de uma mesma população, a distribuição dessas médias será normal, ou seja,

em forma de sino. Dessa forma, para estimar o intervalo de confiança de uma média, temos

Page 23: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

49

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

que trabalhar da mesma forma que trabalhamos com a distribuição normal. Contudo, além de

comumente não conhecermos o µ, também dificilmente conheceremos o s da população toda.

Assim, quando escolhemos α = 95%, de acordo com a amostragem utilizada, a média pon-

tual da população variará em uma distribuição normal, aqui representada graficamente por uma

distribuição padronizada no gráfico 2.12:

De acordo com essa representação, como nas distribuições normais, temos que a média

pontual encontrada em uma amostragem é representada na distribuição padronizada por Z = 0.

A partir dela, é preciso se descobrir o valor de Z para 97,5% de probabilidade. Tendo esse valor,

basta utilizar a simetria da curva para conseguir o valor Z negativo, para compor o outro limite

(o menor) do intervalo de confiança. O próximo passo é “destransformar” os dados e obter os

valores X para os limites de Z positivo e Z negativo.

2.5 Cálculo de número amostral mínimo - nDiante da importância de se utilizar amostras, já que quase nunca é possível trabalhar com as

populações inteiras. Vejamos uma das maiores dúvidas das pessoas em relação a quanto amostrar:

Que tamanho de amostra tomar? A tendência é usar números de amostras muito usuais como

o 5 (igual aos dedos de uma mão), o 10 (total de dedos das mãos), seis, ou meia dúzia ou,

empiricamente, simplesmente assumir que um é pouco, dois é razoável e três está bom.

O fato é que esses “números afetivos” não apresentam nenhum respaldo estatístico. Conforme

já foi explicado, quanto maior a amostra, maior é a chance de que ela expresse parâmetros

(média, variância) parecidos ou próximos ao dos parâmetros populacionais. Infelizmente, não se

pode aumentar demais as amostras, seja por limitações naturais (número de fósseis, raridade de

espécies etc.) ou por razões procedimentais (custo, tempo investido, recursos humanos). Então,

Gráfico 2.12: Distribuição normal, representando a distribuição das médias pontuais de uma população, de acordo com as diferentes possibilidades de escolher a amostragem. Nesse caso, foi estabelecido um α de 95%, representado pela área sem preenchimento. A área preenchida em cinza representa, no total, a probabilidade de se tomar uma amostragem em que a média real não contará dentro do intervalo de confiança estimado. / Fonte: Cepa.

Page 24: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

50

VIDA E MEIO AMBIENTE Introdução aos Fundamentos de Estatística

Licenciatura em Ciências · USP/Univesp

como resolver? Como obter amostras pequenas, mas grandes o bastante para expressar valores

de parâmetros próximos aos parâmetros da população?

A solução é começar com uma amostra pequena (5 a 10), calcular os parâmetros de forma a

ter uma ideia da variação interna dessa população e realizar a estimação do n amostral, fixando-

-se um erro permissível que se considere aceitável. Esse procedimento é possível se a população

for normal, já que a distribuição normal é muito conhecida e estudada.

Retomando o exemplo da germinação de sementes do item 2.2, podemos calcular para cada

lote de sementes qual seria o tamanho da amostra necessário para obter uma média amostral

com 10% de chance de se desviar da média populacional (Tabela 2.11).

Lotes Germinação (%) MédiaVariância

(%2)Desvio

Padrão (%)n

Lote 1 40 40 40 40 40 40 0 0 0

Lote 2 60 30 35 50 25 40 212,5 14,58 186

Lote 3 30 45 40 40 45 40 37,5 6,12 33

Lote 4 20 0 40 100 40 40 1400 37,42 1224

Lote 5 0 100 0 0 100 40 3000 54,77 2260

Tabela 2.11: Resultados de germinação, suas variâncias e desvios padrões amostrais bem como estimativas de n amostral.

Para calcular o n amostral é necessário ter em mãos uma tabela de distribuição de t de Student, disponível em qualquer livro de estatística, e utilizar a seguinte fórmula:

• Sendo t o valor de t de Student para n − 1 grau de liberdade. Ou seja, inicia-se com uma amostra-teste de 10, busca-se na linha de n − 1 = 9 graus de liberdade;• s2 é a variância da amostra-teste;• E2 é o erro permissível adotado. Geralmente usa-se 10% ou 0,1 que equivale a aceitar um erro de 5% para mais e 5% para menos.

2 2

2

t snE×

=

Page 25: PARÂMETROS DE TÓPICO VARIÁVEIS E DISTRIBUIÇÕES · 31 PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2 Licenciatura em Ciências · USP/Univesp 2.3 Medidas de variação: amplitude,

51

PARÂMETROS DE VARIÁVEIS E DISTRIBUIÇÕES 2

Licenciatura em Ciências · USP/Univesp

Com esse cálculo, fica claro que para obter estimativas de parâmetros de mesma margem

de erro (erro permissível) é necessário um número de amostras muito diferente. Isso é causado

pela variação interna de cada amostra. Observa-se que no lote 3, que tem um desvio padrão de

cerca de 15% da média, bastam 33 amostras, o que é um número razoável e operacional para se

trabalhar. Já nos lotes 4 e 5 os números estimados são muito altos e inexequíveis, significando

ou que a amostra não é normal (que é o caso) ou que a variação é mesmo imensa. A variação é

muito grande, pois há valores 0 e 100, ou seja, infinitamente diferentes. O lote 2 projeta um n

muito alto, também difícil de executar. O lote 1 apresenta um n de zero, pois virtualmente não

há variação. Ou seja, com uma amostra já se acerta o valor da média da população (µ).

Fechando o assuntoEste tópico trata em primeiro lugar dos parâmetros estatísticos que podem ser usados

para descrever variáveis e sumarizar o que é expresso em histogramas de distribuição.

É possível aprender como calcular esses parâmetros (mediana, média, variância, desvio

padrão) e são explicadas características e vantagens/desvantagens do uso dos mesmos.

Em seguida são exploradas duas distribuições de valores muito estudadas, a distribuição

normal e t, apresentando suas características e utilidade para cálculos diversos. Finalmente

é mostrado, baseado em uma distribuição normal, como é possível fazer o cálculo de um

n amostral necessário para obter médias amostrais com uma margem determinada de erro

sobre a média populacional.

Referências BibliográficasBeiguelman, B. Curso prático de bioestatística. 5ª Ed. Ribeirão Preto: FUNPEC-Editora,

2002.

Callegari-JaCques, s.m. Bioestatística: princípios e aplicações. São Paulo: Artmed Editora,

2004.

magnusson, W.E. e mourão g. de m. Estatística [sem] matemática: a ligação entre as

questões e a análise. Londrina: E. Rodrigues, 2003.

Vieira, s. Introdução à bioestatística. 5ª Ed. Rio de Janeiro: Editora Campus, 1998.

Vieira, s. Como elaborar questionários. Rio de Janeiro: Editora Atlas, 2009.