Download - 1 1- Experimentos com Um Fator: A Análise de Variância 1.1 Um exemplo. Uma bioquímica (Tecnologia de Alimentos) está interessada em estudar a extração

1

1- Experimentos com Um Fator: A Análise de Variância

1.1 Um exemplo. Uma bioquímica (Tecnologia de Alimentos) está interessada em estudar a extração de pigmentos naturais, com aplicação como corante em alimentos. Numa primeira etapa tem-se a necessidade de escolher o melhor solvente extrator. A escolha do(s) melhor(es) solventes foi realizada através da medida da absorbânciade um pigmento natural do fruto de baguaçú.

Fator = solventes; a=5 níveis; n=5 repetições.

Fator é uma variável independente em estudo, por exemplo, solventes, aditivos. Estes fatores geralmente envolvem diversos níveis. A ANOVA é utilizada para verificar se existem diferenças significativas entre os níveis dos fatores (tratamentos). Aqui assume-se que o delineamento é completamente casualizado. Estes experimentos só podem ser realizados quando as unidades experimentais são homogêneas. Por exemplo, 12 leitões da mesma raça, mesmo sexo, mesma idade e com pesos iniciais próximos.

2

Casualização: a partir de 1 kg de polpa, foram sendo retiradas amostras de 10gr, onde foram aplicados os tratamentos, numa ordem aleatória.

Unidade experimental: 10 gramas de polpa do fruto de baguaçú.

As observações obtidas de absorbância são mostradas na tabela 1.1

Observações Total Solventes 1 2 3 4 5

Média Desvio Padrão

E50 0,5553 0,5623 0,5585 0,5096 0,5110 2,6967 0,5393 0,0266 EAW 0,5436 0,5660 0,5860 0,5731 0,5656 2,8343 0,5669 0,0154 MAW 0,4748 0,4321 0,4309 0,5010 0,4094 2,2482 0,4496 0,0372 E70 0,6286 0,6143 0,5826 0,7498 0,6060 3,1813 0,6363 0,0656

M1M 0,1651 0,1840 0,2144 0,2249 0,1954 0,9838 0,1968 0,0238

Tabela 1.1 Dados de absorbância de cada um dos solventes

3

Desenho esquemático para absorbância de cada solvente

Box Plot

Solventes

Abs

orbâ

ncia

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

E50 EAW MAW E70 M1M

• Existe uma forte suspeita de que o tipo de solvente esteja afetando a absorbância.

• Distribuições assimétricas.• Valor discrepante.

4

1-2 A Análise de Variância

Objetivo: testar se existe diferenças nas médias de absorbância para os a=5 tipos (níveis) de solventes.

Tabela 1-2 Dados gerais de um experimento com um único fator Tratamentos

(níveis) Observações Totais Médias

1

y11

y12

.

.

.

y1n

y1.

y1

2

y21

y22

.

.

.

y2n

y2.

y2

.

. . .

.

. . .

.

. . .

.

. . .

.

. a

ya1

ya2

.

.

.

yan

ya.

ya

5

Modelo estatístico (one-way):

ijiij ετμy i=1,2,...,a

j=1,2,...,n

yij= é a ij-ésima observação;

é uma constante para todas as observações (média geral);

i é o efeito do i-ésimo tratamento;

ij é o erro aleatório(erros de medida, fatores não controláveis, diferenças entre as unidades experimentais, etc.).

Pressuposições: 1) os erros aleatórios são independentes;

2) os erros aleatórios são normalmente distribuídos;

3) os erros aleatórios tem média 0 (zero) e variância 2;

4) a variância, 2, deve ser constante para todos os níveis do fator.

5) as observações são adequadamente descritas pelo modelo

tesindependen e );(~ 2iij Ny Ou, então:

6

Duas situações: 1) modelo de efeito fixo (níveis selecionados pelo pesquisador);

2) modelo de efeito aleatório (amostra aleatória). Neste caso, vamos

estimar e testar hipóteses sobre a variabilidade de i

1-3 Análise de Variância do Modelo de Efeito Fixo

Hipóteses: H0: 1= 2=...= a

Ha: i j para pelo menos um par (i,j)

1-3.1 Decomposição da soma de quadrados total

a

1i

a

1i

n

1j

2i.ij

2..i.

a

1i

n

1j

2..ij yyyynyy

Corrigida para a média

7

SST = SSTratamentos + SSE

Graus de liberdade:

SST tem an-1 graus de liberdade; SSTratamentos tem a-1 g.l. e SSerro tem a(n-1) g.l.

Esperanças dos quadrados médios:

E(QMErro) = 2

1a

τnσentos)E(QMTratam

a

1i

2i

2

Teste de hipótese:

Quadrados médios:1)-a(n

SQErroa

tosSQTratamen QMErro QMTrat 1

QMErrontosQMTtratameF

8

1-3.2 Análise Estatística

F0 = QMTratamentos / QMErro

Critério para rejeição de H0: F0 > F,a-1,N-a . Pode-se usar o nível descritivo (em inglês: p-value: É o menor valor de para o qual rejeitamos a hipótese nula. Exemplo: para =5%, assim, se o nível descritivo < do que 0,05 rejeitar H0, caso contrário, aceitar H0.

Fórmulas para o cálculo das somas de quadrados:

a

1i

n

1j

2..2

ijT NyySS

a

1i

2..2

i.sTratamento Nyyn

1SS

sTratamentoTErro SSSSSS

9

Tabela da análise de variância de um experimento com um fator. Causas de variação

Soma de quadrados

Graus de liberdade

Quadrados médios

F0

Entre tratamentos

SSTratamentos a-1 QMTratamentos QMTratamentos QMErro

Erro (dentro de trata/os)

SSErro N-a QMErro

Total SST N-1

N=an

Valor p

10

Exemplo 1-1. O experimento de absorbância

Tabela da análise de variância dos valores de absorbância. Causas de variação

Soma de quadrados

Graus de liberdade

Quadrados médios

F0

Entre solventes

0,5831 4 0,1458 101,1087 (P<0,0001)

Erro 0,0288 20 0,0014

Total 0,6119 24

F.05;4;20=2,87 F,01;4;20=4,43

Rejeita-se H0, e concluímos que as médias de tratamentos diferem entre si; os solventes afetam signifi-

cativamente as médias de absorbância.

Coeficiente de variação (CV)= 7,95%

100.CV MédiaQMErro

11

1-3.3 Estimação dos parâmetros do modelo

Estimativas da média geral e dos efeitos dos tratamentos:

..i.i

..

yyτ

yμ

i.ii yτμ μ

Um intervalo de confiança para i é dado por:

/nQMty ErroaN/2,αi.

Estimativa pontual de i: dado i= + i, temos:

12

Intervalo de confiança para a diferença entre qualquer duas médias i-j:

/n2QMtyy ErroaNα/2,j.i.

Exemplo 1-3. Dados de absorbância

M1M 0,28100,47780,1968

E70 0,15850,47780,6363

MAW 0,02820,47780,4496

EAW 0,08910,47780,5669

E50 0,06150,47780,5393

0,4778

5

4

3

2

1

τ

τ

τ

τ

τ

μ

0,67120,6014 4

5/)0014,0(086,26363,0

13

0,1373μμ0,236152(0,0014)/2,0860,6363)(0,4496

43

0,0218μμ0,077052(0,0014)/2,0860,5669)(0,5393

21

Critério de rejeição de H0:i.-j..=0. Se o intervalo de confiança contém o

valor da hipótese nula não se rejeita a hipótese de nulidade, cc rejeita-se a hipótese.

1-3.4 Dados desbalanceados: o número de observações dentro de cada

tratamento é diferente. Nesse caso, as SQTotal e SQTratamentos são dadas por:

Ny

nySQ

/NyySQ

2..

a

1i i

2i.

sTratamento

2..

a

1i

n

1j

2ijTotal

i

14

1-4 Diagnóstico do Modelo

Verificar se as pressuposições básicas do modelo são válidas. Isso é realizado através de uma análise de resíduos. Define-se o resíduo da ij-ésima observação como:

ijijij yye

modelo. pelo preditos valores yτμy onde i.iij ˆˆˆ

1-4.1 A suposição de normalidade

Vamos usar o gráfico normal de probabilidades: sob normalidade dos erros este gráfico deve apresentar uma forma de reta.

15

• Alguns valores negativos dos resíduos(mais extremos) deveriam ser maiores; alguns valores positivos dos resíduos deveriam ser menores, com exceção do último valor que deveria ser maior.

• Contudo este gráfico não é grosseiramente não normal.

• Existe um resíduo que é muito maior que os demais, este valor é denominado outlier. È um problema sério. Deve-se fazer uma investigação sobre esse valor (erro de cálculo, digitação, algum fato experimental). Só eliminar um outlier se tiver uma justificativa não estatística, caso contrário, fazer duas análises: uma com e outra sem o outlier. Usar métodos não paramétricos. Transformação.

• Outlier: dij=eij/RQ(QMErro). Se algum resíduo padronizado for maior do que 3 ou 4 ele é um outlier.

Obs. RQ=raíz quadrada.

16

1-4.2 Gráfico de resíduos no tempo

Para verificar se existe correlação entre os resíduos. Uma tendência de ter resíduos positivos e negativos indica uma correlação positiva. Isto implica que a suposição de independência dos erros foi violada. Isto é um problema sério, e até difícil de resolver. Se possível evitar este problema. A casualização adequada pode garantir a independência.

5 1 0 1 5 2 0 2 5O B S

- . 0 5

0 . 0 0

0 . 0 5

0 . 1 0

RESIDUO

17

1-4.3 Gráfico dos resíduos versos valores preditos0 . 2 0 . 4 0 . 6

P R E D IT O

- . 0 5

0 . 0 0

0 . 0 5

0 . 1 0

RESIDUO

A distribuição dos pontos é aleatória. Útil para verificar se as variâncias são heterogêneas (forma de megafone). Devido a presença de 1 outlier as variâncias não são homogêneas. Na presença de heterogeneidade de variâncias é usual aplicar uma transformação nos dados. Pode-se usar os testes não-paramétricos. A heterogeneidade de variância também ocorre nos casos de distribuições assimétricas, pois a variância tende a ser função da média.

18

As conclusões são realizadas para os dados transformados.

Poisson: y*=y ou y*=1+y; dados de contagens

Log normal: y*=log y; somente valores positivos, variável contínua com assimetria.

Binomial: y*=arco seno y. dados de porcentagens

Teste de Bartlett para igualdade de variâncias

ji σσ:H

σ...σσ:H2j

2i1

2a

22

210

O teste estatístico é dado por:cq2,3026χ 2

0

Onde:

aN

S1)(nS

aN1n1)3(a

11c

Slog1)(nSa)log(Nq

2i

a

1ii

2p

1a

1i

1i

2i10

a

1ii

2p10

19

2iS é a variância amostral do i-ésimo tratamento.

Rejeita-se H0 quando

tabelade valor o é χ onde , χχ 21-aα;

21-aα;

20

Exemplo 1-4

0,0005675 s0,0043068; s

0,0013873; s0,0002372; s0,0007092; s:Variâncias25

24

23

22

21

9,488χ

8,6981,10

4,15522,3026χ

1,10201

45

1211c

4,155260,975256,82q12,9841)-9,4634-11,4313-14,4995-(-12,5969-10)(20)(-2,84q

0,001442S

20,05;4

20

2p

Conclui-se que as 5 variâncias são iguais.

20

Teste de Levene

1) Calcular os resíduos da análise de variância;

2) Fazer uma análise de variância dos valores absolutos desses resíduos;

3) Se as variâncias são homogêneas, o resultado do teste F será não significativo.

Exemplo: dados de absorbância.

QMTratamentos QMErro F Nível descritivo0,000894 0,000447 1,9989 0,1335

Aceita-se as hipóteses de que as variâncias são homogêneas

21

1-4.4 Escolha da transformação para estabilizar a variância

Escolha empírica da transformação

ii yy μ log αθ logσ log

Tabela 1-8 Transformações para estabilizar as variâncias

Relação entre i e =1- Transformação Comentário

y constante 0 1 Sem transformação

y 1/2 ½ ½ Raiz quadrada Poisson

y 1 0 Logarítmica

y 3/2 3/2 -1/2 Inversa da raiz quadrada(1/y)

y 2 2 -1 Inversa(1/y)

Em muitos experimentos onde há repetições, podemos estimar o parâmetro através da equação de regressão:

Como e são desconhecidos, usamos as suas estimativas s e y(barra), esta é a média da amostra.

22

Exemplo 1-5 (Arquivo: plasma.sas)

Um pesquisador está interessado em estudar a influência das idades de crianças doentes no nível de plasma, foram testadas 5 idades distintas, ou sejam, ID1= 0 ano, ID2=1 ano, ID3=2 anos, ID4=3 anos e ID5=4 anos. Os resultados de nível de plasma foram:

Idade Observações Média Desviopadrão

0 13,44 12,84 11,91 20,09 15,60 14,78 3,271 10,11 11,38 10,28 8,96 8,59 9,86 1,122 9,83 9,00 8,65 7,85 8,88 8,84 0,713 7,94 6,01 5,14 6,90 6,77 6,55 1,054 4,86 5,10 5,67 5,75 6,23 5,52 0,55

Causas devariação

S.Q. G.L. Q.M. F Níveldescritivo

Idades 260,81 4 65,20 23,61 <0,0001Resíduo 55,23 20 2,76

23

O teste F da ANAVA indica que as 5 médias de níveis de plasma diferem significativamente entre si. O gráfico dos resíduos indica heterogeneidade de variâncias.

6 8 1 0 1 2 1 4P R E D IT O

- 2

0

2

4RESIDUO

24

Para estudar a possibilidade de uma transformação nos dados, plotamos log do desvio padrão versus log da média. A equação de uma regressão linear simples para os dados é dada por:

errologmedia*5608142471logdesvio ,,

25

Como o coeficiente angular é próximo de 1,5 e, de acordo com a tabela, podemos usar a transformação INVERSO DA RAÍZ QUADRADA.

Causas de variação

S.Q. G.L Q.M. F Nível descritivo

Idade 0,0818 4 0,0205 36,06 <0,0001 Resíduo 0,0108 19 0,0006

26

Transformação: logarítmica (base 10).

Causas devariação

S.Q. G.L Q.M. F Níveldescritivo

Idade 0,5385 4 0,1346 36,23 <0,0001Resíduo 0,0743 20 0,0037

27

1-4.5 Gráfico dos resíduos versus outras variáveis

Se a distribuição dos pontos no gráfico mostrar algum padrão (tendência, isto é, se os pontos não estão distribuídos aleatoriamente no gráfico) a variável afeta a resposta, assim, esta variável deve ser melhor controlada ou incluída na análise.

29

1-5 Interpretando os resultados

1-5.1 Modelo de Regressão

Fator quantitativo: interesse em encontrar uma equação de regressão que leva em conta toda a faixa de valores análise de regressão

Doses de fósforo

Observações Totais Médias

0 kg/ha 2,38 6,77 3,50 5,94 18,59 4,65 25 kg/ha 6,15 8,78 8,99 9,10 33,02 8,26 50 kg/ha 9,07 8,73 6,92 8,48 33,20 8,30 75 kg/ha 9,55 8,95 10,24 8,66 37,40 9,35

100 kg/ha 9,14 10,17 9,75 9,50 38,56 9,64

Exemplo: produção de milho em kg/parcela.

Desvio Padrão

2,051,400,950,690,40

30

Diagrama de dispersão para os dados de produção de milho

Doses de fósforo

Pro

duçã

o em

kg/

parc

ela

1

3

5

7

9

11

-20 0 20 40 60 80 100 120

• Os traços no gráfico representam os valores médios para cada uma das doses.

• Pelo gráfico de dispersão, verifica-se claramente que a relação não é linear.

• Podemos ajustar um polinômio de 20 grau para representar este relacionamento, isto é,

εxβxββy 2210

Onde 0, 1 e 2 são parâmetros desconhecidos e que devem ser estimados e é o erro aleatório. Para o exemplo a equação ajustada é dada por:

20,0006x0,1087x5,0182y .

R2=66,9%66,9 % da variabilidade dos dados é explicada pelo modelo quadrático.

31

Estimação: X=90 Ŷ=9,58 8,6Y10,5

- Estimar a produção média de milho para doses dentro da região de experimentação;

-Otimização.

5899000060901087001825y 2 ,)(,)(,,ˆ Otimização:

) (,

,,,

''

''

'

'

máximodePonto00060xy

5890x0x0006010870xy

32

1-5.2 Comparações entre médias de tratamentos

(Fatores qualitativos)Quando o teste F da análise de variância for significativo, indica que existe diferenças entre as médias de tratamentos. Entre quais médias ou grupos?

1-5.3 Contrastes

Desejamos verificar se a médias dos solventes E50, EAW e E70 não diferem da média dos solventes MAW e MM. Esta hipótese é escrita como:

33222H μ33μμ2μ22μ:H

534211

534210

μμμμμ

:

Temos o contraste: 5.3.4.2.1. 3y3y2y2y2y

A soma de quadrados é dada por:

a

1i

2i

2a

1ii.ic cnycSQ

Com 1 grau de liberdade (sempre).

a

iic

1

0

33

Se o delineamento é desbalanceado então:

a

1i

2ii

2a

1ii.ic cnycSQ

TESTE: SQc/QMErro. Vamos obter uma estatística F com1 e N-a graus de liberdade.

1-5.4 Contrastes Ortogonais

Dois contrastes com coeficientes ci e di são ortogonais se:

eado)(desbalanc dcnou 0dca

1iiii

a

1iii

Exemplo: vamos considerar um experimento com 3 tratamentos (a=3), sendo um deles o controle.

3.2.2

3.2.1.1

yy yyy2yy

ortogonais

34

Os contrastes devem ser escolhidos antes de realizar o experimento.

Para a tratamentos podemos ter a-1 contrastes ortogonais; podemos ter vários conjuntos de a-1 contrastes ortogonais.

Exemplo: dados de absorbância. Temos 5 médias de tratamentos e, portanto, 4 g.l. 4 contrastes ortogonais.

Contrastes

C1=2y1.+2y2.-3y3.+2y4.-3y5.

C2= y1.+ y2. -2y4. C3= y1.- y2.

C4= y3. -y5.

530

210

4210

534210

μμ:Hμμ:H

μ2μμ:Hμ3μ3μ2μ2μ2:H

Hipóteses:

C1=7,7286; C2=-0,8316; C3=-0,1376; C4=1,2644

SQC1=0,3982; SQC2=0,0231; SQC3=0,0019; SQC4=0,1599

35

Variaçõesno modelo

Soma deQuadrados

GL QuadradoMédio

F

Solventes 0,5832 4 0,1458 101,11 P<0,0001Contrastes

C1 (0,3982) 1 276,23 P<0,0001C2 (0,0231) 1 15,99 P<0,0007C3 (0,0019) 1 1,31 P<0,2653C4 (0,1599) 1 110,90 P<0,0001

Erro 0,0280 20 0,0014Total 0,6112 24

36

1-5.5 Método de Scheffé para comparação de contrastes

1 - Não sabe a priori quais contrastes comparar

2 - Deseja comparar mais do que a-1 contrastes

Considere m contrastes de médias:

m1,2,...,u μc...μcμcΓ aau22u11uu A estimativa do contraste é dado por:

m1,2,...,u xc...xcxcC aau22u11uu O erro padrão do contraste é dado por:

a

1ii

2iuErroC /ncQMS

u

37

Critério do teste: o valor com o qual Cu deve ser comparado é dado por:

aN1,aα;Cuα, 1)F(aSSu

Se |Cu S,u|, então rejeita-se a hipótese de que o contraste u é igual a zero.

Exemplo 1-1. Dados de absorbância. Considere os 2 contrastes de interesse

543211 3μ2μ3μ2μ2μΓ

4212 2μμμΓ As estimativas desses contrastes são:

1,54583(0,1968)2(0,6363)3(0,4496)2(0,5669)2(0,5393)

y3y2y3y2y2C 543211

38

0,16642(0,6363)0,56690,5393

y2yyC 4212

Erros padrões dos contrastes:

0,04104)/510,0014(1S

0,09179)/54940,0014(4S

2

1

C

C

Os valores críticos são dados por:

0,17264(4,43)0,0410S

0,38604(4,43)0,0917S

0,01;2

0,01;1

Como |C1| S0,01;1 conclui-se que o contraste C1 é diferente de zero, isto é, os tratamentos E50, EAW e E70 em média diferem dos tratamentos MAW e M1M. Como |C2| S0,01;2 conclui-se que o contraste C2 é igual a zero, portanto, os tratamentos E50 e EAW, em média, não diferem do tratamento E70.

39

1-5.6 Comparações entre Pares de Médias

., os todospara μμ:H ji0 jiHipótese:

Número de comparações: a(a-1)/2.

Método da Diferença Mínima Significativa (LSD)

Devem ser realizadas após o teste F da análise de variância rejeitar a hipótese nula

A estatística a ser utilizada é dada por:

ji

ji0

n1

n1QMErro

yyt

Para um teste bilateral, o par de médias, i e j, é significativamente diferente se:

)n1n1QMErro(yy ji;2/ji aNt

40

Critério do teste: se LSDyy ji concluímos que o par de médias i e j, diferem significativamente.

Exemplo: dados de absorbância. Para =0,05, o valor da LSD é:

0494,05/)0014,0(2086,2n2(QMErro)/tLSD 0,025;20

4395,0yy2528,0yy1867,0yy

3701,0yy0694,0yy

1173,0yy3425,0yy

0970,0yy0897,0yy

0276,05669,05393,0yy

54

53

43

52

42

32

51

41

31

21

* diferença significativa para =5%.

41

Teste de Tukey

Duas médias são diferentes significativamente se a diferença das médias amostrais (em valor absoluto) for superior a DMS (Diferença Mínima Significativa):

ji rrsqDMS 11

2

Onde q é um apropriado nível de confiança superior da amplitude studentizada para k médias (tratamentos) e f graus de liberdade associados a estimativa s2 de 2 (QMErro).

Exemplo: dados de absorbância. O valor da Diferença Mínima Significativa é:

0708,052

20014,0

23,4112

)20;5(05,0 ji nn

QMErroqDMS

Conclusão: pelo teste de Tukey, ao nível de significância de 5%, as médias dos tratamentos E50 e EAW, assim como as médias dos tratamentos EAW e E70 não apresentam diferenças significativas. As médias dos tratamentos E50 e E70 apresentam diferença significativa.

42

Teste de Dunnett: comparação com um controle

Interesse é comparar cada uma das a-1 médias com a média do tratamento controle, assim temos a-1 comparações. Deseja-se testar a hipótese:

1-a1,2,...,i para μμ:H μμ:H ai1ai0

Onde a é a média do tratamento controle.

A hipótese de nulidade é rejeitada, ao nível de significância , se

aiai nn

QMErrofadyy 11),1(..

Exemplo: dados de absorbância. Considere o tratamento MM como sendo o controle. Neste exemplo, a=5, a-1=4 e f=20 e ni=na=5. Para =5%, da tabela (valores críticos do teste de Dunnett) obtemos d0,05(4;20)=2,65. Assim, o valor crítico é dado por:

0636,052

)00144,0(65,2

43

4395,02528,03701,03425,0

54

53

52

51

yyyyyyyy

Conclusão: todas as médias diferem significativamente da média do tratamento controle.

Qual teste usar?

O LSD é eficiente para detectar diferenças verdadeiras nas médias se ele for aplicado apenas depois do teste F da ANOVA se significativo a 5%. Idem para o Duncan. Estes métodos não contém o erro tipo I (erro geral ou experimentwise error). Como o Tukey controla este erro ele é o preferido pelos estatísticos. O SNK é mais conservador do que o Duncan.

44

1-6 Modelo de Efeito Aleatório

Se o pesquisador seleciona aleatoriamente a níveis de um fator de uma população de níveis desse fator, então o fator é dito aleatório. A inferência é feita para toda a população de níveis.

Exemplo: uma pesquisadora estudou o conteúdo de sódio em cervejas selecionando aleatoriamente 6 marcas de um grande número de marcas dos EUA e do Canadá. Ela, então, escolheu 8 garrafas de cada marca aleatoriamente de supermercados e mediu a quantidade de sódio (em miligramas) de cada garrafa.

45

GarrafasMarcas 1 2 3 4 5 6 7 8

1 24.4 22.6 23.8 22.0 24.5 22.3 25.0 24.52 10.2 12.1 10.3 10.2 9.9 11.2 12.0 9.53 19.2 19.4 19.8 19.0 19.6 18.3 20.0 19.44 17.4 18.1 16.7 18.3 17.6 17.5 18.0 16.45 13.4 15.0 14.1 13.1 14.9 15.0 13.4 14.86 21.3 20.2 20.7 20.8 20.1 18.8 21.1 20.3

23.8

O modelo estatístico: n1,...,j e a1,...,i para , ετμy ijiij i é o efeito do i-ésimo tratamento e assume-se que seja NID(0,2

)

ij é o erro aleatório e assume-se que sejam NID(0, 2)

i e ij são independentes

Testar hipóteses sobre os efeitos dos tratamentos não faz sentido, assim, vamos testar as hipóteses sobre a variância dos tratamentos.

0σ:H 0σ:H 2τ1

2τ0

46

Se 2=0, então todos os tratamentos são idênticos; mas se 2

>0 a variabilidade entre tratamentos é significativa.

Quando temos um modelo de efeitos aleatórios o interesse está em estimarmos os componentes de variâncias: 2

e 2. Prova-se que:

2

2τ

2

σE(QMErro)σnσentos)E(QMTratam

QMErro)/nntos(QMTratameσ

QMErroσ

assim,σQMErro

σnσtosQMTratamen

2τ

2

2

2τ

2

Portanto,

47

Exemplo: Dados de sódio. Os resultados da análise de variância são mostrados na tabela abaixo - Arquivo: conteudodesoddiocervejas.sas



Marcas 854,529 5 170,906 238,71 P<0,0001Erro 30,070 42 0,716Total 884,599 47

Os componentes de variância são estimados por:

27382187160906170ˆ7160ˆ

2

2

,)/,,(

,

Um uso importante: isolar diferentes fontes de variabilidade que afetam um produto ou um sistema. Identificar fatores com maior variabilidade (Exemplo: Lotes, amostras e réplicas).

Conclusão: rejeita-se H0: 02

48

2- Mais Sobre Experimentos com Um Fator

2-1 Escolha do Tamanho da Amostra

2-1.1 Curvas Características de Operação

Curva característica de operação: é um gráfico em que no eixo das ordenadas temos a probabilidade de erro tipo II (aceitar a hipótese de nulidade quando na verdade deveríamos ter rejeitado) e no eixo das abcissas temos a precisão desejada pelo pesquisador.

Probabilidade de erro tipo II para o modelo de efeito fixo e igual tamanho de amostra por tratamento.

falsa é H|FFP1β

falsa é H |HRejeitar P1β

0aN1;aα;0

00

As CCO dadas no ábaco V (Apêndice), são usadas para avaliar o valor de . Essas CCO são um gráfico de (ordenadas) versus (abcissas), onde:

2

a

1i

2i

2

σa

τn

49

O cálculo de apresenta algumas dificuldades práticas:

a

1i iii μa1μ onde μμτ 1)

2) necessita-se de uma estimativa de 2 (experiência, um experimento piloto, bibliografia)

Exemplo: dados de absorbância. Suponha que a pesquisadora deseja rejeitar a hipótese nula com pelo menos 90% de probabilidade(1-=90%) se as 5 médias dos trat/os são:

0,2μ 0,8μ 0,3μ 0,7μ 0,6μ 54321

Ela deseja usar =0,05, e neste caso a média geral vale 0,52.

0,320,520,20μμτ0,280,520,80μμτ

0,220,520,30μμτ0,180,520,70μμτ0,080,520,60μμτ

55

44

33

22

11

Assim, 268,01

2

a

i i De um ensaio preliminar encontramos 2=0,06.

50

Temos: nn 893,0

)06,0(5268,02

CCO para a-1=5-1=4, N-a=a(n-1) e =0,05n 2 a(n-1) (1-)4 3,37 1,89 15 0,15 0,855 4,47 2,11 20 0,07 0,93

Assim, a pesquisadora deve utilizar n=5 repetições para realizar o teste com o poder desejado.

Alternativa: é selecionar um tamanho de amostra tal que, se a diferença entre qualquer duas médias exceder um valor especificado, a hipótese de nulidade deve ser rejeitada. Seja D este valor (precisão), então:

2

22

2

anD

Exemplo: dados de absorbância: suponha que a pesquisadora deseja rejeitar a hipótese de nulidade com probabilidade igual a 0,90 (Poder do teste (1-)) se a diferença entre qualquer duas médias for igual a 0,30. Considere uma estimativa para 2=0,015.

51

nn 60,0)015,0)(5(2

)3,0( 22

CCO para (a-1)=(5-1)=4 e a(n-1) g.l. e =0,05n 2 a(n-1) (1-)5 3,0 1,73 20 0,15 0,856 3,6 1,90 25 0,12 0,887 4,2 2,05 30 0,07 0,93

Conclui-se que n=7 repetições devem ser usadas para ter a precisão e confiança desejadas.

Modelo de efeitos aleatórios: a probabilidade de erro tipo II para esse caso é:

0)σ|FP(F1βfalsa é H|HRejeitar P1β

2a-N1;-aα;0

00

As CCO (Ábaco VI, Apêndice) são gráficos onde na ordenada temos a probabilidade de erro tipo II e na a abcissa temos , onde é dado por:

2

2τ

σnσ

1λ

52

2 : quanto da variabilidade na população dos tratamentos deseja-se detectar;

2 : pode ser obtido através de algum experimento ou experiência anterior, bibliografia.

Exemplo: conteúdo de sódio. O pesquisador deseja rejeitar a hipótese de nulidade com 99% de probabilidade se 2

=10. De um experimento anterior sabe-se que 2 =1,0.

)10(11

)10(1 nn

CCO com (a-1)=(6-1)=5 e N-a=42 e =0,01n a(n-1) (1-)3 5,6 12 0,027 0,9734 6,4 18 0,015 0,9855 7,1 24 0,000 1,000

Método do Intervalo de Confiança

Assume-se que o pesquisador deseja expressar os resultados em termos de intervalos de confiança dos efeitos dos tratamentos. Especifica à priori a amplitude dos mesmos.

53

A semi-amplitude do intervalo de confiança (precisão que o pesquisador deseja, isto é, a diferença entre a média obtida no experimento e a média verdadeira) ) é dada por:

n2(QMErro)

aNα/2; t

Exemplo: dados de absorbância: o pesquisador deseja construir com confiança de 95%, um intervalo com semi-amplitude de 0,15. Considere 2=0,015.

Para n=5 repetições, a semi-amplitude do intervalo de confiança é dada por:

162,05/)015,0(2086,2

O qual apresenta uma precisão menor do que a desejada, portanto, vamos aumentar o tamanho da amostra. Para n=6 repetições, temos:

15,06/)015,0(2060,2

Para n=6 repetições encontramos a precisão desejada.

54

2-2 Encontrando efeitos de dispersão

O interesse é descobrir se os diferentes níveis do fator afetam a variabilidade efeitos de dispersão. Neste caso, a variável resposta a ser utilizada será a variância, desvio padrão ou outra medida de variabilidade.

Exemplo. Na fabricação de pão utiliza-se farinha de trigo e de um número menor de outros ingredientes permitidos (fatores em estudo). O objetivo de um programa de qualidade foi a de identificar uma combinação desses ingredientes os quais produzem um alto volume específico de pão e que seja tolerante a flutuações no processo de fabricação. Para esse fim, foi realizado um experimento com 4 formulações (1, 2, 3 e 4), sendo a última uma formulação padrão. Os dados médios de volume específico e desvio padrão estão na tabela a seguir.

ObservaçõesFormulações1 2 3 4

1 501,5 92,63 528,0 29,70 412,5 30,41 463,0 63,642 447,0 15,55 503,5 6,36 392,5 16,26 512,0 2,833 466,5 12,02 566,5 43,13 439,0 35,36 492,0 56,574 469,5 41,72 500,0 24,04 405,0 52,33 478,5 31,82

55

O teste F da ANOVA para os valores médios de volume específico de pão não foi significativo(F=0,2667 e valor do nível descritivo igual a 0,8482), indicando que não existe diferenças entre as 4 formulações.

Para investigar possíveis efeitos de dispersão, usualmente utiliza-se LN(s),como sendo a variável resposta (a transformação logarítmica estabiliza a variância). Os resultados da ANOVA estão na tabela a seguir.



Formulações 7,408 3 2,469 6,24 0,0085Erro 4,789 12 0,396

Observa-se que as formulações afetam o desvio padrão do volume específico do pão, isto é, as formulações tem um efeito de dispersão.

56

LSD test; variable LNDESPAD (volumpao.sta)Probabilities for Post Hoc Tests

MAIN EFFECT: VAR1 {1} {2} {3} {4}

3,871943 2,105592 3,462963 3,5820911 {1} ,001857 ,375988 ,5269362 {2} ,001857 ,010057 ,0061183 {3} ,375988 ,010057 ,793393

4 {4} ,526936 ,0,006118 ,793393

Dos resultados do teste LSD, conclui-se que a formulação 2 produz menos dispersão do que as demais; As formulações 1, 3 e 4, são estatisticamente equivalentes.

2-3 Ajustando curvas de respostas

Quando os níveis do fator são quantitativos, podemos realizar uma regressão polinomial.

Duas etapas: 1) desdobramento dos graus de liberdade de tratamentos (a-1),em regressão linear, quadrática, cúbica, 4 grau, e assim por diante. Geralmente ajusta-se uma regressão quadrática. 2) obter a equação de regressão.

57

Exemplo: produção de milho, em kg/unidade experimental.

Totais dostrat/os

Coeficientes dos contrastes ortogonais(ci)

Dose defósforo

yi. Linear Quadrát. Cúbico 4. grau0 18,59 -2 2 -1 125 33,02 -1 -1 2 -450 33,20 0 -2 0 675 37,40 1 -1 -2 -4

100 38,56 2 2 1 1

a

iii yc

1.Efeito:

44,32 -22,52 11,21 -25,33

Soma de quadrados:

a

ii

a

iii

cn

yc

1

2

2

1. 49,11 9,06 3,14 2,29

58

O novo quadro da ANOVA fica:

Causas devariação

Somade

Quadrados

Grausde

Liberdade

Quadra-dos

Médios

F NívelDescritivo

Doses 63,60 4 15,90 10,22 0,0003(Linear) 49,107 1 49,107 31,56 0,0001

(Quadrático) 9,06 1 9,06 5,82 0,0291(Cúbico) 3,14 1 3,14 2,02 0,1758(4. grau) 2,29 1 2,29 1,47 0,2437

Erro 23,34 15 1,56Total 86,94 19

Observamos que o efeito quadrático foi significativo, portanto, vamos ajustar um polinômio de segunda ordem aos dados, dado por:

)()( 22110 xPxPy

Onde Pu(x) é um polinômio de u-ésima ordem.. Os 3 primeiros polinômios ortogonais são:

59

225

50225

50112

1)(

2550

25501)()(

1)(

2222

22

11

0

xxad

xxxP

xxd

xxxP

xP

Onde d é a distância entre dois níveis de x, a é o total de níveis, e i são constantes obtidas em tabelas. As estimativas de mínimos quadrados dos parâmetros no modelo polinomial ortogonal são:

1,...,1,0

)(

)(ˆ

2 ai

xP

xyP

i

ii

60

Y X P0(x) P1(x) P1(x)2 YP1(x) P2(X) P2(X)2 YP2(X)2,38 0 1 -2 4 -4,76 2 4 4,766,77 0 1 -2 4 -13,54 2 4 13,543,50 0 1 -2 4 -7,00 2 4 7,005,94 0 1 -2 4 -11,88 2 4 11,886,15 25 1 -1 1 -6,15 -1 1 -6,158,78 25 1 -1 1 -8,78 -1 1 -8,788,99 25 1 -1 1 -8,99 -1 1 -8,999,10 25 1 -1 1 -9,10 -1 1 -9,10

. . . . . . . . .

. . . . . . . . .

. . . . . . . .9,50 100 1 2 4 19,00 2 4 19,00

160,77 20 40 44,32 56 -22,46

Para os dados de adubação em milho, as estimativas dos parâmetros do modelo são:

61

401,0)14(446,22

5646,22ˆ

108,1)10(4

32,4440

32,44ˆ

039,8)5(4

16020

160ˆ

2

1

0

A equação de regressão é dada por:

2

22

00064,010849,002036,5ˆ

1215

2550)1(401,0

2550)1(108,1039,8ˆ

xxy

xxy

2-4 Métodos não paramétricos na análise de variância

2-4.1 O Teste de Kruskal-Wallis

Quando as pressuposições básicas da ANOVA não forem atendidas, por exemplo, a variável em estudo não apresenta distribuição normal (notas em escala), heterogeneidade de variâncias, outliers.

É usado para testar a hipótese de que a tratamentos são idênticos contra a hipótese alternativa de que pelo menos dois deles diferem entre si.

R2=

62

Pressuposições: 1) as observações são todas independentes.

2) as a populações são aproximadamente da mesma forma e contínuas

(pode ser abrandada, desde que consigamos ordenar os dados,

exemplo, escala ordinal).Hipóteses:

ji para μμ:Hμ...μμ:H

jia

a210

Método: procedemos a classificação conjunta (em ordem crescente) das N observações, dando ordem 1 à menor e ordem N à maior delas, e substituímos às observações pelos seus postos (ranks). No caso de empates (observações com o mesmo valor), designa-se o posto médio para as observações empatadas. Seja Ri a somas dos ranks do i-ésimo tratamento. O teste estatístico é dado por:

a

1i

2

i

2i.

2 41)N(N

nR

S1H

ni é o número de observações do i-ésimo tratamento e N é o número total de observações.

41)N(NR

1N1S

2a

1i

in

1j

2ij

2

63

Sem empates: 1)/12N(NS2 E o teste estatístico simplifica-se:

1)3(NnR

1)N(N12H

a

1i i

2i.

Critério do teste: para ni5, H tem distribuição aproximada de 2a-1 sob H0.. Assim, se

21aα,χH

rejeita-se H0.

Exemplo: dados de absorbância.

E50 EAW MAW E70 M1My1j R1j y2j R2j y3j R3j y4j R4j y5j R5j

0,5553 14 0,5436 13 0,4748 9 0,6286 24 0,1651 10,5623 16 0,5660 17,5 0,4321 8 0,6143 23 0,1840 20,5585 15 0,5860 21 0,4309 7 0,5826 20 0,2144 40,5096 11 0,5731 19 0,5010 10 0,7498 25 0,2249 50,5110 12 0,5660 17,5 0,4094 6 0,6060 22 0,1954 3

68 88 40 114 15

Olhar o valor p

64

22,39874225,01511440886851

54,14581H

54,14584225,05524,5125

1S 5524,50R

22222

25

1i

5

1j

2ij

O nível descritivo para H=22,3987 com 4 g.l. é 0,0002, portanto, rejeita-se H0.

2-5 Medidas Repetidas

É preciso levar em consideração duas fontes de variabilidade: entre unidades e dentro de unidades (between subjects and within subjects). SUBJECTS=JULGADORES..

Cada degustador usa os a tratamentosdelineamento com medidas repetidas.

A tabela geral dos dados para este delineamento é dada como:

* Teste de comparação de médias não paramétrico.

65

Dados do delineamento com medidas repetidas com 1 fatorSubjects (julgadores) Totais

Tratamentos 1 2 ... n tratamentos1 y11 y12 ... y1n y1.

2 y21 y22 ... y2n y2.

. . . . . .

. . . . . .a ya1 ya2 ... yna yª

Totaissubjects

y.1 y.2 ... y.n y..

O modelo estatístico: ijjiij εβτμy Onde i é o efeito do i-ésimo tratamento e j é o efeito da j-ésima unidade. Assume-se que: tratamentos de efeito fixo e subjects de efeito aleatório (Modelo Misto). 2

βJ 0,σβ

Partição da soma de quadrados total: S.Q. Total = S.Q Entre julgadores + S.Q.Dentro julgadores

a

1i

2n

1j.jij

2n

1j...j

a

1i

2n

1j..ij yyyyayy

66

Graus de liberdade: na-1 = (n-1) + n(a-1)

S.Q. Dentro de julgadores = S.Q.Tratamentos + S.Q. Erro

a

1i

2n

1j...ji.ij

2a

1i..i.

2a

1i

n

1j.jij yyyyyynyy

Graus de liberdade: n(a-1) = (a-1) + (a-1)(n-1)

Hipóteses:0τH

0τ...ττH

ia

a210

Critério do teste:QMErro

sTratamentoQMF0

Rejeita-se H0 se: 1)1)(n(a1,aα;0 FF

2

a

1i

2j

2

2β

2

σE(QMErro)

τ1a

nσE(QMTrat)

aσσQMSujE

67

Exemplo: hamburger de pescado, variável sabor.

JulgadoresTratamentos1 2 3 4 5 6 7

A 3,2 3,0 4,0 4,4 3,6 3,2 4,0B 4,4 2,8 3,4 4,2 2,6 2,8 4,0C 2,0 2,4 3,8 3,6 4,0 2,6 3,8D 2,0 2,4 4,2 3,4 2,2 2,6 4,0

VariaçõesNo modelo

SQ GL QM F NívelDescritivo

Julgadores 7,829 6 1,305 4,01 0,0100Tratamentos 1,798 3 0,599 1,84 0,1753

Erro 5,851 18 0,325Total 15,479 27

Teste para julgadores: 0σ:H 0σ:H 2βa

2β0

Portanto, rejeita-se H0, isto é, o comportamento dos julgadores não é o mesmo, não são equivalentes.

68

Intervalos de confiança:

3,57μ2,373,77μ2,574,06μ2,864,23μ3,03

4

3

2

1

2-6 Análise de Covariância

É utilizada para melhorar a precisão na comparação entre os tratamentos do experimento. Suponha um experimento que junto com uma variável resposta Y (população de staphilococus), tenha uma variável X (população inicial de staphilococus), e que Y e X estejam relacionadas linearmente. Além disso, suponha que X não pode ser controlada pelo pesquisador, mas pode ser observada junto com Y. A variável x é chamada covariável.

A ANCOVA é um ajuste da variável resposta para os efeitos de uma variável perturbadora ( nuisance). Se este ajuste não for feito, a covariável pode inflacionar o quadrado médio do erro e fazer com que diferenças reais entre os tratamentos sejam difíceis de serem detectadas.

A covariável, x, não deve ser afetada pelos tratamentos. Por exemplo, experimento com tratamento de sementes, y = produção da cultura e x = stand inicial (plantas que germinaram).

Observação: A blocagem pode ser usada para eliminar o efeito de variáveis nuisance que podem ser controladas pelo pesquisador.

69

°°°°°°

X

y

°°

°°

°°°

•••• ••

•• ••

1y

2y

X 2X1X

´2y

´1y

é a média corrigida por .´y1 1y X

°

Tratamento 1

Tratamento 2

70

Exemplo: dados de população de Staphilococus aureus, em frango, mantidos sob refrigeração doméstica (-18 graus). O objetivo do experimento é comparar meios de cultura, quais sejam: Baird Paker, Baird Paker Modificado, Vermelho Neutro e Vermelho Neutro Modificado com relação à variável sobrevivência de Staphilococus aos 7 dias de armazenamento. Os dados são mostradas na tabela a seguir.

Dados de pop. de Staphilococus para y = pop. aos 7 dias e x = pop. aos 0 diaBP BPM VN VNM

y x y x y x y x3,1710 3,3507 3,0663 3,4423 3,3903 3,7643 3,5623 3,74473,1857 3,4860 3,1840 3,6617 4,0037 4,0880 3,8820 4,08802,8553 3,0527 2,8300 3,2980 3,8293 4,1053 3,1507 3,88203,5063 3,6577 3,6603 3,7873 3,1637 3,4807 3,2253 3,48073,7740 4,0143 3,7180 3,8953 2,7917 3,7447 3,6393 3,45233,1383 3,7407 4,0263 3,7953 3,7917 3,3903 2,9937 3,5020

19,6307 21,3020 20,4850 21,8800 20,9703 22,5733 20,4533 22,1497

71

A figura mostra um tendência linear entre y = pop7 e x = pop0, isto é, a população aos 7 dias é afetada pela população inicial (0 dia).

2-6.1 Descrição do procedimento

Modelo estatístico (1): ij..ijiij εxxβτμy para i=1,2,...,a e j=1,2,...,n.

Yij é a j-ésima observação da v. resposta tomada no i-ésimo tratamento; xij é a medida feita na covariável correspondente a yij; é a média dos valores de xij, é uma média geral; i é o efeito do i-ésimo trat/o; é o coef. angular de regressão linear e ij é o erro aleatório.

..x

72

Suposição:

aij NID ...,;);;(~ 12 00

a

ii

10

73

Para descrever a análise utiliza-se a notação:

xyxyi.ij

a

1i

n

1ji.ijxy

a

1i

n

1jxxxx

2i.ijxx

a

1i

n

1jyyyy

2i.ijyy

a

1i

....i.i...i.

a

1i..i.xy

a

1i

a

1i

2..2

i.2

..i.xx

a

1i

a

1i

2..2

i.2

..i.yy

a

1i

n

1j

....ijij..ij

a

1i

n

1j..ijxy

a

1i

n

1j

a

1i

n

1j

2..2

ij2

..ijxx

a

1i

n

1j

a

1i

n

1j

2..2

ij2

..ijyy

TSyyxxE

TSxxE

TSyyE

an))(y(x

))(y(xn1yyxxT

anx

xn1)xx(T

any

yn1)yy(T

an))(y(x

yxyyxxS

anx

xxxS

any

yyyS

74

Somas de quadrados:

xx2

xyyy

xx2

xyyyxx2

xyyy

xx2

xy

yy

EEESQErro

EEESSSdo)tos(ajustaSQTratamen

SSoSQRegressã

SSQTotal

Graus de liberdade:

Regressão: 1

Tratamentos(ajustado): a-1

Erro: a(n-1)-1

Total: na-1

Teste da hipótese: 0τ:H i0

11/SQErro)1/(ajustado)SQTrat/os(F0

naa

Rejeita-se H0 se: 1)1(,1;0 FF naa

Use o valor p

ou 43210 H

75

Deve-se ajustar as médias: médias de mínimos quadrados

xxxy

..i.i.i.

EEβ

21 para xxβyy

,...,a,i

Erro padrão de qualquer média ajustada de tratamento:

2/1

2...

ajustada

1

xx

ix E

xxn

QMErroS

Hipótese: 0β:H vs0β:H a0

QMErro

/EEF xx

2xy

0 Rejeita-se H0 se: 1)1(,1;0 FF na

Use o nível descritivo

76

Exemplo: dados de população de Staphilococus. (Arquivo: staplilocousanalisedecovariancia)

Tabela da análise de covariânciaVariaçõesno modelo

SQ GL QM F Níveldescritivo

Regressão 1,2666 1 1,2666 12,41 0,0023Tratamentos

ajustados0,0112 3 0,0037 0,04 0,9903

Erro 1,9395 19 0,1021Total 3,3605 23

Não podemos rejeitar a hipótese H0:i=0, isto é, os valores médios dos meios são estatisticamente equivalentes, com nível descritivo de 0,9903. Rejeita-se a hipótese H0:=0, ao nível descritivo de 0,0023, isto significa que foi importante remover o efeito da população inicial de Staphilococus. Os valores das médias ajustadas com os seus erros padrões são:

Médias ajustadas Erro padrão3,3718 0,13353,4285 0,13053,4064 0,13283,3831 0,1306

77

A estimativa do coeficiente de regressão é:

0,2527s0,8904β

β

Diagnóstico do modelo: os resíduos são dados por:

..

......ii.iji...ijiij

ijijij

ˆ

)(ˆˆ :pois )x(xˆy)x(xˆˆˆy

yye

y

xxyy ii

ββτμ

Exemplo: e11=3,1710-3,2718-0,8904(3,3507-3,55033)

=0.07701Os resíduos estão aleatoriamente distribuídos em torno do valor zero. A faixa de distribuição, -0,5 a 0,5, é curta; não tem outliers. Variâncias homogêneas.

78

A suposição de normalidade é satisfeita.

79

Valores aleatoriamente distribuídos em torno de zero.

Conclusão: de acordo com os gráficos, os resultados da análise estatística podem ser utilizados, pois eles não revelam qualquer problema quanto as suposições do modelo.

Download - 1 1- Experimentos com Um Fator: A Análise de Variância 1.1 Um exemplo. Uma bioquímica (Tecnologia de Alimentos) está interessada em estudar a extração

Top Related