18 feb. 19g1 - inia

D I S E f:I O U E E X P E R l M E N T O S

18 FEB. 19g1

MEDICIONES REPETIDAS -,, N LA

UNIDAD EXPERIMENTAL PRIMARIA

LUIS BARRALES V. Ing. Agr- . Ph.D.

B O L E T I N DE

HUGO FLORES P. T~c.Estadfstico

B I O M E T R I A Nº 9

1 9 9 o S A N T I A G O - C H I L E

MEDICIONES REPETIDAS EN LA UNIDAD EXPERIMENTAL PRIMARIA

La lógica de la estructura de un SPlit Plot puede ser

extendida para cubrir una técnica experimental muy

común, que involucra mediciones repetidas en la unidad

,experimental primaria. El interés del cambio de las

cosas con el tiempo es universal. Cómo crecen los

animales y las plantas, cómo el material es acumulado o

elimin~do de un sistema, cómo cambian los artículos con

el almacenamiento o cómo cambia el comportamiento con la

edad, son preguntas científicas muy comúnes.

La estructura de los datos originada desde mediciones

repetidas en las unidades experimentales es completamen-

te análoga a la que surge desde un Split Plot. Cada

unidad experimental primaria tiene varias medidas

asociadas a ella . En un experimento en Spl i t P lot,

estas mediciones se toman desde las subparcelas, unída-

des experimental es secundarias, dentro de cada unidad

experimental primaria. En un esquema de mediciones

repetidas, estos valores surgen al medi1· varias veces

en la unidad experimental primaria. La unidad primaria

no es subdividida en pequerlas unidades, los tratamientos

no son sorteados, pero un número de mediciones son

tomadas secuencialmente en cada unidad experimental

primaria.

Supongamos que se estudian ocho tratamientos usando un

diserlo completamente al azar; son seis unidades experi-

mentales asignadas a cada tratamiento. Cada unidad se

mide cuatro veces. Existe un interés en las medias de

los ocho tratamientos promediados sobre las 4 mediciones

en el Tiempo. De mayor importancia es, sin embargo, si

el cambio en el tiempo es el mismo en cada tratamiento.

Un análisis que podria usarse para apoyar las conclusio-

nes usando las 192 mediciones podría ser el siguiente.

Fuente de variación

Tratamientos Unidades(Tratamientos) Error(a) Tiempo Tratamiento x Tiempo Residual, Error(b)

Total corregido

Grados Libres

7 40

3 21

120

191

La partición de la suma de cuadrados de las desviaciones

como se bosqueja aqui, es una operación algebraica que

es posible con los números surgidos desde la estructura

descrita . Si están presentes ciertas condiciones,

sabemos que la razón entre el cuadrado medio de tr.ata-

miehtos con el Error(a}, tiene una distribución de F y

que puede usarse para cuantificar la consistencia de la

evidencia para hipótesis sobre las diferencias entre las

medias de tratamientos. Si esta fuese una verdadera

estructura de Split Plot, de tal forma que un tratamien-

to adicional, es este caso Tiempo, hubiese sido

aleator izado dentro de cada parcela completa, entonces

las proporciones de los cuadrados medíos para Tiempo y

para Tratamientos x Tiempo con el Error(b), podrian

también seguir una distribución de F. Sin embargo,

estas proporciones sólo se aproximan a una distr.ibuc ión

de F ya que el factor Tiempo no fue a leatorizado (sorte-

ado). El grado de discrepancia con la distribución de

F, depende de la correlación entre las medidas sucesivas

e n la unidad experimental. Puede visualizarse, aunque

pocas veces estimada adecuadamente, una estructura de

correlaciones tal como:

T I E M p o

1 1 2 3 4

---------------------------T 1 l 1.0 P12 f13 P14 I 1 E 2 l 1. o f 23 f 24 M 1 p 3 l l. o f 34 o 1

---------------------------

Los Q1 s en la tabla, representan las correlaciones entre

dos tiempos tal como son por ejemplo los valores regis-

trados en la misma unidad experimetal en el tiempo uno y

el tiempo tres, P1:r Se puede esperar que P12· r23 y

~34' las correlaciones entre tiempos adyacentes sean

mayores que entre tiempos Separados ¡ tales como r13 ó

(14 y que la correlación más pegueiia se1·ia r14" por

supuesto, pueden ocurrir otras tendencias de correlacio-

nes. El supuesto requerido para que la proporción de

los cuadrados medios involucrando al Tiempo con el

Error(b) 1 siga una distribución de F es que todas estas

correlaciones sean las mismas. La forma usual de que

este supuesto esté presente es a través de una

aleatorízación física de los tratamientos en la

subparcela dentro de cada parcela principal. Con la

aleator izac ión no hay bases para suponer que las res

puestas a los tratamientos uno y dos est~n m~s correla

cionadas que las respuestas a los tratamientos uno y

cuat1·0. Es decir, los tratamientos con nómeros

contigüos, no implican parcelas contigüas, así como

tiempos con ndmeros contigUos implican observaciones más

estrechamente ligadas .

La hetereogeneidad de esta estructura de correlRciones

d¿ como resultado que las distribuciones de los

cuocientes entre cuadrados medios sean mas planas que la

correspon- diente distribución de F definida por los

grados de libertad dados por el análisis. Es decir, las

distribuciones tienen una mayor frecuencia en las dos

colas que los F' s correspondientes. El resultado de

esto es que se subestima la probabilidad de un mayor

valor de F al comparar el valor calculado con los

valores tabulados de F . Esto significa, que se pueden

encontrar demasiados resultados significativos cuando se

tratan situaciones con mediciones repetidas, como si

fuera un Split Plot estándar. En vez de que sólo un

cinco por ciento de los valores F's excedan al O.OS de

la tabla, cuando no existe un verdadero e fecto del

tiempo, tal vez un ocho o un diez poi: ciento de estos

F's calculados lo excederán . Asi, las pruebas realiza

das son aproximadas y siempre sesgadas, al entregar

demasídos resultados significativos . Ciertas correccio-

ne::; y compensaciones son posibles para estas situacio -

nes. Es importante reconocer que estas distorciones en

los cuocientes F, surgidos del uso de mediciones repeti

das como si ellas representaran técnicas de un experi

mento en Split Plot estándar, no son grandes en muchos

casos y pocas veces justifican el rechazo de toda la

conveniencia que el análisis de varianza proporc iona,

apoyando la interpretación de tales estnicturas de

datos . La naturaleza de las mediciones repet .idas en una

subparcela, no compromete de ninguna manera las pruebas

de la parcela principal.

METODOS PARA CORREGIR LAS DISTORClONES EN LAS PRUEBAS DE SIGNIFICANCIA PRESENTADAS POR LAS MEDICIONES REPETIDAS

En la sección previa se explicó que los valores calcula -

dos de F provenientes de mediciones repetidas de un

análisis, no seguía una distribución de F, indicada por

los grados libres de ese análisis. Las distribuciones

reales de los F 's calculados son aproximadas por la

distribución F pero se basan en grados libres sustan-

cialmente menores que aquellos propoz-cionados aparente-

mente por los datos. Esto lleva a la sugerencia de

probar los valores de F calculados con valores tabulados

con menores grados de libertad que los indicados por el

análisis. La reduce ión apropiada de los grados de

libertad a usar en la búsqueda de los valores tabulados

de F, depende de la naturaleza del tipo de correlación,

como fue explicado en la sección pr evia. Usualmen'te no

conocemos y no podemos estimar este patróri por lo que

actuamos conservativamente y asumimos el peor caso

posible. Sí cambiamos los grados de libertad para

Tiempo y de todas sus interacciones, dividiendo por los

grados de libertad de Tiempo y usamos estos valores

conservativos para entrar a la tabla de F, los valor es

criticas en la tabla aproximarán o exageraran la proba -

bilidad de que nuestros cuocientes calculados excedan

los valores tabulados.

El anjlisis bosquejado en la sección anterior podria ser

resumido asi :

Fuentes de Variación Grados libres

Tratamientos Unidades(tratamientos) E(a)

Tiempo Tratamientos x Tiempo

Residual, Error(b)

Total corregido

7 49

120

191

3 21

Grados Libres Conservativos

3/3 = 1 21/3 = 7 120/3 =40

El análisis de Varianza completo podría desarrollarse como

si fuera una estructura de Spl it P lot normal. El ú11ico

cambio aparecerá cuando usemos la tabla de F para probar la

signif icancia de los factoz·es Tiempo y la ir1teracción de

Tratamientos x Tiempo. Entonces, en vez de compar:ar los

cuocientes F's calculados con 3 y 120 ó con 21 y 120 grados

de libertad, usaremos valores tabulados para 1 y 40 ó 7 y 40

grados de libertad.

Otro enfoque es posible para mediciones repetidas, si la

tendencia sobre el Tiempo pudiera ser r esumida por un

estadigrafo que exprese esa tendencia. Supongamos que la

tendencia con el Tiempo es lineal y que la pendiente de la

línea ajustada es una útil medida de comparación. En el

desarrollo de las mediciones, la ganancia diaria es a menudo

de interés y, en porciones lineales de la curva de crecí-

miento seria meramente la pendiente de la curva que relacio

na el peso con los dias . A menudo, todos los factores que

cambian con el tiempo pueden ser resumidos mediante líneas

rectas si se usan las escalas apropiadas. En tales situa

ciones, se puede ajustar una linea para cada unidad experi

mental y las pendientes de estas lineas pueden ser examina

das con cualquiera de las técnicas disponibles para manipu

lar ulla simple m~dición en cada unidad. Las dificultades de

las mediciones repetidas son evitadas, reduciendo las

mediciones repetidas a un simple valor de resumen para cada

unidad. Este valor puede ser una pendiente, un intercepto o

el coeficiente del componente cuadrático en un polinomio de

segundo grado. Por ejemplo, las 48 unidades experimentales

usadas en el experimento delineado en la sección anterior,

fueron medidas cuatro veces cada una. Podría calcularse la

pendiente de la linea ajustada a estos puntos, para cada

unidad. Un análisis de Varianza de una forma de clasifica

ción para las 48 pendientes indicaría, 7 grados libres para

tratamientos y 40 grados libres para Unidades (tratamien-

tos). Un efecto significativo pa1·a tratamientos indicaría

que eKistieron diferencias entre las pendientes (proporcio

nes de cambio). Las diferencias en las pendientes de

tratamientos podrían detectarse como parte de la interacción

de Tratamientos con Tiempo en el análisis sugerido en la

sección previa, pero el análisis de una forma de clasifica

ción recien mencionado para las pendientes evita las conse-

cuencias (problemas) suscitados por la estructura de co.rre-

laciones de las mediciones repetidas.

El análisis alternativo sugerido aquí, puede ponerse en el

contexto de los análisis pi·ev ios y utilizar las mejores

partes de ambos acercamientos. Pensemos primero en la

subdivisión de la suma de cuadrados de Tiempo en un campo-

nente lineal, la sígnif icancia del cual nos indicaría la

pendiente de una línea recta ajustada a travéz de todas las

mediciones de Tiempo. Si la suma de cuadrados para Tiempo

puede ser particionada, entonces las interacciones que

involucran a Tiempo pueden descomponerse de igual forma. El

residual, llamado Error( b), en el análisis, puede conside-

rarse para propósitos de cálculo como la interacción de

Tiempo con Unidades dentro de tratamientos .

Este concepto permite que el análisis sea detallado de la

siguiente manera:

Fuente de Variación G1·ados 1 ibres

Tratamientos Unidades (Tratamientos) Tiempo

Tiempo [,ineal Tiempo Cuadrático Falta de ajuste

Tratamientos x Tiempo Tratamientos x Tiempo lineal Tratamientos x Tiempo cuadr~tico Tratamientos x Falta d~ ajuste

Residual ó Unidades(T1:at) x Tiempo Unidades (Trat) x Tiempo lineal Remanente

7 40

3

21

1 1 1

7 7 7

120 40 80

Si el error residual es dividido como se muestra, entonces

la porción clasificada como si proviniera de la interacción

de unidades dentro de tratamientos con la tendencia lineal

de T tempo, es un error apropia.do para pi:obaJ:· la tendencia

lineal de Tiempo y su interacción con Tratamientos. Los

cuocientes F forma.dos por estas pruebas, seguirán una

distribución F indicada po1· los grados libres y no se

requiere de un ajuste en estos grados libres.

Supongamos que el análisis delineado en esta sección indicó

que la tendencia general del Tiempo fue esencialmente line~l

y las pendientes de las lineas no fue la misma para todos

los Tratamientos. Es decir, la interacción del Tiempo

lineal con Tratamientos fue estadisticamente significativa.

Esto implica mucho si no está establecido específicamente

por este análisis. Pr ímero, creemos que esta tendencia

puede ser aproximada en forma ütil y razonable por una linea

recta. Además que no sólo una 1 ínea es la adecuada, sino

mas bien, que la pendien t e cambiará con los tratamientos,

dando diferentes lineas para cada tratamiento.

Pueden emplearse muchos otros modelos y justificados proba

blemente por el conocimiento de las fuerzas gue act6an en el

sistema. Hemos escogido uno de estos ajustes y dado una

aparente explicación. La discusión podría detenerse en este

punto, sin embargo, muchos ven la necesidad de continuar la

prueba, considerando las diferencias de los tratamientos en

cada Tiempo. Una prueba de significancia estadística es

desarrollada en las medias de tratamientos en cada punto del

Tiempo y a menudo, usando sólo las observaciones en ese

punto para estimar el error experimental. Las afirmaciones

derivadas desde tales an~lisis a menudo implican que hasta

un cierto Tiempo no hay diferencias entre los tratamientos,

las que si son aparentes a partir de ese Tiempo. La confu

sión se presenta aquí con el problema que las diferencias

estadísticamente no significativas no implica que no existan

diferencias subyacentes, sino mas bien y muy a menudo, que

el tamado de las muestras es muy pequerlo y el error

exper iemental demasiado grande como para detectar diferen

cias. Una vez que hemos establecido y que creemos que

existen lineas con pendientes diferentes que caracterizan

las relación entre la respuesta y el Tiempo, no podemos

escapar a la conclusión de que los tratamientos difieren en

cada punto a lo largo del Tiempo, excepto en aquel punto en

el cual las lineas de dos tratamientos distintos se cruzan.

Además podemos detectar diferencias significativas entre

promedios, usando una prueba de t en un punto en particular

del Tiempo, entonces se convierte meramente en una función

del tamaño del experimento, a menos que, estemos justo en e l

punto en el cual se cruzan dos 1 ineas. Dada la ecuación

para las dos lineas, es posible calcular el punto de inter-

sección. El punto es aquel que a la vez haya sido escogido

por un modelo lineal o algún otro modelo polinomial para

representar l a relación de

Tiempo . Pruebas estadísticas

diferencias en un Tiempo en

innecesarias.

la respuesta con el factor

posteriores para determinar

particular son redundantes e

Ejemplo de un an~lisis de la situaci6n estudiada se presenta

a continuaci6n:

Un ensayo intenta probar siete tratamientos que pueden

interferi r e n la a t racci6n de insectos . Se supone que

cuando hay una s ubstancia presente, los macbos son menos

atraídos que l a s hembras. Se estudian seis substancias

q u ímicas y un tes tigo, cada una de ellas en tres trampas en

un disedo compl etament e al azar. Se registra el ncimero de

hembras en cada trampa en cada semana, durante 5 semanas.

Los datos son los s iguientes:

TRATAMIENTOS Fecha Tr amp a A B e D E F G

---------------------------------------------1 1 18 28 17 3 19 16 18

2 23 27 21 1 3 6 12 25 3 14 8 17 3 9 10 34

2 1 34 27 22 9 33· 23 19 2 24 20 13 7 11 9 33 3 20 19 14 2 1 11 43

3 1 13 25 23 8 30 17 15 2 33 22 13 12 15 6 33 3 8 6 5 2 5 1 29

4 1 9 15 13 7 10 3 8 2 12 8 5 4 5 2 8 3 5 4 4 2 2 1 10

5 1 9 20 11 6 19 3 8 2 10 5 3 3 9 5 10 3 4 3 7 o 1 4 2

----------------------------------------------

Las instrucciones SAS que se detallan a continuación producen el

análisis de varianza básico para esta situación experimental.-

data ejem; do tiempo =1 to 5; do trampa =1 to 3; do trat = l to 7; input hembras @ @;

output;end;end;end¡ cards; 18 28 17 3 19 16 18 23 27 21 13 6 12 25 14 8 17 3 9 10 34 34 27 22 9 33 23 19 24 20 13 7 11 9 33 20 19 14 2 1 11 43 13 25 23 8 30 17 15 33 22 13 12 15 6 33 8 6 5 2 5 1 29 9 15 13 7 10 3 8 12 8 5 4 5 2 8 5 4 4 2 2 1 10 9 20 11 6 19 3 8 10 5 3 3 9 5 10 4 3 7 o 1 4 2 proc anova;class trat tiempo trampa; model hembras= trat trarnpa(trat) tiempo trat*tiempo; test h=trat e=trarnpa(trat}; title 'analisis de varianza spli t plot en e . a. ;

analisis de varianza split plot en e . a . l

Analysis of Variance Procedure Class Level Information

Class Levels Val u es

TRAT 7 1 2 3 4 5 6 7

TIEMPO 5 1 2 3 '~ 5

TRAMPA 3 1 2 3

Number of observations in data set = JOS

analisis de varianza split plot en e.a . 2

tmalysis of Variance Proccduro

Dependent Variable: HEMBRAS Sum of Mean

Source DF Sq_uares Square F Val u e Pr >

Model 46 8175. 428571 170 . 32142.9 6. 9ft 0.000

Error 56 1366 . 000000 24.392857

Corrected Total 104 9541. 4285 71

R- Square c.v. Root MSE HEMBRAS Mean

0 . 856835 38.84538 4.938913 12 . 7142857

Source DF Anova SS Mea.n Square F Value Pr > F

TRAT 6 2129.695238 354. 9'~9206 14.55 0 . 0001· TR/\MPL\(TRAT) 14 2433.333333 173 . 8()95211 7 . 13 0.0001 TIEMPO 4 2716.476190 679 . 119048 27 . 84 0.0001 TRAT''(TIEMPO 24 895 . 923810 37.330159 l. 53 0.0964

Tests of Hypothe::;es using the /\nova MS for TRAMPA(TRAT) as an error term

Source DF Anova s::; Mean Squore F Value Pr > F

TRAT 6 2129 .695238 354. 949206 2.04 0.1271

Por lo tanto, el análisis de varianza básico es el siguiente:

F.V. GL. s. c. C.M. f. Pr.

TRAT 6 2129.695238 354. 949206 2.04 0.1271 TRAMPA(TRAT) 14 2433.333333 173.809524 TIEMPO 4 2716.476190 679 .119048 27.84 0 . 0001 TRAT*TIEMPO 24 895.923810 37.330159 1. 53 0 . 0964 Error 56 1366.000000 24.392857

Corrected Total 104 9541.428571

Corresponde ahora realizar la descomposición po llnóm:Lca de las fuentes de varación e n las

que participá Tiempo. Las instruccio11es SAS para realizar lo ante rior son las siguien-

tes . -

data ejem; do tiempo =1 to 5; do t rampa =l to 3; do trat =1 to 7; input hembras @ @; tiempol=tiempo; tiempoq=tiempo*tiempo; output;end;end;end; cards; 18 28 17 3 19 16 18 23 27 21 13 6 12 25 14 8 17 3 9 10 34 34 27 22 9 33 23 19 24 20 13 _7 11 9 33 20 19 14 2 1 11 43 13 25 23 8 30 17 15 33 22 13 12 15 6 33 8 6 5 2 5 1 29 9 15 13 7 10 3 8 12 8 5 4 5 2 8 5 4 4 2. 2. 1 10 9 20 11 6 19 3 8 10 5 3 3 9 5 10 4 3 7 o 1 4 2 proc glm;class trat t rampa; model hembras= trat trampa(trat) tiempol t i empoq tr.at''<tiempol trat1<tiempoq Tiempol*trampa(trat) tiempoq>'<trampa(trat) (ss 1; test h=trat e=trampa(trat); test h=trat*tiempol e=tiempol'>'<trampa( trat); test h=trat*tiempoq e=tiempoq*trampa(trat); ºtitle 'analisis de varianza. split plot con d escomposj cion en tiempo

analisi.s de varianza split plot con descomposicion en tiempo

General Linear Models Procedure Class Level Information

Cl.ass r.evels Va lues

TRAT 7 1 2 3 4 5 6 7

TRAMPA 3 1 2 3

Number of observations in da t a set = 105

1

analisis de varianza split plot con descompo~icion en tiempo 2

General Line~r Models Pr ocedure

Dependent Variable: HEMBRAS

Source DF

Model 62

Error 42

Correcte.d Total 104

R-Square

0.852169

Sonrce

TR/\T TR/\MPA(TRAT) TIEMPOJ, TIEMPOQ TIEMPOV'<TRAT TIEMPOQ•'<TRAT TIEMPOUrTRAMPA( TRAT) TIEMPOQ">'<TRAMPA(TRAT)

Tests of Hypotheses

Source

TRAT

Tests of Hypotheses

Source

TIEMPOJ_,>'<TRAT

Tests of Hypotheses

Source

TIEMPOQ>'<TRAT

DF

6 14

1 1 6 6

14 14

using the

DF

6

using tbe

DF

6

ustng the

DF

6

Sum of Sqnares

8130.914286

1410 . 514286

9541. 428571

c.v.

45.57977

Type I SS

2129 . 695238 2l• :D . 333333 2042.976190

145.744898 551. 723810 131. 707'•83 416.400000 279.333333

Type I MS for

Type I SS

2129 . 695238

Type 1 MS for

Type I SS

55 l,. 7238095

Type I MS for.

Type I SS

131. 7074830

Mean Sq1rnre F Velue Pr > F

131.143779 3.90 O.OOOJ

33 .58367 3

Root MSE llEMBR.AS Mea.n

.5.795142

Hean Squa re

35l~. 949206 173. 809521+

2042.976190 145.74li898 91. 953968 21. 95121•7 29 . 7l•2857 19 .95238 1

F Va.lue

10.57 5 . 18

60.83 4. 31+ 2.74 o.6s 0.89 0.59

l 2. 714285 7

Pr > F

0.0001 0 . 0001 O.ÓOOl 0 . 0434 0.0245 0.6870 0.5790 0.8542

TRAMPli(TRAT) as a.11 error terrn

Mean Square F V1üue Pr > F

351+ . 949206 2.04 0 . 1271

TJEMPOT;>'<TRAMP /\ ( TRAT) AS Rn error ter.:m

M~an S<i'"'' re F. Value Pr > F

91 . 9539683 3 . 09 0.0383

Tf EMPOQ*TRAMPA(TRAT) as 811 error term

Melln Sqtrn. n~ F Val11e Pr > F

21 . 95 J 2472 t. 10 0.4095

El resultado de este 6ltimo análisis debe integrarse al an&lisis básico procesado anteriormente> con el objeto de obtener c:>.l Análisis de Varianza completo.

F.V. GL. s . c. C.M . F . Pr .

TRt\T 6 2129 .695238 354. 949206 2.04 o . 1271 TRAMPA(TRAT) 14 2433.333333 l.73.809524 TIEMPO 4 2.716 . 476190 679 . 119048 27.84 0 . 0001 TIEMPOL l. 2042 . 976190 204.2. 976190 60 . 83 0.0001 TIEMPOQ 1 145 . 7l~4898 145.744898 4.34 0 .0434 Falta de ajuste 2 527.7.55102 175.918367 TR.l\ T1'<"TIEMPO 24 895. 923810 37 . 330159 1.53 o. 0964 TIEMPOL'i<TRAT 6 551 . 7238095 9 L. 9539683 3 . 09 0.0383 T IEMPOQ'>'<TRA T 6 131. 7074830 21 . 9512472 1.10 0 . 4095 TRAT1°'"Falta de ajuste 12 212. 4925 l.75 17 . 7077098 Trampa.( t ra t) 'irT iempo 56 1366 . 000000 24 . 392857 TIEMPOL*TRAMPA(TRAT) 14 416 . 400000 29.742857 0.89 0.5790 TIEMPOQ*TRAMPA(TRAT) 14 279.333333 19 . 952381 0.59 0 . 8542 Remanente 28

Total Corregido 104 9541. 4285 71

18 feb. 19g1 - inia

Documents