diseÑo de bloques aleatorizados - hosting miarroba · web viewlas medias de las poblaciones son...

29
DISEÑO DE BLOQUES ALEATORIZADOS Cuando “tratamiento=población” las unidades experimentales de cada muestra se clasifican en grupos homogéneos llamados bloques de forma tal que los bloques sean del mismo tamaño en todas las muestras. (se pueden desechar unidades sobrantes). Cuando “tratamiento= proceso” las unidades disponibles para el experimento se clasifican en grupos homogéneos (bloques) y luego las unidades de cada bloque se asignan al azar en cualquiera de los tratamientos, con la condición de que al asignase todas, los bloques sean del mismo tamaño en todos los tratamientos. (se pueden desechar unidades sobrantes).

Upload: others

Post on 31-Oct-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

DISEÑO DE BLOQUES ALEATORIZADOS

Cuando “tratamiento=población” las unidades experimentales de cada muestra se

clasifican en grupos homogéneos llamados bloques de forma tal que los bloques sean del

mismo tamaño en todas las muestras. (se pueden desechar unidades sobrantes).

Cuando “tratamiento= proceso” las unidades disponibles para el experimento se clasifican

en grupos homogéneos (bloques) y luego las unidades de cada bloque se asignan al azar

en cualquiera de los tratamientos, con la condición de que al asignase todas, los bloques

sean del mismo tamaño en todos los tratamientos. (se pueden desechar unidades sobrantes).

El objetivo de este diseño es evitar que en la comparación entre tratamientos

intervenga la variabilidad entre bloques. En experimento con animales los bloques se

pueden conformar a partir de características tales como sexo, edad, peso inicial, estadío de

lactancia. Los bloques también pueden representar laboratorios, días, operadores, etc.

Page 2: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

Puede utilizarse cualquier número de bloques y de tratamientos. Este diseño, cuando es

posible implementarse, puede ser más preciso que el diseño totalmente aleatorizado.

Resolución del diseño (de forma manual)

1. Plantear:

Ho: Los procesos no difieren significativamente en efectividad.Ó

Las medias de las poblaciones son todas iguales.

Ha: Los procesos difieren significativamente en efectividad.Ó

Las medias de las poblaciones no son todas

2. Elegir α. Si rechazamos Ho al finalizar la prueba, entonces la probabilidad de haber tomado una decisión errónea, es decir la probabilidad de que Ho sea en realidad cierta, es una probabilidad menor que α . En particular le asignaremos a α el valor de 0.05 = 5%

3. Calcular las sumas de los tratamientos X.j y las sumas de los bloques X i . en la siguiente tabla

Tratamiento 1 Tratamiento 2 ......... Tratamiento k SUMAS:Bloque 1 X11 X12 ... X1k X 1•

Bloque 2 X21 X22 .... X2k X 2•

Bloque 3 X31 X32 ... K3k X 3•

….. ........…… .........Bloque n X n, 1 X n,2 X n , k X n•

SUMAS: X•1 X•2 …….. X•k X••

Considere que n es el número de bloques y k es el número de tratamientosAdemás : X••= X•1 + X•2 + X•3 +.....

Page 3: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

N= k n (N es el total de datos)

4 Construir la siguiente tabla ANDEVA :

FUENTE DE VARIACIÓN

GRADOS DE LIBERTAD

SUMA DE CUADRADOS (SC)

CUADRADOS MEDIOS (CM)

Tratamientos k-1 X•12 /n +

X•22 /n +

X•3 2 /n + +....... - X••

2/N

SC trat / (k-1)

Bloques n-1 X1• 2 /k + X2•

2 /k + X3• 2 /k+ +....... - X••

2/ N

SC bloques / (n-1)

Error (k-1) (n-1) SCtotal-SC trat -SCbloques SCerror / (k-1) (n-1)

Total N-1 X112 + X12

2 + X132 +........

X212 + X22

2 + X232 + …..

X312 + X32

2 + X332 +........

- X••2/ N

Además: F calc. = CM trat / CM error

F teórica= F 1- α, k-1, (k-1)(n-1)

5. Si Fcalc. mayor que F teórica rechazar Ho. (aceptar Ha) Si Fcalc. menor o igual que F teórica aceptar Ho.

Nota: si deseamos comparar la variabilidad entre bloques, compare CM trat / CM error contra F 1- α, n-1, (k-1)(n-1)

Ejemplo: Se realiza un estudio del efecto de la luz sobre el crecimiento de los helechos.

Puesto que las plantas crecen con velocidad distinta a edades diferentes, se controla esta

variable mediante bloques. En el estudio se utilizan 4 plantas neonatas (plantas crecidas en

Page 4: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

la obscuridad durante cuatro dias ), cuatro plantas jóvenes (plantas crecidas en la

obscuridad durante ocho dias ) y cuatro plantas mas viejas (plantas crecidas en la

obscuridad durante doce dias ). Resultaron los siguientes datos (el crecimiento viene dado

en cronómetros cuadrados). Realizar la comparación.

tratamientos

420 nm 460 nm 600 nm 720 nm

Neonata 1412 1001 1027 1112

Joven 1217 929 839 1081

Adulta 954 689 741 797

bloques

Ejercicio. Se seleccionan ramas de distintos árboles de la especie Sitka. Se pretende aumentar la producción de semillas de la especie toda vez que es la más importante en el Reino Unido desde el tipo de vista económico, pero la especie posee una regeneración natural escasa. Se prueban cuatro tratamientos hormonales para aumentar la producción de semillas. Dado que cada árbol posee distintas características naturales de reproducción, se controla el efecto de cada árbol mediante bloques, donde cada árbol es un bloque. Se escogen ramas de cada árbol, se les suministra la hormona y al final del experimento se cuenta el número de semillas de la rama. Los siguientes datos son el número de semillas por rama. Realiza la comparación.

Hormonal A Horm. B Horm. C Horm. D

Árbol 193 94 96 100

Árbol 2 94 93 98 99Árbol 3 92 94 95 97Árbol 4 97 96 100 102

Se registran con chips y se comparan los kilómetros que en un año recorren elefantes adultos machos de 3 distintas especies, no obstante, es sabido que el tipo de vegetación puede ser un factor que influya en las distancias y por tanto se le controla manejándolo como bloques; así entonces fueron elegidos 6 animales, de distintas especies y de distinto hábitad. Realiza la comparación de las especies. (los datos están en miles de kilómetros)

Africano Asiático Hindú Asiáticode Indonesia

Tropical4.2 2.1 1.5

Semi árido 3.1 1.3 0.6

Page 5: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

PREMISAS DEL ANÁLISIS DE VARIANZA

El ANDEVA es una prueba paramétrica y para que pueda ser aplicada es necesario que se cumplan las siguientes condiciones:

1. ALEATORIZACIÓN Esta es la premisa ó condición básica y su incumplimiento puede implicar que las demás condiciones no se cumplan. La aleatorización se refiere al procedimiento de escoger los elementos ó unidades de forma aleatoria para la conformación de las muestras ó grupos. Reconocemos que a veces es imposible en la práctica recoger los elementos de forma estrictamente aleatoria, pues en ocasiones los pocos elementos que difícilmente se llegan a obtener ó recolectar serán usados todos para integrar las muestras; en tales casos lo menos que se puede esperar es que dichos elementos sean representativos de los grupos ó tratamientos respectivos; de ahí que algunos autores se inclinen por evocar la representatividad en lugar de la aleatorización cuando hablan de las premisas del ANOVA. Aún la representatividad puede ser flagrantemente violada. Suponga un caso cuando los tratamientos son alimentos para engorda, y los elementos son cerdos; si se escogieren al azar cerdos hembra para integrar unas muestras y aparte cerdos machos para integrar otras muestras entonces la representación de cerdos por uno y otro sexo no tendría justificación.

2. INDEPENDENCIA DE ERRORES. Es una condición fuertemente asociada con la aleatorización y con la cual suele confundirse. La independencia de errores la podemos explicar cómo la condición de que los elementos de cualquier muestra ó grupo no sean (casi) todos elementos que se posicionaban de manera adyacente ó contigua (junta) en términos geográficos. Suponga por ejemplo el caso donde los elementos son parcelas y suponga que varias parcelas adyacentes aparecen en una misma muestra ó tratamiento. Es sabido que las parcelas adyacentes dan siempre resultados similares; luego dichas parcelas tendrán efectos similares en la muestra a la que pertenecen.

3. IGUALDAD DE VARIANZAS Esta condición se refiere a la necesidad de que las varianzas de cada grupo ó tratamiento sean (casi) iguales. A esta condición también se le conoce como homocidasticidad. Lindman (1974, p. 33) demostró que el análisis de varianza es una técnica robusta ( poco afectada) ante las violaciones de ésta condición; no obstante, para quienes deseen ejecutar algunas de las pruebas tradicionales de igualdad de varianzas, el programa Statistica ofrece en la ruta ANOVA→more

Page 6: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

results→Assumptions → Cochran, Hartley, Bartlett. Esas técnicas, Bartlett´s; Hartley´s y Cochran´s; arrojarían la siguiente tabla para ciertos datos:

donde p=0.818345 y es mayor al nivel de significancia α=0.05; por tanto no existe evidencia suficiente para rechazar la hipótesis nula que afirma que las varianzas de los tres tratamientos son iguales. La lectura de la imagen anterior, es en términos generales:

p menor que 0.05 Se acepta Ha Las varianzas poblacionales no son todas iguales.

p mayor que 0.05 Se acepta Ho Las varianzas poblacionales son todas iguales.

4 . POBLACIONES NORMALES Aunque en teoría se requiere que exista normalidad en las poblaciones de las que se extrajeron las muestras, Lindman (1974) demostró que la prueba F es robusta ante la ausencia de normalidad. No obstante, quienes pretendan realizar algún test de normalidad, Statistica ofrece el diagrama normal p-p en la ruta: ANOVA→more results→Assumptions→ Distribution of var within groups; el cual presenta de manera gráfica los valores observados del grupo y los valores esperados en el caso de que siguieran una distribución normal, por ejemplo, para el grupo “lugar 1” el diagrama es:

el cual revela que dicho lugar tiene a sus elementos con distribución casi normal (los puntos azules se posicionarían en la línea roja si la distribución fuese normal exacta). Dicha prueba lamentablemente no ofrece un valor para determinar la ausencia o no de la normalidad. No obstante, otro módulo del programa se halla en la ruta graphs→ 2D graphs→normal probability plots , el cual aplicado para cierto “tratamiento 1” exhibe la tabla:

Page 7: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

y el mismo presenta el valor del test Shapiro- Wilks con p=0.5142 que es mayor al nivel de significancia α=0.05; por tanto no se rechaza la hipótesis nula que afirma que la población de la cual se extrajo la muestra del “tratamiento 1” está distribuida normalmente; así entonces este lugar ha aprobado la condición de normalidad; (falta hacer la misma prueba en el “tratamiento 2” y en el “tratamiento 3”). Cabe recordar que cuando las muestras son lo suficientemente grandes (mayores a 30 por ejemplo) entonces podemos desatender la condición de normalidad pues el teorema del límite central enseña que la condición de normalidad es suplida por la normalidad en la distribución normal de medias, según lo expuesto en un curso anterior. Otra prueba para probar normalidad es Kolmogorov Smirnov. Para su aplicación disponga los datos de una forma distinta en Statistica: los datos de cada tratamiento en una columna distinta, siga la ruta:

Statistics→ Basic Statistics / tables → Descriptive Statistics→ok→ Normality→ Variables→ (elegir variables) →Ok → Kolmogorov Smirnov& liliefors test for normality→ Histograms

Para la lectura de esta prueba aplicada:

p menor que 0.05 Se acepta Ha Las población no está distribuida normalmente.

p mayor que 0.05 Se acepta Ho Las población está distribuida normalmente.

Page 8: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

TRANSFORMACIONES.

El hecho de que los datos de un problema en particular no satisfagan las últimas dos condiciones no implica que no existan procedimientos alternos para probar el objetivo de si las medias de las poblaciones son ó no son iguales. Las dos primeras condiciones son necesarias para cualquier prueba de ANDEVA y cualquier otra prueba estadística creada; pero si esas dos primeras condiciones son satisfechas y sólo las condiciones 3 y/o 4 no son satisfechas entonces podemos valernos de transformaciones de los datos para alcanzar la normalidad y la homocidasticidad. En el caso de que dichas transformaciones no sean útiles para alcanzar dichas características entonces nos podemos valer de las pruebas no paramétricas que se explicarán en otro capítulo. En esta sección hablaremos en principio de las transformaciones más utilizadas y luego de los métodos para elegir la transformación adecuada para los datos.

Principales transformaciones.

Transformación logarítmica Esta transformación se utiliza cuando la media es proporcional a la desviación estándar. Se requiere comúnmente en ejemplos donde se involucran poblaciones grandes como el caso de índices de zooplancton en pastos, actividades enzimáticas de bacterias, producción primaria en agua de mar, etc. La transformación logarítmica tiende a producir normalidad en los datos y además iguala las varianzas.

Para saber si existe esa proporcionalidad basta ver en Statistica en la ruta ANOVA→more results→Assumptions el diagrama de dispersión que contrasta las medias y las desviaciones estándar de los grupos ó muestras. Para el ejemplo del río se tiene:

la proporcionalidad existe a medida que los puntos se orienten en una línea recta. No se presenta esa tendencia de recta para el diagrama en cuestión , por tanto no existe la proporcionalidad para ese ejemplo. La función más común de logaritmos es la de base

Page 9: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

diez: log 10(x) pero se puede utilizar también cualquier otra base de logaritmos como los logaritmos neperianos: log e(x). Si existen datos con valores de ceros ( el log (0) no existe) entonces se pueden utilizar log 10(x+1) ó similares donde se suma a la x una constante pequeña como 1 ó 0.5. Para la conversión de datos a la escala logarítmica utilizando Statistica, considere el ejemplo del río (aunque vimos que dicho ejemplo no requiere esa transformación) donde los datos se vaciaron inicialmente según el siguiente diagrama:

luego siga en data→batch transformation formulas, en el siguiente cuadro de diálogo escribirá lo que se ilustra:

donde la fórmula añadida v3=log(v2) hace referencia que en una tercera columna (v3) presentará los logaritmos de los datos de la segunda columna (v2), esta operación añadirá la tercera columna que contiene los logaritmos:

Page 10: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

Transformación raíz cuadrada.

Esta transformación se utiliza cuando la media es proporcional a la varianza. Se requiere comúnmente en ejemplos donde se cuentan elementos por unidad de área ó unidad de tiempo; tales como células sanguíneas en un hemacitómetro, cantidad de bacterias en recipientes de petri, número de hojas por metro cuadrado, etc. Todas esos ejemplos son distribuciones de Poisson, los cuales tienen media igual (ó proporcional) a la varianza. .

Para saber si existe esa proporcionalidad basta ver en Statistica en la ruta ANOVA→more results→Assumptions el diagrama de dispersión que contrasta las medias y las varianzas de los grupos ó muestras. Para el ejemplo del río se tiene:

la proporcionalidad existe a medida que los puntos se orienten en una línea recta. No se presenta esa tendencia de recta para el diagrama en cuestión , por tanto no existe la proporcionalidad para ese ejemplo. La función más común para esta transformación es

pero cuando algunos datos son ceros ó números muy pequeños se recomienda usar , F. J. Anscombe recomienda usar .

Para la conversión de datos a la escala logarítmica utilizando Statistica, considere el ejemplo del río (aunque dicho ejemplo no requiere esa transformación) donde los datos se vaciaron inicialmente según el siguiente diagrama:

Page 11: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

luego siga en data→batch transformation formulas, en el siguiente cuadro de diálogo escribirá lo siguiente:

donde la fórmula añadida v3=sqrt(v2) hace referencia que en una tercera columna (v3) presentará las raices cuadradas de los datos de la segunda columna (v2), esta operación añadirá la tercera columna que se está solicitando:

Page 12: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

Transformación angular.

También llamada transformación arcoseno; se utiliza cuando los datos siguen una distribución binomial; y son casos donde generalmente los datos están expresados como proporciones ó porcentajes. Esta transformación tiende a hacer las varianzas de los tratamientos iguales.

Recuerde que en la distribución binomial σ = y μ= p ; entonces

σ = ó σ 2 = ó σ 2 = y ahí se observa que la

varianza es una función de la media; más aún, si las proporciones p (ó porcentajes) son demasiados pequeños entonces σ 2 viene a ser aproximadamente igual μ / n ( o sea que la varianza llega a ser proporcional a la media) y entonces concluimos que ésta transformación puede ser particularmente utilizada cuando los datos sean proporciones ó porcentajes pequeños y que además el diagramada de dispersión hallado en ANOVA→more results→Assumptions revele una proporcionalidad entre las varianzas y las medias, tal como lo ejemplificamos con la transformación raíz cuadrada.

La función de la transformación es .

Para la conversión de datos a la escala angular l utilizando Statistica, considere el ejemplo del río (aunque dicho ejemplo no requiere esa transformación) donde los datos se vaciaron inicialmente según el siguiente diagrama:

prosiga en data→batch transformation formulas, en el siguiente cuadro de diálogo escribirá lo siguiente:

Page 13: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

donde la fórmula añadida v3=arcsin(sqrt(v2/100)) hace referencia que en una tercera columna (v3) presentará los arcosenos de las raices cuadradas de los datos de la segunda columna (v2) divididos entre 100 (por asumirse como porcentajes). Esta operación añadirá la tercera columna que se está solicitando:

La transformación angular no tiene un uso tan amplio como las transformaciones logarítmicas ó de raíz cuadrada.

Procedimientos para escoger transformaciones.

Hemos visto algunas de las transformaciones más utilizadas para alcanzar normalidad ó igualdad de varianzas; ahora prestaremos atención a algunos métodos que se utilizan para encontrar la transformación óptima que deba utilizarse para un problema determinado; huelga decir que en las anteriores descripciones de las transformaciones también comentamos (aunque superficialmente) cuándo pueden emplearse cada una de ellas.

Page 14: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

Ley de la potencia de Taylor

Este procedimiento es especialmente útil cuando las tratamientos (muestras) son pequeños y no son pocos (más de seis, por ejemplo) ; se procede de la siguiente forma para la aplicación de éste algoritmo:

1. Grafique los logaritmos (de base 10) de las medias contra los logaritmos (en base 10) de las varianzas de cada uno de las muestras.

2. Considere que a medida que el diagrama de puntos obtenido simule mejor una resta, será mejor también la eficacia del algoritmo( en otras palabras , deseche este algoritmo si tal diagrama no parezca en lo absoluto una recta ).

3. Obtenga la ordenada del origen ”b” de la recta, es decir, el valor b de la ecuación: log(varianzas)= a + b log(medias).

4. obtenga p = 1 - b/25. La transformación indicada será xp .

Ejemplifiquemos los pasos utilizando el paquete Statistica: En el ejemplo del río, pueden tener remembranza que el vaciado de datos era:

pero en esta ocasión deben de vaciarse como se presentan:

Luego siga la ruta Statistics→ Basic Statistics/tables→ Descriptive Statistics→ Ok Advanced , palomee solo las opciones de mean y variance y presione Summary, luego en el cuadro de diálogo escoja las variables 2, 4 y 6 y presione Ok, verá:

Page 15: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

son las medias y varianzas de las tres muestras; luego, sin cerrar ese libro de trabajo, para lo cual siga en data→ imput spreadsheet, proceda después en la ruta data→batch transformation formulas, en el cuadro de diálogo escriba lo siguiente:

y presione Ok, verá:

y cámbiese los nombres de las ultimas dos columnas:

luego siga otra vez en data→ imput spreadsheet para evitar que se cierre el presente libro de trabajo; y prosiga en: Graphs→ Scatterplots→ Quick→ Variables y escoja log(medias ) como variable x y log(varianzas) como variable y; presione OK y Aceptar, encontrará:

Page 16: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

la ecuación log(varianzas)= 2.8743- 1.1297 x corresponde a log(varianzas)= a + b log(medias), por tanto b= -1.1297; entonces p = 1 - b/2 =1 –(-1.1297)/2 =1+ 0.56485 = 1.56485; y la transformación sugerida será: x 1.56485 ó redondeando: x 1.5

Como observará, se puede redondear el valor hallado de p. Así pues, el valor hallado de p lo puede redondear a algunos de los valores de p de la primera columna de la siguiente tabla, y utilizar la fórmula de la transformación correspondiente:

p Nombre de la transformación

Fórmula Si se adicionan pequeños números cuando existen datos con valores de

ceros3 Cúbica x3 no2 cuadrada x2 no1 lineal x no

0.5 Raíz cuadrada √x no necesariamente, pero y son usadas con frecuencia.

0 logarítmica Log 10 x si-0.5 Raíz recíproca 1 /√x si-1 recíproca 1/x si-2 Cuadrada recíproca 1 /x2 si

Exhibición del valor de la letra

Esta técnica, descrita por Velleman y Hoaglin, ( Letter value display) es otra popular técnica que determina la transformación que distribuye normalmente los datos y que procura alcanzar la igualdad de varianzas. Es aplicable sólo a los tratamientos que no son

Page 17: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

demasiados pequeños (mayores a 12 por ejemplo); no se aplicaría a los tratamientos muy pequeños. Esta técnica compara para cada uno de los conjuntos de datos transformados:

a) La semisuma de percentiles simétricos de la transformación, esperando que para cada par de percentiles simétricos la semisuma fluctúe lo menos posible. Por ejemplo, para el tratamiento que se analiza calculará los percentiles 75 y 25 (son simétricos porque 75+25=100), y supongase que los mismos vienen siendo los datos 4 y 12, entonces la semisuma es: (4+12)/2=8, luego calculará también la semisuma de los percentiles 87.5 y 12.5, luego de los percentiles 95.75 y 6.25, etc. Para tratamientos con datos transformados que sean totalmente simétricos estas semisumas serán todas iguales. Aunque en la práctica ello casi nunca sucede entonces se procurará escoger la transformación que exhiba las semisumas de percentiles que fluctúen lo menos posible.

b) La diferencia de percentiles simétricos de la transformación , dividido entre la diferencia de percentiles de la distribución normal unitaria, sea un cociente que varíe lo menos posible. El inciso a) tiene que ver con la simetría de los datos transformados, éste inciso b) es una medida de la semejanza entre la variación de los datos transformados y la variación en la distribución normal.

En la práctica, se escogerá la transformación que fluctúe lo menos posible en los dos incisos y en el mayor numero posible de tratamientos no muy pequeños. Se ha indexado una macro al libro para ejecutar ésta técnica.Veamos un ejemplo:

Se comparan las concentraciones de prolactina (unidades g-1) en glándulas pituitarias disecadas de perros machos adultos, con distintos tratamientos:(La prolactina es una hormona que tiene como principal acción la de estimular la producción de leche tras el embarazo, durante toda la lactancia, aunque se halla presente también en el sexo masculino)

Agua salada, con quistes, dia 1

Agua dulce , sin quistes , dia 1

Agua dulce, sin quistes, dia 2

Agua dulce, con quistes , día 3

14 52 36 3111 44 28 6915 125 97 11514 66 26 5325 38 52

25 5370 67127 4426448881011646

Page 18: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

Sólo el tercer tratamiento no es muy pequeño, entonces sólo ese se someterá al procedimiento, los resultados de ejecutar la macro con sus datos son:

para los resultados de a):

para los resultados de b):

la transformación que menos fluctúa en ambos casos parece ser la recíproca: 1/(x+0.01) Esta técnica a veces tiene el inconveniente de no exhibir mucha claridad en el momento de comparara las fluctuaciones cuando se intenta escoger la mejor transformación.

Datos atípicos

Algunas ocasiones los datos pueden tener uno o más valores extremos que no deberían ser parte de los mismos datos. Esos datos pueden inclusive ser responsables de que no se cumpla la condición 3 y/o 4 del análisis de varianza. Los mismos se conocen como dato atípicos y pueden tener distinto origen, tales como errores en la transcripción ó vaciado de datos ó también errores en el diseño mismo del experimento. Los datos que se sospechan como probables atípicos pueden ser identificados cuando ploteamos los “residuos” en diagramas de normalidad en la ruta Statistics →anova→ one way anova→(seleccionamos

Page 19: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

variables) →Ok→Ok→more results→residuals 1→probab. Plots of resids normal. En el problema de prolactina el diagrama que se presenta es:

El dato en el extremo derecho se encuentra relativamente aislado del resto; por ello es un candidato a ser considerado como atípico; un análisis en la opción ruta Statistics →anova→ one way anova→(seleccionamos variables) →Ok→Ok→more results→residuals 1→ predicted and residuals :

revela que ese punto sospechoso tiene residual 199 y es el dato 264 ( que pertenece al tercer tratamiento del problema de prolactina.

Existen pruebas para determinar si un dato sospechoso de atípico debe ser o no considerado como tal; una de ellas es el Dixon´s test, diseñado para muestras menores de 25 aunque con la limitante de ser aplicable sólo para datos distribuidos normalmente. El Grubb´s test se aplica para muestras que superen el tamaño de 25. Statistica nos ofrece la prueba de 2D Box Plots para identificarlos. La encontrarás en la ruta Graphs → 2D Graphs →Box plots→Advanced.

Haga remembranza de los percentiles ya vistos en curso anterior y de la gráfica de caja y bigotes. El siguiente diagrama representa el percentil 75 como UBV y el percentil 25 como UBV. Así H viene a ser la distancia entre esos percentiles. Los “outliers” y “extreme values “ del diagrama son los puntos que nosotros catalogamos como datos atípicos (aunque la traducción sea aplicable sólo para los primeros). Observe que los

Page 20: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las

atípicos se hallan más arriba de UBV+1.5 H ó también se hallan más debajo de LBV-1.5H . El valor de 1.5 se conoce como coeficiente (outlier coefficient: OC) y puede ser modificado aunque por default asume ese valor.

Especificando las opciones de percentiles en Box value; de non-outlier range en whisker y de outl. & extremes en outliers se presenta la gráfica de caja y bigotes siguiente :

y el dato 264 es situado claramente como atípico.

Vale comentar que los atípicos descubiertos no deberían ser automáticamente eliminados del conjunto de datos; deberíamos primero cerciorarnos de que no son correctos ó de que existe una razón justificable para su remoción.

Page 21: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las
Page 22: DISEÑO DE BLOQUES ALEATORIZADOS - Hosting Miarroba · Web viewLas medias de las poblaciones son todas iguales. Ha: Los procesos difieren significativamente en efectividad. Ó Las