diseño_cap3.doc

19
Jaime Ortega 26 (%) 15 1 2 3 4 5 20 6 7 8 9 10 25 11 12 13 14 15 30 16 17 18 19 20 35 21 22 23 24 25 Capitulo 3 Experimentos de Factor Simple: Análisis de Varianza 3.1 Un Ejemplo Un ingeniero de materiales esta interesado en maximizar la resistencia a la tracción de una nueva fibra sintética que será empleada en la industria textil. Por experiencia previa, el ingeniero sabe que el contenido de algodón afecta la resistencia. Es más, el sospecha que un incremento en el contenido de algodón, incrementará la mencionada resistencia; por ello, decide llevar a cabo pruebas de resistencia con fibras que contienen 15, 20, 25, 30 y 35 % de algodón (niveles de contenido de algodón). Para ejecutar las pruebas, decide emplear cinco muestras por cada nivel de contenido. Lo arriba mencionado es un ejemplo de un experimento de factor simple con a = 5 niveles del factor y n = 5 replicas. Los 25 experimentos deben ser ejecutados en un orden totalmente aleatorio. Para controlar la aleatoriedad de los experimentos, se procede de la siguiente manera: 1. Se enumeran las muestras como se muestra en la Tabla 3.1 Conteni do de Algodón Número de Muestra Tabla 3.1 Identificación de los Experimentos por el Contenido de Algodón 2. Con la ayuda de una calculadora se seleccionan números aleatorios del 1 al 25 como se ve en la Tabla 3.2. Los números aleatorios corresponden al número de muestra cuya resistencia será probada. Por ejemplo, si el primer

Upload: marhysol-acho-sarzury

Post on 07-Dec-2015

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Diseño_cap3.doc

Jaime Ortega PhD 26

(%)15 1 2 3 4 520 6 7 8 9 1025 11 12 13 14 1530 16 17 18 19 2035 21 22 23 24 25

Capitulo 3 Experimentos de Factor Simple: Análisis de Varianza

3.1 Un Ejemplo

Un ingeniero de materiales esta interesado en maximizar la resistencia a la tracción de una nueva fibra sintética que será empleada en la industria textil. Por experiencia previa, el ingeniero sabe que el contenido de algodón afecta la resistencia. Es más, el sospecha que un incremento en el contenido de algodón, incrementará la mencionada resistencia; por ello, decide llevar a cabo pruebas de resistencia con fibras que contienen 15, 20, 25, 30 y 35 % de algodón (niveles de contenido de algodón). Para ejecutar las pruebas, decide emplear cinco muestras por cada nivel de contenido.

Lo arriba mencionado es un ejemplo de un experimento de factor simple con a = 5 niveles del factor y n = 5 replicas. Los 25 experimentos deben ser ejecutados en un orden totalmente aleatorio. Para controlar la aleatoriedad de los experimentos, se procede de la siguiente manera:

1. Se enumeran las muestras como se muestra en la Tabla 3.1

Contenido de Algodón Número de Muestra

Tabla 3.1 Identificación de los Experimentos por el Contenido de Algodón

2. Con la ayuda de una calculadora se seleccionan números aleatorios del 1 al 25 como se ve en la Tabla 3.2. Los números aleatorios corresponden al número de muestra cuya resistencia será probada. Por ejemplo, si el primer número aleatorio obtenido en la calculadora fue el ocho, entonces la muestra con 20 % de algodón será la primera en ser analizada y así sucesivamente.

Esta secuencia aleatoria de pruebas es necesaria para prevenir efectos de variables desconocidas. Para ilustrar lo dicho, supóngase que los 10 primeros experimentos se llevaron a cabo de la manera indicada en la Tabla 3.1. En estas condiciones, la maquina empleada puede mostrar un comportamiento "dirigido"; es decir, mostrar mayores valores de deformación cuanto mayor sea el tiempo que funcione o reaccionar de manera lenta cuando ocurre un cambio en la composición de la muestra.

Page 2: Diseño_cap3.doc

Secuencia de las pruebas Número de muestra Contenido de Algodón

1 8 202 18 303 10 204 23 355 17 306 5 157 14 258 6 209 15 2510 20 3011 9 2012 4 1513 12 2514 7 2015 1 1516 24 3517 21 3517 11 2519 2 1520 13 2521 22 3522 16 3023 25 3524 19 3025 3 15

Tabla 3.2 Secuencia de Experimentos

3. Se ejecutan los experimentos y los resultados se registran como se muestra en la Tabla3.3

De la Tabla 3.3 se extraen dos conclusiones: (i) el contenido de algodón afecta a la resistencia a la tracción y (ii) alrededor de un 30 % de algodón otorga la mayor resistencia; sin embargo, el análisis debe ser más objetivo y detallado: se debe analizar si las diferencias observadas de las medias son realmente significativas y el nivel de confianza con el que se dan dichas diferencias. En otras palabras, el investigador está interesado en probar la igualdad de las cinco medias. Aparentemente, este problema podría resolverse haciendo un análisis de Pares de Comparación.

Page 3: Diseño_cap3.doc

Ya ȳa a

Y ȳ

Contenidode Algodón

(%)Observaciones

(en kg/cm2)

1 2 3 4 5 total media15 7 7 15 11 9 49 9.820 12 17 12 18 18 77 15.425 14 18 18 19 19 88 17.630 19 25 22 19 23 108 21.635 7 10 11 15 11 54 10.08

376 15.04

Tabla 3.3 Resultados del Experimento con Cinco Niveles de Contenido de Algodón

Tal solución sería incorrecta. Existen 10 posibles pares los que, examinados a un nivel de confianza del 95 % cada uno (1 0.95), arrojarían en conjunto un nivel de significación del (0.95)10 0.60. Es decir, existiría un substancial incremento del error del tipo I. Elprocedimiento apropiado para examinar la igualdad de varias medias es el Análisis de Varianza.

3.2 Análisis de Varianza

En general, la Tabla 3.3 pude ser escrita en términos de la Tabla 3.4

Tratamiento(nivel) Observaciones

1

2

1 2 ... n total mediamuestral

mediapoblacional

y11 y12 ... y1n Y1 ȳ1 1

y21 y22 ... y2n Y2 ȳ2 2

. . . ... . . . .

. . . ... . . . .

a ya1 ya2 ... yan

Tabla 3.4 Datos de un Experimento de Factor Simple

Page 4: Diseño_cap3.doc

i

Una entrada u observación en la Tabla 3.4 representa la j-ésima observación bajo el tratamiento i. Las observaciones de la Tabla 3.4 pueden ser descritas por un modelo estadístico lineal :

donde

y ij

i ij

i 1,2,......a j 1,2,......n

(3.1)

yij es la i - esima, j - esima observación

es la media total (global)

i es un efectodebido al tratamiento i

ij es el error aleatorio con media 0 , varianza 2 ,

independiente y distribuido normal

A este modelo se le llama " Análisis de Varianza de Factor Simple" pues se investiga un sólo factor. Con respecto a los tratamientos o niveles, la Eq. 3.1 describe dos situaciones diferentes:

1. Los niveles o tratamientos ha sido escogidos por el investigador. Este modelo se conoce como "Modelo de Efectos Fijos".

2. Los niveles o tratamientos ha sido escogidos al azar. Este modelo se conoce con el nombre de "Modelo de Efectos Aleatorios" o "Modelo de Varianza de Componentes".

3.3 Análisis del Modelo de Efectos Fijos

En este modelo, los efectos de tratamientos i , se definen como desviaciones de la media total, es decir que se cumple:

a

i 0i 1

Ahora, considérense las siguientes definiciones:(3.2)

Yi = total de observaciones bajo el tratamiento i

yi = media de las observaciones bajo el tratamiento i

Y = gran total de las observaciones

Y = media total de las observaciones

Page 5: Diseño_cap3.doc

Expresado simbólicamente se tiene:

n

Yi yijj 1

yi Yi / n

i 1,2,......., a

a

Y i 1

n

yijj 1

Y Y / N

(3.3)donde N = an , es el numero total de observaciones.

La media o valor esperado del tratamiento i es:

Ei ( yij ) i i

i 1, 2,......., a (3.4)

La Eq. 3.4 indica que la media del tratamiento i es la suma de la media global y del efecto de dicho tratamiento.

El investigador esta interesado en probar la igualdad de medias. Esto es:

Ho : 1 2 3 ...........a

H1: i j

para al menos un par

i, j

(3.5)

Por efecto de la Eq. 3.4 lo anterior puede ser re-escrito como:

Ho : 1 2 3 ........... a

H1: i j

para al menos un par

i, j

(3.6)

De la Eq. 3.6 se concluye que se puede probar la igualdad de medias mediante el examen de la igualdad de los efectos de tratamiento. El procedimiento apropiado para probar " igualdad de efectos de tratamiento " es el Análisis de Varianza.

3.3.1 Descomposición de la Suma Total de Cuadrados

El nombre de Análisis de Varianza se deriva de la partición de la variabilidad total en sus componentes. La suma total de cuadrados

a n

SCT ( yij Y

)2

i 1 j 1

(3.7)

Page 6: Diseño_cap3.doc

2 2

i

2

2 2

2

2

2

se utiliza como una medida de la variabilidad total.1 La Eq. 3.7 puede ser re-escrita como sigue:

a n a n

yij Y [( yi Y ) ( yij yi )]i 1 j

1i 1

j 1

ordenando:

a n a a n

( yij Y ) n ( yi Y

)

( yij yi )

i 1 j 1

i 1

i 1

j 1

(3.8)

La Eq. 3.8 indica que la variabilidad total de los datos es igual a la suma de los cuadrados de las diferencias entre las medias de los tratamientos y la media total; mas la suma de los cuadrados de las diferencias entre las observaciones y las medias de cada tratamiento. La Eq. 3.8 se puede escribir como:

SCT SCt SCe

donde SCt es la suma de cuadrados debido a los tratamientos (niveles) y SCe es la suma de cuadrados debido al error.

Considere ahora la suma de cuadrados debido al error:

a n a n2 2SCe ( yij yi ) ( yij yi )

i 1 j 1

i 1 j 1 (3.9)

De esta manera, se ve que el término dentro de los paréntesis cuadrados dividido entre n-1, es la varianza muestral del tratamiento i . Es decir:

S 2

n

( yij yi )j 1

n 1i 1,2,......., a

Substituyendo en la Eq. 3.9 se tiene:a n a

( yij yi ) (n 1) S iSCe ( N a)

i 1

j 1

a

(n 1)i 1

i 1 CM( N a)

e

Page 7: Diseño_cap3.doc

(3.10)

1Esto es razonable pues, se se divide SCT entre el número de grados de libertad, an - 1 = N - 1 ,se estaría en presencia de

la varianza muestral misma que es una medida estándar de variabilidad.

Page 8: Diseño_cap3.doc

i

2

e

La Eq. 3.10 es una estimación de la varianza común d en tro de cada uno de los a tratamientos.

De manera similar, el termino

SC

a

n ( yi Y ) t i 1 CM(a 1) (a 1)

t

(3.11)

Es una estimación de la variabilidad en tre tratamientos.

Si no hubiesen diferencias entre las medias de los tratamientos, yi , ambas estimaciones debieran ser muy similares. Si no lo fueran, se debe sospechar que la diferencia observada debe ser una consecuencia de las diferencias entre las medias de los tratamientos. Los términos de las ecuaciones 3.10 y 3.11 se conocen como "cuadrados medios". Es posible demostrar que los valores esperados de estos cuadrados medios son:

E(CM ) 2

y E(CM t

a

n i

) 2 i 1

a 1(3.12)

Como se dijo antes, los cuadrados medios son estimaciones de la varianza poblacional y portanto, si no existen diferencias entre las medias de los tratamientos ( 2 0) , entonces los

valores esperados de ambos estimadores serán idénticos e iguales a la varianza poblacional.

3.3.2 Análisis Estadístico

En base al análisis anterior, en esta sección se investigará de manera formal el examen de hipótesis de la Eq. 3.6. Dado que se asumió que el error ij es independiente y se distribuye normal con media 0 y varianza 2 , entonces las observaciones yij son independientes y se distribuyen normal con media i y varianza 2 .

En virtud del Teorema de Cochran , si el termino SCT es una suma de cuadrados de variables aleatorias normales y la hipótesis nula Ho : i 0 es verdadera, entonces se cumple lo siguiente:

1. SCT / 2 se distribuye Chi-cuadrado con N-1 grados de libertad.

2. SCe / 2 se distribuye Chi-cuadrado con N-a grados de libertad.

3. SCt / 2 se distribuye Chi-cuadrado con a-1 grados de libertad.

Page 9: Diseño_cap3.doc

4. Fo CMt / CMe

se distribuye F con a-1 y N-a grados de libertad.

Page 10: Diseño_cap3.doc

ij

Y Y

Sin embargo, si la hipótesis nula es falsa, el termino E (CMt ) es mayor a 2 (Eq. 3.12) y Ho

deber ser rechazada cuando Fo F, a 1, N a .

Ejemplo

Para ilustrar el análisis de varianza, considérese la Tabla 3.3.

Contenido de Algodón

(%)Observaciones

(en kg/cm2)

1 2 3 4 5 totalesYi

mediasyi

15 7 7 15 11 9 49 9.820 12 17 12 18 18 77 15.425 14 18 18 19 19 88 17.630 19 25 22 19 23 108 21.635 7 10 11 15 11 54 10.08

Y =376 Y = 15.04

La sumas de cuadrados se calculan mediante:

5 5 2

SCT y 2 Y

636.96

i 1j 1 N

SCt

5 2 2

i 475.76i 1 n N

SCe SCT SCt 161.20

Además: Fo 118.94 / 8.06 14.76. Si se adopta un F0.01,4,20 4.43 , entonces se rechaza

Ho y se concluye que el contenido de algodón en las fibras afecta significativamente su

resistencia a la tracción.

3.3.3 Estimación de los Parámetros del Modelo

En esta sección se desarrollaran estimadores de los parámetros del Modelo de Factor Simple(Eq. 3.1) empleando el método de mínimos cuadrados. Cuando se estiman y i mediantemínimos cuadrados, ya no es necesario asumir que los errores ij son independientes y que se

distribuyen normalmente. Para encontrar los estimadores mínimos cuadrados de ydesarrolla la suma de los cuadrados de los errores .....

i se

Page 11: Diseño_cap3.doc

2 2a n a n

L ij ( yij i )i 1 j

1i 1

j 1

(3.13)....y se eligen valores ˆ

y ˆi , estimadores de y i , que minimicen L. Es decir, se resuelve

el sistema de ecuaciones que se origina de:L

ˆ , ˆ 0

i

y

L

i

ˆ , ˆi 0

El sistema es:Nˆ

nˆ1

nˆ1

nˆ2

nˆ2

.

...

nˆa

nˆa

Y

Y1

Y2

. .

Ya

(3.14)

Las a+1 ecuaciones arriba expresadas se llaman ecuaciones normales de mínimos cuadrados mismas que no son linealmente independientes y por tanto no tienen un sola solución. Esta problema puede solucionarse mediante la Eq. 3.2 que establece que los efectos de los tratamientos son desviaciones de la media. Con dicha condición, las soluciones a la Eq. 3.14 son:

ˆ Y

ˆi yi Y i

1,2,.....a (3.15)

Esta solución establece que la media global es estimada por la media total de las observaciones y que cualquier efecto de tratamiento es la diferencia entre la media del tratamiento y la media total de las observaciones.

Puede demostrarse que un intervalo de confianza de la media de un tratamiento esta dado por:

Page 12: Diseño_cap3.doc

yi t / 2, N a CM e / n

y de la diferencia de medias entre dos tratamientos por:

yi y j t / 2, N a 2CMe / n

Page 13: Diseño_cap3.doc

3.4 Comparación de Medias de Tratamiento Individuales

Supóngase que al llevar a cabo un análisis de varianza en el modelo de efectos fijos se rechaza la hipótesis nula lo que implica la existencia de diferencias entre las medias de tratamientos. En estas circunstancias, otras comparaciones entre grupos de medias de tratamientos suelen ser muy útiles. Comparaciones entre medias de tratamientos son hechas en términos de totales de Tratamientos, Y i , o medias de tratamientos, yi .Los procedimientos para llevar a cabo estas comparaciones se denominan "Métodos de Comparación Múltiple".

3.4.1 Comparación Gráfica de Medias

Supóngase que el factor de interés tiene a niveles (tratamientos) y que por tanto existen a ( y

1 , y

2 , y

3 ,.... y

a ) medias de tratamiento. Si se conociera , cualquier media de tratamiento

tendría un desviación estándar igual a / n . En consecuencia, si todas la medias de los distintos niveles fuesen idénticas, las media muestrales observadas, yi , se comportarían como si fuesen un grupo de observaciones extraído al azar de una distribución normal con media Y y desviación / n . Si no se conoce , se la puede reemplazar por su estimador expresado en laEq. 3.12, es decir por CMe , siendo por tanto la desviación estándar (factor de escala) igual a

CMe / n y "t" la distribución a emplearse. El procedimiento consiste en multiplicar valores dela absisa (factor en estudio) por el factor de escala y reconstruir la curva "t" con dichos valores de absisa (valores de ordenadas puede extraerse de Box, Hunter y Hunter. 1978). Luego, en la "nueva" absisa, se localizan los valores medios observados y se observa si dichas medias secomportan como típicas observaciones tomadas al azar de la población. Es decir, si las ordenadas de las medias están dentro de la gráfica, están próximas y no muestran una secuencia definida.