clase diseño y analisis de experimentos final.docx
Post on 13-Apr-2016
56 Views
Preview:
TRANSCRIPT
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Instituto Tecnológico de Durango
Maestría en Sistemas Ambientales
Diseño y Análisis de experimentos
“Portafolio”
Catedrático: Dr. Carlo Francisco Cruz Fierro.
Alumna: I.Q. Susana Citlaly Gaucin Gutierrez 07040234
Victoria de Durango, Dgo. A 18 de Junio de 2012
i
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
ii
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
ContenidoUnidad 1............................................................................................................................. 1Diseño estadístico de experimentos...................................................................................2
Etapas.............................................................................................................................2Principios Básicos...........................................................................................................2
1.2. Principales estadísticos descriptivos...........................................................................3Ejercicio 1...............................................................................................................................6
Pruebas de Hipótesis........................................................................................................12Hipótesis Nula H0..........................................................................................................12Hipótesis Alternativa H1.................................................................................................12
Interferencia estadística para medias poblacionales (Prueba T)......................................13PRUEBA t DE UNA MUESTRA............................................................................................14
Estadístico de prueba t0....................................................................................................14Ejercicio #2...........................................................................................................................17Problema 3...........................................................................................................................21Problema 4...........................................................................................................................26Problema 5...........................................................................................................................29
PRUEBA T DE DOS MUESTRAS....................................................................................32Hipótesis nula...................................................................................................................32Hipótesis alterna...............................................................................................................32Hipótesis nula...................................................................................................................32Hipótesis alterna...............................................................................................................32Estadístico de prueba.......................................................................................................33
Dos casos dependiendo de σ1 y σ1......................................................................................33Caso 1: Si σ1 se asume igual que σ2.................................................................................33Caso 2: Si se asume que σ1 y σ2 son diferentes...............................................................33
Prueba t Pareada.................................................................................................................34Hipótesis...........................................................................................................................34Estadístico de prueba.......................................................................................................34
Resistencia...........................................................................................................................34Estrategia para valores extremos.....................................................................................34
Robustez..............................................................................................................................35Problema 6...........................................................................................................................36Unidad 2...............................................................................................................................38Análisis de varianza (ANOVA)..............................................................................................38
Herramientas del análisis de varianza..............................................................................38iii
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Prueba F....................................................................................................................... 38Comparación entre medias...........................................................................................38Combinaciones lineales................................................................................................38
Prueba F (Fisher)..............................................................................................................38Hipótesis....................................................................................................................... 38
Modelo matemático...........................................................................................................38Modelo de Medias.........................................................................................................38Modelo de Efectos.........................................................................................................38Suposiciones de modelo...............................................................................................39
Definición de sumas y promedios.........................................................................................39Definición de residuales.......................................................................................................39
Modelo completo:.............................................................................................................39Modelo reducido:..........................................................................................................39Sumas de cuadrados........................................................................................................39Modelo completo..........................................................................................................39Modelo reducido...........................................................................................................39Partición de la suma de cuadrados......................................................................................40Estadístico F......................................................................................................................40Tabla ANOVA....................................................................................................................41Ejercicio 7.............................................................................................................................41Comparaciones Múltiples...............................................................................................44
Prueba de Fisher..............................................................................................................44 Para balanceados................................................................................................44 Para no balanceados...........................................................................................44
Prueba de Fisher..............................................................................................................44Prueba de Dunnett............................................................................................................45Prueba de HSV.................................................................................................................45Comparaciones planeadas...............................................................................................45
Ejercicio 8.............................................................................................................................45
iv
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Unidad 1
Introducción al diseño estadístico de experimentos.
1.1 Conceptos Básicos
Estadística:
Estudia la recolección análisis e interpretación de datos generalmente se
considera una ciencia matemática pero no una rama de las matemáticas.
Tiene influencia transversal en prácticamente todas las ciencias dese la física
hasta la ciencias sociales.
Viene del latín STATISCUM COLLEGIUM que quiere decir consejo del
estado.
Estadística matemática:
Establece las bases teóricas de la estadística
Estadística Descriptiva:
Es el resumen y visualización de datos así como la abstención de valores
estadísticos que representan a los fenómenos estudiados
Estadística Inferencial:
Se encarga de la generación de modelos deducciones y predicciones de los
fenómenos considerando la naturaleza aleatoria de las observaciones.
Inferencia Estadística
Es una conclusión justificada por un modelo probabilístico de que los patrones
o tendencias observadas en los datos están presentes en un contexto más
amplio.
1
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Población:
Es un conjunto de identidades reales o realizables que poseen ciertas
características en común, pero que generalmente es demasiado extenso
como para obtener información de todas las entidades. Una población puede
estar formada por personas, objetos o resultados de mediciones o
experimentos.
Muestra
Es el subconjunto de entidades obtenido a partir de una población. Al ser de
tamaño reducido se obtiene información de todas las entidades en la muestra
y se espera que esta información sea representativa de las características de
la población.
“Con estadística se puede probar cualquier cosa, incluso a veces la verdad”
Diseño estadístico de experimentosEs el proceso que tiene como objeto obtener respuestas claras a las preguntas de interés, empleando el mínimo de recursos.
Etapas1. Identificación del problema2. Selección de la variables de respuesta3. Selección de factores y sus niveles4. Identificación de variables que pudieran interferir5. Elección del diseño experimental6. Realización del experimento o estudio7. Análisis de resultados8. Generación de conclusiones identificando significación estadística y practica
Principios Básicos1. Muestreo representativo2. Aleatorización.- Es la piedra angular del diseño experimental y consiste en la
asignación al azar de las unidades experimentales y del orden en que se realizan los experimentos individuales.
2.1. Tipos de estudiosa) Estudio Aleatorizado
Hay una asignación al azar de las unidades experimentales y es el único en el que se puede identificar relaciones causa- efecto y hacer inferencia a poblaciones.
b) Estudio observacional
2
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
No hay asignación aleatoria de las unidades experimentales, se puede identificar correlaciones pero no causa-efecto.
3. ReplicaciónEs la repetición de experimentos bajo las mismas condiciones. Permite estimar el error experimental y obtener parámetros más precisos. Es importante designar la replicación de las mediciones repetidas.
4. Formación de bloquesConsiste en agrupar las unidades experimentales en subconjuntos los más homogéneos posibles, reduce o elimina la variación debido a factores perturbantes.
5. BalanceConsiste en tener el mismo número de unidades experimentales en cada grupo o tratamiento
6. ControlesProporcionan una base para comparación. Puede haber controles positivos y negativos en los que se asegura tener una cierta respuesta.
7. CegamientoLas personas involucradas desconocen que tratamiento se aplica a las unidades experimentales y sirve para evitar que las expectativas del investigador influyan en el resultado.
1.2. Principales estadísticos descriptivos
Histograma
DistribuciónDiscreta (Histograma) y Continua.
3
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Distribución de probabilidad
∫−∞
∞
f ( x )dx=1
Probabilidad de estar entre 0 y 1 en donde 0 representa un procesos imposible y 1 representa un procesos certero.
∫−∞
∞
f ( x ) dx=P(a≤ x ≥b)
4
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Población Muestra
5
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Media μ=1n∑i=1
n
yi ӯ=1n∑i=1
n
yi
Varianza σ 2=1n∑i=1
n
( y1−μ) s2= 1n−1∑i=1
n
¿¿
Desviación Estándar σ=√σ2 s=√s2
Grados de Libertad
Es el número de valores que en teoría podrían cambiarse arbitrariamente y aun así
obtener el mismo valor de un parámetro estadístico.
Ejercicio 1
6
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Para el siguiente conjunto de datos, generar un histograma. Una gráfica de caja y bigotes y
obtener los estadísticos descriptivos básicos (Media, mediana, cuartiles inferior y superior,
varianza y desviación estándar)
55 125 51 147 68 91 61 19 14143 115 133 176 67 191 1 147 11067 179 112 135 156 145 47 193 9
155 196 20 118 106 54 59 2 180147 129 42 27 94 110 76 122 50
Se introdujeron los datos en el software estadístico “Minitab 17” en la columna nombrada como “Datos” lo cual se muestra en la Ilustración 1
Con los datos podemos generar un gráfico como se muestra en la Ilustración 2, se puede seleccionar el tipo de gráfico que queremos en este caso el Histograma o grafico de caja y bigotes.
En los Gráficos 1 y 2 nos muestra los gráficos generados.
7
Ilustración 1 Datos ingresados
Gráfico 2 Gráfico de caja y bigotes
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
20016012080400
12
10
8
6
4
2
0
Datos
Frec
uenc
ia
Histograma de Datos
Gráfico 1 Histograma
8
Ilustración 2 Como generar Histograma
200
150
100
50
0
Dato
s
Gráfica de caja de Datos
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Para obtener los datos estadísticos descriptivos básicos se realizó como se muestra en la Ilustración 2
Ilustración 3 Selección de estadísticos descriptivos
Los resultados obtenidos son los siguientes:
Estadísticos descriptivos: Datos
Variable Media Desv.Est. Varianza Q1 Mediana Q3Datos 99.36 55.96 3131.10 52.50 110.00 146.00
9
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
PercentilEs un cierto porcentaje de valores menores que el valor dado P20%
CuartilesQ1= P25% = Cuartil inferior
Q2 = P50% = Mediana
Q3 = P75% = Cuartil Superior
Coeficiente de asimetría
Muestra Población
γ1=1n∑i=1
n
¿¿¿ y1=n
(n−1)(n−2)∑i=1n
¿¿
10
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Curtosis
Muestra Población
γ2=1n∑i=1
n
¿¿¿ y1=n(n+1)
(n−1)(n−2)(n−3)∑i=1n
¿¿
Variable Aleatoria
Es una característica que al ser medida en diferentes ocasiones es
susceptible de tomar diferentes valores es decir es un valor observable que
tienen cierto grado de variación.
Parámetro estadístico
Es un valor obtenido del estudio de una variable aleatoria, calculado
aplicando una funciono algoritmo a os valores de un conjunto de datos. Un
estadístico que corresponde a alguna característica de una población se
denomina el estimador de dicha característica
Estimadores
Insesgados y sesgados
11
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Pruebas de Hipótesis
Es el criterio por medio del cual se establece si se rechaza o no la hipótesis nula, basado en el resultado de una prueba estadística.
Hipótesis Nula H0
Corresponden al estado natural de las cosas. Corresponde a algún parámetro estadístico teniendo valor cero.
Hipótesis Alternativa H1
Las hipótesis H0 y H1 no se pueden demostrar, se pueden aceptar o rechazar
Situación realH0 es verdadera H0 es falsa
Conclusión obtenida de la prueba estadística
Aceptar H0
OK
Error Tipo II(Falso negativo Probabilidad β)
Rechazar H1
Error tipo I (Falso positivo probabilidad α
OK
α=Probabilidad de cometer un error tipo I nivel de significación
(1-α)x100%= Nivel de confianzaα=0.05 es igual al 95% de confianza
β=Probabilidad de cometer un error tipo II
(1-β)x100= Poder o potencia estadísticaΒ=0.05 “Típico” pero puede ser tan alto como β=0.4
Se utiliza para obtener el tamaño de muestra
12
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Interferencia estadística para medias poblacionales (Prueba T)
Muestra y1, y2, y3, …etc. =ӯ, s
Estadístico t
t ≡ ӯ−µσ
=mediamuestra−media poblaciondesviacionestandar de poblacion
Con ν =n-1 (Grados de libertad)
Σ se aproxima con el “error estándar” de la media
“error estándar de la media”(SE(ӯ))=S
√N
t= ӯ−µSE ( ӯ )
O ӯ−µS
√N
13
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
PRUEBA t DE UNA MUESTRAPara saber si la media de la población es igual a un valor supuesto µ0 (puede ser 0)
H0: µ=µ0 H1: µ<µ0
H1: µ≠µ0
H1: µ>µ0
Estadístico de prueba t0
t 0=ӯ−µSE ( ӯ )
Si t0 es un valor cercano a 0 entonces ӯ está cerca del valor supuesto de µ0 y se aceptaría H0.
Si t0 es un valor muy grande entonces ӯ está muy lejos del valor supuesto de µ0 y se rechaza H0.
H0: µ=µ0
H1: µ≠µ0
α=0.05
Opción 1.- Prueba de región Hipótesis: Aceptación /rechazo
14
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Cuando t0 se encuentra en la región de aceptación se acepta H0
Cuando t0 se encuentra en la región de rechazo se acepta H1 y se rechaza H0
Opción 2.- Prueba de valor pValor p: Es la probabilidad de obtener un valor t tan extremo o más extremo que el
estadístico de prueba t0, en su evidencia contra H0, si H0 fuera correcta.
Si t0 es un valor cercano a 0
Cuando t0 es un valor muy lejano de 0
Valor P Conclusión0
a Hay evidencia convincente de que hay que rechazar H0
0.01
a Hay evidencia moderada de que hay que rechazar H0
0.05
15
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
a Hay evidencia sugestiva pero no concluyente de que hay que rechazar H0
0.1
a No hay evidencia de que hay que rechazar H0(Se acepta H0)1
Ejercicio 2El protocolo de control de calidad de un laboratorio indica que entre las muestras se
incluyan aleatoriamente soluciones de control con una concentración de 50 mg/L de
carbono orgánico total (TOC). Los analistas desconocen cuales muestras son las de
control. Los siguientes datos son una muestra de los resultados de las soluciones.
50.13 51.2 50.5 50.2 49.9 50.2 50.3 50.5 49.3 50.0 50.4 5.01 51.0 49.8 50.7 50.6
Efectuar una prueba t de una muestra para determinar si la medida de estaos datos es 50
mg/L, empleando como prueba de hipótesis (A) la región de aceptación/rechazo con
α=0.05 y (β) valor de p.
Se introducen los datos en una columna llamada COT (Ilustración 1)
16
Ilustración 4 Datos
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Posteriormente de procede a realizar la prueba t como se muestra en la Ilustración 2.
Para realizar la prueba t se define como
H0 ӯ=50 mg/L
H1 ӯ≠ 50 mg/L
A un nivel de confianza de 95% los estos datos se capturan en la pantalla mostrada en la
Ilustración 3
17
Ilustración 5 Prueba t
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Los resultados de la prueba t son los mostrados en la Ilustración 4.
Ilustración 7 Resultado prueba t
Y que el valor obtenido de P=0.016 podemos obtener que Hay evidencia moderada para
rechazar H0. Como definimos en el siguiente esquema.
Valor P Conclusión0
a Hay evidencia convincente de que hay que rechazar H0
0.01
a Hay evidencia moderada de que hay que rechazar H0
0.05
a Hay evidencia sugestiva pero no concluyente de que hay que rechazar H0
0.1
a No hay evidencia de que hay que rechazar H0 (Se acepta H0)1
Para hacer el análisis de la región de aceptación y rechazo podemos encontrar las áreas
que van a estar definidas con aceptación y rechazo en la Tabla 1 ya que contamos con
que α=0.05 y ν=15 por lo tanto el área de aceptación estará de -2.131 a 2.131 esta se
muestran gráficamente en la Grafica 1.18
Ilustración 6 Pruebas de Hipótesis
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Se realiza el grafico de distribución de probabilidad, como se muestra en la Ilustración 5.
19
Tabla 1 Distribución t de Student
Ilustración 8 Selección de grafico de probabilidad
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
La Grafica 1 es la obtenida, en la cual se muestran las áreas de aceptación y
rechazo y en la cual podemos comprar si el valor de t0 se encentra en el área de aceptación
o rechazo.
Grafico 3 Distribución t
En el cual podemos concluir que como t0 se encuentra en el área de rechazo se rechaza H0
(H0: ӯ=50).
Problema 3El gas producido de una fermentación biológica se ofrece a la venta con garantía de que su
contenido promedio de metano es de 75%. Al finalizar una muestra aleatoria de n=7
cilindros de gas se obtuvo las siguientes concentraciones (en porcentaje) de metano 64,
65, 75, 67, 65, 74 y 75 A) Efectuar una prueba de hipótesis (Aceptación / rechazo) con un
nivel de significancia de 0.05, para determinar si la concentración promedio de metano es
menor que 75% B) Repetir con un nivel de significancia de 0.01 ¿Cambia la conclusión
obtenida?
20
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Se introdujeron los datos del problema en el software como se muestra en la Ilustración 1
Ilustración 9 Datos
Posteriormente se procede a realizar la prueba de Hipótesis con una prueba t para una
muestra (Ilustración 2)
Ilustración 10 Selección de prueba t
Introducimos la Hipótesis nula H0: μ = 75% de la manera que se muestra en la Ilustración
3.
21
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Ilustración 11 H0
A) Y seleccionamos el Nivel de confianza para el inciso a es de 95%, y en el mismo
apartado definimos la hipótesis alterna H1 : μ < 75% (Ilustración 4)
Ilustración 12 H1
Loa resultados de la Prueba de Hipótesis son los de la Ilustración 5.
Ilustración 13 Prueba de Hipótesis a)
Como el valor de P es de 0.013 podemos decir que “Hay evidencia moderada de que hay
que rechazar H0” Por lo cual podemos hacer el grafico de distribución t para efectuar la
prueba de aceptación o rechazo, mostrada en la Grafica 1
22
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
0.4
0.3
0.2
0.1
0.0
X
Dens
idad
-1.943
0.05
0
Gráfica de distribuciónT, df=6
Grafico 4 Área de aceptación y rechazo con 95% de confianza
Como el valor de t0 = -2.95 este valor se encuentra dentro del área de rechazo en la gráfica
de distribución por lo tanto podemos concluir que se Rechaza H0 la cual nos dice que el
promedio de la concentración de los tanques es de 75%.
B ) Procedemos a realizar la prueba de hipótesis con un nivel de confianza de 99%
Los pasos son los mismos que se siguieron en la prueba anterior hasta la Ilustración 3,
Cambiamos el nivel de confianza como se muestra en la Ilustración 6.
Los resultados obtenidos de la prueba de Hipótesis se muestran en la Ilustración 7.
23
Ilustración 14 H1 Y nivel de confianza de 99%
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Ilustración 15 Resultados prueba de hipótesis a 99% de confianza
Como el valor P no cambio la conclusión es la misma que en el inciso anterior para valor p
“Hay evidencia moderada de que hay que rechazar H0”.
Realizamos el grafico de área de aceptación y rechazo (Grafico 2) con 99% de confianza.
0.4
0.3
0.2
0.1
0.0
X
Dens
idad
-3.1430.01
0
Gráfica de distribuciónT, df=6
Grafico 5 Área de aceptación y rechazo con 99% de confianza
Como el valor de t0 = -2.95 se encuentra en el área de aceptación y podemos aceptar H 0 el
cual nos dice que la concentración promedio de los tanques es de 75%, así también podemos concluir que dependiendo del nivel de confianza que manejemos puede ser aceptada o rechazada nuestra Hipótesis.
24
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Problema 4Biosólidos provenientes de una planta de tratamiento de agua residual se aplicaron a 10
terrenos que fueron seleccionados aleatoriamente de un total de 20 terrenos de prueba, Se
cultivo maíz tanto en los terrenos tratados (T) como en los no tratados (NT). Obteniendo los
siguientes rendimientos:
T 9.03 7.67 8.47 7.63 4.83 9.35 7.66 7.34 8.22 9.35
NT 7.90 7.64 5.64 8.47 5.96 11.29 4.26 6.21 7.65 7.09
¿Hay evidencia estadística de que el rendimiento de cultivo sea diferente cuando se aplican
los biosólidos? ¿Cuál es el intervalo de confianza del 95% para diferencia de medidas?
Los datos se introducen como se muestra en la Ilustración 1.
Debido a que si se acomodaran en el programa en dos
columnas estaríamos diciendo que en cada renglón que hay los
datos tienen algún tipo de relación entre ellos lo cual no ocurre
en este problema.
Ilustración 16 Datos
Según lo que nos dice el problema podemos definir nuestras Hipótesis las cuales son:
H0: μ1 =μ2
H1: μ1 ≠μ2
Mediante el software podemos realizar la prueba T de dos muestras como se muestra en el
Ilustración 2.
25
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Ilustración 17 Prueba t de dos muestras
En la Ilustración 3 se define la prueba de hipótesis y el nivel de confianza el cual será de
95%
Ilustración 18 Definir Prueba de Hipótesis
Los resultados obtenidos son los siguientes:
26
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Con los resultados podemos evaluar la prueba en las siguientes maneras para poder llegar
a una conclusión:
Valor pComo p = 0.327 podemos decir que “No hay evidencia de que hay que rechazar H 0 (Se
acepta H0)”
Intervalo de confianza
El intervalo de confianza obtenido es (-2.302, 0.814)La diferencia estimada obtenida es de -0.744 la cual se encuentra dentro del intervalo de
confianza por lo cual se Acepta H0.
Área de aceptación y rechazo
El valor obtenido de t0 =-1.01 con lo cual podemos observar en la Grafico 1 t0 se encuentra
dentro del área de aceptación por lo cual podemos concluir que la H0 se acepta.
0.4
0.3
0.2
0.1
0.0
X
Dens
idad
-2.093
0.025
2.093
0.025
0
Gráfica de distribuciónT, df=19
Ilustración 19 Distribución t
Mediante el anterior análisis estadístico podemos concluir que el rendimiento del cultivo no
es diferente cuando se aplica el tratamiento con biosólidos a cuando no se aplican.
27
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Problema 5Biosólidos provenientes de una planta de tratamiento de agua residual se aplicaron a 10
terrenos que fueron seleccionados aleatoriamente de un total de 20 terrenos de prueba, Se
cultivo maíz tanto en los terrenos tratados (T) como en los no tratados (NT). Obteniendo los
siguientes rendimientos:
T 9.03 7.67 8.47 7.63 4.83 9.35 7.66 7.34 8.22 9.35
NT 7.90 7.64 5.64 8.47 5.96 11.29 4.26 6.21 7.65 7.09
¿Hay evidencia estadística de que el rendimiento de cultivo sea diferente cuando se
aplicaron los biosólidos? ¿Cuál es el intervalo de confianza del 95% para la diferencia de
medias?
Se observó que uno de los terrenos no tratados tuvo un rendimiento inusualmente
elevando. Al checar los registros, se descubrió que la temporada anterior se le había
aplicado una fuerte dosificación de un fertilizante inorgánico. Con base en esta información
se decidió eliminar esa observación del conjunto de datos. ¿Cambia la
conclusión estadística obtenida?
Los datos se introducen como se muestra en la Ilustración 1. Debido a
que si se acomodaran en el programa en dos columnas estaríamos
diciendo que en cada renglón que hay los datos tienen algún tipo de
relación entre ellos lo cual no ocurre en este problema.
Ilustración 20 Datos
Según lo que nos dice el problema podemos definir nuestras Hipótesis las cuales son:
H0: Ȳ1 =Ȳ2
H1: Ȳ1 ≠Ȳ2
Mediante el software podemos realizar la prueba T de dos muestras como se muestra en el
Ilustración 2.
28
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Ilustración 21 Prueba t de dos muestrasEn la Ilustración 3 se define la prueba de hipótesis y el nivel de confianza el cual será de
95%
Ilustración 22 Definir Prueba de Hipótesis
Los resultados obtenidos son los siguientes:
Two-Sample T-Test and CI: Biosólidos, TRATAMIENTOS
Two-sample T for Biosólidos
TRATAMIENTOS N Mean StDev SE Mean
NT 9 6.76 1.34 0.45
T 10 7.96 1.33 0.42
29
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Difference = mu (NT) - mu (T)
Estimate for difference: -1.197
95% CI for difference: (-2.488, 0.094)
T-Test of difference = 0 (vs not =): T-Value = -1.96 P-Value = 0.067 DF = 17
Both use Pooled StDev = 1.3317
Con los resultados podemos evaluar la prueba en las siguientes maneras para poder llegar
a una conclusión:
Valor pComo p = 0.067 podemos decir que “Hay evidencia sugestiva pero no concluyente de que
hay que rechazar H0”
Intervalo de confianza
El intervalo de confianza obtenido es (-2.488, 0.094)La diferencia estimada obtenida es de 1.3317 la cual se encuentra fuera del intervalo de
confianza por lo cual se rechaza H0
Los resultados considerando el valor extremo son los siguientes:
Difference = mu (NT) - mu (T)
Estimate for difference: -0.744
95% CI for difference: (-2.288, 0.800)
T-Test of difference = 0 (vs not =): T-Value = -1.01 P-Value = 0.325 DF = 18
Both use Pooled StDev = 1.6437
El valor p= 0.325 con el que podemos decir “No hay evidencia para rechazar H0”
Mediante el anterior análisis estadístico podemos concluir que el rendimiento del cultivo es diferente cuando se aplica el tratamiento con biosólidos a cuando no se aplican, y el valor extremo si cambia la conclusión.
30
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
PRUEBA T DE DOS MUESTRAS
Muestra n1 Muestra n2
ӯ1, S1 ӯ2, S2
Si n1=n2 es
balanceada
Hipótesis nula
H0: μ1- μ2 = (μ1 – μ2)0 (Diferencia hipotética que creemos que hay)
Hipótesis alterna
H1 : μ1- μ2 ≠ (μ1 – μ2)0
H1 : μ1- μ2 < (μ1 – μ2)0
H1 : μ1- μ2 > (μ1 – μ2)0
Si (μ1 – μ2)0 = 0
Hipótesis nulaH0 : μ1= μ2
Hipótesis alterna H1: μ1≠μ2
H1: μ1<μ2
H1: μ1>μ2
Estadístico de prueba
t 0=( ӯ1− ӯ 2 )−(μ1−μ2)
SE ( ӯ1− ӯ2 )
31
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Dos casos dependiendo de σ1 y σ1
Caso 1: Si σ1 se asume igual que σ2
Calcular varianza colectiva
Sp=√ (n1−1 ) S12+(n2−1 )S22
n1+n2−2
SE ( ӯ1− ӯ 2)=SP√ 1n1+ 1n2ν= n1+n2-2
Caso 2: Si se asume que σ1 y σ2 son diferentes.
SE ( ӯ1− ӯ 2)=√ S12n1 + S22
n2
V=( S1
2
n1+S22
n2 )2
( S12
n1 )2
n1−1+( S2
2
n2 )2
n2−1
Prueba t PareadaA cada valor de yi1 de una población le corresponde uno y solo uno de los valores y i2 de la
otra población.
Se define la diferencia como:
diΞ y1i – y2i
Diferencia de la población: δ
32
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Hipótesis
H0: δ= δ0
H1: δ ≠ δ0
H1: δ < δ0
H1: δ > δ0
Estadístico de prueba
t 0=d−δ0SE (d )
SE(d¿)= Sd√n
¿
v=n-1 grados de libertad
n= numero de pares
d = promedio de las diferencias
ResistenciaUn método estadístico es resistente si el resultado obtenido no cambia mucho si una
pequeña parte de los datos cambia (tal vez drásticamente). Normalmente es de importancia
si hay valores extremos.
Las pruebas t no son resistentes por que se basan en promedios
Estrategia para valores extremos1. Realizar el análisis estadístico con y sin el valor extremo sospechoso.
2. Si las conclusiones estadísticas no cambian significativamente dejar el valor
sospechoso en los datos y reportar los resultados.
3. Si las conclusiones si cambian investigar las observaciones buscando una
explicación. Si se puede determinar que la observación no proviene de la población
de interés, se puede remover. En caso de no poder encontrar una causa es posible
que se requiera un estudio más detallado.
RobustezSe dice que un método estadístico es robusto si proporciona resultados validos incluso si
hay desviaciones respecto a alguna de las suposiciones del modelo.
Las pruebas t son razonablemente robustas respecto a desviaciones de la normalidad
especialmente cuando la muestra es grande debido al teorema del límite central.
33
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
En el caso de la prueba t de dos muestras si ambas poblaciones tienen la misma
desviación estándar y aproximadamente la misma forma y si las muestras son se igual
tamaño, la prueba se ve afectada moderadamente por distribución con colas largas y muy
poco por la asimetría de la distribución. Si las muestras no son aproximadamente del
mismo tamaño la asimetría afecta mucho más. Por último si la asimetría es muy diferente
en ambas poblaciones la prueba t de dos muestras puede dar resultados muy equivocados.
La robustez de la prueba t de dos muestras respecto a desviaciones de la suposición de
varianzas iguales, la prueba es razonablemente robusta si las muestras son de
aproximadamente el mismo tamaño. La peor situación es cuando las varianzas son muy
diferentes y la muestra más pequeña proviene de la población con la mayor varianza.
σ1 >> σ2
n1 << n2
Problema 6
34
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Dicen que la mejor comida es la del hogar. Cada domingo, Armando Esteban Quito (estudioso de la estadística) va a casa de sus padres a comer. A Armando le preocupa que, como la comida es tan buena, tal vez está comiendo en exceso. Así que en varios fines de semana, seleccionados aleatoriamente, se pesó el domingo en la mañana, y nuevamente el lunes en la mañana. Estos pesos, en kilogramos, se muestran en la tabla. ¿Hay evidencia estadística de que Armando aumenta de peso del domingo al lunes? En caso afirmativo, ¿cuánto es el aumento promedio?
Los datos se introducen como se muestra en la Ilustración 1.
Ilustración 23 Datos en Minitab
Las hipótesis a evaluar son las siguientes:H0 : µL -µD =0 (no hay diferencia del peso del Domingo al Lunes)H1: µL > µD (Hay diferencia de peso del Domingo al Lunes)
Se realizo un análisis estadístico de prueba t pareada ya que cada lunes corresponde un peso del domingo. Los resultados obtenidos de la prueba son los siguientes:
35
Tabla 2 Datos
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Como el valor p es de 0 podemos inferir que “Hay evidencia convincente de que hay que rechazar H0”
El valor de t0 se evalúa en al área de aceptación y rechazo con el grafico 1.
Ya que el valor obtenido de t0 es de 4.53 se encuentra en el área de rechazo se rechaza H0 Podemos concluir que si hay un aumento de peso del los domingos al lunes y la diferencia promedio de aumento de peso es de 0.2010 kg.
36
0.4
0.3
0.2
0.1
0.0X
Dens
ity
1.667
0.05
0
Distribution PlotT, df=69
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Unidad 2Análisis de varianza (ANOVA)
Se emplea para comparar la media de varios grupos (número de grupos a).
Herramientas del análisis de varianzaPrueba FEs para saber si alguna media de los grupos es diferente.
Comparación entre medias
Comparaciones PlaneadasComparaciones no planeadas
Combinaciones linealesPermiten agrupar la información o los datos de diversas formas.
Prueba F (Fisher)
Hipótesis
H0: μ1 = μ2 = μ3 =……= μa = μ (todas la medias son iguales)
H1: Al menos una μ es diferente
Modelo matemáticoModelo de Medias.
yij = μi + εji
Donde:i = Numero de grupoj= dato individual.μi = Media de grupoεji = Error o desviación de cada dato.
Modelo de Efectos.yij = μ + τi + εji
Donde:Ti = efecto del grupoμ = Media globalni= numero de datos del grupoN = número total de datos.
37
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Suposiciones de modelo.Poblaciones tienen distribución normalTodas tienen la misma varianza
El análisis de varianza es relativamente robusto respecto a la normalidad, aunque no tanto si no es balanceado y α es muy chico.No es resistente por que se basa en cálculo de medias.
Definición de sumas y promedios
y i ·≡∑j=1
n
y ij y i·≡y i ·n
y ∙∙≡∑i=1
a
∑j=1
¿
yij=∑i=1
a
y i∙ y ∙ ∙=y ∙ ∙N
Definición de residuales.
Modelo completo:
y ij− y i ∙Representa que tan diferente es cada dato con respecto a la media.
Modelo reducido:y ij− y ∙∙
Representa que tan diferente es cada dato con respecto a la media global.
Sumas de cuadrados.
Modelo completo.
SSERROR=∑i=1
a
∑j=1
¿
¿¿¿
Modelo reducido.
SSERROR=∑i=1
a
∑j=1
¿
¿¿¿
Si H0 fuera cierta.Ho: μ1 = μ2 = μ3 …Por lo tanto las sumas de cuadrados deberían ser esencialmente iguales.
38
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Partición de la suma de cuadrados.
SSTOT = SSTRATAMIENTOS + SSerror
Variabilidad total observada en
los datos
Variabilidad debida a que viene
de diferentes poblaciones
Variabilidad natural de los
datos (“error experimental”)Normalmente se calcula SStotal. Y SSTratamientos Y SS error se determina por diferencia.El número de grados de libertad también se divide entre tratamientos (a-1) y error (N-a)
N-1=(a-1)+(N+a)
Estadístico F
F=
(sumadecuadrados extra)(grados de libertad extra)
σ2Completo“Extra” : Los obtenidos al agrupar los datos (es decir de los tratamientos)SStratamiento =Suma de cuadrados extra(a-1)=grados de libertad extra.
σ2Completo se estima con la varianza colectiva
SPp2=
(n1−1 ) S12+(n2−1 )S22+…+(na−1)Sa2
(n1−1 )+(n2−1 )+…+(na−1)
Spp2=
SSerrorN−a
Tabla ANOVA
Fuente de variación
Suma de Cuadrados
Grados de libertad Cuadro medio Estadístico F
Tratamiento (entre grupos)
SSTratamiento a-1 (v1) M strat=SStrata−1 F0=
M stratamientoM S ERROR
Error (detro de grupos)
SSError N-a (v2)M serror=
SS ERROR
N−aTotal (Modelo SSTotal N-1
39
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
reducido)
Se rechaza H0 si F0 es mayor que Fα,V1,V2 .*Alternativamente usar el valor p
Ejercicio 7
Se pide a cuatro analistas de laboratorio que determinen por triplicado la concentración de
un contaminante en una misma muestra de agua. Los resultados (en partes por millón) se
muestran en la tabla. ¿Hay evidencia estadística de que los analistas difieran
significativamente?
Analista 1 Analista 2 Analista 3 Analista 449.9 51.5 42.0 47.240.4 51.3 41.0 44.843.8 48.8 45.5 51.6
Se introdujeron los datos al software estadístico Minitab de la siguiente manera:
Ilustración 24 Datos
Al querer hacer comparación si existen diferencia éntrelos resultados de cada uno de los
analistas las hipótesis a aceptar o rechazar son las siguientes:
H0: µ1 = µ2 = µ3 = µ4
H1: Alguna µ es diferente
40
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Se realiza el análisis estadístico de la tabla ANOVA y los resultados obtenidos son los
siguientes:
Podemos observar que l valor obtenido de P = 0.081 con lo cual podemos decir que “Hay evidencia sugestiva pero no concluyente de que hay que rechazar H0”Al realizar el análisis con el valor de F0= 3.25 hacemos el grafico de distribución F (Grafico 1) para un α= 0.05, ν1 = 3 y ν2=8. (Valores obtenidos de la Columna DF de la tabla anova)
Grafica 1 Distribución F
41
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
El grafico podemos observar que F0 se encuentra dentro del área de aceptación por lo
cual se acepta Ho y podemos concluir que no hay evidencia estadística de que sean diferentes las medias de cada analista.
Comparaciones Múltiples.Comparaciones planeadas No planeadas
α = nivel de significancion de la familia de pruebas α i = Nivel de significancia de una prueban= Numero de pruebas
α=1−¿*Si son independientesSi no se pueden asumir independientes al menos
α ≤nα 1
Prueba de Fisher Para balanceados
42
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
LSD=t α2 , N−a
SP√ 2nSp= desv. Estándar combinada
Para no balanceados
LS Dij=t α2,N−a
SP√ 1n1 + 1n2Las medias de dos grupos se declaran diferentes si se cumple
|y i ∙− y j ∙|>LSD
Prueba de FisherSe basa en el rango estudentizado (q).
q≡max( y¿¿ i)−min ¿¿¿
Para construir intervalos de confianza para cada par de grupos.
y i ∙− y j ∙∓qα, a , N−a
√2SP√ 1n1 + 1n2
Si el Intervalo de Confianza contiene el cero se declara que no hay diferencia.Prueba de Dunnett
Es utilizado para comparar con un control.Prueba de HSV
Sirve para comparar cada grupo con el mejor o peor de los otros grupos.
Comparaciones planeadas.Una prueba t de dos muestras usando Sp como desviación estándar (prueba con datos resumidos)
“a” grupos de medidas μ1, μ2,… μa
Definición de combinación
λ=C1μ1+C2 μ2+…+Caμa
Algunas constantes © pueden ser cero.Cuando se cumple :
∑i=1
a
C1=0
Se le llama “Contraste”
43
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
El estadístico correspondiente a λ es:
l=C1 y1 ∙+C2 y2∙+C3 y3 ∙+…+Ca ya ∙
L tiene su error estándar:
SE (l )=SP√C12
n1+C22
n2+C32
n3+…+
Ca2
na
Con v= N-a grados de libertad
Prueba estadística.
Usar prueba t de una muetra usando SE(l) y N-a grados de libertad.
Si se tienen dos contrastes con coeficientes
CI y di
λ1=C1 μ1+C2μ2+…+Caμaλ2=d1μ1+d2 μ2+…+da μa
Con la condición
∑i=1
a
C1d i=0
Son contrastes ortogonales: Son estadísticamente independientes.
44
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Ejercicio 8Se efectuaron mediciones de conductividad eléctrica (en μS/cm) en cuatro puntos de
muestreo en una laguna aireada en una planta de tratamiento de agua. El agua de la
laguna se supone que es completamente homogénea debido al mezclado producido por los
aereadores.
(A) Efectúe una prueba F del análisis de varianza para estos datos. ¿Qué conclusión se
obtiene respecto a la homogeneidad del agua de la laguna?
(B) ¿Qué puede comentar respecto al valor de 1209 μS/cm del punto de muestreo D?
(C) Si considera necesario, analice de nuevo los datos tomando las acciones pertinentes
respecto al dato mencionado en el inciso anterior. ¿A qué conclusión se llega ahora?
(D) ¿Cuáles puntos de muestreo presentan (estadísticamente hablando) igual
conductividad eléctrica?
HipótesisH0: μ1= μ2= μ3 = μ4
45
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
H1: Alguna de las μ es diferente
A) Los fatos se introducen al Software estadístico MINITAB. Se Hace una prueba F
para poder evaluar si hay diferencia entre los diferentes puntos de los cuales el
resultado del análisis es el siguiente:
Al obtener el valor de P= 0.753 se puede concluir que “ No hay evidencia estadística para
rechazar H0 “ y podemos decir que la laguna está completamente mezclada .
B) Al observar que hay un dato anormal con respecto a los demás datos se elimina este
para realizar la prueba F de nuevo obteniendo los siguientes resultados:
46
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Donde obtenemos el valor P<0.00005 con lo que podemos concluir que “ Hay evidencia
convincente de que hay que rechazar H0” y por lo tanto se acepta H1 y podemos decir que
al menos una media de medición de los puntos es diferente.
C) Como al eliminar el dato la conclusión de nuestro análisis estadístico cambio el dato
se omitirá en el análisis siguiente y se tomara como conclusión previa la expresada
en el inciso B).
D) Al saber nosotros que al menos una de las medias es diferente haremos una
comparación de Fisher para saber cuáles son diferentes.
El resultado obtenido se muestra a continuación:
47
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Como podemos observar en las comparaciones los puntos A y D no tienen diferencias
entre ellas pero en al caso de B Y C pero si entre los dos grupos respectivamente.
Al evaluar los resultados obtenemos una intervalo de confianza de entre el punto A y D esta
el 0 el cual es un probable resultado entre la diferencia de la medias de las mediciones en
los puntos, lo mismo para los puntos B y C. y representan igual conductividad eléctrica
entre ellos
48
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Ejercicio 9
Respecto al ejercicio anterior, se pudieron identificar dos grupos de puntos de muestreo estadísticamente diferentes.Construir un intervalo de confianza del 95% para el contraste entre los promedios de ambos grupos de puntos de muestreo.
Hipótesis:
H0: μ A+μD2
=μB+μC2
H1: μ A+μD2
≠μB+μC2
Contraste H0
μ A+μD2
−μB+μC2
=0
μ A
2+μD2
−μB2
−μC2
=0
12μA+
12μD−
12μB−
12μC=0
C1=1/2 C2= - 1/2 C3= -1/2 C4= ½
Grupo ӯ nA 610.0 4B 660.0 6C 686.0 6D 617.0 7
Sp= 20.95α= 19Determinamos el estadístico l
l=C1 y1 ∙+C2 y2∙+C3 y3 ∙+…+Ca ya ∙l=12
(610 )−12
(660 )−12
(680 )+ 12
(617 )=−57
49
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
Determinamos el error de l
SE (l )=SP√C12
n1+C22
n2+C32
n3+C42
n4
SE (l )=20.95√(1 /2)2
4+(1 /2)2
6+(1 /2)2
6+(1 /2)2
7=8.92
Para determinar el intervalo de confianza se busca en las tablas de distribución t
T0.025,19=2.093 Y obtenemos que: I.C = 57± (2.093*8.92)
I.C.= 57 ± 18.66
50
Instituto Tecnológico de Durango Maestría en Sistemas Ambientales
ANEXOS
51
top related