tema 5: contrastes de hipótesis -...
Post on 27-Sep-2018
219 Views
Preview:
TRANSCRIPT
Tema 5: Contrastes de hipotesis
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 1
Planteamiento del problema
Sea X una v.a. con distribucion de probabilidad dada por unmodelo parametrico cuya expresion matematica es totalmenteconocida a excepcion de algun parametro desconocido θ ∈ Θ.Sea X1, . . . ,Xn una muestra aleatoria de la poblacion X .
Objetivo: Dada una particion del espacio parametricoΘ = Θ0 ∪Θ1, deseamos decidir, en base a la muestra obtenida, siθ ∈ Θ0 o si θ ∈ Θ1. Queremos contrastar
H0 : θ ∈ Θ0 (hipotesis nula)
H1 : θ ∈ Θ1 (hipotesis alternativa)
Un test para contrastar estas dos hipotesis consiste en proporcionaruna regla de decision que, a cada posible observacion de lamuestra (x1, . . . , xn), le asigne una decision: aceptar o rechazar H0.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 2
Espacio muestral
(x1,...,x
n)
(x1,...,x
n)
Región críticao de rechazoR
Región deaceptación A
Rechazo H0
Acepto H0
TEST
Decisión
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 3
Posibles errores de un test:
Error de tipo I: Rechazar H0 cuando H0 es cierta.
Error de tipo II: Aceptar H0 cuando H0 es falsa.
La funcion de potencia de un test con region de rechazo R paracontrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 es la funcion
Θ −→ [0, 1]θ 7−→ Pθ(R).
Lo que nos gustarıa:
ΘΘ
0Θ
1
θ
Potencia = 1Potencia = 1
Potencia = 0
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 4
Lo que en realidad se hace (teorıa de Neyman-Pearson):
1. Acotar la maxima probabilidad de error de tipo I.
• Se fija un nivel de significacion α ∈ (0, 1). Tıpicamenteα = 0.05.• Se define el tamano de un test como la maxima
probabilidad de error de tipo I: maxθ∈Θ0
Pθ(R).
• Se busca una region de rechazo R tal que maxθ∈Θ0
Pθ(R) ≤ α.
2. Minimizar la probabilidad de error de tipo II. Se intentabuscar una region de rechazo R que maximice la funcion depotencia cuando θ ∈ Θ1.
Las hipotesis H0 y H1 no son simetricas.
Los test de hipotesis suelen ser conservadores con la hipotesis nula:hace falta mucha evidencia muestral para rechazar H0.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 5
Contrastes en poblaciones normales
Contrastes sobre la media µ de una poblacion normal
• Sea X1, . . . ,Xn una muestra de X ∼ N(µ, σ) con σ desconocido.
H0 : µ = µ0 R =
{(x1, . . . , xn) : |x − µ0| ≥ tn−1;α/2
s√n
}H0 : µ ≤ µ0 R =
{(x1, . . . , xn) : x − µ0 ≥ tn−1;α
s√n
}H0 : µ ≥ µ0 R =
{(x1, . . . , xn) : x − µ0 ≤ tn−1;1−α
s√n
}En todo contraste las regiones de rechazo se pueden expresar enterminos del estadıstico del contraste, una funcion de la muestracuya distribucion de probabilidad es (al menos aproximadamentepara n grande) totalmente conocida bajo la hipotesis nula H0 (o enla frontera entre H0 y H1, que es la situacion mas desfavorablepara decidir entre ambas hipotesis).
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 6
En los contrastes acerca de la media de una poblacion normal elestadıstico del contraste es el estadıstico t
t =X − µ0
S/√n,
que sigue una distribucion t de Student tn−1 si µ = E (X ) es iguala µ0. Por eso estos contrastes reciben el nombre de t-tests. Lasregiones de rechazo se pueden expresar de manera equivalente ası:
H0 : µ = µ0 R ={
(x1, . . . , xn) : |t| ≥ tn−1;α/2
}H0 : µ ≤ µ0 R = {(x1, . . . , xn) : t ≥ tn−1;α}H0 : µ ≥ µ0 R = {(x1, . . . , xn) : t ≤ tn−1;1−α}
Como hacer un contraste de la t con R:
help(t.test)
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"), mu = 0,
paired = FALSE, var.equal = FALSE, conf.level =
0.95,...)
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 7
Ejemplo 5.1: Se certifica que un material estandar de referenciade un suelo contiene 94.6 ppm de un contaminante organico. Unanalisis repetido arrojo los siguientes resultados: 98.6, 98.4, 97.2,94.6 y 96.2 ppm. A un nivel de significacion α = 0.05 ¿haysuficiente evidencia estadıstica para concluir que los resultadosdifieren del valor esperado?. Si se disminuye α a 0.01, ¿serechazarıa H0?.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 8
Ejemplo 5.1 (cont.):
X = c(98.6, 98.4, 97.2, 94.6, 96.2)
t.test(X,alternative="two.sided",mu=94.6)
One Sample t-test
data: X
t = 3.2421, df = 4, p-value = 0.03161
alternative hypothesis: true mean is not equal to 94.6
95 percent confidence interval:
94.94468 99.05532
sample estimates:
mean of x
97
¡Que curioso! R no parece dar una solucion al problema delcontraste. ¿O sı? Presentemos el concepto de p-valor (pagina 31).
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 9
Relacion entre contrastes de hipotesis e intervalos deconfianza
La region de rechazo
R =
{(x1, . . . , xn) : |x − µ0| ≥ tn−1;α/2
s√n
}del anterior contraste
H0 : µ = µ0α
H1 : µ 6= µ0
equivale aR = {(x1, . . . , xn) : µ0 /∈ IC1−α(µ)} .
En general, en muchos casos de hipotesis nula simple (es decir, deltipo H0 : θ = θ0) el test usual rechaza H0 (al nivel de significacionα) si y solo si el intervalo de confianza para θ de nivel de confianza1− α no contiene al valor θ0.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 10
Contrastes sobre la varianza σ2 de una poblacion normal
• Sea X1, . . . ,Xn una muestra de X ∼ N(µ, σ) con σ desconocido.
H0 : σ = σ0 R =
{(n − 1)s2
σ20
/∈ (χ2n−1;1−α/2 , χ
2n−1;α/2)
}H0 : σ ≤ σ0 R =
{(n − 1)s2
σ20
≥ χ2n−1;α
}H0 : σ ≥ σ0 R =
{(n − 1)s2
σ20
≤ χ2n−1;1−α
}El estadıstico del contraste
χ2 =(n − 1)S2
σ20
=
∑ni=1(Xi − X )2
σ20
(X-squared en R)
sigue una distribucion χ2n−1 si σ2 = V (X ) es igual a σ2
0.
Para hacer este contraste con R hay que instalar el paqueteTeachingDemos. Primero pinchar en Install Packages:
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 11
En el cuadro de dialogo
escribir TeachingDemos en el hueco y pinchar en Install. Si elpaquete se instala correctamente, en la consola aparece:> install.packages("TeachingDemos")
Installing package(s) into C:/R/R-2.15.1/library
(as lib is unspecified)
probando la URL ’http://cran.es.r-project.org/bin/windows/contrib/2.15/
TeachingDemos_2.9.zip’
Content type ’application/zip’ length 772933 bytes (754 Kb)
URL abierta
downloaded 754 Kb
package TeachingDemos successfully unpacked and MD5 sums checked
The downloaded binary packages are in
C:\usuarios\AppData\Local\Temp\Rtmp00ZpFR\downloaded_packages
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 13
Luego hay que “cargar” el paquete instalado, marcandolo en lalista de paquetes disponibles:
Observemos que, al tratar de cargar el paquete, en la consolaaparece el aviso de que la version de R que el autor deTeachingDemos utilizo era mas moderna que la que yo utilizo.Esto no tiene por que suponer ningun problema, a menos que en elpaquete se utilicen funciones de la version mas reciente.
La funcion especıfica de TeachingDemos que utilizaremos essigma.test.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 14
Ejemplo 5.1 (cont.):X = c(98.6, 98.4, 97.2, 94.6, 96.2)
sigma.test(X)
One sample Chi-squared test for variance
data: X
X-squared = 10.96, df = 4, p-value = 0.05403
alternative hypothesis: true variance is not equal to 1
95 percent confidence interval:
0.9835518 22.6250622
sample estimates:
var of X
2.74
sigma.test(X,sigma=2,alternative="greater")
One sample Chi-squared test for variance
data: X
X-squared = 2.74, df = 4, p-value = 0.6022
alternative hypothesis: true variance is greater than 4
95 percent confidence interval:
1.155176 Inf
sample estimates:
var of X
2.74
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 15
Contrastes con dos poblaciones normales independientes
• Sean X1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatoriasindependientes de X ∼ N(µ1, σ1) e Y ∼ N(µ2, σ2)respectivamente (σ1 y σ2 desconocidas). X e Y son v.a.independientes.
H0 : σ1 = σ2 R =
{s2
1
s22
/∈ (Fn1−1;n2−1;1−α/2,Fn1−1;n2−1;α/2)
}=
{1 /∈ IC1−α
(σ2
1
σ22
)}H0 : σ1 ≤ σ2 R =
{s2
1
s22
> Fn1−1;n2−1;α
}H0 : σ1 ≥ σ2 R =
{s2
1
s22
< Fn1−1;n2−1;1−α
}
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 16
Ejemplo 5.2: Un microbiologo desea averiguar si hay diferencia enel tiempo que tarda en producir yogur utilizando dos tipos debacterias: lactobacillus acidophilus (A) y bulgaricus (B). Seprepararon siete remesas de yogur con cada tipo de lactobacilo. Acontinuacion se muestra el tiempo (en horas) hasta que se produjocada remesa:
Cultivo A6.8 6.3 7.4 6.1 8.2 7.3 6.9
Cultivo B6.1 6.4 5.7 5.5 6.9 6.3 6.7
Suponiendo que la distribucion de ambos conjuntos deobservaciones se puede considerar normal, contrastar la hipotesisde homocedasticidad (igualdad de varianzas):
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 17
Ejemplo 5.2 (cont.):
A = c(6.8, 6.3, 7.4, 6.1, 8.2, 7.3, 6.9)
B = c(6.1, 6.4, 5.7, 5.5, 6.9, 6.3, 6.7)
var.test(A,B,ratio=1,alternative="two.sided",conf.level
=0.9)
F test to compare two variances
data: A and B
F = 1.9814, num df = 6, denom df = 6, p-value = 0.4259
alternative hypothesis: true ratio of variances is not
equal to 1
90 percent confidence interval:
0.462521 8.487957
sample estimates:
ratio of variances
1.981378
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 18
• Sean X1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras aleatoriasindependientes de X ∼ N(µ1, σ1) e Y ∼ N(µ2, σ2)respectivamente (σ1 = σ2 desconocida). X e Y son v.a.independientes.
H0 : µ1 = µ2 R =
{|x − y | ≥ tn1+n2−2;α/2 sp
√1
n1+
1
n2
}= {0 /∈ IC1−α(µ1 − µ2)}
H0 : µ1 ≤ µ2 R =
{x − y ≥ tn1+n2−2;α sp
√1
n1+
1
n2
}H0 : µ1 ≥ µ2 R =
{x − y ≤ tn1+n2−2;1−α sp
√1
n1+
1
n2
}donde
s2p =
(n1 − 1)s21 + (n2 − 1)s2
2
n1 + n2 − 2
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 19
El estadıstico del contraste
t =X − Y
Sp
√1n1
+ 1n2
sigue una distribucion tn1+n2−2 si µ1 = µ2. Podemos reexpresar lasregiones de rechazo ası:
H0 : µ1 = µ2 R ={|t| ≥ tn1+n2−2;α/2
}H0 : µ1 ≤ µ2 R = {t ≥ tn1+n2−2;α}H0 : µ1 ≥ µ2 R = {t ≤ tn1+n2−2;1−α}
Ejemplo 5.2 (cont.):
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 20
Ejemplo 5.2 (cont.):
t.test(A,B,alternative="two.sided",conf.level=0.95,var.
equal=TRUE)
Two Sample t-test
data: A and B
t = 2.3375, df = 12, p-value = 0.03755
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
0.05238216 1.49047498
sample estimates:
mean of x mean of y
7.000000 6.228571
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 21
• Datos emparejados: Sea (X1,Y1), . . . , (Xn,Yn) una muestraaleatoria de (X ,Y ) donde X e Y no son independientes, pero lospares (Xi ,Yi ), para i = 1, . . . , n, son independientes entre sı.
Denotemos E (X ) = µ1 y E (Y ) = µ2 y supongamos queD = X − Y ∼ N(µ = µ1 − µ2, σ). EntoncesD1 = X1 − Y1, . . . ,Dn = Xn − Yn es una muestra aleatoria de D.
Podemos realizar los siguientes contrastes de hipotesis basandonosen los tests de la pagina 6:
H0 : µ1 = µ2 ⇔ H0 : µ = 0
H0 : µ1 ≤ µ2 ⇔ H0 : µ ≤ 0
H0 : µ1 ≥ µ2 ⇔ H0 : µ ≥ 0
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 22
Ejemplo 5.3: Consideremos el contenido en colesterol de 6muestras de plasma sanguıneo humano medido con dos tecnicasdistintas.
Contenido de colesterol (g/l)Muestra
de plasmaMetodo A Metodo B Diferencia di
1 1,46 1,42 0,042 2,22 2,38 -0,163 2,84 2,67 0,174 1,97 1,80 0,175 1,13 1,09 0,046 2,35 2,25 0,10
El metodo B da un resultado menor que el metodo A en 5 de las 6muestras. ¿Es el metodo B sistematicamente diferente del A?
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 23
Contrastes para distribuciones no normales
Tests de nivel aproximado α (muestras grandes) para lamedia de cualquier distribucion
Sea X1, . . . ,Xn una muestra aleatoria de X con E (X ) = µ <∞ yV (X ) = σ2 <∞. Entonces, por el Teorema Central del Lımite,
X − µs/√n
aprox.∼ N(0, 1).
H0 : µ = µ0 R =
{(x1, . . . , xn) :
∣∣∣∣ x − µ0
s/√n
∣∣∣∣ > zα/2
}H0 : µ ≤ µ0 R =
{(x1, . . . , xn) :
x − µ0
s/√n> zα
}H0 : µ ≥ µ0 R =
{(x1, . . . , xn) :
x − µ0
s/√n< −zα
}Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 24
Contrastes sobre una proporcion p
Sea X1, . . . ,Xn una muestra aleatoria de una v.a. X∼Bernoulli(p).Suponemos que n es grande. Por el TCL sabemos que
Xaprox.∼ N
(p,
√p(1− p)
n
).
H0 : p = p0 R =
{|x − p0| > zα/2
√p0(1− p0)
n
}
H0 : p ≤ p0 R =
{x − p0 > zα
√p0(1− p0)
n
}
H0 : p ≥ p0 R =
{x − p0 < z1−α
√p0(1− p0)
n
}
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 25
Ejemplo 5.5: Most Like it Hot es el tıtulo de un informe publicadopor el Pew Research Center el 18 de marzo de 2009:www.pewsocialtrends.org/2009/03/18/most-like-it-hot/
El informe afirma “by an overwhelming margin, Americans want tolive in a sunny place”. La afirmacion se basa en una muestrarepresentativa de 2260 adultos estadounidenses. De estos, 1288dijeron que preferirıan vivir en un clima calido en lugar de en unclima frıo. ¿Proporcionan los datos suficiente evidencia estadısticade que la mayorıa de los estadounidenses adultos prefieren un climacalido frente a uno frıo? Utilizar un nivel de significacion α = 0.01.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 26
Ejemplo 5.5 (cont.):prop.test(1288,2260,p=0.5,alternative="greater",correct=FALSE)
1-sample proportions test without continuity correction
data: 1288 out of 2260, null probability 0.5
X-squared = 44.1841, df = 1, p-value = 1.495e-11
alternative hypothesis: true p is greater than 0.5
95 percent confidence interval:
0.552708 1.000000
sample estimates:
p
0.5699115
La correccion por continuidad anade un termino extra al estadıstico delcontraste para corregir el error cometido al aproximar una distribuciondiscreta (binomial) por una distribucion continua (normal). La correccionajusta la probabilidad del error de tipo I (que se “infla” al emplear laaproximacion normal cuando el tamano muestral es pequeno). Porejemplo, en el caso del contraste H0 : p = p0, la region de rechazo esR = {|z | > zα/2} donde el estadıstico del contraste es
sin correccion por continuidad con correccion por continuidad
z = x−p0√p0(1−p0)
n
z =|x−p0|− 1
2n√p0(1−p0)
n
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 27
Comparacion de dos proporciones
Sean X1, . . . ,Xn1 e Y1, . . . ,Yn2 muestras de X ∼ Bernoulli(p1) eY ∼ Bernoulli(p2), v.a. independientes.
H0 : p1 = p2 R =
{|x − y | > zα/2
√p(1− p)
(1
n1+
1
n2
)}
H0 : p1 ≤ p2 R =
{x − y > zα
√p(1− p)
(1
n1+
1
n2
)}
H0 : p1 ≥ p2 R =
{x − y < z1−α
√p(1− p)
(1
n1+
1
n2
)}
donde p =
∑n1i=1 xi +
∑n2j=1 yj
n1 + n2=
n1x + n2y
n1 + n2.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 28
Ejemplo 5.6: Basandose en las propiedades bioquımicas del xilitol,un azucar obtenido de la madera de abedul, unos investigadoresfinlandeses creen que el uso regular de este edulcorante puedeprevenir las otitis en ninos menores de 5 anos. Se tomo unamuestra de 165 ninos que tomaron cinco dosis diarias de un jarabeplacebo y 68 de ellos tuvieron infeccion de oıdo. Otros 159 ninostomaron cinco dosis diarias de xilitol y 46 de ellos sufrieron otitisdurante el estudio. ¿Hay suficiente evidencia de que el xilitolreduce el riesgo de infeccion de oıdo?
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 29
Ejemplo 5.6 (cont.):
prop.test(c(68,46),c(165,159),p=NULL,alternative="greater",correct=FALSE)
2-sample test for equality of proportions without continuity correction
data: c(68, 46) out of c(165, 159)
X-squared = 5.3554, df = 1, p-value = 0.01033
alternative hypothesis: greater
95 percent confidence interval:
0.03637624 1.00000000
sample estimates:
prop 1 prop 2
0.4121212 0.2893082
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 30
El concepto de p-valor
Dado un test, definido para todos los niveles de significacionposibles, se define el p-valor, para unos datos prefijados, como elınfimo de los valores α para los cuales se rechaza la hipotesis nulaa un nivel de significacion α.
P(x1, . . . , xn) = ınf{α : H0 es rechazada al nivel α}.
Cuanto mas pequeno es el p-valor, mas evidencia estadısticaaportan los datos a favor de H1.
Los programas informaticos que realizan contrastes de hipotesis (R,SPSS, Excel, Matlab,. . . ) no realizan el contraste para un nivel designificacion α, sino que directamente nos dan el p-valor delcontraste.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 31
Comparacion de medias de mas de dos poblacionesnormales (analisis de la varianza)
El objetivo del Analisis de la Varianza es estudiar si existe relacionentre el valor medio E (Y ) de una variable respuesta ocaracterıstica, Y , y una variable cualitativa, atributo o factor.
Ejemplo 5.7: Algunas variedades de nematodos (gusanosmicroscopicos que viven en el suelo) se alimentan de las raıces deplantas variadas y cultivos. Este parasito es especialmenteabundante en climas templados y humedos y puede causar grandesestragos en la produccion agraria. Las plagas de nematodos sepueden tratar, por ejemplo, con nematicidas. Sin embargo, debidoal pequeno tamano de los gusanos, es muy difıcil medir laefectividad de estos pesticidas directamente. Para comparar cuatronematicidas, se considera la cantidad (en libras) de tomates de unavariedad especıfica recogidos en campos de las mismasdimensiones:
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 32
Ejemplo 5.7 (cont.):
Nematicida
A B C D
18.6 18.7 19.4 19.018.4 19.0 18.9 18.818.4 18.9 19.5 18.618.5 18.5 19.2 18.718.3 18.8
Nematodos.txtNematodos
Produccion Nematicida18.6 A18.4 A18.4 A18.5 A18.3 A18.7 B19.0 B18.9 B18.5 B19.4 C18.9 C19.5 C19.2 C18.8 C19.0 D18.8 D18.6 D18.7 D
Página 1
Queremos averiguar si existen diferencias significativas entre laproduccion media de los campos dependiendo del tipo denematicida utilizado.
Datos = read.table("Nematodos.txt",
header=TRUE)
P = Datos$Produccion
N = Datos$Nematicida
plot(P ~ N,xlab="Nematicida",ylab="
Produccion")
A B C D
18
.41
8.6
18
.81
9.0
19
.21
9.4
Nematicida
Pro
du
ccio
n
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 33
En el Ejemplo 5.7 el factor toma I = valores (los niveles, gruposo tratamientos del factor). Se mide la produccion de tomate n1 =veces con el nematicida A, n2 = veces con el B, n3 = vecescon el C y n4 = veces con el D.
ni = no de observaciones de la respuesta para el nivel i del factorSi n1 = n2 = . . . = nI se dice que el diseno es equilibrado.
n =I∑
i=1
ni = no total de observaciones de Y
yij = j-esimo valor observado de la respuesta en el nivel i ,i = 1, . . . , I , j = 1, . . . , ni
Ejemplo 5.7 (cont.):
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 34
Suponemos que, en el nivel i del factor, la respuesta Y oscilaaleatoriamente en torno a un nivel desconocido µi , la media de lapoblacion i-esima: E (Yij) = µi . Cada observacion yij resulta deuna perturbacion aleatoria en torno al valor medio µi .
Nematicida
Pro
ducc
ión
A B C D
18.4
18.6
18.8
19.0
19.2
19.4
µ1
µ2
µ3
µ4
En el Modelo de Analisis de la Varianza (ANOVA = ANalysis OfVAriance) se supone que las ni observaciones Yi1,Yi2, . . . ,Yini dela poblacion i son una muestra aleatoria de una N(µi , σ). Sesupone tambien que todas las observaciones Yij , para i = 1, . . . , I ,j = 1, . . . , ni , son independientes entre sı.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 35
El modelo ANOVA con un factor depende de I + 1 parametrosdesconocidos: las medias µ1,. . . ,µI y la varianza comun σ2. Losestimamos respectivamente mediante las medias muestrales porniveles del factor
µi =1
ni
ni∑j=1
yij = yi•
y mediante la varianza residual
s2R =
1
n − I
I∑i=1
ni∑j=1
(yij − yi•)2
=(n1 − 1)s2
1 + (n2 − 1)s22 + . . .+ (nI − 1)s2
I
n − I,
donde s2i =
∑nij=1(yij − yi•)
2/(ni − 1) es la cuasi-varianza muestralen la poblacion i-esima.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 36
Ejemplo 5.7 (cont.):
i yij ni yi• s2i
1 18.6 18.4 18.4 18.5 18.32 18.7 19.0 18.9 18.53 19.4 18.9 19.5 19.2 18.84 19.0 18.8 18.6 18.7
n =
s2R =
tapply(P,N,mean)
A B C D
18.440 18.775 19.160 18.775
tapply(P,N,var)
A B C D
0.01300000 0.04916667 0.09300000 0.02916667
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 37
El contraste de igualdad de medias
H0 : µ1 = µ2 = . . . = µI
(todas las medias son iguales, el factor no influye)
H1 : µi 6= µj para algun par i 6= j .
(al menos dos de las medias difieren, el factor influye)
El contraste compara las diferencias entre medias muestrales con lavariabilidad experimental, medida por s2
R , para decidir si esta hapodido generar esas diferencias o no.
En concreto, sea
SCT =I∑
i=1
ni∑j=1
(yij − y••)2,
la variabilidad o suma de cuadrados total, que mide la dispersionentre los datos y la media global
y•• =1
n
I∑i=1
ni∑j=1
yij .
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 38
El analisis de la varianza descompone la variabilidad total en dosterminos: (1) SCE = la variabilidad entre las medias por grupos yla media general y (2) SCR = la variabilidad residual o variabilidaddentro del grupo. Especıficamente
SCT = SCE + SCR,
donde
SCE =I∑
i=1
ni (yi• − y••)2
denota la variabilidad o suma de cuadrados explicada por lasdiferencias entre niveles del factor y
SCR =I∑
i=1
ni∑j=1
(yij − yi•)2 = (n − I )s2
R
denota la variabilidad o suma de cuadrados residual.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 39
La tabla ANOVA y el contraste
Los terminos de la descomposicion de la variabilidad se disponenen la llamada tabla ANOVA
Fuentes de Suma de Grados de Varianzas o Cuadradosvariacion (FV) cuadrados (SC) libertad (gl) medios (CM) Estadıstico
Explicada oEntre grupos
SCE =I∑
i=1
ni (yi• − y••)2 I − 1 s2e =
SCE
I − 1F
Residual oDentro de los grupos
SCR =I∑
i=1
ni∑j=1
(yij − yi•)2 n − I s2R =
SCR
n − I
Total SCT =I∑
i=1
ni∑j=1
(yij − y••)2 n − 1
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 40
Si la hipotesis nula de igualdad de medias H0 : µ1 = µ2 = . . . = µIes cierta entonces
F =s2e
s2R
∼ FI−1,n−I .
Una region de rechazo para el contraste
H0 : µ1 = µ2 = . . . = µI = µ
H1 : µi 6= µj para algun par i 6= j .
al nivel de significacion α es
R = {F > FI−1,n−I ,α}.
Para I = 2 poblaciones, este contraste es matematicamenteequivalente al contraste t de Student que compara dos medias dedistribuciones normales con varianzas iguales.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 41
Ejemplo 5.7 (cont.): Para hacer la tabla ANOVA con R:
T=aov(Produccion~Nematicida,data=as.data.frame(Datos))
summary(T)
Df Sum Sq Mean Sq F value Pr(>F)
Nematicida 3 1.299 0.4329 9.197 0.00129 **
Residuals 14 0.659 0.0471
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 42
Observacion: El modelo de regresion lineal simple establece que elvalor de la variable respuesta Y cuando la variable explicativa Xtoma el valor x es:
Y = a + bx + ε,
siendo ε una v.a. N(0, σ).El modelo de analisis de la varianza con un factor establece que elvalor de la variable respuesta Y es:
Y = µ1 F1 + µ2 F2 + . . .+ µI FI + ε
donde
Fi =
{1 si el factor esta en el nivel i0 si el factor esta en un nivel distinto del i
y ε es una v.a. N(0, σ).Ambos modelos son casos particulares de modelos lineales, en losque la variable respuesta se estudia en terminos de variablesexplicativas de tal manera que la respuesta Y es una funcion linealde todos los parametros del modelo mas un termino de “ruido” ε.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 43
Contrastes no parametricos: contrastes χ2
En los contrastes parametricos el objetivo es contrastar si el valorde un parametro esta o no en una cierta region del espacioparametrico, supuesto que la v.a. X de interes sigue un modeloparametrico especıfico.
En los contrastes no parametricos no se parte de la hipotesis deque X sigue un modelo parametrico, sino que se establecenhipotesis mas generales y complejas, como, por ejemplo, que Xsiga o no un cierto modelo parametrico de distribucion.
Los contrastes no parametricos mas conocidos son los contrastesχ2, llamados ası porque el estadıstico del contraste sigueaproximadamente una distribucion χ2 cuando la hipotesis nula escierta.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 44
Contraste de bondad de ajuste (goodness-of-fit test)
Primer caso
Sea X1, . . . ,Xn una muestra de una poblacion X con distribucionde probabilidad desconocida. Queremos contrastar si, en base a lainformacion muestral, es razonable suponer que la distribucion deX viene dada por un determinado modelo de probabilidad P. Esdecir, queremos ver si los datos “se ajustan bien” a P:
H0: El modelo de probabilidad de X es P.H1: El modelo de probabilidad de X no es P.
Hacemos una particion (arbitraria) del espacio muestral de X en kclases A1, . . . ,Ak . Para cada Ai definimos
Oi = frecuencia absoluta observada en Ai
= Numero de individuos de la muestra X1, . . . ,Xn
que pertenecen a Ai
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 45
ei = frecuencia absoluta esperada en Ai si H0 es cierta= n P(Ai )
El estadıstico del contraste de bondad de ajuste
χ2 =k∑
i=1
(Oi − ei )2
ei=
k∑i=1
O2i
ei− n
sigue aproximadamente (cuando n es grande) una distribucionχ2k−1 si H0 es cierta.
Rechazamos la hipotesis nula H0: “El modelo de probabilidad de Xes P” al nivel de significacion α si
χ2 > χ2k−1;α.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 46
Un ejemplo clasico: el experimento de Mendel
Se cruzaron plantas de guisantes con fe-notipo rugoso-amarillo con otras de fe-notipo liso-verde. En la segunda gene-racion se podıan observar cuatro fenoti-pos (liso-amarillo, rugoso-amarillo, liso-verde, rugoso-verde) cuyas respectivasprobabilidades, segun el principio de latransmision independiente de Mendel,debıan ser
p1 =9
16, p2 =
3
16, p3 =
3
16, p4 =
1
16.
Observados n = 556 guisantes en la se-gunda generacion del experimento se ob-tuvieron los siguientes numeros de gui-santes con dichos fenotipos:
O1 = 315,O2 = 101,O3 = 108,O4 = 32.Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 47
¿Proporcionan estos resultados alguna evidencia en contra de lateorıa mendeliana?
Aplicando el test para contrastar
H0 : p1 =9
16, p2 =
3
16, p3 =
3
16, p4 =
1
16,
se tiene
e1 = 556· 9
16= 312.75, e2 = e3 = 556· 3
16= 104.25, e4 = 556· 1
16= 34.75
El valor del estadıstico del contraste es
χ2 =3152
312.75+
1012
104.25+
1082
104.25+
322
34.75−556 = 556.47−556 = 0.47
y el punto crıtico de la region de rechazo es χ24−1;0.05 = χ2
3;0.05 = 7.81.
Por tanto, no hay evidencia estadıstica en contra de la teorıa deMendel.
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 48
Segundo caso
Sea X1, . . . ,Xn una muestra de una poblacion X con distribucionde probabilidad desconocida. En base a la informacion muestral,queremos contrastar si la distribucion de X viene dada por undeterminado modelo parametrico de probabilidad perteneciente ala familia F = {Pθ : θ ∈ Θ}. Es decir, queremos ver si los datos seajustan bien a un determinado modelo parametrico:
H0: El modelo de probabilidad de X es algun Pθ de la familia F .H1: El modelo de probabilidad de X no es ningun Pθ de F .
Hacemos una particion (arbitraria) del espacio muestral de X en kclases A1, . . . ,Ak . Para cada Ai definimos
Oi = frecuencia absoluta observada en Ai
ei = frecuencia absoluta esperada en Ai si H0 es cierta= n Pθ(Ai ) ' n Pθ(Ai ),
donde θ = (θ1, . . . , θr ) = e.m.v. de θ = (θ1, . . . , θr )
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 49
El estadıstico del contraste de bondad de ajuste
χ2 =k∑
i=1
(Oi − ei )2
ei=
k∑i=1
O2i
ei− n
sigue aproximadamente (cuando n es grande) una distribucionχ2k−1−r si H0 es cierta.
Rechazamos la hipotesis nula H0: “El modelo de probabilidad de Xes algun Pθ de la familia F” al nivel de significacion α si
χ2 > χ2k−1−r ;α.
Este tipo de contraste se aplica, por ejemplo, en Genetica paracontrastar ratios no mendelianos. La herencia no mendelianacomprende patrones de herencia diferentes de los formulados porMendel (dominancia incompleta, codominancia, alelos multiples,herencia poligenica o herencia ligada al sexo). En este tipo deproblemas los parametros desconocidos pueden ser coeficientes dedesequilibrio en el ligamiento, parametros de penetrancia, . . .
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 50
Ejemplo 5.8 (Equilibrio de Hardy-Weinberg, HWE): En unapoblacion de tamano infinito, con apareamiento al azar (panmixia),en la que no haya mutacion, migracion o seleccion, las frecuenciasalelicas se mantienen constantes con el tiempo, y las frecuenciasgenotıpicas vienen determinadas por las frecuencias alelicas:
P(AA) = p2
P(Aa) = 2pqP(aa) = q2
Para detectar si las frecuencias genotıpicas observadas sonsignificativamente diferentes de las esperadas por HWE se realizauna prueba χ2 de bondad de ajuste. ¿Son las siguientes frecuenciascompatibles con que la muestra haya sido tomada de unapoblacion en HWE?
AA AB BB Total
Oi 130 763 1698 2591
ei
Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 5: Contrastes de hipotesis 51
top related