la prueba f de bondad de ajuste 2 vamos a considerar el caso general donde hay k – 1 variables...
TRANSCRIPT
LA PRUEBA F DE BONDAD DE AJUSTE
2
Vamos a considerar el caso general donde hay k – 1 variables explicativas. Para la prueba F de bondad de ajuste de la ecuación, la hipótesis nula es que el modelo no tiene ninguna capacidad explicativa.
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
1
Esta secuencia describe dos pruebas F de bondad de ajuste en un modelo de regresión múltiple. La primera de ellas relacionada a la bondad de ajuste de la ecuación como tal.
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
LA PRUEBA F DE BONDAD DE AJUSTE
3
Por supuesto, esperamos rechazarla y concluir que el modelo sí tiene cierto poder explicativo.
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
LA PRUEBA F DE BONDAD DE AJUSTE
4
El modelo no tendrá poder explicativo si resulta que Y no está relacionada con ninguna de las variables explicativas. Po lo tanto, en términos matemáticos la hipótesis nula es que todos los coeficientes 2, ..., k son cero.
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
LA PRUEBA F DE BONDAD DE AJUSTE
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
5
La hipótesis alternativa es que al menos uno de estos ceoficientes es diferente de cero.
LA PRUEBA F DE BONDAD DE AJUSTE
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
6
En el modelo de regresión multiple existe una diferencia entre el papel de la prueba F y la prueba t. La prueba F analiza el poder explicativo conjunto de las variables, mientras que la prueba t prueba el poder explicativo individualmente.
LA PRUEBA F DE BONDAD DE AJUSTE
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
7
En el modelo de regresión simple la prueba F era equivalente a la prueba t (de dos colas) del coeficeinte de la pendiente, porque el ‘grupo’ consiste en una sola variable.
LA PRUEBA F DE BONDAD DE AJUSTE
)()1()1(
)(
)1(
)()1(
),1(
2
2
knRkR
knTSSRSS
kTSSESS
knRSSkESS
knkF
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
8
El estadítico F para la prueba fue definido en la última presentación del Capítulo 2. ESS es la suma explicada de cuadrados y RSS es la suma del cuadrado de los residuales.
LA PRUEBA F DE BONDAD DE AJUSTE
)()1()1(
)(
)1(
)()1(
),1(
2
2
knRkR
knTSSRSS
kTSSESS
knRSSkESS
knkF
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
9
Puede ser expresado en términos de R2 al dividir el numerador y el denominador entre TSS, la suma total de cuadrados.
LA PRUEBA F DE BONDAD DE AJUSTE
10
)()1()1(
)(
)1(
)()1(
),1(
2
2
knRkR
knTSSRSS
kTSSESS
knRSSkESS
knkF
uXXY kk ...221
0 oneleast at :
0...:
1
20
H
H k
ESS / TSS es la definición de R2. RSS / TSS es igual a (1 – R2). (Vea la última presentación del Capítulo 2.)
LA PRUEBA F DE BONDAD DE AJUSTE
11
uSFSMASVABCS 4321
El modelo de asistencia educativa será utilizado como ejemplo. Vamos a suponer que S depende de ASVABC, el puntaje de habilidad, de SM, y de SF, el mayor grado alcanzado por la madre y el padre de los encuentados, respectivamente.
LA PRUEBA F DE BONDAD DE AJUSTE
12
0: 4320 H
La hipótesis nula para la prueba F de bondad de ajuste es que los tres coeficientes de las pendientes son iguales a cero. La hipótesis alternativa es que por lo menos uno de ellos no es diferente de cero.
uSFSMASVABCS 4321 LA PRUEBA F DE BONDAD DE AJUSTE
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
13
Aquí se presenta el resultado de la regresión al utlizar la Base de Datos 21.
uSFSMASVABCS 4321 0: 4320 H
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
14
uSFSMASVABCS 4321 0: 4320 H
En este ejemplo, k – 1, el número de grados de libertad, es igual a 536.
)/()1/(
),1(knRSS
kESSknkF
3.104
536/20243/1181
)536,3( F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
15
uSFSMASVABCS 4321 0: 4320 H
)/()1/(
),1(knRSS
kESSknkF
3.104
536/20243/1181
)536,3( F
El numerador del estadístico F es la suma explicada de cuadrados dividida entre k – 1. En el resultado de Stata esto números están dados por el Modelo row. these numbers are given in the Model row.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
16
uSFSMASVABCS 4321 0: 4320 H
)/()1/(
),1(knRSS
kESSknkF
3.104
536/20243/1181
)536,3( F
El denominador es la suma del cuadrado de los residuales dividido entre el número de grados de libertad restante.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
17
uSFSMASVABCS 4321 0: 4320 H
)/()1/(
),1(knRSS
kESSknkF
3.104
536/20243/1181
)536,3( F
Por lo tanto, el estadístico F es 104.3. Todos los programas estadísitcos serios lo calculan por ti, como parte del diagnóstico en el resultado de una regresión.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
18
uSFSMASVABCS 4321 0: 4320 H
3.104536/20243/1181
)536,3( F
El valor crítico de F(3,536) no está dado en la tablas F, pero sabemos que debe ser menor que F(3,500), que está dado. En el nivel de 0.1%, esto es 5.51. Por consiguiente, rechazamos facilmente H0 con un nivel de 0.1%.
51.5)500,3(crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
19
uSFSMASVABCS 4321 0: 4320 H
3.104536/20243/1181
)536,3( F51.5)500,3(crit,0.1% F
Este resultado podría haber sido anticipado porque ASVABC y SF tienen una t estadística altamente significativa. Por lo que sabíamos que 2 y 4 no diferentes de cero.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
20
uSFSMASVABCS 4321 0: 4320 H
3.104536/20243/1181
)536,3( F51.5)500,3(crit,0.1% F
Es inusual que el estadístico F no sea significativo si algunos de los estadíticos t lo son. Sin embargo, ello puede pasar en principio. Suponemos que corremos una regresión con 40 variables explicativas y ninguna es determinante en la variable dependiente.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
21
uSFSMASVABCS 4321 0: 4320 H
3.104536/20243/1181
)536,3( F51.5)500,3(crit,0.1% F
A continuación, el estadístico F debe ser lo suficientemente menor para que H0 no sea rechazada. Sin embargo, si estás desarrollando una prueba t en los coeficientes de la pendiente con un nivel de 5%, con un 5% de probabilidad de error Tipo I , en promedio 2 de 40 variables tendrán coeficientes significativos.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
22
uSFSMASVABCS 4321 0: 4320 H
3.104536/20243/1181
)536,3( F51.5)500,3(crit,0.1% F
Sin embargo, lo opuesto podría pasar. Vamos a suponer que tenemos un modelo de regresión múltiple que está perfectamente especificado y con una R2 elevada. Deberíamos esperar tener un estadístico F significativo.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
23
uSFSMASVABCS 4321 0: 4320 H
3.104536/20243/1181
)536,3( F51.5)500,3(crit,0.1% F
No obstante, si las variables explicativas están altamente correlacionadas y el modelo es sujeto de multicolinearidad, el error estandard de los coeficientes de la pendiente podrían ser tan grandes que ningúno de los estadísticos t sea significativo.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
24
uSFSMASVABCS 4321 0: 4320 H
3.104536/20243/1181
)536,3( F51.5)500,3(crit,0.1% F
En esta situación deberíamos saber que nuestro modelo es bueno, pero no estamos en una posición para pinpoint las contribuciones hechas individualmente por las variables explicativas.
uXXXY 4433221
uXY 221 1RSS
2RSS
25
Ahora pasamos a la otra prueba F de bondad de ajuste: es una prueba del poder explicativo conjunto de un grupo de variables cuando son añadidas a un modelo de regresión .
uXXXY 4433221
uXY 221 1RSS
2RSS
26
Por ejemplo, en la especificación original, Y puede ser escrito como una función simple de X2. En la segunda, añadimos X3 y X4.
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
27
La hipótesis nula para la prueba F es que X3 y X4 no pertenecen al modelo. La hipótesis alternativa es que al menos una pertenece, tal vez la dos.
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
28
Para esta prueba F y muchas más que nos econtraremos, es útil pensar en el estadístico F con una estructura similar a la de arriba.
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
29
The ‘improvement’ es la reducción de la suma de cuadrados cuando se hace el cambio, en este caso, cuando se agrega el grupo de nuevas variables.
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
30
El ‘costo’ es la reducción de los grados de libertad que quedan después de hacer el cambio. En este caso es igual al número de nuevas variables añadidas, porque es el número de nuevo parámetros que son estimados.
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
31
(Recordemos que el número de grados de libertad en una ecuación de regresión es el número de observaciones menos el número de parametros estimados. En este ejemplo, caerá de n – 2 a n – 4 cuando X3 y X4 son añadidas.)
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
32
Lo que permanece sin explicación es la suma del cuadrado de los residuales después de hacer el cambio.
33
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
Los ‘grados de libertad restantes’ es el número de grados de libertad restantes después de hacer el cambio.
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
. reg S ASVABC
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 1, 538) = 274.19 Model | 1081.97059 1 1081.97059 Prob > F = 0.0000 Residual | 2123.01275 538 3.94612035 R-squared = 0.3376-------------+------------------------------ Adj R-squared = 0.3364 Total | 3204.98333 539 5.94616574 Root MSE = 1.9865
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .148084 .0089431 16.56 0.000 .1305165 .1656516 _cons | 6.066225 .4672261 12.98 0.000 5.148413 6.984036------------------------------------------------------------------------------
34
Ilustraremos la prueba con un ejemplo de asistencia educativa. Esta es al regresión de S con base en ASVABC utlizando la Base de 21. Haremos una nota sobre la suma de los residuales al cuadrado.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
35
Ahora agregamos el grado máximo completado por cada pariente. ¿La educación de los padres tiene un impacto significativo? Podemos observar que una prueba t mostrará que SF tiene un coeficiente altamente signficativo, pero de todos modos llevaremos a cabo la prueba.
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
36
La mejora en el ajuste al añadir las variables de los padres es la reducción en la suma del cuadrado de los residuales.
16.13536/6.2023
2/)6.20230.2123()4540(2)(
)4540,2(2
21
RSS
RSSRSSF
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
37
El costo son 2 grados de libertad debido a que se estimaron 2 parámetros adicionales.
16.13536/6.2023
2/)6.20230.2123()4540(2)(
)4540,2(2
21
RSS
RSSRSSF
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
38
Lo que permanece sin explicación es la suma de los residuales al cuadrado después de añadir SM y SF.
16.13536/6.2023
2/)6.20230.2123()4540(2)(
)4540,2(2
21
RSS
RSSRSSF
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
39
El número de grados de libertad que permanece es n – k, esto es, 540 – 4 = 536.
16.13536/6.2023
2/)6.20230.2123()4540(2)(
)4540,2(2
21
RSS
RSSRSSF
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
16.13536/6.2023
2/)6.20230.2123()4540(2)(
)4540,2(2
21
RSS
RSSRSSF
40
El estadístico F es 13.16.
0 and bothor 0 or 0 :
0:
43431
430
H
H
uXXXY 4433221
uXY 221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
41
El valor crítico de F(2,500) con un nivel de 0.1% es 7.00. El valor crítico de F(2,536) debe ser menor, por lo que rechazamo H0 y concluimos que las variables de la educación de los padres tienen gran poder explicativo.
00.7)500,2(crit,0.1% F
16.13536/6.2023
2/)6.20230.2123()4540(2)(
)4540,2(2
21
RSS
RSSRSSF
1RSS
2RSS
uXXY 33221
uXXXY 4433221
42
Esta presentación concluirá al mostar que las pruebas t son equivalentes a las pruebas F marginales cuando el grupo adicional de variables consiste en una sola variable.
1RSS
2RSS
uXXY 33221
uXXXY 4433221
43
Suponemos que en el modelo original Y es una función de X2 y X3, y en el modelo revisado se agrega X4.
1RSS
2RSS
0 :
0:
41
40
H
H
uXXY 33221
uXXXY 4433221
44
La hipótesis nula para la prueba F del poder explicativo del grupo adicional de variables es que la nuevos coeficientes de las pendientes son iguales a cero. Por supuesto, sólo existe un nuevo coeficiente de la pendiente, 4.
45
1RSS
2RSS
La prueba F tiene la estructura usual. Esto lo demostraremos con un modelo de asistencia educativa, donde S depende de ASVABC y SM en el modelo original y, también, de SF en el modelo revisado.
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
0 :
0:
41
40
H
H
uXXY 33221
uXXXY 4433221
. reg S ASVABC SM
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 2, 537) = 147.36 Model | 1135.67473 2 567.837363 Prob > F = 0.0000 Residual | 2069.30861 537 3.85346109 R-squared = 0.3543-------------+------------------------------ Adj R-squared = 0.3519 Total | 3204.98333 539 5.94616574 Root MSE = 1.963
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1328069 .0097389 13.64 0.000 .1136758 .151938 SM | .1235071 .0330837 3.73 0.000 .0585178 .1884963 _cons | 5.420733 .4930224 10.99 0.000 4.452244 6.389222------------------------------------------------------------------------------
46
Esta es la regresión de S con base en ASVABC y SM. Haremos una nota de la suma de los residuales al cuadrado.
47
Ahora, añadimos SF y, nuevamente, hacemos nota de la suma de los residuales al cuadrado.
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
0 :
0:
41
40
H
H
uXXXY 4433221
uXXY 33221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
48
La mejora al añadir SF es la reducción en la suma de los residuales al cuadrado.
10.12536/6.2023
1/)6.20233.2069()4540(1)(
)4540,1(2
21
RSS
RSSRSSF
0 :
0:
41
40
H
H
uXXXY 4433221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
49
El costo es sólo el grado de libertad que perdimos al estimar 4.
uXXY 33221
10.12536/6.2023
1/)6.20233.2069()4540(1)(
)4540,1(2
21
RSS
RSSRSSF
0 :
0:
41
40
H
H
uXXXY 4433221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
50
Lo que permanece sin explicación es la suma de los residuales al cuadrado después de añadir SF.
uXXY 33221
10.12536/6.2023
1/)6.20233.2069()4540(1)(
)4540,1(2
21
RSS
RSSRSSF
0 :
0:
41
40
H
H
uXXXY 4433221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
51
El número de grados de libertad que queda después de añadir SF es 540 – 4 = 536.
uXXY 33221
10.12536/6.2023
1/)6.20233.2069()4540(1)(
)4540,1(2
21
RSS
RSSRSSF
0 :
0:
41
40
H
H
uXXXY 4433221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
10.12536/6.2023
1/)6.20233.2069()4540(1)(
)4540,1(2
21
RSS
RSSRSSF
uXXY 33221
52
Por lo tanto, el estadítico F es 12.10.
0 :
0:
41
40
H
H
uXXXY 4433221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
10.12536/6.2023
1/)6.20233.2069()4540(1)(
)4540,1(2
21
RSS
RSSRSSF
uXXY 33221
53
96.10)500,1( crit,0.1% F
El valor crítico de F con un nivel de significancia de 0.1% y con 500 grados de libertad es 10.96. El valor crítico con 536 grados de libertad debe ser menor, por lo que rechazamos H0 con un nivel de 0.1%.
0 :
0:
41
40
H
H
uXXXY 4433221 1RSS
2RSS
F(cost, d.f. remaining) =improvement cost
remainingunexplained
degrees of freedomremaining
10.12536/6.2023
1/)6.20233.2069()4540(1)(
)4540,1(2
21
RSS
RSSRSSF
uXXY 33221
54
La hípótesis nula que estamos probando es exactamente igual que la prueba t de “dos colas” sobre el coeficiente SF.
96.10)500,1( crit,0.1% F
55
Vamos a desarrollar la prueba t. El estadístico t es 3.48.
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
56
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
El valor crítico con un nivel de 0.1% y 500 grados de libertad es 3.31. El valor crítico con 536 grados de libertad debe ser menor. Por lo que rechazamos H0 nuevamente.
31.3crit,0.1% t
57
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
31.3crit,0.1% tPuede demostrase que el estadístico F para la prueba F del poder explicativo de un ‘grupo’ de variables debe ser igual al cuadrado del estádístico t para esa variable. (La diferencia en el último dígito es debido al error de redondeo.)
11.1248.3 2
58
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
31.3crit,0.1% t11.1248.3 2 96.1031.3 2 También se puede ver que el valor crítico de F debe ser igual al cuadrado de los valores críticos de t. (Los valores críticos mostrados corresponden a 500 grados de libertad, pero esto también debe ser cierto para 536 grados de libertad.)
59
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
31.3crit,0.1% t11.1248.3 2 Por lo tanto, las conclusiones de las dos pruebas deben coincidir.
96.1031.3 2
60
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Estos resultados significan que la prueba t del coeficiente de una variable es una prueba de su poder explicativo marginal, después que todas las otra variables fueron incluidas en la ecuación.
61
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Si al variable está correlacionada con una o más variables, su poder explicativo marginal puede ser muy bajo, incluso si pertenece originalmente al modelo.
62
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Si todas las variables están correlacionadas, es posible que todas tenga un poder explicativo muy bajo y que para ninguan de ellas la prueba t sea significativa, incluso si la prueba F para el poder explicativo conjunto sea altamente significativo.
63
96.10crit,0.1% F
. reg S ASVABC SM SF
Source | SS df MS Number of obs = 540-------------+------------------------------ F( 3, 536) = 104.30 Model | 1181.36981 3 393.789935 Prob > F = 0.0000 Residual | 2023.61353 536 3.77539837 R-squared = 0.3686-------------+------------------------------ Adj R-squared = 0.3651 Total | 3204.98333 539 5.94616574 Root MSE = 1.943
------------------------------------------------------------------------------ S | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- ASVABC | .1257087 .0098533 12.76 0.000 .1063528 .1450646 SM | .0492424 .0390901 1.26 0.208 -.027546 .1260309 SF | .1076825 .0309522 3.48 0.001 .04688 .1684851 _cons | 5.370631 .4882155 11.00 0.000 4.41158 6.329681------------------------------------------------------------------------------
10.12536/6.2023
1/)6.20233.2069()536,1(
F
31.3crit,0.1% t11.1248.3 2 96.1031.3 2 Si este es el caso, se dice que el modelo sufre del problema de multicolinearidad discutido en capítulos previos.
Copyright Christopher Dougherty 1999–2006. This slideshow may be freely copied for personal use. Traducido por Diego Forcada Gallardo
22.08.06