Álgebra lineal (leco)
TRANSCRIPT
www.monteroespinosa.com - Clases de Estadística II – Tfnos: 911 827 576 - 640 869 723 1
Los parámetros poblacionales que vamos a estudiar son
la media , la
varianza 2 y la
proporción P La diferencia entre estadístico y estimador es puramente formal, y usaremos indistintamente uno u otro nombre. Es mejor estimador aquel que tiene un menor ECM. También usaremos la proporción muestral
p como estimador
insesgado de la proporción poblacional P
TEMA 1: INFERENCIA ESTADÍSTICA PARA UNA POBLACIÓN
Conceptos importantes:
- Población. Conjunto de elementos que poseen una característica o propiedad común, y que
constituyen la totalidad de los individuos de interés para nuestro estudio.
- Parámetro poblacional . Valor que caracteriza a la totalidad de la población, como una
media, una varianza, una mediana, etc. En su notación es común utilizar el alfabeto griego: , , , etc.
- Muestra. Cualquier subconjunto de valores observados de la población.
- Muestra aleatoria simple (m.a.s.). Muestreo realizado de forma que todos los elementos de
la población tienen la misma probabilidad de aparecer en la muestra.
- Inferencia estadística. Proceso para obtener conclusiones (de carácter incierto o probable)
sobre la población a partir de la información proporcionada por la muestra.
- Estadístico. Cualquier función de las observaciones muestrales que no contenga parámetros
desconocidos.
- Estimador . Variable aleatoria función de los estadísticos que recoge y resume la
información que sobre la población le suministra la muestra.
- Estimación puntual. Una realización concreta del estimador correspondiente a una muestra
observada 1 2, , , nx x x que proporciona una aproximación al parámetro poblacional objeto de
estudio.
Propiedades de los estimadores.
1) Insesgadez. Un estimador es insesgado si ˆE =
. Y el ˆ ˆsesgo E = −
.
2) Eficiencia. Un estimador 1 es más eficiente que otro estimador 2 1 2ˆ ˆ ˆV V
3) Error cuadrático medio (ECM). Se define el ( )2
ˆ ˆ ˆECM V sesgo = +
Estimadores insesgados más frecuentes:
• Media muestral,
i
i
x
Xn
=
• Cuasivarianza muestral,
( ) ( )2 22
1 1
i i
i ix
x x x n x
Sn n
− −
= =− −
www.monteroespinosa.com - Clases de Econometría - Tfnos 916 837 829 - 672 305 468 2
Recuerda que es
el nivel de significación. Por convenio, tamaño de muestra grande quiere decir
30n
Los extremos del IC
para son la raíz
cuadrada de los extremos del IC para
2
Estimación por intervalo.
Una estimación por intervalo de confianza es un método que proporciona un intervalo de valores
( ) ( )( )1 2,t X t X al que es probable que pertenezca el valor del parámetro. Dicho intervalo presenta dos
límites, inferior y superior, ambos funciones de la información muestral X, de forma que
( ) ( )1 2 1P t X t X = − , donde 1 − recibe el nombre de nivel de confianza.
Parámetro Supuestos (MAS) Intervalo
Población normal, dispersión poblacional
conocida ( )1
2
IC x Zn
−
=
Población normal, dispersión poblacional
desconocida ( )1 1,
2
x
n
sIC x t
n − −
=
Población no normal, tamaño de muestra grande ( )12
xsIC x Z
n −
=
P Población Bernouilli, tamaño de muestra grande ( )12
ˆ ˆ(1 )ˆ x x
x
p pIC P p Z
n −
−=
2 Población normal ( )( ) ( )2 2
2
1 2 2
1, 1,12 2
1 1,
x x
n n
n s n sIC
−
− − −
− − =
Interpretación. Una vez calculados los extremos del intervalo tenemos una confianza de ( )100 1 %−
de que el valor del parámetro desconocido de la población estará en ( ) ( )( )1 2,t X t X
Interpretación frecuentista. Si se consideran todas las muestras posibles X y con cada una de ellas se
construye un IC, en aproximadamente 100 ( )1 − de cada 100 casos el parámetro ( ) ( )( )1 2,t X t X
Observaciones.
▪ Se denomina error del intervalo a la mitad de su longitud, es decir, ( ) ( )2 1
2
t X t Xerror
−=
▪ Si la confianza aumenta, la longitud del intervalo crece.
▪ Si la dispersión aumenta, la longitud del intervalo crece.
▪ Si el tamaño muestral aumenta, la longitud del intervalo disminuye.
www.monteroespinosa.com - Clases de Estadística II – Tfnos: 911 827 576 - 640 869 723 3
Este tipo de contraste no se estudia en vuestra asignatura Para los contrastes bilaterales existe una tercera forma de realizar el contraste: usando un intervalo de confianza.
TEMA 2. CONTRASTE DE HIPÓTESIS EN UNA POBLACIÓN.
Una hipótesis estadística sobre un parámetro poblacional es una conjetura sobre los valores concretos
que pueda tomar.
Un contraste o test de hipótesis es una regla de decisión mediante la cual optamos por una u otra
hipótesis a la luz de la información proporcionada por una muestra extraída de la población objeto de
estudio. A una de las hipótesis se la denomina comúnmente hipótesis nula 0h y a la segunda, hipótesis
alternativa 1h . La asignación del término nula o alternativa es arbitraria si bien, tradicionalmente, se
denomina nula la hipótesis que implica el valor existente del parámetro o la que suponemos más estable,
siendo precisa una elevada evidencia para rechazarla.
Tipos de contrastes.
- Contrastes con hipótesis simples. 0
1 1
:
:
oh
h
=
=
- Contrates con hipótesis compuestas.
• Contraste bilateral 0
1 0
:
:
oh
h
=
• Contraste unilateral derecho 0
1 0
:
:
oh
h
• Contraste unilateral izquierdo 0
1 0
:
:
oh
h
Procedimiento para realizar un contraste. Los contrastes de hipótesis se pueden hacer de dos formas distintas. En primer lugar, calculando un
estadístico de contraste; unos valores críticos, Vc, que separan la región crítica o de rechazo, RC, de la
región de aceptación, RA, y tomando la decisión analizando en que región cae el estadístico.
El segundo procedimiento es a través del P-VALOR o nivel de significación marginal. El P-VALOR es
el nivel de significación mínimo a partir del cual se empieza a rechazar la hipótesis nula, y por lo tanto la
decisión se tomará de la siguiente forma:
0
0
Rechaza
Norechazo
P VALOR h
P VALOR h
− →
− →
www.monteroespinosa.com - Clases de Econometría - Tfnos 916 837 829 - 672 305 468 4
El valor crítico lo buscaremos en las tablas de las distribuciones. Debido a su poca precisión, con las tablas de las
distribuciones t y
2 solo podemos
acotar el p-valor
Estadístico y valores críticos correspondientes.
Parámetro Supuestos Estadístico Valor crítico
> <
Población normal, dispersión
poblacional conocida
0
x
x
n
−
2
Z Z Z−
Población normal, dispersión
poblacional desconocida
0
x
x
s
n
−
1,2
nt −
1,nt −
1,nt −−
Población no normal, tamaño de
muestra grande
0
x
x
s
n
−
2
Z Z Z−
P Población Bernouilli, tamaño de
muestra grande ( )0
0 0
ˆ
1
p p
p p
n
−
−
2
Z Z Z−
2 Población normal
( ) 2
2
0
1 xn s
−
1,1 1,2 2
2 2
n n
y
− − −
2
1,n − 2
1,1n − −
P-valor y región crítica correspondiente.
Parámetro Tipo de
contraste Cálculo del p-valor (según corresponda) Región crítica
o P
2Pr ob Z Est
12Pr nob t Est− Est Vc
> Pr ob Z Est
1Pr nob t Est− Est Vc
< Pr ob Z Est
1Pr nob t Est− Est Vc
2
2 2
1 12min Pr ,Prn nob Est ob Est − − ( )
1,1 1,2 2
2 2,n n
Est
− − −
> 2
1Pr nob Est − Est Vc
< 2
1Pr nob Est − Est Vc
Observaciones.
- El estadístico de contraste depende de los valores muestrales. El valor crítico es un cuantil de
cierta distribución que separa la región de rechazo de la región de aceptación y que depende del
nivel de significación escogido para realizar el contraste.
- Se puede pensar en la región crítica como la regla de decisión para determinar en qué casos
rechazamos la hipótesis nula.
- El p-valor es una probabilidad asociada al estadístico de contraste. Como se puede observar, la
forma de calcularlo depende del tipo de contraste. Sin embargo, la regla de decisión para
contrastar con el p-valor es siempre la misma en todos los casos.
www.monteroespinosa.com - Clases de Estadística II – Tfnos: 911 827 576 - 640 869 723 5
Conviene remarcar que los contrastes que empleamos son de máxima potencia para un determinado nivel de significación.
Errores en los contrastes.
• ERROR DE TIPO I o bien error de
primera especie: se comete cuando se
rechaza la hipótesis nula siendo cierta.
• ERROR DE TIPO II o bien error de
segunda especie: se comete cuando se
acepta la hipótesis nula siendo falsa.
• POTENCIA DEL CONTRASTE. Probabilidad de rechazar la hipótesis nula siendo esta falsa.
• NIVEL DE CONFIANZA. Probabilidad de aceptar la hipótesis nula siendo esta cierta.
Observaciones.
- La potencia del contraste y el ERROR II solo se pueden calcular para un valor numérico concreto
de la hipótesis alternativa. Por lo tanto, en contrastes con hipótesis compuestas lo que se podría
calcular es la función de potencia.
- La función de potencia particularizada para el valor de la hipótesis nula da lugar al nivel de
significación.
- El nivel de significación (Error I) es elegido por el investigador.
- Si disminuye, aumenta (y viceversa).
- Si aumenta el tamaño muestral, y disminuyen.
- Un ejemplo de una gráfica de una función de potencia para un contraste unilateral derecho sería:
Acepto 0h Rechazo 0h
0h cierta Sin error
1 −
Nivel de confianza
Error I
Significación
0h falsa Error II
Sin error 1 −
Potencia del contraste
www.monteroespinosa.com - Clases de Econometría - Tfnos 916 837 829 - 672 305 468 6
En vuestra asignatura no se estudia el caso de poblaciones normales con dispersiones poblacionales desconocidas y distintas.
TEMA 3. COMPARACIONES ENTRE DOS POBLACIONES.
En este tema intentamos comparar los parámetros de dos poblaciones a través de la información
proporcionada por dos muestras. Usando los procedimientos de los temas previos calcularemos intervalos
de confianza y realizaremos contrastes.
Intervalos de confianza para la comparación de dos poblaciones.
Parámetro Supuestos (MAS) Intervalo
x y −
Muestras pareadas,
diferencia normal
i i iD x y= − ( )1 1,
2
Dx y n
sIC D t
n − −
− =
Poblaciones normales,
dispersiones poblacionales
conocidas ( )
22
12
yxx y
x y
IC x y Zn n
−
− = − +
Poblaciones normales,
dispersiones poblacionales
desconocidas e iguales ( ) 2
1 2,2
1 1
x yx y pn n
x y
IC x y t sn n
− + −
− = − +
Poblaciones no normales,
tamaños de muestra
grandes ( )
22
12
yxx y
x y
ssIC x y Z
n n −
− = − +
x yp p− Poblaciones Bernouilli,
tamaños de muestra
grande ( ) ( )1 0 0
2
1 1ˆ ˆ ˆ ˆ1x y x y
x y
IC p p p p Z p pn n
−
− = − − +
2
2x
y
Poblaciones normales
2 22
21 2 2
1, 1, 1, 1,12 2
,
x y x y
x xx
y y yn n n n
s sIC
s F s F
−
− − − − −
=
donde ( ) ( )2 2
21 1
2
x x y y
p
x y
n s n ss
n n
− + −=
+ − y 0
ˆ ˆˆ x x y y
x y
n p n pp
n n
+=
+
- La interpretación es análoga a la del tema 1, solo que ahora hablaremos de la diferencia de
medias, de la diferencia de proporciones y del cociente de varianzas.
- Cuando los mismos agentes (individuos, empresas, etc..) forman parte de las muestras de ambas
poblaciones, nos encontramos ante muestras pareadas (emparejadas, apareadas). Si los agentes
son distintos en ambas muestras, estaremos ante muestras independientes.
www.monteroespinosa.com - Clases de Estadística II – Tfnos: 911 827 576 - 640 869 723 7
Contrastes para la comparación de dos poblaciones.
Estadístico y valores críticos correspondientes.
Parámetro Supuestos Estadístico Valor crítico
> <
x y −
Muestras
pareadas, dif.
normal
i i iD x y= −
D
D
D
s
n
−
1,2
nt −
1,nt −
1,nt −−
Pobl. normales,
dispersiones
poblacionales
conocidas
0
22yx
x y
x y d
n n
− −
+
2
Z Z Z−
Pobl. normales,
disp. pobl.
desconocidas e
iguales
0
1 1p
x y
x y d
sn n
− −
+
2,2x yn n
t + −
2,x yn nt + − 2,x yn nt + −−
Poblaciones no
normales,
tamaños de
muestra grandes
0
22yx
x y
x y d
ss
n n
− −
+
2
Z Z Z−
x yp p−
Poblaciones
Bernouilli,
tamaños de
muestra grande ( )
0
0 0
ˆ ˆ
1 1ˆ ˆ1
x y
x y
p p d
p pn n
− −
− +
2
Z Z Z−
2
2x
y
Poblaciones
normales
2
2x
y
s
s
1, 1,2x yn n
F − −
y
1, 1,12x yn n
F − − −
1, 1,x yn nF − − 1, 1,1x yn nF − − −
donde ( ) ( )2 2
21 1
2
x x y y
p
x y
n s n ss
n n
− + −=
+ − y 0
ˆ ˆˆ x x y y
x y
n p n pp
n n
+=
+
- El cálculo del p-valor y de las regiones críticas se hace de forma análoga a sus correspondientes
en el tema 2.
- Obviamente, si el contraste es bilateral también tenemos la opción de realizarlo con un intervalo
de confianza.
- Al comparar dos poblaciones, cuando el contraste es unilateral hay dos alternativas igualmente
correctas tanto para hacerlo unilateral izquierdo como unilateral derecho. Esta particularidad no
se produce en los contrastes con una sola población.
www.monteroespinosa.com - Clases de Econometría - Tfnos 916 837 829 - 672 305 468 8
TEMA 4: MODELO DE REGRESIÓN LINEAL SIMPLE
Se considera el estudio conjunto de dos caracteres sobre una determinada población de tamaño N que
representaremos mediante las variables X e Y.
• Independencia estadística.
El interés en el análisis conjunto de dos caracteres es obtener conclusiones acerca de la posible relación
de dependencias entre ellos. Pueden existir distintos tipos de relaciones entre las variables X e Y:
Perfecta: se dice que las variables están relacionadas funcionalmente.
Estadística: Si la relación no es exacta, sino que hay en ella un componente aleatorio.
Independencia: Cuando no existe relación alguna entre las variables.
• Medidas de relación lineal.
- Covarianza.
( )( )1 1
( )( )
( , )1 1
n n
i i i i
i iXY
x x y y x y n x y
Cov X Y Sn n
= =
− − −
= =− −
La covarianza XYs permite conocer el tipo de relación (si existe) entre dos variables:
▪ Si 0XYs , la relación será directa entre las variables (a mayores observaciones de una le
corresponden mayores observaciones de la otra).
▪ Si 0XYs , la relación será inversa entre las variables (a mayores observaciones de una le
corresponden menores observaciones de la otra).
▪ Si 0XYs = , no se puede concluir que no exista relación entre ambas, si bien se puede afirmar
que las variables no presentan relación lineal en la muestra.
Observación: Si dos variables son independientes, su covarianza vale 0. El recíproco no es cierto.
- Coeficiente de correlación lineal.
xy
x y
sr
s s=
www.monteroespinosa.com - Clases de Estadística II – Tfnos: 911 827 576 - 640 869 723 9
Hay que tener presente que cuanto más próximo a cero esté el coeficiente de correlación, peor será la relación lineal entre las variables
Recuerda que U es
el término de error o perturbación, y representa los factores que influyen en Y además de X
Propiedades :
▪ Si | | 1r = , todos los puntos de la nube de dispersión están sobre la recta, lo que supone una
correlación lineal perfecta. Si 1r = , hay correlación perfecta positiva; si 1r = − , hay correlación
perfecta negativa.
▪ Si r está próximo a 1 indica una buena correlación lineal positiva.
▪ Si r está próximo a -1 indica una buena correlación lineal negativa.
▪ Si r está próximo a 0 indica mala relación lineal o ausencia de relación lineal.
▪ Si las variables X e Y son independientes, 0r = .
- Coeficiente de determinación.
2
2 2
2 2
xy
x y
sR r
s s= =
Propiedades :
▪ 20 1R → Cuanto más cerca esté de 1, mejor es el ajuste, y cuanto más cerca esté de 0,
peor será el ajuste.
▪ Si lo multiplicas por 100 te indica el porcentaje de variación de Y que está explicado por la
variación de X.
• Regresión lineal
La regresión permite modelizar la relación de dependencia entre dos variables. Se pretende obtener la
curva que mejor se ajusta a la nube de puntos del gráfico de dispersión de las variables. Nosotros nos
vamos a centrar en el caso de regresión lineal, es decir, cuando la curva es una recta.
0 1Y X U = + +
www.monteroespinosa.com - Clases de Econometría - Tfnos 916 837 829 - 672 305 468 10
A estos estimadores se les denomina MCO porque minimizan la suma del cuadrado de los errores.
1. Representamos los datos que hemos obtenido con la observación (nube de puntos)
2. Tratamos de encontrar la curva que más se aproxima a los datos
3. Intentamos minimizar el error
Modelo de regresión lineal simple. El modelo a ajustar viene dado por la expresión:
0 1ˆ ˆY X = +
1 se denomina pendiente del modelo o coeficiente de regresión lineal de Y sobre X. 0 es el término
constante u ordenada en el origen.
El estimador de la constante, 0 , y de la pendiente, 1 , llamados estimadores de mínimos cuadrados
ordinarios (MCO), tienen las siguientes expresiones:
0 1 1 2ˆ ˆ ˆ xy
x
sY X
s = − =
www.monteroespinosa.com - Clases de Estadística II – Tfnos: 911 827 576 - 640 869 723 11
Varianza residual.
A partir de la regresión obtenemos para cada valor real xi de X e iy de Y:
ˆ iy , valor estimado de Y
ie , error o residuo (diferencia entre el valor real y el estimado)
La varianza de los errores (varianza residual) es
2
2 1
2
n
i
iR
e
sn
==−
, que es un estimador insesgado (y también
MCO) de la varianza de los errores, 2
U .
El estimador MV (máximo verosímil) de la varianza de la perturbación, 2
U , va a ser distinto (en
particular, menor) que el estimador MCO:
2 2
, ,ˆ ˆ
2U MV U MCO
SCR SCR
n n = =
−
Descomposición de la varianza.
2 2 2ˆ ˆ( ) ( ) ( )i i i i
SCT SCM SCR
y y y y y y− = − + −
Donde:
SCT: es la Suma Total de Cuadrados
SCM: es la Suma de Cuadrados del Modelo ó Suma Explicada de Cuadrados
SCR: es la Suma de Cuadrados Residual, 2
iSCR e=
Hipótesis del modelo de regresión lineal simple.
- Linealidad. La relación existente entre X e Y es lineal.
- Homogeneidad. 0iE u =
- Homocedasticidad. La varianza de los errores es constante 2
iV u =
- Independencia. , 0i jE u u =
- Normalidad. Los errores siguen una distribución normal ( )20,iu N
www.monteroespinosa.com - Clases de Econometría - Tfnos 916 837 829 - 672 305 468 12
A representa un número A estos estadísticos se les denomina “estadísticos t”, dado que siguen una distribución t de student
• Inferencia sobre el modelo de regresión
Intervalos de confianza para los parámetros del modelo
- Intervalo de confianza para la pendiente ( )1
21
1 22,2
ˆ1
R
nx
SIC t
n S
−
−
=
−
- Intervalo de confianza para la constante ( )0
21 2
0 22,2
1ˆ1
Rnx
xIC t S
n n S
−
−
= + −
- Intervalo de confianza para el error ( ) ( )
2
2 2
1
2 2
2, 2,12 2
2 2,
u
R R
n n
n s n sIC
−
− − −
− − =
Contrastes para los parámetros del modelo 1
:
:
o i
i
h A
h A
=
- Estadístico de contraste para la pendiente
( )
12
2
2
ˆ
1
n
R
x
At
S
n S
−
−
−
- Estadístico de contraste para la constante
( )
02
22
2
ˆ
1
1
n
R
x
At
xS
n n S
−
−
+
−
Contrastes para la varianza del error
2
2
1
:
:
o U
U
h A
h A
=
- Estadístico de contraste ( ) 2
2
2
2 R
n
n S
A −
−
Observación: Las regiones críticas (reglas de decisión) y los valores críticos para los contrastes con los
parámetros del modelo de regresión son análogas a las utilizadas en el tema 2.
www.monteroespinosa.com - Clases de Estadística II – Tfnos: 911 827 576 - 640 869 723 13