trabajo de econometria
DESCRIPTION
Trabajo realizado en 2015 de Econometria de cuarto año de la Universidad Catolica de Cuenca sede Macas - EcuadorTRANSCRIPT
UNIVERSIDAD CATOLICA DE CUENCA SEDE MACASTRABAJO DE ECONOMETRIA
LUCAS MARIN4TO. ECON Y FNZAS
La Regresión ha tenido y tiene una importancia extraordinaria en el ámbito de las
aplicaciones de la Estadística. A lo largo de este curso deberemos dedicar diferentes
momentos a hablar del mundo de la Regresión.
Empezaremos los temas dedicados a este mundo con esta Introducción a la Regresión,
aunque en mucho momentos focalizaremos especialmente en el caso más básico de
Regresión: el de la Regresión lineal simple, para introducirnos así, con mayor facilidad, en
algunas nociones generales.
La Regresión consiste en la creación de una fórmula matemática que relacione variables,
en la creación de lo que llamamos una función matemática.
Por lo tanto, lo primero que tenemos que recordar es el concepto de función matemática.
Una función matemática de dos variables, y=f(x), es la representación (la modelización)
matemática de una relación entre las dos variables: “x” e “y”. A la variable en la posición de
la “y” se la denomina dependiente. A la variable en la posición de la “x” se la denomina
independiente.
Las funciones matemáticas, evidentemente, pueden ser entre más de dos variables. La
función y=f(x1, x2, …, xd) relaciona a la variable “y” con las “d” variables x1, x2, …, xd. Estas
funciones son las llamadas funciones de varias variables, también llamadas funciones de
variable vectorial, porque la “x” es, en realidad, un vector de variables (cuando tenemos
dos o más variables analizadas conjuntamente en matemáticas decimos que tenemos un
“vector de variables”).
También existen las funciones donde la posición de la “y” está ocupada por más de una
variable: (y1, y2, …, ym)= f(x1, x2, …, xd), que son las llamadas funciones vectoriales (“m”
variables en la posición de la “y”) de variable vectorial (“d” variables en la posición de la
“x”) .
Obsérvese que suele usarse el mismo signo “y” para las diferentes posibles variables
dependientes y el mismo signo “x” para las variables independientes. Los subíndices
concretan el número de variables que hay en cada una de las dos posiciones. Así es como
habitualmente se representan los diferentes modelos de Regresión en Estadística.
Pero para empezar a ver algunas nociones generales de la Regresión utilizaremos el caso
de las funciones más sencillas: las funciones y=f(x):
Si digo: “Si el domingo llueve me quedaré en casa, si no llueve iré a Girona”, estoy
construyendo una función.
La x tiene dos valores: llueve y no llueve. La y tiene también dos valores posibles: me
quedo en casa y voy a Girona. Y con la frase construyo una relación, construyo la función.
Porque una función es una relación establecida entre un conjunto de valores y otro
conjunto de valores. Una relación que tiene la siguiente condición: Todo elemento del
conjunto llamado Dominio (el conjunto de la variable x) tiene que tener asignado, mediante
la regla de la función concreta establecida, un y sólo un elemento del conjunto llamado
Codominio o Recorrido (el conjunto de la variable “y”).
Es fácil comprobar que el ejemplo: “Si el domingo llueve me quedaré en casa, si no llueve
iré a Girona”, cumple las condiciones de función. También lo cumpliría, por ejemplo:
“Llueva o no llueva, el domingo iré a Girona”.
En nuestro día a día continuamente estamos estableciendo relaciones de tipo funcional,
que cumplen la condición de ser función.
En ciencia son muy importantes las funciones. Porque la ciencia intenta continuamente
establecer relaciones entre las cosas.
La Regresión es una parte de la Estadística que se cuida de la creación de funciones entre
variables cuya relación no es exacta, como veremos ahora:
Otro ejemplo de función: cuando expreso una distancia en Km y la quiero pasar a metros
creo una relación matemática (una función): y=1000x.
Si quiero relacionar Altura y Peso la cosa no funciona tan bien porque no hay una fórmula
que lo haga de forma exacta.
No hay ninguna fórmula mediante la cual sabiendo el peso de una persona podamos
saber, de forma exacta, su altura. No obstante, como hay una cierta relación entre la altura
y el peso podemos establecer una fórmula funcional pero añadiendo un elemento a esa
fórmula, un elemento que será clave en el ámbito de la Regresión, como ahora veremos.
No nos olvidemos que hemos dicho antes que la Regresión es una parte de la Estadística
que se cuida de la creación de funciones entre variables cuya relación no es exacta.
La relación entre la Altura y el Peso no es exacta, pero puedo crear el modelo:
Altura=f(Peso)+ɛ. Antes podía escribir Metros=f(Km), sin tener que añadir esa “ɛ”. Porque
la relación es exacta.
Por lo tanto, esta “ɛ”, de momento, la hemos de ver simplemente como lo que le falta o lo
que le sobra a la fórmula que relaciona altura con peso para que la relación sea exacta.
En la Regresión siempre se crean funciones matemáticas donde es imprescindible añadir
esta “ɛ”. Veremos más tarde el papel de esta “ɛ”.
Si relacionamos ahora la Altura con la Longitud de pie podemos decir que la función sería
Altura=f(Pie)+ɛ . De nuevo la “ɛ”. Porque tampoco se trata de una relación exacta.
Como hemos dicho la Altura tiene una correlación r más grande con la Longitud del pie
que con el peso.
Por lo tanto, la “ɛ” en Altura=f(Pie)+ ɛ es una variable con menos dispersión que la “ɛ” en
Altura=f(Peso)+ ɛ. Esto es básico entenderlo para ir introduciéndose en el peculiar mundo
de la Regresión.
De momento estamos hablando de relaciones entre unas variables que pueden quedar
dibujadas por rectas, que los puntos que dibujan quedan articulados en torno a una recta.
Pero evidentemente la relación entre dos variables puede no ser una relación lineal, como
sucedería, por ejemplo, con la relación entre el Euribor y el Tiempo, que no quedarían, los
puntos, ni mucho menos, organizados en torno a una recta, sino, por el contrario,
quedarían articulados en torno a complicadas curvas con subidas y bajadas.
Por lo tanto, de momento estamos escribiendo expresiones generales de relación, como
Altura=f(Pie)+ ɛ, o bien como Altura=f(Peso)+ ɛ, pero, como iremos concretando, en
realidad ahora nos limitaremos a relaciones lineales, relaciones que se estructuran
alrededor de una recta.
Una regla fundamental: Cuanta mayor correlación haya entre dos variables, en la
representación bidimensional, estructurada en forma de recta, los valores estarán reunidos
más próximos a la recta.
Y la dispersión de los valores de la “ɛ”, de esos valores, por exceso o por defecto,
necesarios para que la función creada sea una relación exacta, tiene que ver con la
dispersión de esa representación bidimensional alrededor de la recta.
Y Alturas con Pies tienen una representación bidimensional menos dispersa alrededor de
la recta que la representación de Alturas con Pesos.
Veamos, gráficamente, de lo que estamos hablando. Puede verse perfectamente en el
gráfico adjunto que los valores de Altura y Longitud de pie están menos dispersos en torno
a la recta que los valores de Altura y Peso. Y que, por el contrario, los valores de Km y
metros no tienen ninguna dispersión:
A la “ɛ” de la ecuación de una Regresión se le denomina Residuo. En ocasiones también
se le llama Error.
Y en condiciones normales las distancias desde los valores de la representación
bidimensional a la recta que pasa entre los puntos (distancias positivas y negativas) sigue
una distribución normal N(0, DE).
Esto se interpreta de la siguiente forma: Si tomáramos todos los puntos de la
representación bidimensional y fuéramos calculando las distancias que hay entre cada uno
de esos puntos y la recta, que unas serían positivas (los puntos por encima de la recta) y
otros serían negativos (los puntos por debajo de la recta), entonces la reunión de todas
esos valores quedaría bien modelizado por un N(0, DE).
Esta Desviación estándar (DE) será tanto mayor cuanto menor sea la correlación entre las
variables “x” e “y”.
En el dibujo de las tres relaciones: Altura versus Peso, Altura versus Pie y Metros versus
Km, puede comprobarse perfectamente esta relación entre DE del residuo, de la ɛ, y la
correlación entre las variables.
Ya hemos visto que esta “ɛ” de la regresión, el residuo, son valores de distancias positivas
y negativas.
Este residuo tiene generalmente una distribución normal centrada en el cero, por ser
valores por exceso y por defecto respecto a la recta, y por tener, generalmente, muchos
más valores próximos a la recta y con cierta simetría.
Y tiene, por lo tanto, este residuo, una dispersión, una Desviación estándar (DE). Por esto
podemos decir que esta ɛ, muchas veces, sigue una distribución N(0, DE), donde esta DE
dependerá de la correlación r.
Observemos que si planteáramos la relación entre Km y Metros como una Regresión:
m=1000•Km+ɛ, la DE de esta ɛ sería obviamente cero.
En el gráfico adjunto se ve un caso de relación entre dos variables, se ve la recta de
Regresión que modeliza esta relación y se ve, también, que si se proyectaran los valores,
los puntos, sobre una recta donde el 0 fuera el punto de intersección de esa recta con la
vertical dibujada por la propia recta de Regresión, entonces los puntos proyectados
quedarían bien modelizados por una distribución N(0, DE).
Una vez comentadas unas nociones básicas del mundo de la Regresión, vamos a intentar
trazar ahora un mapa de los diferentes tipos de Regresión que se manejan en Estadística.
Esto nos permitirá, después, cuando veamos tipos concretos de Regresión, en diferentes
temas de este curso, saber situar cada uno dentro del plano que ahora vamos a dibujar.
Recordemos, antes de empezar con el mapa que la estructura general de la Regresión es
la ecuación y=f(x), que a la variable o al vector de variables (si es más de una variable) “y”
se la denomina variable o vector dependiente y a la variable o vector “x” se de denomina
variable o vector independiente.
Una primera distinción es la que se establece entre Regresión univariante y Regresión
multivariante. Esta bifurcación viene determinada por el hecho de tener una o más de una
variable dependiente.
48. La dicotomía está en estas dos formulaciones: tener una única variable “y” o tener más
de una. Los dos tipos de Regresión quedarían ejemplificados en las dos siguientes
fórmulas generales:
y=f(x)
(y1, y2, …, ym)= f(x)
si tenemos una única variable independiente, o de esta forma:
y=f(x1, x2, …, xd)
(y1, y2, …, ym)= f(x1, x2, …, xd)
si tenemos varias variables independientes.
Obsérvese que aquí lo que diferencia entre Regresión univariante y multivariante es el
número de variables dependientes no el número de variables independientes.
Si atendemos al tipo de función diferenciaremos entre la Regresión lineal y la Regresión no
lineal.
En la Regresión lineal la f(x) es la ecuación de una función lineal, una función que será una
recta, un plano o un hiperplano, según el número de variables independientes.
La Regresión lineal es la representada por el modelo matemático: y=ax+b+e en el caso de
tener una única variable independiente, o por el modelo matemático: y=a1x1+a2x2+…
+adxd+b+ɛ en el caso de estar trabajando con dos o más variables independientes.
Estoy escribiendo la fórmula de la Regresión lineal para el caso de Regresión univariante,
pero podríamos hacer lo mismo con la Regresión multivariante. Después haremos una
representación general de todas las posibilidades combinatorias y veremos los diferentes
esquemas que tendríamos en cada caso.
Recordemos que la “ɛ” es siempre el símbolo del residuo, de lo que falta para la exactitud
del modelo.
La Regresión no lineal es la que sigue cualquier otra función que no sea lineal. Estas
funciones, como veremos en su momento, pueden ser exponenciales, pueden ser
polinómicas, etc.
Si atendemos al números de variables independientes, distinguiremos dos tipos de
Regresión: la Regresión simple y la Regresión múltiple.
En la Regresión simple tenemos únicamente una variable independiente. En la Regresión
múltiple, por el contrario, tenemos dos o más variables independientes. Ahora focalizamos
no en el número de variables dependientes sino en el número de variables independientes.
Si tenemos una o más de una variable independiente.
En la Regresión simple la fórmula general es, pues, y=f(x)+ ɛ si se trata de una Regresión
univariante o (y1, y2, …, ym)= f(x)+ ɛ si se trata de una Regresión multivariante.
En la múltiple la función es: y= f(x1, x2, …, xd)+ ɛ si se trata de una Regresión univariante o
(y1, y2, …, ym)= f(x1, x2, …, xd)+ɛ si se trata de una Regresión multivariante.
Por lo tanto, las dicomomías vistas: Univariante versus Multivariante, Lineal versus No
lineal y Simple versus Múltiple, se pueden mezclar mediante todas las combinaciones
posibles.
Vemos en el gráfico siguiente cómo estas tres dicotomías combinadas dan lugar a los
diferentes tipos de Regresión posibles:
Dentro de estos ocho tipos de Regresión se pueden dar casos especiales. Por ejemplo, es
el caso de trabajar con una variable dependiente cualitativa hablamos entonces de
Regresión logística. Ésta puede ser, también, simple o múltiple, dependiendo de si
tenemos una o más de una variables independientes.
La Regresión logística es siempre, en realidad, una Regresión no lineal, como veremos en
eltema 11. Y siempre es, también, además, univariante. Por lo tanto, podemos decir que
los dos tipos de Regresión logística, la simple y la múltiple son casos especiales de
Regresión no lineal simple y múltiple, respectivamente.
En realidad la Regresión no lineal es un amplio mundo donde se pueden diferenciar
diferentes familias dependiendo del tipo de función no lineal que consideremos. Lo
veremos en su momento.
En la medida que vayamos viendo, pues, estos diferentes tipos de Regresión iremos
perfilando y completando este interesante mapa de este apasionante mundo de la
Regresión.
A modo de resumen y después de visto el esquema que nos proporciona, por combinación
de las tres dicotomías vista, los ocho tipos básicos de Regresión, vamos a ver el tipo
general de modelo de Regresión de cada una de estas ocho familias; o sea, la forma de
cada una de las ocho ecuaciones de los ocho tipos de Regresión.
En el caso no lineal he optado por poner una ecuación exponencial pero se trata de la
elección de un tipo entre los muchos tipos de funciones que pueden ser usados como
modelos de Regresión no lineal.
También es importante recordar que la “ɛ” añadida al final de la ecuación es el Residuo. En
el esquema adjunto está escrito, ahora, con la letra griega épsilon y se suma siempre a
todas las ecuaciones porque es aquel elemento que es necesario introducir siempre en la
Regresión por el mismo hecho esencial de estar trabajando con relaciones entre variables
que no son relaciones exactas.
Obsérvese, también, que el Residuo en la Regresión multivariante es un residuo con
subíndice porque cada variable del vector dependiente tiene un valor residual.
En cambio en las Regresiones no lineales aparece una “e” que no es el Residuo, es el
número e. Obsérvese que este número e siempre está elevado a algo. Es un número
básico en las funciones exponenciales.
Las otras letras, “a” y “b”, con sus subíndices, cuando los tienen, son los parámetros del
modelo, son números que se habrán de estimar, en cada caso concreto, para adaptar el
modelo, la ecuación, a un caso concreto.