el nivel socioeconómico de los estudiantes y su efecto en
TRANSCRIPT
1
El nivel socioeconómico de los estudiantes y su efecto en la calidad medida por pruebas
estandarizadas: Bogotá
David Fernando Martínez Mosquera ([email protected])
Diana Marcela Peña Rivera ([email protected])
Estudiantes de Economía Universidad de Los Andes
Trabajo de Grado dirigido por:
Luis Alfredo Sarmiento Gómez 1([email protected])
I. Resumen:
El trabajo busca evaluar la evolución del nivel de incidencia de las condiciones
socioeconómicas de los estudiantes sobre sus resultados académicos en la Prueba SABER
11, en un periodo de análisis del año 2008 al 2018. Para ello, se hace uso principalmente
del Índice Socioeconómico de los estudiantes, el cual se construye con variables
recolectadas en los formularios de inscripción de la prueba, las cuales se encuentran en las
bases de datos del FTP (File Transfer Protocol) del ICFES. Los resultados, muestran que
dichas condiciones aún tienen una relación importante con el logro educativo, lo que indica
que el sistema educativo colombiano no ha tenido programas eficaces para compensar las
desventajas asociadas al nivel socioeconómico de los hogares en los que estos nacen.
Hecho, que muestra la desigualdad de oportunidades en la calidad del proceso educativo
por acceso tardío, permanencia y culminación de la educación básica, desperdiciando la
capacidad de movilidad social que tiene una educación de calidad.
Palabras clave: Educación, Equidad, Factores asociados, Calidad, antecedentes
socioeconómicos.
Clasificación JEL: I20, I24, I31.
1 Agradecemos la dedicación y compromiso de Alfredo Sarmiento Gómez con el trabajo; su
experiencia y aportes fueron cruciales para el desarrollo de esta memoria de grado.
2
II. Introducción
La educación tiene un importante papel en la formación intelectual-crítica y el desarrollo
integral de las personas. Cuando es de calidad y se inicia tempranamente (Heckman &
Masterov, 2007), alcanzando trayectorias completas2 (no repetición, no deserción y acceso
oportuno a la educación), es una herramienta de movilidad social y equidad. Por el
contrario, cuando es de mala calidad, se inicia tardíamente y no alcanza trayectorias
completas, reproduce la inequidad y la pobreza. Para América Latina que el jefe del hogar
alcance trayectorias completas disminuye notablemente la probabilidad de ser pobre de la
familia3 (CEPAL, 2013; Jiménez, Luzardo & Torres, 2017). Este trabajo, busca identificar
algunos de los factores que explican la diferencia entre estudiantes de altos y bajos niveles
socioeconómicos, debido a que los primeros tienden a tener mejores logros educativos.
Esto, con el fin de encontrar formas de compensar social e institucionalmente los factores
que generan dicha diferencia.
El objetivo es analizar a partir de la experiencia de Bogotá los principales factores
asociados a la calidad de la educación, con énfasis en la relación del nivel socioeconómico
del estudiante con el puntaje obtenido en matemáticas y lenguaje en la prueba del ICFES
SABER 11, para el periodo comprendido entre los años 2008 y 2018. El resultado esperado
es que exista un alto grado de relación entre las características socioeconómicas y el puntaje
obtenido en la prueba estandarizada, dándose una relación positiva entre estas dos
variables. Se utilizan los datos disponibles en la plataforma FTP del ICFES, el cual
contiene información suministrada por el estudiante en el formato de inscripción a la
prueba, información de la institución educativa a la que pertenece y los resultados de las
pruebas. Se calculará la variable del Índice de Nivel Socioeconómico (INSE), tomando
además características del estudiante: edad y sexo; junto con características de la institución
educativa: naturaleza, carácter, jornada, sexo, calendario y bilingüismo.
2 En Colombia, la trayectoria completa hasta la educación media comprende el preescolar y
11 años de formación en primaria y secundaria. El promedio de años de trayectoria
completa para Bogotá en el periodo analizado es de 17 años. Por lo que, edades de
culminación posteriores reflejan rezagos frente a las trayectorias adecuadas. 3 Las trayectorias completas son diferentes entre los países de América Latina. Sin
embargo, la relación descrita se mantiene.
3
El presente trabajo estima dichas relaciones por medio de Mínimos Cuadrados Ordinarios
(MCO), siendo el puntaje de las pruebas la variable dependiente y las demás variables
nombradas las explicativas. Los resultados obtenidos y las recomendaciones de política
pública que surgen de allí se centran en el análisis de las características socioeconómicas de
los estudiantes.4 Una de las contribuciones de este trabajo, es la revisión de la relación nivel
socioeconómico-logro educativo para Bogotá en los últimos años, debido a que estudios
similares se encuentran para periodos de tiempo más antiguos. Así mismo, la contribución
más importante de este estudio, es el análisis derivado de los efectos que los antecedentes
socioeconómicos tienen sobre la calidad, a través del cual se identifica cómo se podrían
compensar socialmente dichos efectos. El índice se calcula mediante el método de Análisis
de Componentes Principales (ACP) (ICFES, 2010).
III. Revisión de literatura
El sustento conceptual de este trabajo se puede dividir en dos grupos: calidad educativa y
estudios de factores asociados a la calidad educativa en relación con la equidad. Los
primeros, conceptualizan lo que es la calidad educativa, la razón por la cual esta es
importante para el desarrollo de una sociedad, cómo y por qué se debe medir la calidad
educativa y cuáles son los problemas asociados a dicha medición. Así mismo, los estudios
de factores asociados a la calidad, proponen un análisis de los factores que tienen mayor
repercusión en el logro educativo y cómo estos se relacionan con las características
individuales de los estudiantes, haciendo énfasis en los efectos de los contextos asociados a
cada parte del proceso educativo.
Para calidad educativa y cómo medirla, el trabajo más importante para nuestro estudio es el
de Sarmiento et al (2015) según el cual, la educación es de calidad si es capaz de cumplir
con los objetivos previstos: transmitir y transformar el conocimiento, la experiencia, los
valores y, en general, los aprendizajes acumulados por milenios. La calidad de la educación
se manifiesta, sobre todo, en la calidad de la sociedad que logra formarse con su aporte
4 No se busca diferenciar cuánto se debe a la familia y cuánto al colegio, como lo hacen los
modelos jerárquicos con un análisis multinivel tal como lo muestran trabajos como el de
Piñeros en 1998 que marcaron un precedente para publicaciones de este tipo en Colombia.
En ellos se muestra que el nivel socioeconómico de los colegios corresponde a las
características de los alumnos y no a un factor diferente.
4
(pág. 16). En este orden de ideas, según Sarmiento et al. (2015) “la educación es una
actividad que supera la institución escolar y se convierte en un propósito donde toda la
sociedad. Se inicia en la familia, se empeña en ir acumulando y desarrollando lo mejor de
su legado a través de la formación de la niñez y la juventud, así como la exigencia de
excelencia en los comportamientos sociales” (pág. 28). De este modo, evaluar la calidad
educativa es importante para entender el cumplimiento de los objetivos sociales, donde la
equidad es uno de los principales.
En relación con lo anterior, Sarmiento et al. (2015) señalan la calidad es multidimensional y
requiere el estudio de variables tanto cuantitativas como cualitativas que la afectan. Esta
representa una forma de evaluar teniendo en cuenta insumos, procesos y productos teniendo
como base de la evaluación al agente en formación y haciendo énfasis en que el esquema
insumo-proceso-producto no es suficiente, sino que hay que tener en cuenta los contextos y
la calidad asociados a cada parte de dicho esquema (pág., 68). Entonces, medir la calidad
educativa, aunque complejo, es importante para entender qué clase de sociedad se está
formando con la educación y, sobre todo, de qué manera la educación de calidad está
cumpliendo con uno de sus papeles más importantes para Colombia, lograr superar las
desventajas socioeconómicas en poblaciones con menor calidad de vida (pág. 83).
En el ámbito del estudio de los factores asociados a la calidad de la educación en relación
entre educación y equidad se han desarrollado diversos estudios para Colombia y Bogotá
los cuales, mediante el uso de una metodología y análisis teórico similar, se encargan de
evidenciar la importancia de los antecedentes socioeconómicos en el logro educativo. En
este sentido, para el caso de la calidad educativa en Colombia se tienen los estudios de
Piñeros & Rodríguez (1998); Sarmiento, Becerra & González (2000); Casas, Gamboa y
Piñeros (2002) y Piñeros (2010) y, para el caso de Bogotá se tiene el estudio de Muñoz
(2010). Estos estudios, tanto para Colombia como para Bogotá identifican la importancia de
los contextos asociados a los estudiantes y los entornos de formación como son la familia y
la escuela en el logro educativo de estos. De este modo, desde la perspectiva de la
educación como medio para lograr equidad, el hallazgo común más importante que hacen
estos estudios, es que las condiciones socioeconómicas son críticas en el logro educativo
por lo que, si se quiere aprovechar la capacidad de compensación que tiene la educación es
5
necesario, el fortalecimiento de la calidad como medio para superar las desventajas
socioeconómicas.
En términos de los hallazgos más importantes para nuestro trabajo, Piñeros & Rodríguez
(1998) encuentran que para los puntajes en la prueba ICFES de las áreas de matemáticas,
ciencias y lenguaje, el número de años de preescolar cursados es significativo para los
colegios oficiales (pág., 32). Además, según Piñeros & Rodríguez (1998) “La jornada que
más aporta al rendimiento es la jornada completa, seguida de las jornadas de la mañana y
de la tarde. Adicionalmente, el valor agregado por cada jornada es mayor en el sector
oficial que en el privado, mostrando el mismo comportamiento al de la media del
rendimiento” (pág. 31). Por último, Piñeros & Rodríguez (1998) encuentran que “la riqueza
del contexto del estudiante (medida como nivel socioeconómico) tiene efectos positivos
sobre el rendimiento académico del mismo, lo cual confirma que la riqueza sociocultural
del contexto incide positivamente sobre el desempeño escolar de los estudiantes (pág., 34).
En relación con esto, en Sarmiento, Becerra y González (2000) plantean que el hecho de
que el impacto que tiene el nivel socioeconómico de los alumnos del plantel en el logro no
dependa de las características específicas del colegio se debe a que el sistema educativo
colombiano es clasista, es decir, niños pobres van a ciertos colegios y niños con mejores
condiciones socioeconómicas van a otros (pág. 58).
Asimismo, es importante tener en cuenta los estudios de eficiencia escolar de Casas,
Gamboa & Piñeros (2002) y Piñeros (2010) que tienen aportes similares y relevantes para
nuestro trabajo. Estos autores, plantean que en la evaluación de calidad educativa y sobre
todo de la calidad que ofrecen los planteles, es importante tener en cuenta los contextos y
las características sociales preexistentes. De este modo, es necesario que el análisis de
calidad educativa por instituciones vaya más allá de la media del puntaje que se obtiene en
estas y se guíe hacia el análisis del valor agregado, lo cual significa que la eficacia escolar
debe evaluarse desde la óptica de cuánto progreso puede una escuela brindar a cada
estudiante más allá de las características individuales de este (Casas, Gamboa & Piñeros,
2002). En relación con lo anterior, Piñeros (2010) explica la relación multicausal entre el
contexto, los insumos, los procesos y el valor agregado educativo; relación que contribuye
a determinar, en buena medida, los resultados de aprendizaje de los estudiantes. Por último,
6
los autores concuerdan en que la escuela es eficaz si promueve de forma duradera el
desarrollo integral de todos y cada uno de sus alumnos, más allá de lo que sería esperable,
de acuerdo a sus características individuales, su desempeño académico inicial y su situación
social, cultural y económica.
Para el caso de Bogotá, Muñoz (2010) hace uso de las pruebas COMPRENDER aplicadas
por el Distrito en 2005 para evaluar los procesos y los logros educativos de los estudiantes
en Lenguaje, Matemáticas, Ciencias Naturales y Ciencias Sociales y aplicaban una encuesta
sobre el entorno familiar de los estudiantes. Las conclusiones más importantes del análisis
de estas pruebas son: que con relación al estrato socioeconómico, se encontró que a
los estudiantes de los niveles socioeconómicos 5 y 6 les va mucho mejor que a los de otros
estratos y que, la educación de los padres resultó ser una variable positiva que
marcó diferencias en todas las áreas evaluadas, es decir, que los estudiantes hijos de
padres con formación académica de nivel superior obtuvieron los mejores resultados (pág.
63).
A pesar de que este trabajo tiene como objetivo estudiar la evolución de la importancia de
los factores asociados a la calidad de la educación, se espera encontrar que el efecto de
estos no ha cambiado mucho a lo largo del tiempo y que, las características
socioeconómicas y las trayectorias completas siguen siendo factores críticos en el logro
académico de los estudiantes, el cual ha sido medido como el puntaje obtenido por estos en
las pruebas estandarizadas, utilizando específicamente los de matemáticas y lenguaje.
IV. Marco Teórico
Con base en la literatura estudiada, la comprensión y análisis de los factores asociados a la
calidad de la educación son muy importantes en términos de focalizar las políticas públicas
guiadas a superar las condiciones de inequidad. La creación del INSE, tiene como marco de
referencia el índice de condiciones de vida (ICV). Este, toma los elementos básicos de una
concepción multidimensional de desarrollo humano pleno de Amartya Sen y se utiliza en
Colombia desde 1993 con el nombre de SISBEN para clasificar el nivel socioeconómico de
las familias, el cual ha sido el principal instrumento para la focalización de las políticas
públicas hacia los más vulnerables.
7
El uso de variables más allá del ingreso monetario se basa en la afirmación de Sen, de que
el desarrollo se mide por el conjunto de libertades y capacidades logradas y no por un
medio. Por esto, un índice con enfoque en la calidad de vida logra combinar el acceso
efectivo a bienes físicos, como acumulación individual de capital instrumental, variables
que miden el capital humano individual presente y potencial, la composición del hogar
como capital humano colectivo, y si es posible características como la seguridad, el entorno
en el hogar, la calidad del medio ambiente y el acceso a bienes públicos como capital físico
colectivo (acceso a servicios públicos domiciliarios, infraestructura y comunicaciones)
(Sarmiento y Rodríguez, 1998).
V. Metodología y datos
La investigación usa las variables de edad, sexo, características del plantel educativo y
características socioeconómicas del estudiante a nivel individual, como, por ejemplo, el
nivel educativo de los padres y el estrato de la vivienda. La variable INSE, está disponible
en las bases del ICFES únicamente para los últimos periodos de la muestra, por lo que fue
necesaria la construcción propia de este mediante el método de análisis de componentes
principales (ACP), utilizando las variables de educación del padre, educación de la madre,
el estrato de la vivienda, la tenencia de computador y el acceso a internet. Todas estas
variables, corresponden a las personas que presentaron la prueba ICFES SABER 11 (antes
examen ICFES) entre los años 2008 y 2018, y eran residentes de la ciudad de Bogotá.
8
El índice del nivel socioeconómico (INSE) de los estudiantes:
Los años en los que el INSE calculado por el ICFES se encontraba disponible no son
comparables, debido a que las variables utilizadas para calcularlo cambian entre estos y en
otros casos, no se especifica cuáles fueron las variables empleadas. Dicho índice, capta las
condiciones de vida que posee el estudiante en su hogar. Para la elaboración de este, el
ICFES transforma las variables (ver variables en el anexo) mediante la técnica de
escalamiento óptimo y construye el índice posteriormente, utilizando el método de
Componentes Principales, proceso que está enmarcado en la metodología empleada para el
cálculo de Índice de Calidad de Vida utilizada por el Programa Nacional de Desarrollo
9
Humano del DNP y PNUD para el año 2002 (ICFES, 2010). Para el presente trabajo, se
construyó el INSE con base en las variables utilizadas por el ICFES que se pudieron tener
para todos los periodos de análisis.
El método de ACP: una breve explicación
El ACP permite resumir las características de un conjunto de datos multivariantes dentro
del cual las variables se encuentran altamente correlacionadas. En este sentido, el ACP
consiste en crear un conjunto de variables incorrelacionadas (componentes principales), los
cuales son una combinación lineal de las variables originales (Molina, n.d). Dichos
componentes principales, son vectores ortogonales entre sí, capaces de explicar la
variabilidad de los datos y están organizados de mayor a menor según el porcentaje de
varianza que explican.
De esta manera, se trata de encontrar nuevos ejes que representen y resuman
adecuadamente los datos. El primer eje va a ser el que minimiza la distancia euclídea de
cada punto a su proyección ortogonal (o coordenada) en dicho eje (Molina, n.d). Para esto,
se centran las variables restándoles su respectiva media, dichas variables centradas se
denominarán z. Así, el vector director del primer eje 𝑎′=(𝑎11, 𝑎21) , se obtiene resolviendo
el siguiente problema:
Mín. 𝑎1 ∑ 𝑧𝑖221,041,739
𝑖=1
s.a 𝑎′1𝑎1=1
Usando el teorema de Pitágoras:
𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎2=𝑧𝑖12 + 𝑧𝑖2
2
𝑧𝑖22 = 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎2 - 𝑧𝑖1
2
donde no depende de 𝑎1, es decir, la distancia es la misma para cualquier valor de 𝑎1. Por
ende, encontrar el vector 𝑎1 que soluciona el problema de minimización anterior, es
equivalente a encontrar el que maximiza la siguiente expresión:
∑ 𝑧𝑖12
1,041,739
𝑖=1
10
Teniendo en cuenta que z es la variable centrada, el vector que garantiza la ortogonalidad
también es aquel mediante el cual se obtiene la máxima varianza de las proyecciones, la
cual se puede expresar de la siguiente forma:
𝜎2 =1
1,041,739∑ 𝑧𝑖1
2
1,041,739
𝑖=1
Entonces, el primer componente principal se define como la combinación lineal de las
variables incluidas en el ACP, en este caso, educación del padre, educación de la madre, el
acceso a internet, la tenencia de computador y el estrato, que tiene máxima varianza. El
segundo componente, también es una combinación lineal que cumple las condiciones
anteriores, pero a su vez es ortogonal con respecto al primer componente, es decir,
covarianza (componente 1, componente 2) =0, lo que significa que estos son linealmente
independientes.
Justificación del uso del ACP:
El uso del método de ACP para el cálculo del INSE se sustenta principalmente en la idea de
que las variables que explican las condiciones socioeconómicas de los estudiantes se
encuentran altamente correlacionadas y, por lo tanto, se requiere aplicar componentes
principales para reducir estas en un nuevo conjunto de variables (sin perder información)
que sean una combinación lineal de las anteriores. En este sentido, se analiza la correlación
existente entre las variables socioeconómicas, los resultados se muestran en la siguiente
tabla:
Como se puede observar, las variables se encuentran correlacionadas, algunas de ellas
altamente (correlación por encima de 0.5) y, todas las correlaciones son estadísticamente
diferentes de cero al 1%,5% y 10% de significación. Por lo tanto, analizando la anterior
11
matriz de correlaciones, es coherente pensar en la necesidad de utilizar el ACP para la
construcción del INSE.
Además, para el análisis se tiene en cuenta dos pruebas que se encuentran en la literatura
como las más usadas para probar la relevancia del uso del ACP. Estas pruebas son: el test
de esfericidad de Bartlett y la medida de la adecuación del muestreo de Kairser, Meyer y
Olkin (KMO). En este orden de ideas, los resultados del test de esfericidad de Bartlett se
presentan a continuación:
Donde 𝜆 se refiere a las raíces características (Ruiz,2012). Con el p-valor asociado a la
prueba, el cual es aproximadamente 0, se rechaza la hipótesis nula y, por lo tanto, hay
suficiente evidencia estadística para afirmar que existe correlación significativa entre las
variables socioeconómicas.
En cuanto a la validez de este test, según Carmona (2014), un error en el que se puede
incurrir es que este arroje significancia solo porque se tiene un número grande de
observaciones, por lo cual, su validez radica en el uso de este cuando la razón n/k sea
menor que 5 (Pág. 2). Donde n es el número de observaciones y k es el número de
variables. Dado que esta condición no se cumple en nuestro caso (1.041.739/5= 208.347,8),
es necesario hacer otra prueba para corroborar la conclusión del test de esfericidad de
Bartlett. Por lo tanto, se hace uso de la medida de la adecuación del muestreo de Kairser,
Meyer y Olkin (KMO), cuyo resultado es el siguiente:
12
El índice de KMO, hace un análisis de las correlaciones parciales entre las variables. Esto
es importante, puesto que, si bien sabemos que existe correlación significativa entre estas,
dicha correlación puede estar a su vez combinada con el efecto intermedio de otras
variables. Por lo tanto, el objetivo de esta medida es obtener las correlaciones entre las
variables eliminando cualquier efecto intermedio. De este modo, si éste índice se encuentra
cercano a 1, se justifica usar ACP mientras que si es cercano a cero el ACP es irrelevante
(Carmona, 2014). Como se puede observar en la tabla anterior, el KMO es 0.717, por lo
tanto, se justifica el uso del ACP y se considera relevante dado que existe información
estadística suficiente para afirmar que existe correlación significativa entre las variables
socioeconómicas utilizadas, esto tanto por la conclusión de la prueba de Bartlett como para
la del KMO.
Construcción del INSE:
La construcción del INSE se realizó mediante la aplicación de ACP a través del paquete
estadístico de Stata. A través del cual, se lleva a cabo predicción de los vectores propios
asociados a cada observación del componente y el reescalonamiento de los valores del
componente 1 entre 0 y 100 para su interpretación como el INSE. En primer lugar, se aplicó
el ACP con las variables de estrato de la vivienda, educación de la madre, educación del
padre, tenencia de computador y acceso a internet, teniendo los siguientes resultados:
Matriz de correlación de los componentes y las variables:
13
Valores propios asociados a cada componente (gráfico de sedimentación):
Varianza explicada por componente y varianza acumulada:
14
Según la literatura estudiada, existen tres criterios para elegir el número de componentes a
utilizar del ACP (Molina, n.d):
1. Conservar la cantidad de componentes tales que en conjunto expliquen un
porcentaje de varianza de al menos 75 %. En este orden de ideas, se conservan los
componentes 1 y 2 ya que, estos explican conjuntamente el 76,39% de la varianza
total.
2. Se seleccionan los componentes que posean un valor propio mayor al valor propio
promedio:
𝜆𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜=
1
5∑ 𝜆𝑘 = (
2.690150 + 1.129560 + 0.505075 + 0.351109 + 0.324111
5) ≈ 1
𝑘=5
𝑘=1
Por lo tanto, los componentes que cumplen la condición, es decir, tienen un valor
propio (λ>1), serían el componente 1 y 2, con unos valores propios de 2.690150 y
1.129560, respectivamente.
3. Usando el gráfico de sedimentación presentado anteriormente, donde se observan
los componentes que aportan significativamente a la varianza a través de los puntos
más pronunciados. De este modo, podemos ver que los componentes elegidos serían
el componente 1 y el 2.
15
Dado el análisis anterior, se concluye que aquellos componentes que cumplen los criterios
para ser elegidos son el componente 1 y 2. En lo que respecta al primer componente, este
representa las condiciones socioeconómicas del estudiante, ya que, de la matriz de
correlaciones obtenida al realizar el ACP se puede observar que todas las variables
incluidas en dicho componente poseen signo positivo, es decir, niveles más altos en dichas
variables reflejan una mayor calidad de vida en el marco de análisis de Amartya Sen ya
definido anteriormente. Además, este componente es el que explica mayor porcentaje de la
varianza total, por ambas razones, el componente 1 es el que se reescala para creación del
INSE.
Para reescalar el componente 1 en valores entre 0 y 100, primero se identifican el valor
mínimo y máximo de esta variable mediante la observación de sus estadísticas descriptivas:
Para transformar la variable componente 1 en la nueva variable INSE se suma en primer
lugar a los valores predichos de este para cada individuo el valor absoluto del mínimo
(dado que es negativo) que esta toma en la muestra, con el fin de mover los valores al plano
positivo. Para el acotamiento, lo anterior se divide por la suma del mínimo y el máximo
valor que tome la variable componente 1, lo cual asegurará que se tenga como resultado
valores entre 0 y 1. Por último, los valores son multiplicados por 100, para que el INSE
pueda ser interpretado como un índice habitual:
𝐼𝑁𝑆𝐸𝑖 = (𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒1𝑖 + |min(𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒1)|
|min(𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒1)| + max(𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒1)) ∗ 100
Mediante la matriz de correlación se puede observar que la transformación para la
obtención del INSE no afecta las características del componente 1. En principio, la virtud
del ACP se basa en la capacidad de predecir componentes que son ortogonales, por lo que
son independientes entre sí. Por ello, se puede ver que el INSE conserva esta condición
16
respecto al componente 2, tal como se tenía entre el componente 1 y este. Bajo esta misma
condición, el INSE es sólo una transformación al componente 1 equivalente a multiplicar
este por un escalar, ya que dada su condición de ortogonalidad no se afecta su dirección
vectorial.
Modelo econométrico:
17
VI. Resultados
De acuerdo con los resultados de la tabla anterior, todas las variables presentan
significancia individual a un nivel de significación del 1%, 5% y 10%. Entonces, el
aumento en 1 punto del INSE aumenta en 0,182 el puntaje obtenido en matemáticas y en
0,157 en puntaje obtenido en lenguaje, ceteris paribus. El ser hombre, aumenta el puntaje
de matemáticas en 3,167 puntos y el puntaje de lenguaje en 0,124, comparando frente a las
mujeres, ceteris paribus. Por otro lado, manteniendo todo lo demás constante, tener una
edad que se corresponda con una trayectoria completa (menor o igual a 17 años) aumenta el
puntaje de matemáticas en 2,36 y el de lenguaje en 1,149 puntos, frente a las personas que
culminan su formación con una edad superior a la trayectoria. Además, si el colegio es
oficial, aumenta en 2,116 el puntaje de matemáticas y en 1,581 el puntaje de lenguaje, en
comparación con los colegios no oficiales, manteniendo todo lo demás constante. En cuanto
a la jornada, si el colegio cuenta con jornada única el puntaje de matemáticas aumenta en
18
4,671 y el de lenguaje aumenta en 3,271 puntos, comparado con los colegios que no poseen
jornada única, ceteris paribus.
Adicionalmente, si el colegio cuenta con calendario A, el puntaje de matemáticas
disminuye en 6,9 y el de lenguaje disminuye en 3,227 puntos, comparando con los colegios
de calendario B y flexible, ceteris paribus. Por otro parte, que el colegio sea bilingüe
aumenta el puntaje de matemáticas en 3,247 y el de lenguaje en 1,081 puntos, comparado
con los colegios no bilingües, ceteris paribus. En adición, el hecho de que el colegio sea de
carácter académico aumenta el puntaje de matemáticas en 0,238 y el de lenguaje en 0,216
puntos, comparando con los colegios con otra característica (técnico, normalista,
comercial), ceteris paribus. En cuanto al sexo del colegio, que este sea mixto disminuye el
puntaje de matemáticas en 1,698 y disminuye el puntaje de lenguaje en 0,536, comparando
con los colegios femeninos y masculinos, manteniendo todo lo demás constante. En lo que
respecta a la constante, esta se refiere al puntaje mínimo obtenido, el cual es de 44 puntos
para matemáticas y 44,41 puntos para lenguaje. Por último, existe suficiente información
estadística para concluir que todas las variables usadas son estadísticamente diferentes de
cero a unos niveles de significación de 1%, 5% y 10%.
Análisis causal
En esta sección, se analiza un aspecto que se considera un aporte relevante de esta
investigación, demostrar que lo que se ha conocido en la literatura como factores asociados
a la calidad de la educación, son en sí mismos factores causales. Es decir, existe relación
causal entre el INSE y los puntajes obtenidos en las pruebas, en el marco de nuestro
análisis, los obtenidos en matemáticas y lenguaje. Con el objetivo de evidenciar esta
relación causal, se definió una serie de tiempo que contiene los puntajes (matemáticas y
lenguaje) e INSE promedio de cada muestra semestral5, realizándose el estudio de la
cointegración y, posteriormente el test de causalidad de Granger.
En este orden de ideas, dos series están cointregradas cuando ambas son de orden I(d) y el
error es I (0). El hecho de que una serie sea de orden I(d), quiere decir que tuvo que ser
5 En Colombia la prueba ICFES SABER 11 tiene una aplicación cada semestre, por lo que
las series de los promedios semestrales de las variables cuentan con 22 observaciones cada
una para el periodo comprendido entre 2008 y 2018.
19
diferenciada d veces para que fuera estacionaria, de lo cual, se deduce que la condición de
que el error sea I (0) significa que este debe ser inicialmente ruido blanco (estacionario). De
este modo, se hace la prueba ADF (Augmented Dickey-Fuller) para determinar si las series
iniciales son estacionarias o requieren alguna diferenciación para serlo. Esta prueba se
describe a continuación:
Esta prueba considera la necesidad de incorporar rezagos de Yt en primeras diferencias
cuando existe correlación serial de los errores, es importante definir la longitud del rezago.
Ng y Perron (1995), sugieren un procedimiento de selección del rezago que permita una
reducción del sesgo de la prueba y de la pérdida de potencia de la misma. El método
consiste en determinar un valor máximo del rezago, el cual según Schwert (1989), se
obtiene a través de la siguiente formula:
Rezago máximo=12*(T/100)(1
4)
Donde T representa el número de observaciones. Posteriormente, se verifica en la prueba
ADF si el t-estadístico de ese rezago máximo es en valor absoluto mayor que 1.6, es decir,
si este rezago es significativo estadísticamente. Si esto se cumple, la prueba se realiza con
dicho rezago máximo, de lo contrario se van reduciendo los rezagos aplicando
reiteradamente la prueba, hasta que la condición del t-estadístico se cumpla.
En lo que respecta al estadístico de prueba, la ADF no posee uno concretamente definido ya
que no sigue ninguna distribución probabilística. Entonces, se usan los valores críticos para
determinar si se rechaza o no la hipótesis nula (raíz unitaria o no estacionaridad). Si el valor
del estadístico de prueba obtenido es menor que los valores críticos entonces se rechaza la
hipótesis nula y, por tanto, la serie es estacionaria.
Las tablas asociadas a la aplicación de las pruebas para las series (puntaje promedio
matemáticas, puntaje promedio lenguaje e INSE promedio), se muestran en el anexo de este
documento. El análisis de dichas tablas y resumen de la prueba se presentan a continuación:
Rezago máximo=12*(22/100)(1
4)=8
Sin embargo, la condición sobre el t-estadístico anteriormente mencionada se cumplió en el
primer rezago y, por lo tanto, este fue el usado para la prueba ADF. El resultado es que, a
20
niveles de significancia del 1%, 5% y 10% no existe evidencia estadística para rechazar la
hipótesis nula, ya que el estadístico de prueba es mayor que los valores críticos de DF a
todos los niveles de significancia, esto sucede para las tres series. Por lo tanto, las series
tienen raíz unitaria, es decir, no son estacionarias. Dada esta conclusión, se procede a hacer
primera diferencia y a corroborar mediante la prueba ADF a estas nuevas series creadas, si
las primeras diferencias son estacionarias. Las tablas asociadas a las pruebas se encuentran
en el anexo de este documento. Los resultados se resumen a continuación6:
Para el caso de las primeras diferencias del puntaje promedio en matemáticas y del
promedio del INSE a un nivel de significancia del 10%, existe evidencia estadística para
rechazar la hipótesis nula, ya que el estadístico de prueba es menor al valor crítico de DF a
dicho nivel de significancia. Por lo tanto, las series no tienen raíz unitaria, es decir, son
estacionarias. Además, para la primera diferencia del puntaje promedio en lenguaje, a
niveles de significancia del 5% y 10% existe evidencia estadística para rechazar la hipótesis
nula, ya que el estadístico de prueba es menor al valor crítico de DF a dichos niveles de
significancia. Por lo tanto, la serie no tiene raíz unitaria, es decir, es estacionaria. Teniendo
en cuenta que, las tres series resultaron ser I (1), es decir, al diferenciar una vez cada una de
estas series se convirtieron en estacionarias, se debe hacer el análisis del comportamiento
de los errores de cada una de las regresiones para hacer el análisis de cointegración.
Para la cointegración entre el puntaje promedio de matemáticas y el promedio del INSE, se
obtuvo que, al estimar la regresión, predecir los residuales y hacerles la prueba de
estacionariedad (Engle-Granger), estos resultan I (0), es decir son ruido blanco. Esto ya
que, A niveles de significancia del 5% y 10% existe evidencia estadística para rechazar la
hipótesis nula, ya que el estadístico de prueba es menor a valores críticos de DF para dichos
niveles de significancia. Por lo tanto, los residuos no tienen raíz unitaria, es decir, son
estacionarios. Las tablas asociadas a esta conclusión se encuentran en el anexo del presente
trabajo.
6 En este caso, el rezago máximo continuó siendo 8, sin embargo, la condición sobre el t-
estadístico se cumplió para la primera diferencia del promedio del puntaje de matemáticas y
la primera diferencia del promedio del INSE en el cuarto rezago. Mientras que, para la
primera diferencia del puntaje de lenguaje, se cumplió para el primer rezago.
21
Entonces, dado el análisis de estacionariedad anterior, se puede afirmar que los puntajes
promedio en matemáticas y el promedio del INSE están cointegrados ya que, ambas series
son I (1) y los residuales son I (0).
Adicionalmente, en lo que respecta a la cointegración entre el puntaje promedio de lenguaje
y el promedio del INSE, se obtuvo que, al estimar la regresión, predecir los residuales y
hacerles la prueba de estacionariedad (Engle-Granger), estos resultan I (0), es decir son
ruido blanco. Esto ya que, a niveles de significancia del 1%, 5% y 10% existe evidencia
estadística para rechazar la hipótesis nula, ya que el estadístico de prueba es menor a los
valores críticos de DF. Por lo tanto, los residuos no tienen raíz unitaria, es decir, son
estacionarios. Las tablas asociadas se presentan en el anexo de este trabajo.
Entonces, dado el análisis de estacionariedad anterior, se puede afirmar que los puntajes
promedio en lenguaje y el promedio del INSE están cointegrados ya que ambas series son I
(1) y los errores son I (0).
Por último, teniendo en cuenta que existe cointegración entre los puntajes promedio y el
INSE promedio, es decir, la regresión no es espuria (existe teoría económica que relaciona
de manera válida las variables estudiadas en las series), se procede a hacer el análisis de
causalidad en el sentido de Granger. Las tablas con los resultados obtenidos de las pruebas
se presentan en el anexo de este documento. Las conclusiones de dichas pruebas son las
siguientes:
Respecto a la causalidad entre el promedio del INSE y el promedio del puntaje en
matemáticas, teniendo en cuenta que se tienen pocas observaciones, no se interpreta el
estadístico asintótico chi-cuadrado sino el estadístico F. Así, con un p–valor de 0.0006, a
niveles de significancia del 1%,5% y 10% se rechaza la hipótesis nula y, por lo tanto, existe
suficiente evidencia estadística para afirmar que el promedio del INSE causa en el sentido
de Granger al promedio del puntaje en matemáticas.
Bajo el mismo análisis, sobre la causalidad entre el promedio del INSE y el promedio del
puntaje en lenguaje, con un p–valor de 0.0001, a niveles de significancia del 1%,5% y 10%
se rechaza la hipótesis nula y, por lo tanto, existe suficiente evidencia estadística para
22
afirmar que el promedio del INSE causa en el sentido de Granger al promedio del puntaje
en lenguaje.
Por lo tanto, dado el análisis estadístico realizado anteriormente, se puede afirmar que lo
que se ha conocido como factores asociados a la calidad de la educación, son en sí mismos
factores causales. Lo que demuestra la capacidad que tiene compensar las desventajas
socioeconómicas para mejorar la calidad de la educación.
Análisis transversales
La relación de hacinamiento y el acceso a materiales educativos con el INSE:
Las anteriores variables son extraídas igualmente de la base FTP del ICFES para los
periodos entre los años 2015 y 2018, debido a que las anteriores bases no las tienen
disponibles. El coeficiente de hacinamiento, se construye dividiendo el número de personas
presentes en el hogar de cada estudiante por el número de cuartos con el que cuenta el lugar
en donde residen. El INSE utilizado como variable dependiente, es el construido
anteriormente para cada individuo para los años ahora analizados.
23
Dada la transversalidad de este análisis, el resultado realmente importante de este ejercicio
es observar cómo el hacinamiento se relaciona negativamente con el INSE, lo que se asocia
en la literatura con el hecho de que un mayor nivel de este se traduce en menor espacio de
aislamiento para el estudiante, lo que reduce la tenencia de un espacio libre para el estudio.
Por otro lado, el hecho de que una mayor posesión de libros en la familia se relacione
positivamente con el INSE, ejemplifica la importancia que tienen el acceso a recursos
educativos en la calidad de vida de un individuo, y consecuentemente en su desempeño
académico. La tabla de correlaciones, muestra esta misma dinámica:
Análisis del segundo componente:
Como se mencionó anteriormente, el segundo componente cumplió con todas las
condiciones que la literatura sugiere para ser tenido en cuenta, se busca darle una
interpretación a este con el objetivo de hacer un análisis de qué tan bueno es el modelo
econométrico implementado. Por lo tanto, se procede a determinar la relación que puede
tener el segundo componente con el error predicho del modelo, esto para determinar si una
parte de este se puede explicar por dicho componente. Los resultados se presentan a
continuación:
24
El componente 2 tiene una relación negativa y significativa con el componente del error del
modelo. Esto, se puede interpretar como las dificultades que tienen los datos para medir la
diferencia de calidad existente en los bienes como el internet y el computador. Las
variables tomadas para la construcción del índice sólo tienen en cuenta la posesión o no del
bien, más no las diferencias de calidad en estos dada la amplia y diferenciada oferta de
bienes de este tipo que existe en la actualidad. Esta, es una de las posibles maneras de
considerar este componente, entendiendo que dada su condición de ortogonalidad, este
refleja cuestiones diferentes al primer componente y, por tanto, se puede pensar como una
variable que no se encuentra en las encuestas y, por lo tanto, el modelo no puedo tenerlo en
cuenta por las dificultades de medir la calidad de los bienes durables y servicios.
VII. Conclusiones
En primera instancia, es importante resaltar que los resultados obtenidos anteriormente son
consecuentes con lo esperado por los investigadores dada la literatura estudiada. Por lo
tanto, el nivel socioeconómico de los estudiantes sigue teniendo impactos importantes en el
logro educativo y por esto, es necesario plantear acciones de política pública que permitan
compensar las desventajas socioeconómicas que afectan la calidad de la educación y que
implican que no ha habido trayectorias completas (repetición, entrada tardía y deserción) lo
que, como se puede observar persisten en Bogotá para el periodo 2008-2018. Además, dado
el análisis causal presentado en esta investigación, se concluye que el INSE causa en
sentido de Granger los puntajes de matemáticas y lenguaje, resultado que es importante
para dar validez a las recomendaciones de política que surgen del modelo econométrico
planteado. Haciendo énfasis en que una compensación de las diferencias socioeconómicas
cambia los resultados obtenidos en las pruebas dada la relación causal existente entre estas
variables.
En este orden de ideas, observando la importancia que tienen las distintas variables dentro
del INSE, se puede concluir que la educación de la madre y la educación del padre son las
variables más importantes dentro de éste. Lo anterior, se puede interpretar como los efectos
positivos que existen de que el estudiante cuente con un adulto capacitado para guiarlo en
su proceso de aprendizaje. Además, dada la importancia que tienen las variables de acceso
a bienes (internet y computador), se puede concluir que el acceso a medios de
25
comunicación e información es un factor diferenciador que afecta la calidad educativa. Por
último, dado los controles transversales que fueron hechos para evaluar la calidad del
modelo econométrico aquí propuesto, se puede inferir que la tenencia de libros en el hogar
es otro factor importante a considerar ya que, el acceso a materiales de estudio es relevante
para el logro educativo y que, dada la relación del hacinamiento con INSE, proveer a los
estudiantes un espacio para su desarrollo puede mejorar sus resultados académicos.
De este modo, las maneras de compensar las desventajas socioeconómicas de los
estudiantes deben estar guiadas a otorgar acceso público a servicios que provean una
solución a la carencia de buenas condiciones en las medidas que se presentaron
anteriormente. Tales medidas de acceso público, deben ser capaces de garantizar a los
estudiantes la disponibilidad de un adulto educado que guíe su proceso educativo, el acceso
a bienes de comunicación y materiales de investigación (libros) y, un espacio donde estos
tengan libertad para aislarse. En estos campos, es necesario emprender desde lo público el
mejoramiento de los servicios anteriores que ya hoy se brindan en Bogotá; a manera de
ejemplificar, en la actualidad se cuenta con una red pública de bibliotecas distritales, pero
no se ha encontrado que estas afecten de una manera significativa el desempeño de los
colegios cercanos (Rodríguez-Lesmes, Trujillo y Valderrama, 2013). Hecho, que refleja el
no uso efectivo de insumos de estudio que están a disposición de la mayoría de las
personas, en donde se puede intuir la falta de una guía capacitada que oriente a los
estudiantes en el acceso y utilización de los materiales e información. Por lo que, existen
espacios donde no se está explotando la capacidad de contribución para el cierre de la
brecha educativa que se tiene en algunas áreas. Por lo tanto, la ciudad puede mejorar en
dichos espacios para lograr reducir el impacto que tienen condiciones ajenas a la decisión
del estudiante sobre su logro académico, lo que en principio contribuye a generar un
sistema educativo más justo bajo las ópticas de libertad y equidad.
26
VIII. Bibliografía
Carmona, F. (2014). Un ejemplo de ACP paso a paso. Apuntes, Departamento de estadística.
Universidad de Barcelona. [sitio web]. [Consulta: 15/09/2015].
Casas, A., Gamboa, L. y Piñeros, L. (2002). El valor que agrega la escuela: una aproximación a
la calidad de la educación en Colombia. Borradores de investigación (28), 1-23.
Recuperado de http://www.urosario.edu.co/urosario_files/89/89fbaee1-f7c8-4f0d-8d32-
9fbcf3fd7e52.pdf
CEPAL. (2013). Estudio Económico de América Latina y el Caribe 2013: tres décadas de
crecimiento económico desigual e inestable. CEPAL.
Cortés, D; Gamboa, L; Gonzáles, J (1999) ICV: Hacia una medida de estándar de vida”,
Coyuntura Social, n°21, noviembre, pp. 159 a 180. Recuperado de:
https://www.repository.fedesarrollo.org.co/handle/11445/1779
Grisales H, Arbeláez MP (2008). Metodología para el diseño de un índice de condiciones de
vida para los adolescentes jóvenes. Rev Fac Nac Salud Pública 2008; 26(2): 178-195
Heckman,J & Masterov, D (2007) The productivity argument of Investment in Young Children.
Review of Agricultural Economics. Volume 29, Pages 446–49. Recuperado de
http://jenni.uchicago.edu/papers/Heckman_Masterov_RAE_2007_v29_n3.pdf
ICFES. (2010). Metodología de construcción del Índice de nivel socioeconómico de
los estudiantes. Bogotá.
Lesmes, P. R., Trujillo, J., & Valderrama, D. (2013). Más allá de la infraestructura: el impacto
de las bibliotecas públicas en la calidad de la educación (No. 010499).
Molina, I. (n.d). Capítulo 2: Análisis de componentes principales. Universidad Carlos III de
Madrid. Recuperado de
http://halweb.uc3m.es/esp/Personal/personas/imolina/MiDocencia/TecnicasInvestigacio
n/SlidesACPEstudi00809.pdf.
Muñoz, L. (2010). Estudio de factores asociados a la calidad de la educación escolar de Bogotá.
Educación y ciudad (19), 56-68. Recuperado de
http://www.idep.edu.co/revistas/index.php/educacion-y-ciudad/article/view/119/108
27
Perron, P. and Ng, S. (1996), Useful Modifications to Unit Root Tests with Dependent Errors
and their Local Asymptotic Properties, Review of Economic Studies 63, 435–465.
Piñeros L. J., Rodríguez, A. (1998). Los Insumos Escolares en la Educación Secundaria y su
Efecto Sobre el Rendimiento Académico de los Estudiante: Un estudio en Colombia.
Washington, D.C. EE.UU.: Banco Mundial. Recuperado de:
http://documents.worldbank.org/curated/en/872971468031567258/pdf/multi-page.pdf
Piñeros, L. (2010). Factores asociados a la calidad de la educación. Educación y ciudad (19),
69-80. Recuperado de http://www.idep.edu.co/revistas/index.php/educacion-y-
ciudad/article/view/120/109
Ruíz, C. Y. (2012). Aplicación del análisis de componentes principales como técnica para
obtener índices sintéticos de calidad ambiental. UCV-SCIENTIA, 4(2), 145-153.
Sarmiento, A., Becerra, L. y González, J. (2000). La incidencia del plantel en el logro educativo
del alumno y su relación con el nivel socioeconómico. Coyuntura Social (22) ,52-63.
Recuperado de
http://www.repository.fedesarrollo.org.co/bitstream/handle/11445/1767/Co_So_Mayo_2
000_Sarmiento_Becerra_y_Gonzalez.pdf?sequence=2&isAllowed=y
Sarmiento et al (2015). Educación de calidad: para una ciudad y un país equitativos. Bogotá:
PNUD. Recuperado de
http://www.co.undp.org/content/colombia/es/home/library/poverty/educacion-de-
calidad--para-una-ciudad-y-un-pais-equitativos.html
Sarmiento, A. y Ramírez, C. (1998). Un índice de condiciones de vida: una propuesta para la
distribución. Bogotá.
Schwert, G. W. (1989), Tests for Unit Roots: A Monte Carlo Investigation, Journal of Business
and Economic Statistics 7, 147–160.
Torres, E; Jiménez, M; Luzardo, M (2015) Perfil y Determinantes de Pobreza: El Caso
Colombiano. En XXV Simposio Internacional de Estadística 2015, Armenia, Colombia.
Recuperado de:
http://simposioestadistica.unal.edu.co/fileadmin/content/eventos/simposioestadistica/doc
28
umentos/memorias/MEMORIAS_2015/Posters/44_Torres_Jimenez___Luzardo_Pobrez
a_Caso_Colombiano.pdf.
Anexos:
Variables empleadas para la construcción del INSE por el ICFES:
Tablas prueba ADF series sin diferenciar:
Para el puntaje promedio en matemáticas
Para el promedio del puntaje en lenguaje
29
Para el promedio del INSE
Tablas prueba ADF series primera diferencia
Para la primera diferencia del puntaje promedio en matemáticas
Para la primera diferencia del promedio del puntaje en lenguaje
Para la primera diferencia del promedio del INSE
Pruebas estacionariedad de los errores
Prueba para el error asociado a la serie promedio puntaje de matemáticas
30
Prueba para el error asociado a la serie promedio puntaje de lenguaje
Causalidad en el sentido de Granger
Para la causalidad entre el promedio del INSE y el promedio del puntaje en matemáticas
Sobre la causalidad entre el promedio del INSE y el promedio del puntaje en lenguaje