Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Estudio metodológico de la calidad métrica de los ítems del
Test BAVEL desde la perspectiva de la Teoría Clásica de los
Test (TCT) y la Teoría de Respuesta al Ítem (TRI)
Autor: Francisco Sebastián Cofré Sepúlveda
Universidad de Playa Ancha de Ciencias de la Educación
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Índice Antecedentes del estudio..................................................................................................... 6
1. Objetivo General ......................................................................................................... 7
1.1. Objetivos Específicos ............................................................................................. 7
2. Aproximación teórica ................................................................................................. 8
2.1. Importancia de la Teoría de los Test ............................................................. 10
2.2. Teoría Clásica de los Test (TCT) ..................................................................... 11
2.2.1. Supuestos ............................................................................................................ 12
2.2.2. Ventajas ............................................................................................................... 13
2.2.3. Limitaciones ........................................................................................................ 14
2.3. La Teoría de Respuesta al Ítem (TRI) .......................................................... 16
2.3.1. Ventajas de la TRI ............................................................................................ 18
2.3.2. Desventajas de la TRI ..................................................................................... 19
2.3.3. Modelos, parámetros y Curva Característica del Ítem ....................... 19
2.3.4. Parámetros .......................................................................................................... 20
2.3.5. Curva Característica del Ítem (CCI) .......................................................... 21
2.3.6. Modelos ................................................................................................................. 22
2.3.7. Modelo de Rasch o logístico de un parámetro ....................................... 22
2.3.8. Modelo de dos parámetros ............................................................................ 24
2.3.9. Modelo de tres parámetros ........................................................................... 25
2.3.10. Supuestos de la TRI ......................................................................................... 25
2.3.11. Ventajas y desventajas .................................................................................. 26
2.3.12. Software de análisis estadístico TRI .......................................................... 28
2.4. Ventajas de un modelo sobre otro ................................................................. 29
2.5. Síntesis comparada de ambas teorías .......................................................... 30
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
2.6. La Medición de Constructo y las propiedades métricas de las Teorías
30
2.6.1. Constructo ........................................................................................................... 31
2.7. Tipo de evaluación ................................................................................................ 32
2.8. Propiedades Psicométricas de un test .......................................................... 32
2.9. Confiabilidad ........................................................................................................... 33
2.10. Validez ....................................................................................................................... 37
2.11. Cálculos necesarios en la TCT .......................................................................... 39
2.12. Cálculo de Dificultad ............................................................................................ 40
2.13. Cálculo de Discriminación .................................................................................. 41
2.14. Cálculo de Confiabilidad ..................................................................................... 43
2.15. Cálculo de la Validez de un test ...................................................................... 45
2.16. ¿Cómo escoger ítems adecuados? ................................................................. 45
3. Metodología de Investigación .............................................................................. 47
3.1. Tipo de estudio y diseño .................................................................................... 47
3.2. Variables ................................................................................................................... 47
3.3. Definición conceptual .......................................................................................... 47
3.4. Definición operacional ......................................................................................... 48
3.5. Población .................................................................................................................. 49
3.6. Muestra ..................................................................................................................... 49
3.7. Instrumento Test BAVEL, Batería de Velocidad y Eficacia Lectora .... 50
RESULTADOS .............................................................................................................................. 52
4. Resultados a nivel Test ........................................................................................... 52
4.1. Confiabilidad ........................................................................................................... 52
4.2. Calidad Métrica del Test BAVEL desde la perspectiva de la Teoría
Clásica de los Test ................................................................................................................ 53
4.2.1. Dificultad de los ítems .................................................................................... 53
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
4.2.2. Discriminación de los ítems .......................................................................... 55
4.3. Calidad métrica del Test BAVEL desde la perspectiva de la Teoría de
Respuesta al Ítem ................................................................................................................ 57
4.3.1. Según modelo de dos parámetros ............................................................. 57
4.3.2. Interpretación de los parámetros a y b ................................................... 59
CONCLUSIONES ......................................................................................................................... 63
Bibliografía ......................................................................................................................................... 68
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
RESUMEN
La construcción y análisis de Test, se fundamenta en el importante uso
que se entrega a la información que de estos instrumentos se obtiene; por ello,
ponderar adecuadamente variables como Validez y Confiabilidad permiten tanto
a investigadores, docentes y profesionales de distintas áreas, tomar decisiones
más acertadas.
Según lo anterior, esta investigación corresponde a un estudio
metodológico que analizó comparativamente la Validez y Confiabilidad del Pre
Test BAVEL aplicado a alumnos de 4° básico de la Corporación Municipal de
Viña del Mar (CMVM) el año 2011, desde la perspectiva de la Teoría Clásica de
los Test (TCT) y la Teoría de Respuesta al Ítem (TRI).
La pregunta de investigación planteó como objetivo central responder:
¿qué teoría proporciona mejor calidad de información de un Test? Con esa
finalidad se estimó la calidad métrica del instrumento, calculando, desde la
perspectiva de la TCT, el Grado de Dificultad de los ítems; Discriminación de los
ítems; Confiabilidad del Test; Análisis factorial y el consecuente cálculo de
Validez. Para ello se utilizó el programa Excel 2010 y SPSS versión 18.
Para el caso de la TRI, a través del software Bilog MG 3 se estimaron los
cálculos de Grado de Dificultad por ítem, además de los parámetros Dificultad,
Discriminación, las curvas características de cada ítem se obtuvieron con
WinGen 3.
Analizados y comparados los resultados, no se aprecian notables
diferencias entre las teorías que permitan optar por una u otra, sino más bien
se establece un principio de convivencia y complementariedad.
Palabras clave: Teoría Clásica de los Test, Teoría de Respuesta al Ítem,
calidad Métrica, Dificultad, Discriminación.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Antecedentes del estudio
Un ámbito de la Evaluación está referido a la construcción de
instrumentos de evaluación, denominados genéricamente Test, que permiten
medir o evidenciar determinadas conductas o rasgos en los sujetos. La
Evaluación a través de la psicometría se ha encargado de teorizar, construir,
investigar y sistematizar el conocimiento relativo a la construcción y análisis de
test.
La investigación relativa a estas teorías ha desarrollado un avance
intelectual, el cual permite que profesores, científicos o psicólogos, puedan
tomar buenas decisiones a partir de los resultados que sus mediciones
entregan.
El problema de investigación se circunscribe a establecer un estudio
metodológico que aborde desde una perspectiva científica el comportamiento en
validez y fiabilidad de la Teoría Clásica de los Test y la Teoría de Respuesta al
Ítem. De esta forma se podrá contrastar los antecedentes teóricos que cada
una propone con los datos empíricos que proporcione la investigación.
La evaluación además se ve enfrentada a ciertos mitos, que desde la
práctica se han instalado como verdades incuestionables, como por ejemplo:
que la mejor prueba es aquélla que posee más ítems, pues de esa forma se
asegura cubrir todos los contenidos trabajados desde diferentes ámbitos. Este
supuesto, es un elemento que incide directamente en la falta de tiempo de los
profesores, pues se construyen instrumentos evaluativos bajo el supuesto que
la extensión implica calidad, sin embargo, en este caso lo único comprobado es
que genera un mayor gasto de tiempo, y ciertamente disminuye las
posibilidades tanto para profesores y estudiantes de conocer oportunamente el
resultado del proceso de enseñanza aprendizaje.
En tal sentido, resulta útil, práctico y hasta necesario plantear un trabajo
metodológico que evalúe el comportamiento de un test o instrumento desde su
calidad métrica. La utilidad teórica o académica de este estudio se relaciona con
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
evaluar el aporte que La Teoría Clásica de los Test y La Teoría de Respuesta al
Ítem ofrecen respecto a la información de un instrumento de evaluación, pues
el desarrollo investigativo no ha desechado a una o validado completamente a
la otra.
Según lo anterior, la Teoría Clásica de los Test y la Teoría de Respuesta
al Ítem entregan información relevante respecto a los instrumentos de
evaluación y sus respectivos ítems. Pero ¿Existe complementariedad entre la
Teoría Clásica de los test (TCT) y la Teoría de Respuesta al Ítem (TRI) al
momento de determinar la Calidad Métrica del test y de sus ítems?
1. Objetivo General
Determinar la calidad métrica del Test BAVEL desde las perspectivas
analíticas de la Teoría Clásica de los Test (TCT) y la Teoría de Respuesta al Ítem
(TRI), para explorar la calidad del Test y de sus ítems.
1.1. Objetivos Específicos
1. Establecer la calidad métrica del Test BAVEL según el análisis
psicométrico de la Teoría Clásica de los Test y la Teoría de Respuesta al
Ítem.
2. Establecer la calidad métrica de los ítems del Test BAVEL identificando los
parámetros de Dificultad, Discriminación y Curvas Características del
Ítem desde la perspectiva de la TRI.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
2. Aproximación teórica
Si se parte del supuesto de que todo objeto es medible o mensurable, se
debe establecer además que cada objeto medido o evaluado necesitará de un
instrumento apropiado para tales fines. Según ello la medición de estatura será
establecida a través de un instrumento que registre centímetros y metros.
Ahora bien, la medición de otros atributos o constructos sociales, psicosociales,
psicológicos, no será precisada a través de instrumentos convencionales, sino
por el contrario, a través de test bien diseñados (Abad, Garrido, Olea, y
Ponsoda, 2006). Pero, es necesaria la delimitación conceptual de aquel objeto
medible, para determinar qué entendemos por aquello que deseamos observar
y en definitiva, evaluar.
Es imprescindible establecer cuál es el instrumento de evaluación o
medición adecuado para cada constructo o atributo. Según lo anterior, el
evaluador educacional, cual especialista métrico, es hábil en definir qué es lo
medible y a través determinado de un instrumento. El desarrollo de la
psicometría ha permitido un avance notable en la elaboración de test, pues
desde inicios del siglo XX los esfuerzos intelectuales han visto cómo cada
disciplina, junto con establecer su objeto de estudio, ha procurado proporcionar
instrumentos de medición cada vez más precisos.
La construcción de test y su estudio a través de la psicometría, ha tenido
un notable desarrollo teórico y práctico, por tanto nos enfrentamos al estudio
de instrumentos provenientes desde esta disciplina para determinar, por
ejemplo, hasta qué punto un grupo de alumnos poseen actitudes que les
permitan lograr una producción diferente a lo que ya existía, esto es, el uso de
la originalidad o pensamiento divergente. Los test, permiten la recolección de
información sobre la conducta o atributos de un determinado constructo. El
punto está en definir cómo será o cuáles serán las características de aquel test
o conjunto de ítems, para poder recoger los atributos que se intentan
evidenciar.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Si un test es el resultado de la planificación de evaluación expresada en
una tabla de especificaciones, la cual determina, a su vez, la naturaleza de cada
ítem que lo compone, es absolutamente necesario dirigir la atención al ítem. En
tal sentido, (Muñiz, Fidalgo, García-Cueto, Martínez, y Moreno, 2005) definen
ítem como cada uno de los elementos utilizados en esos instrumentos (test)
para obtener la respuesta de los sujetos que se desea estudiar.
Desde esta perspectiva, los test son herramientas que intentan explicar
de una forma simple situaciones de suyo complejas, la ciencia desde siempre ha
intentado descifrar o explicar a través de modelos qué es la realidad,
propendiendo a una explicación que en el mejor de los casos permite
adelantarse o predecir ciertos fenómenos. Para el caso de la Ciencias Sociales,
se ha tomado este desafío en distintos ámbitos, uno de ellos es la Psicometría.
Esta disciplina pretende establecer científicamente aquello que saben los
individuos a partir de la aplicación de test y su consecuente evaluación
estadística. Por tanto, el evaluador se encuentra frente a modelos que poseen
la pretensión de acercarse fielmente a la realidad.
Ante ello es pertinente aclarar un par de ideas.
En primer lugar, ¿qué es un modelo en estricto rigor? Se puede
caracterizar un modelo como “la representación de una sistema real” (Fishman,
1973, citado en Muñiz, et. al, 2005). A partir de esto se establece que cada
modelo es pretencioso en explicar o predecir las respuestas de las personas
ante un determinado test.
En segundo lugar, cada modelo hará una explicación a su modo, o sobre
la base de sus supuestos, del comportamiento de las personas en un
determinado test. Lo anterior parece una obviedad, sin embargo, es necesario
de explicitar. Se establece que tanto la TCT y la TRI, son modelos matemáticos
que pretenden, una explicar y la otra predecir las respuestas de los sujetos.
Pero, ¿en qué se diferencian? La Teoría Clásica de los Test, explica la
puntuación observada de un test como la suma de la puntuación verdadera más
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
el error de medida (Muñiz et al, 2005). Es importante señalar que en ambas
teorías responden a misma pregunta, a saber: ¿Cuál es el verdadero nivel de
habilidad de un examinado ante la aplicación de un test que mide un constructo
o rasgo? La Teoría de Respuesta al Ítem, haciendo eco de esta pregunta,
establece que su unidad básica de análisis es el ítem, no el Test completo como
en el caso de la TCT, e incorpora además elementos que permiten evaluar el
comportamiento de cada ítem, no sólo por el nivel de habilidad al responder,
sino también por las características psicométricas inherentes a cada uno.
Lo planteado anteriormente diferencia los modelos, pero no es tarea aún
determinar las ventajas y desventajas de cada modelo, pues ello será
desarrollado más adelante. Sin embargo, se establece como elemento crucial de
los siguientes apartados, y por consecuencia de los futuros análisis, que las
gravitantes diferencias entre cada planteamiento descansan en los supuestos
que subyacen a cada modelo.
2.1. Importancia de la Teoría de los Test
El desarrollo de estas teorías que permiten evaluar hasta qué punto un
test mide aquello que declara medir, quizás no justifican por sí solas su
existencia, pues en el ámbito de la evaluación, según sus diferentes utilidades,
suele interesar la calificación por si misma o el puntaje obtenido en un test,
pero pocas veces surge el cuestionamiento sobre qué es lo que realmente
representa aquel puntaje y cuáles son sus implicancias. La respuesta a estas
interrogantes estriba en que en el ámbito de la psicología, así como en la
mayoría de las Ciencias Sociales, los puntajes asignados a un test permiten la
toma de decisiones que afectan o desafectan la vida de las personas evaluadas,
por ello es necesario asegurar en la mayor medida posible que la inferencia
realizada por el especialista sea un correlato de la realidad medida o evaluada.
En otras palabras, las teorías estadísticas de los test van a permitir la
estimación de las propiedades psicométricas de los test para de ese modo
garantizar que las decisiones tomadas a partir de ellos son las adecuadas
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
(Muñiz, 2010). En tal sentido, estas teorías permiten conocer científicamente la
validez y confiabilidad del instrumento aplicado, esto es, sus propiedades
métricas; de esta forma el profesional trabaja sobre la comprobación y
determina la utilidad de un test en su conjunto o de cada ítem por separado.
En la construcción del test, es necesario señalar que en la actualidad
coexisten dos teorías de los test, la Teoría Clásica de los Test y la Teoría de
Respuesta al Ítem. La hipótesis fundamental de la Teoría Clásica de los Test
(TCT) es que la puntuación observada de una persona en un test es una función
de dos componentes: su puntaje verdadero (que es inobservable) y el error de
medición implícito en toda medición. Por su parte, la Teoría de Respuesta al
Ítem (TRI) presenta un supuesto diferente basado en el funcionamiento de los
ítems dentro de las pruebas, asumiendo que el coeficiente de confiabilidad es el
mismo para todas las personas a las que se aplica la prueba (Tornimbeni,
Pérez, y Olaz, 2008).
2.2. Teoría Clásica de los Test (TCT)
Estableciendo un punto de inicio histórico, es posible afirmar que esta
Teoría tiene sus inicios en los postulados de Charles Spearman, quien realizó
una serie de investigaciones que desembocan en el desarrollo del análisis
factorial. El autor, apoyándose en las evidencias de sus investigaciones plantea
su famosa teoría de los dos factores. Según esta teoría, “las puntuaciones de
los test pueden explicarse a través de dos factores: uno general, conocido como
el factor g, que es común a todas las variables medidas y uno específico, s, que
sería exclusivo a cada uno de esas variables” (Tornimbeni, Edgardo, y Olaz,
2008, p.31). Este planteamiento tuvo un notable desarrollo en el campo de los
test psicológicos, desde este punto de vista los aportes del autor son fundantes,
tanto es así que, además logra desarrollar la teoría de la confiabilidad, así como
también junto a Thorndike, el modelo estadístico de puntuaciones, el cual dará
paso posteriormente a la TCT.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Como afirma (Muñiz, 2001, citado en Tornimbeni, Edgardo, y Olaz,
2008), el modelo lineal de medición sobre el que se asienta la TCT, es sencillo,
robusto y parsimonioso, y satisface la mayor parte de las necesidades de los
profesionales de la medición psicológica, tanto en lo relativo a la confiabilidad
de las mediciones (estimación de error) como a la validez (inferencias hechas a
partir de los test).
Es necesario, por tanto, determinar cuáles son los fundamentos o
supuestos sobre los que esta teoría establece sus planteamientos.
2.2.1. Supuestos
La TCT parte de tres supuestos relacionados con el puntaje obtenido del
sujeto, a saber:
a) El primer supuesto se relaciona con dos conceptos: el puntaje
verdadero y el error de medición. Según ello, el puntaje obtenido será la
combinación de estos principios, es decir, una estimación del valor verdadero
del rasgo que se mide. Lo anterior significa una definición conceptual de la
puntuación verdadera de un sujeto en un test, estableciendo que su puntaje se
relacionaría como la media si se le aplicara infinitas veces el test (Muñiz, 2010).
Ciertamente, ésta es una definición teórica, pues no se aplicará un test infinitas
veces, sin embargo, si así fuera, aquella puntuación media sería en definitiva su
verdadera puntuación.
b) El segundo supuesto planteado por Spearman, señala que no
existe relación entre el valor de las puntuaciones verdaderas de las personas y
el tamaño de los errores que afectan a dichas puntuaciones. En otras palabras,
“que el valor de la puntuación verdadera de una persona no tiene nada que ver
con el error que afecta esa puntuación” (Muñiz, 2010, p. 61).
c) Un tercer supuesto establecido por el autor señala que los errores
de medida de las personas en un test no se relacionan con los posibles errores
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
cometidos en otro test. Esto es: “no hay ninguna razón para pensar que los
errores cometidos en una ocasión vayan a covariar sistemáticamente con los
cometidos en otra ocasión” (Muñiz, 2010, p. 61).
Cada supuesto establecido desde la teoría, requiere necesariamente su
contraste con la realidad, principio en el cual se fundamenta esta investigación.
En este punto es necesario establecer las siguientes conclusiones
respecto a esta teoría, (Murat, 1985, citado en Tornimbeni, Pérez, y Olaz,
2008).
1. La puntuación verdadera de un individuo es una puntuación
“límite”, un punto de un intervalo de la distribución de puntuaciones
observadas.
2. Cuanto más alta sea la confiabilidad de un test, menor será ese
intervalo, y la puntuación observada se ubicará más próxima a la
puntuación verdadera.
3. Como la desviación estándar no puede modificarse, deben
disminuirse los errores de medida.
2.2.2. Ventajas
• Es más fácil de utilizar: su análisis no requiere, necesariamente, el
uso de software especializado.
• Puede ser explicado con mayor sencillez a un público no
especializado, sus principios sustentantes permiten que cualquier lector
incipiente en la materia pueda comprender a qué se refiere un porcentaje
de sujetos que responden acertadamente un ítem.
• Requiere de una muestra relativamente pequeña y sus resultados
de estimación no se ven afectados. Cien sujetos suele ser un número
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
recomendado, no obstante lo anterior la literatura incluso señala cifras
menores.
• Sus principios son menos rígidos, lo que la sitúa como una
metodología flexible, que se adapta mejor ahí donde la TRI ofrece mayor
resistencia.
2.2.3. Limitaciones
Según lo expuesto hasta este punto, es posible advertir que esta teoría
presenta algunas limitaciones, entre las que se puede contar que no permite
entregar una diferencia entre las características del examinado de las propias
del Test. Por tanto, la dificultad del ítem será estimada a través de la cantidad
de examinados que respondan correctamente, por lo mismo la posibilidad de
establecer las mediciones métricas de validez y confiabilidad se tornan inciertas
o al menos dificultosas, pues ellas serán precisadas solamente en torno a la
escala de puntuación realizada para ese test en específico. Por lo tanto se
dificulta la comparación con examinados que puedan haber rendido otros test.
Además, si la finalidad de un test es determinar las habilidades de cada sujeto
medido, en el caso de la Teoría Clásica, no entrega información precisa de las
habilidades individuales, pues solo asume un valor medio de las varianzas.
La teoría clásica de los Test, plantea tres situaciones limitantes, lo
anterior se expresa de la siguiente forma:
En primer lugar, la literatura señala que “las puntuaciones no son
invariantes respecto del instrumento utilizado” (Muñiz, 2001, en Tornimbeni,
Edgardo, y Olaz, 2008, p. 213). En otras palabras, se afirma que las mediciones
pueden variar respecto al instrumento utilizado. Esto se refiere a que si son
utilizados tres instrumentos diferentes para medir un determinado constructo a
tres diferentes sujetos, los resultados no podrán ser comparables. A modo de
ejemplo: si un psicólogo evalúa la inteligencia a diferentes personas con
instrumentos distintos, no podrá determinar con certeza cuál de ellos es más
inteligente. Ello es así en tanto que cada test tiene su propia puntuación. En
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
otras palabras, cada test posee su propia escala. Para efectuar las necesarias
comparaciones hechas por los psicólogos será pertinente transformar las
puntuaciones a escalas similares, es decir, estandarizar los resultados.
Lamentablemente, si bien este proceder no es erróneo, igualmente descansa en
un supuesto frágil, pues no siempre se garantiza que las escalas de diferentes
test sean homologables en la práctica, pues se asume que “los grupos
normativos en los que se elaboraron los baremos de los distintos test son
equiparables, lo cual es difícil de garantizar en la práctica. Si eso falla la
comparación se viene abajo” (Muñiz, 2010). Afortunadamente, la Teoría de
Respuesta al Ítem, como será revisado más adelante, propone una solución
científica a esta dificultad.
En segundo lugar, existe una limitación referida a las propiedades
métricas asociadas, pues se da la ausencia de invarianza de las propiedades de
los test respecto de las personas utilizadas para estimarlas, esto es: “las
propiedades psicométricas importantes de los test, tales como la dificultad de
los ítems, o la fiabilidad del test, estaban en función del tipo de personas
utilizadas para calcularlas, lo cual resulta inadmisible desde el punto de vista de
una medición rigurosa” (Muñiz, 2010, p. 62).
Por ejemplo, se señala que existe una “dependencia circular” entre los
sujetos que rinden el test y sus resultados. Esto es, si quienes respondieron la
prueba son hábiles, los ítems de dicho instrumento serán considerados fáciles;
por el contrario, si los sujetos no son hábiles, se podría concluir que los mismos
ítems son difíciles. En síntesis, la dificultad del ítem depende de la distribución
de la habilidad de los sujetos con que se calcule (Chávez Álvarez y Antonio,
2008).
La habilidad de los sujetos que responden una prueba, inferida a partir
del puntaje observado, dependerá de la dificultad de los ítems que componen
dicho instrumento. Según lo anterior, un mismo sujeto tendrá diferentes
puntuaciones en tres versiones distintas de una prueba si éstas difieren en la
distribución de dificultad de los ítems que la componen.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
En tercer lugar, en la Teoría Clásica el coeficiente de confiabilidad es
integral (para todo el test). Sin embargo, las investigaciones demuestran que la
calidad de precisión de un test para medir un determinado constructo depende
también del propio desempeño del individuo evaluado. En síntesis, “los test no
miden con la misma precisión a todos los individuos” (Tornimbeni, Edgardo, y
Olaz, 2008, p. 213).
De forma complementaria, es posible agregar que la TCT supone que el
error estándar de medida es igual a lo largo de toda la escala de habilidad. Sin
embargo, esto no es necesariamente correcto, pues una prueba puede ser más
precisa en algunos rangos de puntuación que en otros. Esto, en definitiva,
depende de la distribución de la dificultad de los reactivos de la prueba (Chávez
Álvarez y Antonio, 2008).
Todo lo anteriormente expuesto posibilita una crítica a la teoría y
cuestionar sus alcances técnicos. Sin embargo, y tal como se mencionó, ello es
una oportunidad para evaluar complementariedad entre teorías, pues no se
trata de invalidar un planteamiento a partir de loa postulados de otro, sino más
bien establecer desde la experiencia hasta qué punto ellos pueden ser
dialogantes y responder a inquietudes desde su sinergia. En tal sentido, los
avances planteados por la Teoría de Respuesta al Ítem se constituyen como una
potente herramienta que, mediada por un correcto y dirigido uso, posee el
potencial para responder aquello que la clásica teoría no alcanza a hacer.
2.3. La Teoría de Respuesta al Ítem (TRI)
Tal como ha sido anunciado, la Teoría de Respuesta la Ítem ha permitido
responder aquellas interrogantes planteadas por la Teoría Clásica, no obstante
ello el costo agregado asumido ha sido el desarrollo de un modelo
analíticamente más complejo y en tal sentido, para ciertos autores, ha sido
justamente ello lo que se ha transformado en un obstáculo para el desarrollo
masivo de sus planteamientos.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Entender las bases conceptuales de este modelo implica, en parte,
conocer su historia, para desde ahí sentar sus postulados evidenciados desde el
contexto en que fueron desarrollados. Retrospectivamente puede ser situado a
Thurstone como el primero en presentar los atisbos de esta teoría, pues ya en
el año 1925 en los denominados Test de Binet, al plantear diferentes curvas
que grafican la edad de los sujetos y su capacidad de entregar respuestas
acertadas (Muñiz y Hambleton, 1992). Al situar con más precisión las bases
conceptuales de la teoría, es necesario remontarse a los trabajos de Lord, pues
allí es posible encontrar los principios genuinos de la teoría que más tarde serán
desarrollados. “La nueva teoría formulada marcará un nuevo rumbo en las
investigaciones psicométricas, si bien, como el propio Lord indica, las
conclusiones obtenidas no contradicen en general los grandes logros de la
Teoría Clásica” (Muñiz y Hambleton, 1992, p. 46).
Es en 1960 cuando el danés George Rash desarrolla estos principios y da
un paso más adelante al exponer el modelo lógico de un parámetro. Hasta
ahora, es necesario mencionar, los desarrollos son a nivel teórico y matemático,
pues no es posible plantear aún el uso de estos planteamientos a nivel de
usuario.
No es hasta en 1971 en que los autores Bock, R.D. y Wood, R en una
recopilación denominada Test theory Annual Review of Psychology, incluyen,
resumen y explican los avances teóricos desarrollados a la fecha en este
ámbito, especial atención requiere un apartado a la por ese entonces
denominada Teoría de Rasgo Latente. A partir de esta época las aportaciones
teóricas y empíricas se multiplicarán, generando un corpus intelectual cada vez
más consistente y fecundo que se presentará con principios propios, a saber,
los siguientes (DEMRE, 2005):
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
a) Intenta establecer para cada ítem la probabilidad de ser contestado
correctamente.
b) Ahora bien, dicha probabilidad a su vez depende de: la habilidad propia del
examinado y las características propias de las preguntas como dificultad,
discriminación y la probabilidad del azar en la respuesta del sujeto.
c) Entrega información sobre el nivel de precisión que aporta el ítem sobre su
capacidad de medir un constructo determinado, esto es, información del
ítem.
En resumen, mientras mayor es la información que proporciona una
pregunta en un determinado nivel de habilidad, mejor es el grado de precisión
con que se estima ese nivel de habilidad. Esto permite construir pruebas más
ajustadas al propósito que se persigue.
2.3.1. Ventajas de la TRI
Complementariamente a lo anterior, (Chávez Álvarez y Antonio, 2008)
establecen las siguientes ventajas de la TRI:
En primer lugar, invarianza de grupo: la estimación de los parámetros del
ítem, por ejemplo dificultad y discriminación, son independientes del grupo
particular de sujetos utilizados para su cálculo.
En segundo lugar, invarianza del ítem: la estimación de la habilidad de
los sujetos que rinden un determinado test, es independiente del conjunto de
ítems que se utilicen para su cálculo. Esto resuelve el problema de la
“dependencia circular” descrito para el caso de la TCT, pues en este caso ni la
estimación de los parámetros de los ítems (Dificultad y Discriminación)
dependen de la habilidad de los sujetos, ni dicha habilidad depende de los ítems
que se utilicen.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
En tercer lugar, la TRI posibilita la estimación del error asociado a cada
nivel de habilidad, en lugar de estimar un error estándar para todo el rango, lo
cual ocurre en la TRI.
2.3.2. Desventajas de la TRI
En primer lugar es relativamente más compleja que la TCT, lo cual hace
más difícil de explicar a las audiencias. Requiere de software especial para su
análisis y calificación.
En segundo lugar, requiere de un número mayor de sujetos que rinden el
test para su calibración. Si bien en el modelo de Rasch las muestras necesarias
son similares a la TCT, cuando se aplican modelos de dos parámetros la
literatura especializada recomienda muestras sobre los 500 sujetos para
obtener estimaciones aceptables.
En tercer lugar, su funcionamiento adecuado depende del cumplimiento
de sus supuestos. No es una técnica adecuada para todos los casos y
exámenes, a pesar de ser adaptable a muchos casos.
2.3.3. Modelos, parámetros y Curva Característica del Ítem
Tal como se estableció en las definiciones conceptuales, un modelo es
una representación matemática de la realidad. Ahora bien, en el caso de la TRI
se pueden identificar distintos modelos, los cuales han de ser conocidos y
descritos a fin de poder cumplir fielmente los supuestos y principios de la
Teoría.
En ese sentido, ha de entenderse la CCI como la representación
matemática de distintos modelos en relación a la probabilidad que existe de
responder correctamente al ítem. Corolario de lo anterior es, por tanto, la
existencia de distintos modelos según las distintas curvas.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
2.3.4. Parámetros
Con la intención de conocer en detalle el comportamiento de los
diferentes modelos y por consiguiente la Curva Característica del Ítem (CCI),
resulta necesario describir y caracterizar los distintos parámetros que se
asocian a estos conceptos. Según lo anterior, se puede distinguir lo siguiente:
a) El parámetro θ.
En el caso de la TCT la puntuación verdadera se refería a una estimación
a partir de las respuestas a un test, para el caso de la TRI, el parámetro θ,
siendo para este caso la denotación del constructo que mide un test y al no ser
éste algo directamente observable se le denomina rasgo latente; pudiendo ser
un constructo de personalidad, una aptitud o conocimientos en ciencias (Muñiz,
2005).
b) El parámetro b
Este parámetro representa la dificultad en la TRI, el cual es analogable al
índice de dificultad en la TCT. Se encuentra medido en la misma escala que el
parámetro θ. Su interpretación se entiende de la siguiente forma cuanto mayor
sea el valor de b, más difícil será el ítem, ya que mayor será el nivel de
habilidad necesario para tener una probabilidad de acertarlo de 0.5 (Muñiz,
2005).
c) El parámetro α
Este parámetro representa la discriminación del ítem y por tanto es el
símil en la TRI al índice de discriminación en la TCT. Como podrá entenderse, el
parámetro entrega una medición que permite escalar, esto es, diferenciar entre
los examinados con un nivel alto y bajo en la habilidad. Su interpretación se
entiende de la forma que sigue: “cuanto mayor sea el valor de α, mayor será el
poder discriminativo del ítem” (Muñiz, 2005).
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
d) Parámetro c
Este parámetro se refiere a las posibilidades que tienen de acertar un
ítem las personas con un nivel de habilidad baja en el rasgo o constructo
medido. Su equivalente en la TCT es justamente la probabilidad de acertar el
ítem al azar. En este caso se supone que el sujeto evaluado responde casi al
azar, por tanto se denomina técnicamente parámetro de pseudo-azar (Muñiz,
2005).
2.3.5. Curva Característica del Ítem (CCI)
La denominada Curva Característica del Ítem es una forma de
modelación matemática que permite graficar el comportamiento de la Teoría.
Para los modelos de la TRI esta curva ayuda a estimar de forma independiente
el nivel que posee la habilidad de una persona evaluada (parámetro θ) y las
propiedades psicométricas de los ítems (parámetros a, b y c) figura 1.
Figura 1. Curva Característica del Ítem
Nota: (Chávez Álvarez y Antonio, 2008, p.61)
El gráfico anterior permite mostrar el comportamiento de la “Curva
Característica del Ítem”, pues tal como se observa en ella confluyen tres
aspectos relevantes a esta teoría, a saber: los parámetros a, b y c. En donde
“a” es el índice de discriminación del ítem, “b” la dificultad del ítem y “c” la
probabilidad de acertar el ítem por azar. En tal sentido y a diferencia del
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
modelo clásico aparece un nuevo parámetro relacionado con el azar, el cual es
determinante para estimar la calidad de un determinado test al momento de
medir un constructo. Ciertamente, dependiendo del valor que asuma cada
parámetro se establecerán a su vez diferentes curvas. Ahora bien, dichos
valores estarán determinados por los cálculos obtenidos al aplicar un test, los
cuales serán el producto de un análisis estadístico que está mediado por la
existencia de software idóneos, los que han sido de gran utilidad en el
desarrollo de la Teoría de Respuesta al Ítem.
2.3.6. Modelos
La TRI en tanto propuesta teórica, presenta distintos modelos, los cuales
dependerán del comportamiento de sus parámetros. En tal sentido y a fin de
una conceptualización conducente a determinar cuál es más oportuno utilizar,
se describirán sus componentes y alcances. Es necesario clasificar, a su vez, los
modelos según sean éstos dicotómicos (son aquéllos donde la respuesta
esperada a un ítem consta de dos posibilidades) o politómicos (son aquéllos en
que se puede responder a cada afirmación en tres o más alternativas de
respuesta). En definitiva se concluye que bajo el nombre genérico de la TRI se
presentan diferentes modelos que, aunque se diferencian en algunos rasgos,
tienen en común una serie de aspectos básicos, especialmente el de ser
modelos estructurales que establecen una relación matemática formalizada
entre la respuesta a un ítem concreto y el nivel de habilidad de una persona
(LLECE, 2010).
2.3.7. Modelo de Rasch o logístico de un parámetro
Este modelo está compuesto por ítems dicotómicos, y se sustenta en “la
probabilidad de acertar una pregunta (o, en el caso de ítems actitudinales, dar
la respuesta que implica presencia del constructo medido) depende solamente
del poder discriminador de los ítems (que es constante para todos ellos) y de la
dificultad o localización de cada afirmación en el continuo actitudinal” (Asún y
Zúñiga, 2008). A su vez, por poder discriminador se debe entender como la
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
capacidad que posee un ítem de discriminar respecto a la habilidad que poseen
diferentes sujetos que se enfrentan a la medición de un constructo. En otras
palabras, la capacidad de separar individuos sobre la base de sus habilidades o
niveles respecto al constructo medido. Este modelo parte del supuesto de que
todos los ítems poseen el mismo poder discriminador, lo cual si bien parece
falso, permite que los análisis sean simplificados. Por su parte, la dificultad es el
nivel de actitud o habilidad que debe tener el sujeto para responder el ítem, o la
probabilidad que posee de dar una respuesta que represente la presencia de la
actitud medida. Se puede establecer, por tanto que “el modelo considera que la
respuesta a un ítem sólo depende de la interacción entre la habilidad del sujeto
y la dificultad del ítem” (LLECE, 2010).
A continuación se presenta la fórmula de cálculo para este modelo y sus
características asociadas. (Chávez Álvarez y Antonio, 2008, p. 63)
Según lo anterior, el parámetro bi se define como la dificultad del ítem i,
indicando la posición de la CCI en la escala de habilidad y se define como el
punto en la escala donde la probabilidad de respuesta correcta es igual a 0.5.
La dificultad de un ítem define un punto en la escala de habilidad donde
la posibilidad de acertar es 0,5 y a su vez la posibilidad de errar es también de
0.5. Este umbral permite dividir la escala en dos partes, los sujetos con nivel de
habilidad menor a la dificultad del ítem tienen una probabilidad de éxito menor
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
a 0,5 y, por lo tanto, menor a la probabilidad de fracaso. Lo mismo opera a la
inversa, esto es, los sujetos con un nivel de habilidad mayor a la dificultad del
ítem, tendrán menos probabilidades de responder el ítem de forma incorrecta.
Como ya ha sido mencionado, el modelo de Rasch asume que la
discriminación es la misma para todos los ítems, y que solamente la dificultad
influye en los resultados de los sujetos que rinden un test.
2.3.8. Modelo de dos parámetros
Este surge como un complemento del anterior, y se estructura sobre la
base de generar un modelo que sea menos restrictivo en sus supuestos que el
de Rasch. En este caso el aporte viene dado por el teórico Lord, quien estima
un modelo que se diferencia del anterior en tanto permite ítems con mayor
poder discriminador. En 1952, Frederic Lord propuso un modelo de Respuesta al
Ítem en el que las ICCs -(Curvas características del Ítem)- tomaban la forma de
una ojiva normal de dos parámetros. En este modelo se tienen en cuenta los
parámetros de dificultad (b) y discriminación (a) (LLECE, 2010).
Este modelo suma a la dificultad, estudiada en el modelo anterior, la
discriminación. (Chávez Álvarez y Antonio, 2008, p. 66)
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Para este caso, el parámetro ai refiere a la discriminación del ítem,
diferenciando los sujetos que responden bien de aquellos que no lo hacen.
Su modelación en la CCI indica que cuanto mayor sea el valor de
discriminación ai, mayor será la inclinación de la curva, mientras que si el valor
es menor, la curva será más plana.
2.3.9. Modelo de tres parámetros
Como su nombre lo indica, este modelo incluye la presencia de tres
parámetros, por tanto, toma los avances de los anteriores modelos y suma otro
parámetro, por tanto ahora se expresa directamente con los valores a, b y c.
Este modelo fue desarrollado por Allan Birnbaum.
Una de las características de los ítems de selección múltiple es la
posibilidad implícita de que sean contestados por azar. De esta situación se
hace cargo el modelo de tres parámetros, pues a la dificultad y discriminación,
agrega este factor azaroso. (Chávez Álvarez y Antonio, 2008, p. 70)
2.3.10. Supuestos de la TRI
Cada una de las limitaciones derivadas desde el enfoque clásico, serán
desafiadas desde los planteamientos de la Teoría de Respuesta al Ítem. Ésta
parte de una evaluación de cada ítem, no del test en su conjunto, por tanto
cada ítem es analizado según la posibilidad que tiene de estimar la habilidad
que tiene el sujeto para responderlo y, por tanto, la calidad métrica del test en
relación al constructo que se está midiendo.
El supuesto central de la TRI, se resume en que existe una relación
funcional entre los valores de la variable que miden los ítems y la probabilidad
de acertar estos, denominando a dicha función Curva Característica del Ítem
(Muñiz, 2010, p.64). Esto será desarrollado en el apartado siguiente.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
En segundo lugar se asume como supuesto en la mayoría de los modelos
de TRI que los ítems constituyen una sola dimensión, es decir, son
unidimensionales, lo cual es de vital importancia a la hora de realizar los
análisis.
Finalmente, se asume el principio de independencia local, esto es, que los
ítems han de ser independientes unos de otros. El desarrollo de estos
supuestos, será revisado a continuación (DEMRE, 2005):
• Unidimensionalidad: la puntuación de una persona en el Test
depende exclusivamente de una dimensión o factor: su nivel en la habilidad
medida.
Independencia local: Indica que los modelos asumen que las Respuestas
de las personas a un ítem son independientes de las respuestas a los
otros ítems.
Experiencias educacionales similares en los alumnos que Rinden las
pruebas.
Que la prueba no haya sido apurada, es decir, que se asigne el Tiempo
necesario para que todos alcancen a abordar todos los ítems.
Que no haya efectos de contexto no controlados.
En síntesis, es de suma importancia que en la TRI, el modelo sea capaz
de predecir con exactitud el posible comportamiento de los sujetos ante cada
pregunta.
2.3.11. Ventajas y desventajas
La identificación de las ventajas y desventajas de un modelo, es por un
lado la posibilidad de conocer sus alcances, pero también permite de
abrir nuevos campos investigativos.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Ventajas asociadas a la Teoría de Respuesta al Ítem (DEMRE, 2005):
Se establece como principal ventajas sobre la TCT, la invarianza de
los puntajes del test y de las características de las preguntas.
La posibilidad de construir curvas de información para cada ítem, lo
cual permite optimizar la selección de preguntas para evaluar un
determinado constructo.
A través de un análisis diferencial, proporciona métodos alternativos
para la detección de sesgos en las preguntas.
Proporciona métodos alternativos para realizar procesos de equanting,
el cual permite comparar dos test.
No obstante las ventajas antes mencionadas, éstas se relativizan
cuando no se cumplen los supuestos. Además de ello, para
determinados constructos o disciplinas, esta teoría no alcanza a medir
lo necesario.
En relación a las desventajas propuestas, es conveniente desarrollar este
ámbito señalando algunos ejemplos en los cuales no se cumplen los supuestos
de la teoría, a saber:
Se ha comprobado que hay teorías que son claramente
multidimensionales; ejemplo de ello son:
-Pruebas de Ciencias, (Hamilton et al 1997 y Nussbaum et al 1997,
(DEMRE, 2005)).
-Pruebas en el área de Ciencias Sociales.
La medición de la comprensión lectora a partir de un texto viola el
supuesto de independencia local (Kolen y Brennan 1995, (DEMRE,
2005)).
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
La medición en gran escala implica que los alumnos medidos han sido
sometidos a diferentes experiencias educativas, lo que transgrede el
supuesto de experiencias educacionales similares, lo que a su vez,
atenta contra el supuesto de invarianza de las preguntas.
2.3.12. Software de análisis estadístico TRI
Las propiedades y supuestos intrínsecos de la TRI, requieren el uso de
software específicos, los cuales permiten la obtención de datos e información
relevante. La elección de un programa respecto de otro se relaciona
principalmente con variables como el tipo de estudio realizado, es decir, cuáles
son las preguntas de investigación y por ende cuáles son los cálculos
requeridos; además de lo anterior también son relevantes las características
propias del instrumento de evaluación, a saber, tipo de ítems dicotómicos o
politómicos.
Según lo anterior, se encuentra disponible software como Bilog-MG de
Zimowski para el caso de ítems dicotómicos (Barbero Garcia, 1999). Respecto a
este programa se establecen una serie de bondades relacionadas con los
distintos requerimientos de los usuarios. Se comporta relativamente bien para
el análisis de modelos de dos y tres parámetros. Respecto a un análisis del
funcionamiento del software (López Pina J. A., 1996) señala que, del estudio
realizado en una muestra pequeña y bajo el análisis de dos parámetros, BILOG
permite obtener estimaciones exactas de los parámetros de los ítems y de la
habilidad aun cuando el tamaño muestral sea bajo y la longitud del test sea
breve. No obstante lo anterior, y como podría suponerse, las estimaciones de
los parámetros de discriminación y dificultad serán sustancialmente mejores en
tanto aumente la muestra y tamaño del test.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
2.4. Ventajas de un modelo sobre otro
Hasta ahora el discurso teórico se ha centrado en la descripción por
separado de cada modelo, estableciendo sus principios, supuestos, alcances,
bondades, así como también las ventajas y desventajas de cada uno. No
obstante ello, se requiere dar un paso más adelante y establecer si es necesaria
la comparación, desde la teoría, de ambos modelos. En otras palabras, justificar
la razón por la cual se habla de modelos y no de un modelo ¿Qué es lo que
posee cada uno?, ¿Es posible una complementariedad? O simplemente ya es
hora de definir cuál posee ventajas sobre otro. Esto último es de vital
importancia, pues en la medida en que la teoría establece principios a favor de
un modelo sobre otro, aquello permite volcarse a la realidad y comprobar vía
experiencia la consistencia de dichos planteamientos.
En relación a lo anterior, es posible señalar las siguientes ventajas que
ofrece la TRI frente a la TCT (Muñiz, et al. 2005).
a) La TRI garantiza que si se cumplen los supuestos del modelo, es
decir, el modelo seleccionado es apropiado y se calibra correctamente, entonces
se obtendrá el mismo valor de los parámetros de los ítems con independencia
de la muestra para su calibración.
b) La TRI garantiza que la estimación de la capacidad de los
examinados (θ) no depende del test utilizado para su evaluación. Lo anterior,
no es asegurado en el caso de la TCT.
c) La TRI permite estimar la precisión con que cada ítem y cada test
mide los diferentes niveles de habilidad. Dicho de otra forma, la TRI no asume
como si lo hace la TCT, el supuesto de igualdad de errores de medida.
d) Lo anteriormente expuesto permite construir desde la TRI
instrumentos de evaluación personalizados y eficientes. Cumpliendo un principio
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
de parsimonia, esto es, que el test estime con mayor precisión aquello que
mide empleando un número mínimo de ítems.
2.5. Síntesis comparada de ambas teorías
Según (DEMRE, 2005), ambas teorías se sintetizan de la forma que
sigue:
a) Se establece que los supuestos de la TCT son más bien débiles, al
ser éstos generales, y a su vez la fuerza está en su generalidad, pues se
pueden aplicar a situaciones muy variadas.
b) Por su parte, los supuestos de la TRI son más fuertes, al ser más
restrictivos; por tanto se sacrifica generalidad para ganar precisión predictiva.
c) Por tanto, científicamente se plantea la disyuntiva de opción entre
la generalidad y la precisión, siendo la TCT quien aporta con sus planteamientos
propendiendo a la generalidad en tanto la TRI contribuye a la precisión. La
respuesta respecto a qué modelo optar parece, hasta ahora, no ser excluyente,
sino más bien complementaria. En tal sentido, queda planteada la necesidad de
que ambas teorías dialoguen en beneficio de los usuarios, lo importante ahora
es demostrar esta idea en el comportamiento empírico y comparado de la TCT y
la TRI.
2.6. La Medición de Constructo y las propiedades métricas de las
Teorías
Hasta ahora se han establecido las definiciones conceptuales de cada
teoría, sin embargo es tarea pendiente determinar y caracterizar qué es lo que
se medirá y de qué forma. Para ello es necesario señalar cómo se define la
medición de atributos en psicología, conocido esto como atributo o constructo,
pero además caracterizar las propiedades métricas a través de los cuales serán
medidos los instrumentos trabajados.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
2.6.1. Constructo
Un constructo es un concepto que tiene el significado agregado de haber
sido inventado o adoptado para un propósito especial, de forma deliberada y
consciente (Kerlinger y Lee, 2002, p.36). En ese sentido, el constructo es un
concepto formulado para ser usado en la ciencia. Su intención es ser definido de
tal forma para ser observado y medido.
Hasta este punto las referencias a estos conceptos han sido parciales y
no se han desarrollado ampliamente sus alcances y significado. Es posible
definir constructo como una característica no observable de una población,
siendo ejemplos de ello la ansiedad, la habilidad lectora, la inteligencia, etc. En
tal sentido, es posible señalar que el constructo es la verbalización de un
abstracto para facilitar su comprensión, y su utilidad se entiende en tanto
ayuda a explicar diferentes comportamientos entre las personas. En otras
palabras: ¿Cómo determinar que un sujeto es más ansioso que otro
empíricamente? La psicología de la mano de la psicometría ha desarrollado toda
una teoría orientada a establecer conceptualmente respuestas a estas
interrogantes.
Por tanto es posible afirmar que los constructos pueden abordar
diferentes comportamientos humanos, por lo mismo su explicación y alcance es
de vital importancia para los propósitos del presente trabajo. En la medida que
se conocen las características del constructo, así como también sus
limitaciones, será posible orientar más aún las teorías empleadas para medirlos.
En otras palabras, no solamente se habla de la TCT o la TRI y su hipotética
complementariedad en relación a su utilidad práctica contribuyendo al diseño
óptimo de test por parte de los docentes, sino que se establece un piso previo,
esto es, delimitar cómo se sabe y qué sabe del fenómeno evaluado.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
2.7. Tipo de evaluación
Según (Elosua, 2003), existen distintos usos relacionados con los test.
Cada uso está determinado por la intencionalidad y naturaleza con el cual fue
confeccionado el instrumento. Según lo anterior, en el contexto de la
interpretación de los resultados de un test ya no basta justificar cada puntaje,
sino que es menester además delimitar los fundamentos teóricos de un
contexto interno, con relación al propósito o interpretación propuesta. Como
consecuencia de lo anterior, es necesario especificar las condiciones de la
situación de medida en relación a la relevancia y utilidad de las puntuaciones
para los fines propuestos.
Según la clasificación propuesta por la autora y para el caso específico de
esta investigación, BAVEL es una evaluación colectiva cuyo propósito es la
evaluación de politicas o intervenciones educativas, pues es un instrumento o
procedimiento de obervación que permite medir y evaluar la Eficacia Lectora en
el marco de las herramientas curriculares (Marco Curricular de OF/CMO y
Programas de Estudio).
2.8. Propiedades Psicométricas de un test
La psicometría como disciplina se ocupa del estudio de los test y para
evaluar instrumentos que miden determinadas conductas de las personas,
atributos o constructos, posee dos variables que legitiman su campo
investigativo, a saber: validez y fiabilidad. En este apartado se entrega una
aproximación conceptual para situar estos dos términos, señalar sus
características y hasta despejar supuestos errados en torno a ellos.
El primer supuesto errado en torno a las características psicométricas se
refiere a creer que la validez y fiabilidad se refieren justamente a los test, en
circunstancias que corresponden a las interpretaciones, inferencias o usos que
se hacen de las medidas que los test entregan. En segundo lugar, se estima
muchas veces que la validez y fiabilidad poseen las características de estar o no
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
estar, sin embargo es necesario aclarar que éstas se presentan en diferentes
grados (Prieto y Delgado, 2010).
2.9. Confiabilidad
En la física, para determinar que un instrumento de medida, una regla, es
buena, basta tan solo aplicarla varias veces y evaluar si esta mide lo mismo en
las indefinidas veces que se aplica. Ahora bien, en psicología aplicar esta
analogía es posible, pero deben tenerse en cuenta algunos elementos. Si bien la
psicología no dispone de instrumentos como la regla física para comprobar sus
mediciones, igualmente recurre a la repetición, partiendo del supuesto que en
indefinidas mediciones con un mismo instrumento se puede llegar a más o
menos la misma puntuación. El grado en que la repetición de la medida ofrece
un mismo valor de atributo medido se conoce como fiabilidad.
Lo anterior se entiende de la siguiente forma: el evaluador podrá
determinar que el test es fiable si al repetir su aplicación o al aplicar una
medición paralela para medir el atributo. Este punto resulta necesario para el
trabajo que se desarrolla, pues la idea de test paralelos es de gran uso para
determinar la fiabilidad bajo los principios de la TCT. Volviendo a los
planteamientos de la hipótesis, se puede determinar que si se evalúa la
fiabilidad de los instrumentos ocupados según los principios teóricos que
sustentan este trabajo, se podrá determinar comparativamente el
comportamiento de cada teoría.
Conceptualmente, la fiabilidad se define como el grado de error que
afecta a las mediciones hechas con los test, siendo el indicador más frecuente
para expresar aquel grado de error el coeficiente de fiabilidad (Muñiz, et. al
2005). En otras palabras se puede entender este concepto como la consistencia
o estabilidad que tienen las medidas cuando un instrumento se repite, es decir,
test y retest. Ejemplificando desde la experiencia, este concepto asume que si
ocupamos un instrumento para estimar el valor de un objeto, balanza para
pesar fruta, y si las distintas mediciones realizadas en similares condiciones
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
varían, entonces se considera que aquellas mediciones son inestables,
inconsistentes y por tanto, poco fiables (Prieto y Delgado, 2010). Será de esta
forma el coeficiente de fiabilidad el indicador que señale a través de una
puntuación estas posibles inconsistencias o falta de fiabilidad.
Consecuentemente a lo anterior, surge la pregunta respecto a cómo
calcular este coeficiente. Una primera aproximación se refiere al ejemplo antes
entregado, es decir, Test-retest, pero además encontramos el análisis de
consistencia interna y Test paralelos. Para (Muñiz, et. al 2005), las tres
metodologías son válidas dependiendo del contexto aquel que sea más
pertinente utilizar.
Se ha establecido que la fiabilidad, también denominada confiabilidad, se
entiende como la consistencia entre dos conjuntos de puntuaciones
independientes. Ahora bien, existen diferentes métodos para su verificación,
para lo cual se debe tener presente lo siguiente. El instrumento aplicado a una
muestra determinada debe estar en concordancia con el diseño de investigación
propuesto, pero además los datos resultantes de la mencionada aplicación
deben ser analizados mediante procedimientos apropiados para así obtener
estadísticas que sean capaces de comprobar la confiabilidad del test
(Tornimbeni, Edgardo, y Olaz, 2008).
Es necesario consignar que el coeficiente de fiabilidad no es una
propiedad intrínseca del test, sino que su valor está determinado por diversos
factores, entre los que cabe destacar (Muñiz, et. al 2005):
a) La longitud del test: Entendiéndose como el número de ítems que posee
un test, se establece que al aumentar la cantidad de ítems, la fiabilidad
del test también tiende a aumentar.
b) La variabilidad de la muestra: Para este caso, se estima que en la medida
que aumenta la muestra la fiabilidad también tiende a aumentar.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
c) El nivel del sujeto en la variable medida. Ciertamente una de las
propiedades que se espera de un test es su capacidad de escalar a los
sujetos medidos, en tal sentido se parte del supuesto de que cada sujeto
se presenta con diferentes niveles y por tanto algunos tendrán
puntuaciones bajas, otros medias y otros altas. La experiencia muestra
que los test no miden con igual precisión a todos los sujetos de una
muestra, la solución clásica a ello es el coeficiente de fiabilidad
adecuando este a cada rango (alto, medio y bajo).
La fiabilidad en torno a un test es un tema que cruza el cuestionamiento
de cualquier profesional que construye un instrumento de medición, sin
embargo, como se ha expuesto hasta ahora son múltiples los factores que
influyen en que un instrumento mida correctamente aquello que pretende
medir.
Junto a lo anterior, es necesario mencionar la existencia de creencias en
torno a cómo deber ser un “buen test”, la creencia mayormente instalada hace
referencia a que una buena prueba es aquella extensa, pues de esta forma el
instrumento abarca más y mejor los contenidos, sin embargo en este punto
muchas veces el argumento cae en una falacia que mezcla y confunde
extensión con calidad. Al suponer que la calidad del test está supeditada
solamente a su extensión, se cae en un error de construcción, pues como se
puede suponer, aparte de las consideraciones técnicas propias a la selección de
ítems, un test extenso por lo general provoca la fatiga de los sujetos y por lo
mismo la condición ambiental se transforma en un fuerte enemigo de la
fiabilidad.
Lo expuesto hace referencia a la estimación de la fiabilidad desde el
punto de vista de la discriminación entre los sujetos, sin embargo es necesaria
para este estudio una conceptualización de fiabilidad que propenda a una
evaluación del grado en el que los sujetos dominan un campo educativo o
profesional, esto es, Test Referidos a Criterio (TRC). Sin embargo, lo señalado
hasta acá respecto a la fiabilidad y su mencionado coeficiente, no es
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
homologable a este tipo de test que relevan al sujeto respecto del constructo
medido, pues la puntuaciones ya no se expresan en torno al grupo, sino que
hacen referencia al grado en el que el sujeto domina el campo o criterio a
evaluar (Muñiz, et. al 2005).
En tal sentido, se establece que los TRC se tratan de tests utilizados
fundamentalmente en el ámbito educativo y en la evaluación en contextos
laborales. Su objetivo es determinar si las personas dominan un criterio
concreto o campo de conocimiento, por tanto no pretenden tanto discriminar
entre las personas, como la mayoría de los tests psicológicos, sino evaluar en
qué grado conocen un campo de conocimiento denominado criterio, de ahí su
nombre (Muñiz, 2010). Estos test de rendimiento en un dominio específico de
conocimiento son pertinentes en Lenguaje o Matemática por ejemplo, acá
interesa fundamentalmente comprobar la confiabilidad de las clasificaciones
establecidas mediante su utilización respecto a la maestría de dominio de los
individuos que están aprendiendo un dominio (expertos v/s no expertos),
(Tornimbeni, Edgardo, y Olaz, 2008).
Por último es necesario consignar que respecto a la fiabilidad, también se
puede hacer esta estimación desde la TRI. Hasta ahora, se ha descrito un
procedimiento que se refiere al test completo. Sin embargo, desde la Teoría de
Respuesta al Ítem en vez de ofrecer una estimación global de la fiabilidad
mediante un coeficiente de fiabilidad, se puede establecer una Función de
información para cada uno de los ítems (Muñiz, et. al 2005). En efecto, esta
función indica la precisión con la que el ítem está midiendo a cada nivel la
variable evaluada, ahora bien la suma de las funciones individuales proporciona
la información del global del instrumento. El avance de este enfoque respecto al
clásico se refiere a que ahora la estimación de fiabilidad, antes medida por el
coeficiente de fiabilidad desde la TCT, permite precisa información desagregada
del test, el cual puede ser fiable para sujetos con puntuaciones altas, pero poco
fiable para quienes obtienen puntuaciones bajas.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
2.10. Validez
Si asumimos que la psicometría es una derivación de la psicología y en
tanto campo de estudio se dedica a la construcción de test, para un evaluador
resulta completamente lícito preguntarse, hasta qué punto las inferencias
realizadas a partir de la aplicación y análisis de un test son válidos. Esta
interrogante que surge desde el campo disciplinar y más específicamente
epistemológico, es respondida desde el concepto de validez. La psicometría ha
desarrollado un corpus teórico tendiente a optimizar las inferencias realizadas a
partir de los resultados obtenidos por un determinado test; siendo uno de los
objetivos de la evaluación la toma de decisiones, es necesario que éstas sean
válidas y confiables.
La delimitación del concepto está de la mano con el desarrollo que el
mismo ha tenido, por lo tanto, y al igual que el desarrollo científico en otras
áreas, lo que hoy se conoce es el fruto de un devenir teórico y conceptual. La
definición más clásica proviene de (Anastasi 1998) “validez es lo que la prueba
mide y qué tan bien lo hace”. Lo cual sitúa el concepto desde su raíz primigenia,
no obstante ello el desarrollo continúa y por lo mismo se multiplican las
acepciones y nomenclaturas.
Desde un punto de vista conceptual, la validez es un aspecto esencial de
la medición psicológica y se relaciona con la investigación del significado teórico
de las puntuaciones obtenidas por medio de un test (Oliden, 2003).
Desde un punto de vista conceptual y clásico, la validez, entendida como
las definiciones antes presentadas, se establece que los datos analizados para
la validación de un test se estima a partir de (Muñiz, et. al 2005):
a) Validez de contenido: Se refiere a la necesidad de comprobar que los
ítems que componen el test representan adecuadamente el constructo
evaluado, por tanto, si existen errores en esta etapa, el resto queda
automáticamente invalidado.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Queda explícitamente claro que la validez de contenido es fundamental,
para asegurar que el test mide o representa necesariamente aquel universo que
declara estar midiendo. Según (Martínez Arias, 1995), la validación de
contenido debe realizarse a partir de los siguientes pasos:
Definición del dominio de conocimiento o comportamiento a medir.
Identificación de expertos en ese dominio.
Juicio de expertos acerca del grado en que el contenido del test es
relevante y representativo del dominio.
Procedimiento estadístico para resumir los datos de la fase precedente.
b) Validez predictiva: Se refiere a la comprobación de que el test predice
un criterio externo. Se estima a través del coeficiente de validez, el cual
se obtiene mediante el cálculo de la correlación entre el test y el criterio.
c) Validez de constructo: se refiere a la aportación de datos que
garanticen que el constructo evaluado tiene consistencia como tal y no
resulta espurio. Generalmente su cálculo está dado por el análisis
factorial.
Ciertamente la validez de constructo entrega información relevante y
objetiva para determinar certeramente a partir de los datos que la
medición es consistente. En tal sentido (Abad, Garrido, Olea, y Ponsoda,
2006) señalan:
a) Formular hipótesis relevantes (extraídas de deducciones teóricas o del
sentido común) en las que aparezca el constructo que pretendemos
evaluar con el test. En definitiva, una hipótesis de trabajo consiste en
poner en relación dos o más variables. Pues bien, una de esas variables
ha de ser el constructo que pretendemos medir con el test.
b) Efectuar en la práctica mediciones oportunas de las variables o
constructos involucrados en las hipótesis. La medición del constructo de
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
interés se realizará con la prueba diseñada a tal efecto, que es la que
pretendemos validar.
c) Determinar si se verifican o no las hipótesis planteadas. En el caso que
así sea, queda confirmado mediante una investigación que el test mide el
constructo de interés ya que, de lo contrario, no habría razones lógicas
para que se cumplieran las hipótesis formuladas. Si las hipótesis no se
confirman no significa en principio que el test no es válido, ya que puede
ser debido a que las hipótesis no estaban planteadas de manera
adecuada, lo cual exigiría una revisión de la teoría subyacente.
2.11. Cálculos necesarios en la TCT
Para que un test cumpla con el objetivo de medir lo que su constructor
determinó que midiera, es necesario que sus componentes básicos, sus ítems,
estén calibrados de forma correcta. En otras palabras, es necesario que exista
una armonía entre los ítems que componen un test, pues de esta forma se
asegurará que las estimaciones o inferencias realizadas a partir de su análisis
sean más acertadas.
El análisis de ítems puede ser entendido como el conjunto de técnicas
matemáticas y estadísticas, que permiten verificar la calidad y hasta pertinencia
de las preguntas o ítems de una prueba o test. Desde el punto de vista de la
utilidad, se puede establecer que este tipo de análisis es útil en tanto permite
inferir las características técnicas de una pregunta, establecer si cumple con las
necesidades que de ella espera y, en definitiva, decidir si corresponde o no su
inclusión en una prueba o test.
Al momento de plantear un análisis de ítems, es necesario considerar que
el producto a evaluar corresponde a los resultados o respuestas de los sujetos a
los cuales se aplicó la prueba o test. Pero, ¿qué información se recoge de estas
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
respuestas? Para cumplir con este objetivo desde la Teoría Clásica de los Test,
se han definido algunos indicadores que colaboran en este propósito, a saber:
a) Dificultad.
b) Discriminación.
c) Fiabilidad.
d) Validez.
A continuación se definen las características esenciales de cada indicador
y su cálculo respectivo.
2.12. Cálculo de Dificultad
La Dificultad es entendida como qué tan fácil o qué difícil resulta un ítem
para el conjunto de sujetos que rinde la prueba. Por lo general esto se calcula a
partir de la cantidad de sujetos que responden acertadamente al ítem. Según
(García Cueto, 2005), La dificultad de un ítem se refiere a determinar qué tan
fácil o difícil es éste, un ítem es difícil o fácil.
La dificultad se mide a través del grado de dificultad, entendido como el
porcentaje de sujetos que responden correctamente a un ítem. Este índice
registra valores desde cero cuando ningún sujeto contesta correctamente el
ítem, hasta 100 cuando todos los sujetos responden correctamente. Su
interpretación por momentos tiende a confundir, pues valores altos indican un
grado de dificultad menor, en otras palabras, más sujetos contestan
correctamente el ítem.
El índice de dificultad sirve para cuantificar el grado de dificultad de cada
ítem ID (Abad, Garrido, Olea, y Ponsoda, 2006) y se define como el cociente
entre el número total de sujetos que han acertado el ítem A y el número total
de sujetos que lo han intentado resolver N, omitiendo de este último dato todos
aquellos sujetos que no contestaron el ítem.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
ID ₌ A
N
La conceptualización clásica ha definido a este indicador como dificultad,
no obstante lo anterior su interpretación puede conducir a errores en cuanto a
su interpretación, es por eso que existen autores, entre ellos (Caro y Trujillo,
2009) quienes también hablan de facilidad definiéndolo como el porcentaje de
estudiantes que abordó una pregunta y la respondió bien. A propósito de lo
anterior, los autores proponen una escala para evaluar esta característica:
Tabla 1. Interpretación Nivel de Dificultad de los ítems y del Test
Categorías Interpretación
Menos de 21,0% Muy Difícil
21,0% a 40,9% Difícil
41,0% a 60,9% Apropiada
61,0% a 80,9% Fácil
81,0% o más Muy Fácil
Nota. Fuente: (Caro y Trujillo, 2009, p.9)
2.13. Cálculo de Discriminación
La discriminación se entiende como hasta qué punto el ítem permite
diferenciar entre aquellos que saben o no saben.
La estimación de la discriminación de un ítem se puede realizar a través
de diferentes formas. Una de ellas se relaciona con tomar como referencia la
puntuación del sujeto la habilidad que se obtiene del total de la prueba. En ese
sentido un ítem discrimina de manera eficaz si lo responden más sujetos con
puntuaciones altas que sujetos con puntuaciones bajas. Por el contrario, aquel
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
ítem en el cual existan más respuestas correctas de sujetos que poseen bajas
puntuaciones, será considerado con baja discriminación.
En este caso se optó por aquella basada en determinar la discriminación
con la referencia a un criterio definido previamente, esto es, si existe una
definición en la cual se conoce la habilidad de los sujetos, se estima que el
reactivo discrimina si aquellos que lo contestan más son aquellos de cierta
categoría definida previamente.
Específicamente, el método se relaciona con en el cálculo del índice de
discriminación basado en grupos extremos. Así, siguiendo las recomendaciones
de Kelly (en Muñiz y otros, 2005), el total de la muestra es dividida en dos
grupos extremos correspondientes al 27 % superior y el 27 % inferior.
Según (Caro y Trujillo, 2009) se considera que un ítem discrimina bien
cuando lo contestan correctamente los que obtienen puntajes totales altos en la
prueba y no lo contestan correctamente los que obtuvieron puntajes totales
bajos en la prueba.
La apelación a la capacidad del ítem de diferenciar o discriminar entre
quienes saben y quienes no, se evidencia a través del índice de discriminación
dado por la diferencia del porcentaje de respuestas correctas entre un grupo de
alto y otro de bajo rendimiento. Esto queda definido según (Crocker y Algina,
1986), citados en (Chávez Álvarez y Antonio, 2008) así:
ID = Ps – Pi
ID = Índice de Discriminación.
Ps = Proporción de respuestas correctas en la prueba, de los sujetos del
grupo superior (número de respuestas correctas en el grupo superior
entre el número de sujetos que conforman este grupo)
Pi = Proporción de respuestas correctas en la prueba, de los sujetos del
grupo inferior (número de respuestas correctas en el grupo inferior entre
el número de sujetos que conforman este grupo)
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Son diversos los procedimientos para medir esta característica. Según
(Caro y Trujillo, 2009) el más simple consiste en correlacionar los puntajes del
ítem con los puntajes totales de la prueba. Para grupos mayores a 100
estudiantes se puede emplear la tabla 2:
Tabla 2. Categorías e interpretación Índice de Discriminación
Categorías Interpretación
Menos de 0,19 Deficiente (descartar ítem o revisar muy bien)
0,20 a 0,29 Regular (se debe mejorar ítem)
0,30 a 0,39 Razonablemente bueno
0,40 o superior Alta discriminación
Nota. Fuente: (Caro y Trujillo, 2009, p.9)
Para determinar la Discriminación de la prueba completa, una forma es
empleando el promedio de las discriminaciones de los ítems.
2.14. Cálculo de Confiabilidad
Determinar la fiabilidad puede ser considerado uno de los objetivos más
importantes de la Psicometría. Si una prueba es fiable, ello en función de su
consistencia, entonces la aplicación repetida de la misma prueba o versiones
paralelas de ella, debería dar un resultado similar. Por esto, interesa en este
momento conceptualizar el cálculo.
Un método para calcular el grado de fiabilidad de una prueba es el
coeficiente alfa de Cronbach, desarrollado por el autor en 1951 es una
extensión del KR 21 y que es su equivalente cuando los ítems son dicotómicos
(Chávez Álvarez y Antonio, 2008).
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Donde:
= Coeficiente alfa de Cronbach
k = Número de reactivos en la prueba
α2i = Varianza del puntaje en el reactivo i
α2X = Varianza del puntaje total
Su interpretación señala que se espera que la fiabilidad de la prueba sea
siempre igual o superior en la práctica a la que estima este indicador.
Generalmente la Confiabilidad de un test puede entenderse de tres
maneras diferentes, (Abad, Garrido, Olea, y Ponsoda, 2006), a saber:
a) Según la estabilidad temporal de las medidas que proporciona.
b) Según el grado en que diferentes partes de un test miden un rasgo
de manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
Para el primer caso se establece el siguiente supuesto, si se aplica un test
a un grupo de personas y transcurrido un tiempo se aplica el mismo test al
mismo grupo, se debe suponer que, si el test es confiable, se obtenga una
correlación de Pearson elevada entre ambas mediciones. Conceptualmente esta
correlación de denomina coeficiente de fiabilidad test-retest, e indica mayor
estabilidad de la prueba en tanto el resultado de la correlación sea más cercano
a 1.
Para el caso del presente estudio, se medirá la Confiabilidad del Pre Test
BAVEL a través del cálculo de la consistencia interna del instrumento estimando
el valor del Alfa de Cronbach.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
(Caro y Trujillo, 2009) señalan que una escala para interpretar esta
característica es la siguiente:
Tabla 3 Valores e interpretación del Nivel de Confiabilidad del Test
Categorías Interpretación
Menos de 0,51 No Aceptable
0,51 – 0,60 Nivel Pobre
0,61 – 0,70 Débil
0,71 – 0,80 Aceptable
0,81 – 0,90 Buena
0,91 o más Excelente
Nota. Fuente: (Caro y Trujillo, 2009, p.9)
2.15. Cálculo de la Validez de un test
Para el caso de la TCT la validez que interesa determinar se relaciona con
la validez de constructo, y específicamente es necesario identificar si el
conjunto de ítems que componen la BAVEL permiten evaluar el constructo
Velocidad Comprensiva.
Según el requerimiento anterior, es imprescindible un análisis factorial
exploratorio que permita identificar qué dimensiones y a través de qué ítems se
está evaluando el constructo mediante el Test aplicado.
2.16. ¿Cómo escoger ítems adecuados?
Estudiar la capacidad discriminativa de un test es estudiar su capacidad
de predecir un determinado criterio. Saber cuál ítem utilizar y porqué, cuál no
utilizar y porqué, son preguntas a las que se debería enfrentar un evaluador al
momento de construir un instrumento, ciertamente esta vital información no
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
puede quedar al arbitrio de las circunstancias. No son pocas las ocasiones en
que un docente se ve enfrentado a la disyuntiva del tiempo, y tendrá que
elaborar pruebas para medir el aprendizaje de sus alumnos; para ello escogerá
aquellas preguntas que según su criterio y experiencia son las mejores, pues la
escasez de tiempo lo lleva a construir la prueba que le demande el menor
tiempo de corrección; sin embargo queda la incógnita respecto a la idoneidad
de lo seleccionado.
La discriminación entrega valiosa información al respecto, y a su vez las
teorías desarrolladas, a saber, la TCT y la TRI, desde sus enfoques pretenden
contribuir a dicha labor. Optimizar los tiempos, escogiendo buenos ítems, pero
su vez entregando la información sobre el resultado de los aprendizajes de los
estudiantes, se convierte en un potente aliado del proceso de enseñanza y
aprendizaje, pues permite evaluar oportunamente y además tomar las
decisiones a tiempo.
Por su parte el análisis de validez permite establecer en qué medida cada
uno de los ítems refleja un atributo externo. En este caso la comparación se
hace con las puntuaciones de un atributo externo. Para el caso la comparación
puede ser otro test o cualquier otro puntaje, en definitiva la validez de un ítem
implica detectar su calidad predictiva con respecto a un criterio externo.
Lo importante es señalar que ambos mecanismos son oportunos para
seleccionar buenos ítems, sean estos a partir de su homogeneidad, esto es,
consistencia interna y por tanto hablamos de un alto grado de fiabilidad, o
desde el punto de vista de su capacidad predictiva de un criterio externo.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
3. Metodología de Investigación
3.1. Tipo de estudio y diseño
Estudio descriptivo y metodológico que analiza comparativamente la
calidad métrica del Test BAVEL desde la perspectiva de la Teoría Clásica de los
Test y la Teoría de Respuesta al Ítem.
3.2. Variables
Las variables del estudio serán definidas desde el ámbito conceptual y
operacional, es decir, en primer lugar se conceptualiza su definición desde lo
teórico y en segundo lugar son definidas desde su utilización práctica
especificando cómo serán medidas u observadas.
3.3. Definición conceptual
a) Dificultad: se entiende como que tan fácil o difícil resulta un ítem para el
conjunto de sujetos que rinde la prueba. Por lo general esto se calcula a
partir de la cantidad de sujetos que responden acertadamente al ítem.
Según (García Cueto, 2005), la dificultad de un ítem se refiere a
determinar qué tan fácil o difícil es éste, un ítem es difícil o fácil.
b) Discriminación: Según (Caro y Trujillo, 2009) se considera que un ítem
discrimina bien cuando lo contestan correctamente los que obtienen
puntajes totales altos en la prueba y no lo contestan correctamente los
que obtuvieron puntajes totales bajos en la prueba.
c) Curva característica del ítem: Indica para cualquier ítem la probabilidad
que tienen las personas que se enfrentan a él de acertarlo (es decir,
responder correctamente) (Hambleton y Rogers, 1991 en Tornimbeni,
Edgardo, y Olaz, 2008, p. 228).
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
d) Confiabilidad: se define como el grado de error que afecta a las
mediciones hechas con los test (Muñiz, et. al 2005).
e) Validez: es un aspecto esencial de la medición psicológica y se relaciona
con la investigación del significado teórico de las puntuaciones obtenidas
por medio de un test (Oliden, 2003).
3.4. Definición operacional
a) Dificultad. El índice de dificultad sirve para cuantificar el grado de
dificultad de cada ítem ID (Abad, Garrido, Olea, y Ponsoda, 2006) y
se define, en el caso de la TCT, como el cociente entre el número
total de sujetos que han acertado el ítem A y el número total de
sujetos que lo han intentado resolver N, omitiendo de este último
dato todos aquellos sujetos que no contestaron el ítem. Su expresión
matematica es la siguiente:
ID ₌ A
N
Este índice en la TRI se calcula a través de la estimación del
parámetro a y obtenido mediante el software Bilog MG 3.
b) Discriminación. Expresada a través del Índice de Discriminación de
cada ítem. Para el caso de la TCT se obtiene mediante Excel,
específicamente el método se relaciona con en el cálculo del índice de
discriminación basado en grupos extremos. Así, siguiendo las
recomendaciones de Kelly (en Muñiz y otros, 2005), el total de la
muestra es dividida en dos grupos extremos correspondientes al 27 %
superior y el 27 % inferior.
Este índice en la TRI se calcula a través de la estimación del
parámetro b y obtenido mediante el software Bilog MG 3 y WinGen 3.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
c) Curva característica del ítem. Este indicador es relaciona solo con
modelos analizados desde la perspectiva de la TRI. La representación
gráfica se obtiene a través del software Bilog MG 3.
d) Confiabilidad. Este indicador se obtiene a través del cálculo del Alfa de
Cronbach, para el caso del presente estudio se utilizará el software
Spss versión 18.
e) Validez. Específicamente interesa el cálculo de Validez de constructo,
para ello se analizarán los puntajes de los alumnos mediante un
análisis factorial a través del software Spss versión 18.
3.5. Población
Alumnos de la Corporación Municipal de Viña del Mar (CMVM) de cuarto
año básico en el subsector de Lenguaje y Comunicación.
3.6. Muestra
Intencionada a Alumnos de Cuarto año básico de la comuna de Viña del
Mar, de la quinta región de Valparaíso, de escuelas de dependencia municipal.
El número de casos analizados equivale a 560 alumnos del total de
alumnos que rindieron el Test. Este número se obtuvo posterior a la depuración
de la base de datos, excluyendo todos aquellos casos que carecían de
respuestas por parte de los alumnos.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
3.7. Instrumento Test BAVEL, Batería de Velocidad y Eficacia
Lectora
La investigación se centra en la revisión y comparación del
comportamiento psicométrico de la BAVEL en términos del análisis de la calidad
métrica del instrumento, lo anterior evaluado desde un punto de vista
metodológico y comparativo, pues los análisis serán realizados desde la Teoría
Clásica de los Test y la Teoría de Respuesta al Ítem.
BAVEL es un instrumento o procedimiento de observación que cuenta con
19 ítems, de los cuales 6 corresponde a selección múltiple y 13 a desarrollo
cerrado y abierto. La Batería a través de su formato compuesto por textos e
ítems asociados, permite evaluar tres dominios de lectura, a saber, Velocidad
Lectora Oral, Calidad Lectora o Fluidez Lectora y Compresión Lectora.
El constructo Eficacia Lectora está enmarcado en las herramientas
curriculares (Marco Curricular de OF/CMO y Programas de Estudio), Mapas de
Progreso de Aprendizajes y Aprendizajes clave e indicadores de desempeño
mínimo de la comprensión lectora.
BAVEL permite a docentes y directivos tener una perspectiva sintética y
focalizada de los aspectos mínimos de la compresión lectora esperados para
cada nivel (Muñoz y Saavedra, 2011). En ese sentido, la batería es una
importante fuente de información al servicio de distintas audiencias. En el
marco de lo anterior, este instrumento de evaluación puede ser definido como
una evaluación Educativa, de tipo diagnóstico colectivo y que tiene por objetivo
la evaluación de Programas Educativos y Evaluación de politicas o
intervenciones educativas (Elosua, 2003).
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
El instrumento de evaluación cuenta con un manual que permite
homogeneizar el proceso y de esta forma disminuir la variabilidad de las
puntuaciones por factores contextuales inherentes a la aplicación. En ese
sentido, es necesario precisar lo siguiente:
a) Para medir y evaluar la Velocidad Lectora y Calidad Lectora se aplican
los mismos textos y protocolos desde 1° a 8° Básico. En el caso de la
medición y evaluación de la Comprensión Lectora se administra una
forma focalizada, con la incorporación gradual de textos diseñados
según grado de dificultad y nivel educativo.
b) Las instrucciones de administración de la Batería son explicitadas
según cada nivel de dominio de la lectura.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
RESULTADOS
Los resultados son presentados en función de los objetivos de
investigación definidos.
4. Resultados a nivel Test
4.1. Confiabilidad
La estimación de la confiabilidad del instrumento se realizó a través del
cálculo del Alfa de Cronbach, valor que corresponde a 0,692, tal como se indica
en la siguiente tabla.
Tabla 4 Estadísticos de fiabilidad
Alfa de Cronbach N° de elementos
,692 19
La confiabilidad es medida a través de un valor total para todo el
instrumento, en este sentido el Alfa de Cronbach con un valor de 0,692,
permite establecer una confiabilidad adecuada, y por lo tanto la posibilidad de
obtener resultados confiables si se vuelve a aplicar este instrumento tal como
está.
Si bien el valor recomendable es sobre 0,70, para el caso de este estudio
se considera que el Alfa de Crombach obtenido permite realizar estimaciones
respecto a la consistencia interna del Test BAVEL.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
4.2. Calidad Métrica del Test BAVEL desde la perspectiva de la
Teoría Clásica de los Test
4.2.1. Dificultad de los ítems
La dificultad del ítem está mediada por la cantidad de personas que lo
contesten correctamente. Así la determinación de “fácil” o “difícil”, dependerá
del número de sujetos que lo acierten o fallen.
El indicador Índice de Dificultad permite determinar la dificultad del
ítem, siendo en este caso la Dificultad una proporción obtenida entre las
personas que intentaron responder el ítem y aquellas que efectivamente lo
respondieron correctamente.
Desde el punto de vista de las puntuaciones, para aquellos ítems
dicotómicos el acierto es 1, mientras que para aquellos ítems politómicos que
utilizan rúbrica, el acierto corresponde a quien responde y es calificado con el
puntaje máximo del ítem.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Tabla 5. Categorización del Grado de Dificultad de los ítems
Ítem N n f GD (%) Dificultad
19.Argumentación 560 4 65 11,6 Muy difícil
8.Extraen Información explícita 560 2 81 14,5 Muy difícil
9.Extraen Información explícita 560 3 83 14,8 Muy difícil
14.Extraen Información explícita 560 2 95 17 Muy difícil
10.Argumentación 560 4 119 21,3 Difícil
2.Extraen Información explícita 560 2 166 29,6 Difícil
15.Extraen Información explícita 560 2 205 36,6 Difícil
18.Incremento de Vocabulario 560 2 240 42,9 Apropiada
1.Identificar tipo de texto 560 1 249 44,5 Apropiada
13.Identificar tipo de texto 560 2 251 44,8 Apropiada
4.Inferencia 560 2 279 49,8 Apropiada
5.Inferencia 560 3 296 52,9 Apropiada
7.Extraen Información explícita 560 2 339 60,5 Apropiada
17.Incremento de Vocabulario 560 2 348 62,1 Fácil
6.Incremento de Vocabulario 560 2 350 62,5 Fácil
11.Parafraseo 560 2 363 64,8 Fácil
12.Identifica idea global del texto 560 2 369 65,9 Fácil
16.Extraen Información explícita 560 2 440 78,6 Fácil
3.Extraen Información explícita 560 1 482 86,1 Muy fácil
Total Test 560 42 254 45,3 Apropiada
Nota. Ítem = tipo de reactivo ordenado según grado de dificultad; N = total de alumnos que respondieron el
Test BAVEL; n = puntaje total posible de cada ítem; f = número de estudiantes que acertaron el ítem; GD
(%) Grado de dificultad del ítem expresado en porcentaje.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
4.2.2. Discriminación de los ítems
La discriminación, entendida como la capacidad del ítem para diferenciar
entre quienes saben y no saben, presentada en la tabla 13, fue construida con
la información del anexo 2.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Tabla 6. Índice de Discriminación de ítems del Test BAVEL e interpretación
Ítem Índice de Discriminación Interpretación
3.Extraen Información explícita 0,14 Deficiente
1.Identificar tipo de texto 0,17 Deficiente
2.Extraen Información explícita 0,19 Deficiente
19.Argumentación 0,19 Deficiente
8.Extraen Información explícita 0,21 Regular
14.Extraen Información explícita 0,25 Regular
13.Identificar tipo de texto 0,26 Regular
6.Incremento de Vocabulario 0,4 Alta discriminación
9.Extraen Información explícita 0,42 Alta discriminación
10.Argumentación 0,42 Alta discriminación
7.Extraen Información explícita 0,43 Alta discriminación
12.Identifica idea global del texto 0,43 Alta discriminación
16.Extraen Información explícita 0,45 Alta discriminación
17.Incremento de Vocabulario 0,47 Alta discriminación
15.Extraen Información explícita 0,5 Alta discriminación
4.Inferencia 0,52 Alta discriminación
11.Parafraseo 0,52 Alta discriminación
18.Incremento de Vocabulario 0,56 Alta discriminación
5.Inferencia 0,63 Alta discriminación
Nota. Ítem = reactivos ordenados índice de Discriminación y su interpretación.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
4.3. Calidad métrica del Test BAVEL desde la perspectiva de la
Teoría de Respuesta al Ítem
4.3.1. Según modelo de dos parámetros
Al igual que el caso de la TCT, la TRI exige muestras mínimas al
momento de estimar los distintos parámetros, a saber:
Tabla7. Cantidad de casos necesarios según modelo de análisis
Modelo Número de sujetos
requeridos
Teoría Clásica de los test Alrededor de 100
Teoría de respuesta al ítem Rasch 100
2 parámetros 250 – 500
3 parámetros Más de 1000
Nota: (Chávez Álvarez y Antonio, 2008, p. 27)
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Tabla8. Resultados desde la perspectiva TRI, según modelo de 2 parámetros
Ítem muestra RC GD LOGIT CPBA CB
P15.Extraen Información explícita 560,0 490,0 87,5 -1,95 0,380 0,610
P2.Extraen Información explícita 560,0 488,0 87,1 -1,91 0,189 0,301
P3.Extraen Información explícita 560,0 482,0 86,1 -1,82 0,204 0,318
P16.Extraen Información explícita 560,0 440,0 78,6 -1,30 0,378 0,532
P10.Argumentación 560,0 422,0 75,4 -1,12 0,359 0,491
P12.Identifica idea global del texto 560,0 369,0 65,9 -0,66 0,212 0,274
P9.Extraen Información explícita 560,0 364,0 65,0 -0,62 0,398 0,512
P11.Parafraseo 560,0 363,0 64,8 -0,61 0,295 0,380
P8.Extraen Información explícita 560,0 351,0 62,7 -0,52 0,257 0,328
P6.Incremento de Vocabulario 560,0 350,0 62,5 -0,51 0,205 0,262
P17.Incremento de Vocabulario 560,0 348,0 62,1 0,50 0,293 0,373
P7.Extraen Información explícita 560,0 339,0 60,5 -0,43 0,220 0,279
P19.Argumentación 560,0 333,0 59,5 -0,38 0,262 0,332
P5.Inferencia 560,0 296,0 52,9 -0,11 0,321 0,403
P4.Inferencia 560,0 281,0 50,2 -0,01 0,273 0,342
P13.Identificar tipo de texto 560,0 251,0 44,8 0,21 0,169 0,213
P1.Identificar tipo de texto 560,0 249,0 44,5 0,22 0,034 0,043
P18.Incremento de Vocabulario 560,0 240,0 42,9 0,29 0,284 0,357
P14.Extraen Información explícita 560,0 205,0 36,6 0,55 0,224 0,287
Nota. Ítem = reactivos del Test BAVEL ordenados según Grado de Dificultad; Muestra = alumnos
que rinden el Test BAVEL; RC = Respuestas Correctas a cada reactivo; GD = Grado de Dificultad;
CPBA = Correlación punto Biserial ajustada; CB = Correlación Biserial.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
4.3.2. Interpretación de los parámetros a y b
Desde la perspectiva de la Teoría de Respuesta al Ítem, pueden ser
estimados 1, 2 o 3 parámetros. El más común y conocido es el Modelo de un
parámetro o de Rasch, siendo consecuentemente los otros de 2 y 3 parámetros.
El primer parámetro, a, hace referencia a la capacidad discriminativa del ítem;
el segundo, b, está relacionado con la Dificultad del ítem y finalmente el
parámetro c representa la capacidad de responder el ítem al azar.
a) Parámetro a discriminación
Según (Abad, Garrido, Olea, y Ponsoda, 2006, p. 134), “el parámetro "a"
indica la mayor o menor inclinación o pendiente de la CCI cuando θ=b.
Normalmente los valores de "a" oscilan entre 0,3 y 2,5, y se suelen considerar
ítems "discriminativos" los que tienen valores "a" mayores de uno”. Según lo
anterior y gracias a los aportes de (Tornimbeni, Edgardo, y Olaz, 2008, p. 231),
se elabora la siguiente tabla de referencia.
Tabla9. Interpretación parámetro a
Valores Interpretación
1,34 o más Alta discriminación
1,33 a 0,65 Moderada discriminación
0,64 a 0,3 Escasa discriminación
0,29 o menos Deficiente
Nota. Elaboración propia.
Según lo anterior se presenta la tabla 17 y posteriormente se entrega un
comentario al respecto.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Tabla 10. Categorización parámetro a
Ítem Valor a Interpretación
P15.Extraen Información explícita 1,613 Alta discriminación
P16.Extraen Información explícita 1,287 Moderada discriminación
P9.Extraen Información explícita 1,278 Moderada discriminación
P10.Argumentación 1,154 Moderada discriminación
P5.Inferencia 0,954 Moderada discriminación
P11.Parafraseo 0,884 Moderada discriminación
P18.Incremento de Vocabulario 0,875 Moderada discriminación
P17.Incremento de Vocabulario 0,835 Moderada discriminación
P4.Inferencia 0,783 Moderada discriminación
P19.Argumentación 0,775 Moderada discriminación
P3.Extraen Información explícita 0,716 Moderada discriminación
P2.Extraen Información explícita 0,688 Moderada discriminación
P8.Extraen Información explícita 0,682 Moderada discriminación
P14.Extraen Información explícita 0,664 Moderada discriminación
P12.Identifica idea global del texto 0,635 Baja discriminación
P6.Incremento de Vocabulario 0,584 Baja discriminación
P7.Extraen Información explícita 0,571 Baja discriminación
P13.Identificar tipo de texto 0,531 Baja discriminación
P1.Identificar tipo de texto 0,272 Deficiente
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
b) Parámetro b dificultad
Tabla 11. Valores referenciales y clasificación Parámetro b
Valores Interpretación
-1,5 a -3,0 Muy Fácil
0 a -1,5 Fácil
0 a 1,5 Difícil
1,5 a 3,0 Muy Difícil
Nota. Elaboración propia.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Tabla 12. Valores referenciales e interpretación del Parámetro b
Ítem Valor b Interpretación
P2.Extraen Información explícita -3,030 Muy Fácil
P3.Extraen Información explícita -2,796 Muy Fácil
P15.Extraen Información explícita -1,703 Fácil
P16.Extraen Información explícita -1,312 Fácil
P10.Argumentación -1,213 Fácil
P12.Identifica idea global del texto -1,131 Fácil
P6.Incremento de Vocabulario -0,942 Fácil
P8.Extraen Información explícita -0,838 Fácil
P7.Extraen Información explícita -0,805 Fácil
P11.Parafraseo -0,804 Fácil
P17.Incremento de Vocabulario -0,682 Fácil
P9.Extraen Información explícita -0,631 Fácil
P19.Argumentación -0,558 Fácil
P5.Inferencia -0,140 Fácil
P4.Inferencia -0,008 Fácil
P18.Incremento de Vocabulario 0,387 Difícil
P13.Identificar tipo de texto 0,420 Difícil
P1.Identificar tipo de texto 0,833 Difícil
P14.Extraen Información explícita 0,912 Difícil
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
CONCLUSIONES
En el siguiente apartado se entregan las conclusiones que se extraen del
presente estudio, organizado por objetivos específicos y pregunta de
investigación. Junto a lo anterior, serán expuestas las limitaciones e
implicancias del proceso desarrollado.
Determinar la calidad métrica del Test BAVEL, implicó un análisis
psicométrico desde la perspectiva de la Teoría Clásica de los Test y la Teoría de
Respuesta al Ítem y el consecuente análisis comparado de resultados.
El análisis comparado de la calidad métrica del Test, permite concluir
que, según la información disponible, la Teoría Clásica de los Test posibilita la
obtención de resultados con mayor facilidad, los cuales son concordantes entre
sí y además tienen mayor relación con los niveles taxonómicos de cada uno de
los ítems que componen el Test BAVEL. Por su parte, la Teoría de Respuesta al
Ítem, entrega también información relativa a la calidad métrica de los ítems del
Test, sin embargo la obtención de esta información está regulada por una serie
de supuestos, a saber, unidimensionalidad e independencia local, cada uno de
difícil cumplimiento, lo cual en definitiva influye directamente en los resultados
obtenidos.
La Teoría Clásica de los Test, es un modelo lineal cuyo foco de análisis es
el Test, sin embargo, el análisis de calidad métrica definido para este estudio
permitió observar y analizar el comportamiento de cada ítem en relación al
Test. Determinar el Índice de Discriminación y Grado de Dificultad para cada
ítem, desde las perspectivas metodológicas utilizadas, permitió una mirada más
precisa y contextualizada de cada ítem. En tal sentido, se ofrece un modelo
metodológico de análisis que permite determinar, con altos grados de precisión,
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
información relevante al momento de tomar decisiones respecto a los ítems de
cualquier test.
Los supuestos que subyacen a la Teoría Clásica de los Test son débiles y
fáciles de cumplir, por lo tanto no son en ningún caso un impedimento al
momento de analizar y tomar decisiones respecto al test o sus respectivos
ítems. Sin embargo, este modelo carece de la invariabilidad de los estadísticos,
pues éstos dependen de la muestra.
Según lo antes expuesto, es posible señalar que a pesar de que esta
perspectiva carece de relaciones explícitas y evidenciables entre sus ítems y el
rasgo que se está midiendo, igualmente la información que ofrece permite
evaluar con gran nivel de detalles los principales indicadores de calidad métrica
de un test, a saber, Grado de Dificultad y Discriminación.
La Teoría de Respuesta al Ítem, permite también un análisis de calidad
métrica a partir de la estimación de los parámetros a, b y c, a saber,
Discriminación, Dificultad y Azar. Para efectos del presente estudio, la cantidad
de datos analizados solo recomendó la estimación de los dos primeros.
El comportamiento de estos parámetros está mediado, como se dijo, por
supuestos fuertes y difíciles de cumplir. En la perspectiva de un estudio
metodológico, no se realizaron pruebas que permitieran determinar con certeza
el cumplimiento de estos supuestos, pues en todo momento interesó analizar la
misma cantidad de ítems desde ambas perspectivas, puesto que un análisis de
Dimensionalidad o Independencia Local podría provocar la pérdida de ítems.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
No obstante lo anterior, tal como fue consignado en el apartado
metodológico de este estudio, a causa de los requerimientos del Software de
análisis, los datos de respuesta politómicos de los alumnos fueron recodificados
y traspasados a resultados dicotómicos. Tal como era de suponer, esto afectó
notablemente la riqueza original de los datos, por lo tanto la estimación de los
parámetros de Discriminación y Dificultad perdió consistencia. Esto pudo
reflejarse en el análisis comparado de Calidad Métrica, en donde para un mismo
ítem fue posible apreciar estimaciones radicalmente opuestas en algunos casos,
lo cual impedía consensuar criterios respecto a una recomendación para el ítem.
Sin embargo, desde otra perspectiva la TRI ofrece información de la cual
la TCT está limitada, a saber, la Función Característica del Ítem (FCI) que
permite conocer la relación entre el ítem y el rasgo que se está evaluando. Para
efectos de esta investigación, la definición de indicadores de calidad métrica no
contempló la FCI, pero sí se obtuvo la Curva Característica del Ítem (CCI), esta
función gráfica es un importante insumo de información que permite
complementar lo obtenido a través de los indicadores de Dificultad y
Discriminación. En tal sentido, es un hallazgo metodológico importante destacar
que la CCI permite relacionar los parámetros de calidad métrica tradicionales
con la habilidad de cada sujeto respecto al rasgo evaluado.
El análisis factorial aplicado al Test BAVEL permitió evaluar la Validez de
Constructo del Instrumento. Para este caso se utilizó una metodología
exploratoria que no estableció categorías o habilidades a priori, sino por el
contrario la exploración de componentes posibilitó determinar qué ítems los
tributaban. Según esta metodología, se estableció que el Test a través de sus
19 ítems mide seis dimensiones del constructo Eficacia Lectora, sin embargo el
instrumento mayoritariamente evalúa habilidades taxonómicas de orden
inferior, pues son éstas las que agrupan la mayor cantidad de reactivos.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Al respecto se sugiere revisar la Tabla de Especificaciones de BAVEL en
compañía de las tablas de Dificultad y Discriminación de cada ítem, pues de
esta manera se podrán tomar decisiones fundadas y contextualizadas respecto
a la inclusión o no de los reactivos.
En relación a la pregunta de investigación, la información obtenida y
analizada lleva a señalar que tanto la Teoría Clásica de los Test y la Teoría de
Respuesta al Ítem permiten una comprensión de la Calidad Métrica desde
perspectivas complementarias. Esta complementariedad deberá ser entendida
como específica y vinculante, esto es, por un lado la TRI ofrece la posibilidad de
analizar a los sujetos desde la probabilidad de respuesta en relación a su
habilidad, pero además esta información se vincula con los parámetros de
Dificultad y Discriminación, los cuales pueden ser obtenidos desde ambos
enfoques.
Las implicancias de la investigación se materializan en un estudio
constituido como un importante insumo metodológico para analizar la calidad
métrica de los ítems de un test, ello con la finalidad de tomar decisiones más
acertadas respecto a su uso, exclusión y/o modificación.
Junto a lo anterior, la investigación ofrece un potencial investigativo
futuro, pues hasta este punto se pudo establecer el tipo de complementariedad
entre ambas perspectivas de análisis. No obstante lo anterior, es menester
plantear estudios que evalúen metodológicamente el comportamiento de un
mismo grupo de ítems desde los diferentes modelos TRI. Es de vital importancia
contar con información certera respecto al comportamiento y calidad de
información que entregan para un mismo test los diferentes modelos, sean
éstos de Rash, dos o tres parámetros.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
En la línea de lo anterior, es interesante evaluar la calidad de información
que entrega la TRI respecto a la Validez y la Confiabilidad de un Test, así como
también evaluar a través de un estudio correlacional hasta qué punto las
puntuaciones obtenidas en un modelo clásico o de respuesta al ítem, están
vinculadas.
Finalmente respecto a las limitaciones, es posible afirmar que para el
caso de la TCT la abundancia de información permite que su contraparte en
este estudio sea fuertemente opacada. En este sentido, el poco desarrollo
intelectual en nuestro país en particular y en nuestra lengua en general,
dificulta en parte un estudio de este tipo. Junto a lo anterior, la escasa cantidad
de software libre que permitan estimación de parámetros TRI, dificultan desde
el punto de vista económico realizar estas investigaciones, lo cual en definitiva
lleva a tomar decisiones como la dicotomización de resultados, con las ya
mencionadas consecuencias.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
Bibliografía
ABAD, F., GARRIDO, J., OLEA, J., y PONSODA, V. (2006). Introducción a la
Psicometría: Teoría Clásica de los Test y Teoría de Respuesta al Ítem.
Madrid: UAM.
ANASTASI, A., y URBINA, S. (1998). Test Psicológicos. Mexico: Pretince Hall
Latinoamerica.
ASÚN, R., y ZUÑIGA, C. (2008). Ventajas de los Modelos Politómicos de Teoría de
Respuesta al Ítem en la Medición de Actitudes Sociales. El Análisis de un
Caso. PSYKHE, Vol.17, Nº 2, 103-115.
ATTORRESI, H., LOZZIA, G., PABLO, F., GALIBERT, M., y AGUERRI, M. E.
(2009). Teoría de Respuesta al Ítem. Conceptos básicos y aplicaciones para
la medición de constructos psicoloógicos. Revista argentina de clínica
psicológica, 179-188.
BARBERO GARCIA, M. I. (1999). Desarrollos recientes de los modelos
psicométricos de la Teoría de Respuesta a los Ítems. Psicothema, 195-210.
CARLINO, F. (1991). La evaluación Educacional. Historia, problemas y propuestas.
Buenos Aires: AIQUE.
CARO, A., y TRUJILLO, H. (2009). Evaluación del Rendimiento. Valparaíso:
Univerdad de Valparaíso.
CENEVAL. (2009). Boletin CENEVAL. México DF: CENEVAL.
CHÁVEZ ÁLVAREZ, C., y ANTONIO, S. H. (2008). Procedimientos básicos para el
análisis de reactivos. CENEVAL, 29-34.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
DEMRE, (2005). Teoría Clásica de Medición TC y Teoría de Respuesta al ÍTEM
TRI. Santiago: Universidad de Chile.
ELOSUA, P. (2003). Sobre la Validez de los Test. Psicothema, 315-321.
ESCALANTE, E., y ALBERTO, C. (2002). Análisis y tratamiento de datos en spss.
Valparaíso: Ed. Univ. Playa Ancha.
GARCÍA CUETO, E. (2005). Análisis de los ítems: Enfoque clásico. Madrid: La
Muralla.
GONZÁLEZ, M. C., ROLDÁN, C., ARRÁEZ, D., GUTIÉRREZ, N., SEGURA, A., y
FERNÁNDEZ, A. (2010). Eficiencia Lectora: Comparación alumnos
universitarios de ciencias técnicas, ciencias experimentales yletras, y
alumnos de EE.UU. (Ciencias y letras). I Jornadas sobre Innovación Docente
y Adaptación al EEES en las Titulaciones Técnicas (págs. 137-140).
Granada: Godel Impresores Digitales S.L.
HOUSE, E. (1994). Evaluación, etica y poder. Madrid: Morata.
KERLINGER, F., y LEE, H. (2002). Investigación del comportamiento: métodos de
investigación en Ciencias Sociales. México: McGraw Hill Interamericana.
LLECE. (2010). Compendio de los manuales del SERCE. Santiago: INTERSON
S.A.
LÓPEZ PINA, J. (2005). Ítems politómicos v/s ítems dictócomicos: Un estudio
metodológico. Anales de Psicología, 399-344.
LÓPEZ PINA, J. A. (1996). Estimación de parámetros en la TRI: Una evaluación de
BILOG en muestras pequeñas. Psicothema, 173-185.
LÓPEZ-CUADRADO, J., PÉREZ, T., y ARMENDARIZ, A. J. (2005). Evaluación
mediante Tests: ¿Por qué no usar el ordenador? Revista Iberoamericana de
Educación .
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
MANZI, J., y SAN MARTÍN, E. (2003). La necesaria complementariedad entre
teoría clásica de la medición (TCM) y teoría de respuesta al ítem (TRI):
aspectos conceptuales y aplicaciones. Estudios Públicos, 145-183.
MARCHANT, T., RECART, I., CUADRADO, B., y SANHUEZA, J (2004). Pruebas
de Dominio Lector FUNDAR para alumnos de enseñanza básica. Santiago:
Ediciones Universidad Católica de Chile.
MARTÍNEZ ARIAS, R. (1995). Psicometría: Teoría de los Tests Psicológicos y
Educativos. Madrid: Sintesis.
MARTÍNEZ, R. (1996). Psicometría: Teoría de los Tests Psicológicos y Educativos.
Madrid: Sintesis.
MUÑOZ, M., y SAAVEDRA, S. (2011). Batería de Velocidad y Eficacia Lectora.
Viña del Mar.
MUÑIZ, J. (1992). Medio siglo de Teoria de Respuesta a los Ítems. Anuario de
Psicología, 41-66.
MUÑIZ, J. (1998). La medición de lo Psicológico. Psicothema, 1-21.
MUÑIZ, J. (2001). Teoría Clásica de los Test. Madrid: Pirámide.
MUÑIZ, J. (2010). Las Teorías de los Test: Teoría clásica y Teoría de Respuesta al
Ítem. Papeles del Psicólogo (31), 57-66.
MUÑIZ, J., y HAMBLETON, R. K. (1992). Medio siglo de Teoría de Respuesta a los
Ítems. Anuario de Psicología, 41-66.
MUÑIZ, J., FERNÁNDEZ-HERMIDA, J., FONSECA-PEDRERO, E., CAMPILLO-
ÁLVAREZ, A., y PEÑA-SUÁREZ, E. (2011). Evaluación de tests editados.
Papeles del psicológo, 113-128.
Más información en: [email protected] www.upla.cl/jovenesinvestigadores
MUÑIZ, J., FIDALGO, Á., GARCÍA-CUETO, E., MARTÍNEZ, R., y MORENO, R.
(2005). Análisis de los Ítems. Madrid: La Muralla.
MURAT, F. (1985). Evaluación del comportamiento humano. Córdova: Universidad
Nacional de Córdova.
OLIDEN, P. (2003). Sobre la Validez de los Test. Psicothema, 315-321.
PARDO, C. (2001). Revista Colombiana de Psicología. ACTA, Bogotá.
PARDO, C. (2008). Hablemos de Validez. Bogota : ICFES Instituto Colombiano
para el Fomento de Educación Superior.
PRIETO, G., y DELGADO, A. R. (2010). Fiabilidad y validez. Papeles del Psicólogo,
Vol. 31(1), pp. 67-74.
REVUELTA, J., ABAD, F., y PONSODA, V. (2006). Modelos polítomicos de
Respuesta al Ítem. Madrid: La Muralla.
RODRÍGUEZ-JIMENEZ, O., ROSERO-BURBANO, R. B., y DUARTE, L. (2011).
Producción de Conocimiento en Psicometría en Instituciones de Educación
Superior de Bogotá y Chía. Revista colombiana de Psicología, 9-25.
RUIZ. (2003). Metodología de la Investigación Cualitativa. Bilbao : Universidad de
Deusto.
STUFFLEBEAM, L., y SHINKFIELD, A. (1987). Evaluación Sistemática. Guía
Teórica y Práctica. Buenos Aires: Paidos Ibérica.
TORNIMBENI, S., EDGARDO, P., y OLAZ, F. (2008). Introducción a la Psicometría.
Buenos Aires: Paidós.