‹Nr.›/27
University of California, Los Angeles
Evaluación Docente y Validez: Aspectos Conceptuales y Metodológicos
José Felipe Martínez University of California, Los Angeles Graduate School of Education
1er Congreso Latinoamericano de Medición y Evaluación Educacional COLMEE, Santiago, Chile, Octubre 5, 2012
UCLA Graduate School of Education & Information Studies
‹Nr.›/27
University of California, Los Angeles
Indice
• Evaluación Docente: Contexto • Métodos de Evaluación Docente
• Consideraciones Conceptuales y Metodológicas
• Porque Evaluar, Que Evaluar, Como Evaluar
• Indicadores Múltiples y Validez • Indicadores Múltiples y Confiabilidad
• Modelos de Combinación de Indicadores • Argumentos de Validez y Evidencias
• Consideraciones Finales
When pasting text from another document, do the following: 1. Highlight the text you want to replace 2. Go to the EDIT menu and select PASTE SPECIAL 3. Select “Paste as: UNFORMATTED TEXT”
‹Nr.›/27
University of California, Los Angeles
Evaluación Docente: Contexto
‹Nr.›/27
University of California, Los Angeles
Evaluacion Docente. Nueva Bala de Plata
• Alrededor del mundo se multiplican esfuerzos para desarrollar o mejorar los sistemas de evaluación docente
• Resultan de percepciones de los resultados del país en pruebas internacionales (PISA, TIMSS)…
• Se interpretan los resultados como los de una carrera
• Y supuestos acerca del rol del maestro como factor para explicar y mejorar los resultados • Correlacionado con percepciones acerca del valor de
la profesión docente; y con la fortaleza del sindicato
‹Nr.›/27
University of California, Los Angeles
Ejemplos Notables
• Estados Unidos • Race to the Top (2010)
• New York, Los Angeles, Chicago (2012) • Denver (2010) • Toledo, Cincinnati (1990’s)
• A nivel internacional • Singapur (2006) • Chile (2003) • Mexico (1993,2009)
‹Nr.›/27
University of California, Los Angeles
Métodos de Evaluación Docente
‹Nr.›/27
University of California, Los Angeles
Porque Evaluar?
• Distintas motivaciones, inferencias y usos • Ayudar a los docentes a mejorar aspectos
deficientes en su practica • Desvincular a docentes con problemas serios
persistentes • Incentivar a los mejores docentes • Orientar el desarrollo profesional de los docentes • Informar las políticas educativas • Identificar y propagar las practicas efectivas
• O cualquier combinación de las anteriores.
‹Nr.›/27
University of California, Los Angeles
Que Evaluar?
• Competencias Docentes (Reynolds, 1999): • Conocimiento: Sujeto, Pedagógico • Habilidad: Conocimiento aplicado • Disposición: Actitudes, Percepciones, Creencias • Practicas: Procesos de Aula (e.g. instrucción,
evaluación en aula, manejo)
• Y .. • Antigüedad, Preparación • Ciudadanía, contribuciones a la comunidad • Efectividad: Habilidad de mejorar el aprendizaje
de sus alumnos
‹Nr.›/27
University of California, Los Angeles
Constructos del Docente (Que?)
Medidas (Como?)
Conocimiento (Sujeto, pedagogico) Abilidad (conocimiento aplicado)
Pruebas Estandarizadas Pruebas de Rendimiento Vinetas
Practicas, Procesos de Aula (instruccion, evaluacion, manejo)
Encuestas, Bitacoras Observacion en Aula, Video Artefactos, Portafolios
Disposicion (Creencias, actitudes) Encuestas, Entrevistas
Ciudadania (contribucion a la comunidad)
Encuestas, Entrevistas, Autoevaluacion
Efectividad (contribucion al aprendizaje de los alumnos)
Pruebas Estandarizadas; “Valor Agregado”
Como Evaluar?
‹Nr.›/27
University of California, Los Angeles
Encuestas
• El método mas común para recoger información sobre la practica docente • Menor costo y menor carga para el docente • Adecuada confiabilidad, Validez cuestionable
• Comienzan a explorarse encuestas de alumnos (Gates Foundation,2011; Martínez, 2012)
• Interesantes tanto por confiabilidad como validez • Capturan practicas diferenciadas en el aula • Mayor costo
• Encuestas de padres?
‹Nr.›/27
University of California, Los Angeles
Observacion en Aula
• En vivo o video • Captura directamente las dimensiones
cuantitativas y cualitativas de la enseñanza • Identificar áreas a mejorar • Informar el desarrollo profesional
• Contraparte explicativa y formativa a los MVA
• Tal vez demasiadas dimensiones • Error de juicio, menor confiabilidad que la encuesta
• Correlación débil con otros indicadores, incluido el puntaje de los alumnos (Kane et al. 2010)
‹Nr.›/27
University of California, Los Angeles
Observacion en Aula: Dimensiones Singapur
• Nurturing the Whole Child • Core Competency! • Share values with student • Take action to develop the student • Act consistently in the student’s interest
• Cultivating Knowledge • Subject Mastery • Analytical Thinking • Initiative • Teaching Creatively
• Working with Others • Partnering with Parents • Working in Teams
• Winning Hearts and Minds • Understanding the Environment • Developing Others
• Knowing Self and Others • Emotional Intelligence
Danielson
Planning and Preparation
• Demonstrating Knowledge of Content and Pedagogy
• Demonstrating Knowledge of Students • Selecting Instructional Goals • Demonstrating Knowledge of Resources • Designing Coherent Instruction • Assessing Student Learning
Classroom Environment • Creating Environment of Respect and Rapport • Establishing a Culture for Learning • Managing Classroom Procedures • Managing Student Behavior • Organizing Physical Space
Instruction • Communicating Clearly and Accurately • Using Questioning and Discussion Techniques • Engaging Students in Learning • Providing Feedback to Students • Demonstrating Flexibility and Responsiveness
Professional Responsibilities
‹Nr.›/27
University of California, Los Angeles
Confiabilidad de las Observaciones (Estudio MET)
(Source: Bill and Melinda Gates Foundation, 2011)
‹Nr.›/27
University of California, Los Angeles
MET Reliability Findings Cont.
(Source: Bill and Melinda Gates Foundation, 2011)
‹Nr.›/27
University of California, Los Angeles
El Portafolio Docente
Que contiene? Artefactos del aula (plan de instruccion, tareas, trabajo del alumno, etc.) Reflexiones del docente (referidas a los artefactos) Encuesta o Bitácora (practicas docentes diarias, actitudes, percepciones)
vs. Encuestas
Información mas rica, Validez Valor para Desarrollo Profesional Mayor costo Error humano en la calificación Mas demandante para el docente
vs. Observación en Aula Menor Costo Mejor Cobertura Valor para Desarrollo Profesional No llega a practicas no verbales o interactivas Mas demandante para el docente
• Compila evidencia de la practica docente para una unidad de instrucción o periodo de tiempo determinado
‹Nr.›/27
University of California, Los Angeles
Coeficientes de Confiabilidad (t*r*n, 2 portafolios)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0 1 2 3 4
Con
fiab
ilid
ad
Calificadores
Nested
Nested
Nested
Retroalim. General
Explicacion
Fuente: Martinez, Borko, Stecher, Luskin, Kloser (2012)
‹Nr.›/27
University of California, Los Angeles
Modelos de Valor Agregado
• Lógica Simple: • Los alumnos progresan mas en unas aulas
que otras (Weisberg et al. 2009; Kane et.al. 2011)
• El aprendizaje de los alumnos debería ser el criterio clave para evaluar la calidad docente
• Método Simple?: • SI se tienen datos longitudinales … • Compara docentes con base en el progreso
de sus alumnos, no sus puntajes brutos
‹Nr.›/27
University of California, Los Angeles
Modelos de Valor Agregado
• Baja confiabilidad (Schochet & Chiang; 2010)
• Correlación interanual: 0.4 – 0.7
• No causales (Stuart, Rubin,Zanutto,2004)
• No efectos del docente, sino promedios-aula
• No explicativos (Goe, 2011)
• No alcanzan a todos los docentes • 30-40% en los EU (Prince et al. 2006)
• Vista parcial del aprendizaje (!) (Baker et. al. 2010)
‹Nr.›/27
University of California, Los Angeles
Cual de los metodos es mejor?
• Ninguno es inherentemente preferible • Cada uno ofrece una imagen parcial del
constructo global que se pretende medir • Cada uno ofrece ventajas y desventajas
• Consistencia y confiabilidad • Cobertura de constructo(s) • Costo e implicaciones practicas y logísticas
• Una imagen mas completa requiere del uso de mas de uno de estos indicadores • Una evaluación útil requiere una imagen completa
‹Nr.›/27
University of California, Los Angeles
• “En el contexto educativo, ninguna decisión descripción que tendrá un impacto significativo de deberá hacer con base en un solo puntaje o medida. Otra información relevante deberá tomarse en cuenta si esta mejora la validez de la decisión.”
Standards for Educational and Psychological Testing, Standard 13.7
(AERA, APA, & NCME, 1999)
‹Nr.›/27
University of California, Los Angeles
Indicadores Multiples: Confiabilidad y Validez
‹Nr.›/27
University of California, Los Angeles
Validez
• Como saber que se esta haciendo un buen trabajo al evaluar a los docentes • Son validas nuestras inferencias y decisiones?
“Un juicio evaluativo integrado que refleja el grado
en que la evidencia empírica y teórica sugiere que las inferencias y acciones basadas en los puntajes son apropiadas.”
Messick (1989)
‹Nr.›/27
University of California, Los Angeles
Indicadores Multiples : Supuestos
Precisión Validez Retroalimentación Relevancia
-Clasificar a los docentes en categorías mas finas y estables (De Pascale, 2012; Steele et. al. 2010) -Imagen mas completa de calidad docente (Goe, 2011) -Menor incentivo para el fraude (Steele et. al. 2010) - Ayudar al maestro a ajustar y mejorar sus estrategias y practicas en el aula (Duncan, 2011) - Mayor confianza en los resultados de la evaluación (Glazerman et. al. 2011)
• Supuesto General: • Combinar indicadores múltiples conduce a decisiones
mejor informadas (mas validas) sobre los docentes
‹Nr.›/27
University of California, Los Angeles
Indicadores Multiples y Validez
• Mejora la validez al combinar indicadores? • En que medida y en que forma, en que condiciones o
contextos, como lo sabemos?
• Depende de varios factores • Supuestos acerca de los constructos que se miden • Inferencias y usos que se buscan • Que quiere decir combinar (Brookhart, 2009)
• No es obvio, no se explica por si mismo • Varios modelos alternativos en psicología, evaluación de
personal, pruebas • Empiezan a adaptarse a la evaluación docente
‹Nr.›/27
University of California, Los Angeles
Modelos basicos para combinacion de Indicadores Multiples
Modelo Descripcion
Conjuntivo
Se debe satisfacer el criterio (pasar) con todos
los indicadores Disyuntivo
Se debe satisfacer el criterio (pasar) con ciertos
(o un cierto numero de) indicadores Compensatorio
Medida compuesta. Un indicador con puntaje
alto compensa otros con puntaje menor Hibrido(Complejo)
e.g. Compensatorio-conjuntivo, Secuencial
(Mehrens, 1989; Chester, 2003)
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 0: No Combinar
• El primer modelo a considerar consiste en no combinar los indicadores • Crear índices o inferencias sintéticos no es
necesario (evaluación formativa o sumativa) • Los indicadores pueden recogerse, mantenerse,
reportarse, y usarse por separado (e.g. para desarrollo profesional, mejora docente)
• En cada caso con conocimiento pleno de la precisión (y calidad) del indicador
• Y conjuntamente según se considere adecuado para juicios de tipo sumativo
(Mehrens, 1989; Brookhart, 2009)
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 1: Conjuntivo, Disyuntivo
27
Artefactos/ Portafolio
Observacion en Aula
Encuesta Docente
Otros Indicadores
Encuesta alumnos/padres
Puntaje de los alumnos
‹Nr.›/27
University of California, Los Angeles
Reglas de Decision y Confiabilidad
• El error de los indicadores puede anularse mutuamente o combinarse • Docente A: Puntaje Real satisfactorio para I1, I2 • Probabilidad de Puntaje Observado satisfactorio
0.80 y 0.90, respectivamente (error de medición) • Probabilidad de satisfacer criterio con ambos
indicadores (Model Conjuntivo): 0.8*0.9=0.72 • Probabilidad de satisfacer criterio para un
indicador (Modelo Disyuntivo): 1-[0.2*0.1]=0.98
(e.g. Cronbach, Linn, Brennan, & Haertel, 1997; Douglas y Mislevy, 2010)
‹Nr.›/27
University of California, Los Angeles
Reglas de Decision y Confiabilidad
• Este es un escenario simplista. En la practica suelen usarse reglas complejas • e.g.: El docente deberá satisfacer el criterio
(“pasar”) para el Indicador 1 o el 2, Y no estar en la parte mas baja de la distribución en el 3.
• e.g. New Haven • Estas complican la evaluación de la confiabilidad y
precisión de las inferencias • Probabilidades condicionales y correlaciones entre
indicadores
‹Nr.›/27
University of California, Los Angeles
Sistema Hibrido/Complejo: New Haven • Sintetiza tres indicadores (c/u con escala 1-5):
• Practica Docente - Instrucción (Observación)
• Valores Profesionales del Docente (Director del centro)
• Aprendizaje de los alumnos (Ganancia en puntajes agregados)
‹Nr.›/27
University of California, Los Angeles
Reglas de Decision y Confiabilidad
• El modelo de combinación es mas importante para la precisión de las inferencias resultantes que la propia confiabilidad de las medidas (Chester, 2003)
• Cada modelo incluye elementos de juicio • Porque se requiere satisfacer k criterios y no k-1?
porque esos criterios en particular?
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 2 (Compensatorio): “Componentes Principales/Analisis Factorial”
32
Artefactos/ Portafolio
Encuesta alumnos/padres
Observacion en Aula
Encuesta Docente
Otros Indicadores Aprendizaje
del alumno
Constructo Docente
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 3 (Compensatorio): Peso Optimo (Puntajes como Criterio)
33
Puntajes del Alumno
Artefactos/ Portafolio
Encuesta alumnos/padres
Observacion en Aula
Encuesta Docente
Constructo Docente
Otros Indicadores
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 3 (Compensatorio): Peso Optimo (Puntajes como Criterio)
34
Puntajes del Alumno
Artefactos/ Portafolio
Encuesta alumnos/padres
Observacion en Aula
Encuesta Docente
Constructo Docente
Otros Indicadores
β
β β
β
β
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 3b (Compensatorio): Puntajes como indicador y criterio (MET)
35
Puntajes (t-1 / aula A2) Artefactos/
Portafolio
Observacion en Aula
Encuesta Docente
Constructo Docente
Otros Indicadores
Encuesta alumnos/padres
Puntajes del Alumno
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 4 (Compensatorio): CP/AF: Puntajes como Indicador
36
Artefactos/ Portafolio
Observacion en Aula
Encuesta Docente
Otros Indicadores
Encuesta alumnos/padres
Constructo Docente
Puntajes del Alumno
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 5 (Compensatorio): SEM/Correlaciones Canonicas
37
Indicador del alumno #2
Otros (e.g. no- cognitivos)
Indicador del alumno #1
Student Outcomes
Artefactos/ Portafolio
Observacion en Aula
Encuesta Docente
Constructo Docente
Otros Indicadores
Encuesta alumnos/padres
‹Nr.›/27
University of California, Los Angeles
Modelo de Combinacion 2 (Compensatorio): Criterio no medible, pesos teoricos
Puntajes del Alumno
Constructo Docente No
Medible
(Darlington, 1970)
Observacion en Aula
Encuesta Docente
Otros Indicadores Artefactos/
Portafolio
Encuesta Alumno/Padres
‹Nr.›/27
University of California, Los Angeles
Pesos Empiricos vs. Teoricos
• No existe una medida criterio de alta calidad para derivar pesos empíricamente • Los modelos 3a y 3b asumen lo contrario • Pero no establecen el peso correcto para el
criterio. Este aun se determina teóricamente
• El Modelo 6 es el de mas probable uso por necesidad metodológica y política • Consideraciones y consensos políticos y prácticos
intervienen junto a criterios técnicos • Debemos desarrollar indicadores de calidad e
informar el debate sobre sus usos apropiados
‹Nr.›/27
University of California, Los Angeles
“Las pruebas estandarizadas tienen un lugar al hacer juicios sobre los docentes; es el peso y el balance de estas y otros indicadores lo que hace la diferencia. Hemos tenido esa conversación en L.A. sobre los pesos apropiados y este año llegaremos a una conclusión... [El reto] es decidir que factores intervienen en esa decisión. Yo puedo decir que [las pruebas] no deben tener la mayoría del peso. Pero tampoco creo que deba ser nada. Si tengo que hacer un juicio personal, debería ser menor de 30 por ciento y el resto asignado a los factores con los que estamos mas familiarizados y cuyo comportamiento entendemos mejor”
John Deasy
Distrito Escolar de Los Angeles
‹Nr.›/27
University of California, Los Angeles
Indicadores Multiples y Validez
• Cada modelo puede generar compuestos, y por tanto inferencias diferentes
• Como con cualquier indicador, la validez de un compuesto de indicadores se verifica en base a un argumento (Kane, 2006) • 1. Describir como se interpretara el indicador, los
usos y CONSECUENCIAS esperadas • 2. Colectar evidencia empírica que sustente el
argumento.
‹Nr.›/27
University of California, Los Angeles
Que tipos de evidencia? • Todos ellos. La validez es un concepto
unitario, asociado a un uso especifico • Soporte teórico • Representación adecuada de los constructos • Consistencia y precisión (Confiabilidad) • Patrón de correlaciones entre indicadores • Patrón de correlaciones con otras variables… • etc • Y también las consecuencias del uso
• Es válido un indicador si las consecuencias difieren marcadamente de las esperadas?
‹Nr.›/27
University of California, Los Angeles
Que consecuencias? • Esperadas o Deseadas
• Impacto en practicas docentes • Impacto en rango de indicadores de alumnos • Uso como parte de politicas de alto impacto • Impacto en reclutamiento y retencion • Percepcion de validez y utilidad en el D.P.
• No esperadas o Deseadas • Competencia, Fraude • Desmotivacion, apatia • Impacto en indicadores de docentes y alumnos • Percepcion social de validez y utilidad • …
‹Nr.›/27
University of California, Los Angeles
• Consideraciones Finales
‹Nr.›/27
University of California, Los Angeles
Conclusion: Porque Evaluar a los Docentes?
• Hay buenas razones para hacerlo • Cultura de responsabilidad, reflexión y mejora • Informar el desarrollo profesional para mejorar la
práctica docente • Hacer prioritario el aprendizaje de los alumnos
• Sin embargo: • La simple combinación de indicadores falibles no
resulta en inferencias mejores o menos falibles. • Pero si en inferencias mas complejas
• El uso conjunto de indicadores presenta retos técnicos pero también prácticos y políticos
‹Nr.›/27
University of California, Los Angeles
Conclusion: Porque Evaluar a los Docentes?
• Precisamente porque “el futuro de nuestros niños esta en juego” (_____, 2012) debemos proceder con cautela (y con pausa).
• Desarrollar buenos indicadores requiere de tiempo • Implementar sistemas de evaluación solidos
basados en estos indicadores requiere mas tiempo • Evaluar las consecuencias (conocidas y no) de
implementar estos sistemas requerirá aun mas tiempo, cuidado y paciencia.
‹Nr.›/27
University of California, Los Angeles
Conclusion: Porque Evaluar a los Docentes?
• Es nuestra (difícil) tarea comunicar las aristas complejas y ambiguas de la evaluación docente • Autoridades, Docentes, y Prensa
• Enfocar la discusión en la validez de las inferencias y las consecuencias del uso
• No solo para evitar decisiones injustas y resultados no deseados…
• El riesgo mayor es dejar pasar la oportunidad de influenciar positiva y significativamente la calidad de la enseñanza y aprendizaje