Download - Evaluación Docente y Validez: Aspectos Conceptuales … · Encuesta o Bitácora (practicas docentes diarias, actitudes, percepciones) vs. Encuestas ... • Cada uno ofrece una imagen

‹Nr.›/27

University of California, Los Angeles

Evaluación Docente y Validez: Aspectos Conceptuales y Metodológicos

José Felipe Martínez University of California, Los Angeles Graduate School of Education

1er Congreso Latinoamericano de Medición y Evaluación Educacional COLMEE, Santiago, Chile, Octubre 5, 2012

UCLA Graduate School of Education & Information Studies

‹Nr.›/27


Indice

•  Evaluación Docente: Contexto •  Métodos de Evaluación Docente

•  Consideraciones Conceptuales y Metodológicas

•  Porque Evaluar, Que Evaluar, Como Evaluar

•  Indicadores Múltiples y Validez •  Indicadores Múltiples y Confiabilidad

•  Modelos de Combinación de Indicadores •  Argumentos de Validez y Evidencias

•  Consideraciones Finales

When pasting text from another document, do the following: 1.  Highlight the text you want to replace 2.  Go to the EDIT menu and select PASTE SPECIAL 3.  Select “Paste as: UNFORMATTED TEXT”

‹Nr.›/27


Evaluación Docente: Contexto

‹Nr.›/27


Evaluacion Docente. Nueva Bala de Plata

•  Alrededor del mundo se multiplican esfuerzos para desarrollar o mejorar los sistemas de evaluación docente

•  Resultan de percepciones de los resultados del país en pruebas internacionales (PISA, TIMSS)…

•  Se interpretan los resultados como los de una carrera

•  Y supuestos acerca del rol del maestro como factor para explicar y mejorar los resultados •  Correlacionado con percepciones acerca del valor de

la profesión docente; y con la fortaleza del sindicato

‹Nr.›/27


Ejemplos Notables

•  Estados Unidos •  Race to the Top (2010)

•  New York, Los Angeles, Chicago (2012) •  Denver (2010) •  Toledo, Cincinnati (1990’s)

•  A nivel internacional •  Singapur (2006) •  Chile (2003) •  Mexico (1993,2009)

‹Nr.›/27


Métodos de Evaluación Docente

‹Nr.›/27


Porque Evaluar?

•  Distintas motivaciones, inferencias y usos •  Ayudar a los docentes a mejorar aspectos

deficientes en su practica •  Desvincular a docentes con problemas serios

persistentes •  Incentivar a los mejores docentes •  Orientar el desarrollo profesional de los docentes •  Informar las políticas educativas •  Identificar y propagar las practicas efectivas

•  O cualquier combinación de las anteriores.

‹Nr.›/27


Que Evaluar?

•  Competencias Docentes (Reynolds, 1999): •  Conocimiento: Sujeto, Pedagógico •  Habilidad: Conocimiento aplicado •  Disposición: Actitudes, Percepciones, Creencias •  Practicas: Procesos de Aula (e.g. instrucción,

evaluación en aula, manejo)

•  Y .. •  Antigüedad, Preparación •  Ciudadanía, contribuciones a la comunidad •  Efectividad: Habilidad de mejorar el aprendizaje

de sus alumnos

‹Nr.›/27


Constructos del Docente (Que?)

Medidas (Como?)

Conocimiento (Sujeto, pedagogico) Abilidad (conocimiento aplicado)

Pruebas Estandarizadas Pruebas de Rendimiento Vinetas

Practicas, Procesos de Aula (instruccion, evaluacion, manejo)

Encuestas, Bitacoras Observacion en Aula, Video Artefactos, Portafolios

Disposicion (Creencias, actitudes) Encuestas, Entrevistas

Ciudadania (contribucion a la comunidad)

Encuestas, Entrevistas, Autoevaluacion

Efectividad (contribucion al aprendizaje de los alumnos)

Pruebas Estandarizadas; “Valor Agregado”

Como Evaluar?

‹Nr.›/27


Encuestas

•  El método mas común para recoger información sobre la practica docente •  Menor costo y menor carga para el docente •  Adecuada confiabilidad, Validez cuestionable

•  Comienzan a explorarse encuestas de alumnos (Gates Foundation,2011; Martínez, 2012)

•  Interesantes tanto por confiabilidad como validez •  Capturan practicas diferenciadas en el aula •  Mayor costo

•  Encuestas de padres?

‹Nr.›/27


Observacion en Aula

•  En vivo o video •  Captura directamente las dimensiones

cuantitativas y cualitativas de la enseñanza •  Identificar áreas a mejorar •  Informar el desarrollo profesional

•  Contraparte explicativa y formativa a los MVA

•  Tal vez demasiadas dimensiones •  Error de juicio, menor confiabilidad que la encuesta

•  Correlación débil con otros indicadores, incluido el puntaje de los alumnos (Kane et al. 2010)

‹Nr.›/27


Observacion en Aula: Dimensiones Singapur

•  Nurturing the Whole Child •  Core Competency! •  Share values with student •  Take action to develop the student •  Act consistently in the student’s interest

•  Cultivating Knowledge •  Subject Mastery •  Analytical Thinking •  Initiative •  Teaching Creatively

•  Working with Others •  Partnering with Parents •  Working in Teams

•  Winning Hearts and Minds •  Understanding the Environment •  Developing Others

•  Knowing Self and Others •  Emotional Intelligence

Danielson

Planning and Preparation

•  Demonstrating Knowledge of Content and Pedagogy

•  Demonstrating Knowledge of Students •  Selecting Instructional Goals •  Demonstrating Knowledge of Resources •  Designing Coherent Instruction •  Assessing Student Learning

Classroom Environment •  Creating Environment of Respect and Rapport •  Establishing a Culture for Learning •  Managing Classroom Procedures •  Managing Student Behavior •  Organizing Physical Space

Instruction •  Communicating Clearly and Accurately •  Using Questioning and Discussion Techniques •  Engaging Students in Learning •  Providing Feedback to Students •  Demonstrating Flexibility and Responsiveness

Professional Responsibilities

‹Nr.›/27


Confiabilidad de las Observaciones (Estudio MET)

(Source: Bill and Melinda Gates Foundation, 2011)

‹Nr.›/27


MET Reliability Findings Cont.

(Source: Bill and Melinda Gates Foundation, 2011)

‹Nr.›/27


El Portafolio Docente

Que contiene? Artefactos del aula (plan de instruccion, tareas, trabajo del alumno, etc.) Reflexiones del docente (referidas a los artefactos) Encuesta o Bitácora (practicas docentes diarias, actitudes, percepciones)

vs. Encuestas

Información mas rica, Validez Valor para Desarrollo Profesional Mayor costo Error humano en la calificación Mas demandante para el docente

vs. Observación en Aula Menor Costo Mejor Cobertura Valor para Desarrollo Profesional No llega a practicas no verbales o interactivas Mas demandante para el docente

•  Compila evidencia de la practica docente para una unidad de instrucción o periodo de tiempo determinado

‹Nr.›/27


Coeficientes de Confiabilidad (t*r*n, 2 portafolios)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 1 2 3 4

Con

fiab

ilid

ad

Calificadores

Nested

Nested

Nested

Retroalim. General

Explicacion

Fuente: Martinez, Borko, Stecher, Luskin, Kloser (2012)

‹Nr.›/27


Modelos de Valor Agregado

•  Lógica Simple: •  Los alumnos progresan mas en unas aulas

que otras (Weisberg et al. 2009; Kane et.al. 2011)

•  El aprendizaje de los alumnos debería ser el criterio clave para evaluar la calidad docente

•  Método Simple?: •  SI se tienen datos longitudinales … •  Compara docentes con base en el progreso

de sus alumnos, no sus puntajes brutos

‹Nr.›/27


Modelos de Valor Agregado

•  Baja confiabilidad (Schochet & Chiang; 2010)

•  Correlación interanual: 0.4 – 0.7

•  No causales (Stuart, Rubin,Zanutto,2004)

•  No efectos del docente, sino promedios-aula

•  No explicativos (Goe, 2011)

•  No alcanzan a todos los docentes •  30-40% en los EU (Prince et al. 2006)

•  Vista parcial del aprendizaje (!) (Baker et. al. 2010)

‹Nr.›/27


Cual de los metodos es mejor?

•  Ninguno es inherentemente preferible •  Cada uno ofrece una imagen parcial del

constructo global que se pretende medir •  Cada uno ofrece ventajas y desventajas

•  Consistencia y confiabilidad •  Cobertura de constructo(s) •  Costo e implicaciones practicas y logísticas

•  Una imagen mas completa requiere del uso de mas de uno de estos indicadores •  Una evaluación útil requiere una imagen completa

‹Nr.›/27


•  “En el contexto educativo, ninguna decisión descripción que tendrá un impacto significativo de deberá hacer con base en un solo puntaje o medida. Otra información relevante deberá tomarse en cuenta si esta mejora la validez de la decisión.”

Standards for Educational and Psychological Testing, Standard 13.7

(AERA, APA, & NCME, 1999)

‹Nr.›/27


Indicadores Multiples: Confiabilidad y Validez

‹Nr.›/27


Validez

•  Como saber que se esta haciendo un buen trabajo al evaluar a los docentes •  Son validas nuestras inferencias y decisiones?

“Un juicio evaluativo integrado que refleja el grado

en que la evidencia empírica y teórica sugiere que las inferencias y acciones basadas en los puntajes son apropiadas.”

Messick (1989)

‹Nr.›/27


Indicadores Multiples : Supuestos

Precisión Validez Retroalimentación Relevancia

-Clasificar a los docentes en categorías mas finas y estables (De Pascale, 2012; Steele et. al. 2010) -Imagen mas completa de calidad docente (Goe, 2011) -Menor incentivo para el fraude (Steele et. al. 2010) - Ayudar al maestro a ajustar y mejorar sus estrategias y practicas en el aula (Duncan, 2011) - Mayor confianza en los resultados de la evaluación (Glazerman et. al. 2011)

•  Supuesto General: •  Combinar indicadores múltiples conduce a decisiones

mejor informadas (mas validas) sobre los docentes

‹Nr.›/27


Indicadores Multiples y Validez

•  Mejora la validez al combinar indicadores? •  En que medida y en que forma, en que condiciones o

contextos, como lo sabemos?

•  Depende de varios factores •  Supuestos acerca de los constructos que se miden •  Inferencias y usos que se buscan •  Que quiere decir combinar (Brookhart, 2009)

•  No es obvio, no se explica por si mismo •  Varios modelos alternativos en psicología, evaluación de

personal, pruebas •  Empiezan a adaptarse a la evaluación docente

‹Nr.›/27


Modelos basicos para combinacion de Indicadores Multiples

Modelo Descripcion

Conjuntivo

Se debe satisfacer el criterio (pasar) con todos

los indicadores Disyuntivo

Se debe satisfacer el criterio (pasar) con ciertos

(o un cierto numero de) indicadores Compensatorio

Medida compuesta. Un indicador con puntaje

alto compensa otros con puntaje menor Hibrido(Complejo)

e.g. Compensatorio-conjuntivo, Secuencial

(Mehrens, 1989; Chester, 2003)

‹Nr.›/27


Modelo de Combinacion 0: No Combinar

•  El primer modelo a considerar consiste en no combinar los indicadores •  Crear índices o inferencias sintéticos no es

necesario (evaluación formativa o sumativa) •  Los indicadores pueden recogerse, mantenerse,

reportarse, y usarse por separado (e.g. para desarrollo profesional, mejora docente)

•  En cada caso con conocimiento pleno de la precisión (y calidad) del indicador

•  Y conjuntamente según se considere adecuado para juicios de tipo sumativo

(Mehrens, 1989; Brookhart, 2009)

‹Nr.›/27


Modelo de Combinacion 1: Conjuntivo, Disyuntivo

27

Artefactos/ Portafolio

Observacion en Aula

Encuesta Docente

Otros Indicadores

Encuesta alumnos/padres

Puntaje de los alumnos

‹Nr.›/27


Reglas de Decision y Confiabilidad

•  El error de los indicadores puede anularse mutuamente o combinarse •  Docente A: Puntaje Real satisfactorio para I1, I2 •  Probabilidad de Puntaje Observado satisfactorio

0.80 y 0.90, respectivamente (error de medición) •  Probabilidad de satisfacer criterio con ambos

indicadores (Model Conjuntivo): 0.8*0.9=0.72 •  Probabilidad de satisfacer criterio para un

indicador (Modelo Disyuntivo): 1-[0.2*0.1]=0.98

(e.g. Cronbach, Linn, Brennan, & Haertel, 1997; Douglas y Mislevy, 2010)

‹Nr.›/27



•  Este es un escenario simplista. En la practica suelen usarse reglas complejas •  e.g.: El docente deberá satisfacer el criterio

(“pasar”) para el Indicador 1 o el 2, Y no estar en la parte mas baja de la distribución en el 3.

•  e.g. New Haven •  Estas complican la evaluación de la confiabilidad y

precisión de las inferencias •  Probabilidades condicionales y correlaciones entre

indicadores

‹Nr.›/27


Sistema Hibrido/Complejo: New Haven •  Sintetiza tres indicadores (c/u con escala 1-5):

•  Practica Docente - Instrucción (Observación)

•  Valores Profesionales del Docente (Director del centro)

•  Aprendizaje de los alumnos (Ganancia en puntajes agregados)

‹Nr.›/27



•  El modelo de combinación es mas importante para la precisión de las inferencias resultantes que la propia confiabilidad de las medidas (Chester, 2003)

•  Cada modelo incluye elementos de juicio •  Porque se requiere satisfacer k criterios y no k-1?

porque esos criterios en particular?

‹Nr.›/27


Modelo de Combinacion 2 (Compensatorio): “Componentes Principales/Analisis Factorial”

32



Observacion en Aula

Encuesta Docente

Otros Indicadores Aprendizaje

del alumno

Constructo Docente

‹Nr.›/27


Modelo de Combinacion 3 (Compensatorio): Peso Optimo (Puntajes como Criterio)

33

Puntajes del Alumno



Observacion en Aula

Encuesta Docente

Constructo Docente

Otros Indicadores

‹Nr.›/27


Modelo de Combinacion 3 (Compensatorio): Peso Optimo (Puntajes como Criterio)

34

Puntajes del Alumno



Observacion en Aula

Encuesta Docente

Constructo Docente

Otros Indicadores

β

β β

β

β

‹Nr.›/27


Modelo de Combinacion 3b (Compensatorio): Puntajes como indicador y criterio (MET)

35

Puntajes (t-1 / aula A2) Artefactos/

Portafolio

Observacion en Aula

Encuesta Docente

Constructo Docente

Otros Indicadores


Puntajes del Alumno

‹Nr.›/27


Modelo de Combinacion 4 (Compensatorio): CP/AF: Puntajes como Indicador

36


Observacion en Aula

Encuesta Docente

Otros Indicadores


Constructo Docente

Puntajes del Alumno

‹Nr.›/27


Modelo de Combinacion 5 (Compensatorio): SEM/Correlaciones Canonicas

37

Indicador del alumno #2

Otros (e.g. no- cognitivos)

Indicador del alumno #1

Student Outcomes


Observacion en Aula

Encuesta Docente

Constructo Docente

Otros Indicadores


‹Nr.›/27


Modelo de Combinacion 2 (Compensatorio): Criterio no medible, pesos teoricos

Puntajes del Alumno

Constructo Docente No

Medible

(Darlington, 1970)

Observacion en Aula

Encuesta Docente

Otros Indicadores Artefactos/

Portafolio

Encuesta Alumno/Padres

‹Nr.›/27


Pesos Empiricos vs. Teoricos

•  No existe una medida criterio de alta calidad para derivar pesos empíricamente •  Los modelos 3a y 3b asumen lo contrario •  Pero no establecen el peso correcto para el

criterio. Este aun se determina teóricamente

•  El Modelo 6 es el de mas probable uso por necesidad metodológica y política •  Consideraciones y consensos políticos y prácticos

intervienen junto a criterios técnicos •  Debemos desarrollar indicadores de calidad e

informar el debate sobre sus usos apropiados

‹Nr.›/27


“Las pruebas estandarizadas tienen un lugar al hacer juicios sobre los docentes; es el peso y el balance de estas y otros indicadores lo que hace la diferencia. Hemos tenido esa conversación en L.A. sobre los pesos apropiados y este año llegaremos a una conclusión... [El reto] es decidir que factores intervienen en esa decisión. Yo puedo decir que [las pruebas] no deben tener la mayoría del peso. Pero tampoco creo que deba ser nada. Si tengo que hacer un juicio personal, debería ser menor de 30 por ciento y el resto asignado a los factores con los que estamos mas familiarizados y cuyo comportamiento entendemos mejor”

John Deasy

Distrito Escolar de Los Angeles

‹Nr.›/27


Indicadores Multiples y Validez

•  Cada modelo puede generar compuestos, y por tanto inferencias diferentes

•  Como con cualquier indicador, la validez de un compuesto de indicadores se verifica en base a un argumento (Kane, 2006) •  1. Describir como se interpretara el indicador, los

usos y CONSECUENCIAS esperadas •  2. Colectar evidencia empírica que sustente el

argumento.

‹Nr.›/27


Que tipos de evidencia? •  Todos ellos. La validez es un concepto

unitario, asociado a un uso especifico •  Soporte teórico •  Representación adecuada de los constructos •  Consistencia y precisión (Confiabilidad) •  Patrón de correlaciones entre indicadores •  Patrón de correlaciones con otras variables… •  etc •  Y también las consecuencias del uso

•  Es válido un indicador si las consecuencias difieren marcadamente de las esperadas?

‹Nr.›/27


Que consecuencias? •  Esperadas o Deseadas

•  Impacto en practicas docentes •  Impacto en rango de indicadores de alumnos •  Uso como parte de politicas de alto impacto •  Impacto en reclutamiento y retencion •  Percepcion de validez y utilidad en el D.P.

•  No esperadas o Deseadas •  Competencia, Fraude •  Desmotivacion, apatia •  Impacto en indicadores de docentes y alumnos •  Percepcion social de validez y utilidad •  …

‹Nr.›/27


•  Consideraciones Finales

‹Nr.›/27


Conclusion: Porque Evaluar a los Docentes?

•  Hay buenas razones para hacerlo •  Cultura de responsabilidad, reflexión y mejora •  Informar el desarrollo profesional para mejorar la

práctica docente •  Hacer prioritario el aprendizaje de los alumnos

•  Sin embargo: •  La simple combinación de indicadores falibles no

resulta en inferencias mejores o menos falibles. •  Pero si en inferencias mas complejas

•  El uso conjunto de indicadores presenta retos técnicos pero también prácticos y políticos

‹Nr.›/27



•  Precisamente porque “el futuro de nuestros niños esta en juego” (_____, 2012) debemos proceder con cautela (y con pausa).

•  Desarrollar buenos indicadores requiere de tiempo •  Implementar sistemas de evaluación solidos

basados en estos indicadores requiere mas tiempo •  Evaluar las consecuencias (conocidas y no) de

implementar estos sistemas requerirá aun mas tiempo, cuidado y paciencia.

‹Nr.›/27



•  Es nuestra (difícil) tarea comunicar las aristas complejas y ambiguas de la evaluación docente •  Autoridades, Docentes, y Prensa

•  Enfocar la discusión en la validez de las inferencias y las consecuencias del uso

•  No solo para evitar decisiones injustas y resultados no deseados…

•  El riesgo mayor es dejar pasar la oportunidad de influenciar positiva y significativamente la calidad de la enseñanza y aprendizaje

‹Nr.›/27


Muchas Gracias [email protected]

Download - Evaluación Docente y Validez: Aspectos Conceptuales … · Encuesta o Bitácora (practicas docentes diarias, actitudes, percepciones) vs. Encuestas ... • Cada uno ofrece una imagen

Top Related