sicometía taller

Taller 2.

1. Definir el concepto de validez

R/.

Es cuando se aplica a una prueba se refiere a un juicio concerniente a lo bien que

mide de hecho una prueba lo que pretende medir. De manera más específica, es

un juicio basado en evidencia sobre lo aprobado de las inferencias extraídas de

las puntuaciones de prueba.

2. Diferenciar los conceptos de validez y validación en la medición

R/.

La validez es dada o más conocida como un término “aceptable” o “débil”

reflejando un juicio en lo adecuado que está emitiendo en realidad el atributo para

cuya medición estaba diseñada la prueba.

Validación es el proceso de recopilación de la evidencia de validez. Tanto quien

elabora la prueba como el administrador de la misma pueden desempeñar una

función en la validación de una prueba para un propósito específico. Es

responsabilidad del elaborador de la prueba suministrar evidencia de la validez en

el manual de la misma.

3. Explicar el concepto de validez aparente y ejemplificar

R/.

Juicio concerniente a los relevantes que parecen ser los reactivos de la prueba.

Permite establecer la validez de una prueba a partir de la opinión intuitiva de

individuos, incluso no expertos, alumnos, administradores de la prueba, etc.-,

sobre ella. Su objetivo es medir cuán representativo es un proyecto de

investigación "en apariencia" y si parece ser un buen proyecto o no.

Ejemplo: imagina un artículo de investigación sobre el Calentamiento Global. Una

persona común puede leerlo y pensar que se trata de un experimento fuerte que

destaca los procesos detrás del Calentamiento Global.

Por el contrario, un profesor de climatología distinguido podría leerlo y considerar

que el artículo y el razonamiento detrás de las técnicas son muy precarios.

4. Explicar el concepto de validez de contenido y ejemplifique y explicar la cuantificación de validez de contenido.

R/.

La validez de contenido describe un juicio concerniente a lo adecuado del

muestreo que hace una prueba del comportamiento representativo del universo

del comportamiento del que la prueba estaba diseñada para tomar una muestra.

La validez de contenido se utiliza principalmente con test de rendimiento, y

especialmente con los test educativos y test referidos al criterio. En este tipo de

test se trata de comprobar los conocimientos respecto a una materia o un curso.

La validez de contenido descansa generalmente en el juicio de expertos (métodos

de juicio). Se define como el grado en que los ítems que componen el test

representan el contenido que el test trata de evaluar. Por tanto, la validez de

contenido se basa en (a) la definición precisa del dominio y (b) en el juicio sobre el

grado de suficiencia con que ese dominio se evalúa.

Por ejemplo, una prueba de educación con una fuerte validez de contenido incluirá

los temas realmente enseñados a los estudiantes, en lugar de hacer preguntas sin

relación. Una escuela quiere contratar a un nuevo profesor de ciencias y un panel

de directores comienza a analizar a los distintos candidatos. Elaboran una lista

acotada y luego diseñan una prueba, donde escogen al candidato con la mejor

puntuación. Lamentablemente, éste demuestra ser un maestro de ciencias

extremadamente mediocre.

La cuantificación de la validez de contenido tiene relevancia ya que uno de estos

métodos de contenido fue hecho por Lawshe (1975), quien propuso una fórmula

simple para cuantificar el grado de consenso pidiendo a un grupo de expertos que

puedan determinar la validez de contenido de una prueba.

5. ¿Cómo influye la cultura en la validación de una prueba?

R/.

La influencia de la cultura en lo que enseña a los estudiantes, al igual que aspecto

de construcción, calificación, interpretación y validación de pruebas. La influencia

de la cultura se extiende por tanto a juicios concernientes a la validez de las

pruebas y reactivos de pruebas.

Lo que se considera una prueba de historia válida en un salón de clases no será

considerada así en otro. Es más, las interpretaciones hechas con base en las

respuestas de quién responde las pruebas variarán como función de la cultura en

la que se encuentre el individuo.

6. ¿Qué se entiende por criterio de medición, cuáles son sus características? y ejemplifique.

R/.

La validez de criterio evalúa si una prueba refleja un cierto conjunto de habilidades

o no. Para medir el criterio de validez de una prueba, los investigadores deben

compararlo con un estándar conocido o con él mismo. Una de las formas más

sencillas de evaluar la validez relacionada con el criterio es compararla con un

estándar conocido.

Comparar la prueba con una medida establecida recibe el nombre de validez

concurrente; probarla durante un período de tiempo se denomina validez

predictiva. No es necesario utilizar ambos métodos. Uno es suficiente si el diseño

experimental es fuerte.

Para los investigadores de mercado, la validez de criterio es crucial y puede crear

o destruir un producto.

EJEMPLO DE LA VIDA REAL: Cuando Coca-Cola decidió cambiar el sabor de

su bebida distintiva. Con diligencia, investigaron si a la gente le gustaba el nuevo

sabor por medio de pruebas de sabor y cuestionarios. A la gente le encantó el

nuevo sabor, entonces Coca-Cola se apuró a comenzar con la producción de la

Nueva Coca, lo que fue un fracaso enorme. El error que Coca cometió fue que se

olvidó de la validez de criterio y omitió una pregunta importante en la encuesta. No

se les preguntó a las personas si preferían el nuevo sabor al antiguo, un fracaso

en establecer la validez concurrente. La Vieja Coca, conocida por su popularidad,

era el punto de referencia perfecto, pero nunca fue utilizado. Con una simple

prueba de sabor, vendándoles los ojos a las personas y preguntándoles cuál sabor

de los dos preferían, Coca-Cola se habría ahorrado millones de dólares. En última

instancia, la validez predictiva también fue mediocre, porque sus resultados

buenos no se correlacionaron con las ventas bajas. Para entonces, ¡ya era

demasiado tarde!

7. ¿En qué consiste la validez concurrente?

R/.

La validez concurrente mide qué tan bien una prueba determinada se correlaciona

con una medida reconocida previamente. Las pruebas son para los mismos

constructos o algunos estrechamente relacionados y permiten que un investigador

valide métodos nuevos contra un incondicional ya examinado y probado. Por

ejemplo, una nueva prueba de inteligencia podría ser comparada estadísticamente

con una prueba de CI estándar.

8. ¿Qué se entiende por validez predictiva y como se explica el coeficiente de validez incremental?

R/.

La validez predictiva implica probar a un grupo de sujetos para un determinado

constructo y luego compararlos con los resultados obtenidos en algún momento

posterior. El uso más común de la validez predictiva es inherente al proceso de

selección de estudiantes para la universidad. La mayoría de las universidades

utiliza un promedio de calificaciones de la escuela secundaria para decidir qué

estudiantes aceptar, para encontrar a los estudiantes más brillantes y estudiosos.

En este proceso, la hipótesis básica es que un alumno secundario con un

promedio de calificaciones alto tendrá calificaciones altas en la universidad.

El coeficiente de validez es un coeficiente de correlación que proporciona una

media de la relación entre las puntuaciones de prueba y las puntuaciones en la

medida criterio. Para este caso la correlación seria que un investigador toma las

calificaciones obtenidas después del primer año de estudios y las compara con los

promedios de calificaciones de la escuela secundaria. Una correlación alta indica

que el proceso de selección funcionó a la perfección, mientras que una correlación

baja significa que hay algo mal en el enfoque. La mayoría de los estudios muestra

que existe una correlación fuerte entre las dos y la validez predictiva del método

es elevada, aunque no perfecta. Intuitivamente, esto parece lógico: estudiantes

que antes eran excelentes pueden extrañar su casa o pasar el primer año

bebiendo cerveza. Por otro lado, estudiantes a los que antes no les iba bien, ahora

pueden ser estudiosos y esforzarse mucho porque se sienten cómodos con la

libertad del ambiente universitario.

9. ¿En qué consiste la teoría de las decisiones y utilidad de las pruebas?

R/.

El concepto de utilidad en la teoría de la decisión. Una característica de la teoría

de la decisión es que las pruebas se evalúan en términos de su eficacia en una

situación particular. La evaluación no solo toma en consideración la validez de la

prueba para predecir un criterio particular, sino también otros parámetros, como la

tasa base y razón de selección. Otro parámetro importante es la relativa utilidad de

los resultados esperados, lo favorable o desfavorable de los esperados resultados.

La falta de sistemas adecuados para asignar valores de los resultados en términos

de una escala uniforme de utilidad ha sido uno de los principales obstáculos a la

teoría de la decisión.

10. Explicar el concepto de validez de constructo y cuáles son las evidencias de la validez de constructo y como se evidencia la validez de constructo y que se entiende por homogeneidad, evidencia de cambios con la edad.

R/.

La validez de constructo define si una prueba o experimento está a la altura de sus

pretensiones o no. Se refiere a si la definición operacional de una variable refleja

realmente el significado teórico verdadero de un concepto. Se refiere a si una escala o prueba mide el constructo correctamente. La forma más sencilla de

pensar en ella es como una prueba de generalización, como la validez externa,

pero evalúa si el experimento se ocupa de la variable que estás probando. Por

ejemplo, tal vez quieras analizar si un programa educativo aumenta la capacidad

artística de los niños en edad preescolar. La validez de constructo es una medida

sobre si tu investigación realmente mide la capacidad artística, una calificación un

poco abstracta.

Se puede evidenciar la validez de un constructor por medio de un estudio de

intervención, donde se prueba un grupo con puntuaciones bajas en el constructo,

se le enseña el constructo y se vuelve a medir. Si existe una diferencia

significativa entre la prueba anterior y la posterior, analizadas generalmente con

pruebas estadísticas simples, esto demuestra una buena validez de constructo.

Establecer una buena validez de constructo es cuestión de experiencia y juicio, de

construir la mayor cantidad de pruebas de apoyo como sea posible. Se utiliza toda

una serie de coeficientes y herramientas estadísticas para demostrar una fuerte

validez de constructo y los investigadores continúan hasta que sienten que han

encontrado el equilibrio entre probar la validez y la practicidad.

11. En qué consiste la evidencia de pre pruebas, pos pruebas, evidencias de grupos distintos, evidencia convergente, evidencia discriminante y análisis factoriales.

R/.

La evidencia de pre pruebas y pos pruebas que muestra que las puntuaciones de

las pruebas cambian como resultado de alguna experiencia entre una pre prueba y

una pos prueba puede ser evidencia de validez de constructo. Algunas de las

experiencias intermedias más comunes responsables de los cambios en la

puntuación de la prueba son la educación formal, un proceso de psicoterapia o la

administración de medicamentos y la experiencia en el trabajo. Por supuesto,

dependiendo del constructo que se está midiendo, podría parecerse que casi

cualquier experiencia que intervenga en la vida producirá cambios en la

puntuación del pre prueba al pos prueba.

La evidencia de grupos distintos también conocido como el “método de grupo

contrastados”, una forma de proporcionar evidencia de la validez de una prueba es

demostrar que las puntuaciones en la prueba varían en una forma predecible

como una función de la pertenencia de algún grupo. El razonamiento aquí es que

si una prueba es una medida valida de un constructo particular, entonces las

puntuaciones de la prueba de grupos de personas que se supone que difieren con

respecto a ese constructo tendrían puntuaciones de pruebas

correspondientemente diferentes.

La evidencia de convergencia para la validez de constructo de una prueba

particular puede provenir de diversas fuentes, en otras pruebas o medidas

diseñadas para evaluar el mismo constructo (o uno similar). Por tanto, si las

puntuaciones en la prueba sometida a validación de constructo tienden a

correlacionarse altamente en la dirección predicha con las puntuaciones en

pruebas anteriores, más establecidas y ya validas diseñadas para medir el mismo

constructo (uno similar), este sería un ejemplo de evidencia convergente.

La evidencia discriminante un coeficiente de validez que muestra poca relación

(estadísticamente significante) entre puntuaciones de pruebas u otras variables

con las que las puntuaciones de las pruebas que está sometido a validez de

constructo no debería correlacionarse desde el punto de vista teórico

proporcionará evidencia discriminativa de la validez de un constructo (también

conocida como validez discriminativa).

Análisis factorial. La evidencia convergente discriminativa de la validez de

constructo puede obtenerse por medio del uso del análisis factorial. Es un término

abreviado en singular que es usado para describir una clase de procedimientos

matemáticos que están diseñados para identificar factores o variables específicas

que comúnmente son atributos, características o dimensiones en las pueden diferir

las personas, es empleado con frecuencia como un método de reducción de datos

en que son analizados varios conjuntos de puntuaciones y correlaciones entre

ellos.

12. ¿Qué se entiende por validez y sesgos de las pruebas?

R/.

Puede definirse como el grado de precisión que una medición ofrece; para ser

fiable, una escala debe tener la capacidad de exhibir resultados consistentes en

mediciones sucesivas del mismo fenómeno. Puede determinarse mediante un

coeficiente de confiabilidad, el cual corresponde a un índice, que bajo la forma de

proporción, da cuenta de la razón entre la varianza de la puntuación verdadera de

la escala y la varianza total. Tiene como objetivo determinar, probabilísticamente,

el grado de variación atribuible a errores aleatorios o causales no vinculados a la

construcción del instrumento. Garantiza la consistencia expresada en la

determinación del grado de error contenido en la aplicación de una escala, y por

tanto, en la medición del fenómeno. El error puede ser entendido como el

componente de la puntuación observada en la medición que no se relaciona con la

capacidad que posee quien la responde.asi pues se determina la fiabilidad de las

puntuaciones obtenidas a través de una sola administración del test. Generaliza

las puntuaciones respecto de un dominio o conjunto de ítems y observar si los

sujetos responden consistentemente a lo largo del conjunto de ítems utilizados.

Estos procedimientos operan considerando las correlaciones entre diversas partes

del test, para lo cual existen dos caminos, la división en dos mitades y

la consideración del universo de ítems.

TOMADO DE: http://www.hrc.es/bioest/roc_3.html-

Sesgos en la evaluación de pruebas diagnósticas

Los más frecuentes en este tipo de estudio son:

Sesgo de confirmación diagnóstica al limitar el estudio a los pacientes a quienes se les hizo en su día el "gold standard" que suelen ser los que más probablemente tengan la enfermedad, por tanto las pruebas positivas están sobre-representadas (sobreestimación de la sensibilidad) y las negativas infra-representadas (infraestimación de la especificidad). Frecuentemente es imposible evitarlo por razones éticas. Hay técnicas matemáticas complejas para controlarlo.

Sesgo de interpretación de las pruebas si no se hacen independientemente.

Sesgo debido a resultados no interpretables de la prueba problema si dicho problema no tiene la misma frecuencia en ambos grupos.

Ausencia de gold standard definitivo.

Condiciones de generalización

Espectro de la enfermedad ("Case mix") Una prueba puede tener distintos grados de exactitud para diferentes grados de severidad de la enfermedad. Deben siempre comunicarse las características clínicas de los pacientes incluidos en el estudio.

Variabilidad interobservador: Todas las pruebas (unas más que otras) requieren cierto grado de pericia en su realización e interpretación. Dos observadores pueden ser igualmente exactos pero ser uno más sensible o específico que otro, en otras palabras operar con la misma curva ROC pero en puntos distintos o pueden tener distinta exactitud (operar en la misma prueba con distinta curva ROC).

TALLER 2

MARÍA ALEJANDRA GARZÓN VALVERDE.

QUINTO SEMESTRE.

GRUPO: A

MÓNICA DOMÍNGUEZ

PSICOMETRÍA

SEPTIEMBRE 22

CORPORACIÓN UNIVERSITARIA DEL CARIBE. CECAR

FACULTAD DE HUMANIDADES.

PSICOLOGÍA

SINCELEJO – SUCRE.

2014.

sicometía taller

Documents