recolección de datos, validez y confiabilidad

16

Upload: hector-noriega

Post on 25-Jul-2015

146 views

Category:

Education


4 download

TRANSCRIPT

Page 1: Recolección de datos, validez y confiabilidad
Page 2: Recolección de datos, validez y confiabilidad

Recolección de datos validez y confiabilidad

1. Medición: ¿en qué consiste?

Según la herramienta Wikipedia una medición es un proceso básico de la ciencia que consiste en comparar un patrón seleccionado con el objeto o fenómeno cuya magnitud física se desea medir para ver cuántas veces el patrón está contenido en esa magnitud.

Definición 1. Una medición es un acto para determinar la magnitud de un objeto en cuanto a cantidad. Aunque caben definiciones más complejas y descriptivas de cómo es el proceso como la siguiente definición sobre la medición de una magnitud geométrica: Definición 2. Una medición es comparar la cantidad desconocida que queremos determinar y una cantidad conocida de la misma magnitud, que elegimos como unidad. Al resultado de medir se le denomina medida. Los procesos de medición de magnitudes físicas que no son dimensiones geométricas entrañan algunas dificultades adicionales, relacionadas con la precisión y el efecto provocado sobre el sistema. Así cuando se mide alguna magnitud física se requiere en muchas ocasiones que el aparato de medida interfiera de alguna manera sobre el sistema físico en el que se debe medir algo o entre en contacto con dicho sistema. En esas situaciones se debe poner mucho cuidado, en evitar alterar seriamente el sistema observado. De acuerdo con la mecánica clásica no existe un límite teórico a la precisión o el grado de perturbación que dicha medida provocará sobre el sistema.

Page 3: Recolección de datos, validez y confiabilidad

2. Validez. Definición Se aplica la palabra validez para designar aquello que es válido o formalmente

adecuado, por ajustarse a las reglas, ya sean lógicas, matemáticas o legales. En Lógica, un razonamiento será válido, cuando la conclusión se derive de sus premisas. Será la conclusión verdadera si las premisas lo son, pero si éstas son falsas, y la conclusión también, esto no significa que el razonamiento no pueda ser formalmente válido si lo que dice la conclusión está contenido en las premisas. En la Lógica formal, los sujetos y predicados de las proposiciones se reemplazan por letras, sin tomar en cuenta la verdad o falsedad de las premisas, sino tomándose solamente como variables. Así se toma un camino de inferencias, que garantiza a través de un examen lógico del lenguaje, que los discursos poseen ausencia de contradicciones.

3. De contenido

La validez de contenido, a veces llamada la validez lógica o racional, determina en qué grado una medida representa a cada elemento de un constructo.

Page 4: Recolección de datos, validez y confiabilidad

Por ejemplo, una prueba de educación con una fuerte validez de contenido incluirá los temas realmente enseñados a los estudiantes, en lugar de hacer preguntas sin relación. Generalmente, la validez de contenido es considerada un prerrequisito para la validez de criterio, ya que es un buen indicador de si la característica deseada es medida. Si los elementos de la prueba son irrelevantes para el constructo principal, entonces están midiendo algo completamente diferente, creando un sesgo potencial. Asimismo, la validez de criterio deriva correlaciones cuantitativas de las puntuaciones de las pruebas. La validez de contenido es cualitativa en naturaleza y pregunta si un determinado elemento agrega o resta valor a una prueba o un programa de investigación. ¿Cómo se mide la validez de contenido?

La validez de contenido se relaciona con la validez aparente, pero difiere enormemente en cómo se evalúa. La validez aparente exige un juicio personal, como preguntar a los participantes si piensan que la prueba fue bien construida y útil. La validez de contenido arriba a las mismas respuestas, pero utiliza un enfoque basado en las estadísticas, lo que garantiza que sea considerada un tipo de validez fuerte. En el caso de encuestas y pruebas, un grupo de analistas expertos recibe todas las preguntas y las califica. Brindan su opinión sobre si la pregunta es esencial, útil o irrelevante para medir el constructo en estudio. Sus resultados son analizados estadísticamente y la prueba es modificada para mejorar la validez racional. Ejemplo de baja validez de contenido

Veamos un ejemplo sobre empleo, donde generalmente se utiliza la validez de contenido. Una escuela quiere contratar a un nuevo profesor de ciencias y un panel de directores comienza a analizar a los distintos candidatos. Elaboran una lista acotada y luego diseñan una prueba, donde escogen al candidato con la mejor puntuación. Lamentablemente, éste demuestra ser un maestro de ciencias extremadamente mediocre. Después de ver la prueba, la junta de educación comienza a ver en qué se equivocó. La gran mayoría de las preguntas fueron sobre física entonces, obviamente, la escuela encontró al mejor profesor de física. Sin embargo, estaban buscando que el profesor de ciencias enseñara biología, química y psicología. La validez de contenido de la prueba fue pobre y no representó plenamente el constructo de "ser un buen profesor de ciencias".

Page 5: Recolección de datos, validez y confiabilidad

Avergonzada, la escuela rediseñó la prueba y la sometió a un panel de expertos en educación. Después de pedirles a los candidatos que completaran el nuevo examen, la escuela encontró a otra persona que demostró ser una profesora de ciencias excelente y completa. Esta prueba tuvo una validez racional mucho más elevada y representó totalmente cada elemento del constructo.

4. De criterio

La validez de criterio evalúa si una prueba refleja un cierto conjunto de habilidades o no. Para medir el criterio de validez de una prueba, los investigadores deben compararlo con un estándar conocido o con él mismo. Comparar la prueba con una medida establecida recibe el nombre de validez concurrente; probarla durante un período de tiempo se denomina validez predictiva. No es necesario utilizar ambos métodos. Uno es suficiente si el diseño experimental es fuerte. Una de las formas más sencillas de evaluar la validez relacionada con el criterio es compararla con un estándar conocido. Por ejemplo, una nueva prueba de inteligencia podría ser comparada estadísticamente con una prueba de CI estándar. Si existe una alta correlación entre los dos conjuntos de datos, entonces la validez de criterio es alta. Éste es un buen ejemplo de la validez concurrente, pero este tipo de análisis puede ser mucho más sutil. Ejemplo de la validez de criterio en acción Una empresa de encuestas desarrolla una prueba que cree que ubica a la gente en la escala política, en base a una serie de preguntas que establecen si la persona se inclina hacia la derecha o hacia la izquierda.

Page 6: Recolección de datos, validez y confiabilidad

Con esta prueba, esperan predecir cómo va a votar la gente. Para evaluar la validez de criterio de la prueba, realizan un estudio piloto y eligen sólo miembros de los partidos políticos de izquierda y de derecha. Si la prueba tiene una validez concurrente alta, los miembros del partido de izquierda deberían recibir puntuaciones que reflejen su ideología de izquierda. Del mismo modo, los miembros del partido de derecha deben recibir puntuaciones que indiquen que se encuentran a la derecha. Si esto no sucede, entonces la prueba es defectuosa y necesita ser rediseñada. Si funciona, los investigadores pueden asumir que su prueba tiene una base sólida y que la validez de criterio es alta. La mayoría de los encuestadores no se detiene allí y en unos pocos meses, cuando se cuenten los votos de las elecciones, les preguntarán a los sujetos cómo votaron realmente. Esta validez predictiva les permite verificar dos veces su prueba, con una alta correlación que indique nuevamente que han desarrollado una prueba sólida de la ideología política. Validez de criterio en la vida real: la pregunta del millón Esta prueba política constituye una relación lineal muy simple y la validez de criterio es fácil de juzgar. En el caso de construcciones complejas, con muchos elementos relacionados entre sí, evaluar la validez relacionada con el criterio puede ser un proceso mucho más difícil. Las compañías de seguros tienen que medir un constructo denominado "salud general" compuesto por factores de estilo de vida, antecedentes socioeconómicos, edad, predisposición genética y toda una serie de otros factores. Mantener elevada una validez relacionada con el criterio es difícil teniendo en cuenta todos estos factores, pero hacerlo mal puede arruinar el negocio. Coca-Cola: el costo de descuidar la validez de criterio Para los investigadores de mercado, la validez de criterio es crucial y puede crear o destruir un producto. Un ejemplo famoso es cuando Coca-Cola decidió cambiar el sabor de su bebida distintiva. Con diligencia, investigaron si a la gente le gustaba el nuevo sabor por medio de pruebas de sabor y cuestionarios. A la gente le encantó el nuevo sabor, entonces Coca-Cola se apuró a comenzar con la producción de la Nueva Coca, lo que fue un fracaso enorme. El error que Coca cometió fue que se olvidó de la validez de criterio y omitió una pregunta importante en la encuesta. No se les preguntó a las personas si preferían el nuevo sabor al antiguo, un fracaso en establecer la validez concurrente. La Vieja Coca, conocida por su popularidad, era el punto de referencia perfecto, pero nunca fue utilizado. Con una simple prueba de sabor, vendándoles los ojos a las personas y preguntándoles cuál sabor de los dos preferían,

Page 7: Recolección de datos, validez y confiabilidad

Coca-Cola se habría ahorrado millones de dólares. En última instancia, la validez predictiva también fue mediocre, porque sus resultados buenos no se correlacionaron con las ventas bajas. Para entonces, ¡ya era demasiado tarde!

5. De constructo

Es un concepto más complejo. Se refiere al grado en que el instrumento de

medida cumple con las hipótesis que cabría esperar para un instrumento de medida

diseñado para medir precisamente aquello que deseaba medir. Se puede considerar un

concepto general que abarcaría los otros tipos de validez.

El término constructo hace referencia a un concepto teórico psicológico inobservable (ej.

la inteligencia, cada factor de personalidad, las aptitudes, las actitudes, etc.) La definición

operativa de estos constructos presenta considerables dificultades en la práctica, ya que

no son directamente observables. Debido a esto, la validación de un constructo es un

proceso laborioso y difícil.

Para la estimación de la validez de constructo se utiliza una metodología variada.

Algunos de los métodos más utilizados son:

1. Métodos correlacionales

Los coeficientes de correlación nos indica la relación del test con el conjunto de

instrumentos de medida y criterios posibles, así como la relación entre el test y el

constructo.

· Correlación del test con un criterio externo

· Correlación test con otros tests que pretenden medir los mismos aspectos o

aspectos semejantes.

· Correlación del test con otros tests que miden características, que nada tienen

que ver con el constructo que subyace al test.

Campbell y Fiske (1959) proponen que se calcule dos tipos de validez:

Page 8: Recolección de datos, validez y confiabilidad

a) Validez convergente: indica las correlaciones positivas con otros tests que miden

lo mismo.

b) Validez discriminante: indica las correlaciones nulas con tests que miden aspectos

diferentes.

A través de estos dos tipos de validez se podría ir definiendo un constructo psicológico.

2. Análisis Factorial del test

El análisis factorial permite ordenar los datos y facilitar la interpretación de las

correlaciones. Se espera un factor explicativo del constructo con saturaciones altas del

test y los tests que miden aspectos parecidos, y con saturaciones bajas de aquellos tests

que miden aspectos diferentes. Con frecuencia se habla de la estructura factorial de un

test como validez estructural o validez factorial

3. Análisis de las diferencias individuales que pone de manifiesto un test

Se refiere al análisis de la distribución de las puntuaciones de test y a comparaciones de

estos aspectos en distintas muestras. Diferentes edades, sexos, niveles profesionales,

etc. Estas comparaciones no son arbitrarias, sino que se derivan de hipótesis que se

hacen en función de los conocimientos que se tiene del constructo.

4. Análisis de los cambios en las diferencias individuales

Se refiere a la investigación diacrónica de los mismos sujetos con el mismo test. Este tipo

de estudios permite conocer la estabilidad del rasgo a lo largo del tiempo y a través de

situaciones.

5. Análisis lógico de los elementos del test

Se refiere al análisis de ítems del test en relación con el constructo. Aquellos ítems que

correlacionan positivamente entre sí, pertenecen al mismo constructo. Esto significa que

el análisis de consistencia interna de un test no sólo aporta datos respecto a su fiabilidad,

sino a su validez. Si se obtiene un coeficiente de consistencia interna bajo, significa que el

test no mide un único constructo. Todos estos métodos enumerados se complementan

entre sí. Se trata de ver el constructo que trata de medir el test desde diferentes ángulos.

Por tanto, no existe una única medida de la validez de constructo.

Page 9: Recolección de datos, validez y confiabilidad

6. Confiabilidad. Definición

La palabra confiable es el término que extendidamente empleamos en nuestro

idioma para dar cuenta de aquella persona o cosa en la cual es posible confiar y depositar

la confianza, básicamente, porque dispone de una trayectoria notable diciendo la verdad y

no engañando. Obviamente la cualidad de confiable que alguien ostente se construirá con

los años y con concretas demostraciones de decir la verdad y no engañar.

Si bien como recién indicamos alguien o algo se convierten en confiables cuando

presentan una sólida e indestructible trayectoria expresando la verdad o simplemente no

defraudando, cabe destacar que también en algunos casos aunque no se disponga de

tales pruebas, de todas maneras, alguien se deja guiar por la confianza que el otro le

provoca y entonces termina por tomarlo como confiable a pesar de no reunir condiciones

fehacientes que lo demuestren.

En tanto, la palabra confiable se encuentra en estrecha vinculación con el concepto de

confianza, ya que precisamente es esta disposición de seguridad que una persona tiene

sobre otro individuo, o respecto de alguna cosa, lo que hará confiable a esa persona o

cosa.

La seguridad que alguien tenga en sí mismo a la hora de la realización satisfactoria de

alguna actividad o tarea supone sí o sí la presencia de confianza en ese individuo, hecho

que además lo terminará por erigir en un individuo confiable cuando de cumplir esa tarea

o trabajo se trate.

En buena parte de las actividades y profesiones que desarrollamos en la vida las

personas es importante contar con esa cuota de seguridad para así poder alcanzar el fin

propuesto y también poder despertar en los otros la confianza.

Page 10: Recolección de datos, validez y confiabilidad

Así como hay individuos que son más proclives a creer y confiar en el otro, también

existen aquellos más reticentes y que necesitan antes comprobar la fiabilidad de alguien

para depositar su total confianza en él.

Es importante mencionar en este sentido que la confianza que en sí mismo presente

alguien será determinante a la hora de convertirse en una persona confiable para los otros

individuos. Uno de los términos que solemos emplear como sinónimo de esta palabra es

fiable, porque aquel o aquello que es fiable sí o sí despertará en nosotros confianza. Lo

opuesto a lo confiable es lo dudoso.

7. Test-retest

Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos

veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de

tiempo entre el test y el retest. Después se calcula la correlación de Pearson entre las

puntuaciones de ambas aplicaciones, y el resultado obtenido será el coeficiente de

fiabilidad. Se considera un caso específico de formas paralelas, dado que evidentemente

un test es paralelo a sí mismo. Al resultado obtenido se le denomina coeficiente de

estabilidad, al servir de indicador de hasta qué punto son estables las mediciones

realizadas durante la primera aplicación del test. Las diferencias en los resultados se

atribuyen al grado de consistencia interna o muestreo de los ítems de la prueba en el caso

de pasar el retest de forma inmediata, y se le suman las fluctuaciones en el tiempo en el

caso del intervalo temporal.

Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede suponer

una amenaza a la validez interna por las posibles influencias externas a la que pueden

estar expuestos los sujetos durante el intervalo, y que pueden afectar a su desempeño en

la segunda aplicación. En el extremo opuesto, una aplicación demasiado apresurada del

retest podría afectar igualmente a la validez interna, en este caso por los posibles efectos

del recuerdo reciente de la primera aplicación. La elección del intervalo de tiempo

Page 11: Recolección de datos, validez y confiabilidad

adecuado entre ambas aplicaciones dependerá en gran medida del tipo de test, ya que en

función de su formato puede ser más sensible al efecto de una u otra amenaza

8. Formas paralelas

Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se

utilizan dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma

diferente (por ejemplo, dos tests que con diferentes preguntas miden un determinado

rasgo). Después se comparan los dos tests, calculando el coeficiente de correlación de

Pearson. Esta correlación será, como hemos visto en el apartado anterior, el coeficiente

de fiabilidad. Si la correlación es alta, se considera que hay una buena fiabilidad.

Al valor obtenido también se le conoce como coeficiente de equivalencia, en la medida en

que supone un indicador del grado de equivalencia entre las dos formas paralelas de un

test.

La dificultad de este procedimiento radica en conseguir que dos instrumentos sean

realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan

exactamente lo mismo, pero con diferentes ítems. No obstante, en condiciones ideales en

las que se pueda garantizar el paralelismo de ambas formas, este es el método más

recomendable.

Page 12: Recolección de datos, validez y confiabilidad

9. Split-halves Una medida de la coherencia en los que se divide la prueba en dos y las

puntuaciones de cada mitad de la prueba se compara con otros. Si la prueba es

consistente conduce el experimentador para creer que lo más probable es la medición de

la misma cosa. Esto no se debe confundir con validez en el que el experimentador está

interesado si la prueba mide lo que se supone que debe medir. Una prueba de que es

coherente lo más probable es medir algo; el experimentador no sabe qué es ese "algo".

Es por ello que se dice que la confiabilidad establece el límite máximo de validez.

10. Coeficiente Alfa de Cronbach Es un coeficiente que sirve para medir la fiabilidad de una escala de medida, y

cuya denominación Alfa fue realizada por Cronbach en 1951, aunque sus orígenes se

encuentran en los trabajos de Hoyt (1941) y de Guttman (1945).

Contexto:

Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la

inteligencia) en una población de sujetos. Para ello mide n variables que sí son

observables (por ejemplo, n respuestas a un cuestionario o un conjunto de n problemas

lógicos) de cada uno de los sujetos.

Page 13: Recolección de datos, validez y confiabilidad

Se supone que las variables están relacionadas con la magnitud inobservable de interés.

En particular, las n variables deberían realizar mediciones estables y consistentes, con un

elevado nivel de correlación entre ellas.

El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para

la magnitud inobservable construida a partir de las n variables observadas.

El alfa de Cronbach no deja de ser una media ponderada de las correlaciones entre las

variables (o ítems) que forman parte de la escala. Puede calcularse de dos formas: a

partir de las varianzas (alpha de Cronbach) o de las correlaciones de los ítems (Alpha de

Cronbach estandarizado). Hay que advertir que ambas fórmulas son versiones de la

misma y que pueden deducirse la una de la otra. El alpha de Cronbach y el alpha de

Cronbach estandarizados, coinciden cuando se estandarizan las variables originales

(items).

Condiciones para hacer Alpha:

Este alfa siempre se hará por escalas de tal manera que, a modo de ejemplo, en el test

STAI de ansiedad rasgo y ansiedad estado publicado por TEA, se llevarían a cabo dos

índices de consistencia (el alfa correspondiente a ansiedad rasgo y el alfa

correspondiente a ansiedad estado). Ahora bien, para poder calcular la fiabilidad de un

test, este debe cumplir con dos requisitos previos:

1. Estar formado por un conjunto de ítems que se combinan aditivamente para hallar una

puntuación global (esto es, la puntuaciones se suman y dan un total que es el que se

interpreta).

2. Todos los ítems miden la característica deseada en la misma dirección. Es decir, los

ítems de cada una de las escalas tienen el mismo sentido de respuesta (a mayor

puntuación, más ansiedad, por ejemplo; este sentido de respuesta viene especificado en

el manual del test).

A modo de ejemplo, ocurre que cuando se redacta un test con respuestas tipo Likert

(pongamos 0=nada a 3=mucho), se observan ítems de la siguiente forma:

-"Me siento calmado" → contestar con 3 significaría poca ansiedad (a más puntuación,

menos ansiedad).

-"Me siento tenso" → contestar con 3 significaría mucha ansiedad (a más puntuación, más

ansiedad).

El segundo ítem es el que se corresponde con el sentido de respuesta especificado en el

manual, pero como el primero no cumple esa relación, deberá ser invertido para que el

test así tenga todos los ítems con el mismo sentido y se pueda, pues, calcular el índice de

Page 14: Recolección de datos, validez y confiabilidad

consistencia o Alfa de Cronbach. (Este proceso de cambio de sentido se llevaría a cabo,

en el SPSS, programa estadístico más popular entre los psicólogos, mediante una

recodificación de datos).

11. Coeficiente KR-20 El Método KR20 representa un coeficiente de consistencia interna del instrumento,

que proporciona la media de todos los coeficientes de división por mitades para todas las

posibles divisiones del instrumento en dos partes (Magnusson, 1995).

La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a items

dicotómicamente valorados (específicamente, valorados con los valores 0 y 1). (Bolívar,

1997).

Origen:

Para el año 1937 Kuder y Richardson desarrollaron el conocido KR20, se denominó de

esta forma porque fue la fórmula número 20 presentada por el famoso artículo de los

autores. También existen varios modelos para estimar la confiabilidad de consistencia

interna de una prueba, entre ellos los más conocidos son los siguientes: Alpha de

Croncbach, Dos mitades, Sperman-Brown, Método de Hoyt.

Características:

Permite calcular la confiabilidad con una sola aplicación del instrumento.

No requiere el diseño de pruebas paralelas.

Es aplicable sólo en instrumentos con ítems dicotómicos, en los cuales sólo existen

respuestas correctas e incorrectas.

Su representación:

Aplicación:

La fórmula KR-20 tan solo es una variante de alfa especialmente orientada a items

dicotómicamente valorados.

Page 15: Recolección de datos, validez y confiabilidad

Una vez obtenido p (=A/N) y q (=1- p) para cada ítem, se procede a obtener la

varianza de cada ítem como producto de p por q. También necesitamos la

varianza del total y la suma de la varianza de los items para aplicar finalmente la

fórmula KR20.

Media:

Es la medida de tendencia central más utilizada en los métodos estadísticos y es,

por otra parte, el promedio al que estamos más acostumbrados.

Se obtiene sumando todos los datos y dividiendo por el número de ellos.

Ejemplo:

Varianza:

Es el cuadrado de la desviación media.

Ejemplo:

Page 16: Recolección de datos, validez y confiabilidad

Referencias

Cronbach, Lee J. (1951). «Coefficient alpha and the internal structure of tests» (en

inglés). Psychometrika 16 (3), pp. 297-334.

Gutiérrez, Carlos (2005). «1». Introducción a la Metodología Experimental (1

edición). Editorial Limusa. p. 15.

Volver arriba↑ Douglas A. Skoog (2009). Principios de Análisis Instrumental (6

edición). PARANINFO, S.A. p. 968.

Volver arriba↑ Bueno, Juan M. (1999). Universidad de Murcia, ed. Introducción a la

óptica instrumental (1 edición). p. 118.

Martyn Shuttleworth (Jan 12, 2009). Validez de criterio. Nov 11, 2014 Obtenido de

Explorable.com: https://explorable.com/es/validez-de-criterio

Slideshare publicado el 25 de marzo de 2014 por Nidia Pérez - Validez y confiabilidad.