Para comenzar a ahondar en el contenido del presente
tema es necesario empezar definiendo la palabra principal del tema la cual se
explica a continuación.
Validez:
En el campo de la
metrología, psicometría y estadística, la validez es un concepto que
hace referencia a la capacidad de un instrumento de medición para cuantificar
de significativamente adecuada el rasgo para cuya medición ha sido diseñado. De
esta forma, un instrumento de medida es válido en la medida en que las
evidencias empíricas legitiman la interpretación de las puntuaciones arrojadas
por el test.
La validez responde a la pregunta ¿con qué fidelidad corresponde el
universo o población al atributo que se va a medir?. La validez de un
instrumento consiste en que mida lo que tiene que medir (autenticidad), algunos
procedimientos a emplear son: Know groups (preguntar a grupos conocidos),
Predictive validity (comprobar comportamiento) y Cross-checkquestions
(contrastar datos previos). Al estimar la validez es necesario saber a ciencia
cierta qué rasgos o características se desean estudiar. A este rasgo o
característica se le denomina variable criterio. Al respecto, Ruiz Bolívar
(2002) afirma que “…nos interesa saber qué tan bien corresponden las posiciones
de los individuos en la distribución de los puntajes obtenidos con respecto a
sus posiciones en el continuo que representa la variable criterio” (p. 74).
Tipos de Validez:
- Validez
de Contenido.
- Validez Predictiva.
- Validez
Concurrente.
- Validez
de Pronostico.
- Validez
Retrospectiva.
Se dice que una prueba o test cumple con las
condiciones de validez de contenido si constituye una muestra adecuada y
representativa de los contenidos y alcance del constructo o dimensión a
evaluar. En los casos en los que la materia objeto de medición se puede
precisar con facilidad, la población de contenidos que se pretende evaluar está
bien definida, por lo que la selección de los ítems del test no ofrece mayores
dificultades, pudiéndose recurrir a métodos estadísticos de muestreo aleatorio
para obtener una muestra representativa de ítems. No obstante, en el campo de
la psicología no siempre es posible disponer de poblaciones de contenidos bien
definidas (por ejemplo, si se pretenden medir variables psicológicas clásicas,
como la extraversión, la inteligencia o el liderazgo). En estos casos suele
recurrirse a un análisis racional de ítems, consistente en la evaluación de los
contenidos del test por parte de un grupo de expertos en el área a tratar.La
validez de contenido es esencial a la hora de realizar inferencias o
generalizaciones a partir de los resultados del test.
Un caso particular de la validez de contenido es la
denominada «validez aparente». Una prueba posee una validez aparente adecuada
cuando produce en los sujetos a los que se aplica la impresión de que
efectivamente es una prueba adecuada. Es un tipo peculiar de validez de contenido,
pero que tiene su parte de importancia al poder influir sobre la motivación de
los participantes, que pueden mostrar una actitud negativa ante la prueba si no
perciben que ésta tenga el sentido que se le supone.
Para establecer un posible universo de reactivos se
requiere tener una adecuada conceptualización y operacionalización del
constructo, es decir, el investigador debe especificar previamente las
dimensiones a medir y sus indicadores, a partir de los cuales se realizarán los
ítems. Los ítems deben capturar las dimensiones que la prueba pretende medir,
por ejemplo, en la prueba de procesos lectores (PROLEC) de Cuetos, Rodríguez y
Ruano (2001) el constructo procesos lectores está evaluado en las dimensiones
de procesos sintácticos, semánticos y pragmáticos. Los ítems seleccionados
deben por tanto medir las dimensiones del constructo: Un error de validez de
contenido sería que la dimensión semántica no tuviera ningún ítem que la
evaluara, o que los ítems de la dimensión sintáctica sólo evaluaran una parte
de ésta, al contrastar con lo que se pretende evaluar en dicha dimensión. El
constructo medido por el instrumento y el uso que se les dará a las
puntuaciones obtenidas son aspectos fundamentales tanto para la estimación como
para la conceptualización de la validez de contenido. En efecto, en la
evaluación de un instrumento debe tenerse en cuenta su función, es decir, si
será utilizado para el diagnóstico, la medición de habilidades o la medición de
desempeño, entre otros; los índices de validez para una función de un
instrumento no son necesariamente generalizables a otras funciones del mismo
instrumento (Ding & Hershberger, 2002). A su vez, la validez de contenido
no sólo puede variar de acuerdo con las poblaciones en las cuales será
utilizado el instrumento, sino que puede estar condicionada por un dominio
particular del constructo; diferentes autores pueden asignarle el mismo nombre
a un constructo, pero poseer diferentes dimensiones y conceptualizaciones, por
lo tanto, un instrumento puede tener una validez de contenido satisfactoria
para una definición de un constructo pero no para otras. En síntesis, el
concepto esencial de validez de contenido es que los ítems de un instrumento de
medición deben ser relevantes y representativos del constructo para un
propósito evaluativo particular (Mitchell, 1986, citado en Ding &
Hershberger, 2002).
Hay que considerar que, la validez de contenido no
puede expresarse cuantitativamente es más bien una cuestión de juicio, se
estima de manera subjetiva o intersubjetiva empleando, usualmente, el
denominado Juicio de Expertos. Se recurre a ella para conocer la probabilidad
de error probable en la configuración del instrumento. Mediante el juicio de
expertos se pretende tener estimaciones razonablemente buenas, las «mejores
conjeturas». Sin embargo, estas estimaciones pueden y deben ser confirmadas o modificadas
a lo largo del tiempo, según se vaya recopilando información durante el
funcionamiento del sistema. Los juicios de expertos se pueden obtener por
métodos grupales o por métodos de experto único. Se pueden seguir, entre otros,
el método de Agregados Individuales, el método Delphi, la técnica de Grupo
Nominal y el método de Consenso Grupal.
Método de Agregado Individuales:
Se pide individualmente a cada experto que dé una estimación directa de los
ítems del instrumento. Éste es un método económico porque, al igual que el
método Delphi, no exige que se reúna a los expertos en un lugar determinado.
Puede parecer un método limitado porque los expertos no pueden intercambiar sus
opiniones, puntos de vista y experiencia, ya que se les requiere
individualmente; no obstante, esta limitación puede ser precisamente lo que se
esté buscando para evitar los sesgos de los datos ocasionados por conflictos
interpersonales, presiones entre los expertos, etc. Se procede de la siguiente
manera:
·
Se seleccionan al menos tres expertos o
jueces, para juzgar de manera independiente la relevancia y congruencia de los
reactivos con el contenido teórico, la claridad en la redacción y el sesgo o
tendenciosidad en la formulación de los ítemes, es decir, si sugieren o no una
respuesta.
·
Cada experto debe recibir la
información escrita suficiente sobre: el propósito de la prueba (objetivos),
conceptualización del universo de contenido, tabla de especificaciones o de
operacionalización de las variables del estudio.
·
Cada experto debe recibir un
instrumento de validación que contenga: congruencia ítem-dominio, claridad,
tendenciosidad o sesgo y observaciones.
·
Se recogen y analizan los instrumentos
de validación y se decide.
·
1) Los ítemes que tienen 100% de
coincidencia favorable entre los jueces (congruentes, claros en su redacción y
no tendenciosos) quedan incluidos en el instrumento
2) Los ítemes que tengan 100% de coincidencia desfavorable entre los jueces
quedan excluidos del instrumento
3) Los ítemes que tengan una coincidencia parcial entre los jueces deben
ser revisados, reformulados o sustituidos, si es necesario, y nuevamente
validados.
Método Delphi:
Este
método fue creado en 1948 para obtener la opinión de expertos de una manera
sistemática. En un primer momento, cada experto responde de manera individual y
anónima a un cuestionario. Después se analizan las respuestas del conjunto de
expertos, se remite a cada uno la respuesta mediana obtenida, así como el
intervalo intercuartil para cada cuestión y se les pide que reconsideren su
juicio anterior, teniendo en cuenta estos datos. En cada una de las tres
o cuatro «vueltas» siguientes, se informa a los expertos de cuál es la mediana
del grupo y se les propone revisar su juicio anterior. Todo juicio individual
que quede fuera del intervalo intercuartil en que se mueve el grupo de expertos
tiene que estar debidamente justificado o argumentado. La mediana de las
respuestas obtenidas en esta última vuelta es el valor que se estaba buscando.
Se emplea la mediana, porque se presupone que las puntuaciones posibles de los
expertos se distribuyen de forma asimétrica. Con este método los expertos
comparten en cierto modo sus opiniones, sin que existan discusiones ni
confrontaciones directas entre ellos.
Grupo Nominal:
El primer paso es reunir a los expertos (entre ocho y
diez personas) y pedirles que registren, individualmente y sin intercambiar
opiniones, sus propias puntuaciones y consideraciones respecto a las
probabilidades de error para cada una de las preguntas o tareas que se les
detallan. Después, cada experto expone a los demás las puntuaciones y
principales consideraciones registradas y al acabar esta ronda, se establecen
las coincidencias del grupo. Luego se realiza un debate de cada uno de los
apartados de ésta. Finalmente, cada experto, de manera individual y por
escrito, puntúa y argumenta las probabilidades de error para cada
tarea/pregunta considerada. En general, se procede como con el método Delphi,
sólo que en esta técnica se permite algún debate entre los expertos, para que
aclaren y compartan la información que cada uno está considerando. Aunque hay
intercambio de pareceres, los juicios se emiten de forma individual y la
estimación final suele ser la media aritmética del conjunto de las estimaciones
dadas por los expertos. El éxito de la técnica depende, por una parte, de la
habilidad y la experiencia del moderador del grupo y de la buena voluntad de
los expertos para trabajar juntos en un marco altamente estructurado.
Consenso Grupal:
Se reúne a los expertos en un lugar determinado, se
indica al grupo que su tarea consiste en lograr una estimación de la
pertinencia y otros aspectos relacionados con la elaboración de los ítemes, que
sea satisfactoria para todos los expertos. Con estas instrucciones se
maximizan los intercambios de información y opiniones dentro del grupo de
expertos. Si el grupo no logra un consenso, puede intentarse un consenso
artificial recogiendo las estimaciones individuales y sintetizándolas
estadísticamente. Este método, como el anterior, también precisa que el grupo
de expertos sea pequeño, se fomente la libre expresión y se eviten las
discusiones tensas y los sistemas de votación.




No hay comentarios:
Publicar un comentario