Los 12 pasos propuestos por Steven M. Downing¹ para el desarrollo de pruebas maximizan las evidencias de validez para interpretar los resultados de un examen, ya que constituyen una forma de organizar y planear las tareas asociadas con su elaboración. A continuación, se enuncian:
Paso 1. Plan general. Se deben tomar decisiones orientadas a responder a las siguientes preguntas: ¿qué constructo se medirá?, ¿qué interpretaciones se harán?, ¿qué formato es más apropiado?, ¿cómo se aplicará la prueba? Esto incluye un propósito claro, conciso y bien definido de la prueba. Es el primer esbozo de la definición del contenido, de los métodos que se emplearán para definirlo, la elección del modelo psicométrico, así como el uso que se pretende dar a los datos obtenidos. El autor indica que un proyecto que empieza bien suele terminar bien.
Paso 2. Definición del contenido. En este proceso, es necesario hacer una definición operacional del contenido que se evaluará (descripción clara del constructo), lo que incluye establecer procedimientos para el muestreo sistemático del dominio de contenido. Su rigor depende de las consecuencias y de las decisiones que se tomen a partir de los resultados. Para las pruebas de alto impacto, estos procedimientos deben ser rigurosos, sistemáticos, exhaustivos y justificables, ya que son la base para los argumentos que apoyan (o refutan) interpretaciones específicas de las calificaciones. Este paso debe llevarse a cabo con gran cuidado.
Paso 3. Especificaciones de la prueba. Se elabora una definición operacional más completa y se detallan las características del instrumento. Esto incluye describir: 1) el tipo de formato que se usará en la evaluación, 2) el número de reactivos, 3) el sistema de clasificación cognitiva que se empleará, 4) si los reactivos contendrán o no estímulos visuales, 5) cómo se interpretarán las calificaciones de la prueba y 6) el límite de tiempo para cada reactivo. En el programa de la prueba se define y esboza de manera precisa el número de preguntas que debe asignarse a cada área del contenido y cuántas se diseñarán para evaluar niveles cognitivos específicos.
Paso 4. Elaboración de los reactivos. La elección de la forma del reactivo (opción múltiple o respuesta construida) puede basarse en razones pragmáticas y en cuestiones de viabilidad. Sin embargo, los reactivos de opción múltiple son los más utilizados, ya que se ha demostrado que pueden medir todos los niveles cognitivos. Uno de los aspectos más importantes es la selección y capacitación de los elaboradores, por lo que es necesario impartirles un taller de capacitación práctica, en el que reciban retroalimentación constante. Todos los reactivos deben escribirse con base en especificaciones detalladas de la prueba y deben ser revisados por expertos en el contenido y en aspectos editoriales.
Paso 5. Diseño y ensamble de la prueba. El control de calidad está estrechamente relacionado con este paso, ya que los errores, defectos u omisiones pueden disminuir significativamente la validez de los resultados de la prueba. El método y procedimiento específico que se utilice para ensamblar dependerá del modo de aplicación (una sola versión o versiones paralelas), si se realizará en computadora o si se trata de una prueba adaptativa. También se debe considerar la inclusión de reactivos piloto (o en pruebas) y los reactivos ancla.
Paso 6. Producción de la prueba. La impresión o publicación de la prueba representa la concreción física de los pasos previos, ya que contiene los reactivos finales. En este paso, es fundamental poner énfasis en aspectos de seguridad, implementando controles de calidad, normas y políticas.
Lo anterior resume el capítulo uno del Manual para el desarrollo de pruebas a gran escala, editado por el Ceneval, el cual forma parte del acervo de la biblioteca del Centro.
¹Downing, S. M. (2012). Doce pasos para el desarrollo de pruebas eficaces. En S. M. Downing & T. M. Haladyna (Eds). Manual para el desarrollo de pruebas a gran escala (pp. 25-60). Ceneval