Kitabı oku: «Prácticas de investigación aplicada a contextos educativos», sayfa 2
Standards for Educational
and Psychological Testing
En respuesta a los problemas relacionados con los instrumentos de medición y con base en los avances técnicos en materia de medición, en los nuevos y emergentes usos de los test, y en la creciente preocupación social sobre el papel que juegan los test en el cumplimiento de políticas públicas, en 1985 la American Educational Research Association (aera), la American Psychological Association (apa) y el National Council on Measurement in Education (ncme) coordinaron el trabajo de más de 125 especialistas, para actualizar y sustituir los estándares, directrices y principios que orientan el diseño, desarrollo, adaptación y validación de instrumentos. Como consecuencia de este trabajo se obtuvieron 180 estándares organizados en 16 capítulos o secciones, que tratan sobre los usos, aspectos técnicos y un amplio espectro de cuestiones legales y sociales asociadas a los test (tabla 1). El objetivo de la publicación de los estándares fue proporcionar los criterios mínimos para la evaluación de los test, orientar las prácticas de evaluación y regular el efecto del uso de los test. Sin embargo, no prescriben el uso de un método estadístico específico (American Education Research Association et al., 1985).
Tabla 1. Estructura de los estándarespara las pruebas psicológicas y educativas (1985) | ||
Sección | Capítulo | Número de estándares |
I. Estándares técnicos sobre la construcción y evaluación de los test | 1. Validez | 25 |
2. Confiabilidad y errores de medida | 12 | |
3. Desarrollo y revisión de un test | 25 | |
4. Escalamiento, normalización, comparabilidad de puntuaciones y equiparación | 9 | |
5. Publicación de test: manuales técnicos y guías de usuario | 11 | |
II. Estándares profesionales para el uso de los test | 6. Principios generales del uso de los test | 13 |
7. Pruebas clínicas | 6 | |
8. Pruebas psicológicas y educativas | 12 | |
9. Uso de los test en psicoterapia | 9 | |
10. Pruebas utilizadas en contextos laborales | 9 | |
11. Acreditación y certificación profesional y ocupacional | 5 | |
12. Evaluación de programas | 8 | |
III. Estándares para aplicaciones particulares | 13. Pruebas para minorías lingüísticas | 7 |
14. Pruebas para personas que tienen una condición de discapacidad | 8 | |
IV. Estándares para procedimientos administrativos | 15. Aplicación, calificación y reporte de un test | 11 |
16. Protección de los derechos de los examinados | 10 | |
Total | 180 |
Nota: elaboración propia basada en Standards for Educational and Psychological Testing (aera, apa y ncme, 1985).
Estos estándares sostienen que no se puede asumir que, al atender procedimientos de traducción, se genera una versión del test equivalente en contenido, nivel de dificultad, confiabilidad y validez. De igual modo, no se debe suponer que las propiedades psicométricas de dos versiones de un instrumento sean comparables entre idiomas o dialectos. En este sentido, la edición comprometió nueve estándares distribuidos en cuatro capítulos (tabla 2), que deben considerarse en los procesos de adaptación de test y evaluaciones interculturales (Geisinger, 1994).
Tabla 2. Estándares aplicables en los procesos de adaptación de test (1985) | ||
Sección | Capítulo | Número de estándares |
I. Estándares técnicos sobre la construcción y evaluación de los test | 2. Confiabilidad y errores de medida | 1 |
3. Desarrollo y revisión de un test | 2 | |
II. Estándares profesionales para el uso de los test | 6. Principios generales del uso de los test | 2 |
III. Estándares para aplicaciones particulares | 13. Pruebas para minorías lingüísticas | 4 |
Total | 9 |
Nota: elaboración propia basada en Standards for Educational and Psychological Testing (aera, apa y ncme, 1985).
En cuanto a la confiabilidad y el error típico de medida, se propuso que cuando existan razones teóricas o empíricas, para esperar que estos indicadores difieran sustancialmente en diferentes poblaciones, se deben presentar las estimaciones para cada población para las cuales el test es recomendado [estándar 2.9: 22]. Asimismo, para el desarrollo y revisión de los test se estableció que el tipo y contenido de los ítems debe realizarse con reconocimiento a los antecedentes culturales y a las experiencias previas de las poblaciones involucradas (grupos étnicos, edad, género, etc.) [estándar 3.5: 26]. De igual modo se debe prever la realización de aquellos estudios que sean necesarios cuando los resultados de las investigaciones señalen la necesidad de estudiar las diferencias en el funcionamiento del ítem, o del test, para miembros de distintos grupos (edad, étnicos, género, etc.). Tales estudios deben diseñarse para detectar y eliminar aspectos del diseño, contenido o formato del test que puedan sesgar las puntuaciones de un grupo en particular [estándar 3.10: 27].
Por otro lado, se establecieron principios generales para el uso de los test, mismos que recomiendan que cuando se realizan cambios sustanciales en el formato del test, modo de aplicación, instrucciones, idioma o contenido, se debe validar el uso del test para las condiciones modificadas, o bien tener un sustento racional de que una validación adicional no es necesaria [estándar 6.2: 41]. Además, cuando un test se va utilizar para un propósito para el que no ha sido previamente validado, o para el cual no existe evidencia de su validez, los responsables del test deben proporcionarla [estándar 6.3: 42].
Finalmente, el capítulo que establece el uso de test en sujetos que forman parte de una minoría lingüística, exige que cuando un test sea traducido de un idioma o dialecto a otro, se debe establecer la validez y confiabilidad del test para los usos esperados en el grupo lingüístico por examinar [estándar 13.4: 75]. Mientras que cuando se busca que las versiones del test en dos idiomas sean comparables, se deben reportar evidencias de la comparabilidad [estándar 13.6: 75]. A este respecto, tanto los responsables del test como los editores deben proporcionar la información necesaria para realizar un uso e interpretación apropiada de éste [estándar 13.3: 75], y describir en el manual del test todas las modificaciones lingüísticas recomendadas por los editores [estándar 13.2: 75].
Standards for Educational
and Psychological Testing de 1999
Al igual que la edición de 1985, los estándares de la edición de 1999 contaban con un carácter prescriptivo y por sí solos no incluían mecanismos de aplicación. Fueron formulados con la pretensión de ser consistentes con otros estándares, directrices y códigos de conductas publicados por las organizaciones patrocinadoras, para promover el uso racional y ético de los test, y para proporcionar las bases para la evaluación de la calidad de las prácticas de evaluación. En relación con la edición anterior, la estructura y capítulos de los Standards 1999 se modificaron y se incrementaron notablemente (tabla 3), debido principalmente a lo siguiente: a) los nuevos tipos de test y usos para los test existentes; b) la inclusión de aspectos que procuran la evitación de los conflictos de interés y c) el tratamiento equitativo de todos los examinados.
Tabla 3. Estructura de los estándares para las pruebas psicológicas y educativas (1999) | ||
Sección | Capítulos | Número de estándares |
I. Construcción, evaluacióny documentación del test | 1. Validez | 24 |
2. Confiabilidad y errores de medida | 20 | |
3. Construcción y revisión de test | 27 | |
4. Escalas, normas y comparabilidad de puntuaciones | 21 | |
5. Aplicación, calificación y reporte de resultados del test | 16 | |
6. Documentación de apoyo de los test | 15 | |
II. Equidad de los tests | 7. Equidad en las pruebas y en el uso de las mismas | 12 |
8. Derechos y responsabilidades de los examinados | 13 | |
9. Pruebas en sujetos de diversos contextos lingüísticos | 11 | |
10. Pruebas en sujetos con discapacidad | 12 | |
III. Aplicaciones de los test | 11. Responsabilidades de los responsables del test | 24 |
12. Evaluación y pruebas psicológicas | 20 | |
13. Evaluación y pruebas educativas | 19 | |
14. Pruebas de empleo y acreditación | 17 | |
15. Pruebas en programas de evaluación y de política pública | 13 | |
Total | 264 |
Nota: elaboración propia basada en Standards for Educational and Psychological Testing (aera, apa y ncme, 1999).
En la edición de 1999 se propusieron nueve estándares que versan sobre los procesos de adaptación de test y de las evaluaciones interculturales, distribuidos en 4 capítulos (tabla 4). En esta edición se propusieron nuevos planteamientos entre los que destacan: a) la realización del cálculo de la confiabilidad y de los errores de medida cuando se enfatice la diferencia entre dos puntuaciones observadas de sujetos o de grupos [estándar 2.3: 32]; b) la inclusión de la función de información del test (fit), la apropiación del contenido, la estructura interna de las respuestas, la relación de las puntuaciones del test con otras variables y los procesos de respuesta utilizados por los examinados como criterio de variación y comparación de los subgrupos que conforman la muestra [estándar 2.11: 34 y estándar 7.1: 80]; c) la participación de los responsables de la construcción del test en la identificación y eliminación del vocabulario, símbolos, palabras, frases y contenido que se consideren ofensivos por parte de miembros de un grupo racial, étnico, de género u otros grupos, excepto cuando se juzgue necesario para una adecuada representación del constructo [estándar 7.4: 82] y d) la descripción y presentación de evidencia empírica y lógica del método utilizado para establecer la adecuación de la traducción [estándar 9.7: 99].
Tabla 4. Estándares de la edición de 1999 aplicables en los procesos de adaptación de test | ||
Sección | Capítulos | Número de estándares |
I. Construcción, evaluación y documentación de test | 1. Validez | 1 |
2. Confiabilidad y errores de medida | 2 | |
II. Equidad de los test | 7. Equidad en las pruebas y en el uso | 3 |
9. Pruebas en sujetos de diversos contextos lingüísticos | 3 | |
Total | 9 |
Nota: elaboración propia basada en los Standards for Educational and Psychological Testing (aera, apa y ncme, 1999).
Es importante destacar que esta versión retoma el concepto de sesgo expuesto con anterioridad e introduce los términos de equivalencia de constructo, funcionamiento diferencial del ítem y equivalencia de traducción; conceptos centrales en el proceso de adaptación de test y de las evaluaciones interculturales.
Standards for Educational
and Psychological Testing de 2014
Desde la edición de 1999, diversas organizaciones, empresas y especialistas en el campo de la medición psicológica y educativa han propuesto nuevos enfoques y desarrollos relacionados con el diseño de pruebas de medición y con las técnicas del análisis, normalización, interpretación y uso de las puntuaciones que de ellas se desprenden. Como respuesta, en 2005 un comité conformado por miembros de la aera, apa y ncme determinó que la edición de 1999 demandaba una revisión y actualización. Posteriormente, en 2008 un segundo comité, conformado por 15 miembros de diferentes organizaciones, desarrolló la nueva versión de los estándares y en 2011 fueron revisados tanto por las organizaciones patrocinadoras (aera, apa y ncme) como por 35 asociaciones profesionales, diez empresas orientadas a la medición, cuatro centros de investigación, tres organismos acreditadores y seis instituciones independientes. La revisión se orientó hacia cuatro áreas principales: avances tecnológicos en medición, incremento en el uso de pruebas para la rendición de cuentas y política pública, inclusión, temas vinculados con el uso de pruebas en el contexto laboral.
Al igual que las ediciones anteriores, estos nuevos estándares son prescriptivos y no contienen reglas específicas para su aplicación; fueron formulados con la intención de ser consistentes con otros estándares, directrices y códigos de conducta publicados por estas organizaciones. Los Standards 2014 buscan promover las buenas prácticas de medición y proporcionar las bases para evaluar la calidad de las mismas. A diferencia de las ediciones anteriores, esta propuesta organiza los estándares de una manera diferente (tabla 5). Así, la sección Fundamentos concentra los capítulos de validez, confiabilidad/precisión, errores de medida y equidad de las pruebas. La sección Operación concentra los estándares asociados al diseño, desarrollo, aplicación, calificación y normalización de los test, así como los derechos y responsabilidades de los examinados y usuarios de los test. Por último, la sección Aplicaciones de pruebas contiene los estándares asociados con los distintos contextos de aplicación y con el uso de las pruebas (evaluación psicológica, ámbito laboral y acreditación, evaluación educativa y evaluación de programas, política pública y rendición de cuentas).
Tabla 5. Estructura de los estándares para pruebas psicológicas y educativas (2014) | ||
Sección | Capítulo | Número de estándares |
Fundamentos | 1. Validez | 25 |
2. Confiabilidad/Precisión y errores de medida | 20 | |
3. Equidad en las pruebas | 20 | |
Operación | 4. Diseño y desarrollo de test | 25 |
5. Puntuaciones escalas, normas, vinculación de puntuaciones y puntos de corte | 23 | |
6. Aplicación de test, calificación, reporte e interpretación | 16 | |
7. Documentación de apoyo para los test | 14 | |
8. Derechos y responsabilidades de los examinados | 12 | |
9. Derechos y responsabilidades de los usuarios del test | 23 | |
Aplicaciones de pruebas | 10. Pruebas y evaluación psicológica | 18 |
11. Pruebas en el ámbito laboral y de acreditación | 16 | |
12. Pruebas y evaluación educativa | 19 | |
13. Usos de los test en evaluación de programas, política pública y rendición de cuentas | 9 | |
Total | 240 |
Nota: elaboración propia basada en Standards for Educational and Psychological Testing (aera, apa y ncme, 2014).
En lo particular, los principales estándares que ayudan a orientar las prácticas en traducción y adaptación de pruebas se encuentran en los capítulos 3 y 7 (Equidad en las pruebas y Documentación de apoyo para los test, respectivamente). En comparación con las anteriores, esta edición sitúa a la equidad como un tipo de evidencia inherente y fundamental de la validez de un test, misma que requiere atenderse en todas las etapas del diseño, desarrollo y uso del instrumento.
La equidad es entendida como la sensibilidad hacia las características individuales y contextuales de las pruebas y los sujetos, de manera que las puntuaciones que se desprenden de ellas permitan interpretaciones válidas para los usos esperados. En síntesis, las características de todos los individuos de la población bajo estudio (raza, etnicidad, género, edad, nivel socioeconómico y contexto lingüístico o cultural), deben considerarse durante todas las etapas de desarrollo, aplicación, calificación, interpretación y uso de las pruebas.
De hecho, los nuevos estándares reconocen la existencia de situaciones donde el test no es apropiado para todos los sujetos bajo estudio, aun cuando éste haya sido desarrollado bajo los principios y prácticas de equidad. En este sentido, se establece que algunas adaptaciones pueden ser necesarias para aquellos individuos cuyas características impedirían su participación en el proceso de evaluación. Las adaptaciones, dependiendo de las circunstancias de aplicación, los objetivos del test y las características de los sujetos, redundan en cambios en el contenido o presentación de los ítems, en las condiciones de aplicación o en los procesos de respuesta, a fin de incrementar el acceso al test a todos los sujetos.
No obstante, es necesario diferenciar entre cambios que resultan en puntuaciones comparables (acomodaciones) y cambios que pueden no producir puntuaciones que sean comparables con las obtenidas por el test original (modificaciones). La presente edición de los estándares propone entender las adaptaciones de pruebas como un continuo donde en un extremo se encuentran las acomodaciones (cambios relativamente menores a la presentación o formato de los test, aplicación del test, o de los procesos de respuesta que mantienen el constructo original y resulta en puntuaciones comparables con el test original), y en el extremo opuesto, las modificaciones (cambios que transforman el constructo que está siendo medido, incluyendo el contenido del test o las condiciones de evaluación, para obtener una medida diferente pero que mide el constructo de manera apropiada en los sujetos esperados).
En cuanto a la eficacia de las adaptaciones, ello depende del grado en que incrementan el acceso de los sujetos al constructo medido por el test. Dicha evidencia puede recolectarse a través de estudios cuantitativos y cualitativos, donde el juicio de expertos tiene un rol determinante en las decisiones acerca de los cambios a realizar en el test o en las condiciones de aplicación. Aquellos que informan, interpretan o utilizan las puntuaciones de un test adaptado, requieren desarrollar un completo entendimiento de la utilidad y limitaciones de los procedimientos de diseño de los test, así como reconocer cuáles adaptaciones proporcionan puntuaciones comparables con las del test original y cuáles adaptaciones no las proporcionan.
Concretamente, esta nueva edición de los estándares sugiere que a) los diseñadores de pruebas son responsables del desarrollo de test y de minimizar la posibilidad de que éste se vea afectado por características lingüísticas, comunicativas, cognitivas, culturales o físicas irrelevantes al constructo [estándar 3.2: 64]; b) cuando un test es traducido y adaptado de un idioma a otro, los diseñadores y los usuarios del test son responsables de describir los métodos utilizados, para establecer la idoneidad de la adaptación y documentar la evidencia empírica, o lógica, para determinar la validez de las interpretaciones y el uso de las puntuaciones [estándar 3.12: 68] y c) cuando un test está disponible en más de un idioma, la documentación debe brindar información de los procedimientos empleados para traducir y adaptar el test y, cuando sea factible, la información también debe contener evidencias de confiabilidad/precisión y validez para la forma adaptada [estándar 7.6: 127].
Guidelines for Adapting Educational
and Psychological Tests
Uno de los principales propósitos de la Comisión Internacional de los Test (itc, por sus siglas en inglés) ha sido preparar y diseminar un conjunto de directrices para la adaptación de test e instrumentos de medición psicológica y educativa, y para el establecimiento de la equivalencia de puntuaciones entre los grupos lingüísticos y culturales considerados. Se entiende por directriz para la adaptación de instrumentos a aquellas prácticas que se consideran importantes a realizar y evaluar dentro del proceso de adaptación o de construcción paralela de instrumentos de medición psicológica o educativa, para uso en poblaciones que difieren en aspectos culturales o lingüísticos (Hambleton, 1996).
El empleo de las directrices de la itc permite detectar problemas potenciales en el proceso de adaptación y problemas que necesitan tratarse antes de que la versión adaptada se pueda considerar aceptable en el nuevo contexto (Hambleton, Yu y Slater, 1999).
Así, la itc puso en marcha en 1992 un proyecto para la elaboración de las directrices, el cual se conformó por un comité de 12 representantes de distintas organizaciones (European Association of Psychological Assessment, European Test Publishers Group, International Association for Cross-Cultural Psychology, International Association of Applied Psychology, International Association for the Evaluation of Educational Achievement, International Language Testing Association and International Union of Psychological Science). Dicho comité trabajó durante varios años definiendo 22 directrices, que después fueron sometidas a prueba en trabajos de campo (Hambleton, Mereda y Spielberger, 2005; Hambleton et al., 1999; Hambleton, 2001; Tanzer y Sim, 1999).
En una primera edición, las directrices para la traducción y adaptación de test fueron integradas y ordenadas en cuatro áreas generales que orientan el proceso de adaptación de test: contexto, construcción y adaptación, aplicación e interpretación (Hambleton, 1996). Estos lineamientos se describen a continuación.
Las directrices de contexto tratan con la equivalencia de los constructos medidos en las poblaciones de interés. Buscan minimizar los efectos de las diferencias culturales y evaluar el solapamiento de los constructos en las poblaciones, lo cual permite decidir si es adecuado adaptar el test a la nueva población.
El área de construcción y adaptación de test busca asegurar una correcta adaptación, cuidando que los contenidos, formatos, estímulos y que todos los demás componentes del test original tengan la misma familiaridad para los sujetos de las dos culturas implicadas. Esta área enfatiza la necesidad de utilizar juicios analítico-racionales y técnicas estadísticas que permitan garantizar que el test es válido para las dos poblaciones.
Las directrices del área de aplicación incluyen todos aquellos aspectos necesarios para realizar una aplicación correcta de los test.
Las directrices propuestas para el área de interpretación de puntuaciones se centran en detectar la importancia de realizar las interpretaciones con base en las evidencias contenidas en toda la documentación generada en los procesos de las áreas anteriores.
En general, las veintidós directrices buscan prevenir las diferentes fuentes de error que se presentan en el proceso de adaptación de test y, al mismo tiempo, ofrecen acciones para controlarlas (Muñiz et al., 2013).
Se pueden distinguir dos contextos de aplicación de dichas directrices. Uno de ellos se refiere a la adaptación de test existentes y el otro al desarrollo de nuevos test para comparaciones a nivel internacional. La evidencia recopilada durante una década sobre la aplicabilidad de las directrices confirmó su utilidad en una amplia variedad de contextos (Hambleton, 2001; itc, 2010). No obstante, el análisis de contenido de las directrices llevado a cabo por Tanzer y Sim (1999), identificó que las directrices trataban principalmente con principios fundamentales en el proceso de adaptación de test y que había algunas inconsistencias y ambigüedades en las mismas, de tal manera que algunas necesitaban ampliarse, clarificarse, combinarse, o requerían una mayor orientación sobre su aplicación; y c) resultaba necesario indagar sobre más tipos de evidencias para establecer la equivalencia de los test, y sobre ideas, diseños y técnicas estadísticas que permitieran investigar el posible sesgo a nivel de constructo, de método o de ítem de los test traducidos y adaptados.
Es importante observar que dichas directrices eran normativas y no prescriptivas (Solano-Flores et al., 2009; Tanzer y Sim, 1999). Es decir, no proveían un método específico para obtener test multiculturales o multi-lingüísticos válidos. Por otro lado, para que los principios normativos provistos por las directrices pudieran transformarse en aplicaciones prácticas, era necesario desarrollar un compendio de las dificultades y soluciones en el proceso de adaptación de test, y también se requiere la institucionalización de programas de formación para los constructores y usuarios de los mismos (Tanzer, 2005).
Tanto los análisis de contenido de las directrices, como los avances metodológicos, psicométricos y sustantivos en el campo de la adaptación de test, hicieron necesaria una revisión de las directrices originales (Muñiz et al., 2013). De esta manera, la itc coordinó un nuevo grupo de trabajo interdisciplinar compuesto por representantes de asociaciones de psicólogos de cinco países (Reino Unido, Turquía, Bélgica, España y Holanda), para realizar la revisión y modificación de las directrices originales, a la luz de los nuevos desarrollos.
La segunda edición de las directrices (Muñiz et al., 2013) propuso un marco integral que busca que la adaptación consiga, con respecto al test original, el máximo nivel de equivalencia lingüística, cultural, conceptual y métrica posible. Éstas son entendidas como un esquema que orienta a los investigadores y profesionales en el proceso de adaptación. A través de veinte directrices, agrupadas en seis categorías, se propone un proceso ordenado y global que considera todas las fases y cuestiones relevantes en la adaptación de test. Así, las nuevas directrices (Muñiz et al., 2013), se agrupan de la siguiente manera:
Directrices previas. Resaltan el respeto a los derechos de propiedad intelectual y a los acuerdos sobre el uso de los test vigentes en los países implicados. Además, proponen el estudio de la influencia de las diferencias culturales o lingüísticas en la medición, y de la relevancia del constructo en la población de interés.
Directrices sobre el desarrollo del test. Sugieren que el proceso de adaptación sea el más pertinente para las poblaciones de interés y que valore la utilización de juicios de expertos, para estimar si el proceso de adaptación considera las diferencias lingüísticas, psicológicas y culturales suficientes. Asimismo, se interesan por que las instrucciones, contenido, formato, escalas, formas de aplicación y demás aspectos relacionados con el test y los ítems, tengan el mismo significado y sean pertinentes en las poblaciones implicadas.
Directrices de confirmación. Fijan su atención en ofrecer información empírica acerca de la equivalencia de constructo, de método y entre los ítems en todas las poblaciones implicadas. De la misma manera, señalan la necesidad de obtener evidencias sobre la confiabilidad y validez del test adaptado y de establecer el nivel de comparabilidad entre las puntuaciones obtenidas por el test en sus dos versiones.
Directrices sobre la aplicación. Se enfocan en la disminución de las diferencias culturales y lingüísticas derivadas de los procedimientos de aplicación o de los formatos de respuesta; y en la especificación de las condiciones de aplicación de manera que no se vea amenazada la validez de las inferencias originadas de las puntuaciones del test.
Directrices sobre puntuación e interpretación. Comunican la necesidad de considerar información demográfica pertinente al momento de realizar las interpretaciones de las diferencias de las puntuaciones entre los grupos bajo estudio. También, resaltan la importancia de utilizar el nivel de invarianza establecido para la escala de puntuación sobre la que se hacen las comparaciones.
Directrices sobre documentación. Señalan la importancia de proporcionar toda la documentación técnica acerca de las modificaciones del test adaptado, donde además se incluyan las evidencias de la equivalencia con la versión original e información a los usuarios sobre el uso correcto del test en la población a la que va dirigido.