IA y calificación de ensayos: limitaciones reales

Resumen

Un reciente estudio académico coordinado por Deborah Talmi pone en perspectiva una pregunta que preocupa a docentes y administradores universitarios: ¿puede la inteligencia artificial hacerse cargo de la calificación de ensayos? La respuesta, según la investigación, es que la IA puede automatizar partes del proceso, pero sigue teniendo fallas importantes que la hacen inadecuada como sustituto directo del juicio humano en la evaluación académica.

Qué evaluó el estudio

El informe titulado AI in University Assessment: Evaluating the Opportunities and Risks of Automated Marking fue realizado por OpRaise, un proyecto liderado por la doctora Deborah Talmi. Los investigadores probaron tres modelos de lenguaje de gran tamaño: Claude Opus 4.6, GPT-5.4 y Gemini 3 Flash. La muestra incluyó 761 ensayos escritos por 125 estudiantes de psicología en tres universidades del Reino Unido: Cambridge, Nottingham y Manchester Metropolitan. Los textos fueron escritos entre 2022 y 2025.

La metodología combinó comparación directa de calificaciones entre IA y docentes humanos, y grupos focales con estudiantes y profesores para explorar implicaciones educativas y éticas.

Resultados principales

La coincidencia entre las calificaciones de la IA y las asignadas por docentes humanos varió ampliamente, y cuando se evaluó la concordancia en categorías finales (por ejemplo sobresaliente, aprobado), el acuerdo osciló entre apenas 35 y 65 por ciento.
Los modelos tendieron a favorecer características formales del texto: mayor longitud, vocabulario más amplio, oraciones complejas y abundancia de conectores lógicos. En resumen, priorizaron el estilo por encima del contenido académico profundo.
Se observó una marcada tendencia central: la IA otorgó calificaciones medias con más frecuencia de lo que haría un docente humano, subestimando los trabajos sobresalientes y siendo demasiado indulgente con los más pobres.
Aunque no coincidían plenamente con los humanos, los tres modelos mostraron alta consistencia entre sí y al recalificar los mismos trabajos días después, lo que sugiere que comparten patrones similares de evaluación —y de error.
En cuanto a retroalimentación escrita, la IA ofreció comentarios entre tres y ocho veces más extensos que los profesores, cuyos comentarios rondaban entre 100 y 200 palabras por evaluación.

Por qué la IA falla en calificar ensayos

Los modelos de lenguaje aprenden a partir de patrones estadísticos en grandes volúmenes de texto. Eso los hace buenos identificando pistas superficiales que correlacionan con una buena presentación, pero no garantiza que comprendan o valoren la solidez de un argumento, la originalidad de una idea o la precisión conceptual dentro de un marco académico.

El resultado es una evaluación que favorece la forma: enunciados largos, vocabulario sofisticado y estructuras complejas reciben mejor puntuación, aunque el contenido no demuestre un pensamiento crítico riguroso. Además, la inclinación hacia la puntuación media diluye la capacidad de distinguir trabajos realmente sobresalientes, lo que puede penalizar el mérito académico.

Cómo perciben docentes y estudiantes la automatización

Los grupos focales del estudio destacaron que la retroalimentación no es solo una nota, sino parte de un contrato social entre docente y alumno. Comentarios provenientes de una persona experta, la posibilidad de discutir una calificación y la sensación de que alguien leyó cuidadosamente el ensayo son componentes esenciales de la experiencia educativa. Algunos estudiantes manifestaron que se sentirían engañados si una IA calificara sin supervisión humana, una reacción que refleja preocupaciones sobre legitimidad y reconocimiento.

También hay inquietudes sobre el impacto en el aprendizaje: la facilidad para generar ensayos con asistencia de IA podría debilitar habilidades como la lectura crítica, el análisis y la capacidad de argumentar de forma independiente.

Usos potenciales y límites prácticos

El estudio no descarta la utilidad de la IA en contextos de evaluación, pero sugiere usos complementarios más que sustitutivos. Aplicaciones plausibles incluyen:

Detectar inconsistencias entre evaluadores humanos para mejorar la equidad del proceso.
Señalar casos dudosos que requieran revisión humana.
Generar comentarios preliminares más extensos que el docente pueda revisar y ajustar.

Sin embargo, depender exclusivamente de modelos actuales conduciría a una homogeneización de las calificaciones y a la pérdida de matices que un juicio humano aporta.

Qué significa esto para América Latina

Aunque el estudio se realizó en universidades del Reino Unido, sus conclusiones son relevantes para la región. Las instituciones latinoamericanas enfrentan presiones similares: reducción de carga laboral, demandas de eficiencia y expectativas estudiantiles crecientes. En este contexto, la tentación de recurrir a la IA para aliviar tareas administrativas será fuerte.

No obstante, las universidades latinoamericanas deberían considerar cuidadosamente los riesgos: delegar evaluaciones a sistemas que favorecen la forma sobre el contenido podría sesgar resultados, penalizar talento y erosionar prácticas pedagógicas centradas en el pensamiento crítico. Además, factores locales como diversidad lingüística, estilos de redacción y diferencias curriculares pueden amplificar los sesgos de los modelos entrenados principalmente en datos de otras regiones.

Recomendaciones para gestores y docentes

Usar la IA como asistente, no como juez final. Automatizar tareas repetitivas y emergentes, pero mantener la revisión y la decisión última en manos humanas.
Implementar evaluaciones mixtas donde la IA sirva para prefiltrar, detectar inconsistencias y preparar retroalimentación que el docente valide y personalice.
Capacitar a docentes en el uso crítico de herramientas de IA y en la interpretación de sus sesgos.
Considerar cambios en diseño de evaluaciones para centrarlas en procesos y evidencias difíciles de evaluar solo por características textuales, por ejemplo, evaluaciones orales, portafolios o proyectos con defensa presencial.
Mantener transparencia con estudiantes sobre cuándo y cómo se usa la IA en evaluaciones para preservar el contrato académico.

Conclusión

La inteligencia artificial ofrece posibilidades para aliviar la carga administrativa en la educación superior, pero los modelos actuales no están listos para reemplazar la evaluación humana de ensayos. Sus sesgos hacia la forma del lenguaje y su tendencia a moderar las notas pueden distorsionar juicios académicos y afectar el aprendizaje. En América Latina, donde las necesidades de eficiencia coexisten con inequidades y diversidad educativa, la introducción de la IA en procesos de evaluación debe hacerse con cautela, supervisión humana y políticas claras que protejan la calidad educativa.

Las universidades que busquen integrar IA en sus procesos evaluativos deberían hacerlo con pilotos controlados, formación docente y mecanismos de revisión humana robustos, reconociendo que la tecnología puede complementar pero no sustituir el juicio académico experto.