Cómo ChatGPT influyó en el aumento de sobresalientes

Un salto en los sobresalientes ligado a la llegada de ChatGPT

Desde 2022, cuando ChatGPT se popularizó, varias investigaciones académicas documentan un aumento notable en las calificaciones más altas en la universidad. Un estudio realizado con datos de medio millón de estudiantes y 319 asignaturas en una universidad de Texas encontró que la cifra de sobresalientes se disparó un 30% desde la aparición de esta herramienta. El incremento es más marcado en asignaturas que dependen de tareas escritas o programación, donde resulta más fácil apoyarse en modelos de lenguaje; en cambio, cursos centrados en exposiciones orales muestran un efecto mucho menor.

Esa observación no es aislada: otra investigación, publicada en la revista Science y basada en encuestas a más de 95.000 alumnos de 20 instituciones, encontró que en 2024 aproximadamente el 9% de estudiantes hizo un uso indebido de la IA para hacer trampa. Los trabajos que dependen de redacciones, análisis de código o tareas similares son los que más han visto este fenómeno.

Quién gana (y quién no) con la ayuda de la IA

Un dato interesante del estudio de Texas es que la subida de notas no ocurre principalmente en quienes estaban al borde del suspenso. Según Igor Chirikov, investigador del Centro de Estudios sobre Educación Superior de UC Berkeley y coautor del trabajo, “los que más suben no son los que estaban al borde del suspenso, sino los estudiantes que ya se movían en la franja media y alta”. En otras palabras, la IA tiende a empujar hacia arriba a quienes ya tenían mejor rendimiento, más que a salvar a quienes están en riesgo de reprobar.

Ese patrón coincide con la idea de un “desplazamiento de tareas”: la IA no solo ayuda a mejorar una capacidad, sino que, en ocasiones, sustituye por completo el trabajo que debería realizar el estudiante. Algunos alumnos presentan trabajos de calidad sobresaliente sin haber escrito ni entendido el contenido en profundidad.

Variaciones por carrera y evaluación

Los estudios también muestran diferencias por área: las tasas de mal uso detectadas son mayores en carreras como Economía (17%) y Periodismo (16%), y menores en Biología (5%). Los autores sugieren que estas diferencias pueden depender tanto del tipo de estudiantes atraídos por cada disciplina como del formato de evaluación utilizado en cada carrera.

Además, la historia previa de inflación de notas no es nueva. Investigaciones previas sobre Harvard señalan que la proporción de sobresalientes pasó del 24% en 2005 al 60,2% en 2025. En ese caso, la razón histórica estuvo más asociada a incentivos de los profesores y de las propias instituciones —como mejores evaluaciones de enseñanza o ventaja competitiva para el ingreso a posgrados—, mientras que ahora la diferencia radica en que muchos trabajos simplemente parecen mejores porque la IA los produce o mejora sustancialmente.

Un fenómeno global con matices regionales

Aunque las investigaciones citadas usan datos estadounidenses, los mecanismos subyacentes no son exclusivos de ese país. Donde los estudiantes tienen acceso a herramientas de IA y las evaluaciones se basan en tareas escritas o de programación, es probable observar un aumento similar en las calificaciones sin que necesariamente mejoren competencias reales.

Para América Latina, el impacto dependerá de factores como el acceso a la tecnología (disponibilidad de dispositivos y conexión), el uso de evaluación presencial u oral, la existencia de políticas institucionales sobre IA, y la eficacia de las herramientas en lenguas distintas al inglés. En contextos con limitaciones de conectividad o menor acceso a modelos avanzados en español, el efecto podría ser menor, pero donde el acceso sea comparable al de EE. UU. es razonable esperar dinámicas parecidas.

Qué pueden hacer las universidades: tres direcciones propuestas

Los autores y especialistas en educación sugieren que no existe una única solución milagrosa. Igor Chirikov propone al menos tres líneas de acción complementarias:

Usar espacios supervisados para verificar el rendimiento individual cuando sea estrictamente necesario. Esto incluye pruebas controladas o actividades realizadas bajo observación para validar que el estudiante domina los contenidos.
Aclarar, de forma explícita, qué usos de la IA son aceptables y cuáles no, materia por materia y tarea por tarea. La claridad reduce zonas grises y ayuda a establecer expectativas éticas.
Rediseñar los trabajos para limitar el uso de IA cuando se evalúe competencia individual, o bien incorporarla de forma intencional como parte del aprendizaje, con rúbricas que valoren tanto el producto como la comprensión y el proceso.

Estas medidas buscan que la evaluación se alinee con lo que realmente se pretende medir: competencia, aplicación del conocimiento y pensamiento crítico, no solo la capacidad de obtener un texto bien escrito con ayuda de una herramienta.

Dificultades prácticas y culturales

Convencer a los estudiantes de evitar atajos es complicado. René Kizilcec, investigador de la Universidad de Cornell, compara el desafío con el de animar a la gente a ahorrar temprano: es una decisión con beneficios a largo plazo frente a la tentación de un alivio inmediato. Las evaluaciones que incluyen elementos que la IA no puede replicar fácilmente —por ejemplo, problemas prácticos, defensa oral o tareas en tiempo real— pueden motivar a aprender lo fundamental, porque los estudiantes saben que en algún momento serán evaluados sin herramientas externas.

También hay retos operativos: no todas las materias permiten formatos alternativos fácilmente, y no todos los docentes cuentan con tiempo o recursos para rediseñar evaluaciones. En América Latina, donde las cargas docentes y la disponibilidad de capacitación varían mucho entre instituciones, estas barreras son reales.

Hacia políticas institucionales coherentes

Las universidades deben combinar normativas claras sobre integridad académica con iniciativas formativas: enseñar a usar la IA como herramienta (y no como reemplazo), diseñar evaluaciones coherentes y mejorar supervisión cuando corresponde. Además, es clave considerar la equidad: si algunos estudiantes tienen acceso a asistentes de IA y otros no, las instituciones deben buscar equilibrar oportunidades o adaptar las pruebas para minimizar ventajas tecnológicas injustas.

Conclusión

La llegada de ChatGPT y herramientas similares está reorganizando lo que medimos con las calificaciones universitarias. Los sobresalientes han aumentado, especialmente en tareas susceptibles de ser ejecutadas por IA, y ese fenómeno obliga a repensar cómo evaluamos competencias reales. No hay una receta única; la respuesta debe ser multifacética y contextualizada, combinando claridad normativa, rediseño de evaluaciones y formación docente. Para América Latina, la prioridad será adaptar esas estrategias a realidades de acceso, idiomas y recursos, para que la evaluación universitaria siga reflejando lo que de verdad importa: el aprendizaje y la capacidad de aplicar el conocimiento.