Etica e IA 5 min lectura

Por qué la IA habla tanto de duendecillos y de Japón (y qué significa eso)

Actualizaciones de ChatGPT y estudios recientes han sacado a la luz comportamientos inexplicables en modelos de IA: menciones frecuentes a 'duendecillos' y una sorprendente preferencia por Japón. Estos fenómenos ilustran cómo recompensas y datos de entrenamiento moldean respuestas y por qué deben analizarse con cautela.

Por Redaccion TD
Por qué la IA habla tanto de duendecillos y de Japón (y qué significa eso)

Un comportamiento inesperado que llamó la atención

En los últimos meses usuarios y desarrolladores empezaron a notar dos patrones curiosos en modelos de conversación: ChatGPT comenzó a usar metáforas con “duendecillos” o “gremlins” con mucha más frecuencia tras ciertas actualizaciones, y varios trabajos de investigación encontraron que los chatbots tienden a nombrar a Japón con una asiduidad sorprendente.

El caso de los duendes saltó a la luz cuando foros como Reddit y Hacker News registraron diálogos en los que ChatGPT comparaba problemas o dinámicas negativas con duendes de las cavernas o gremlins. OpenAI investigó y publicó un texto explicando el origen: la personalidad “friki” del modelo, utilizada en el entrenamiento, fue recompensada por usar metáforas con criaturas fantásticas. El resultado fue que esas metáforas se propagaron y se volvieron desproporcionadas.

Datos concretos sobre la proliferación de ‘duendecillos’

OpenAI observó incrementos llamativos: menciones a “duende” crecieron 175% y a “gremlin” 52% desde la versión 5.1. Además, estas referencias estaban altamente concentradas en la personalidad friki: aunque esa personalidad representaba apenas el 2,5% de las respuestas, acumuluaba el 66,7% de las menciones a “duende”. Para atajarlo, el equipo incluso compartió un pequeño parche —cinco líneas de código— que suprimen las instrucciones que fomentan esas metáforas en modelos concretos como Codex.

¿Por qué Japón aparece tanto en las respuestas?

Un equipo de investigadores —entre ellos Carla Pérez Almendros y José Camacho Collados— detectó que, en distintos idiomas, los modelos nombran a Japón con mucha frecuencia. En inglés Japón era el país más mencionado una vez que se retiraban EE. UU. o Reino Unido de ciertos análisis; lo más llamativo fue que el mismo patrón aparecía en respuestas en castellano o chino, donde cabría esperar que otros países lideraran.

Los autores plantean una hipótesis razonable: los modelos incorporan lo que llaman “entrenamiento de seguridad”, donde los desarrolladores intentan mitigar respuestas problemáticas asociadas a ciertos países. En ese proceso, naciones que resultan culturalmente neutras y populares —como Japón— quedan en una posición privilegiada para servir como ejemplos o metáforas, mientras que países considerados “problemáticos” quedan evitados. India aparece también como un ejemplo frecuente, quizá por razones similares.

¿Qué nos dicen estos ejemplos sobre los sesgos de los modelos?

Ambos fenómenos —duendecillos y Japón— son signos claros de que las respuestas de los modelos no son neutras ni simplemente “reflejos” de la realidad. Los sesgos pueden surgir por varias vías:

  • Por decisiones de diseño: recompensas durante el entrenamiento que favorecen ciertos estilos o contenidos.
  • Por la selección y naturaleza de los datos de entrenamiento: ejemplos más frecuentes o representativos en los conjuntos de datos.
  • Por mecanismos no intencionados de transferencia de información entre modelos, como han mostrado investigaciones que detectaron lenguajes ocultos o señales compartidas entre instancias.

Carla Pérez Almendros resume la advertencia: todos los modelos están sesgados; a veces por intención —para evitar ofensas— y otras por el sesgo implícito en los datos. El riesgo es que los usuarios perciban esas respuestas como objetivas o representativas del mundo cuando no lo son.

La contaminación entre modelos: una amenaza más sutil

Investigaciones de otros equipos, como Anthropic, han mostrado un fenómeno inquietante: modelos de la misma familia pueden desarrollar señales internas o atajos que transmiten información entre sí. En un experimento, hacer que un modelo diga que los búhos son su animal favorito y luego generar listas de números aparentemente aleatorios servía para que otro modelo captara esa preferencia. La explicación provisional es que pequeños patrones o “pistas” quedan codificadas y son reconocidas por modelos entrenados con estrategias semejantes. Este tipo de contaminación puede propagar sesgos de maneras difíciles de detectar y corregir.

Joseba Fernández de Landa, otro coautor del estudio sobre Japón, subraya que la “homogeneización” de respuestas entre modelos podría deberse en gran parte a la intervención humana: somos quienes elegimos datos, arquitecturas y estrategias de entrenamiento. Aun así, la interacción entre modelos y la retroalimentación de usuarios también contribuyen a esta dinámica.

Qué deberían tener en cuenta las empresas y responsables en América Latina

Para tomadores de decisión y equipos que incorporan IA en la región, estos episodios ofrecen lecciones prácticas:

  • Auditar y monitorear: no asumir que la IA es objetiva. Revisen respuestas en contextos locales y multilingües antes de desplegar soluciones.
  • Evaluar personalidades y “modos” del sistema: si su proveedor de IA ofrece configuraciones o personalidades, prueben cómo cambian los sesgos y el lenguaje.
  • Documentación y transparencia: exijan a los proveedores información sobre estrategias de mitigación de sesgos y sobre si el modelo ha mostrado comportamientos inesperados en el pasado.
  • Usar la retroalimentación como herramienta: reportar fallos o sesgos ayuda a los desarrolladores a corregirlos, como ocurrió con los duendes.

Conclusión: entender la IA como un producto de diseño y datos

Los ejemplos de los duendecillos y la preferencia por Japón muestran que los modelos de lenguaje reflejan decisiones de diseño, datos de entrenamiento y dinámicas complejas entre sistemas. Lejos de ser “magia” omnisciente, sus respuestas llevan la huella de incentivos y atajos aprendidos. Para organizaciones en América Latina esto implica adoptar una actitud crítica y proactiva: auditar, preguntar, y no confiar ciegamente en la neutralidad de la IA.

En última instancia, los desarrolladores pueden corregir comportamientos extraños—como suprimir metáforas con duendes—pero también conviene que los usuarios comprendan los límites y orígenes de estas respuestas para tomar decisiones más informadas sobre su adopción y gobernanza.

Fuente original: El Pais IA