Etica e IA 6 min lectura

Bixonimanía: el experimento que dejó al descubierto la fragilidad de la IA frente a la desinformación

Una investigadora creó la 'bixonimanía', una enfermedad ficticia, para evaluar si los grandes modelos de lenguaje detectarían la falsedad. El experimento reveló cómo chatbots y la cadena de publicaciones pueden amplificar información falsa, con implicaciones importantes para la salud pública.

Por Redaccion TD
Bixonimanía: el experimento que dejó al descubierto la fragilidad de la IA frente a la desinformación

Qué fue la bixonimanía y por qué se creó

La bixonimanía fue una enfermedad cutánea inventada deliberadamente por la investigadora Almira Osmanovic Thunström, de la Universidad de Gotemburgo. Según las publicaciones que ella misma difundió, la supuesta condición provocaba picazón en los ojos y leve enrojecimiento de los párpados asociada a la exposición prolongada a la luz azul de las pantallas. Lo crucial: la enfermedad no existe.

El propósito tras la invención fue claro y experimental: someter a prueba la capacidad de los grandes modelos de lenguaje (LLM) para detectar información falsa y ofrecer recomendaciones sanitarias confiables. Los materiales que Osmanovic Thunström publicó —dos entradas en Medium el 15 de marzo de 2024 y dos preimpresiones en la red académica SciProfiles a finales de abril y principios de mayo— incluían numerosas pistas de que se trataba de un montaje.

Pistas que denunciaban la falsedad

En los textos figuraban datos imposibles o claramente inventados: los estudios se atribuían a un investigador inexistente llamado Lazljiv Izgubljenovic, afiliado a la ficticia Asteria Horizon University en “Nova City, California”. También se mencionaba financiación de la “Fundación Profesor Sideshow Bob, por su labor en el campo de la superproducción” y se aludía a una iniciativa respaldada por la “University of Fellowship of the Ring” y la “Galactic Triad”, con el número de subvención 99942-666. Todas las referencias apuntaban a un montaje intencional y detectable.

Aun así, el experimento demostró lo que Osmanovic quería mostrar: varios sistemas de IA comenzaron a reproducir la bixonimanía como si fuera real.

Cómo respondieron los modelos de lenguaje y buscadores conversacionales

Pocos días después de la difusión de los documentos falsos, asistentes y buscadores conversacionales populares empezaron a generar referencias a la bixonimanía. Fragmentos de conversaciones recogidos por medios especializados muestran respuestas que trataban la afección como real: Microsoft Copilot llegó a describirla como una “afección intrigante y relativamente rara”, Gemini la presentó como un trastorno atribuido al exceso de luz azul, Perplexity ofreció una prevalencia concreta (una de cada 90,000 personas) y ChatGPT describió síntomas y manifestaciones potenciales.

Es importante subrayar que las declaraciones de estos sistemas no son comprobaciones factuales sino resultados de procesos estadísticos sobre grandes corpus de texto. Los LLM priorizan la coherencia lingüística y la plausibilidad respecto a una verificación documental rigurosa.

El efecto cascada: datos falsos que entran en la literatura revisada por pares

La capacidad de la desinformación para propagarse más allá de un experimento quedó aún más alarmante cuando algunas de las preimpresiones sobre la bixonimanía fueron citadas por artículos reales publicados en revistas revisadas por pares. Entre esos trabajos se cuenta un artículo en la revista Cureus (de Springer Nature) firmado por investigadores del Instituto Maharishi Markandeshwar de Ciencias Médicas e Investigación, en Mullana, India.

Ese paso —de documento ficticio a referencia en trabajos científicos verificados— ilustra la vulnerabilidad de los flujos de información académica y cómo la automatización en indexación y recuperación de contenidos puede facilitar la contaminación cruzada entre lo falso y lo legítimo.

Por qué los modelos fallaron (y qué significa eso para la salud)

La lección técnica que deja este experimento es que los LLM no integran, por defecto, mecanismos sólidos de verificación factual; se entrenan para predecir la siguiente palabra con base en patrones y co-ocurrencias. Eso los vuelve proclives a las “alucinaciones” —respuestas plausibles pero inventadas— y a otorgar credibilidad a textos que tienen forma científica aunque carezcan de sustento empírico.

En el ámbito sanitario, esta limitación puede ser peligrosa. Mensajes que suenan técnicos y están articulados de manera convincente tienen mayor probabilidad de ser aceptados por profesionales o por el público general, especialmente en contextos con baja alfabetización científica o con insuficientes recursos para verificar fuentes.

Alex Ruani, investigador dedicado a la desinformación sanitaria en University College London, advirtió que la incapacidad de los sistemas para filtrar contenido tan claramente falso es preocupante y constituye “una lección sobre cómo funciona la desinformación”.

El debate ético detrás del experimento

El propio diseño del estudio de Osmanovic plantea dilemas éticos: introducir deliberadamente información falsa en el ecosistema científico para probar vulnerabilidades también puede contribuir a su propagación. Para algunos investigadores esto justifica una crítica ética, mientras que otros consideran que exponer fallas estructurales justifica el riesgo calculado.

David Sundemo, investigador en la Universidad de Gotemburgo, calificó el trabajo como valioso pero polémico, y señaló que en este caso puede merecer la pena asumir el costo ético si permite mejorar la seguridad y la confiabilidad de los sistemas.

Qué pueden hacer la academia, la industria y los responsables públicos

El caso bixonimanía subraya la necesidad de medidas concretas:

  • Implementar evaluaciones continuas y estandarizadas para medir la propensión de los modelos a las alucinaciones y su sensibilidad a la desinformación.
  • Fortalecer mecanismos de trazabilidad y procedencia de la información (provenance) en herramientas que ofrecen respuestas médicas o científicas.
  • Mantener a la intervención humana como parte central del proceso de revisión, especialmente en contenidos sanitarios.
  • Mejorar la alfabetización digital y científica de profesionales de la salud, periodistas y tomadores de decisión para que identifiquen señales de alerta en textos con apariencia académica.

Para países de América Latina, donde los recursos para verificación pueden ser limitados y la desinformación sanitaria ya ha demostrado efectos negativos en campañas de salud pública, estas medidas son particularmente urgentes. Instituciones académicas, sociedades científicas y reguladores deben priorizar la definición de criterios mínimos para el uso de IA en contextos clínicos y de comunicación de salud.

Conclusión: una llamada a la precaución y al diseño responsable

La bixonimanía no fue más que una ficción con propósito experimental, pero el experimento dejó una advertencia clara: sin controles robustos, la IA puede replicar y amplificar falsedades disfrazadas de ciencia. El desafío ahora es traducir esa advertencia en reglas, pruebas y prácticas que reduzcan el riesgo de que información errónea entre en la cadena de publicación y llegue a quienes toman decisiones sobre salud pública.

Más allá de la discusión técnica y ética, el caso obliga a reforzar la colaboración entre desarrolladores de IA, editores científicos, instituciones de salud y reguladores para asegurar que las herramientas que prometen acelerar el acceso a la información no se conviertan, inadvertidamente, en vectores de desinformación.

Fuente original: Wired