Diseñar IA médica «humilde»: cómo evitar la confianza excesiva que pone en riesgo decisiones clínicas
Investigadores del MIT proponen un marco para que los sistemas de IA en salud muestren humildad epistemica: evalúen su confianza, pidan más información cuando haga falta y promuevan la colaboración con el personal médico. Esto busca reducir errores derivados de recomendaciones excesivamente seguras.
El problema: IA confiada que puede desviar decisiones clínicas
La inteligencia artificial promete apoyar el diagnóstico y personalizar tratamientos, pero tal como la usan hoy muchos equipos clínicos, también puede inducir errores. Estudios previos muestran que médicos en unidades de cuidados intensivos tienden a aceptar recomendaciones de sistemas percibidos como autoritativos, incluso cuando su intuición clínica difiere. Cuando un algoritmo ofrece una respuesta segura pero equivocada, el riesgo es que el profesional la acepte y que esto afecte negativamente al paciente.
Ese fenómeno no es solo técnico: tiene implicancias éticas y organizativas. En entornos de alta presión, como urgencias o UCI, una sugerencia aparentemente confiable puede colapsar el proceso de juicio clínico. Por eso, un grupo internacional liderado por investigadores del MIT propone replantear el rol de la IA: pasar de oráculo a co-piloto.
¿Qué significa una IA “humilde”?
Una IA humilde reconoce sus límites y comunica incertidumbres. En la práctica, eso implica que el sistema: 1) evalúe su grado de certidumbre frente a una predicción clínica; 2) adapte su respuesta según el contexto y la calidad de la evidencia disponible; y 3) active mecanismos para solicitar información adicional, proponer pruebas o recomendar consulta con especialistas cuando la incertidumbre sea alta.
En vez de presentar una única recomendación categórica, una IA humilde facilita la interacción: sugiere pasos concretos que el equipo clínico puede realizar para resolver dudas y fomenta la reflexión colectiva. El objetivo es potenciar la agencia del profesional, no desplazarla.
El marco propuesto por el consorcio de MIT Critical Data
Los autores, entre ellos Leo Anthony Celi y Sebastián Andrés Cajas Ordoñez, presentan un marco que incluye módulos computacionales que pueden integrarse a sistemas existentes. Uno de los componentes centrales es lo que denominan una medida de virtud epistémica: un chequeo interno que evalúa si la confianza del modelo está justificada por la evidencia clínica disponible.
Si el modelo detecta que su confianza excede el respaldo empírico, puede señalar ese desajuste y recomendar acciones concretas—por ejemplo, solicitar exámenes específicos, recabar historia clínica adicional o derivar a un especialista. Así, la IA no solo emite una predicción, sino que indica cuándo esa predicción debe ser tratada con cautela.
Los investigadores han empezado a integrar este enfoque en modelos entrenados con bases de datos como MIMIC (Medical Information Mart for Intensive Care) y planean introducirlo en sistemas clínicos del Beth Israel Lahey Health para evaluar su funcionamiento en la práctica.
Ventajas prácticas: desde radiología hasta emergencias
El marco es aplicable en distintos dominios clínicos: análisis de imágenes (por ejemplo, radiografías), priorización de casos en urgencias y soporte a decisiones terapéuticas en UCI. En todos estos escenarios la característica común es la presencia de incertidumbres—datos incompletos, cambios rápidos en el estado del paciente o factores contextuales que el modelo no captó al entrenarse.
Al pedir información adicional o sugerir una segunda opinión, la IA ayuda a evitar el efecto de arrastre (anchoring) donde la primera recomendación dominante orienta erróneamente todo el proceso diagnóstico.
Inclusión y representatividad: por qué importa para América Latina
Los investigadores señalan otro problema crítico: muchos modelos se entrenan con datos públicos procedentes de Estados Unidos, lo que puede introducir sesgos culturales, epidemiológicos y de acceso. En América Latina, esto es especialmente relevante: diferencias en perfiles poblacionales, acceso desigual a servicios de salud y prácticas clínicas diversas pueden hacer que modelos entrenados en otros contextos no generalicen bien.
Además, los registros clínicos electrónicos (EHR) no fueron pensados originalmente para entrenar modelos predictivos. Carecen de contexto valioso y dejan fuera a pacientes sin acceso a sistemas formales, como poblaciones rurales o comunidades con barreras económicas. Para la región, la lección es clara: promover la recolección responsable de datos locales y participar en el diseño conjunto de herramientas es clave para evitar la reproducción de inequidades.
Participación multidisciplinaria: talleres y co-diseño
MIT Critical Data organiza talleres donde científicos de datos, profesionales de salud, científicos sociales y pacientes trabajan juntos desde el inicio. Antes de construir modelos se les exige cuestionar los datos: ¿capturan todos los factores relevantes? ¿Existen grupos excluidos en la muestra? Este ejercicio de crítica y revisión busca minimizar la incorporación de desigualdades estructurales en los modelos.
Este enfoque de co-diseño no solo mejora la representatividad; también facilita la adopción clínica, pues los usuarios participan en la construcción y entienden las limitaciones del sistema.
Implicaciones para gestores y tomadores de decisiones en América Latina
Para quienes lideran sistemas de salud en la región, el mensaje operativo es doble:
-
Priorizar soluciones que expliquen su nivel de certidumbre. En licitaciones y evaluaciones, incluir criterios que valoren la capacidad del sistema para comunicar incertidumbre y proponer acciones cuando la evidencia es insuficiente.
-
Fomentar la generación de datos locales y la participación de equipos clínicos en el desarrollo. Esto ayuda a adaptar modelos a la realidad regional y a reducir riesgos de sesgo.
Además, es esencial capacitar a los profesionales para usar la IA como herramienta de apoyo: enseñarles a interpretar señales de incertidumbre y a mantener el juicio clínico cuando el sistema indique baja confianza.
Límites y próximos pasos
El marco propuesto no es una solución mágica ni sustituye la necesidad de evaluación clínica rigurosa. Su eficacia dependerá de la calidad de los datos, del diseño de las métricas de incertidumbre y de la integración con flujos de trabajo clínicos reales. Los equipos del MIT están empezando a probar estas ideas en entornos reales, un paso necesario para medir impactos en seguridad del paciente y adopción.
Para América Latina, estos desarrollos abren una oportunidad: incorporar principios de humildad y co-diseño desde el inicio puede ayudar a desplegar IA médica más segura, equitativa y alineada con las necesidades locales.
Conclusión
Reimaginar la IA en salud como un co-piloto más que como un oráculo es un cambio de paradigma con implicaciones prácticas y éticas. Los sistemas que reconocen y comunican su incertidumbre pueden reducir errores derivados de recomendaciones excesivamente seguras y potenciar la creatividad del equipo clínico. Para lograrlo, la región necesita combinar regulación, inversión en datos locales y procesos de co-diseño que pongan a pacientes y profesionales en el centro del desarrollo tecnológico.
Fuente original: MIT News AI