Probar la ética de sistemas autónomos con SEED-SET

El reto: decisiones óptimas que pueden ser injustas

La inteligencia artificial ya se utiliza para optimizar decisiones críticas: desde estrategias de distribución de energía hasta el ruteo del tráfico en ciudades. Técnicamente, un sistema autónomo puede proponer una solución que minimice costos o maximice la eficiencia. Sin embargo, una solución óptima en términos cuantitativos puede generar consecuencias injustas en términos sociales: por ejemplo, priorizar suministro a zonas de mayores ingresos durante una sobrecarga, dejando barrios vulnerables más expuestos a cortes.

En contextos latinoamericanos, donde las brechas de infraestructura y la desigualdad urbana son realidades palpables, estas decisiones automatizadas pueden exacerbar discriminaciones existentes si no se prueban adecuadamente. Por eso los reguladores y operadores necesitan herramientas que vayan más allá de métricas técnicas y examinen la alineación con valores humanos y criterios éticos.

SEED-SET: diseño experimental escalable para pruebas éticas

Investigadores del MIT desarrollaron SEED-SET (Scalable Experimental Design for System-level Ethical Testing), un marco experimental pensado para identificar con rapidez los escenarios más informativos sobre la conducta ética de sistemas autónomos. En lugar de depender de grandes conjuntos de datos etiquetados con criterios subjetivos —algo escaso y caro—, SEED-SET integra métricas cuantitativas y juicios humanos simulados para priorizar qué casos deben evaluarse con mayor profundidad.

El equipo, liderado por la profesora Chuchu Fan del Departamento de Aeronáutica y Astronáutica y el laboratorio LIDS del MIT, trabajó con estudiantes y postdoctorados de MIT y colaboradores de Saab. Presentaron los resultados en la conferencia International Conference on Learning Representations (ICLR).

Decomponer lo objetivo y lo subjetivo

La innovación clave de SEED-SET es la separación jerárquica entre evaluaciones objetivas y subjetivas. En una primera capa, un modelo objetivo analiza métricas mensurables —como costo, confiabilidad o latencia—. Sobre esa base, una segunda capa evalúa preferencias humanas, que suelen ser cualitativas (por ejemplo, justicia percibida entre distintos grupos de usuarios).

Esta descomposición permite generar escenarios que representan bien tanto el rendimiento técnico como la percepción ética de diferentes grupos interesados. Para sistemas complejos —un sistema eléctrico que atiende a una comunidad rural y a un centro de datos, por ejemplo—, esa distinción ayuda a explorar cómo distintas prioridades éticas de cada grupo influyen en las decisiones del sistema.

Usar un LLM como proxy para evaluadores humanos

Para modelar las preferencias subjetivas sin depender exclusivamente de evaluadores humanos, SEED-SET emplea un gran modelo de lenguaje (LLM) como proxy. Las preferencias de cada grupo de interés se codifican en instrucciones de lenguaje natural; el LLM compara pares de escenarios y elige cuál cumple mejor los criterios éticos descritos.

Los investigadores argumentan que, después de evaluar cientos o miles de escenarios, los evaluadores humanos pueden fatigarse y volverse inconsistentes. Usar un LLM reduce ese sesgo por fatiga y acelera el proceso de comparación. El LLM guía la búsqueda hacia los escenarios más informativos, cuyos resultados en simulación luego retroalimentan el siguiente paso de selección.

Ciclo de simulación y selección inteligente

El flujo de trabajo de SEED-SET es iterativo: el marco propone un escenario, lo simula (por ejemplo, una estrategia de distribución de energía o un plan de ruteo urbano) y evalúa el desempeño objetivo. Luego el LLM compara ese escenario con otros según criterios éticos y determina cuáles merecen pruebas adicionales. Con ese enfoque, SEED-SET genera rápidamente casos representativos que muestran tanto alineamiento como disonancias entre objetivos técnicos y valores humanos.

En sus pruebas, el método fue capaz de identificar situaciones concretas donde la optimización técnica perjudicaba a grupos vulnerables —por ejemplo, priorizar zonas de mayor ingreso en momentos de alta demanda eléctrica— lo que facilita a operadores y reguladores anticipar y corregir esos sesgos antes del despliegue.

Resultados en sistemas realistas

Los autores aplicaron SEED-SET a simulaciones de redes eléctricas controladas por IA y a sistemas de ruteo de tráfico urbano. En comparación con estrategias basadas en muestreo aleatorio o evaluaciones estáticas, SEED-SET generó más del doble de casos de prueba óptimos en el mismo lapso de tiempo, y detectó escenarios problemáticos que otros enfoques pasaron por alto.

Ese mayor rendimiento se atribuye a la capacidad del marco para concentrar las evaluaciones en los casos más relevantes, reduciendo el tiempo y el costo de pruebas manuales extensas.

Relevancia para América Latina

En la región, las decisiones automatizadas en servicios públicos —energía, transporte, salud— interactúan con contextos de desigualdad y heterogeneidad urbana. Un marco como SEED-SET puede ayudar a autoridades municipales, operadores de red y empresas de tecnología a:

Identificar riesgos éticos antes de implementar soluciones autónomas en infraestructura crítica.
Priorizar pruebas que revelen impactos desproporcionados sobre comunidades vulnerables.
Informar políticas y contratos que exijan evaluaciones éticas continuas durante la operación.

Al complementar las auditorías humanas con modelos que sistematizan preferencias y detectan «lo que no se imaginó», los tomadores de decisión pueden reducir sorpresas éticas y diseñar mitigaciones más efectivas.

Limitaciones y consideraciones prácticas

SEED-SET no reemplaza la deliberación humana: el uso de un LLM como proxy simplifica y escalabiliza las comparaciones, pero depende de cómo se formulen las instrucciones y de las capacidades del modelo. Las preferencias humanas cambian con el tiempo y según el contexto; por ello, las evaluaciones deben actualizarse y validarse con representantes reales de las comunidades afectadas.

Además, las salvaguardas incorporadas en el diseño del sistema sólo cubren escenarios que los evaluadores —humanos o artificiales— son capaces de imaginar o codificar. La técnica busca reducir los «unknown unknowns», pero no puede eliminarlos por completo.

Qué pueden hacer los decisores hoy

Para organizaciones y gobiernos interesados en desplegar sistemas autónomos seguros y justos, SEED-SET ofrece un enfoque práctico para integrar consideraciones éticas en la fase de pruebas. Recomendaciones concretas:

Incorporar escenarios generados por diseño experimental en pruebas de pre-despliegue.
Involucrar a representantes de comunidades afectadas para definir criterios éticos relevantes.
Usar herramientas automatizadas como apoyo, no como reemplazo, de evaluaciones humanas continuas.
Mantener procesos de reevaluación a medida que el sistema y las preferencias sociales evolucionan.

Conclusión

El trabajo del MIT aporta un método escalable para encontrar, antes del despliegue, situaciones en las que sistemas autónomos pueden fallar en respetar criterios éticos. Al separar lo objetivo de lo subjetivo y al usar modelos de lenguaje para simular juicios humanos, SEED-SET acelera la identificación de casos críticos y facilita la toma de decisiones informada. Para América Latina, donde la justicia distributiva y la equidad en infraestructura son prioridades, enfoques como este pueden ayudar a reducir riesgos y a diseñar despliegues de IA más responsables.