Cómo enseñar a agentes de IA a hacer mejores preguntas usando 'Battleship'

Un equipo de CSAIL y SEAS transformó el clásico juego Battleship en un laboratorio para evaluar cómo los modelos de lenguaje formulan preguntas útiles. Aplicando inferencia Monte Carlo y autoformalización en Python, lograron que modelos pequeños compitieran y superaran a jugadores humanos en eficiencia de búsqueda.

Por Redaccion TD
Cómo enseñar a agentes de IA a hacer mejores preguntas usando 'Battleship'

Resumen y motivación

En 2026, la conversación pública sobre agentes de inteligencia artificial está dominada por sus capacidades para automatizar tareas bien definidas. Sin embargo, en ámbitos de alto riesgo como el diagnóstico médico o el descubrimiento científico, lo que importa es la habilidad de explorar opciones inciertas y formular preguntas que revelen información crítica. Investigadores de MIT CSAIL y de Harvard SEAS abordaron este desafío estudiando cómo los modelos de lenguaje (LM) piden información cuando deben resolver problemas por interrogación.

En lugar de crear un escenario artificial complejo, eligieron un experimento elegante y controlado: el juego clásico Battleship. Refrasearon el juego para que un jugador haga preguntas en lenguaje natural y su compañero responda con sí o no. El objetivo fue evaluar y mejorar la calidad de las preguntas y las respuestas de los agentes de IA en tareas de búsqueda exploratoria.

Collaborative Battleship y el dataset BattleshipQA

Los investigadores diseñaron la variante Collaborative Battleship. Un jugador actúa como capitán, formulando preguntas para localizar barcos ocultos, y otro como spotter, respondiendo en tiempo real. Primero recopilaron datos de más de 40 parejas humanas jugando, generando el dataset BattleshipQA: preguntas en lenguaje natural y respuestas binaria que sirven como referencia para comparar el desempeño de modelos.

Ese conjunto humano fue la línea base con la que contrastaron sistemas de punta como GPT-5 y modelos más pequeños como Llama 4 Scout.

Problema identificado: los modelos no siempre preguntan bien

Sin entrenamiento adicional, los grandes LMs pueden terminar el juego en menos turnos que humanos, pero los modelos pequeños suelen comportarse de manera menos racional: formulan preguntas poco informativas o fallan al verificar sus hipótesis. El núcleo del problema no era tanto la habilidad de responder, sino la capacidad de generar preguntas que reduzcan la incertidumbre de forma efectiva.

Para remediarlo, los investigadores introdujeron dos herramientas clave: una estrategia de inferencia basada en Monte Carlo y la transformación automática de preguntas a instrucciones de código en Python para ayudar al spotter a verificar respuestas.

Inferencia Monte Carlo: preguntar con intención

La estrategia Monte Carlo convierte cada posible configuración de barcos en una partícula con una probabilidad asociada. Con cada respuesta del spotter, esas probabilidades se reevalúan; las hipotesis más compatibles se refuerzan y las menos probables se descartan. Esto permite que el capitán formule preguntas que maximicen la ganancia de información, no solo preguntas plausibles.

Con este enfoque, incluso modelos pequeños adquirieron una conducta exploratoria mucho más eficiente. Un ejemplo notable fue Llama 4 Scout: inicialmente vencía a humanos solo en 8% de las partidas, pero con las mejoras en la estrategia de inferencia alcanzó una tasa de victoria del 82% frente a jugadores humanos.

Además, la técnica demostró ser coste-eficiente: el modelo mejorado logró rendimientos comparables o superiores a un modelo líder como GPT-5 mientras operaba a una fracción del costo, aproximadamente 1% en términos relativos informados por los autores.

Autoformalización en Python: convertir preguntas en acciones verificables

El segundo componente consistió en traducir automáticamente cada pregunta del capitán en una instrucción en Python que el spotter pudiera ejecutar o simular para verificar la respuesta. Por ejemplo, una pregunta sobre si hay un barco que ocupa dos filas en la columna uno se transforma en un comando que chequea esa área y mide la longitud de la pieza digital.

Esta autoformalización incrementó de forma notable la precisión de los spotters: los modelos vieron un aumento promedio del 15% en exactitud al contestar. Modelos ligeros como GPT-4o-mini mostraron una mejora cercana al 30% en su rendimiento global, y modelos grandes como Claude 4 Opus ganaron alrededor de ocho puntos.

Jacob Andreas, investigador principal, y Gabriel Grand, autor líder, describen que proveer a los agentes de un modelo del mundo —una forma explícita de simular estados posibles— mejora tanto las preguntas como la eficiencia al descubrir soluciones.

¿Funciona en otros juegos y dominios?

Los autores probaron la misma idea en otro juego de deducción, Guess Who. Allí también vieron saltos importantes: Llama 4 Scout pasó de 30% a más del 72% de aciertos tras aplicar las mejoras, mientras que GPT-4o subió de 62% a 90%. En estas pruebas, GPT-5 ejerció el rol de spotter para asegurar respuestas precisas.

Estos resultados indican que la combinación de inferencia probabilística y verificación formalizada de preguntas puede generalizar a tareas donde la reducción de incertidumbre es clave.

Relevancia para América Latina

Para tomadores de decisión y profesionales en América Latina, los hallazgos tienen implicaciones claras. En sectores como salud pública, diagnóstico remoto y asistencia clínica, la capacidad de que un agente de IA formule preguntas útiles y verifique hipótesis puede mejorar la calidad de las decisiones en contextos con datos parciales o ruido. Además, el argumento de eficiencia de modelos pequeños es especialmente relevante en la región, donde los recursos computacionales y presupuestarios suelen ser limitados.

Adoptar técnicas que permitan a modelos ligeros aproximarse al rendimiento de sistemas de punta puede facilitar despliegues locales, reducir costos de operación y aumentar la adopción en instituciones que no pueden invertir en infraestructuras masivas.

Limitaciones y próximos pasos

A pesar de los avances, los autores reconocen áreas que requieren trabajo adicional. Los modelos todavía tienen dificultades para responder preguntas complejas del mismo modo que humanos expertos, especialmente fuera de entornos estructurados como juegos. Además, pasar de pruebas controladas a dominios reales exige validar la robustez, la seguridad y la fiabilidad frente a datos ruidosos y sesgados.

Los investigadores proponen escalar estas estrategias hacia problemas científicos y aplicaciones en programación y resolución matemática, donde explorar el espacio de soluciones y verificar hipótesis es esencial.

Conclusión

El experimento Collaborative Battleship muestra que mejorar la manera en que los agentes de IA formulan preguntas no depende únicamente del tamaño del modelo, sino de dotarlos de estrategias de inferencia y de mecanismos claros para verificar respuestas. Para América Latina, esto abre una vía prometedora: mejorar capacidades de toma de decisiones asistida por IA con modelos más asequibles y verificables, siempre considerando la necesidad de evaluación rigurosa antes de su uso en contextos críticos.

Fuente original: MIT News AI