VAKRA: benchmark para agentes que usan herramientas

Introducción

Los agentes de IA orientados a tareas —los sistemas que combinan razonamiento en lenguaje natural con llamadas a herramientas— están llegando a casos de uso empresariales que requieren ejecutar flujos de trabajo compuestos y precisos. Para evaluar su madurez en escenarios reales, el proyecto VAKRA presenta un benchmark ejecutable diseñado específicamente para medir razonamiento composicional y uso de herramientas en entornos tipo empresa.

En lugar de tests unitarios sobre habilidades aisladas, VAKRA evalúa si un agente puede completar cadenas de razonamiento de varios pasos que combinan interacción estructurada con APIs y recuperación de información no estructurada. El entorno incluye trazas de ejecución completas, lo que permite verificar no solo la respuesta final sino también el proceso usado por el agente.

¿Qué es VAKRA y por qué importa?

VAKRA es un benchmark tool‑grounded y ejecutable que permite que agentes interactúen con más de 8,000 APIs alojadas localmente, respaldadas por bases de datos reales y colecciones de documentos alineadas por dominio. Estas APIs cubren 62 dominios distintos y las tareas del benchmark requieren típicamente cadenas de razonamiento de entre 3 y 7 pasos.

La relevancia de VAKRA para equipos que construyen agentes empresariales es clara: evalúa la capacidad de un sistema para operar en un entorno donde las acciones tienen efectos (llamadas a APIs, consultas a datos) y donde el orden, la selección de herramientas y la combinación de evidencia son críticas para el éxito.

Entorno ejecutable y diseño de datos

Un aspecto clave de VAKRA es su servidor de ejecución (MCP) que expone herramientas específicas por dominio y gestiona la transferencia de datos de forma eficiente. Para evitar mover grandes volúmenes de información por la red, las instancias comienzan con una llamada especial get_data(tool_universe_id=id) que inicializa la fuente de datos y devuelve una vista previa ligera (por ejemplo, número de registros y primeras muestras de cada clave). El dataset completo queda almacenado en el servidor para que las operaciones posteriores se realicen de forma local.

Este diseño refleja escenarios empresariales reales en los que los datos son voluminosos y no es práctico transferirlos íntegramente a un modelo. Además, VAKRA empareja cada dominio con colecciones de documentos alineadas, lo que permite evaluar la combinación de consultas estructuradas (APIs) con recuperación de información no estructurada.

Las capacidades evaluadas en VAKRA

El benchmark agrupa las tareas en cuatro capacidades; a continuación se describen las tres primeras con los detalles publicados.

1) Encadenamiento de APIs (API Chaining) — SLOT‑BIRD y SEL‑BIRD

Esta capacidad incluye 2,077 instancias de prueba distribuidas en 54 dominios. El reto aquí es encadenar llamadas a herramientas del conjunto SLOT‑BIRD y SEL‑BIRD para llegar a una respuesta final. Las tareas pueden requerir entre 1 y 12 llamadas a herramientas.

SLOT‑BIRD ofrece un conjunto global de 7 operaciones genéricas para manipulación de datos (filtrado, ordenamiento, etc.), inspiradas en herramientas de BI. SEL‑BIRD extiende esa oferta con funciones más especializadas: comparte algunos métodos con SLOT‑BIRD, pero además descompone argumentos categóricos en funciones separadas (por ejemplo, sort_data_ascending y sort_data_descending) y reemplaza getters genéricos por getters específicos por clave (por ejemplo get_team_name, get_play_speed). En promedio cada instancia tiene alrededor de 4 funciones get específicas.

Un ejemplo típico de flujo implica llamar primero a get_data para obtener la vista previa, luego aplicar una serie de filtros y finalmente extraer el valor solicitado (p. ej., nombre de un equipo que cumple ciertas métricas).

2) Selección de herramientas (Tool Selection) — REST‑BIRD

Esta capacidad contiene 1,597 instancias en 17 dominios y se apoya en la colección REST‑BIRD, que expone endpoints REST altamente específicos, cada uno encapsulando gran parte de la lógica necesaria. El desafío principal es identificar y usar la API correcta dentro de un conjunto amplio de endpoint disponibles por dominio: cada dominio puede tener entre 6 y 328 herramientas, con un promedio de 116.

Un punto práctico importante es la limitación de especificación de herramientas en ciertos proveedores de APIs: por ejemplo, la lista de herramientas enviada a la API de OpenAI suele limitarse a 128 entradas. Para operar en entornos con más herramientas, los agentes deben aplicar un mecanismo de shortlisting (preselección) para reducir el conjunto de herramientas expuesto al modelo. Los agentes base incluidos en el repositorio de VAKRA implementan un shortlisting sencillo para sortear esta restricción.

3) Razonamiento multi‑hop con APIs de tablero (Multi‑Hop Reasoning)

La tercera capacidad comprende 869 instancias en 38 dominios y vuelve a emplear la colección REST‑BIRD, pero añade la exigencia de razonamiento multi‑salto. Aquí las respuestas requieren reunir múltiples piezas de evidencia de distintas consultas y combinarlas correctamente para llegar a una conclusión.

Este tipo de preguntas refleja escenarios empresariales en los que no existe una única API que entregue la respuesta: es necesario orquestar varias llamadas, cruzar resultados y aplicar lógica adicional para producir la salida correcta.

Qué revela VAKRA sobre el estado actual de los agentes

En el blog original de VAKRA se reporta que los modelos tienen un desempeño por debajo de lo esperado en este benchmark. Aunque no se publican métricas detalladas en el resumen que presentamos aquí, la observación subraya que las capacidades de encadenamiento de herramientas, la selección correcta de APIs en universos amplios y el razonamiento multi‑hop siguen siendo áreas difíciles para los agentes actuales.

Para equipos de producto y líderes técnicos en América Latina, esto significa que confiar en un agente para ejecutar flujos críticos sin una evaluación rigurosa puede ser arriesgado. VAKRA ofrece una plataforma para identificar puntos débiles antes de desplegar agentes en producción.

Implicaciones prácticas para empresas latinoamericanas

Validación en entornos realistas: VAKRA reproduce problemas típicos de integración y volumetría que muchas empresas latinoamericanas enfrentan cuando conectan modelos a sus sistemas internos. Probar ahí permite detectar fallas de integración, manejo de datos y privacidad de forma temprana.
Diseño de la interfaz de herramientas: la necesidad de shortlisting y de getters específicos demuestra que la forma en que se exponen las APIs importa. Diseñar APIs y wrappers fáciles de seleccionar disminuye la fragilidad del agente.
Auditoría y trazabilidad: como VAKRA registra trazas de ejecución completas, facilita la auditoría de decisiones y la depuración de errores —aspectos críticos para la adopción en sectores regulados.

Cómo aprovechar VAKRA para mejorar sus agentes

Emplear las instancias de encadenamiento para probar la robustez de las políticas de control de flujo del agente.
Usar los casos de selección de herramientas para optimizar mecanismos de shortlisting y desambiguación de APIs.
Validar capacidades de razonamiento multi‑hop con ejemplos que requieran consolidar evidencia de varias fuentes.
Revisar trazas de ejecución para identificar patrones de fallo (errores de selección de herramienta, mala interpretación de la vista previa de datos, o pasos omitidos) y ajustar prompts, cadenas de pensamiento o la arquitectura de orquestación.

Conclusión

VAKRA ofrece un banco de pruebas sólido y ejecutable para medir si los agentes realmente saben razonar y actuar en entornos empresariales complejos. Para organizaciones en América Latina que planean integrar agentes en procesos operativos, VAKRA es una herramienta útil para exponer debilidades antes del despliegue y para guiar mejoras en diseño de APIs, mecanismos de shortlisting y lógica de orquestación. El benchmark demuestra que todavía hay trabajo por hacer para que los agentes sean confiables en flujos multi‑paso del mundo real.