ITBench‑AA: modelos frontera rinden por debajo del 50% en tareas SRE de Kubernetes
ITBench‑AA, creado junto a IBM, es el primer benchmark dedicado a tareas agenticas de IT empresarial. En la primera entrega sobre Site Reliability Engineering (SRE) para Kubernetes, los modelos más avanzados no alcanzan el 50% de rendimiento y muestran tradeoffs claros entre precisión, longitud de interacción y costo.
Introducción
ITBench‑AA es la primera evaluación dedicada a modelos agenticos aplicada a tareas de IT empresarial. Desarrollada en colaboración entre Artificial Analysis y el IBM Software Innovation Lab, esta variante parte de la base del benchmark ITBench de IBM y pone a prueba a los modelos en escenarios reales de Site Reliability Engineering (SRE) sobre entornos Kubernetes. Los resultados iniciales son reveladores: los mejores modelos frontera obtienen menos de 50% de rendimiento promedio, lo que indica que estas tareas siguen siendo un desafío importante incluso para los sistemas más avanzados.
Qué mide ITBench‑AA y por qué importa
El objetivo del benchmark es evaluar la capacidad de los modelos y agentes para diagnosticar incidentes complejos en sistemas empresariales. Cada tarea ofrece un snapshot de incidente de Kubernetes que incluye alertas, eventos, trazas, métricas, logs y la topología de la aplicación. La tarea del agente es identificar el conjunto mínimo de entidades Kubernetes (Deployments, Services, Pods, NetworkPolicy, etc.) responsables del incidente.
Estos son casos de la vida real para equipos SRE: fallas por agotamiento de recursos, despliegues fallidos, agotamiento de pool de conexiones, particiones de red y también fallos inyectados por herramientas de chaos testing. Para las organizaciones que operan clusters en producción —incluyendo muchas en América Latina que están migrando cargas críticas a Kubernetes—esta evaluación refleja problemáticas que impactan disponibilidad y costos operativos.
Metodología: cómo se evalúa
La ejecución de cada tarea usa el harness open‑source Stirrup, que ejecuta al modelo en un entorno controlado con acceso a un sistema de archivos sandbox que contiene logs y snapshots relevantes. Puntos clave de la metodología:
- 59 tareas SRE en total: 40 públicas y 19 nuevas y retenidas para evaluación.
- Límite de 100 turns por tarea y 3 repeticiones por tarea para cada modelo.
- El modelo debe enviar una lista estructurada en JSON con las entidades root‑cause que considera responsables.
- Scoring: average precision at full recall. Si el modelo falla en identificar alguna de las causas verdaderas, obtiene 0.0 en esa repetición. Si identifica todas, la puntuación es su precision (true positives / (true positives + false positives)).
- El marcador final es el promedio sobre las 59 tareas por las 3 repeticiones.
Mantener el mismo harness para todos los modelos permite comparaciones directas, lo que es vital para análisis de adopción empresarial.
Resultados clave
Los hallazgos principales muestran que ninguna opción alcanzó la barrera del 50% en este conjunto SRE:
- Claude Opus 4.7 (Adaptive Reasoning, Max Effort) lidera con 47% de promedio.
- GPT‑5.5 (xhigh) sigue con 46%.
- Qwen 3.7 Max alcanza 42%.
Entre modelos de peso abierto, GLM‑5.1 (Reasoning) lidera con 40%, efectivamente empatado con Gemini 3.5 Flash (high). Otros desempeños notables: DeepSeek V4 Pro (38%), Gemma 4 31B (Reasoning) 37% y Gemini 3.1 Pro Preview 30%.
Un punto importante es la relación entre cantidad de interacciones (turns) y calidad de la respuesta: no hay correlación positiva clara. Por ejemplo, GPT‑5.5 promedia 31 turns por tarea con 46% de acierto, mientras que Gemini 3.1 Pro Preview promedia 83 turns pero solo llega a 30%. Modelos que investigan en exceso tienden a añadir entidades que son síntomas o mecanismos upstream como falsas positivas, lo que penaliza la precision bajo la regla de recall total.
Costo vs. rendimiento
ITBench‑AA también muestra diferencias relevantes en el costo por tarea, un factor crítico para decisiones de despliegue en empresas:
- Gemma 4 31B (Reasoning) ofrece 37% a 0.14 USD por tarea, una alternativa económica.
- Gemini 3.1 Pro Preview obtiene 30% pero cuesta 2.23 USD por tarea.
- GLM‑5.1 (Reasoning) llega a 40% a 1.23 USD por tarea, equiparando a Gemini 3.5 Flash en score a menor costo.
- Claude Opus 4.7, líder en precisión, es también el más caro: 47% a 5.38 USD por tarea.
Para equipos de TI y SRE en la región, donde el presupuesto y el control de costos son consideraciones clave, estos tradeoffs son especialmente importantes. Un modelo más barato con rendimiento competitivo puede ser preferible a la opción más precisa pero muy costosa.
Consecuencias para adopción en América Latina
Para organizaciones latinoamericanas que están adoptando prácticas de SRE y plataformas Kubernetes, los resultados ponen en evidencia varios puntos:
- Las tareas de diagnóstico de incidents empresariales son complejas y todavía no están resueltas por modelos agenticos comerciales. No es razonable esperar automatizar por completo la triage sin supervisión humana.
- La eficiencia operativa no se reduce simplemente usando el modelo con más turns; la concisión y la selectividad en la investigación son valiosas.
- Las alternativas open weights pueden ofrecer una relación costo/beneficio atractiva para empresas con limitaciones presupuestarias o que priorizan transparencia y control local del modelo.
- Las organizaciones deben planear integraciones híbridas: usar modelos para acelerar pasos de diagnóstico y mantener equipos humanos para validación y acciones críticas.
Recomendaciones prácticas para tomadores de decisión
- Evaluar con los mismos criterios: replicar pruebas con el harness Stirrup o un entorno cerrado equivalente para comparar modelos en sus propios datos operativos.
- Priorizar modelos que equilibren precisión y costo según el volumen de incidentes esperado. Para pilotajes, modelos open weights pueden ser una buena opción.
- Diseñar agentes con límites en la exploración para evitar falsos positivos por sobreinvestigación. Implementar reglas que penalicen listados extensos no justificados.
- Mantener supervisión humana para decisiones de remediación crítica y usar modelos para acelerar diagnóstico y priorización.
Próximos pasos del benchmark
Artificial Analysis y IBM planean expandir ITBench‑AA hacia otras áreas agenticas de IT empresarial, incluyendo FinOps y tareas relacionadas con CISO, lo que ampliará la cobertura de evaluación para operaciones financieras y seguridad.
Recursos
Para quienes quieran profundizar o reproducir evaluaciones:
- Paper original ITBench en arXiv: https://arxiv.org/abs/2502.05352
- Repositorio de ITBench en GitHub: https://github.com/itbench-hub/ITBench
- ITBench‑AA en Hugging Face: https://huggingface.co/datasets/ArtificialAnalysis/ITBench-AA/tree/main/sre
- Leaderboard y resultados completos: https://artificialanalysis.ai/evaluations/itbench-aa
Conclusión
ITBench‑AA demuestra que las tareas agenticas de SRE sobre Kubernetes siguen siendo un reto para los modelos actuales: los mejores sistemas no alcanzan el 50% y muestran diferencias fuertes entre precisión, longitud de interacción y costo. Para las empresas latinoamericanas esto implica diseñar estrategias de adopción prudentes, priorizar evaluaciones locales y considerar modelos de código abierto cuando el presupuesto y la trazabilidad sean requisitos determinantes.
Fuente original: Hugging Face Blog