Holo3.1: agentes locales rápidos y robustos

Resumen

Holo3.1 es la evolución de Holo3 orientada a llevar agentes de uso de computadora (computer-use agents) a entornos reales de producción. Más allá de empujar rendimiento, la actualización prioriza tres dimensiones críticas: entornos (navegador, escritorio y móvil), compatibilidad con distintos frameworks de agentes y flexibilidad de despliegue (nube y ejecución totalmente local). Además, Holo3.1 incorpora por primera vez checkpoints cuantizados optimizados para inference local, como FP8, Q4 GGUF y NVFP4.

Qué cambia con Holo3.1

La experiencia de llevar modelos desde evaluación a producción mostró que un buen desempeño en un escenario no garantiza robustez en otros. Las diferencias aparecen cuando cambiamos de plataforma (ej. móvil vs desktop), de harness de agente o de infraestructura de ejecución. Holo3.1 aborda estas fuentes de “distribution shift” con ajustes en la arquitectura y en la salida del modelo para integrarse mejor con agentes reales.

Puntos clave:

Mayor robustez entre entornos: web, escritorio y, por primera vez, móvil con mejoras notables.
Soporte nativo para protocolos de function-calling además de salidas JSON estructuradas.
Checkpoints cuantizados (FP8, NVFP4, Q4 GGUF) para inference local y en edge.
Nuevos tamaños de modelo (0.8B, 4B, 9B y 35B-A3B) para opciones de costo/privacidad.

Rendimiento en móviles y métricas destacadas

Holo3.1 amplía las capacidades de control más allá del navegador y el escritorio, con avances significativos en entornos móviles. En el benchmark AndroidWorld, el modelo 35B-A3B sube de 67% a 79.3%. Las variantes más pequeñas (4B y 9B) también experimentan mejoras, pasando de 58% a 72% en el mismo benchmark. Estos saltos son relevantes para equipos que priorizan automatización en apps móviles y flujos de trabajo híbridos.

Compatibilidad con frameworks y harnesses de agentes

Para facilitar la integración en ecosistemas existentes, Holo3.1 introduce soporte nativo para protocolos de function-calling, manteniendo además las salidas JSON estructuradas de Holo3. Esto permite que equipos que usan stacks de agentes de terceros integren Holo3.1 con menor fricción. En benchmarks sobre OSWorld y en una suite interna que cubre e-commerce, software empresarial y colaboración, la ejecución nativa con function-calling alcanza una paridad cercana en rendimiento.

Dentro del harness propio (Holotab), Holo3.1 muestra más de 25% de mejora frente a Holo3, lo que evidencia la ganancia práctica cuando el modelo se pone en un producto real.

Tamaños de modelo y tradeoffs costo-rendimiento

Holo3.1 se ofrece en cuatro tamaños para cubrir necesidades variadas:

Holo3.1-0.8B: agentes ultra ligeros para ejecución local.
Holo3.1-4B: opción costo-eficiente para despliegues privados.
Holo3.1-9B: equilibrio entre rendimiento y latencia.
Holo3.1-35B-A3B: rendimiento de vanguardia.

Los modelos pequeños facilitan desplegar agentes en dispositivos locales o en servidores modestos, reduciendo costos de infraestructura y mitigando riesgos regulatorios asociados a enviar datos sensibles a la nube.

Checkpoints cuantizados y inference local rápida

Una novedad central es la disponibilidad de pesos cuantizados, empezando por los checkpoints de 35B-A3B en FP8, Q4 GGUF y NVFP4. Para NVFP4 se usó el Model Optimizer de NVIDIA en una configuración W4A16. Estos pesos permiten inference local con mínima degradación en rendimiento:

FP8 y NVFP4 obtienen las mismas puntuaciones en OSWorld y quedan apenas ~2 puntos por debajo del checkpoint en BF16.
En DGX Spark, NVFP4 W4A16 alcanza 1.41× el throughput total de tokens frente a FP8 y 1.74× frente a BF16.

En práctica, estas mejoras de throughput se traducen en mayor capacidad de requests por segundo y en reducción de latencia por paso, factores clave para agentes interactivos.

Hacia agentes locales en hardware de consumo

Holo3.1 incluye checkpoints Q4 GGUF pensados para correr en hardware de consumo (Windows, Mac y máquinas con Apple Silicon). La arquitectura propuesta permite que el agente y el modelo se ejecuten en la misma máquina para mantener la ejecución totalmente local y privada; alternativamente, el modelo puede residir en un DGX Spark dentro de la misma red. Se incluyen números de referencia para Apple Silicon.

Combinando las optimizaciones de harness desarrolladas con NVIDIA y la cuantización NVFP4, en Spark se observa un speedup compuesto cercano a ~2× frente a la línea base en FP8, reduciendo el tiempo promedio por paso de 6.8s a 3.3s. En términos de tasa de peticiones, la pila vLLM con NVFP4 logra la mayor tasa en modos Default y Fast, seguida por Q4 GGUF y FP8.

Para América Latina esto implica que es posible desplegar agentes que controlan aplicaciones empresariales o navegadores sin necesidad de enviar datos fuera de la red local, útil en escenarios con conectividad limitada o con altos requisitos de privacidad.

Disponibilidad y cómo empezar

La familia Holo3.1 está disponible en los cuatro tamaños mencionados y con checkpoints optimizados en FP8, NVFP4 y Q4 GGUF para despliegues en local y edge. Recursos oficiales y puntos de partida:

Holo Models API: https://hcompany.ai/holo-models-api
Hugging Face collection: https://huggingface.co/collections/Hcompany/holo31

Qué significa esto para equipos y tomadores de decisión en la región

Para empresas y equipos en Latinoamérica, Holo3.1 ofrece dos ventajas claras:

Flexibilidad de despliegue: la posibilidad de ejecutar los modelos localmente reduce dependencia de nube pública, ayuda a cumplir normativas locales sobre datos y puede optimizar costos operativos.
Compatibilidad operativa: mejor desempeño en móvil y soporte para protocolos de function-calling facilita integrar agentes en flujos donde conviven apps web, escritorio y móviles.

En sectores como banca, salud, logística y retail, donde la automatización de interfaces y la protección de datos son prioritarias, Holo3.1 permite explorar agentes que operen cerca del usuario final y bajo el control directo de la organización.

Conclusión

Holo3.1 es una puesta al día orientada a la adopción real: mejora la robustez entre entornos, facilita la integración en diversos harnesses de agentes y aporta checkpoints cuantizados que hacen viable la inference local. Para equipos que buscan automatizar tareas a través de interfaces gráficas sin sacrificar privacidad ni rendimiento, Holo3.1 ofrece nuevas opciones técnicas y de despliegue. Esperamos que los desarrolladores de la región experimenten con los distintos tamaños y cuantizaciones para encontrar el balance ideal entre costo, latencia y privacidad.