Nemotron 3 Ultra en SageMaker JumpStart

Anuncio y resumen ejecutivo

Amazon SageMaker JumpStart incorpora desde el día uno el modelo NVIDIA Nemotron 3 Ultra, lo que permite a los equipos desplegarlo con una experiencia de “un clic”. Nemotron 3 Ultra es un modelo abierto orientado a razonamiento de vanguardia y orquestación en agentes autónomos de larga duración, diseñado para mantener alto rendimiento y reducir costos en flujos de trabajo agentic.

¿Qué es Nemotron 3 Ultra?

Nemotron 3 Ultra es un modelo de lenguaje de gran escala con 550 mil millones de parámetros en total y 55 mil millones de parámetros activos por pasada. Está construido sobre una arquitectura híbrida Transformer-Mamba Mixture-of-Experts (MoE), que activa solo una fracción de los parámetros en cada inferencia para mejorar la eficiencia.

Características clave:

Arquitectura: híbrida Transformer-Mamba MoE.
Parámetros: 550B totales / 55B activos por forward pass.
Ventana de contexto: hasta 1 millón de tokens.
Precisión: optimizado para NVFP4.
Rendimiento: hasta 5x más rápido para flujos de trabajo agentic de larga duración.
Costo: hasta 30% menos en tareas agentic complejas.

La optimización en formato NVFP4 es fundamental para que el modelo sea más rápido y costo-efectivo al alojarlo en GPU, sin sacrificar las capacidades de razonamiento en contextos extensos.

Por qué los agentes requieren modelos diseñados a propósito

Los agentes inteligentes no se contentan con dar una respuesta única: planifican, invocan herramientas, delegan a subagentes, verifican resultados y vuelven a iterar a lo largo de cientos de turnos. Cada interacción suma tokens y consumo de cómputo, por lo que las métricas relevantes son la finalización de tarea con precisión útil, el tiempo hasta la conclusión y el costo por tarea.

El enfoque Mixture-of-Experts de Nemotron 3 Ultra (activar 55B de 550B por pasada) permite mantener un alto throughput incluso con ventanas de contexto que llegan al millón de tokens. Esto ayuda a sostener bucles de planificación, llamadas a herramientas y autocorrección a lo largo de sesiones prolongadas, preservando coherencia y controlando costos operativos.

Casos de uso empresariales relevantes

Nemotron 3 Ultra resulta especialmente apropiado en escenarios que requieren razonamiento sostenido multi-paso:

Orquestadores de agentes: coordinar múltiples subagentes y mantener estado a través de cadenas largas de llamadas a herramientas.
Agentes para desarrollo de software: generar, probar, depurar e iterar código a lo largo de repositorios extensos.
Investigación profunda: sintetizar información desde varias fuentes y sostener razonamiento coherente en contexto extendido.
Automatización de procesos empresariales complejos: ejecutar flujos con decisiones ramificadas y recuperación ante errores.

Para organizaciones en América Latina, estos casos se traducen en aplicaciones concretas como automatización de centros de contacto, asistentes que mantienen contexto de clientes a lo largo de conversaciones extendidas, o pipelines de análisis y cumplimiento normativo que requieren consolidar evidencia y razonamiento en grandes volúmenes de texto.

Cómo desplegar Nemotron 3 Ultra en SageMaker JumpStart

SageMaker JumpStart ofrece despliegue simplificado para que no sea necesario gestionar la infraestructura o configurar frameworks de serving manualmente. A continuación se describen los requisitos y las opciones de despliegue.

Requisitos previos

Cuenta de AWS activa.
Permisos adecuados para usar SageMaker JumpStart.
Cuota de servicio suficiente para instancias GPU grandes (por ejemplo: ml.p5en.48xlarge, ml.p5.48xlarge o ml.g7e.48xlarge).

Importante: desplegar este modelo crea un endpoint de SageMaker que genera costos mientras esté en ejecución. Las instancias GPU mencionadas pueden costar varios dólares por hora. Revise los precios de Amazon SageMaker AI y recuerde eliminar el endpoint cuando ya no lo necesite.

Despliegue desde SageMaker Studio

Abra Amazon SageMaker Studio.
En el panel izquierdo, seleccione SageMaker JumpStart.
Busque “Nemotron 3 Ultra” y abra la ficha del modelo.
Elija “Deploy” y seleccione el tipo de instancia compatible (ml.p5en.48xlarge, ml.p5.48xlarge o ml.g7e.48xlarge).
Revise la configuración de despliegue (los valores por defecto suelen ser suficientes) y confirme.
Espere a que el estado del endpoint muestre InService antes de enviar solicitudes de inferencia.

Despliegue mediante Python SDK

También es posible desplegar programáticamente con el SDK de SageMaker. En términos generales el flujo implica crear un objeto de modelo JumpStart apuntando al identificador del modelo y luego invocar deploy para crear el endpoint. Asegúrese de aceptar cualquier EULA requerido y de usar el rol de ejecución apropiado para SageMaker.

(En la ficha del modelo en JumpStart encontrará el model_id exacto y ejemplos de código para su entorno.)

Recomendaciones operativas y control de costos

Monitoree el uso del endpoint y elimínelo al terminar para evitar cargos continuos: delete_endpoint o la acción equivalente en Studio.
Verifique sus cuotas de GPU antes de intentar desplegar instancias de gran tamaño.
Para pruebas y desarrollo inicial, considere flujos de inferencia que limiten max_tokens y utilicen temperaturas conservadoras para controlar consumo.

Consideraciones para equipos en América Latina

La reducción de costos y el aumento del rendimiento que promete Nemotron 3 Ultra pueden ser especialmente relevantes para empresas latinoamericanas donde el control del gasto en infraestructura es clave. Sectores como fintech, salud, servicios al cliente y gobierno pueden aprovechar modelos agentic para automatizar procesos complejos, mantener trazabilidad en decisiones y ofrecer atención con contexto prolongado.

Al planificar despliegues en la región, evalúen la disponibilidad de instancias GPU en las regiones de AWS que utilicen, los tiempos de latencia requeridos por sus aplicaciones y las políticas de protección de datos aplicables en cada país.

Conclusión

Nemotron 3 Ultra llega a Amazon SageMaker JumpStart como una opción lista para desplegar que combina razonamiento a largo plazo, eficiencia de cómputo y optimizaciones de costo para cargas agentic. Su arquitectura MoE y la ventana de contexto de hasta un millón de tokens lo hacen idóneo para agentes que deben sostener interacciones complejas y prolongadas.

Si su organización busca orquestar agentes, construir asistentes de desarrollo de software, o automatizar procesos empresariales con múltiples pasos, Nemotron 3 Ultra ya está disponible para pruebas y despliegue en SageMaker JumpStart. Busque el modelo en JumpStart y siga las guías de despliegue para comenzar.