Acelerar inferencia generativa en SageMaker con G7e

Resumen ejecutivo

Amazon Web Services (AWS) presentó las instancias G7e para Amazon SageMaker AI, equipadas con GPUs NVIDIA RTX PRO 6000 Blackwell Server Edition. Estas instancias vienen en configuraciones de 1, 2, 4 y 8 GPUs, cada una con 96 GB de memoria GDDR7. El lanzamiento apunta a ofrecer una opción más económica y de alto rendimiento para cargas de trabajo de inferencia generativa, permitiendo —por ejemplo— alojar modelos de gran tamaño en una sola máquina y reducir la complejidad operativa.

Qué aportan las G7e frente a generaciones previas

Las G7e representan un avance importante en memoria y conectividad para inferencia acelerada en la nube:

96 GB de memoria por GPU (el doble que G6e y cuatro veces la G5).
Hasta 768 GB de memoria GPU agregada en la instancia de 8 GPUs (g7e.48xlarge).
Ancho de banda por GPU de 1,597 GB/s.
Conectividad de red hasta 1,600 Gbps con EFA en la mayor configuración.
Soporte para operaciones en FP4 con Tensor Cores de quinta generación y GPUDirect RDMA sobre EFAv4.

AWS reporta mejoras de hasta 2.3x en rendimiento de inferencia respecto a la generación anterior G6e, y un aumento notable en la capacidad de despliegue de modelos que antes requerían configuración multinodo.

¿Qué modelos y tamaños se pueden ejecutar en una sola máquina?

Gracias al salto en memoria por GPU, es posible alojar modelos de gran escala en una sola instancia según la precisión y paralelismo empleados:

Modelos hasta ~35B parámetros en una sola GPU (ej. g7e.2xlarge en FP16).
Modelos hasta ~150B parámetros en una configuración de 4 GPUs (g7e.24xlarge).
Modelos hasta ~300B parámetros en una configuración de 8 GPUs (g7e.48xlarge).

AWS menciona ejemplos concretos de modelos que pueden beneficiarse de estas instancias: GPT-OSS-120B, Nemotron-3-Super-120B-A12B (variante NVFP4) y Qwen3.5-35B-A3B.

Comparación técnica (puntos clave)

Si comparamos la configuración de 8 GPUs entre generaciones, las diferencias más relevantes son:

GPU: de NVIDIA A10G (G5) a L40S (G6e) hasta RTX PRO 6000 Blackwell (G7e).
Memoria por GPU: 24 GB (G5) → 48 GB (G6e) → 96 GB (G7e).
Memoria total GPU: 192 GB → 384 GB → 768 GB.
Ancho de banda de red: 100 Gbps → 400 Gbps → 1,600 Gbps (con EFA).
Almacenamiento NVMe local escaló hasta 15.2 TB en G7e.

Estas mejoras permiten ejecutar modelos con grandes caches de claves/valores (KV caches) para inferencia de contexto largo, reducir truncamiento y mejorar la latencia en flujos conversacionales o de generación extensa.

Casos de uso ideales para G7e

Las características de las G7e las hacen adecuadas para una amplia gama de aplicaciones de IA generativa:

Chatbots y experiencias conversacionales de alta concurrencia: menor tiempo hasta la primera respuesta (TTFT) y mayor throughput.
Workflows agenticos y RAG (Retrieval Augmented Generation): mayor ancho de banda CPU→GPU y RDMA optimiza la inyección rápida de contexto desde almacenes de recuperación.
Generación de texto, resúmenes y tareas con contexto largo: más memoria por GPU para caches extensas.
Modelos multimodales e imagen: evita errores por falta de memoria en redes vision-language más grandes.
Simulación física, gemelos digitales y cómputo científico: gracias a las capacidades de cómputo Blackwell, FP4 y núcleos RT/efectos asociados.

Para organizaciones en América Latina, estas capacidades facilitan desplegar servicios conversacionales y de análisis de documentos más complejos sin depender necesariamente de clusters multinodo caros o de alta latencia.

Despliegue en Amazon SageMaker AI: requisitos y recomendaciones

Para probar y desplegar modelos en SageMaker AI con G7e, AWS indica los siguientes prerequisitos mínimos:

Una cuenta de AWS activa.
Un rol de IAM con permisos para usar Amazon SageMaker AI.
Acceso a Amazon SageMaker Studio, una instancia de notebook o un IDE (se recomienda SageMaker Studio para despliegues sencillos).
Cuota para al menos una instancia ml.g7e.2xlarge (o mayor) en SageMaker AI; si no la tienen deben solicitar el aumento de cuota vía Service Quotas.

AWS proporciona un repositorio de ejemplo con un notebook que guía el despliegue y la inferencia (el notebook incluye la suite de benchmarking usada por AWS). Para entornos empresariales en la región, revisen también los límites de red y las opciones de VPC para optimizar latencia y seguridad.

Resultados de rendimiento: benchmarking de referencia

Como referencia de rendimiento, AWS publicó una serie de pruebas usando Qwen3-32B (BF16) con una carga representativa de generación: ~1,000 tokens de entrada y ~560 tokens de salida por solicitud (típico de resúmenes de documentos largos). El flujo de prueba sigue tres pasos: desplegar el modelo en un endpoint SageMaker AI con el contenedor nativo vLLM, someterlo a cargas concurrentes de 1 a 32 solicitudes simultáneas, y analizar resultados.

Para contextualizar, el baseline G6e usado en las pruebas fue ml.g6e.12xlarge (4x L40S, tarifa referencial en el documento fuente $13.12/hr) con paralelismo tensorial en grado 4. Los resultados medidos en ese baseline fueron:

Concurrency 1: latencia p50 16.1 s, p99 16.3 s, throughput 37.1 tok/s, costo por millón de tokens ~$38.09.
Concurrency 8: p50 19.8 s, p99 20.2 s, throughput 30.3 tok/s, costo por millón de tokens ~$5.85.
Concurrency 16: p50 23.1 s, p99 23.5 s, throughput 26.0 tok/s, costo por millón de tokens ~$3.41.
Concurrency 32: p50 26.0 s, p99 29.2 s, throughput 21.5 tok/s, costo por millón de tokens ~$2.06.

AWS reporta que, comparado con G6e, G7e puede ofrecer hasta 2.3x de mejora en inferencia en escenarios análogos. Para ver las métricas detalladas y la metodología completa, el notebook de ejemplo incluye la suite de benchmarking usada por AWS y permite reproducir las pruebas.

Implicaciones para arquitectura y costos

La posibilidad de ejecutar modelos más grandes en una sola instancia reduce la necesidad de complejas estrategias de paralelismo multinodo, lo que simplifica la ingeniería, disminuye la latencia inter-nodo y agiliza despliegues. Para equipos en América Latina que buscan balancear costo y rendimiento, G7e ofrece una alternativa atractiva: menor complejidad operativa y mayor densidad de memoria por GPU.

Sin embargo, es importante validar en su propia carga: el rendimiento real y el costo efectivo dependerán del modelo, la precisión (FP16, BF16, FP4), el patrón de solicitudes (latencia vs throughput) y la arquitectura de la aplicación.

Conclusión

Las instancias G7e en Amazon SageMaker AI elevan la capacidad de inferencia generativa en la nube con GPUs NVIDIA RTX PRO 6000 Blackwell. Su mayor memoria por GPU, mayor ancho de banda y mejor red habilitan despliegues de modelos más grandes y de menor latencia, especialmente valiosos para aplicaciones conversacionales, multimodales y workflows agenticos. Para equipos y decisores en América Latina, representan una opción a evaluar cuando se requiere ejecutar LLMs y modelos multimodales con menor complejidad operativa y mejores tiempos de respuesta.

Para quienes deseen replicar las pruebas o empezar a migrar modelos, el paso siguiente es solicitar la cuota necesaria, acceder a SageMaker Studio y usar el notebook de ejemplo proporcionado por AWS para validar rendimiento y costo en su propio entorno.