Inferencia desagregada en AWS con llm-d: optimizar LLMs a escala
AWS y el proyecto open source llm-d ofrecen una arquitectura de inferencia desagregada que separa las fases de prefill y decode, incorpora enrutamiento consciente de caché y soporte para fabrics de alta velocidad como EFA. Esto mejora la utilización de GPU y la eficiencia en despliegues a gran escala.
Resumen ejecutivo
AWS y el equipo de llm-d anunciaron una colaboración para llevar capacidades de inferencia desagregada a entornos Kubernetes en AWS. La iniciativa entrega un contenedor preparado (ghcr.io/llm-d/llm-d-aws) que incorpora bibliotecas específicas de AWS —como Elastic Fabric Adapter (EFA) y libfabric— y la integración con la librería NIXL para soportar inferencia desagregada multinodo y expert parallelism. El objetivo: mejorar performance, maximizar la utilización de GPU y reducir costos en cargas de inferencia de LLM a escala.
Para equipos y tomadores de decisión en Latinoamérica que avanzan desde prototipos hacia despliegues productivos, estas herramientas son relevantes porque atacan un cuello de botella clave: la eficiencia de la inferencia en entornos con demanda variable y requisitos de latencia estrictos.
Por qué la inferencia LLM requiere un nuevo enfoque
El comportamiento de los modelos de lenguaje grande ha cambiado: en la era agentic y de razonamiento complejo, los LLMs generan hasta 10x más tokens y consumen mucho más cómputo que en respuestas simples de una sola pasada. Además, los flujos de trabajo tipo agente generan demandas altamente variables y cadenas de razonamiento que incrementan exponencialmente el procesamiento requerido.
La inferencia de LLM se compone de dos fases distintas:
- Prefill: está limitada por cómputo; procesa en paralelo el prompt completo para generar las entradas iniciales del KV cache.
- Decode: está limitada por ancho de banda de memoria; genera tokens de forma autoregresiva, accediendo constantemente a los pesos del modelo y a un KV cache que crece durante la inferencia.
Las solicitudes de inferencia también varían mucho según la longitud de entrada y salida, lo que hace difícil utilizar los recursos de forma eficiente con infraestructuras y topologías predeterminadas.
¿Qué es llm-d y qué aporta?
llm-d es un framework open source, nativo de Kubernetes, para servir modelos LLM en entornos distribuidos. Construido sobre vLLM, llm-d añade orquestación lista para producción, planificación avanzada y soporte para interconexiones de alto rendimiento. En vez de tratar la inferencia como un problema de ejecución en una sola máquina, llm-d propone patrones arquitectónicos para la “desagregación” del servicio: separar y optimizar prefill, decode y la gestión del KV-cache en recursos GPU distribuidos.
Para facilitar adopciones reales, llm-d ofrece rutas de referencia que agrupan estrategias probadas según objetivos de desempeño, escalado y tipos de carga.
Enrutamiento inteligente y conciencia de caché
Una pieza crítica de llm-d es su scheduler inteligente. En entornos de instancia única, motores como vLLM usan Automatic Prefix Caching para reutilizar entradas previas del KV cache y reducir cómputo redundante. En escenarios multinodo, la suposición sobre qué kvblocks existen en cada GPU deja de ser válida: si no se conoce la localidad del caché, una solicitud puede ser direccionada a una réplica que no tiene contexto relevante, desperdiciando los beneficios del caching.
El scheduler de llm-d mantiene visibilidad del estado de caché entre réplicas y enruta las solicitudes a servidores que ya contienen los KV cache pertinentes. Para cargas con alto reuse de prefijos —por ejemplo conversaciones multi-turno o flujos agentic—, este enrutamiento consciente del caché mejora notablemente throughput y latencia.
Desagregación de Prefill y Decode: optimizaciones prácticas
Separar prefill y decode desbloquea varias optimizaciones:
- Asignar más GPUs a decode que a prefill cuando la longitud de salida excede la de entrada.
- Ejecutar cada fase en tipos de hardware distintos, afinando la configuración a los perfiles de trabajo (compute-bound vs memory-bandwidth-bound).
- Evitar que una fase sofoque a la otra en la misma pieza de hardware, mejorando la utilización general.
En la práctica, esto significa que los operadores pueden dimensionar recursos con mayor granularidad y reducir tiempos de cola y latencia para casos de uso con alta variabilidad.
Integración con AWS: contenedor, EFA y NIXL
La colaboración con el equipo de llm-d llevó a la creación del contenedor ghcr.io/llm-d/llm-d-aws, que incorpora soporte para Elastic Fabric Adapter (EFA) y libfabric, permitiendo el uso de fabrics de alta velocidad en despliegues Kubernetes en AWS. Además, se integró NIXL para habilitar características críticas como inferencia desagregada multinodo y expert parallelism.
AWS probó y ajustó estas integraciones a través de múltiples iteraciones de benchmarking, buscando una versión estable que funcione de forma inmediata en plataformas Kubernetes gestionadas como Amazon SageMaker HyperPod y Amazon EKS.
Beneficios directos para empresas y equipos de TI
Al adoptar esta arquitectura, las organizaciones obtienen ventajas concretas:
- Mejor performance en workloads complejos de inferencia.
- Mayor utilización de GPU y eficiencia operativa.
- Potencial reducción de costos al evitar sobredimensionamiento y mejorar la densidad de inferencia.
- Capacidad de escalar de manera más predecible en entornos Kubernetes.
Estos beneficios son especialmente relevantes para empresas latinoamericanas que enfrentan restricciones presupuestarias, picos de demanda y la necesidad de ofrecer experiencias de usuario con latencia controlada.
Consideraciones para despliegue en Latinoamérica
Aunque la colaboración y el contenedor facilitan la adopción, los equipos deben considerar aspectos operativos que impactan a la región:
- Arquitectura de red y latencia: fabrics de alto rendimiento como EFA requieren una topología de red adecuada; planear la colocación de recursos es clave.
- Orquestación Kubernetes: aprovechar Amazon EKS o SageMaker HyperPod permite integrarse con prácticas CI/CD y gestión de clusters ya utilizadas por equipos en la región.
- Costos y dimensionamiento: la desagregación ayuda a optimizar, pero requiere análisis de patrones de carga para asignar correctamente prefill vs decode.
Conclusión y siguientes pasos
La unión entre AWS y llm-d ofrece una solución lista para ejecutar inferencia desagregada en Kubernetes, con soporte para fabrics de alta velocidad y optimizaciones para escenarios multinodo. Para equipos en Latinoamérica que buscan llevar modelos LLM a producción a escala, esta propuesta reduce fricciones operativas y mejora la eficiencia de cómputo.
Recomendaciones prácticas:
- Explorar el contenedor ghcr.io/llm-d/llm-d-aws en un entorno de prueba dentro de EKS o SageMaker HyperPod.
- Analizar patrones de tráfico y uso de prefijos para estimar el beneficio del enrutamiento consciente de caché.
- Probar configuraciones desagregadas de prefill y decode para medir mejoras en latencia y utilización.
Esta colaboración es un paso importante para facilitar despliegues LLM más eficientes y escalables en la nube, y representa una alternativa sólida para organizaciones que necesitan servir inferencia compleja con mejores costos y mayor rendimiento.
Fuente original: AWS ML Blog