Inferencia desagregada en AWS con llm-d

Resumen ejecutivo

AWS y el equipo de llm-d anunciaron una colaboración para llevar capacidades de inferencia desagregada a entornos Kubernetes en AWS. La iniciativa entrega un contenedor preparado (ghcr.io/llm-d/llm-d-aws) que incorpora bibliotecas específicas de AWS —como Elastic Fabric Adapter (EFA) y libfabric— y la integración con la librería NIXL para soportar inferencia desagregada multinodo y expert parallelism. El objetivo: mejorar performance, maximizar la utilización de GPU y reducir costos en cargas de inferencia de LLM a escala.

Para equipos y tomadores de decisión en Latinoamérica que avanzan desde prototipos hacia despliegues productivos, estas herramientas son relevantes porque atacan un cuello de botella clave: la eficiencia de la inferencia en entornos con demanda variable y requisitos de latencia estrictos.

Por qué la inferencia LLM requiere un nuevo enfoque

El comportamiento de los modelos de lenguaje grande ha cambiado: en la era agentic y de razonamiento complejo, los LLMs generan hasta 10x más tokens y consumen mucho más cómputo que en respuestas simples de una sola pasada. Además, los flujos de trabajo tipo agente generan demandas altamente variables y cadenas de razonamiento que incrementan exponencialmente el procesamiento requerido.

La inferencia de LLM se compone de dos fases distintas:

Prefill: está limitada por cómputo; procesa en paralelo el prompt completo para generar las entradas iniciales del KV cache.
Decode: está limitada por ancho de banda de memoria; genera tokens de forma autoregresiva, accediendo constantemente a los pesos del modelo y a un KV cache que crece durante la inferencia.

Las solicitudes de inferencia también varían mucho según la longitud de entrada y salida, lo que hace difícil utilizar los recursos de forma eficiente con infraestructuras y topologías predeterminadas.

¿Qué es llm-d y qué aporta?

llm-d es un framework open source, nativo de Kubernetes, para servir modelos LLM en entornos distribuidos. Construido sobre vLLM, llm-d añade orquestación lista para producción, planificación avanzada y soporte para interconexiones de alto rendimiento. En vez de tratar la inferencia como un problema de ejecución en una sola máquina, llm-d propone patrones arquitectónicos para la “desagregación” del servicio: separar y optimizar prefill, decode y la gestión del KV-cache en recursos GPU distribuidos.

Para facilitar adopciones reales, llm-d ofrece rutas de referencia que agrupan estrategias probadas según objetivos de desempeño, escalado y tipos de carga.

Enrutamiento inteligente y conciencia de caché

Una pieza crítica de llm-d es su scheduler inteligente. En entornos de instancia única, motores como vLLM usan Automatic Prefix Caching para reutilizar entradas previas del KV cache y reducir cómputo redundante. En escenarios multinodo, la suposición sobre qué kvblocks existen en cada GPU deja de ser válida: si no se conoce la localidad del caché, una solicitud puede ser direccionada a una réplica que no tiene contexto relevante, desperdiciando los beneficios del caching.

El scheduler de llm-d mantiene visibilidad del estado de caché entre réplicas y enruta las solicitudes a servidores que ya contienen los KV cache pertinentes. Para cargas con alto reuse de prefijos —por ejemplo conversaciones multi-turno o flujos agentic—, este enrutamiento consciente del caché mejora notablemente throughput y latencia.

Desagregación de Prefill y Decode: optimizaciones prácticas

Separar prefill y decode desbloquea varias optimizaciones:

Asignar más GPUs a decode que a prefill cuando la longitud de salida excede la de entrada.
Ejecutar cada fase en tipos de hardware distintos, afinando la configuración a los perfiles de trabajo (compute-bound vs memory-bandwidth-bound).
Evitar que una fase sofoque a la otra en la misma pieza de hardware, mejorando la utilización general.

En la práctica, esto significa que los operadores pueden dimensionar recursos con mayor granularidad y reducir tiempos de cola y latencia para casos de uso con alta variabilidad.

Integración con AWS: contenedor, EFA y NIXL

La colaboración con el equipo de llm-d llevó a la creación del contenedor ghcr.io/llm-d/llm-d-aws, que incorpora soporte para Elastic Fabric Adapter (EFA) y libfabric, permitiendo el uso de fabrics de alta velocidad en despliegues Kubernetes en AWS. Además, se integró NIXL para habilitar características críticas como inferencia desagregada multinodo y expert parallelism.

AWS probó y ajustó estas integraciones a través de múltiples iteraciones de benchmarking, buscando una versión estable que funcione de forma inmediata en plataformas Kubernetes gestionadas como Amazon SageMaker HyperPod y Amazon EKS.

Beneficios directos para empresas y equipos de TI

Al adoptar esta arquitectura, las organizaciones obtienen ventajas concretas:

Mejor performance en workloads complejos de inferencia.
Mayor utilización de GPU y eficiencia operativa.
Potencial reducción de costos al evitar sobredimensionamiento y mejorar la densidad de inferencia.
Capacidad de escalar de manera más predecible en entornos Kubernetes.

Estos beneficios son especialmente relevantes para empresas latinoamericanas que enfrentan restricciones presupuestarias, picos de demanda y la necesidad de ofrecer experiencias de usuario con latencia controlada.

Consideraciones para despliegue en Latinoamérica

Aunque la colaboración y el contenedor facilitan la adopción, los equipos deben considerar aspectos operativos que impactan a la región:

Arquitectura de red y latencia: fabrics de alto rendimiento como EFA requieren una topología de red adecuada; planear la colocación de recursos es clave.
Orquestación Kubernetes: aprovechar Amazon EKS o SageMaker HyperPod permite integrarse con prácticas CI/CD y gestión de clusters ya utilizadas por equipos en la región.
Costos y dimensionamiento: la desagregación ayuda a optimizar, pero requiere análisis de patrones de carga para asignar correctamente prefill vs decode.

Conclusión y siguientes pasos

La unión entre AWS y llm-d ofrece una solución lista para ejecutar inferencia desagregada en Kubernetes, con soporte para fabrics de alta velocidad y optimizaciones para escenarios multinodo. Para equipos en Latinoamérica que buscan llevar modelos LLM a producción a escala, esta propuesta reduce fricciones operativas y mejora la eficiencia de cómputo.

Recomendaciones prácticas:

Explorar el contenedor ghcr.io/llm-d/llm-d-aws en un entorno de prueba dentro de EKS o SageMaker HyperPod.
Analizar patrones de tráfico y uso de prefijos para estimar el beneficio del enrutamiento consciente de caché.
Probar configuraciones desagregadas de prefill y decode para medir mejoras en latencia y utilización.

Esta colaboración es un paso importante para facilitar despliegues LLM más eficientes y escalables en la nube, y representa una alternativa sólida para organizaciones que necesitan servir inferencia compleja con mejores costos y mayor rendimiento.