#vllm

Inferencia desagregada en AWS con llm-d: optimizar LLMs a escala

AWS y el proyecto open source llm-d ofrecen una arquitectura de inferencia desagregada que separa las fases de prefill y decode, incorpora enrutamiento consciente de caché y soporte para fabrics de alta velocidad como EFA. Esto mejora la utilización de GPU y la eficiencia en despliegues a gran escala.

17 de marzo de 2026