Inteligencia Artificial 6 min lectura
Inferencia desagregada en AWS con llm-d: optimizar LLMs a escala
AWS y el proyecto open source llm-d ofrecen una arquitectura de inferencia desagregada que separa las fases de prefill y decode, incorpora enrutamiento consciente de caché y soporte para fabrics de alta velocidad como EFA. Esto mejora la utilización de GPU y la eficiencia en despliegues a gran escala.