Cómo acelerar la inferencia de LLM: batching asíncrono para eliminar tiempos muertos
El batching asíncrono rompe el patrón donde CPU y GPU se turnan y desperdician ciclos. En lugar de esperar a que termine una etapa para empezar la siguiente, se preparan batches en la CPU mientras la GPU está ocupada, reduciendo tiempos muertos y aumentando throughput.