#google-research

Decodificación especulativa: cómo acelerar LLMs hasta 3x sin perder calidad

La decodificación especulativa permite a los grandes modelos de lenguaje generar texto considerablemente más rápido al delegar tokens previsibles a un modelo pequeño y verificar en bloque con el modelo objetivo. Es una técnica práctica para reducir latencia sin sacrificar calidad.

1 de abril de 2026