Inteligencia Artificial 6 min lectura
SPEED-Bench: un benchmark unificado para evaluar Speculative Decoding
Speculative Decoding acelera la inferencia de LLMs al usar un modelo 'borrador' que genera tokens anticipados y un modelo objetivo que verifica en paralelo. SPEED-Bench unifica la evaluación de esta técnica con dos conjuntos de datos y un marco de medición integrado con motores de inferencia de grado productivo.