#rendimiento

SPEED-Bench: un benchmark unificado para evaluar Speculative Decoding

Speculative Decoding acelera la inferencia de LLMs al usar un modelo 'borrador' que genera tokens anticipados y un modelo objetivo que verifica en paralelo. SPEED-Bench unifica la evaluación de esta técnica con dos conjuntos de datos y un marco de medición integrado con motores de inferencia de grado productivo.

20 de marzo de 2026

Inteligencia Artificial 5 min lectura

Holotron-12B: modelo multimodal optimizado para agentes de uso de computadora

Holotron-12B es un modelo multimodal diseñado para agentes que interactúan con interfaces y múltiples imágenes. Basado en la familia Nemotron de NVIDIA, ofrece un salto importante en throughput y rendimiento en benchmarks agenticos.

18 de marzo de 2026