#logprobs

vLLM V0 a V1: priorizar la corrección del backend antes de ajustar el objetivo RL

La migración de vLLM V0 a V1 reveló una brecha entre la inferencia y el entrenamiento que afectaba métricas clave como clip rate, KL, entropía y recompensa. Al corregir primero el comportamiento del backend —logprobs procesados, defaults de runtime, actualizaciones en vuelo y proyección final en fp32— se restauró la paridad sin tocar el objetivo RL.

7 de mayo de 2026