Articulos - Pagina 6

vLLM V0 a V1: priorizar la corrección del backend antes de ajustar el objetivo RL

vLLM V0 a V1: priorizar la corrección del backend antes de ajustar el objetivo RL

La migración de vLLM V0 a V1 reveló una brecha entre la inferencia y el entrenamiento que afectaba métricas clave como clip rate, KL, entropía y recompensa. Al corregir primero el comportamiento del backend —logprobs procesados, defaults de runtime, actualizaciones en vuelo y proyección final en fp32— se restauró la paridad sin tocar el objetivo RL.

Cómo piensan los algoritmos estratégicos: de los juegos de mesa a la IA que negocia

Cómo piensan los algoritmos estratégicos: de los juegos de mesa a la IA que negocia

Gabriele Farina, investigador de MIT, transforma conceptos de teoría de juegos en algoritmos que resuelven interacciones complejas entre agentes con información parcial. Sus trabajos van desde Cicero —un sistema negociador— hasta avances económicos en juegos como Stratego, con implicaciones directas para decisiones automatizadas en sectores reales.