Ecom-RLVE: entornos verificables para agentes de e‑commerce

De la fluidez a la efectividad: por qué necesitamos RL en asistentes de compra

Los grandes modelos de lenguaje conversan con naturalidad, pero fluidez no siempre significa completar la tarea del cliente. En e‑commerce, un usuario puede pedir “un cargador USB‑C por menos de $25 que llegue en dos días” — una petición que exige búsquedas de catálogo, filtrado por múltiples restricciones, verificación de disponibilidad y manejo de respuestas cuando un artículo queda sin stock.

El aprendizaje supervisado puede enseñar uso de herramientas a partir de demostraciones, pero no escala bien ante el espacio combinatorio de restricciones, diálogos con información parcial y flujos transaccionales multi‑paso que exige el comercio real. El aprendizaje por refuerzo con recompensas verificables (RLVR) ofrece otra vía: optimizar por resultados observables y comprobables por código, no por juicios humanos ni por otro LLM.

¿Qué propone EcomRLVE‑GYM?

EcomRLVE‑GYM toma la idea de RLVE (entornos verificables para razonamiento) y la traslada a un dominio más complejo: conversaciones multi‑turno donde el agente debe actuar con herramientas (búsqueda de catálogo, operaciones de carrito, consultas de pedidos y políticas) y modificar el estado del mundo simulado. El punto clave es mantener la verificabilidad —cada objetivo del cliente se puede evaluar algorítmicamente contra una meta oculta— evitando la subjetividad de un juez humano o LLM.

Este marco fue presentado como evolución de RLVE‑Gym (que contenía cientos de puzzles de razonamiento de una sola vuelta) y nació dentro del Pytorch OpenEnv Hackathon. EcomRLVE‑GYM ofrece ocho entornos que reflejan escenarios reales de comercio electrónico y una currícula de dificultad con 12 ejes independientes para ajustar retos simultáneamente.

Cómo luce un episodio de entrenamiento

En cada episodio el entorno genera una meta oculta (el objetivo del cliente), un usuario simulado abre el chat y el agente debe usar las herramientas disponibles para cumplir la petición. Todas las acciones y salidas se verifican por código:

La recompensa principal se calcula como F1 sobre tuplas (producto, variante, cantidad).
Hay un bono de eficiencia por completar la tarea en menos turnos.
Se penaliza la «alucinación»: si el agente recomienda IDs de producto que nunca recuperó, recibe castigo.

Si el agente devuelve salidas inválidas (JSON mal formado o llamadas a herramientas ilegales), el episodio termina con una puntuación de falla inmediata, incentivando respuestas bien formadas desde el primer paso.

Los ocho entornos: cobertura de casos reales

EcomRLVE‑GYM incluye ocho escenarios concretos, cada uno diseñado para reproducir dificultades específicas del comercio:

Product Discovery: encontrar productos que cumplan todas las restricciones del usuario.
Substitution: un artículo queda fuera de stock; hay que proponer una alternativa compatible.
Cart Building: agregar al carrito exactamente los productos, variantes y cantidades solicitadas.
Return + Replacement: identificar la línea de pedido correcta, abrir la devolución e sugerir un reemplazo.
Order Tracking: determinar a qué pedido se refiere el usuario y reportar su estado.
Policy QA: responder preguntas determinísticas sobre políticas de la tienda (plazos de devolución, reglas de envío).
Bundle Planning: recomendar una lista completa de compra para un proyecto dentro de un presupuesto.
Multi‑Intent Journey: gestionar una conversación que encadena 2–5 de los casos anteriores en secuencia.

Cada entorno utiliza el mismo esquema de recompensa tripartita (tarea, eficiencia, alucinación) y admite pruebas sin necesidad de anotación humana.

Señales de recompensa y control de errores

La estructura de recompensa es simple pero robusta:

Recompensa por tarea: ¿se cumplió el objetivo? (productos correctos, carrito exacto, pedido rastreado, etc.)
Recompensa por eficiencia: ¿se resolvió sin turnos innecesarios? Los turnos provocados por el usuario (p. ej. confirmar una preferencia) no cuentan en contra —solo las vueltas extras por errores del agente.
Penalización por alucinación: recomendar IDs que no fueron recuperados penaliza, evitando invenciones.

Además, salidas inválidas o llamadas de herramienta ilegales provocan fallo inmediato, reforzando buenas prácticas de formato y uso de API.

Currícula adaptativa: 12 ejes para reflejar la complejidad real

Una sola variable de dificultad d controla doce aspectos independientes del problema. Esto permite hacer crecer el desafío en muchas direcciones al mismo tiempo, porque las conversaciones de e‑commerce son complejas por múltiples razones.

Ejemplos de ejes y cómo evolucionan con d (resumen):

Cantidad de restricciones del usuario: fácil 2, medio 5, difícil 8.
Frecuencia de omisión de restricciones por parte del usuario: fácil 5%, medio 70%, difícil ~80%.
Fracción de resultados de búsqueda que son distractores: fácil 0%, medio 12%, difícil 24%.
Probabilidad de que un artículo quede sin stock a mitad del diálogo: fácil 0%, medio 30%, difícil 50%.

Los otros ejes incluyen presupuesto de turnos, ruido en la entrada (errores tipográficos, jerga), cambios de contexto, profundidad de recuperación, tamaño del historial de pedidos, complejidad de políticas y presupuesto de herramientas. Cada entorno monitorea el éxito del agente y ajusta su d de forma independiente, avanzando conforme mejora el rendimiento.

Primeros experimentos y aprendizajes

El equipo entrenó un modelo Qwen 3 8B usando DAPO durante 300 pasos y reporta resultados tempranos que sugieren que escalar los entornos y aplicar dificultad adaptativa se transfieren a tareas agenticas del mundo real. Aunque el trabajo aún está en evolución, estos primeros indicios apoyan la idea central: entornos verificables y currículas multidimensionales ayudan a cerrar la brecha entre conversación fluida y cumplimiento efectivo de objetivos comerciales.

Relevancia para América Latina

Para tomadores de decisión en la región, EcomRLVE‑GYM ofrece un marco interesante porque los desafíos que modela —catálogos heterogéneos, disponibilidad cambiante, consultas multi‑intención— son comunes en mercados latinoamericanos. Si bien la infraestructura real y las integraciones con sistemas locales (ERP, logísticas, métodos de pago) varían, el enfoque verificable facilita evaluar agentes antes de desplegarlos en producción, reduciendo riesgos operativos y regulatorios.

Además, la penalización por alucinación es particularmente valiosa en mercados donde la confianza del cliente es frágil: evitar inventar resultados protege la experiencia y reduce fricciones en devoluciones y soporte.

Conclusión y próximos pasos

EcomRLVE‑GYM demuestra que es posible llevar la verifiabilidad del razonamiento algorítmico a conversaciones agenticas complejas. Al combinar herramientas, recompensas algorítmicas y una currícula con múltiples ejes, el marco apunta a entrenar asistentes de compra que no solo hablen bien, sino que completen transacciones correctamente.

El proyecto sigue en desarrollo; su evolución y la publicación de informes técnicos adicionales permitirán a equipos de producto y ML en América Latina valorar su adopción para pruebas internas y pilotos controlados.

Sigan el proyecto para actualizaciones técnicas y resultados más detallados conforme avance la investigación.