Economía multiagente con un modelo de 3B

Qué es Thousand Token Wood

Thousand Token Wood es una pequeña economía multiagente creada para el Build Small Hackathon. Cinco criaturas del bosque, cada una gobernada por su propio agente ejecutado sobre Qwen2.5-3B, comercian cinco bienes a cambio de “pebbles” (moneda), se chismean rumores, acaparan recursos y sufren pánicos. La simulación se sirve con vLLM en Modal y la interfaz pública es una app en Gradio; además, las trazas de los agentes están disponibles públicamente para inspección.

El experimento busca responder una pregunta práctica: ¿qué puede —y qué no— hacer un modelo de 3 mil millones de parámetros cuando se le pide coordinar una economía en tiempo real?

Por qué el tamaño pequeño es una elección de diseño

Una economía viva requiere muchos agentes tomando decisiones repetidas cada turno. Los modelos de vanguardia grandes son simplemente demasiado lentos y costosos para servir a un “concejo” de agentes con frecuencia. Usar un modelo pequeño convierte la simulación en algo factible: cada criatura decide en una única llamada GPU por turno, permitiendo ciclos rápidos y suficientes iteraciones para que emergan dinámicas interesantes.

En otras palabras: “pequeño” no es una limitación técnica accidental, sino la condición que hace posible una experiencia interactiva multiagente en tiempo real.

La economía murió al nacer (y cómo se la revivió)

La versión ingenua del diseño falló porque había abundancia: la producción superaba el consumo y cada criatura era autosuficiente, así que nunca tuvo incentivo para comerciar. El mercado se despejó en el primer turno y quedó inactivo.

La solución fue introducir escasez deliberada mediante varias reglas de diseño:

Dieta variada: cada criatura solo puede comer una unidad de un alimento dado por comida; para sobrevivir debe comprar alimentos que no produce.
Perecibilidad: algunos alimentos se descomponen si se almacenan demasiado, obligando a vender excedentes antes de perder valor.
Crisis invernal del combustible: cada criatura debe quemar leña cada turno; la demanda aumenta con el tiempo y solo una criatura produce leña.

Esa última mecánica es la que genera el drama: un solo proveedor no puede cubrir la demanda creciente, lo que hace que el leñador se enriquezca mientras los demás compiten por calor.

Formato fiable, juicio débil: la ingeniería del prompt

Con la escasez en marcha surgió la lección central para modelos pequeños: el modelo de 3B es excelente como generador de formatos (por ejemplo, emitir JSON válido), pero su capacidad de razonamiento económico es irregular. En la práctica, el agente podía generar órdenes racionalmente estructuradas pero con juicio pobre —p. ej., un productor de bellotas publicaba órdenes para comprar bellotas, el bien que tenía en exceso.

La solución no fue escalar el modelo, sino afinar el prompt. Se le indicó a cada agente explícitamente qué produce y qué nunca debe comprar; el sistema computó la lista exacta de bienes deficitarios para cada criatura y se entregó un ejemplo resuelto. Con ese refuerzo, la calidad de las decisiones mejoró y los agentes empezaron a desempeñar sus roles comerciales.

Además, toda la interacción está envuelta en una capa tolerante de parseo y reparación de JSON: si una respuesta llega mal formada, se degrada a una operación nula en lugar de romper la simulación.

Estado de ánimo y diseño de incentivos

Otra lección práctica fue el modelado del bienestar de los agentes. La primera aproximación trató el bienestar como un acumulador que sólo decrecía con déficit sostenido; eso llevó a espirales de muerte que arruinaban la experiencia. En su lugar se implementó un “estado de ánimo” que tiende a la media: se recupera cuando la criatura está alimentada y caliente y nunca llega a cero. La moraleja es clara: las apuestas deben radicar en pebbles, precios y estatus, no en el hambre absoluta del agente.

Cuando la simulación empieza a contar historias

Una característica destacada del proyecto es la implementación de las “Wood Legends”: episodios históricos de mercado reimaginados como folklore del bosque. Por ejemplo:

Tulip Mania → “Great Acorn Mania”.
South Sea Bubble → “Hollow Log Trading Company”.
La corrida bancaria de 1929 → “Run on Oona’s Hoard”.

Estas leyendas no son mera ambientación: disparan choques reales en la simulación y los agentes reaccionan de forma emergente. En una corrida sobre la reserva de Oona la lechuza comenzó a liquidar su miel para obtener pebbles; el exceso de oferta hundió el precio de la miel de 10 a 3 en pocos turnos. Nada de esto fue guionizado: las ventas masivas se generaron de manera espontánea por las reglas y los prompts.

Para que estas historias fueran visibles era necesario que los precios variaran. Al principio los agentes recitaban el precio de referencia provisto en el prompt, lo que congelaba los mercados. La corrección fue permitir que los precios de referencia derivaran según el exceso residual de oferta y demanda: compras no satisfechas empujan precios al alza, un excedente los baja. Así, bajo escasez los precios tienden y durante equilibrio el mercado se mantiene estable.

Resultados representativos

Un recorrido típico de quince turnos, con una sequía y una leyenda inyectada, produjo resultados claros y reproducibles:

Acciones en JSON válidas: 100% (75 de 75 llamadas).
Operaciones por turno sostenidas: entre 3 y 9, nunca silencio total.
Precio de la miel: cayó de 10 a 3 durante la leyenda de corrida.
Precio de la leña: subió de 4 a 7 cuando la escasez invernal se intensificó.
Brecha de riqueza (Gini): se amplió de 0.14 a 0.38.
Resultado final: el leñador resultó el más rico y el acaparador quebró.

Las trazas abiertas documentan el razonamiento detrás de cada movimiento: prompts completos, respuestas crudas, acciones parseadas y pensamientos privados de cada criatura.

Lecciones prácticas para equipos y tomadores de decisión en América Latina

Elegir el tamaño del modelo según la necesidad operacional: si requieren simulaciones multiagente en tiempo real y con muchos ciclos, los modelos pequeños permiten experimentación rápida y económica.
Estructurar la tarea antes de subir la escala: la mayoría de los problemas de comportamiento se corrigen con diseño de incentivos, prompts precisos y validación de formato, no necesariamente con más parámetros.
Diseñar escasez y fricciones controladas: los fenómenos emergentes (burbujas, corridas, desigualdad) necesitan restricciones deliberadas; la abundancia mata la dinámica.
Mantener la robustez frente a respuestas imperfectas: capas de parseo tolerante y ejemplos trabajados reducen rupturas en la simulación.
Usos prácticos en la región: simulaciones de mercados locales, estudios de impacto para políticas públicas o validación de mecanismos de precio en cadenas logísticas pueden beneficiarse de enfoques multiagente con modelos pequeños cuando el tiempo real y el costo son cruciales.

Conclusión

Thousand Token Wood demuestra que un consejo de agentes basado en un modelo de 3B puede recrear dinámicas de mercado complejas y narrativas históricas sin necesidad de modelos masivos. La clave es cerrar la brecha entre la capacidad fiable de formateo del modelo y su razonamiento mediante prompts, reglas de juego y diseño económico. Para equipos en contexto latinoamericano, el mensaje es alentador: con modelos pequeños y decisiones de diseño cuidadosas pueden explorarse escenarios creíbles y útiles sin invertir en infraestructuras de gran escala.

Pueden revisar el Space y las trazas abiertas para experimentar con la economía y ver los detalles técnicos y decisiones de ingeniería utilizados en el proyecto.