Seis meses que cambiaron los LLMs

Introducción

En mi charla de cinco minutos en PyCon US 2026 (19 de mayo de 2026) presenté una síntesis rápida de los cambios más relevantes en modelos de lenguaje grande (LLMs) durante los seis meses previos. Ese lapso captura lo que he llamado el punto de inflexión de noviembre de 2025: un mes en que muchas dinámicas del ecosistema cambiaron, en especial en lo que respecta a herramientas para programadores y asistentes personales impulsados por IA.

La prueba del pelícano: una forma práctica de comparar modelos

Para ilustrar diferencias entre modelos uso una prueba deliberadamente absurda: “generar un SVG de un pelícano montando una bicicleta”. ¿Por qué un pelícano? Porque dibujar pelícanos y bicicletas es difícil, la combinación es ridícula y no hay motivos para que un laboratorio entrene específicamente para esa tarea. La prueba revela capacidades de generación gráfica, coherencia compositiva y, en algunos casos, animación.

A lo largo del periodo, distintos modelos produjeron variantes interesantes del pelícano en bicicleta; algunos con atención al detalle, otros capaces incluso de animarlo. Este ejercicio sirve como metáfora práctica: más allá de benchmarks académicos, las pruebas curiosas muestran mejoras reales en la creatividad y robustez de los modelos.

Noviembre de 2025: cambio de manos en la cima

A comienzos de noviembre el modelo más reconocido por muchos era Claude Sonnet 4.5 (lanzado el 29 de septiembre). Durante ese mes la corona percibida cambió varias veces: GPT-5.1, Gemini 3, GPT-5.1 Codex Max y finalmente Claude Opus 4.5 se sucedieron como referentes según diversas pruebas y sensaciones de la comunidad. Aunque la calidad de imagen del pelícano no lo es todo, Opus 4.5 mantuvo la percepción de liderazgo en los meses siguientes.

Lo importante de noviembre no fue tanto el baile de nombres sino un avance paralelo: los agentes de codificación dejaron de ser una curiosidad para pasar a ser herramientas de trabajo prácticas.

Los agentes de código dieron el salto

Durante la mayor parte de 2025 hubo esfuerzos intensos —en particular por parte de OpenAI y Anthropic— usando Reinforcement Learning from Verifiable Rewards para mejorar la calidad del código generado por modelos. En noviembre se comenzaron a notar los resultados: los agentes de codificación, cuando se combinaban con harneses como Codex o Claude Code, empezaron a producir código que no solo funcionaba parcialmente, sino que podía usarse como herramienta diaria sin requerir constantes correcciones.

En la práctica, esto significa que equipos de desarrollo pueden integrar estos agentes para tareas repetitivas, generación de esqueletos de proyectos o apoyo en debugging, reduciendo tiempo en tareas mundanas. Para la región latinoamericana, donde muchas empresas buscan aumentar productividad con recursos limitados, esta evolución es especialmente relevante.

Del experimento al exceso: el período de vacaciones

En diciembre y enero muchos de nosotros aprovechamos las vacaciones para experimentar. Los modelos y agentes permitieron montar demos llamativas: por ejemplo, una cadena técnica donde código JavaScript se ejecutaba usando una micro-librería de JavaScript dentro de Python, corriendo en Pyodide sobre WebAssembly dentro del navegador. Eran demostraciones técnicamente elegantes, pero a veces innecesarias: proyectos lentos, inseguros o poco prácticos que terminamos retirando. Ese periodo fue útil como sandbox para entender límites reales y no idealizados.

Nacimiento y auge de OpenClaw: los “Claws” personales

A finales de noviembre apareció en un repositorio un proyecto llamado “Warelay”; tras varios cambios de nombre, en febrero emergió como OpenClaw. En pocos meses ganó una atención inusitada. OpenClaw se define como un “asistente personal de IA” y, por extensión, la comunidad acuñó el término “Claws” para proyectos similares (NanoClaw, ZeroClaw, etc.).

La adopción temprana incluyó anécdotas curiosas: Mac Minis se empezaron a vender como agua en Silicon Valley porque algunos usuarios los empleaban para correr sus Claws; la metáfora del dispositivo como “acuario” para la mascota digital se volvió popular. Más allá del folclore, la tendencia marca que muchos desarrolladores y entusiastas buscan ejecutar asistentes personales locales, con soberanía sobre datos y personalización.

Mi metáfora favorita para los Claws es la de los tentáculos de Doc Ock (interpretado por Alfred Molina en Spider-Man 2): potentes y útiles siempre que el “inhibidor” esté en su lugar; si falla, los riesgos aumentan. Esa imagen sirve para recordar que los asistentes personales requieren salvaguardas claras.

Modelos abiertos y capacidad local

En los meses recientes también vimos lanzamientos relevantes en el espacio de modelos de peso abierto. Google presentó la serie Gemma 4, que representan uno de los conjuntos de pesos abiertos más capaces vistos desde una gran compañía estadounidense. Por su parte, el laboratorio chino GLM lanzó GLM-5.1, un modelo de pesos abiertos de 1.5TB: potente, pero exigente en hardware.

Estos movimientos hicieron evidente dos cosas: por un lado, la disponibilidad de pesos abiertos capaces permite que instituciones y empresas con acceso a infraestructura experimenten sin depender totalmente de APIs comerciales; por otro lado, la barrera de hardware es real: ejecutar modelos como GLM-5.1 localmente exige inversión.

Aun así, los modelos aptos para laptops han mejorado mucho. Los modelos que se pueden correr en equipos personales ya superan expectativas previas, ofreciendo capacidades útiles para prototipado y tareas ligeras.

¿Qué implica esto para América Latina?

Productividad y adopción: mejores agentes de código significan que equipos con recursos limitados pueden delegar tareas repetitivas y acelerar ciclos de desarrollo.
Soberanía y privacidad: la aparición de Claws y modelos de peso abierto abre la puerta a soluciones locales y controladas por las organizaciones latinoamericanas, aunque conviene evaluar costos de hardware y seguridad.
Oportunidades de negocio: desde startups que integren asistentes personalizados hasta consultoras que ofrezcan parámetros y despliegue de modelos, las oportunidades están en adaptar estas capacidades a necesidades regionales (idioma, normativas, integración con sistemas locales).
Riesgos operativos: herramientas más potentes no eliminan la necesidad de gobernanza, pruebas y controles; la metáfora de Doc Ock recuerda que sin mecanismos de control los asistentes pueden comportarse de forma no deseada.

Conclusión

Los últimos seis meses han sido un periodo de consolidación y sorpresas: noviembre de 2025 marcó un punto de inflexión donde los agentes de codificación dejaron de ser experimentales y pasaron a ser útiles en entornos reales; al mismo tiempo, tanto modelos abiertos como versiones optimizadas para laptops han evolucionado más rápido de lo anticipado. Para profesionales y tomadores de decisión en América Latina, esto representa una invitación a explorar integraciones prácticas, evaluar opciones de despliegue local y planear gobernanza y seguridad desde el inicio.

La prueba del pelícano —ridícula pero reveladora— resume bien la era en la que estamos: modelos cada vez más creativos y capaces, pero que requieren juicio humano para convertir esa capacidad en valor real y seguro.