Nemotron-Labs Diffusion: generación de texto a la velocidad de la luz para LLMs

NVIDIA presentó Nemotron-Labs Diffusion, una familia de modelos que combina generación autoregresiva y por difusión para acelerar la inferencia y permitir revisiones iterativas. Los modelos vienen en escalas de 3B, 8B y 14B y ofrecen modos de generación intercambiables que equilibran velocidad y precisión.

Por Redaccion TD

Resumen ejecutivo

NVIDIA anunció Nemotron-Labs Diffusion, una nueva familia de modelos de lenguaje que incorpora técnicas de difusión para generar múltiples tokens en paralelo y refinarlos en pasos iterativos. La propuesta busca romper la limitación tradicional de los modelos autoregresivos —generación token por token— ofreciendo modos híbridos que permiten ganar velocidad sin sacrificar precisión. Los modelos están disponibles en 3B, 8B y 14B parámetros, con variantes instruccionales y una versión visión-lenguaje de 8B.

Por qué importa: el límite de la generación token a token

La mayoría de los grandes modelos de lenguaje (LLMs) generan texto de forma autoregresiva: cada token depende de los anteriores y requiere una pasada completa del modelo. Esto es estable y simple de implementar, pero impone un límite de latencia y eficiencia. En GPUs modernas gran parte del tiempo se invierte en mover pesos desde memoria en vez de en cómputo, especialmente para cargas con lotes pequeños o aplicaciones sensibles a la latencia. Además, una vez emitido, un token autoregresivo queda final: corregir errores requiere estrategias adicionales.

Nemotron-Labs Diffusion propone una alternativa práctica: generar en bloques y refinar. Este enfoque ofrece dos ventajas críticas para aplicaciones reales: mejor uso de la arquitectura de GPU (mayor paralelismo) y la capacidad intrínseca de revisar tokens a través de iteraciones de refinamiento.

Cómo funciona a grandes rasgos

Los modelos de difusión de lenguaje (DLM) generan borradores en paralelo y los refinan en varios pasos. En lugar de producir un token y luego pasar al siguiente, el modelo puede producir bloques de tokens simultáneamente y corregirlos iterativamente. Este procedimiento permite ajustar la «cantidad» de inferencia: menos pasos de refinamiento reducen costo computacional a cambio de potencialmente menor calidad, y viceversa.

Nemotron-Labs Diffusion no descarta la generación autoregresiva; al contrario, integra ambas familias dentro de un mismo modelo. El equipo de NVIDIA entrenó los modelos con un objetivo conjunto (autoregresivo y de difusión) para preservar las capacidades ya aprendidas por modelos autoregresivos y añadir la capacidad de borrador paralelo.

Tres modos de generación en un solo checkpoint

Una de las características más prácticas para desarrolladores es que un mismo checkpoint soporta tres modos de generación seleccionables en tiempo de despliegue:

  • Autoregresivo (AR): comportamiento clásico izquierda a derecha, compatible con flujos de trabajo existentes.
  • Difusión: genera por bloques y refina en varios pasos, aprovechando el paralelismo.
  • Auto-especulación (self-speculation): combina ambos enfoques. Primero se usa difusión para proponer múltiples candidatos en paralelo; luego se verifica y confirma usando decodificación autoregresiva. Esa mezcla busca reunir la velocidad de la difusión con la confiabilidad del AR.

Cambiar entre estos modos requiere casi ninguna modificación en la capa de aplicación, lo que facilita experimentar y ajustar según las necesidades de latencia, costo y exactitud.

Resultados de rendimiento

En las evaluaciones reportadas por NVIDIA, el modelo Nemotron-Labs Diffusion de 8B mostró una mejora promedio de precisión de 1.2% frente a Qwen3 8B. En términos de eficiencia de decodificación, usando la métrica tokens per forward pass (TPF)—una medida agnóstica al hardware que cuantifica cuántos tokens se generan por pasada del modelo—los resultados fueron:

  • Modo difusión: 2.6× TPF respecto a modelos autoregresivos.
  • Auto-especulación lineal: hasta 6× TPF.
  • Auto-especulación cuadrática: hasta 6.4× TPF.

Estos incrementos están reportados manteniendo precisión comparable en las tareas evaluadas, lo que sugiere que los modos híbridos pueden aportar ganancias reales en escenarios de producción donde la latencia y el costo por token son críticos.

Entrenamiento y licencias

Los modelos fueron preentrenados con 1.3T (trillón) de tokens procedentes de los conjuntos de preentrenamiento NVIDIA Nemotron y pasaron por una fase de ajuste supervisado adicional con 45B tokens del conjunto Nemotron Post-training. NVIDIA publica modelos base e instruccionales bajo la NVIDIA Nemotron Open Model License y, para la variante visión-lenguaje de 8B, bajo la NVIDIA Source Code License. Además, liberaron el código de entrenamiento integrado con el framework NVIDIA Megatron Bridge, facilitando reproducibilidad y adaptación.

Despliegue: SGLang y compatibilidad

El despliegue está siendo integrado en SGLang; según NVIDIA, el soporte llegará a la rama principal y en el momento del anuncio ya existía una vía para usar la funcionalidad mediante una solicitud en el issue tracker. La integración permite servir un mismo checkpoint en cualquiera de los tres modos, lo que simplifica la transición desde modelos AR tradicionales hacia operaciones más rápidas cuando convenga.

Implicaciones y recomendaciones para América Latina

Para equipos y empresas en América Latina, Nemotron-Labs Diffusion ofrece oportunidades relevantes:

  • Latencia y costo: muchas aplicaciones empresariales regionales (servicios financieros, atención al cliente, procesamiento documental) se benefician de latencias más bajas y costos de inferencia reducidos, especialmente cuando se ejecutan en infraestructura con recursos limitados.
  • Edge y despliegues locales: la capacidad de ajustar pasos de refinamiento permite balancear precisión y consumo de recursos, útil para despliegues en centros de datos locales o infraestructuras en la nube con presupuestos acotados.
  • Investigación y empresas emergentes: las licencias comerciales y el código de entrenamiento brindan opciones para que equipos de I+D locales adapten y prueben modelos sin partir de cero.

Recomendaciones prácticas:

  1. Prueben los tres modos en cargas reales. Diferentes cargas (con lotes grandes, lotes de tamaño 1 o solicitudes con expectativas de latencia estricta) se comportan distinto.
  2. Evalúen la auto-especulación para tareas críticas de precisión donde se necesita mayor velocidad sin perder confiabilidad.
  3. Consideren el coste/beneficio de reducir pasos de difusión en tareas menos sensibles a la calidad máxima, como resúmenes rápidos o borradores iniciales.

Casos de uso adecuados

Nemotron-Labs Diffusion resulta especialmente atractivo para:

  • Generación de código y asistentes de desarrollador, donde se requiere rapidez y la posibilidad de revisar propuestas.
  • Procesamiento y edición de documentos (fill-in-the-middle), ya que la capacidad de revisar facilita correcciones locales.
  • Aplicaciones de baja latencia con lotes pequeños o interacciones en tiempo real.

Conclusión

Nemotron-Labs Diffusion representa un paso práctico hacia modelos que combinan lo mejor del enfoque autoregresivo y la generación por difusión. Al ofrecer tres modos de operación en un mismo checkpoint y mejoras en eficiencia medida por TPF, estos modelos pueden reducir costos de inferencia y mejorar la agilidad de despliegue. Para organizaciones en América Latina, esto abre opciones para optimizar latencia y gasto en implementaciones productivas, siempre evaluando el trade-off entre pasos de refinamiento y calidad según la aplicación concreta.

Fuente original: Hugging Face Blog