Nemotron 3 Nano 4B: un modelo híbrido compacto para IA local eficiente

Nemotron 3 Nano 4B es la versión más pequeña de la familia Nemotron 3, diseñada para correr en dispositivos NVIDIA con bajo consumo de VRAM. Ofrece seguimiento de instrucciones y uso de herramientas de alto nivel en su clase, ideal para agentes conversacionales locales.

Por Redaccion TD
Nemotron 3 Nano 4B: un modelo híbrido compacto para IA local eficiente

Introducción

Nemotron 3 Nano 4B llega como el miembro más compacto de la familia Nemotron 3, pensado para ofrecer capacidades conversacionales y de razonamiento en entornos locales y de borde. Con una arquitectura híbrida Mamba-Transformer y apenas 4 mil millones de parámetros, el modelo busca equilibrar precisión, eficiencia de memoria y latencia, facilitando despliegues en plataformas NVIDIA como Jetson (Thor y Orin Nano), DGX Spark y GPUs GeForce RTX.

Esta propuesta responde a una necesidad creciente: ejecutar modelos útiles sin depender de la nube, lo que mejora tiempos de respuesta, reduce costos de inferencia y refuerza la privacidad de datos —factores relevantes para proyectos en América Latina con conectividad intermitente o requisitos locales estrictos.

Características clave

  • Arquitectura híbrida Mamba-Transformer optimizada para eficiencia.
  • 4B parámetros: suficiente para tareas conversacionales y de agente en el edge.
  • Compatibilidad con plataformas NVIDIA Jetson, DGX Spark y GPUs RTX.
  • Reclamos de estado del arte en su clase para seguimiento de instrucciones (IFBench, IFEval) y agencia en juegos (Orak).
  • Excelente eficiencia de VRAM y latencia: se reporta el menor uso de memoria y el TTFT más bajo en su categoría bajo configuraciones altas, con mediciones en un RTX 4070 usando Llama.cpp y versiones Q4_K_M quantizadas.
  • Buen desempeño en uso de herramientas y competitividad en evitación de alucinaciones.
  • Modelo open-source para permitir personalización y afinamiento por la comunidad.

Cómo se obtuvo el 4B: Nemotron Elastic y el router

Nemotron 3 Nano 4B no fue entrenado desde cero como un 4B independiente. En lugar de eso, fue derivado (pruneado y destilado) desde Nemotron Nano 9B v2 mediante la tecnología Nemotron Elastic. Este enfoque integra búsqueda de arquitectura y distilación de conocimiento en un proceso conjunto, lo que permite encontrar un “estudiante” óptimo sin los costos completos de preentrenamiento o métodos de compresión tradicionales.

Un componente central es el router end-to-end, que realiza una búsqueda sobre múltiples ejes de compresión y decide qué componentes reducir para alcanzar el presupuesto de 4B parámetros. Los ejes considerados incluyen:

  • Cabezas Mamba (SSM heads)
  • Dimensión de embedding (anchura del espacio de representación)
  • Canales intermedios del FFN (MLP)
  • Profundidad (capas)

El router recibió información previa sobre la importancia de canales, cabezas y neuronas basada en activaciones; para la profundidad se usó un ranking de importancia de capa calculado por el impacto de eliminar cada capa sobre los logits del modelo.

Dado el objetivo de 4B parámetros, las decisiones de pruning resultaron en los siguientes cambios respecto al padre Nemotron Nano 9B v2:

  • Profundidad: de 56 capas (27 Mamba, 4 attention, 25 MLP) a 42 capas (21 Mamba, 4 attention, 17 MLP).
  • Mamba heads: de 128 a 96.
  • Dimensión intermedia del FFN: de 15,680 a 12,544.
  • Dimensión de embedding: de 4,480 a 3,136.

Recuperación de precisión: distilación en dos etapas

Después del pruning, el modelo comprimido se reentrena mediante distilación de conocimiento desde el padre 9B congelado. El proceso de recuperación de precisión ocurre en dos etapas:

  1. Etapa corta (contexto 8K): entrenamiento sobre 63 mil millones de tokens utilizando una ventana de contexto de 8K. El conjunto de datos mezcla aproximadamente 70% de post-training y 30% de datos de pretraining del recipe del Nano v2. Esta fase es crucial para recuperar precisión inicial tras la compresión.

  2. Extensión de largo contexto (49K): para restaurar desempeño en tareas que requieren cadenas de razonamiento extendidas, se amplía el contexto a 49K tokens y se entrena por 150 mil millones de tokens.

Fine-tuning supervisado y refuerzo

Tras la distilación se realizan dos etapas de fine-tuning supervisado (SFT) con subconjuntos relevantes de la colección Nemotron-Post-Training-v3 usando Megatron-LM. La primera etapa cubre una mezcla amplia de dominios (matemáticas, programación, ciencias, chat, seguimiento de instrucciones y tareas agenticas) para dotar al modelo de capacidades generales. La segunda etapa es más reducida y está enfocada en reforzar comportamientos de seguridad.

El equipo también menciona la transición a fases de aprendizaje por refuerzo multi-ambiente una vez que el modelo es inicializado con SFT; el documento fuente indica que se procede a un esquema de RL en varias etapas, pero no detalla aquí todos los pasos.

Evaluación práctica y gaming

Para medir agencia e inteligencia en tareas tácticas, Nemotron 3 Nano 4B fue evaluado con Orak en juegos como Super Mario, Darkest Dungeon y Stardew Valley. Además de sus resultados en benchmarks de seguimiento de instrucciones (IFBench, IFEval), el modelo mostró una huella de VRAM muy reducida y latencias bajas en comparaciones en su clase cuando la medición se hizo en un RTX 4070 usando Llama.cpp con versiones quantizadas Q4_K_M.

Estos resultados respaldan su idoneidad para casos de uso en el edge donde la memoria y la latencia son limitantes importantes.

Relevancia para América Latina y casos de uso

En la región, donde muchas implementaciones enfrentan conectividad desigual y requerimientos de privacidad locales, un modelo como Nemotron 3 Nano 4B puede ser especialmente útil. Posibles aplicaciones:

  • Agentes conversacionales locales en kioscos, tiendas o servicios gubernamentales donde los datos no deben salir del dispositivo.
  • Robots y dispositivos industriales o agrícolas que requieren inferencia en el borde con latencias bajas (Jetson es popular en robótica integrada).
  • Soluciones de atención al cliente y asistentes en retail que buscan reducir costos de inferencia y dependencia de la nube.

La capacidad de correr en Jetson Orin Nano o Thor facilita despliegues embebidos con restricciones de energía y memoria, comunes en proyectos de automatización y robótica en la región.

Open-source y personalización

Al ser un modelo de código abierto, Nemotron 3 Nano 4B permite a equipos y empresas personalizar, afinar y adaptar el modelo a dominios específicos. Esto es valioso para organizaciones latinoamericanas que requieren soluciones locales y controladas, y que pueden beneficiarse de ajustar la arquitectura o los datos de entrenamiento a idiomas, dialectos y contextos regionales.

Consideraciones finales

Nemotron 3 Nano 4B representa una apuesta por llevar capacidades de lenguaje potentes al edge mediante compresión inteligente y un pipeline de destilación robusto. Sus promesas en eficiencia de VRAM y latencia, junto con resultados competitivos en instrucción y agencia, lo convierten en una opción atractiva para despliegues locales.

Sin embargo, como en cualquier transición hacia el edge, conviene evaluar cuidadosamente las condiciones de hardware, las necesidades de precisión en tareas específicas y las estrategias de quantización y fine-tuning para cada caso de uso.

En resumen, para equipos en América Latina que buscan ejecutar agentes conversacionales y soluciones de IA en dispositivos locales con restricciones de memoria y conectividad, Nemotron 3 Nano 4B ofrece una alternativa interesante y lista para ser personalizada gracias a su naturaleza open-source.

Fuente original: Hugging Face Blog