NVIDIA Cosmos 3: omni-modelo abierto para IA física

Introducción

NVIDIA Cosmos 3 ya está disponible en Hugging Face y representa un avance importante en modelos base para IA enfocada en el mundo físico. A diferencia de enfoques previos que requerían múltiples modelos y pipelines separados, Cosmos 3 integra generación de entornos, razonamiento físico y generación de acciones en un único modelo omni-modal. Esto facilita proyectos de robótica, simulación de conducción, espacios inteligentes y generación de datos sintéticos para entrenamiento.

En esta nota resumimos las capacidades, la arquitectura, las versiones disponibles y cómo aprovechar Cosmos 3 dentro de flujos de trabajo como Hugging Face Diffusers, con foco en aplicaciones relevantes para la región latinoamericana.

Qué aporta Cosmos 3

Cosmos 3 unifica tareas que antes eran manejadas por modelos distintos: generación de mundos realistas (imágenes y video), razonamiento sobre física, predicción de secuencias futuras y generación de políticas o acciones. Al tener todo esto en un solo modelo se simplifica la ingeniería de productos y prototipos: menos integraciones, menor latencia entre pasos y una coherencia más alta entre el entendimiento del entorno y las acciones propuestas.

¿Por qué esto importa para proyectos en América Latina? Sectores como la agricultura de precisión, logística de última milla, minería y automatización de almacenes se benefician de simulaciones precisas y de datos sintéticos para entrenar sistemas en escenarios poco frecuentes o peligrosos. Cosmos 3 facilita generar esos escenarios y razonar sobre ellos sin tener que combinar múltiples modelos especializados.

Arquitectura esencial (visión general)

Cosmos 3 está construido sobre una arquitectura Mixture-of-Transformers (MoT) que procesa múltiples modalidades —texto, imagen, video, audio y acciones— dentro de un único marco. El flujo general es:

Cada modalidad se codifica con un encoder dedicado (por ejemplo, ViT para visión, VAE para generación visual/audio, y vectores específicos para acciones).
Esos encodings se proyectan a un espacio de representación compartido.
La secuencia de entrada se divide en dos subsecuencias: una autoregresiva (AR) para razonamiento y predicción de tokens, y una de difusión (DM) para generación iterativa por denoising.
AR y DM usan parámetros separados dentro de cada capa del transformer, pero se comunican a través de atención conjunta. Esto permite que el mismo modelo actúe como VLM, generador de video, modelo de dinámica directa/inversa o política robótica sin cambiar la arquitectura.

Esta combinación de razonamiento (AR) y generación (DM) en un solo forward pass es lo que define a Cosmos 3 como un omni-modelo para IA física.

Capacidades clave

Cosmos 3 maneja múltiples entradas y salidas en una sola red, lo que habilita aplicaciones como:

Generación de video físico plausible a partir de texto, imágenes, video previo o comandos de acción.
Razonamiento sobre movimiento, causalidad y relaciones espaciales.
Predicción de secuencias futuras (video y acciones) a partir del estado actual.
Modelado de dinámica directa (predecir video a partir de acciones) e inversa (generar acciones necesarias para lograr cierta secuencia).
Políticas que combinan visión y texto para generar videos y acciones coherentes.

Los usos prácticos van desde simular escenarios de riesgo en almacenes hasta generar escenas de conducción de cola larga y crear datasets sintéticos para entrenar robots de manipulación.

Versiones y despliegue

Esta puesta en escena de Cosmos 3 incluye dos tamaños de modelo para distintos requisitos:

Cosmos 3 Nano: ~8B de parámetros (razonador y generador). Está optimizado para inferencia eficiente en estaciones de trabajo y GPUs de clase profesional como la RTX PRO 6000. Está disponible en Hugging Face bajo el repositorio de NVIDIA.
Cosmos 3 Super: ~32B de parámetros (razonador y generador). Pensado para generación de datos sintéticos a gran escala y trabajos de investigación en infraestructuras GPU de alto rendimiento (por ejemplo, Hopper y Blackwell). También está disponible en Hugging Face.

La elección entre Nano y Super depende del balance entre costos de cómputo, velocidad y escala de generación; Nano facilita prototipado en entornos locales, mientras que Super sirve para SDG masivo y experimentación a escala.

Integración con Diffusers y recursos para entrenar

Cosmos 3 llega integrado con la librería Diffusers de Hugging Face, lo que permite incorporar pipelines de generación de mundos con pocas líneas de código en flujos ya establecidos. Además, NVIDIA proporciona scripts de post-entrenamiento en GitHub para quienes quieran ajustar el modelo con datos propios, y datasets de generación sintética (SDG) abiertos para acelerar proyectos de IA física.

Para equipos en la región, esto significa poder adaptar el modelo a condiciones locales —por ejemplo, escenarios viales específicos, configuraciones de almacén o variaciones en los equipos agrícolas— sin partir de cero.

Guía breve de prompts y buenas prácticas

Generación de video: conviene usar prompts narrativos detallados en forma de párrafos descriptivos. En lugar de frases cortas, describa la escena, el punto de vista, la progresión temporal y eventos clave (por ejemplo: condiciones del camino, presencia de otros vehículos, aparición inesperada de un obstáculo y la reacción del vehículo). Esto ayuda al modelo a producir secuencias coherentes y con físicas plausibles.
Generación de acciones: prefiera indicaciones concisas y referencias espaciales claras. Por ejemplo: “Coloca la olla a la izquierda del objeto púrpura. Video desde primera persona.” Mensajes breves y con coordenadas o relaciones espaciales ayudan a generar políticas de manipulación más precisas.

NVIDIA también publica una plantilla de upsampling de prompts y recomendaciones de redacción en su repositorio de GitHub para mejorar la calidad de las entradas.

Relevancia y consideraciones para Latinoamérica

Cosmos 3 reduce la complejidad técnica al consolidar funciones que antes requerían varios modelos y pipelines. Para empresas y centros de investigación en Latinoamérica esto puede traducirse en:

Menor tiempo de integración en proyectos de automatización industrial y robótica.
Capacidad de generar datos sintéticos para entrenar modelos frente a condiciones locales difíciles de recopilar (clima, geometría vial, prácticas logísticas).
Pruebas y validación más seguras mediante simulaciones antes de desplegar soluciones en entornos reales.

Es importante evaluar requisitos de infraestructura y cumplimiento regulatorio local, especialmente en aplicaciones de vehículos autónomos y automatización en sectores críticos.

Conclusión

Cosmos 3 representa un paso hacia modelos base que entienden y actúan en el mundo físico sin necesidad de encadenar múltiples componentes. Para equipos en América Latina interesados en robótica, simulación y generación de datos sintéticos, la disponibilidad en Hugging Face, la integración con Diffusers y los recursos en GitHub facilitan comenzar a experimentar y adaptar el modelo a casos de uso locales. Como siempre, conviene planear una estrategia de validación y ajuste con datos regionales antes de pasar a despliegues operativos.