OlmoEarth v1.1: eficiencia en modelos satelitales

Introducción

OlmoEarth v1.1 llega como una iteración enfocada en eficiencia sobre la versión original lanzada en noviembre de 2025. Desde su primera publicación, OlmoEarth se aplicó en tareas diversas —seguimiento de manglares, clasificación de causas de pérdida forestal y elaboración de mapas de tipos de cultivo a escala país—, demostrando utilidad en despliegues nacionales y continentales. La nueva familia v1.1 reduce hasta tres veces el costo computacional de ejecución, sin perder el rendimiento observado en varios benchmarks y tareas construidas con socios.

Para organizaciones con presupuesto limitado, como muchas en Latinoamérica, estos ahorros significan poder actualizar mapas con más frecuencia, procesar áreas más grandes o democratizar el acceso a modelos de última generación.

Por qué la eficiencia importa en imágenes satelitales

Cuando se trabaja con datos remotos a escala continental o nacional, el gasto principal está en cómputo: exportar datos, preprocesarlos, ejecutar inferencia y postprocesar resultados. Reducir el costo por inferencia amplía la cantidad de proyectos viables y acelera los ciclos de entrega. OlmoEarth v1.1 apunta explícitamente a ese punto: mantener la calidad de predicción mientras disminuye las operaciones necesarias por pasada del modelo.

En modelos transformer —la arquitectura base de OlmoEarth—, dos factores controlan en gran medida el gasto: el tamaño del modelo y la longitud de la secuencia de tokens. Los costos computacionales escalan de forma cuadrática con la longitud de la secuencia, por lo que incluso reducciones moderadas en el número de tokens producen ahorros substanciales. Una métrica útil para comparar es MACs (operaciones de multiplicar-acumular) por pasada: menos MACs suele traducirse en inferencias más rápidas y económicas.

Reducir la longitud de la secuencia: el corazón de v1.1

OlmoEarth v1.1 consigue gran parte de su eficiencia al reducir la cantidad de tokens que ingresa al transformer. En datos de Sentinel-2, que son habituales en teledetección, el volumen típico tiene dimensiones espaciales (alto, ancho), temporal (pasadas) y de banda (12 canales). La estrategia común —empleada por modelos como Galileo o SatMAE— es crear un token por parche espacial por cada resolución (10 m, 20 m, 60 m) y por cada timestep. Por ejemplo, con 2 timesteps y 3 resoluciones un parche genera 6 tokens.

Esa granularidad mantiene relaciones entre bandas y resoluciones, pero también multiplica rápidamente el número total de tokens: H/p × W/p × T × 3 tokens para una entrada [H, W, T, D=12] si se usan parches espaciales de tamaño p.

Colapsar las resoluciones y usar un único token por parche —como hace CROMA— reduce tres veces la cantidad de tokens, con impacto directo en MACs y costo. Sin embargo, hacerlo de forma ingenua llevó a OlmoEarth a caídas de desempeño notables en benchmarks: por ejemplo, una baja de alrededor de 10 puntos porcentuales en m-eurosat kNN en pruebas iniciales.

Rediseñar el token sin perder precisión

El principal desafío fue cómo combinar información de distintas resoluciones y bandas en menos tokens sin perder la capacidad del modelo para aprender relaciones inter-banda críticas. OlmoEarth v1.1 alcanza ese equilibrio mediante ajustes al régimen de preentrenamiento: modificaciones metodológicas que permiten a la versión con tokens consolidados aprender las correlaciones relevantes entre bandas y tiempos.

El documento técnico de la iniciativa describe en detalle los cambios en preentrenamiento que hacen posible la fusión de tokens sin degradar el rendimiento en las tareas evaluadas. Como resultado, la familia v1.1 ofrece similar desempeño a v1 en una mezcla de benchmarks internos y tareas construidas con socios, pero con hasta 3x menos cómputo en cada tamaño de modelo.

Implicaciones para desarrolladores y equipos en Latinoamérica

Para equipos que desplegan modelos de teledetección en la región, las mejoras en v1.1 tienen beneficios prácticos:

Costos operativos más bajos: ejecutar inferencias en áreas vastas (estados, provincias o países) se vuelve más asequible, permitiendo actualizaciones más frecuentes.
Mayor acceso a recursos limitados: organizaciones con capacidad computacional reducida podrán entrenar, ajustar y ejecutar modelos en infraestructuras locales o en la nube con menores facturas.
Flexibilidad de tamaño: la familia incluye variantes (por ejemplo, Nano, Tiny, Base) que permiten escoger el punto óptimo entre costo y precisión según el proyecto.

Si ya usan modelos de la familia OlmoEarth v1, probar v1.1 es una recomendación natural: en muchos casos ofrece la misma eficacia con un tercio del costo computacional. No obstante, los autores señalan la existencia de algunas regresiones en tareas puntuales; conviene validar v1.1 en sus datos y flujos antes de reemplazar completamente una implementación en producción.

Qué aporta esta versión a la investigación

Los modelos pretrained de teledetección tienen muchas variables: arquitectura, dataset y algoritmo de preentrenamiento. OlmoEarth v1.1 se entrenó sobre el mismo conjunto de datos que la versión v1, por lo que las diferencias observadas se pueden atribuir a cambios metodológicos y de tokenización. Eso ayuda a aislar efectos y avanzar en la comprensión científica de cómo diseñar mejores regímenes de preentrenamiento para datos remotos.

Para investigadores, v1.1 ofrece un caso de estudio sobre cómo las decisiones de tokenización y preentrenamiento condicionan la eficiencia y la capacidad de generalización, sin depender únicamente de aumentar el tamaño del modelo o los datos.

Cómo empezar

La familia OlmoEarth v1.1 incluye pesos y código de entrenamiento para distintos tamaños (p. ej., Base, Tiny, Nano). Si planean evaluarla en proyectos de conservación, agricultura o monitoreo forestal en Latinoamérica, los pasos recomendados son:

Probar los pesos preentrenados en una muestra representativa de sus datos locales.
Validar métricas clave del proyecto (precisión, recall, mapas de clasificación) comparando v1 y v1.1.
Medir tiempos y costos de inferencia para estimar el ahorro real en su infraestructura.
Ajustar el tamaño del modelo según presupuesto y requerimientos de latencia.

Conclusión

OlmoEarth v1.1 representa un avance práctico: lograr igual rendimiento con hasta tres veces menos cómputo abre la puerta a despliegues más frecuentes y accesibles de modelos de teledetección. Para países y organizaciones en Latinoamérica que buscan monitorear recursos naturales y responder a cambios ambientales a gran escala, estas eficiencias pueden traducirse en mapas más actualizados, decisiones más rápidas y proyectos más sostenibles financieramente.

Si su organización ya usa OlmoEarth, prueben v1.1 en su flujo de trabajo y evalúen el balance entre ahorro y precisión para su caso específico. Para la comunidad investigadora, la versión ofrece además un laboratorio útil para estudiar cómo las estrategias de tokenización y preentrenamiento afectan la eficiencia en visión satelital.