Microsoft presenta MAI: modelos para razonamiento y código

Introducción

Microsoft presentó recientemente dos nuevos modelos de lenguaje bajo la familia MAI: MAI-Thinking-1, orientado a razonamiento, y MAI-Code-1-Flash, diseñado para tareas de programación y para potenciar GitHub Copilot en Visual Studio Code. Ambos anuncios despertaron interés por ofrecer alto rendimiento con recuentos de parámetros —y costos— relativamente bajos en comparación con otros grandes modelos actuales.

En este texto analizo lo que Microsoft comunicó oficialmente, las correcciones posteriores a las notas iniciales, qué se sabe sobre los datos de entrenamiento y qué implicaciones prácticas tienen estas novedades para empresas y desarrolladores, incluida la audiencia en América Latina.

Qué anunció Microsoft

MAI-Thinking-1 fue descrito como un modelo de razonamiento con arquitectura MoE (Mixture of Experts). Microsoft indicó que el modelo tiene 1 billón (1T) de parámetros en total, con 35 mil millones (35B) de parámetros activos por paso de inferencia. Fue comunicado que está disponible para “select early partners” (socios tempranos).
MAI-Code-1-Flash es un modelo con 137 mil millones (137B) de parámetros totales y 5 mil millones (5B) de parámetros activos, específicamente «purpose-built for GitHub Copilot and VS Code to deliver high performance and lower cost». Microsoft señaló que su despliegue está en progreso hacia usuarios individuales de GitHub Copilot en Visual Studio Code.

Microsoft también afirmó que ambos modelos fueron construidos “end-to-end” por la compañía y entrenados con datos “clean and appropriately licensed” (limpios y con licencias apropiadas), sin distilación desde modelos de terceros, en el caso de MAI-Thinking-1.

Detalles técnicos y correcciones importantes

Poco después del anuncio, surgieron correcciones relevantes. Inicialmente hubo una confusión sobre los recuentos de parámetros porque la cifra de parámetros activos en arquitecturas MoE fue interpretada erróneamente como el total de parámetros del modelo. Microsoft y documentos técnicos aclararon que los totales reales son 1T para MAI-Thinking-1 y 137B para MAI-Code-1-Flash, con los parámetros activos por paso siendo 35B y 5B, respectivamente.

Ese matiz es técnico pero importante: los modelos MoE pueden tener un número total de parámetros mucho mayor que los que contribuyen a la inferencia en cada paso. Esto permite eficiencia en costo y rendimiento por token, pero también complica la comparación directa con modelos densos (no MoE) si solo se mira el recuento activo.

Microsoft además afirmó en evaluaciones ciegas que MAI-Thinking-1 fue “preferido a Sonnet 4.6” en evaluaciones humano lado a lado, lo que es una señal positiva sobre la calidad para tareas de razonamiento, según sus pruebas internas.

¿Qué hay sobre los datos y las licencias?

En el comunicado y en una primera nota pública, Microsoft enfatizó que ambos modelos se entrenaron “desde cero” con datos empresariales y con licencias adecuadas, sin usar destilación de otros modelos. Esto generó expectativas sobre un enfoque más limpio respecto a la práctica común de entrenar con grandes rastreos de la web.

Sin embargo, el documento técnico de MAI-Thinking-1 y la información proporcionada posteriormente revelan que la realidad es más matizada: la mayor parte del corpus web provino de un rastreo propietario. El proceso descrito incluye:

Un descubrimiento y selección inicial de páginas, seguido de un rastreo de aproximadamente 1.2 billones de páginas.
Filtrado amplio (incluyendo listas de bloqueo para contenido adulto y dominios relacionados con piratería) que redujo el corpus a alrededor de 794 mil millones de páginas.
Procesamiento de Common Crawl con la misma canalización, y después de filtrado y deduplicación, la porción de Common Crawl contenía 24.2 mil millones de páginas.

Además, Microsoft indicó que aplicaron detección de contenido generado por IA y revisiones manuales para filtrar dominios con abundante contenido generado por IA. Aun así, el uso de rastreos web masivos y colecciones como Common Crawl implica que no estamos ante un corpus exclusivamente de datos empresariales con licencias explícitas sitio por sitio.

En resumen: aunque Microsoft destaca esfuerzos de curación y políticas de licencia, el material público muestra que los modelos se entrenaron, en buena parte, sobre un rastreo web y Common Crawl, lo que coloca estos modelos en la misma discusión de licencias y orígenes de datos que otros grandes LLM.

Impacto para empresas y desarrolladores en América Latina

Costos y accesibilidad: el diseño MoE con parámetros activos relativamente bajos por inferencia apunta a reducir costos de uso en producción. Para empresas latinoamericanas, esto puede traducirse en modelos más asequibles para integrar capacidades de razonamiento o copilotos de código, siempre que Microsoft ofrezca opciones comerciales competitivas en la región.
Uso en desarrollo de software: MAI-Code-1-Flash está optimizado para GitHub Copilot y VS Code. Para equipos de desarrollo en América Latina, una mejora en latencia y costo del copiloto puede acelerar ciclos de desarrollo y elevar productividad, particularmente para PYMES y startups que dependen de herramientas en la nube.
Requisitos de cumplimiento y privacidad: el énfasis de Microsoft en datos “empresariales” y en filtrado puede ser atractivo para clientes corporativos que necesitan garantías de licenciamiento y cumplimiento. No obstante, las organizaciones deberán revisar los términos de uso y las guías de datos para entender riesgos legales o regulatorios, especialmente en países donde la regulación de datos y la propiedad intelectual están en evolución.
Confianza y ética: la filtración y la detección de contenido generado por IA son pasos positivos, pero no resuelven completamente las preguntas sobre consentimiento y derecho de autor asociadas al uso masivo de páginas web para entrenamiento. Para responsables de decisión en la región, esto implica evaluar riesgos reputacionales y legales antes de desplegar soluciones basadas en estos modelos.

Conclusión

Los anuncios de Microsoft sobre MAI-Thinking-1 y MAI-Code-1-Flash muestran un movimiento estratégico hacia modelos más eficientes en costo y optimizados para casos concretos (razonamiento y código). La corrección sobre los recuentos de parámetros recuerda que las arquitecturas MoE hacen que estas cifras sean menos directas de interpretar.

La afirmación de Microsoft sobre datos limpiamente licencados y construcción interna generó expectativas, pero el documento técnico confirma el uso de rastreos web propietarios y Common Crawl, con filtrado y deduplicación extensivos. Esto sitúa a MAI en la misma discusión de transparencia y licencias que otros grandes modelos.

Para empresas y desarrolladores en América Latina, las novedades abren oportunidades —mejor rendimiento y potencialmente menor costo— pero también exigen atención a términos de uso, cumplimiento regulatorio y consideraciones éticas antes de adoptar estas ofertas en producción.

Si Microsoft continúa detallando sus prácticas de licencia y facilita acceso regional y opciones de despliegue alineadas a normativas locales, MAI podría ser una opción relevante para proyectos que necesiten capacidades avanzadas de razonamiento o asistentes de programación más eficientes.