MathNet: el mayor dataset de problemas olímpicos

Qué es MathNet

MathNet es la mayor base de datos de problemas matemáticos con demostración elaborada que existe hoy: más de 30,000 problemas y soluciones redactadas por expertos, procedentes de 47 países, en 17 idiomas y de 143 competiciones. El conjunto cubre cuatro décadas de matemáticas competitivas y combina problemas en formato texto e imagen. Sus responsables destacan que es cinco veces más grande que el siguiente dataset comparable.

El proyecto fue desarrollado por investigadores del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT, la King Abdullah University of Science and Technology (KAUST) y la empresa HUMAIN. Se presentará en la conferencia ICLR en Brasil, lo que además lo pone en el foco de la comunidad de aprendizaje automático en la región.

Cómo se armó la colección

Construir MathNet implicó localizar y digitalizar 1,595 volúmenes en PDF que suman más de 25,000 páginas. Los documentos incluyen tanto archivos digitales recientes como escaneos antiguos en más de una docena de idiomas. Una parte sustancial del archivo provino de la colección personal de Navid Safaei, miembro de la comunidad de la Olimpiada Matemática Internacional (IMO), quien había estado recolectando y escaneando esos cuadernos desde 2006.

A diferencia de muchos repositorios que extraen problemas de foros comunitarios, MathNet se basa exclusivamente en cuadernos oficiales de competencias nacionales. Eso significa que las soluciones son escritas por expertos, revisadas por pares y, frecuentemente, extienden a varias páginas presentando múltiples enfoques para un mismo enunciado. Ese nivel de detalle es especialmente valioso para enseñar y evaluar razonamiento matemático tanto a humanos como a modelos de IA.

Qué lo diferencia de otras colecciones

Varias bases de datos previas estaban sesgadas hacia competiciones de Estados Unidos y China y se apoyaban en soluciones cortas o informales publicadas en foros. MathNet amplía ese panorama incluyendo materiales de muchos países y tradiciones matemáticas. Al incorporar diversidad geográfica, lingüística y formal (texto e imagen), busca representar la variedad de perspectivas y estilos de resolución que existen en la comunidad matemática global.

Además, el equipo validó el contenido con un grupo de más de 30 evaluadores humanos, procedentes de países como Armenia, Rusia, Ucrania, Vietnam y Polonia, quienes coordinaron la verificación de miles de soluciones. Ese proceso aporta una garantía de calidad y estandarización que no suele encontrarse en archivos no oficiales.

Impacto para estudiantes y entrenadores

Para jóvenes que se preparan para competiciones como la IMO, y para entrenadores en países con recursos limitados, MathNet ofrece un acceso centralizado a problemas y soluciones de alta calidad. Muchos participantes, según los investigadores, han tenido que entrenar de forma individual o con pocos recursos; disponer de una biblioteca global reduce esa brecha y permite comparar enfoques y estilos de resolución de distintas tradiciones matemáticas.

En América Latina, donde la infraestructura de formación competitiva varía mucho entre países, un recurso así puede servir para estandarizar material de estudio, inspirar nuevas preguntas y facilitar la identificación de técnicas comunes en combinatoria, teoría de números, geometría y álgebra.

MathNet como banco de pruebas para modelos de IA

MathNet no solo es útil para estudiantes: también funciona como un benchmark riguroso para evaluar la capacidad de los modelos de lenguaje y razonamiento matemático. Los resultados publicados muestran que el avance de la IA en matemáticas es real, pero desigual. El mejor modelo probado, GPT-5, alcanzó un promedio cercano al 69.3% en el principal benchmark de MathNet, que incluye 6,400 problemas. Eso significa que incluso los modelos de vanguardia fallan casi en uno de cada tres problemas de nivel olímpico.

Las tareas que incluyen figuras son particularmente desafiantes: el desempeño cae significativamente cuando se requiere razonamiento visual, lo que revela una debilidad persistente en modelos que, por lo demás, muestran avances en problemas puramente textuales. Otro hallazgo relevante es que varios modelos de código abierto obtuvieron 0% en problemas escritos en mongol, evidenciando limitaciones claras en el manejo de lenguas menos comunes.

¿Por qué importa la diversidad del dataset?

Cuando los datos de entrenamiento están dominados por problemas en inglés o chino, los modelos tienden a aprender una sola «cultura matemática» —aquellas formas de enunciar y resolver problemas más frecuentes en esos contextos. MathNet, al incorporar problemas de muchas naciones y lenguas, expone a los modelos a distintos estilos de formulación y razonamiento. Eso puede ayudar a desarrollar sistemas más robustos y menos sesgados, capaces de comprender enunciados y estrategias provenientes de tradiciones matemáticas diversas.

Relevancia práctica y próximos pasos

Los autores trabajan además en compartir MathNet con la fundación de la IMO, lo que podría facilitar su adopción oficial por parte de la comunidad de competiciones. El repositorio promete ser una herramienta tanto para docentes y estudiantes como para investigadores que buscan medir y mejorar la intuición matemática de los modelos de IA.

Para América Latina, la disponibilidad pública de problemas y soluciones de alto nivel representa una oportunidad para fortalecer programas nacionales de entrenamiento, crear materiales didácticos adaptados a contextos locales y evaluar herramientas de enseñanza asistidas por IA.

Conclusión

MathNet es un salto cualitativo en la calidad y diversidad de datos para razonamiento matemático. Al reunir cuadernos oficiales, soluciones expertas y validación humana, ofrece un recurso sólido para entrenamiento competitivo y para poner a prueba los límites de la inteligencia artificial en matemáticas. Los resultados iniciales muestran avances notables, pero también dejan en claro que aún hay desafíos importantes: razonamiento visual, manejo de lenguas minoritarias y la capacidad de resolver consistentemente problemas de muy alto nivel.

Como recurso abierto, MathNet abre la puerta a una colaboración más amplia entre estudiantes, educadores e investigadores en América Latina y el resto del mundo, y plantea las preguntas que serán centrales para la próxima generación de modelos de razonamiento matemático.