ChartNet: dataset para que IA interprete gráficos

El desafío de interpretar gráficos con IA

En informes financieros, resúmenes de mercado y presentaciones técnicas, los gráficos condensan información esencial. Sin embargo, para los modelos de inteligencia artificial que combinan visión y lenguaje (VLMs), interpretar un gráfico implica integrar comprensión visual, numérica y lingüística: no basta con reconocer líneas o barras, sino que hay que extraer valores, identificar tendencias y generar resúmenes coherentes.

Investigadores del MIT y del MIT-IBM Computing Research Lab abordaron precisamente ese cuello de botella. Su propuesta, ChartNet, es un recurso multifacético diseñado para enseñar a modelos vision-language a entender gráficos de manera robusta y práctica. La motivación es clara: incluso los modelos comerciales de última generación pueden fallar al extraer información precisa de gráficos, lo que representa un riesgo para decisiones empresariales.

Qué es ChartNet y qué contiene

ChartNet es un dataset sintético compuesto por más de un millón de imágenes de gráficos. Pero no se trata solo de imágenes: cada punto de datos incluye el código que generó el gráfico, una descripción textual, una tabla con los valores numéricos subyacentes y pares de pregunta-respuesta para entrenar la capacidad de responder consultas sobre el gráfico.

Esta estructura multimodal (imagen + código + tabla + texto + Q&A) permite que los modelos no solo aprendan a reconocer elementos visuales, sino también a conectar esos elementos con sus representaciones numéricas y lingüísticas. Como explica Jovana Kondic, estudiante de posgrado en EECS del MIT y autora principal, ChartNet busca ser «un one-stop shop para chart understanding», cubriendo todo lo que un modelo y un practicante podrían necesitar.

Además de la generación automática, ChartNet incorpora una selección de datapoints anotados por expertos humanos, lo que brinda ejemplos con garantías de validez y sirve para afinar modelos en aplicaciones concretas.

Cómo se generaron los datos

La creación del dataset siguió una estrategia en dos pasos basada en datos sintéticos. Primero, un sistema automatizado traduce conjuntos preexistentes de gráficos en código reproducible. Luego, ese código se somete a un proceso iterativo de aumentos: se modifican tipos de gráfico, valores, paletas de color, temas y otros atributos para generar múltiples variantes a partir de una semilla.

Gracias a este enfoque, a partir de un número relativamente pequeño de ejemplos semilla pueden generarse cientos de variaciones, lo que explica cómo se alcanzó la escala de más de un millón de imágenes. Para mantener calidad, el equipo incorporó controles automáticos que verifican que el código sea ejecutable y que las imágenes renderizadas sean limpias y correctas. Como dice Kondic, «no queremos simplemente generar muestras diversas; también queremos que la información se presente de forma significativa».

Entrenamiento y evaluación de modelos

Los autores usaron ChartNet para entrenar varias versiones de modelos de visión, incluyendo la serie Granite Vision de IBM y otros modelos open-source de distintos tamaños. Al evaluar tareas como extracción de datos y resumen de gráficos, los modelos ajustados con ChartNet mostraron mejoras notables frente a sus versiones previas y, según el equipo, incluso sobrepasaron en muchos casos a modelos comerciales mucho más grandes.

El documento del equipo enfatiza que la disponibilidad de datos multimodales —imagen, código, tablas y Q&A— ayuda a los modelos a alinear las distintas representaciones de la misma información. Dhiraj Joshi, científico senior en IBM Research, subraya la importancia práctica: «La industria financiera se nutre de gráficos. Si los VLMs pueden extraer descripciones de tendencias, facilita muchos flujos de trabajo posteriores».

Implicaciones prácticas para América Latina

Para empresas y equipos de datos en América Latina, ChartNet abre posibilidades relevantes. Muchas organizaciones en la región —desde fintechs hasta departamentos de análisis en gobiernos y universidades— dependen de gráficos para comunicar resultados y detectar tendencias. Poder desplegar modelos open-source entrenados con ChartNet puede reducir la dependencia de servicios comerciales costosos y acelerar tareas como:

Extracción automática de series temporales y valores de reporte.
Generación de resúmenes ejecutivos a partir de paneles y presentaciones.
Revisión y verificación de figuras en artículos científicos y reportes técnicos.
Automatización de flujos de trabajo en finanzas, marketing y monitoreo de indicadores públicos.

El enfoque open-source también facilita la adaptación local: equipos con presupuestos limitados pueden entrenar o afinar modelos más pequeños para contextos y dominios específicos de la región, por ejemplo, informes económicos nacionales, dashboards gubernamentales o publicaciones académicas en español.

Limitaciones y oportunidades futuras

El trabajo resuelve algunos de los principales cuellos de botella —principalmente la escasez de datos de entrenamiento de alta calidad— pero no elimina todos los retos. Interpretar gráficos reales puede implicar ruidos adicionales: imágenes con baja resolución, gráficos combinados complejos, anotaciones en distintos idiomas o formatos no estandarizados. ChartNet incluye validación humana en una porción del dataset, lo que ayuda, pero la adaptación a casos reales seguirá requiriendo trabajo de fine-tuning y evaluación específica por dominio.

Por otra parte, el enfoque sintético tiene ventajas claras en escala y control, y puede complementarse con colecciones de gráficos reales de empresas o instituciones públicas que quieran mejorar rendimiento en sus propios datos.

Transparencia y autoría

El proyecto reúne investigadores del MIT, del MIT-IBM Computing Research Lab y de IBM Research. Entre los autores mencionados están Jovana Kondic, Pengyuan Li, Dhiraj Joshi, Isaac Sanchez, Aude Oliva y Rogerio Feris. El trabajo se presentará en la conferencia IEEE Computer Vision and Pattern Recognition (CVPR), lo que indica su validación por la comunidad de visión computacional.

Conclusión

ChartNet representa un paso práctico para dotar a modelos vision-language de la capacidad de entender gráficos de forma más confiable. Al combinar generación sintética a gran escala con anotaciones humanas y múltiples modalidades de datos, los investigadores muestran que modelos abiertos más pequeños pueden alcanzar o superar a alternativas comerciales en tareas concretas. Para organizaciones en América Latina, esto puede traducirse en herramientas de análisis más accesibles, reducción de costos y mayor autonomía tecnológica en la extracción y comunicación de información contenida en gráficos.