QIMMA: evaluación rigurosa de LLMs en árabe

Por qué importa evaluar bien los LLMs en árabe

El árabe es hablado por más de 400 millones de personas en contextos dialectales y culturales muy variados. Sin embargo, el ecosistema de evaluación de modelos de lenguaje en árabe está fragmentado y, en muchos casos, sin controles de calidad rigurosos. Esto genera una pregunta crítica: ¿los puntajes reportados en leaderboards realmente reflejan capacidad lingüística en árabe, o están distorsionados por errores y sesgos en los propios benchmarks?

QIMMA (قِمّة, “cima” o “summit” en árabe) nace para responder esa pregunta aplicando una validación de calidad sistemática antes de cualquier evaluación automática. Para tomadores de decisión y equipos de IA en América Latina que contemplan modelos multilingües o proyectos con usuarios árabes, entender estas limitaciones es clave para elegir modelos y diseñar evaluaciones propias con rigor.

Qué es QIMMA y qué la diferencia

QIMMA consolida 109 subconjuntos provenientes de 14 benchmarks fuente en un único suite de evaluación con más de 52,000 muestras. Su objetivo es medir capacidades reales de los modelos en dominios relevantes —educación, salud, legal, creatividad, código y más— pero solo después de validar la calidad de cada muestra.

Las propiedades que distinguen a QIMMA frente a otras plataformas son cinco: código abierto, contenido predominantemente nativo en árabe (99%), validación sistemática de calidad, evaluación de código y publicación de salidas por muestra. Según los creadores, es la única plataforma que combina todas estas características simultáneamente.

Cobertura: dominios, tareas y conjuntos incluidos

QIMMA reúne muestras de tareas diversas y de interés práctico:

Cultural: AraDiCE-Culture, ArabCulture, PalmX (MCQ)
STEM: ArabicMMLU, GAT, 3LM (MCQ)
Legal: ArabLegalQA, MizanQA (MCQ, QA)
Salud: MedArabiQ, MedAraBench (MCQ, QA)
Seguridad: AraTrust (MCQ)
Poesía y literatura: FannOrFlop (QA)
Código: HumanEval+ y MBPP+ adaptados al árabe

Un aspecto destacado es que QIMMA incluye evaluación de código con enunciados en árabe, manteniendo los identificadores de tarea, soluciones de referencia y suites de prueba originales. Esto permite evaluar competencia para resolver problemas expresados en árabe sin alterar el criterio de corrección.

La tubería de validación: priorizar la calidad antes de medir

El corazón del enfoque es una tubería de validación en dos etapas aplicada a cada muestra antes de ejecutar modelos:

Etapa 1 — Evaluación automatizada por múltiples modelos

Cada muestra fue evaluada automáticamente por dos LLMs con fuerte capacidad en árabe pero con datos de entrenamiento distintos: Qwen3-235B-A22B-Instruct y DeepSeek-V3-671B. Ambos modelos calificaron las muestras con un rúbrica de 10 puntos, usando valores binarios por criterio (0 o 1). Una muestra se marca para eliminación si cualquiera de los modelos le otorga menos de 7/10. Si ambos modelos coinciden en eliminarla, la muestra se descarta inmediatamente; si solo uno la marca, pasa a revisión humana.

Elegir dos modelos con composiciones de entrenamiento diferentes reduce la probabilidad de sesgos sistemáticos en la evaluación automática y permite detectar problemas que pueden pasar desapercibidos con una sola referencia.

Etapa 2 — Revisión humana por hablantes nativos

Las muestras señaladas por la etapa automática son revisadas por anotadores nativos con conocimiento cultural y dialectal. Los revisores toman decisiones finales sobre: contexto cultural y variación regional, matices dialectales, interpretaciones subjetivas y problemas sutiles que no detecta la automatización. Para contenidos sensibles, se consideran múltiples perspectivas, ya que la “corrección” puede variar entre regiones del mundo árabe.

Hallazgos principales: problemas recurrentes en los benchmarks

La validación reveló patrones de mala calidad que no son incidentes aislados, sino fallas estructurales en cómo se construyeron muchos conjuntos de evaluación. Entre los problemas recurrentes están:

Calidad de respuestas: índices de respuesta erróneos, respuestas factualmente incorrectas o falta de respuesta de referencia.
Texto y formato: fragmentos corruptos, errores de codificación, faltas de ortografía y duplicados.
Sensibilidad cultural: estereotipos y generalizaciones que no respetan la diversidad de comunidades árabes.
Conformidad con el protocolo: desalineación entre las respuestas de referencia y el protocolo de evaluación esperado.

Como ejemplo numérico derivado de la validación, en ArabicMMLU se descartaron 436 muestras de un total de 14,163 (3.1%) por problemas de calidad detectados por la tubería. En otros benchmarks los índices de descarte variaron desde prácticamente 0% hasta porcentajes más altos, evidenciando heterogeneidad en la calidad de las fuentes.

Trabajo específico en benchmarks de código

En los benchmarks de código, el enfoque fue editar y refinar los enunciados en árabe sin tocar los identificadores de tarea, las soluciones de referencia ni las suites de prueba. Es decir, se mejoró la claridad y corrección lingüística de los problemas para que los enunciados en árabe fueran precisos, pero la forma de evaluar funcionalmente el código permaneció intacta. Esto permite evaluar la comprensión en árabe de problemas de programación sin comprometer la comparabilidad técnica.

Implicaciones para equipos en América Latina

Para responsables de proyectos, investigadores y empresas en América Latina que usan modelos multilingües o contemplan despliegues en contextos con hablantes árabes, los hallazgos de QIMMA son relevantes por varias razones:

No todos los leaderboards son igualmente fiables. Puntajes altos en benchmarks no validados pueden sobreestimar la capacidad real del modelo en árabe.
Validación previa evita tomar decisiones basadas en artefactos de datos: errores, sesgos culturales o respuestas de referencia inconsistentes pueden distorsionar comparaciones entre modelos.
Si su organización necesita auditoría o cumplimiento, exigir salidas por muestra y procesos de validación aumenta transparencia y reproducibilidad.

Además, la inclusión de evaluación de código con enunciados en árabe es útil para iniciativas educativas o de contratación técnica que valoran la capacidad de resolver problemas programáticos expresados en lenguas distintas al inglés.

Recomendaciones prácticas

Exijan benchmarks con validación de calidad y, cuando sea posible, revisen muestras antes de confiar en métricas agregadas.
Publiquen salidas por muestra y scripts de evaluación para facilitar auditorías internas y externas.
Para evaluaciones multilingües, combinen juicio automático y humano, especialmente en idiomas con variación dialectal y cultural amplia.

Conclusión

QIMMA propone un cambio de paradigma: no correr modelos sobre todo lo disponible, sino validar la calidad de los datos primero. Al aplicar una tubería consistente de revisión automática y humana, QIMMA encontró problemas sistemáticos en benchmarks árabes consolidados y ofrece una suite más robusta y transparente para comparar LLMs. Para quienes toman decisiones sobre adopción de modelos o diseñan evaluaciones, el mensaje es claro: la calidad del benchmark importa tanto como la arquitectura del modelo.