Inteligencia Artificial 6 min lectura
QIMMA: la evaluación rigurosa que faltaba para LLMs en árabe
QIMMA (قمّة) plantea un cambio de enfoque: validar la calidad de los benchmarks antes de medir modelos. El resultado revela problemas sistemáticos en conjuntos de prueba árabes y propone un estándar más robusto para evaluar LLMs.