Open ASR: nuevos datos privados para evitar benchmaxxing

Contexto y propósito

Cuando una métrica se convierte en un objetivo, deja de ser una buena métrica —un principio conocido como la ley de Goodhart— aplica también a los benchmarks de IA. Desde su lanzamiento en septiembre de 2023, el Open ASR Leaderboard de Hugging Face ha acumulado más de 710,000 visitas y se ha convertido en una referencia para comparar modelos de reconocimiento automático de voz (ASR). Sin embargo, esa popularidad trae consigo un riesgo: modelos que optimizan específicamente para los conjuntos de prueba públicos, mejorando su puntuación sin traducir esas ganancias a robustez real en producción.

Para mitigar este problema y ofrecer una evaluación más significativa, Hugging Face ha incorporado conjuntos de datos de alta calidad provistos por Appen Inc. y DataoceanAI, que por el momento se mantendrán privados en la plataforma del leaderboard.

Por qué mantener datos privados ayuda a la validez del benchmark

Los principales retos en evaluar ASR son la estandarización y la apertura. La estandarización exige que los outputs de modelos y las transcripciones de los datasets sigan convenciones comunes (por ejemplo: manejo de mayúsculas, puntuación o variantes ortográficas). La apertura, por su parte, permite revisar el código de evaluación y contribuir a la mejora del proceso.

Pero esa misma apertura facilita el llamado benchmaxxing: cuando desarrolladores optimizan modelos para rendir bien en un conjunto de prueba conocido o buscan datos de entrenamiento que se parezcan mucho a una prueba pública. Mantener ciertos datasets privados reduce la probabilidad de que un modelo aprenda pistas específicas del test y así proporciona una medida más veraz de desempeño en condiciones diversas.

Hugging Face seguirá calculando, por defecto, el Average WER (error de palabra promedio) usando solo los conjuntos de datos públicos. Sin embargo, ofrecen un interruptor para incluir los datasets privados y así visualizar cómo cambian las métricas cuando se consideran esas muestras adicionales.

Los nuevos conjuntos de datos privados: qué contienen

Los datos provienen de Appen Inc. y DataoceanAI y cubren tanto material leído (scripted) como conversaciones espontáneas, y distintos acentos del inglés. A continuación, los detalles tal como fueron proporcionados:

Appen Scripted AU — Acento australiano, 1.42 h, 49% hombres / 51% mujeres. Estilo: lectura. Transcripción: puntuada y con mayúsculas.
Appen Scripted CA — Acento canadiense, 1.53 h, 52% hombres / 48% mujeres. Estilo: lectura. Transcripción: puntuada y con mayúsculas.
Appen Scripted IN — Acento indio, 1.02 h, 49% hombres / 51% mujeres. Estilo: lectura. Transcripción: puntuada y con mayúsculas.
Appen Scripted US — Acento americano, 1.45 h, 49% hombres / 51% mujeres. Estilo: lectura. Transcripción: puntuada y con mayúsculas.
Appen Conversational IN — Acento indio, 1.37 h, 51% hombres / 49% mujeres. Estilo: conversacional, espontáneo. Transcripción: puntuada, incluye disfluencias.
Appen Conversational US003 — Acento americano, 1.64 h, 49% hombres / 51% mujeres. Estilo: conversacional, espontáneo. Transcripción: puntuada, con mayúsculas y disfluencias.
Appen Conversational US004 — Acento americano, 1.65 h, 49% hombres / 51% mujeres. Estilo: conversacional, espontáneo. Transcripción: puntuada, incluye disfluencias.
DataoceanAI Scripted US — Acento americano, 2.43 h, 54% hombres / 46% mujeres. Estilo: lectura. Transcripción: puntuada, mayúsculas en nombres propios, incluye disfluencias.
DataoceanAI Scripted GB — Acento británico, 2.43 h, 47% hombres / 53% mujeres. Estilo: lectura. Transcripción: puntuada, incluye disfluencias.
DataoceanAI Conversational US — Acento americano, 8.82 h. Estilo: conversacional, espontáneo. Transcripción: puntuada, incluye disfluencias.
DataoceanAI Conversational GB — Acento británico, 5.96 h. Estilo: conversacional, espontáneo. Transcripción: puntuada, incluye disfluencias.

Los samples proporcionados muestran variedad de contenido: lectura, conversación espontánea, acrónimos, disfluencias y nombres propios. Mantener estos conjuntos cerrados no es contradictorio con la intención de transparencia: la medida busca robustez y resistencia frente a la sobreoptimización.

Cómo se calculan las métricas y decisiones de diseño

Hugging Face define varias agregaciones para ofrecer una visión más holística del desempeño, pero con precauciones para evitar que las métricas se conviertan en targets manipulables:

“Average WER”: macropromedio de los promedios por proveedor de datos (cada proveedor pesa igual).
“Avg Scripted”: macropromedio de todos los conjuntos de tipo scripted.
“Avg Conversational”: macropromedio de todos los conjuntos conversacionales.
“Avg US”: macropromedio de los conjuntos con acentos americanos.
“Avg non-US”: macropromedio de los conjuntos con acentos no americanos.

Intencionalmente no se exhiben puntuaciones independientes por cada split o por proveedor para desalentar la optimización dirigida a un proveedor o acento específico.

Normalización y transparencia técnica

Para estandarizar salidas y transcripciones, el leaderboard aplica un normalizador que elimina puntuación y mayúsculas, y mapea variantes a ortografía americana. Este normalizador está basado en el utilizado por Whisper. Además, el código de la interfaz de usuario y los scripts de evaluación son de código abierto, lo que ha permitido a la comunidad añadir modelos y mejorar la evaluación mediante contribuciones.

Cómo pueden evaluar su modelo en estos datos

El proceso para añadir un modelo al Open ASR Leaderboard sigue siendo abierto: deben abrir un pull request en el repositorio del leaderboard en GitHub. Al hacerlo aparecerá una lista de verificación para modelos. Ustedes deberían reportar resultados sobre los conjuntos públicos: Hugging Face verificará esas cifras y, internamente, computará las métricas sobre los datasets privados. Mientras esperan que su modelo sea añadido, pueden auto-reportar métricas públicas agregando un archivo YAML al model card, lo que hará que el modelo aparezca en la lista pública.

Implicaciones para América Latina

Aunque estos nuevos conjuntos se centran en variantes del inglés y no incluyen datos explícitos de español latinoamericano, la decisión de proteger ciertos conjuntos de prueba tiene lecciones relevantes para la región. En Latinoamérica, la diversidad de acentos y registros (español formal, coloquial, jergas locales) exige benchmarks que reflejen condiciones reales de uso. Mantener partes de los datasets fuera del acceso público puede ayudar a evitar que desarrolladores sobreajusten modelos para pruebas concretas y, al mismo tiempo, permitir mediciones más honestas de robustez frente a variaciones de acento y estilo.

Organizaciones y equipos en la región deberían considerar estrategias similares: combinar datasets públicos para reproducibilidad con conjuntos privados controlados que midan capacidad real en producción y exposiciones de sesgo.

Conclusión

El movimiento de Hugging Face de incorporar datasets privados de Appen y DataoceanAI al Open ASR Leaderboard busca equilibrar apertura, estandarización y resistencia al benchmaxxing. La transparencia en los procedimientos de evaluación y la opción de incluir o excluir datos privados permite a la comunidad entender mejor dónde funcionan los modelos y dónde no. Para equipos en Latinoamérica, la práctica refuerza la necesidad de construir benchmarks que reflejen diversidad lingüística y condiciones reales, evitando que métricas públicas rígidas se conviertan en objetivos a optimizar en detrimento de la utilidad real.

Si trabajan en modelos ASR, la recomendación práctica es participar del leaderboard y reportar honestamente los resultados públicos, mientras siguen monitoreando las métricas agregadas que incluyen los datasets privados para entender la robustez fuera del laboratorio.