Estado del open source en Hugging Face

Resumen ejecutivo

El ecosistema open source en Hugging Face experimentó un crecimiento notable a lo largo de 2025 y principios de 2026: la plataforma llegó a 11 millones de usuarios, alberga más de 2 millones de modelos públicos y más de 500,000 datasets. Sin embargo, ese crecimiento convive con una fuerte concentración de uso y una distribución heterogénea por regiones y tipos de contribuyente. Para tomadores de decisión en América Latina, estas dinámicas ofrecen oportunidades —mayor acceso a modelos y componentes reutilizables— y retos —infraestructura, localización y gobernanza— que conviene abordar estratégicamente.

Crecimiento y concentración: más volumen, pero focalizado

Los números muestran una adopción masiva: usuarios, repositorios de modelos y conjuntos de datos están cerca de duplicarse con respecto a la etapa anterior. Aun así, la actividad se concentra: aproximadamente la mitad de los modelos tienen menos de 200 descargas en total, y los 200 modelos más descargados (0.01% del total) concentran casi la mitad de todas las descargas (49.6%).

Esto significa dos cosas a la vez. Por un lado, la oferta disponible es inmensa y permite experimentar sin partir de cero: hay pesos abiertos, adaptadores, benchmarks y aplicaciones listas para usar o ajustar. Por otro, la mayoría de esos activos reciben poca atención práctica, lo que refuerza la importancia de identificar y contribuir a los sub-ecosistemas relevantes para su sector o idioma.

Open source en competencia: actores y modelos de negocio

Tanto grandes empresas como startups están construyendo sobre modelos abiertos. Más del 30% de las empresas Fortune 500 mantienen cuentas verificadas en Hugging Face. Empresas establecidas, como Airbnb, han incrementado su participación en el ecosistema, y plataformas de desarrollo como VSCode y Cursor vienen integrando soporte tanto para modelos abiertos como cerrados. Un ejemplo de startup que respaldó estrategias abiertas es Thinking Machines, que diseñó las opciones de su modelo Tinker sobre pesos abiertos.

En el plano de contribuciones, NVIDIA se destacó como el mayor contribuyente entre las grandes tecnológicas. La presencia de Big Tech en la plataforma refleja una dinámica donde los artefactos abiertos generan mucho valor downstream a través de reutilización y especialización, reduciendo costos y aumentando la flexibilidad frente a soluciones completamente cerradas.

La geografía del open source: China toma la delantera en descargas

La composición geográfica del ecosistema cambió rápidamente. Históricamente, Estados Unidos y China lideraban, con Reino Unido, Alemania y Francia como mercados secundarios. En el último año, los datos de Hugging Face muestran que China superó a Estados Unidos en descargas mensuales y totales: los modelos chinos representaron aproximadamente el 41% de las descargas durante ese periodo.

Además, la participación del «industry lab» en el desarrollo ha disminuido: la porción atribuible a la industria cayó de cerca del 70% antes de 2022 a alrededor del 37% en 2025. Paralelamente, desarrolladores independientes y colectividades sin afiliación institucional aumentaron su peso desde 17% hasta 39% del total de descargas. Estos intermediarios —quienes quantizan, adaptan y redistribuyen modelos base— están definiendo en gran medida qué pueden ejecutar los usuarios típicos.

De la investigación a los modelos derivados

El ecosistema dejó de ser solo un repositorio de pesos preentrenados: la producción de derivados (fine-tunes, adapters, benchmarks, aplicaciones) se multiplicó. Los usuarios ya no solo consumen modelos; construyen sobre ellos. Eso favorece la aparición de soluciones especializadas en dominios concretos (legal, salud, finanzas, educación) y en lenguas con menos recursos.

La formación de comunidades especializadas en torno a dominios, lenguajes o problemas demuestra que el valor real se crea cuando los artefactos se adaptan y reutilizan localmente, aunque su número de descargas total sea modesto.

Implicaciones para América Latina

Acceso y adopción: la abundancia de modelos abiertos reduce barreras de entrada para startups y equipos académicos. Pueden arrancar con pesos y adaptarlos a contextos locales (idioma, regulación, uso empresarial).
Localización y calidad lingüística: los modelos y adaptaciones desarrolladas por comunidades pueden mejorar sustancialmente el soporte para español regional y lenguas indígenas, pero eso exige inversión en datasets y colaboración entre industria y academia.
Infraestructura y costos: ejecutar y adaptar grandes modelos implica costos de cómputo. Aunque la comunidad trabaja en técnicas de cuantización y versiones más ligeras, las organizaciones deben evaluar opciones de despliegue (on-premise, nube, edge) y negociar con proveedores.
Talento y gobernanza: el avance de contribuciones independientes muestra que hoy es más accesible para individuos competir en calidad. Equipos latinoamericanos deberían combinar habilidades técnicas con prácticas de gobernanza de datos para asegurar cumplimiento y responsabilidad.

Qué mirar en los próximos meses

Evolución del mix geográfico: si las tendencias continúan, veremos una mayor diversidad en las fuentes y en quién define estándares técnicos.
La relación entre artefactos abiertos y comerciales: las empresas seguirán mezclando componentes abiertos y cerrados; entender ese balance será clave para decisiones de inversión.
Subcomunidades emergentes: áreas como robótica y AI for Science están creciendo como nichos con necesidades específicas de cómputo y datasets.

Recomendaciones prácticas para decisores en LATAM

Mapear dependencias: identifiquen qué modelos y datasets abiertos son críticas para sus productos y evalúen riesgos regulatorios y de licencia.
Invertir en adaptaciones locales: financiar fine-tuning y curación de datos para mejorar desempeño en dialectos y casos de uso regionales.
Priorizar eficiencia: adoptar técnicas de cuantización y modelos ligeros para controlar costos de infraestructura.
Colaborar: trabajar con universidades y comunidades locales para construir datasets representativos y fomentar talento.
Monitorear ecosistema: seguir análisis de grupos como Data Provenance Initiative, Interconnects, OpenRouter, a16z, MIT y Linux Foundation para comprender dinámicas regulatorias y de interoperabilidad.

Fuentes y lecturas recomendadas

Este análisis se basa en la síntesis pública de actividad en Hugging Face y en un informe anterior de mitad de 2025. También conviene revisar investigaciones y perspectivas del Data Provenance Initiative, Interconnects, OpenRouter, a16z, MIT y la Linux Foundation para una visión más amplia del ecosistema.

En conjunto, el panorama abierto de modelos crece en volumen y complejidad. Para América Latina la buena noticia es que las barreras de acceso son menores que antes; la tarea estratégica consiste en convertir disponibilidad en valor real a través de localización, gobernanza e inversión en capacidades técnicas y de infraestructura.