DeepInfra llega como Inference Provider en Hugging Face: qué significa para desarrolladores y empresas

Hugging Face suma a DeepInfra a su ecosistema de Inference Providers, facilitando el uso de modelos serverless con alternativas de enrutamiento y facturación. Esta integración simplifica la adopción de LLMs y modelos multimodales por parte de desarrolladores y equipos en América Latina.

Por Redaccion TD
DeepInfra llega como Inference Provider en Hugging Face: qué significa para desarrolladores y empresas

Resumen ejecutivo

Hugging Face anunció la incorporación de DeepInfra como un Inference Provider compatible en el Hub. Esto significa que los modelos alojados en la plataforma pueden ejecutarse a través de la infraestructura serverless de DeepInfra directamente desde las páginas de modelos, las SDKs oficiales y varios harnesses de agentes. Para equipos en América Latina, la novedad trae mayor flexibilidad de proveedores, opciones de facturación y acceso a modelos de peso abierto como DeepSeek V4, Kimi-K2.6 y GLM-5.1.

¿Qué es DeepInfra y por qué importa?

DeepInfra es una plataforma de inferencia AI serverless que ofrece tarifas por token competitivas y un catálogo con más de 100 modelos. Soporta distintos tipos de modelos: desde LLMs para conversación y generación de texto, hasta text-to-image, text-to-video y embeddings. La propuesta de valor clave es reducir la fricción técnica y de costos al integrar capacidades de IA en aplicaciones sin manejar infraestructura propia.

Para la región latinoamericana, donde muchas organizaciones buscan optimizar presupuesto y tiempo de despliegue, una alternativa serverless y con variedad de modelos facilita probar casos de uso (chatbots, asistentes internos, generación de contenido y extracción semántica) sin grandes inversiones en hardware.

Cómo funciona la integración en el Hub

La integración con Hugging Face se materializa en varios puntos de la experiencia:

  • En las páginas de modelo, los Inference Providers compatibles aparecen listados y ordenados según la preferencia del usuario. Esto permite seleccionar rápidamente DeepInfra cuando un modelo es soportado.
  • En la configuración de su cuenta, los usuarios pueden establecer claves API propias para los proveedores con los que se registraron. Si no se agrega una clave personalizada, las peticiones se pueden enrutar a través de Hugging Face.
  • Los usuarios también pueden definir el orden de preferencia de los proveedores; esa preferencia se aplica al widget y a los fragmentos de código que aparecen en las páginas de modelos.

Hay dos modos de operación al llamar a un Inference Provider:

  1. Clave personalizada: las llamadas van directamente al proveedor de inferencia usando su propia API key. En este caso, la facturación y límites se aplican según la cuenta del proveedor.
  2. Enrutadas por Hugging Face: las llamadas pasan por Hugging Face y se facturan a través de la cuenta de HF. No es necesario disponer de una API key del proveedor para este modo.

Uso desde las SDKs (Python y JavaScript)

DeepInfra está disponible desde las SDKs oficiales de Hugging Face: huggingface_hub (>= 1.11.2) en Python y @huggingface/inference en JavaScript. Al autenticarse con un token de Hugging Face, las solicitudes se enrutan automáticamente a DeepInfra cuando corresponde.

Ejemplos básicos que aparecen en la integración (adaptados):

from os import environ
from openai import OpenAI

client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=environ["HF_TOKEN"],
)

completion = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-V4-Pro:deepinfra",
    messages=[
        {"role": "user", "content": "Write a Python function that returns the nth Fibonacci number using memoization."}
    ],
)
print(completion.choices[0].message)
import { OpenAI } from "openai";

const client = new OpenAI({ baseURL: "https://router.huggingface.co/v1", apiKey: process.env.HF_TOKEN });

const chatCompletion = await client.chat.completions.create({
  model: "deepseek-ai/DeepSeek-V4-Pro:deepinfra",
  messages: [
    { role: "user", content: "Write a Python function that returns the nth Fibonacci number using memoization." }
  ],
});

console.log(chatCompletion.choices[0].message);

Estos ejemplos muestran cómo invocar modelos hospedados en DeepInfra usando el token de Hugging Face; si prefieren usar su clave de DeepInfra directamente, es posible configurarla en la cuenta para que las llamadas vayan al proveedor sin pasar por el enrutador de HF.

Integración con Agent Harnesses

Los Inference Providers de Hugging Face están integrados en múltiples harnesses de agentes —como Pi, OpenCode, Hermes Agents, OpenClaw— lo que permite conectar modelos de DeepInfra directamente en flujos de agentes y herramientas sin código adicional. Para equipos que desarrollan agentes conversacionales o pipelines de IA, esto simplifica pruebas e integración continua.

Facturación y créditos PRO

La facturación depende del modo de autenticación:

  • Peticiones directas (con la API key del proveedor): facturación por el proveedor correspondiente. Por ejemplo, si usan una clave de DeepInfra, serán facturados en su cuenta de DeepInfra.
  • Peticiones enrutadas por Hugging Face (autenticadas con token HF): se facturan a través de Hugging Face a las tarifas estándar del proveedor. Hugging Face no aplica un markup adicional; por ahora solo transmite los costos del proveedor.

Importante: los usuarios PRO de Hugging Face reciben $2 en créditos de inferencia cada mes, válidos entre proveedores. Hugging Face también ofrece una cuota pequeña de inferencia gratuita para usuarios con sesión iniciada, pero recomiendan optar por PRO para acceso extendido y mayores límites.

Qué modelos están disponibles ahora y qué viene

En esta primera etapa, DeepInfra habilita soporte para tareas conversacionales y generación de texto, con acceso a modelos open-weight populares como DeepSeek V4, Kimi-K2.6 y GLM-5.1. El soporte para tareas adicionales —text-to-image, text-to-video, embeddings y más— se desplegará próximamente.

Pueden ver la lista completa de modelos soportados por DeepInfra en su espacio oficial en Hugging Face: https://huggingface.co/DeepInfra

Consideraciones para equipos en Latinoamérica

  • Control de costos: la promesa de tarifas por token competitivas es relevante para proyectos con presupuesto limitado. Analicen escenarios de uso (volumen de tokens, latencia aceptable, requisitos de privacidad) antes de escoger entre enrutamiento por HF o uso directo del proveedor.
  • Cumplimiento y datos sensibles: si procesan datos regulados, revisen las políticas de manejo de datos del proveedor y de Hugging Face para definir dónde debe residir la responsabilidad legal y técnica.
  • Experimentación rápida: la integración facilita pruebas iterativas con distintos modelos sin configurar infraestructura, ideal para startups y centros de innovación en la región.

Cómo dar feedback y próximos pasos

Hugging Face invita a la comunidad a compartir impresiones y sugerencias sobre esta integración. Pueden dejar comentarios en el hilo de discusiones oficial: https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49

Si su equipo quiere empezar:

  • Revisen si el modelo que necesitan aparece en la lista de DeepInfra en Hugging Face.
  • Configuren la clave del proveedor en su cuenta si prefieren facturación directa, o usen el token HF para enrutamiento sencillo.
  • Prueben integración con su agent harness favorito para evaluar rendimiento y latencia.

Conclusión

La incorporación de DeepInfra como Inference Provider en Hugging Face amplía las alternativas para ejecutar modelos de IA de forma serverless, con opciones de facturación flexible y soporte creciente para modelos multimodales. Para organizaciones en América Latina, esta integración puede acelerar pilotos y producciones al reducir fricción operativa y ofrecer alternativas de costo. Aprovechen los créditos PRO si ya son usuarios y compartan feedback para mejorar la experiencia en la región.

Fuente original: Hugging Face Blog