Migrar OpenClaw a modelos abiertos con Hugging Face

Por qué migrar y qué opciones tienen

Anthropic está limitando el acceso a los modelos Claude en algunas plataformas de agentes. Si su OpenClaw, Pi u Open Code se quedó sin servicio, no todo está perdido: existen modelos abiertos en Hugging Face que permiten mantener agentes funcionales, a menudo con costos mucho menores. Para equipos en América Latina —donde el control de costos, la latencia y la privacidad suelen ser prioridades— hay dos caminos claros:

Usar modelos abiertos alojados a través de Hugging Face Inference Providers (la ruta más rápida).
Ejecutar un modelo completamente local en su propio hardware con herramientas como llama.cpp (la ruta que maximiza privacidad y control, sin costos por API).

Ambas opciones permiten que sus agentes sigan operando sin depender de modelos cerrados.

Ruta rápida: Hugging Face Inference Providers

Hugging Face Inference Providers es una plataforma abierta que enruta peticiones a distintos proveedores de modelos de código abierto. Es ideal si buscan volver a poner en marcha agentes rápidamente o no tienen hardware local suficiente.

Pasos básicos:

Crear un token en Hugging Face. (Ingresen a su cuenta en Hugging Face y generen un token de acceso.)
Añadir ese token a OpenClaw con el comando de onboarding:

openclaw onboard --auth-choice huggingface-api-key

Pegar el token cuando se lo solicite OpenClaw y seleccionar un modelo. Hugging Face ofrece miles de modelos; GLM-5 es una recomendación por sus buenos resultados en pruebas tipo Terminal Bench.

También pueden cambiar el modelo en la configuración de OpenClaw indicando el repo_id. Un ejemplo de configuración (formateado para claridad):

agents:
  defaults:
    model:
      primary: 'huggingface/zai-org/GLM-5:fastest'

Nota práctica: los suscriptores HF PRO reciben $2 en créditos mensuales que aplican a Inference Providers, lo que puede ayudar a probar la ruta hospedada con menor gasto.

Ruta local: ejecutar modelos con llama.cpp

Si su prioridad es privacidad absoluta, eliminar costos de API y tener control total, ejecutar un modelo en sitio es la mejor opción. llama.cpp es una biblioteca de código abierto pensada para inferencia en equipos con recursos limitados.

Instalación rápida:

macOS / Linux:

brew install llama.cpp

Windows:

winget install llama.cpp

Para levantar un servidor local con interfaz web integrada pueden usar el comando de llama-server. Por ejemplo, para cargar Qwen3.5-35B-A3B en formato GGUF:

llama-server -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL

Qwen3.5-35B-A3B funciona bien en máquinas con alrededor de 32 GB de RAM; revisen la compatibilidad de hardware del modelo que elijan, ya que los requisitos varían.

Integración con OpenClaw

Si cargaron el modelo en llama.cpp como GGUF, pueden configurar OpenClaw para apuntar al servidor local. Un ejemplo de onboarding no interactivo:

openclaw onboard --non-interactive \
  --auth-choice custom-api-key \
  --custom-base-url 'http://127.0.0.1:8080/v1' \
  --custom-model-id 'unsloth-qwen3.5-35b-a3b-gguf' \
  --custom-api-key 'llama.cpp' \
  --secret-input-mode plaintext \
  --custom-compatibility openai

Verifiquen que el servidor esté corriendo y el modelo cargado con:

curl http://127.0.0.1:8080/v1/models

Esto devuelve la lista de modelos activos en el servidor local.

¿Cuál ruta conviene para su organización en América Latina?

Elijan Hugging Face Inference Providers si necesitan volver a operar rápidamente, buscan acceso a modelos de última generación sin preocuparse por infraestructura propia o si su equipo no dispone de hardware para grandes modelos.
Opten por ejecutar localmente con llama.cpp si la prioridad es mantener datos sensibles fuera de la nube, eliminar costos recurrentes por API o evitar límites de tasa. Esto es relevante para organizaciones que manejan información regulada o que prefieren evitar dependencia de servicios externos.

Consideraciones regionales: en muchos países latinoamericanos, la conectividad, los costos de datos y la disponibilidad de infraestructura cloud pueden inclinar la balanza hacia una ejecución local o híbrida. Además, conservar control total sobre los datos puede facilitar cumplimiento con políticas internas y requisitos regulatorios.

Recomendaciones prácticas

Antes de migrar, hagan pruebas con un subconjunto de agentes para validar prompts, latencia y resultados.
Si el presupuesto es limitado, experimenten primero con modelos alojados y aprovechen cualquier crédito de prueba (como los $2 mensuales de HF PRO) para medir costos reales.
Para ejecución local, verifiquen la memoria RAM y almacenamiento. Algunos modelos grandes requieren configuraciones específicas; siempre revisen la documentación del modelo elegido.
Mantengan una estrategia de rollback: guarden configuraciones y prompts para poder volver a la versión anterior si encuentran problemas.

Conclusión

No necesitan depender de un modelo cerrado para mantener sus agentes OpenClaw en operación. Tanto Hugging Face Inference Providers como la ejecución local con llama.cpp son soluciones válidas que permiten recuperar y sostener agentes funcionales. La decisión entre ambos caminos depende de sus prioridades: velocidad y acceso a modelos o privacidad, control y ahorro en costos de API. Para equipos en América Latina, estas alternativas ofrecen flexibilidad para adaptar la implementación a restricciones de presupuesto, conectividad y requisitos regulatorios.

Si quieren empezar de inmediato, generen su token en Hugging Face para la ruta hospedada o prueben a levantar llama-server con un modelo GGUF para la ruta local —ambas opciones les devolverán la capacidad de sus agentes sin depender de acceso a Claude.