Ahorrar tokens en Claude Code: 12 tácticas clave

Introducción: por qué importa optimizar tokens

Un estudio de Stanford de 2025 mostró que desarrolladores desperdician miles de tokens a diario cuando el contexto de chat crece sin control. Anthropic también indica que el costo por token aumenta con el tamaño del contexto. Para equipos con presupuestos acotados —algo frecuente en startups y áreas de TI en América Latina— mantener el contexto compacto desde el inicio es clave para evitar sobrecostos y para que los proyectos sigan en marcha.

A continuación describo tácticas comprobadas para ahorrar tokens en Claude Code, agrupadas por área: gestión del contexto, optimización de instrucciones y archivos, y límites de herramientas y salidas. Todas las recomendaciones usan las funciones y variables de configuración mencionadas en la fuente original.

Gestión del contexto: tácticas de alto impacto

Limpiar el chat entre tareas

Cuando cambian de un objetivo a otro, usar /clear para empezar una sesión nueva evita que antiguos logs o conversaciones sigan consumiendo tokens. Pueden renombrar la sesión antes de limpiar con /rename y volver a ella con /resume si es necesario: por ejemplo

/rename auth-debug-apr30
/clear
/resume

Compactar contexto para tareas largas

Para hilos con trabajo prolongado, usar /compact resume y condensa el historial manteniendo lo esencial (objetivo actual, archivos modificados, comandos ejecutados, errores relevantes, decisiones y próximos pasos) y elimina exploraciones o logs repetidos. Sugerencia práctica: documentar las reglas de compactación en un archivo CLAUDE.md del proyecto con qué preservar y qué tirar, de forma que la compactación sea coherente entre colaboradores.

Bajar el umbral de auto-compactación

Por defecto Claude compacta cerca del 95% de la capacidad. Es útil forzar una compactación antes: por ejemplo:

export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=70 para trabajo normal
export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=50 para flujos muy ruidosos

Un umbral más bajo ayuda a prevenir picos inesperados en consumo de tokens.

Monitorear métricas de uso

Antes de ejecutar tareas grandes, consulten /context para ver qué está ocupando espacio y /usage para revisar el gasto de la sesión. Estos comandos permiten tomar decisiones informadas sobre cuándo compactar o limpiar.

Añadir una línea de estado en el terminal

Integren una línea de estado que muestre porcentaje de contexto y nombre del modelo en su terminal. Esto ofrece visibilidad instantánea y evita sorpresas en el consumo. Un ejemplo de configuración JSON para ~/.claude/settings.json ayuda a construir esta línea de estado, o pueden pedir a Claude que la genere con /statusline.

Instrucciones y optimización de archivos

Reducir las instrucciones globales

Mantengan CLAUDE.md breve (la recomendación es bajo 200 líneas). Cada vez que el modelo carga el proyecto, archivos largos de instrucciones añaden tokens. Conserven solo los hechos críticos: comandos de test, manager de paquetes, paths principales y restricciones indispensables.

Usar reglas por ruta (path-scoped rules)

En lugar de reglas globales que siempre se cargan, coloquen reglas específicas en archivos dentro de .claude/rules/. Estas reglas solo se activan cuando Claude trabaja sobre archivos coincidentes, lo que evita tokens gastados en instrucciones irrelevantes. Por ejemplo: .claude/rules/api-validation.md con reglas para el código de API.

Aislar flujos especializados en “skills” cargables

Trasladen tareas especializadas (como arreglar issues de GitHub) a skills dentro de .claude/skills/<skill-name>/SKILL.md. Las skills pueden desactivarse hasta que sean necesarias, manteniendo el prompt principal limpio y reduciendo el contexto activo.

Límites de herramientas y de salida

Preferir herramientas CLI cuando sea posible

Las herramientas de línea de comando suelen generar menos overhead que servidores MCP. Usar gh, pnpm, bash y otras herramientas locales ayuda a reducir el volumen de datos que entra al chat.

Limitar el tamaño de salida de servidores

Los outputs grandes de servidores llenan el contexto rápidamente. Ajusten la variable de entorno sugerida para limitar la salida máxima: export MAX_MCP_OUTPUT_TOKENS=8000.

Limitar la salida del terminal

Los logs extensos, por ejemplo de pruebas, consumen tokens muy rápido. Acotar la longitud de salida del shell —por ejemplo export BASH_MAX_OUTPUT_LENGTH=20000— evita inundar el contexto con información que muchas veces no es necesaria para la toma de decisiones.

Filtrar logs antes de mostrarlos

No alimenten el chat con logs crudos. Usen comandos que extraigan solo las líneas de error o las partes relevantes (grep, tail, etc.). Esto mantiene el contexto enfocado en la información que realmente ayudará al asistente a resolver el problema.

Configuraciones recomendadas y buenas prácticas

Definan convenciones de archivo (CLAUDE.md, .claude/rules/, .claude/skills/) desde el inicio del proyecto.
Acordar umbrales de auto-compactación y políticas de limpieza entre todo el equipo para evitar discrepancias en costos.
Implementar la línea de estado en entornos de desarrollo para visibilidad continua.

Aplicación práctica en equipos de América Latina

Para equipos en la región, donde los presupuestos de nube y APIs suelen recibir más presión, estas tácticas permiten estirar cada token sin renunciar a la productividad. Integrarlas en la cultura de desarrollo (revisiones de PR, plantillas de repositorio y scripts de CI) evita que los ahorros dependan de decisiones individuales.

Conclusión

Reducir el consumo de tokens en Claude Code no es solo una cuestión técnica: es una práctica de gestión de recursos. Mantener contextos compactos, limitar salidas y estructurar las instrucciones del proyecto permite ahorrar costos y acelerar ciclos de desarrollo. Implementen estas 12 tácticas gradualmente: muchas son cambios de configuración o convenciones que rinden beneficios inmediatos.

Si desean, puedo ayudarles a generar plantillas (CLAUDE.md, reglas por ruta o una skill de ejemplo) adaptadas a su repositorio y flujo de trabajo.