Realice un seguimiento de sus costos
Uso del comando /cost
El comando
/cost muestra el uso de tokens de API y está destinado a usuarios de API. Los suscriptores de Claude Max y Pro tienen el uso incluido en su suscripción, por lo que los datos de /cost no son relevantes para fines de facturación. Los suscriptores pueden usar /stats para ver patrones de uso./cost proporciona estadísticas detalladas de uso de tokens para su sesión actual:
Gestión de costos para equipos
Cuando utiliza Claude API, puede establecer límites de gasto del espacio de trabajo en el gasto total del espacio de trabajo de Claude Code. Los administradores pueden ver informes de costos y uso en la Consola.Cuando autentica por primera vez Claude Code con su cuenta de Claude Console, se crea automáticamente un espacio de trabajo llamado “Claude Code” para usted. Este espacio de trabajo proporciona seguimiento y gestión centralizada de costos para todo el uso de Claude Code en su organización. No puede crear claves de API para este espacio de trabajo; es exclusivamente para autenticación y uso de Claude Code.
Recomendaciones de límite de velocidad
Al configurar Claude Code para equipos, considere estas recomendaciones de Tokens Por Minuto (TPM) y Solicitudes Por Minuto (RPM) por usuario según el tamaño de su organización:| Tamaño del equipo | TPM por usuario | RPM por usuario |
|---|---|---|
| 1-5 usuarios | 200k-300k | 5-7 |
| 5-20 usuarios | 100k-150k | 2.5-3.5 |
| 20-50 usuarios | 50k-75k | 1.25-1.75 |
| 50-100 usuarios | 25k-35k | 0.62-0.87 |
| 100-500 usuarios | 15k-20k | 0.37-0.47 |
| 500+ usuarios | 10k-15k | 0.25-0.35 |
Si anticipa escenarios con uso concurrente inusualmente alto (como sesiones de capacitación en vivo con grupos grandes), es posible que necesite asignaciones de TPM más altas por usuario.
Costos de tokens del equipo de agentes
Los equipos de agentes generan múltiples instancias de Claude Code, cada una con su propia ventana de contexto. El uso de tokens se escala con el número de compañeros de equipo activos y cuánto tiempo se ejecuta cada uno. Para mantener los costos del equipo de agentes manejables:- Use Sonnet para compañeros de equipo. Equilibra capacidad y costo para tareas de coordinación.
- Mantenga los equipos pequeños. Cada compañero de equipo ejecuta su propia ventana de contexto, por lo que el uso de tokens es aproximadamente proporcional al tamaño del equipo.
- Mantenga los prompts de generación enfocados. Los compañeros de equipo cargan CLAUDE.md, servidores MCP y skills automáticamente, pero todo en el prompt de generación se suma a su contexto desde el principio.
- Limpie los equipos cuando el trabajo esté hecho. Los compañeros de equipo activos continúan consumiendo tokens incluso si están inactivos.
- Los equipos de agentes están deshabilitados por defecto. Establezca
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1en su settings.json o entorno para habilitarlos. Consulte habilitar equipos de agentes.
Reducir el uso de tokens
Los costos de tokens se escalan con el tamaño del contexto: cuanto más contexto procesa Claude, más tokens utiliza. Claude Code optimiza automáticamente los costos a través del almacenamiento en caché de prompts (que reduce costos para contenido repetido como prompts del sistema) y auto-compactación (que resume el historial de conversación cuando se acerca a los límites del contexto). Las siguientes estrategias lo ayudan a mantener el contexto pequeño y reducir los costos por mensaje.Gestione el contexto de manera proactiva
Use/cost para verificar su uso actual de tokens, o configure su línea de estado para mostrarla continuamente.
- Limpie entre tareas: Use
/clearpara comenzar de nuevo cuando cambie a trabajo no relacionado. El contexto obsoleto desperdicia tokens en cada mensaje posterior. Use/renameantes de limpiar para que pueda encontrar fácilmente la sesión más tarde, luego/resumepara volver a ella. - Agregue instrucciones de compactación personalizadas:
/compact Focus on code samples and API usagele dice a Claude qué preservar durante la summarización.
Elija el modelo correcto
Sonnet maneja bien la mayoría de tareas de codificación y cuesta menos que Opus. Reserve Opus para decisiones arquitectónicas complejas o razonamiento de múltiples pasos. Use/model para cambiar modelos a mitad de sesión, o establezca un valor predeterminado en /config. Para tareas simples de subagent, especifique model: haiku en su configuración de subagent.
Reduzca la sobrecarga del servidor MCP
Cada servidor MCP agrega definiciones de herramientas a su contexto, incluso cuando está inactivo. Ejecute/context para ver qué está consumiendo espacio.
- Prefiera herramientas CLI cuando estén disponibles: Herramientas como
gh,aws,gcloudysentry-clison más eficientes en contexto que los servidores MCP porque no agregan definiciones de herramientas persistentes. Claude puede ejecutar comandos CLI directamente sin la sobrecarga. - Deshabilite servidores no utilizados: Ejecute
/mcppara ver servidores configurados y deshabilite cualquiera que no esté usando activamente. - La búsqueda de herramientas es automática: Cuando las descripciones de herramientas MCP exceden el 10% de su ventana de contexto, Claude Code automáticamente las difiere y carga herramientas bajo demanda a través de búsqueda de herramientas. Dado que las herramientas diferidas solo entran en contexto cuando se usan realmente, un umbral más bajo significa menos definiciones de herramientas inactivas consumiendo espacio. Establezca un umbral más bajo con
ENABLE_TOOL_SEARCH=auto:<N>(por ejemplo,auto:5se activa cuando las herramientas exceden el 5% de su ventana de contexto).
Instale plugins de inteligencia de código para lenguajes tipados
Los plugins de inteligencia de código le dan a Claude navegación de símbolos precisa en lugar de búsqueda basada en texto, reduciendo lecturas de archivos innecesarias al explorar código desconocido. Una única llamada “ir a definición” reemplaza lo que de otro modo sería un grep seguido de lectura de múltiples archivos candidatos. Los servidores de lenguaje instalados también reportan errores de tipo automáticamente después de ediciones, por lo que Claude detecta errores sin ejecutar un compilador.Descargue el procesamiento en hooks y skills
Los hooks personalizados pueden preprocesar datos antes de que Claude los vea. En lugar de que Claude lea un archivo de registro de 10,000 líneas para encontrar errores, un hook puede buscarERROR y devolver solo las líneas coincidentes, reduciendo el contexto de decenas de miles de tokens a cientos.
Una skill puede darle a Claude conocimiento de dominio para que no tenga que explorar. Por ejemplo, una skill “codebase-overview” podría describir la arquitectura de su proyecto, directorios clave y convenciones de nomenclatura. Cuando Claude invoca la skill, obtiene este contexto inmediatamente en lugar de gastar tokens leyendo múltiples archivos para entender la estructura.
Por ejemplo, este hook PreToolUse filtra la salida de prueba para mostrar solo fallos:
- settings.json
- filter-test-output.sh
Agregue esto a su settings.json para ejecutar el hook antes de cada comando Bash:
Mueva instrucciones de CLAUDE.md a skills
Su archivo CLAUDE.md se carga en contexto al inicio de la sesión. Si contiene instrucciones detalladas para flujos de trabajo específicos (como revisiones de PR o migraciones de bases de datos), esos tokens están presentes incluso cuando está haciendo trabajo no relacionado. Skills se cargan bajo demanda solo cuando se invocan, por lo que mover instrucciones especializadas a skills mantiene su contexto base más pequeño. Apunte a mantener CLAUDE.md bajo aproximadamente ~500 líneas incluyendo solo lo esencial.Ajuste el pensamiento extendido
El pensamiento extendido está habilitado por defecto con un presupuesto de 31,999 tokens porque mejora significativamente el rendimiento en tareas complejas de planificación y razonamiento. Sin embargo, los tokens de pensamiento se facturan como tokens de salida, por lo que para tareas más simples donde el razonamiento profundo no es necesario, puede reducir costos bajando el nivel de esfuerzo con/effort o en /model, deshabilitando el pensamiento en /config, o bajando el presupuesto (por ejemplo, MAX_THINKING_TOKENS=8000).
Delegue operaciones detalladas a subagents
Ejecutar pruebas, obtener documentación o procesar archivos de registro puede consumir contexto significativo. Delegue estos a subagents para que la salida detallada permanezca en el contexto del subagent mientras solo un resumen regresa a su conversación principal.Gestione los costos del equipo de agentes
Los equipos de agentes usan aproximadamente 7 veces más tokens que sesiones estándar cuando los compañeros de equipo se ejecutan en plan mode, porque cada compañero de equipo mantiene su propia ventana de contexto y se ejecuta como una instancia separada de Claude. Mantenga las tareas del equipo pequeñas y autónomas para limitar el uso de tokens por compañero de equipo. Consulte equipos de agentes para obtener detalles.Escriba prompts específicos
Solicitudes vagas como “mejorar esta base de código” desencadenan escaneo amplio. Solicitudes específicas como “agregar validación de entrada a la función de inicio de sesión en auth.ts” permiten que Claude trabaje eficientemente con lecturas de archivos mínimas.Trabaje eficientemente en tareas complejas
Para trabajo más largo o más complejo, estos hábitos ayudan a evitar tokens desperdiciados por tomar el camino equivocado:- Use plan mode para tareas complejas: Presione Shift+Tab para entrar en plan mode antes de la implementación. Claude explora la base de código y propone un enfoque para su aprobación, previniendo re-trabajo costoso cuando la dirección inicial es incorrecta.
- Corrija el curso temprano: Si Claude comienza a ir en la dirección equivocada, presione Escape para detener inmediatamente. Use
/rewindo presione Escape dos veces para restaurar la conversación y el código a un checkpoint anterior. - Proporcione objetivos de verificación: Incluya casos de prueba, pegue capturas de pantalla o defina la salida esperada en su prompt. Cuando Claude puede verificar su propio trabajo, detecta problemas antes de que necesite solicitar correcciones.
- Pruebe incrementalmente: Escriba un archivo, pruébelo, luego continúe. Esto detecta problemas temprano cuando son baratos de arreglar.
Uso de tokens en segundo plano
Claude Code usa tokens para algunas funcionalidades en segundo plano incluso cuando está inactivo:- Summarización de conversación: Trabajos en segundo plano que resumen conversaciones anteriores para la característica
claude --resume - Procesamiento de comandos: Algunos comandos como
/costpueden generar solicitudes para verificar el estado
Comprensión de cambios en el comportamiento de Claude Code
Claude Code recibe actualizaciones regularmente que pueden cambiar cómo funcionan las características, incluido el reporte de costos. Ejecuteclaude --version para verificar su versión actual. Para preguntas específicas de facturación, contacte al soporte de Anthropic a través de su cuenta de Consola. Para implementaciones de equipo, comience con un pequeño grupo piloto para establecer patrones de uso antes de un despliegue más amplio.