Suivre vos coûts
Utiliser la commande /cost
La commande
/cost affiche l’utilisation des tokens API et est destinée aux utilisateurs d’API. Les abonnés Claude Max et Pro ont l’utilisation incluse dans leur abonnement, donc les données /cost ne sont pas pertinentes à des fins de facturation. Les abonnés peuvent utiliser /stats pour afficher les modèles d’utilisation./cost fournit des statistiques détaillées sur l’utilisation des tokens pour votre session actuelle :
Gérer les coûts pour les équipes
Lors de l’utilisation de l’API Claude, vous pouvez définir des limites de dépenses pour l’espace de travail sur la dépense totale de l’espace de travail Claude Code. Les administrateurs peuvent afficher les rapports de coûts et d’utilisation dans la Console.Lorsque vous authentifiez pour la première fois Claude Code avec votre compte Claude Console, un espace de travail appelé « Claude Code » est automatiquement créé pour vous. Cet espace de travail fournit un suivi et une gestion centralisés des coûts pour toute l’utilisation de Claude Code dans votre organisation. Vous ne pouvez pas créer de clés API pour cet espace de travail ; il est exclusivement destiné à l’authentification et à l’utilisation de Claude Code.
Recommandations de limite de débit
Lors de la configuration de Claude Code pour les équipes, tenez compte de ces recommandations de Token Par Minute (TPM) et Requête Par Minute (RPM) par utilisateur en fonction de la taille de votre organisation :| Taille de l’équipe | TPM par utilisateur | RPM par utilisateur |
|---|---|---|
| 1-5 utilisateurs | 200 000-300 000 | 5-7 |
| 5-20 utilisateurs | 100 000-150 000 | 2,5-3,5 |
| 20-50 utilisateurs | 50 000-75 000 | 1,25-1,75 |
| 50-100 utilisateurs | 25 000-35 000 | 0,62-0,87 |
| 100-500 utilisateurs | 15 000-20 000 | 0,37-0,47 |
| 500+ utilisateurs | 10 000-15 000 | 0,25-0,35 |
Si vous anticipez des scénarios avec une utilisation concurrente inhabituellement élevée (comme des sessions de formation en direct avec de grands groupes), vous pourriez avoir besoin d’allocations TPM plus élevées par utilisateur.
Coûts en tokens des équipes d’agents
Les équipes d’agents lancent plusieurs instances de Claude Code, chacune avec sa propre fenêtre de contexte. L’utilisation des tokens augmente avec le nombre de coéquipiers actifs et la durée d’exécution de chacun. Pour maintenir les coûts des équipes d’agents gérables :- Utilisez Sonnet pour les coéquipiers. Il équilibre la capacité et le coût pour les tâches de coordination.
- Gardez les équipes petites. Chaque coéquipier exécute sa propre fenêtre de contexte, donc l’utilisation des tokens est à peu près proportionnelle à la taille de l’équipe.
- Gardez les invites de génération concentrées. Les coéquipiers chargent CLAUDE.md, les serveurs MCP et les skills automatiquement, mais tout ce qui se trouve dans l’invite de génération s’ajoute à leur contexte dès le départ.
- Nettoyez les équipes lorsque le travail est terminé. Les coéquipiers actifs continuent à consommer des tokens même s’ils sont inactifs.
- Les équipes d’agents sont désactivées par défaut. Définissez
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1dans votre settings.json ou dans l’environnement pour les activer. Voir activer les équipes d’agents.
Réduire l’utilisation des tokens
Les coûts des tokens augmentent avec la taille du contexte : plus Claude traite de contexte, plus vous utilisez de tokens. Claude Code optimise automatiquement les coûts grâce à la mise en cache des invites (qui réduit les coûts pour le contenu répété comme les invites système) et à la compaction automatique (qui résume l’historique des conversations en approchant les limites du contexte). Les stratégies suivantes vous aident à maintenir le contexte petit et à réduire les coûts par message.Gérer le contexte de manière proactive
Utilisez/cost pour vérifier votre utilisation actuelle des tokens, ou configurez votre ligne d’état pour l’afficher en continu.
- Effacer entre les tâches : Utilisez
/clearpour recommencer à zéro lorsque vous passez à un travail non lié. Le contexte obsolète gaspille des tokens à chaque message suivant. Utilisez/renameavant d’effacer pour pouvoir facilement retrouver la session plus tard, puis/resumepour y revenir. - Ajouter des instructions de compaction personnalisées :
/compact Focus on code samples and API usageindique à Claude ce qu’il faut préserver lors de la résumé.
Choisir le bon modèle
Sonnet gère bien la plupart des tâches de codage et coûte moins cher qu’Opus. Réservez Opus pour les décisions architecturales complexes ou le raisonnement multi-étapes. Utilisez/model pour changer de modèle en cours de session, ou définissez une valeur par défaut dans /config. Pour les tâches simples de subagent, spécifiez model: haiku dans votre configuration de subagent.
Réduire la surcharge des serveurs MCP
Chaque serveur MCP ajoute des définitions d’outils à votre contexte, même lorsqu’il est inactif. Exécutez/context pour voir ce qui consomme de l’espace.
- Préférez les outils CLI lorsqu’ils sont disponibles : Les outils comme
gh,aws,gcloudetsentry-clisont plus efficaces en contexte que les serveurs MCP car ils n’ajoutent pas de définitions d’outils persistantes. Claude peut exécuter les commandes CLI directement sans la surcharge. - Désactiver les serveurs inutilisés : Exécutez
/mcppour voir les serveurs configurés et désactiver ceux que vous n’utilisez pas activement. - La recherche d’outils est automatique : Lorsque les descriptions des outils MCP dépassent 10 % de votre fenêtre de contexte, Claude Code les reporte automatiquement et charge les outils à la demande via recherche d’outils. Puisque les outils reportés n’entrent en contexte que lorsqu’ils sont réellement utilisés, un seuil inférieur signifie moins de définitions d’outils inactifs consommant de l’espace. Définissez un seuil inférieur avec
ENABLE_TOOL_SEARCH=auto:<N>(par exemple,auto:5se déclenche lorsque les outils dépassent 5 % de votre fenêtre de contexte).
Installer des plugins d’intelligence de code pour les langages typés
Les plugins d’intelligence de code donnent à Claude une navigation de symboles précise au lieu d’une recherche basée sur le texte, réduisant les lectures de fichiers inutiles lors de l’exploration de code inconnu. Un seul appel « aller à la définition » remplace ce qui pourrait autrement être une recherche grep suivie de la lecture de plusieurs fichiers candidats. Les serveurs de langage installés signalent également automatiquement les erreurs de type après les modifications, donc Claude détecte les erreurs sans exécuter un compilateur.Déléguer le traitement aux hooks et aux skills
Les hooks personnalisés peuvent prétraiter les données avant que Claude ne les voie. Au lieu que Claude lise un fichier journal de 10 000 lignes pour trouver les erreurs, un hook peut rechercherERROR et retourner uniquement les lignes correspondantes, réduisant le contexte de dizaines de milliers de tokens à des centaines.
Une skill peut donner à Claude des connaissances de domaine pour qu’il n’ait pas à explorer. Par exemple, une skill « codebase-overview » pourrait décrire l’architecture de votre projet, les répertoires clés et les conventions de nommage. Lorsque Claude invoque la skill, il obtient ce contexte immédiatement au lieu de dépenser des tokens pour lire plusieurs fichiers pour comprendre la structure.
Par exemple, ce hook PreToolUse filtre la sortie des tests pour afficher uniquement les échecs :
- settings.json
- filter-test-output.sh
Ajoutez ceci à votre settings.json pour exécuter le hook avant chaque commande Bash :
Déplacer les instructions de CLAUDE.md vers les skills
Votre fichier CLAUDE.md est chargé en contexte au démarrage de la session. S’il contient des instructions détaillées pour des flux de travail spécifiques (comme les révisions de PR ou les migrations de base de données), ces tokens sont présents même lorsque vous faites un travail non lié. Les skills se chargent à la demande uniquement lorsqu’elles sont invoquées, donc déplacer les instructions spécialisées dans les skills maintient votre contexte de base plus petit. Visez à garder CLAUDE.md en dessous d’environ 500 lignes en incluant uniquement les éléments essentiels.Ajuster la réflexion étendue
La réflexion étendue est activée par défaut avec un budget de 31 999 tokens car elle améliore considérablement les performances sur les tâches complexes de planification et de raisonnement. Cependant, les tokens de réflexion sont facturés comme des tokens de sortie, donc pour les tâches plus simples où un raisonnement approfondi n’est pas nécessaire, vous pouvez réduire les coûts en abaissant le niveau d’effort avec/effort ou dans /model, en désactivant la réflexion dans /config, ou en abaissant le budget (par exemple, MAX_THINKING_TOKENS=8000).
Déléguer les opérations détaillées aux subagents
L’exécution de tests, la récupération de documentation ou le traitement de fichiers journaux peuvent consommer un contexte important. Déléguez-les aux subagents pour que la sortie détaillée reste dans le contexte du subagent tandis que seul un résumé revient à votre conversation principale.Gérer les coûts des équipes d’agents
Les équipes d’agents utilisent environ 7 fois plus de tokens que les sessions standard lorsque les coéquipiers s’exécutent en mode plan, car chaque coéquipier maintient sa propre fenêtre de contexte et s’exécute en tant qu’instance Claude distincte. Gardez les tâches d’équipe petites et autonomes pour limiter l’utilisation des tokens par coéquipier. Voir équipes d’agents pour plus de détails.Écrire des invites spécifiques
Les demandes vagues comme « améliorer cette base de code » déclenchent une analyse large. Les demandes spécifiques comme « ajouter la validation des entrées à la fonction de connexion dans auth.ts » permettent à Claude de travailler efficacement avec des lectures de fichiers minimales.Travailler efficacement sur des tâches complexes
Pour un travail plus long ou plus complexe, ces habitudes aident à éviter les tokens gaspillés en prenant la mauvaise direction :- Utilisez le mode plan pour les tâches complexes : Appuyez sur Maj+Tab pour entrer en mode plan avant l’implémentation. Claude explore la base de code et propose une approche pour votre approbation, évitant les retouches coûteuses lorsque la direction initiale est mauvaise.
- Corriger la trajectoire tôt : Si Claude commence à aller dans la mauvaise direction, appuyez sur Échap pour arrêter immédiatement. Utilisez
/rewindou appuyez deux fois sur Échap pour restaurer la conversation et le code à un point de contrôle précédent. - Donner des cibles de vérification : Incluez des cas de test, collez des captures d’écran ou définissez la sortie attendue dans votre invite. Lorsque Claude peut vérifier son propre travail, il détecte les problèmes avant que vous ayez besoin de demander des corrections.
- Tester de manière progressive : Écrivez un fichier, testez-le, puis continuez. Cela détecte les problèmes tôt lorsqu’ils sont bon marché à corriger.
Utilisation des tokens en arrière-plan
Claude Code utilise des tokens pour certaines fonctionnalités en arrière-plan même lorsqu’il est inactif :- Résumé des conversations : Les tâches en arrière-plan qui résument les conversations précédentes pour la fonctionnalité
claude --resume - Traitement des commandes : Certaines commandes comme
/costpeuvent générer des requêtes pour vérifier l’état
Comprendre les changements dans le comportement de Claude Code
Claude Code reçoit régulièrement des mises à jour qui peuvent modifier le fonctionnement des fonctionnalités, y compris la génération de rapports de coûts. Exécutezclaude --version pour vérifier votre version actuelle. Pour des questions de facturation spécifiques, contactez le support Anthropic via votre compte Console. Pour les déploiements en équipe, commencez par un petit groupe pilote pour établir les modèles d’utilisation avant un déploiement plus large.