Gérer les coûts efficacement

Claude Code facture selon la consommation de tokens API. Pour les tarifs des plans d’abonnement (Pro, Max, Team, Enterprise), consultez claude.com/pricing. Les coûts par développeur varient considérablement en fonction de la sélection du modèle, de la taille de la base de code et des modèles d’utilisation tels que l’exécution de plusieurs instances ou l’automatisation. Dans les déploiements d’entreprise, le coût moyen est d’environ 13

par développeur par jour actif et de 150 à 250

par développeur par mois, les coûts restant en dessous de 30 $ par jour actif pour 90 % des utilisateurs. Pour estimer les dépenses de votre équipe, commencez par un petit groupe pilote et utilisez les outils de suivi ci-dessous pour établir une base de référence avant un déploiement plus large. Cette page explique comment suivre vos coûts, gérer les coûts pour les équipes et réduire l’utilisation des tokens.

Suivre vos coûts

Utiliser la commande `/usage`

Le bloc Session dans /usage affiche l’utilisation des tokens API et est destiné aux utilisateurs d’API. Les abonnés Claude Max et Pro ont l’utilisation incluse dans leur abonnement, donc le chiffre du coût de session n’est pas pertinent à des fins de facturation. Les abonnés voient les barres d’utilisation du plan, les statistiques d’activité et une ventilation de l’utilisation sur le même écran.

Le bloc Session en haut de /usage affiche des statistiques détaillées sur l’utilisation des tokens pour votre session actuelle. Le chiffre en dollars est une estimation calculée localement à partir des décomptes de tokens et peut différer de votre facture réelle. Pour une facturation fiable, consultez la page Utilisation dans la Console Claude.

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

Sur un plan Pro, Max, Team ou Enterprise, /usage affiche également une ventilation de ce qui compte par rapport à vos limites de plan. Il attribue l’utilisation récente aux skills, subagents, plugins et serveurs MCP individuels, chacun étant affiché en pourcentage du total. Appuyez sur d ou w pour basculer entre les 24 dernières heures et les 7 derniers jours. Les chiffres sont approximatifs et calculés à partir de l’historique des sessions locales sur cette machine, donc l’utilisation d’autres appareils ou de claude.ai n’est pas incluse. Dans l’extension VS Code, la même ventilation apparaît dans la boîte de dialogue Compte et utilisation avec un bouton bascule Jour et Semaine. Nécessite Claude Code v2.1.174 ou version ultérieure.

Gérer les coûts pour les équipes

Lors de l’utilisation de l’API Claude, vous pouvez définir des limites de dépenses pour l’espace de travail sur la dépense totale de l’espace de travail Claude Code. Les administrateurs peuvent afficher les rapports de coûts et d’utilisation dans la Console. Sur les plans Pro et Max, vous pouvez définir une limite de dépenses mensuelles sur les crédits d’utilisation avec la commande /usage-credits. Si vous atteignez cette limite alors que vous avez toujours des crédits d’utilisation disponibles, Claude Code vous invite à augmenter ou supprimer la limite afin que vous puissiez continuer sans quitter la CLI. La modification de la limite nécessite un accès à la facturation sur le compte.

Lorsque vous authentifiez pour la première fois Claude Code avec votre compte Claude Console, un espace de travail appelé « Claude Code » est automatiquement créé pour vous. Cet espace de travail fournit un suivi et une gestion centralisés des coûts pour toute l’utilisation de Claude Code dans votre organisation. Vous ne pouvez pas créer de clés API pour cet espace de travail ; il est exclusivement destiné à l’authentification et à l’utilisation de Claude Code.Pour les organisations avec des limites de débit personnalisées, le trafic Claude Code dans cet espace de travail compte vers les limites de débit API globales de votre organisation. Vous pouvez définir une limite de débit d’espace de travail sur la page Limites de cet espace de travail dans la Console Claude pour limiter la part de Claude Code et protéger les autres charges de travail de production.

Sur Bedrock, Vertex et Foundry, Claude Code n’envoie pas de métriques depuis votre cloud. Une passerelle d’applications Claude auto-hébergée fournit l’attribution d’utilisation par utilisateur, les métriques OTLP avec les décomptes de tokens, et les limites de dépenses par utilisateur sur ces fournisseurs. Les organisations qui acheminent Claude Code via une passerelle LLM différente peuvent suivre les dépenses à la passerelle à la place, puisqu’elle voit chaque requête.

Recommandations de limite de débit

Lors de la configuration de Claude Code pour les équipes, tenez compte de ces recommandations de Token Par Minute (TPM) et Requête Par Minute (RPM) par utilisateur en fonction de la taille de votre organisation :

Taille de l’équipe	TPM par utilisateur	RPM par utilisateur
1-5 utilisateurs	200 000-300 000	5-7
5-20 utilisateurs	100 000-150 000	2,5-3,5
20-50 utilisateurs	50 000-75 000	1,25-1,75
50-100 utilisateurs	25 000-35 000	0,62-0,87
100-500 utilisateurs	15 000-20 000	0,37-0,47
500+ utilisateurs	10 000-15 000	0,25-0,35

Par exemple, si vous avez 200 utilisateurs, vous pourriez demander 20 000 TPM pour chaque utilisateur, soit 4 millions de TPM au total (200 × 20 000 = 4 millions). Le TPM par utilisateur diminue à mesure que la taille de l’équipe augmente, car moins d’utilisateurs ont tendance à utiliser Claude Code simultanément dans les grandes organisations. Ces limites de débit s’appliquent au niveau de l’organisation, et non par utilisateur individuel, ce qui signifie que les utilisateurs individuels peuvent temporairement consommer plus que leur part calculée lorsque d’autres n’utilisent pas activement le service.

Si vous anticipez des scénarios avec une utilisation concurrente inhabituellement élevée (comme des sessions de formation en direct avec de grands groupes), vous pourriez avoir besoin d’allocations TPM plus élevées par utilisateur.

Coûts en tokens des équipes d’agents

Les équipes d’agents lancent plusieurs instances de Claude Code, chacune avec sa propre fenêtre de contexte. L’utilisation des tokens augmente avec le nombre de coéquipiers actifs et la durée d’exécution de chacun. Pour maintenir les coûts des équipes d’agents gérables :

Utilisez Sonnet pour les coéquipiers. Il équilibre la capacité et le coût pour les tâches de coordination.
Gardez les équipes petites. Chaque coéquipier exécute sa propre fenêtre de contexte, donc l’utilisation des tokens est à peu près proportionnelle à la taille de l’équipe.
Gardez les invites de génération concentrées. Les coéquipiers chargent CLAUDE.md, les serveurs MCP et les skills automatiquement, mais tout ce qui se trouve dans l’invite de génération s’ajoute à leur contexte dès le départ.
Arrêtez les coéquipiers lorsque leur travail est terminé. Chaque coéquipier actif continue à consommer des tokens jusqu’à ce qu’il se termine ou que la session se termine.
Les équipes d’agents sont désactivées par défaut. Définissez CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 dans votre settings.json ou dans l’environnement pour les activer. Voir activer les équipes d’agents.

Réduire l’utilisation des tokens

Les coûts des tokens augmentent avec la taille du contexte : plus Claude traite de contexte, plus vous utilisez de tokens. Claude Code optimise automatiquement les coûts grâce à la mise en cache des invites, qui réduit les coûts pour le contenu répété comme les invites système, et à la compaction automatique, qui résume l’historique des conversations en approchant les limites du contexte. Les stratégies suivantes vous aident à maintenir le contexte petit et à réduire les coûts par message.

Gérer le contexte de manière proactive

Utilisez /usage pour vérifier votre utilisation actuelle des tokens, ou configurez votre ligne d’état pour l’afficher en continu.

Effacer entre les tâches : Utilisez /clear pour recommencer à zéro lorsque vous passez à un travail non lié. Le contexte obsolète gaspille des tokens à chaque message suivant. Utilisez /rename avant d’effacer pour pouvoir facilement retrouver la session plus tard, puis /resume pour y revenir.
Ajouter des instructions de compaction personnalisées : /compact Focus on code samples and API usage indique à Claude ce qu’il faut préserver lors de la résumé.

Vous pouvez également personnaliser le comportement de compaction dans votre CLAUDE.md :

# Compact instructions

When you are using compact, please focus on test output and code changes

Choisir le bon modèle

Sonnet gère bien la plupart des tâches de codage et coûte moins cher qu’Opus. Réservez Opus pour les décisions architecturales complexes ou le raisonnement multi-étapes. Utilisez /model pour changer de modèle en cours de session, ou définissez une valeur par défaut dans /config. Pour les tâches simples de subagent, spécifiez model: haiku dans votre configuration de subagent.

Réduire la surcharge des serveurs MCP

Les définitions d’outils MCP sont reportées par défaut, donc seuls les noms d’outils entrent en contexte jusqu’à ce que Claude utilise un outil spécifique. Exécutez /context pour voir ce qui consomme de l’espace.

Préférez les outils CLI lorsqu’ils sont disponibles : Les outils comme gh, aws, gcloud et sentry-cli sont plus efficaces en contexte que les serveurs MCP car ils n’ajoutent pas de liste d’outils par outil. Claude peut exécuter les commandes CLI directement.
Désactiver les serveurs inutilisés : Exécutez /mcp pour voir les serveurs configurés et désactiver ceux que vous n’utilisez pas activement.

Installer des plugins d’intelligence de code pour les langages typés

Les plugins d’intelligence de code donnent à Claude une navigation de symboles précise au lieu d’une recherche basée sur le texte, réduisant les lectures de fichiers inutiles lors de l’exploration de code inconnu. Un seul appel « aller à la définition » remplace ce qui pourrait autrement être une recherche grep suivie de la lecture de plusieurs fichiers candidats. Les serveurs de langage installés signalent également automatiquement les erreurs de type après les modifications, donc Claude détecte les erreurs sans exécuter un compilateur.

Déléguer le traitement aux hooks et aux skills

Les hooks personnalisés peuvent prétraiter les données avant que Claude ne les voie. Au lieu que Claude lise un fichier journal de 10 000 lignes pour trouver les erreurs, un hook peut rechercher ERROR et retourner uniquement les lignes correspondantes, réduisant le contexte de dizaines de milliers de tokens à des centaines. Une skill peut donner à Claude des connaissances de domaine pour qu’il n’ait pas à explorer. Par exemple, une skill « codebase-overview » pourrait décrire l’architecture de votre projet, les répertoires clés et les conventions de nommage. Lorsque Claude invoque la skill, il obtient ce contexte immédiatement au lieu de dépenser des tokens pour lire plusieurs fichiers pour comprendre la structure. Par exemple, ce hook PreToolUse filtre la sortie des tests pour afficher uniquement les échecs :

settings.json
filter-test-output.sh

Ajoutez ceci à votre settings.json pour exécuter le hook avant chaque commande Bash :

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

Le hook appelle ce script, qui vérifie si la commande est un exécuteur de test et la modifie pour afficher uniquement les échecs :

#!/bin/bash
input=$(cat)
cmd=$(echo "$input" | jq -r '.tool_input.command')

# If running tests, filter to show only failures
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
  echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
else
  echo "{}"
fi

Déplacer les instructions de CLAUDE.md vers les skills

Votre fichier CLAUDE.md est chargé en contexte au démarrage de la session. S’il contient des instructions détaillées pour des flux de travail spécifiques (comme les révisions de PR ou les migrations de base de données), ces tokens sont présents même lorsque vous faites un travail non lié. Les skills se chargent à la demande uniquement lorsqu’elles sont invoquées, donc déplacer les instructions spécialisées dans les skills maintient votre contexte de base plus petit. Visez à garder CLAUDE.md en dessous de 200 lignes en incluant uniquement les éléments essentiels.

Ajuster la réflexion étendue

La réflexion étendue est activée par défaut car elle améliore considérablement les performances sur les tâches complexes de planification et de raisonnement. Les tokens de réflexion sont facturés comme des tokens de sortie, et le budget par défaut peut être des dizaines de milliers de tokens par requête selon le modèle. Pour les tâches plus simples où un raisonnement approfondi n’est pas nécessaire, vous pouvez réduire les coûts en abaissant le niveau d’effort avec /effort ou dans /model, en désactivant la réflexion dans /config, ou, sur les modèles avec un budget de réflexion fixe, en abaissant le budget avec MAX_THINKING_TOKENS=8000. Les modèles de raisonnement adaptatif ignorent les budgets non nuls, donc utilisez plutôt les niveaux d’effort. La désactivation de la réflexion n’est pas disponible sur Fable 5, qui utilise toujours la réflexion étendue.

Déléguer les opérations détaillées aux subagents

L’exécution de tests, la récupération de documentation ou le traitement de fichiers journaux peuvent consommer un contexte important. Déléguez-les aux subagents pour que la sortie détaillée reste dans le contexte du subagent tandis que seul un résumé revient à votre conversation principale.

Gérer les coûts des équipes d’agents

Les équipes d’agents utilisent environ 7 fois plus de tokens que les sessions standard lorsque les coéquipiers s’exécutent en mode plan, car chaque coéquipier maintient sa propre fenêtre de contexte et s’exécute en tant qu’instance Claude distincte. Gardez les tâches d’équipe petites et autonomes pour limiter l’utilisation des tokens par coéquipier. Voir équipes d’agents pour plus de détails.

Écrire des invites spécifiques

Les demandes vagues comme « améliorer cette base de code » déclenchent une analyse large. Les demandes spécifiques comme « ajouter la validation des entrées à la fonction de connexion dans auth.ts » permettent à Claude de travailler efficacement avec des lectures de fichiers minimales.

Travailler efficacement sur des tâches complexes

Pour un travail plus long ou plus complexe, ces habitudes aident à éviter les tokens gaspillés en prenant la mauvaise direction :

Utilisez le mode plan pour les tâches complexes : Appuyez sur Maj+Tab pour entrer en mode plan avant l’implémentation. Claude explore la base de code et propose une approche pour votre approbation, évitant les retouches coûteuses lorsque la direction initiale est mauvaise.
Corriger la trajectoire tôt : Si Claude commence à aller dans la mauvaise direction, appuyez sur Échap pour arrêter immédiatement. Utilisez /rewind ou appuyez deux fois sur Échap pour restaurer la conversation et le code à un point de contrôle précédent.
Donner des cibles de vérification : Incluez des cas de test, collez des captures d’écran ou définissez la sortie attendue dans votre invite. Lorsque Claude peut vérifier son propre travail, il détecte les problèmes avant que vous ayez besoin de demander des corrections.
Tester de manière progressive : Écrivez un fichier, testez-le, puis continuez. Cela détecte les problèmes tôt lorsqu’ils sont bon marché à corriger.

Utilisation des tokens en arrière-plan

Claude Code utilise des tokens pour certaines fonctionnalités en arrière-plan même lorsqu’il est inactif :

Résumé des conversations : Les tâches en arrière-plan qui résument les conversations précédentes pour la fonctionnalité claude --resume
Traitement des commandes : Certaines commandes comme /usage peuvent générer des requêtes pour vérifier l’état

Ces processus en arrière-plan consomment une petite quantité de tokens (généralement moins de 0,04 $ par session) même sans interaction active.

Comprendre les changements dans le comportement de Claude Code

Claude Code reçoit régulièrement des mises à jour qui peuvent modifier le fonctionnement des fonctionnalités, y compris la génération de rapports de coûts. Exécutez claude --version pour vérifier votre version actuelle. Pour des questions de facturation spécifiques, contactez le support Anthropic via votre compte Console.

​Suivre vos coûts

​Utiliser la commande /usage

​Gérer les coûts pour les équipes

​Recommandations de limite de débit

​Coûts en tokens des équipes d’agents

​Réduire l’utilisation des tokens

​Gérer le contexte de manière proactive

​Choisir le bon modèle

​Réduire la surcharge des serveurs MCP

​Installer des plugins d’intelligence de code pour les langages typés

​Déléguer le traitement aux hooks et aux skills

​Déplacer les instructions de CLAUDE.md vers les skills

​Ajuster la réflexion étendue

​Déléguer les opérations détaillées aux subagents

​Gérer les coûts des équipes d’agents

​Écrire des invites spécifiques

​Travailler efficacement sur des tâches complexes

​Utilisation des tokens en arrière-plan

​Comprendre les changements dans le comportement de Claude Code

Suivre vos coûts

Utiliser la commande `/usage`

Gérer les coûts pour les équipes

Recommandations de limite de débit

Coûts en tokens des équipes d’agents

Réduire l’utilisation des tokens

Gérer le contexte de manière proactive

Choisir le bon modèle

Réduire la surcharge des serveurs MCP

Installer des plugins d’intelligence de code pour les langages typés

Déléguer le traitement aux hooks et aux skills

Déplacer les instructions de CLAUDE.md vers les skills

Ajuster la réflexion étendue

Déléguer les opérations détaillées aux subagents

Gérer les coûts des équipes d’agents

Écrire des invites spécifiques

Travailler efficacement sur des tâches complexes

Utilisation des tokens en arrière-plan

Comprendre les changements dans le comportement de Claude Code