Traccia i tuoi costi
Utilizzo del comando /cost
Il comando
/cost mostra l’utilizzo dei token API ed è destinato agli utenti API. I sottoscrittori di Claude Max e Pro hanno l’utilizzo incluso nel loro abbonamento, quindi i dati di /cost non sono rilevanti per scopi di fatturazione. I sottoscrittori possono utilizzare /stats per visualizzare i modelli di utilizzo./cost fornisce statistiche dettagliate sull’utilizzo dei token per la tua sessione attuale:
Gestione dei costi per i team
Quando utilizzi Claude API, puoi impostare i limiti di spesa dell’area di lavoro sulla spesa totale dell’area di lavoro di Claude Code. Gli amministratori possono visualizzare i rapporti di costo e utilizzo nella Console.Quando autentichi per la prima volta Claude Code con il tuo account Claude Console, viene creata automaticamente un’area di lavoro chiamata “Claude Code”. Questa area di lavoro fornisce il tracciamento e la gestione centralizzati dei costi per tutto l’utilizzo di Claude Code nella tua organizzazione. Non puoi creare chiavi API per questa area di lavoro; è esclusivamente per l’autenticazione e l’utilizzo di Claude Code.
Raccomandazioni sui limiti di velocità
Quando configuri Claude Code per i team, considera queste raccomandazioni Token Per Minuto (TPM) e Richieste Per Minuto (RPM) per utente in base alle dimensioni della tua organizzazione:| Dimensione del team | TPM per utente | RPM per utente |
|---|---|---|
| 1-5 utenti | 200k-300k | 5-7 |
| 5-20 utenti | 100k-150k | 2.5-3.5 |
| 20-50 utenti | 50k-75k | 1.25-1.75 |
| 50-100 utenti | 25k-35k | 0.62-0.87 |
| 100-500 utenti | 15k-20k | 0.37-0.47 |
| 500+ utenti | 10k-15k | 0.25-0.35 |
Se prevedi scenari con utilizzo concorrente insolitamente elevato (come sessioni di formazione dal vivo con grandi gruppi), potresti aver bisogno di allocazioni TPM più elevate per utente.
Costi dei token del team di agenti
I team di agenti generano più istanze di Claude Code, ognuna con la propria finestra di contesto. L’utilizzo dei token si ridimensiona con il numero di compagni di squadra attivi e per quanto tempo ognuno viene eseguito. Per mantenere i costi del team di agenti gestibili:- Utilizza Sonnet per i compagni di squadra. Bilancia la capacità e il costo per i compiti di coordinamento.
- Mantieni i team piccoli. Ogni compagno di squadra esegue la propria finestra di contesto, quindi l’utilizzo dei token è approssimativamente proporzionale alle dimensioni del team.
- Mantieni i prompt di generazione focalizzati. I compagni di squadra caricano automaticamente CLAUDE.md, i server MCP e le skills, ma tutto nel prompt di generazione si aggiunge al loro contesto dall’inizio.
- Pulisci i team quando il lavoro è terminato. I compagni di squadra attivi continuano a consumare token anche se inattivi.
- I team di agenti sono disabilitati per impostazione predefinita. Imposta
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1nel tuo settings.json o nell’ambiente per abilitarli. Vedi abilita i team di agenti.
Riduci l’utilizzo dei token
I costi dei token si ridimensionano con la dimensione del contesto: più contesto Claude elabora, più token utilizzi. Claude Code ottimizza automaticamente i costi attraverso il prompt caching (che riduce i costi per il contenuto ripetuto come i prompt di sistema) e l’auto-compaction (che riassume la cronologia della conversazione quando ci si avvicina ai limiti del contesto). Le seguenti strategie ti aiutano a mantenere il contesto piccolo e ridurre i costi per messaggio.Gestisci il contesto in modo proattivo
Utilizza/cost per controllare l’utilizzo attuale dei token, o configura la tua linea di stato per visualizzarla continuamente.
- Cancella tra i compiti: Utilizza
/clearper ricominciare da capo quando passi a lavori non correlati. Il contesto obsoleto spreca token su ogni messaggio successivo. Utilizza/renameprima di cancellare in modo da poter trovare facilmente la sessione in seguito, quindi/resumeper tornare ad essa. - Aggiungi istruzioni di compaction personalizzate:
/compact Focus on code samples and API usagedice a Claude cosa preservare durante la sintesi.
Scegli il modello giusto
Sonnet gestisce bene la maggior parte dei compiti di codifica e costa meno di Opus. Riserva Opus per decisioni architettoniche complesse o ragionamento multi-step. Utilizza/model per cambiare modello a metà sessione, o imposta un valore predefinito in /config. Per semplici compiti subagent, specifica model: haiku nella tua configurazione subagent.
Riduci l’overhead del server MCP
Ogni server MCP aggiunge definizioni di strumenti al tuo contesto, anche quando inattivo. Esegui/context per vedere cosa sta consumando spazio.
- Preferisci gli strumenti CLI quando disponibili: Strumenti come
gh,aws,gcloudesentry-clisono più efficienti dal punto di vista del contesto rispetto ai server MCP perché non aggiungono definizioni di strumenti persistenti. Claude può eseguire comandi CLI direttamente senza l’overhead. - Disabilita i server inutilizzati: Esegui
/mcpper vedere i server configurati e disabilita quelli che non stai utilizzando attivamente. - La ricerca degli strumenti è automatica: Quando le descrizioni degli strumenti MCP superano il 10% della tua finestra di contesto, Claude Code li rinvia automaticamente e carica gli strumenti su richiesta tramite ricerca degli strumenti. Poiché gli strumenti rinviati entrano nel contesto solo quando effettivamente utilizzati, una soglia più bassa significa meno definizioni di strumenti inattivi che consumano spazio. Imposta una soglia più bassa con
ENABLE_TOOL_SEARCH=auto:<N>(ad esempio,auto:5si attiva quando gli strumenti superano il 5% della tua finestra di contesto).
Installa plugin di intelligenza del codice per i linguaggi tipizzati
I plugin di intelligenza del codice danno a Claude una navigazione precisa dei simboli invece della ricerca basata su testo, riducendo le letture di file non necessarie quando si esplora codice sconosciuto. Una singola chiamata “vai alla definizione” sostituisce quello che altrimenti potrebbe essere un grep seguito dalla lettura di più file candidati. I server di linguaggio installati segnalano anche gli errori di tipo automaticamente dopo le modifiche, quindi Claude cattura gli errori senza eseguire un compilatore.Offload dell’elaborazione agli hook e alle skills
Gli hook personalizzati possono pre-elaborare i dati prima che Claude li veda. Invece di Claude che legge un file di log di 10.000 righe per trovare errori, un hook può cercareERROR e restituire solo le righe corrispondenti, riducendo il contesto da decine di migliaia di token a centinaia.
Una skill può dare a Claude la conoscenza del dominio in modo che non debba esplorare. Ad esempio, una skill “codebase-overview” potrebbe descrivere l’architettura del tuo progetto, le directory chiave e le convenzioni di denominazione. Quando Claude invoca la skill, ottiene questo contesto immediatamente invece di spendere token leggendo più file per comprendere la struttura.
Ad esempio, questo hook PreToolUse filtra l’output del test per mostrare solo i fallimenti:
- settings.json
- filter-test-output.sh
Aggiungi questo al tuo settings.json per eseguire l’hook prima di ogni comando Bash:
Sposta le istruzioni da CLAUDE.md alle skills
Il tuo file CLAUDE.md viene caricato nel contesto all’inizio della sessione. Se contiene istruzioni dettagliate per flussi di lavoro specifici (come revisioni PR o migrazioni di database), quei token sono presenti anche quando stai facendo lavori non correlati. Le skills si caricano su richiesta solo quando invocate, quindi spostare le istruzioni specializzate nelle skills mantiene il tuo contesto di base più piccolo. Mira a mantenere CLAUDE.md sotto circa 500 righe includendo solo gli elementi essenziali.Regola il pensiero esteso
Il pensiero esteso è abilitato per impostazione predefinita con un budget di 31.999 token perché migliora significativamente le prestazioni su compiti complessi di pianificazione e ragionamento. Tuttavia, i token di pensiero vengono fatturati come token di output, quindi per compiti più semplici dove il ragionamento profondo non è necessario, puoi ridurre i costi abbassando il livello di sforzo con/effort o in /model, disabilitando il pensiero in /config, o abbassando il budget (ad esempio, MAX_THINKING_TOKENS=8000).
Delega le operazioni dettagliate ai subagent
L’esecuzione di test, il recupero della documentazione o l’elaborazione di file di log possono consumare un contesto significativo. Delega questi ai subagent in modo che l’output dettagliato rimanga nel contesto del subagent mentre solo un riassunto ritorna alla tua conversazione principale.Gestisci i costi del team di agenti
I team di agenti utilizzano approssimativamente 7 volte più token rispetto alle sessioni standard quando i compagni di squadra vengono eseguiti in plan mode, perché ogni compagno di squadra mantiene la propria finestra di contesto ed esegue come un’istanza Claude separata. Mantieni i compiti del team piccoli e autonomi per limitare l’utilizzo dei token per compagno di squadra. Vedi team di agenti per i dettagli.Scrivi prompt specifici
Richieste vaghe come “migliora questa codebase” attivano una scansione ampia. Richieste specifiche come “aggiungi la convalida dell’input alla funzione di accesso in auth.ts” permettono a Claude di lavorare in modo efficiente con letture di file minime.Lavora in modo efficiente su compiti complessi
Per lavori più lunghi o complessi, queste abitudini aiutano a evitare token sprecati andando nella direzione sbagliata:- Utilizza plan mode per compiti complessi: Premi Shift+Tab per entrare in plan mode prima dell’implementazione. Claude esplora la codebase e propone un approccio per la tua approvazione, prevenendo la rielaborazione costosa quando la direzione iniziale è sbagliata.
- Correggi la rotta presto: Se Claude inizia a andare nella direzione sbagliata, premi Escape per fermarti immediatamente. Utilizza
/rewindo doppio tocco Escape per ripristinare la conversazione e il codice a un checkpoint precedente. - Fornisci target di verifica: Includi casi di test, incolla screenshot o definisci l’output previsto nel tuo prompt. Quando Claude può verificare il suo lavoro, cattura i problemi prima che tu debba richiedere correzioni.
- Testa in modo incrementale: Scrivi un file, testalo, quindi continua. Questo cattura i problemi presto quando sono economici da risolvere.
Utilizzo dei token in background
Claude Code utilizza token per alcune funzionalità in background anche quando inattivo:- Sintesi della conversazione: Processi in background che riassumono le conversazioni precedenti per la funzione
claude --resume - Elaborazione dei comandi: Alcuni comandi come
/costpossono generare richieste per controllare lo stato
Comprensione dei cambiamenti nel comportamento di Claude Code
Claude Code riceve regolarmente aggiornamenti che possono cambiare il funzionamento delle funzionalità, inclusa la segnalazione dei costi. Eseguiclaude --version per controllare la tua versione attuale. Per domande specifiche sulla fatturazione, contatta il supporto di Anthropic tramite il tuo account Console. Per distribuzioni di team, inizia con un piccolo gruppo pilota per stabilire i modelli di utilizzo prima di un rollout più ampio.