Verfolgen Sie Ihre Kosten
Verwenden des /cost-Befehls
Der
/cost-Befehl zeigt die API-Token-Nutzung an und ist für API-Benutzer vorgesehen. Claude Max und Pro-Abonnenten haben die Nutzung in ihrem Abonnement enthalten, daher sind /cost-Daten nicht relevant für Abrechnungszwecke. Abonnenten können /stats verwenden, um Nutzungsmuster anzuzeigen./cost-Befehl bietet detaillierte Token-Nutzungsstatistiken für Ihre aktuelle Sitzung:
Verwalten Sie Kosten für Teams
Bei Verwendung der Claude API können Sie Workspace-Ausgabenlimits festlegen für die gesamten Claude Code-Workspace-Ausgaben. Administratoren können Kosten- und Nutzungsberichte anzeigen in der Konsole.Wenn Sie Claude Code zum ersten Mal mit Ihrem Claude Console-Konto authentifizieren, wird automatisch ein Workspace namens „Claude Code” für Sie erstellt. Dieser Workspace bietet zentrale Kostenverfolgung und Verwaltung für alle Claude Code-Nutzung in Ihrer Organisation. Sie können keine API-Schlüssel für diesen Workspace erstellen; er ist ausschließlich für Claude Code-Authentifizierung und -Nutzung.
Empfehlungen für Ratenlimits
Beim Einrichten von Claude Code für Teams sollten Sie diese Token Pro Minute (TPM) und Anfragen Pro Minute (RPM) pro Benutzer-Empfehlungen basierend auf Ihrer Organisationsgröße berücksichtigen:| Team-Größe | TPM pro Benutzer | RPM pro Benutzer |
|---|---|---|
| 1–5 Benutzer | 200.000–300.000 | 5–7 |
| 5–20 Benutzer | 100.000–150.000 | 2,5–3,5 |
| 20–50 Benutzer | 50.000–75.000 | 1,25–1,75 |
| 50–100 Benutzer | 25.000–35.000 | 0,62–0,87 |
| 100–500 Benutzer | 15.000–20.000 | 0,37–0,47 |
| 500+ Benutzer | 10.000–15.000 | 0,25–0,35 |
Wenn Sie Szenarien mit ungewöhnlich hoher gleichzeitiger Nutzung erwarten (z. B. Live-Schulungssitzungen mit großen Gruppen), benötigen Sie möglicherweise höhere TPM-Zuordnungen pro Benutzer.
Token-Kosten für Agent-Teams
Agent-Teams starten mehrere Claude Code-Instanzen, jede mit ihrem eigenen Kontextfenster. Die Token-Nutzung skaliert mit der Anzahl der aktiven Teammates und wie lange jeder läuft. Um Agent-Team-Kosten überschaubar zu halten:- Verwenden Sie Sonnet für Teammates. Es bietet ein Gleichgewicht zwischen Fähigkeit und Kosten für Koordinationsaufgaben.
- Halten Sie Teams klein. Jeder Teammate führt sein eigenes Kontextfenster aus, daher ist die Token-Nutzung ungefähr proportional zur Team-Größe.
- Halten Sie Spawn-Prompts fokussiert. Teammates laden CLAUDE.md, MCP-Server und Skills automatisch, aber alles im Spawn-Prompt trägt von Anfang an zu ihrem Kontext bei.
- Bereinigen Sie Teams, wenn die Arbeit erledigt ist. Aktive Teammates verbrauchen weiterhin Token, auch wenn sie untätig sind.
- Agent-Teams sind standardmäßig deaktiviert. Setzen Sie
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1in Ihrer settings.json oder Umgebung, um sie zu aktivieren. Siehe Agent-Teams aktivieren.
Reduzieren Sie die Token-Nutzung
Token-Kosten skalieren mit der Kontextgröße: Je mehr Kontext Claude verarbeitet, desto mehr Token verwenden Sie. Claude Code optimiert Kosten automatisch durch Prompt Caching (das Kosten für wiederholte Inhalte wie Systemprompts reduziert) und Auto-Compaction (das Gesprächsverlauf zusammenfasst, wenn sich dem Kontextlimit genähert wird). Die folgenden Strategien helfen Ihnen, den Kontext klein zu halten und die Kosten pro Nachricht zu reduzieren.Verwalten Sie den Kontext proaktiv
Verwenden Sie/cost, um Ihre aktuelle Token-Nutzung zu überprüfen, oder konfigurieren Sie Ihre Statuszeile, um sie kontinuierlich anzuzeigen.
- Zwischen Aufgaben löschen: Verwenden Sie
/clear, um neu zu beginnen, wenn Sie zu nicht verwandter Arbeit wechseln. Veralteter Kontext verschwendet Token bei jeder nachfolgenden Nachricht. Verwenden Sie/renamevor dem Löschen, damit Sie die Sitzung später leicht finden können, dann/resume, um zu ihr zurückzukehren. - Fügen Sie benutzerdefinierte Compaction-Anweisungen hinzu:
/compact Focus on code samples and API usageteilt Claude mit, was während der Zusammenfassung beibehalten werden soll.
Wählen Sie das richtige Modell
Sonnet bewältigt die meisten Codierungsaufgaben gut und kostet weniger als Opus. Reservieren Sie Opus für komplexe architektonische Entscheidungen oder mehrstufiges Denken. Verwenden Sie/model, um Modelle während einer Sitzung zu wechseln, oder legen Sie einen Standard in /config fest. Für einfache Subagent-Aufgaben geben Sie model: haiku in Ihrer Subagent-Konfiguration an.
Reduzieren Sie den MCP-Server-Overhead
Jeder MCP-Server fügt Tool-Definitionen zu Ihrem Kontext hinzu, auch wenn er untätig ist. Führen Sie/context aus, um zu sehen, was Platz verbraucht.
- Bevorzugen Sie CLI-Tools, wenn verfügbar: Tools wie
gh,aws,gcloudundsentry-clisind kontexteffektiver als MCP-Server, da sie keine persistenten Tool-Definitionen hinzufügen. Claude kann CLI-Befehle direkt ausführen, ohne den Overhead. - Deaktivieren Sie ungenutzte Server: Führen Sie
/mcpaus, um konfigurierte Server anzuzeigen und alle zu deaktivieren, die Sie nicht aktiv verwenden. - Tool-Suche ist automatisch: Wenn MCP-Tool-Beschreibungen 10 % Ihres Kontextfensters überschreiten, verschiebt Claude Code sie automatisch und lädt Tools bei Bedarf über Tool-Suche. Da verschobene Tools nur in den Kontext eintreten, wenn sie tatsächlich verwendet werden, bedeutet ein niedrigerer Schwellenwert weniger untätige Tool-Definitionen, die Platz verbrauchen. Legen Sie einen niedrigeren Schwellenwert mit
ENABLE_TOOL_SEARCH=auto:<N>fest (z. B.auto:5wird ausgelöst, wenn Tools 5 % Ihres Kontextfensters überschreiten).
Installieren Sie Code-Intelligence-Plugins für typisierte Sprachen
Code-Intelligence-Plugins geben Claude präzise Symbol-Navigation statt textbasierter Suche, wodurch unnötige Dateileser beim Erkunden unbekannten Codes reduziert werden. Ein einzelner „Gehe zu Definition”-Aufruf ersetzt, was sonst ein Grep gefolgt vom Lesen mehrerer Kandidatendateien sein könnte. Installierte Sprachserver melden auch Typfehler automatisch nach Bearbeitungen, sodass Claude Fehler erkennt, ohne einen Compiler auszuführen.Verlagern Sie die Verarbeitung auf Hooks und Skills
Benutzerdefinierte Hooks können Daten vorverarbeiten, bevor Claude sie sieht. Anstatt dass Claude eine 10.000-Zeilen-Protokolldatei liest, um Fehler zu finden, kann ein Hook nachERROR suchen und nur übereinstimmende Zeilen zurückgeben, wodurch der Kontext von Zehntausenden Token auf Hunderte reduziert wird.
Ein Skill kann Claude Domänenwissen geben, sodass es nicht erkunden muss. Beispielsweise könnte ein „codebase-overview”-Skill die Architektur Ihres Projekts, wichtige Verzeichnisse und Namenskonventionen beschreiben. Wenn Claude den Skill aufruft, erhält es diesen Kontext sofort, anstatt Token zu verschwenden, um mehrere Dateien zu lesen, um die Struktur zu verstehen.
Beispielsweise filtert dieser PreToolUse-Hook die Testausgabe, um nur Fehler anzuzeigen:
- settings.json
- filter-test-output.sh
Fügen Sie dies zu Ihrer settings.json hinzu, um den Hook vor jedem Bash-Befehl auszuführen:
Verschieben Sie Anweisungen von CLAUDE.md zu Skills
Ihre CLAUDE.md-Datei wird beim Sitzungsstart in den Kontext geladen. Wenn sie detaillierte Anweisungen für spezifische Workflows enthält (wie PR-Reviews oder Datenbankmigrationen), sind diese Token vorhanden, auch wenn Sie nicht verwandte Arbeit erledigen. Skills werden bei Bedarf nur geladen, wenn sie aufgerufen werden, daher hält das Verschieben spezialisierter Anweisungen in Skills Ihren Basis-Kontext kleiner. Streben Sie danach, CLAUDE.md unter etwa 500 Zeilen zu halten, indem Sie nur das Wesentliche einbeziehen.Passen Sie das erweiterte Denken an
Erweitertes Denken ist standardmäßig mit einem Budget von 31.999 Token aktiviert, da es die Leistung bei komplexen Planungs- und Denkaufgaben erheblich verbessert. Thinking-Token werden jedoch als Output-Token abgerechnet, daher können Sie für einfachere Aufgaben, bei denen tiefes Denken nicht erforderlich ist, Kosten reduzieren, indem Sie die Anstrengungsstufe mit/effort senken oder in /model, Denken in /config deaktivieren oder das Budget senken (z. B. MAX_THINKING_TOKENS=8000).
Delegieren Sie ausführliche Operationen an Subagents
Das Ausführen von Tests, das Abrufen von Dokumentation oder das Verarbeiten von Protokolldateien kann erheblichen Kontext verbrauchen. Delegieren Sie diese an Subagents, sodass die ausführliche Ausgabe im Kontext des Subagent bleibt, während nur eine Zusammenfassung zu Ihrem Hauptgespräch zurückkehrt.Verwalten Sie Agent-Team-Kosten
Agent-Teams verwenden ungefähr 7-mal mehr Token als Standard-Sitzungen, wenn Teammates im Plan Mode laufen, da jeder Teammate sein eigenes Kontextfenster verwaltet und als separate Claude-Instanz läuft. Halten Sie Team-Aufgaben klein und in sich geschlossen, um die Token-Nutzung pro Teammate zu begrenzen. Siehe Agent-Teams für Details.Schreiben Sie spezifische Prompts
Vage Anfragen wie „Verbessern Sie diese Codebasis” lösen breites Scannen aus. Spezifische Anfragen wie „Fügen Sie Eingabevalidierung zur Login-Funktion in auth.ts hinzu” ermöglichen es Claude, effizient mit minimalen Dateileser zu arbeiten.Arbeiten Sie effizient an komplexen Aufgaben
Für längere oder komplexere Arbeiten helfen diese Gewohnheiten, verschwendete Token durch das Gehen des falschen Weges zu vermeiden:- Verwenden Sie Plan Mode für komplexe Aufgaben: Drücken Sie Shift+Tab, um Plan Mode vor der Implementierung zu betreten. Claude erkundet die Codebasis und schlägt einen Ansatz zur Genehmigung vor, was teure Überarbeitungen verhindert, wenn die anfängliche Richtung falsch ist.
- Korrigieren Sie den Kurs früh: Wenn Claude in die falsche Richtung geht, drücken Sie Escape, um sofort zu stoppen. Verwenden Sie
/rewindoder doppeltippen Sie Escape, um das Gespräch und den Code zu einem vorherigen Checkpoint wiederherzustellen. - Geben Sie Verifizierungsziele an: Fügen Sie Testfälle ein, fügen Sie Screenshots ein oder definieren Sie erwartete Ausgabe in Ihrem Prompt. Wenn Claude seine eigene Arbeit verifizieren kann, erkennt es Probleme, bevor Sie Korrektionen anfordern müssen.
- Testen Sie schrittweise: Schreiben Sie eine Datei, testen Sie sie, dann fahren Sie fort. Dies erkennt Probleme früh, wenn sie billig zu beheben sind.
Hintergrund-Token-Nutzung
Claude Code verwendet Token für einige Hintergrund-Funktionalität, auch wenn untätig:- Gesprächszusammenfassung: Hintergrund-Jobs, die vorherige Gespräche für die
claude --resume-Funktion zusammenfassen - Befehlsverarbeitung: Einige Befehle wie
/costkönnen Anfragen generieren, um den Status zu überprüfen
Verstehen Sie Änderungen im Claude Code-Verhalten
Claude Code erhält regelmäßig Updates, die ändern können, wie Funktionen funktionieren, einschließlich Kostenberichterstattung. Führen Sieclaude --version aus, um Ihre aktuelle Version zu überprüfen. Für spezifische Abrechnungsfragen kontaktieren Sie den Anthropic-Support über Ihr Console-Konto. Für Team-Bereitstellungen beginnen Sie mit einer kleinen Pilotgruppe, um Nutzungsmuster zu etablieren, bevor Sie einen breiteren Rollout durchführen.