Claude Code wird nach API-Token-Verbrauch berechnet. Für Abonnementplan-Preise (Pro, Max, Team, Enterprise) siehe claude.com/pricing. Die Kosten pro Entwickler variieren stark je nach Modellauswahl, Codebasis-Größe und Nutzungsmustern wie dem Ausführen mehrerer Instanzen oder Automatisierung. In unternehmensweiten Bereitstellungen betragen die durchschnittlichen Kosten etwa 13 USD pro Entwickler pro aktivem Tag und 150–250 USD pro Entwickler pro Monat, wobei die Kosten für 90 % der Benutzer unter 30 USD pro aktivem Tag bleiben. Um die Ausgaben für Ihr eigenes Team zu schätzen, beginnen Sie mit einer kleinen Pilotgruppe und verwenden Sie die Tracking-Tools unten, um eine Baseline zu etablieren, bevor Sie einen breiteren Rollout durchführen. Diese Seite behandelt, wie Sie Ihre Kosten verfolgen, Kosten für Teams verwalten und Token-Nutzung reduzieren.Documentation Index
Fetch the complete documentation index at: https://code.claude.com/docs/llms.txt
Use this file to discover all available pages before exploring further.
Verfolgen Sie Ihre Kosten
Verwenden des /usage-Befehls
Der Session-Block in
/usage zeigt die API-Token-Nutzung an und ist für API-Benutzer vorgesehen. Claude Max und Pro-Abonnenten haben die Nutzung in ihrem Abonnement enthalten, daher ist die Session-Kostenzahl nicht relevant für Abrechnungszwecke. Abonnenten sehen Plannutzungsbalken und Aktivitätsstatistiken auf demselben Bildschirm./usage-Befehl bietet detaillierte Token-Nutzungsstatistiken für Ihre aktuelle Sitzung. Die Dollarzahl ist eine Schätzung, die lokal aus Token-Zählungen berechnet wird, und kann sich von Ihrer tatsächlichen Rechnung unterscheiden. Für verbindliche Abrechnung siehe die Nutzungsseite in der Claude Console.
Verwalten Sie Kosten für Teams
Bei Verwendung der Claude API können Sie Workspace-Ausgabenlimits festlegen für die gesamten Claude Code-Workspace-Ausgaben. Administratoren können Kosten- und Nutzungsberichte anzeigen in der Console.Wenn Sie Claude Code zum ersten Mal mit Ihrem Claude Console-Konto authentifizieren, wird automatisch ein Workspace namens „Claude Code” für Sie erstellt. Dieser Workspace bietet zentrale Kostenverfolgung und Verwaltung für alle Claude Code-Nutzung in Ihrer Organisation. Sie können keine API-Schlüssel für diesen Workspace erstellen; er ist ausschließlich für Claude Code-Authentifizierung und -Nutzung.Für Organisationen mit benutzerdefinierten Ratenlimits zählt Claude Code-Verkehr in diesem Workspace zu den gesamten API-Ratenlimits Ihrer Organisation. Sie können ein Workspace-Ratenlimit auf der Limits-Seite dieses Workspace in der Claude Console festlegen, um Claude Code’s Anteil zu begrenzen und andere Produktions-Workloads zu schützen.
Empfehlungen für Ratenlimits
Beim Einrichten von Claude Code für Teams sollten Sie diese Token Pro Minute (TPM) und Anfragen Pro Minute (RPM) pro Benutzer-Empfehlungen basierend auf Ihrer Organisationsgröße berücksichtigen:| Team-Größe | TPM pro Benutzer | RPM pro Benutzer |
|---|---|---|
| 1–5 Benutzer | 200.000–300.000 | 5–7 |
| 5–20 Benutzer | 100.000–150.000 | 2,5–3,5 |
| 20–50 Benutzer | 50.000–75.000 | 1,25–1,75 |
| 50–100 Benutzer | 25.000–35.000 | 0,62–0,87 |
| 100–500 Benutzer | 15.000–20.000 | 0,37–0,47 |
| 500+ Benutzer | 10.000–15.000 | 0,25–0,35 |
Wenn Sie Szenarien mit ungewöhnlich hoher gleichzeitiger Nutzung erwarten (z. B. Live-Schulungssitzungen mit großen Gruppen), benötigen Sie möglicherweise höhere TPM-Zuordnungen pro Benutzer.
Token-Kosten für Agent-Teams
Agent-Teams starten mehrere Claude Code-Instanzen, jede mit ihrem eigenen Kontextfenster. Die Token-Nutzung skaliert mit der Anzahl der aktiven Teammates und wie lange jeder läuft. Um Agent-Team-Kosten überschaubar zu halten:- Verwenden Sie Sonnet für Teammates. Es bietet ein Gleichgewicht zwischen Fähigkeit und Kosten für Koordinationsaufgaben.
- Halten Sie Teams klein. Jeder Teammate führt sein eigenes Kontextfenster aus, daher ist die Token-Nutzung ungefähr proportional zur Team-Größe.
- Halten Sie Spawn-Prompts fokussiert. Teammates laden CLAUDE.md, MCP-Server und Skills automatisch, aber alles im Spawn-Prompt trägt von Anfang an zu ihrem Kontext bei.
- Bereinigen Sie Teams, wenn die Arbeit erledigt ist. Aktive Teammates verbrauchen weiterhin Token, auch wenn sie untätig sind.
- Agent-Teams sind standardmäßig deaktiviert. Setzen Sie
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1in Ihrer settings.json oder Umgebung, um sie zu aktivieren. Siehe Agent-Teams aktivieren.
Reduzieren Sie die Token-Nutzung
Token-Kosten skalieren mit der Kontextgröße: Je mehr Kontext Claude verarbeitet, desto mehr Token verwenden Sie. Claude Code optimiert Kosten automatisch durch Prompt Caching (das Kosten für wiederholte Inhalte wie Systemprompts reduziert) und Auto-Compaction (das Gesprächsverlauf zusammenfasst, wenn sich dem Kontextlimit genähert wird). Die folgenden Strategien helfen Ihnen, den Kontext klein zu halten und die Kosten pro Nachricht zu reduzieren.Verwalten Sie den Kontext proaktiv
Verwenden Sie/usage, um Ihre aktuelle Token-Nutzung zu überprüfen, oder konfigurieren Sie Ihre Statuszeile, um sie kontinuierlich anzuzeigen.
- Zwischen Aufgaben löschen: Verwenden Sie
/clear, um neu zu beginnen, wenn Sie zu nicht verwandter Arbeit wechseln. Veralteter Kontext verschwendet Token bei jeder nachfolgenden Nachricht. Verwenden Sie/renamevor dem Löschen, damit Sie die Sitzung später leicht finden können, dann/resume, um zu ihr zurückzukehren. - Fügen Sie benutzerdefinierte Compaction-Anweisungen hinzu:
/compact Focus on code samples and API usageteilt Claude mit, was während der Zusammenfassung beibehalten werden soll.
Wählen Sie das richtige Modell
Sonnet bewältigt die meisten Codierungsaufgaben gut und kostet weniger als Opus. Reservieren Sie Opus für komplexe architektonische Entscheidungen oder mehrstufiges Denken. Verwenden Sie/model, um Modelle während einer Sitzung zu wechseln, oder legen Sie einen Standard in /config fest. Für einfache Subagent-Aufgaben geben Sie model: haiku in Ihrer Subagent-Konfiguration an.
Reduzieren Sie den MCP-Server-Overhead
MCP-Tool-Definitionen werden standardmäßig aufgeschoben, daher treten nur Tool-Namen in den Kontext ein, bis Claude ein bestimmtes Tool verwendet. Führen Sie/context aus, um zu sehen, was Platz verbraucht.
- Bevorzugen Sie CLI-Tools, wenn verfügbar: Tools wie
gh,aws,gcloudundsentry-clisind immer noch kontexteffektiver als MCP-Server, da sie keine Pro-Tool-Auflistung hinzufügen. Claude kann CLI-Befehle direkt ausführen. - Deaktivieren Sie ungenutzte Server: Führen Sie
/mcpaus, um konfigurierte Server anzuzeigen und alle zu deaktivieren, die Sie nicht aktiv verwenden.
Installieren Sie Code-Intelligence-Plugins für typisierte Sprachen
Code-Intelligence-Plugins geben Claude präzise Symbol-Navigation statt textbasierter Suche, wodurch unnötige Dateileser beim Erkunden unbekannten Codes reduziert werden. Ein einzelner „Gehe zu Definition”-Aufruf ersetzt, was sonst ein Grep gefolgt vom Lesen mehrerer Kandidatendateien sein könnte. Installierte Sprachserver melden auch Typfehler automatisch nach Bearbeitungen, sodass Claude Fehler erkennt, ohne einen Compiler auszuführen.Verlagern Sie die Verarbeitung auf Hooks und Skills
Benutzerdefinierte Hooks können Daten vorverarbeiten, bevor Claude sie sieht. Anstatt dass Claude eine 10.000-Zeilen-Protokolldatei liest, um Fehler zu finden, kann ein Hook nachERROR suchen und nur übereinstimmende Zeilen zurückgeben, wodurch der Kontext von Zehntausenden Token auf Hunderte reduziert wird.
Ein Skill kann Claude Domänenwissen geben, sodass es nicht erkunden muss. Beispielsweise könnte ein „codebase-overview”-Skill die Architektur Ihres Projekts, wichtige Verzeichnisse und Namenskonventionen beschreiben. Wenn Claude den Skill aufruft, erhält es diesen Kontext sofort, anstatt Token zu verschwenden, um mehrere Dateien zu lesen, um die Struktur zu verstehen.
Beispielsweise filtert dieser PreToolUse-Hook die Testausgabe, um nur Fehler anzuzeigen:
- settings.json
- filter-test-output.sh
Fügen Sie dies zu Ihrer settings.json hinzu, um den Hook vor jedem Bash-Befehl auszuführen:
Verschieben Sie Anweisungen von CLAUDE.md zu Skills
Ihre CLAUDE.md-Datei wird beim Sitzungsstart in den Kontext geladen. Wenn sie detaillierte Anweisungen für spezifische Workflows enthält (wie PR-Reviews oder Datenbankmigrationen), sind diese Token vorhanden, auch wenn Sie nicht verwandte Arbeit erledigen. Skills werden bei Bedarf nur geladen, wenn sie aufgerufen werden, daher hält das Verschieben spezialisierter Anweisungen in Skills Ihren Basis-Kontext kleiner. Streben Sie danach, CLAUDE.md unter 200 Zeilen zu halten, indem Sie nur das Wesentliche einbeziehen.Passen Sie das erweiterte Denken an
Erweitertes Denken ist standardmäßig aktiviert, da es die Leistung bei komplexen Planungs- und Denkaufgaben erheblich verbessert. Thinking-Token werden als Output-Token abgerechnet, und das Standard-Budget kann je nach Modell Zehntausende Token pro Anfrage betragen. Für einfachere Aufgaben, bei denen tiefes Denken nicht erforderlich ist, können Sie Kosten reduzieren, indem Sie die Anstrengungsstufe mit/effort senken oder in /model, Denken in /config deaktivieren oder das Budget mit MAX_THINKING_TOKENS=8000 senken.
Delegieren Sie ausführliche Operationen an Subagents
Das Ausführen von Tests, das Abrufen von Dokumentation oder das Verarbeiten von Protokolldateien kann erheblichen Kontext verbrauchen. Delegieren Sie diese an Subagents, sodass die ausführliche Ausgabe im Kontext des Subagent bleibt, während nur eine Zusammenfassung zu Ihrem Hauptgespräch zurückkehrt.Verwalten Sie Agent-Team-Kosten
Agent-Teams verwenden ungefähr 7-mal mehr Token als Standard-Sitzungen, wenn Teammates im Plan Mode laufen, da jeder Teammate sein eigenes Kontextfenster verwaltet und als separate Claude-Instanz läuft. Halten Sie Team-Aufgaben klein und in sich geschlossen, um die Token-Nutzung pro Teammate zu begrenzen. Siehe Agent-Teams für Details.Schreiben Sie spezifische Prompts
Vage Anfragen wie „Verbessern Sie diese Codebasis” lösen breites Scannen aus. Spezifische Anfragen wie „Fügen Sie Eingabevalidierung zur Login-Funktion in auth.ts hinzu” ermöglichen es Claude, effizient mit minimalen Dateileser zu arbeiten.Arbeiten Sie effizient an komplexen Aufgaben
Für längere oder komplexere Arbeiten helfen diese Gewohnheiten, verschwendete Token durch das Gehen des falschen Weges zu vermeiden:- Verwenden Sie Plan Mode für komplexe Aufgaben: Drücken Sie Shift+Tab, um Plan Mode vor der Implementierung zu betreten. Claude erkundet die Codebasis und schlägt einen Ansatz zur Genehmigung vor, was teure Überarbeitungen verhindert, wenn die anfängliche Richtung falsch ist.
- Korrigieren Sie den Kurs früh: Wenn Claude in die falsche Richtung geht, drücken Sie Escape, um sofort zu stoppen. Verwenden Sie
/rewindoder doppeltippen Sie Escape, um das Gespräch und den Code zu einem vorherigen Checkpoint wiederherzustellen. - Geben Sie Verifizierungsziele an: Fügen Sie Testfälle ein, fügen Sie Screenshots ein oder definieren Sie erwartete Ausgabe in Ihrem Prompt. Wenn Claude seine eigene Arbeit verifizieren kann, erkennt es Probleme, bevor Sie Korrektionen anfordern müssen.
- Testen Sie schrittweise: Schreiben Sie eine Datei, testen Sie sie, dann fahren Sie fort. Dies erkennt Probleme früh, wenn sie billig zu beheben sind.
Hintergrund-Token-Nutzung
Claude Code verwendet Token für einige Hintergrund-Funktionalität, auch wenn untätig:- Gesprächszusammenfassung: Hintergrund-Jobs, die vorherige Gespräche für die
claude --resume-Funktion zusammenfassen - Befehlsverarbeitung: Einige Befehle wie
/usagekönnen Anfragen generieren, um den Status zu überprüfen
Verstehen Sie Änderungen im Claude Code-Verhalten
Claude Code erhält regelmäßig Updates, die ändern können, wie Funktionen funktionieren, einschließlich Kostenberichterstattung. Führen Sieclaude --version aus, um Ihre aktuelle Version zu überprüfen. Für spezifische Abrechnungsfragen kontaktieren Sie den Anthropic-Support über Ihr Console-Konto.