Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://code.claude.com/docs/llms.txt

Use this file to discover all available pages before exploring further.

Claude Code wird nach API-Token-Verbrauch berechnet. Für Abonnementplan-Preise (Pro, Max, Team, Enterprise) siehe claude.com/pricing. Die Kosten pro Entwickler variieren stark je nach Modellauswahl, Codebasis-Größe und Nutzungsmustern wie dem Ausführen mehrerer Instanzen oder Automatisierung. In unternehmensweiten Bereitstellungen betragen die durchschnittlichen Kosten etwa 13 USD pro Entwickler pro aktivem Tag und 150–250 USD pro Entwickler pro Monat, wobei die Kosten für 90 % der Benutzer unter 30 USD pro aktivem Tag bleiben. Um die Ausgaben für Ihr eigenes Team zu schätzen, beginnen Sie mit einer kleinen Pilotgruppe und verwenden Sie die Tracking-Tools unten, um eine Baseline zu etablieren, bevor Sie einen breiteren Rollout durchführen. Diese Seite behandelt, wie Sie Ihre Kosten verfolgen, Kosten für Teams verwalten und Token-Nutzung reduzieren.

Verfolgen Sie Ihre Kosten

Verwenden des /usage-Befehls

Der Session-Block in /usage zeigt die API-Token-Nutzung an und ist für API-Benutzer vorgesehen. Claude Max und Pro-Abonnenten haben die Nutzung in ihrem Abonnement enthalten, daher ist die Session-Kostenzahl nicht relevant für Abrechnungszwecke. Abonnenten sehen Plannutzungsbalken und Aktivitätsstatistiken auf demselben Bildschirm.
Der /usage-Befehl bietet detaillierte Token-Nutzungsstatistiken für Ihre aktuelle Sitzung. Die Dollarzahl ist eine Schätzung, die lokal aus Token-Zählungen berechnet wird, und kann sich von Ihrer tatsächlichen Rechnung unterscheiden. Für verbindliche Abrechnung siehe die Nutzungsseite in der Claude Console.
Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

Verwalten Sie Kosten für Teams

Bei Verwendung der Claude API können Sie Workspace-Ausgabenlimits festlegen für die gesamten Claude Code-Workspace-Ausgaben. Administratoren können Kosten- und Nutzungsberichte anzeigen in der Console.
Wenn Sie Claude Code zum ersten Mal mit Ihrem Claude Console-Konto authentifizieren, wird automatisch ein Workspace namens „Claude Code” für Sie erstellt. Dieser Workspace bietet zentrale Kostenverfolgung und Verwaltung für alle Claude Code-Nutzung in Ihrer Organisation. Sie können keine API-Schlüssel für diesen Workspace erstellen; er ist ausschließlich für Claude Code-Authentifizierung und -Nutzung.Für Organisationen mit benutzerdefinierten Ratenlimits zählt Claude Code-Verkehr in diesem Workspace zu den gesamten API-Ratenlimits Ihrer Organisation. Sie können ein Workspace-Ratenlimit auf der Limits-Seite dieses Workspace in der Claude Console festlegen, um Claude Code’s Anteil zu begrenzen und andere Produktions-Workloads zu schützen.
Bei Bedrock, Vertex und Foundry sendet Claude Code keine Metriken aus Ihrer Cloud. Um Kostenmetriken zu erhalten, berichteten mehrere große Unternehmen von der Verwendung von LiteLLM, einem Open-Source-Tool, das Unternehmen hilft, Ausgaben nach Schlüssel zu verfolgen. Dieses Projekt ist nicht mit Anthropic verbunden und wurde nicht auf Sicherheit überprüft.

Empfehlungen für Ratenlimits

Beim Einrichten von Claude Code für Teams sollten Sie diese Token Pro Minute (TPM) und Anfragen Pro Minute (RPM) pro Benutzer-Empfehlungen basierend auf Ihrer Organisationsgröße berücksichtigen:
Team-GrößeTPM pro BenutzerRPM pro Benutzer
1–5 Benutzer200.000–300.0005–7
5–20 Benutzer100.000–150.0002,5–3,5
20–50 Benutzer50.000–75.0001,25–1,75
50–100 Benutzer25.000–35.0000,62–0,87
100–500 Benutzer15.000–20.0000,37–0,47
500+ Benutzer10.000–15.0000,25–0,35
Wenn Sie beispielsweise 200 Benutzer haben, könnten Sie 20.000 TPM für jeden Benutzer anfordern, oder insgesamt 4 Millionen TPM (200*20.000 = 4 Millionen). Die TPM pro Benutzer sinkt mit zunehmender Team-Größe, da in größeren Organisationen weniger Benutzer Claude Code gleichzeitig verwenden. Diese Ratenlimits gelten auf Organisationsebene, nicht pro einzelnem Benutzer, was bedeutet, dass einzelne Benutzer vorübergehend mehr als ihren berechneten Anteil verbrauchen können, wenn andere den Service nicht aktiv nutzen.
Wenn Sie Szenarien mit ungewöhnlich hoher gleichzeitiger Nutzung erwarten (z. B. Live-Schulungssitzungen mit großen Gruppen), benötigen Sie möglicherweise höhere TPM-Zuordnungen pro Benutzer.

Token-Kosten für Agent-Teams

Agent-Teams starten mehrere Claude Code-Instanzen, jede mit ihrem eigenen Kontextfenster. Die Token-Nutzung skaliert mit der Anzahl der aktiven Teammates und wie lange jeder läuft. Um Agent-Team-Kosten überschaubar zu halten:
  • Verwenden Sie Sonnet für Teammates. Es bietet ein Gleichgewicht zwischen Fähigkeit und Kosten für Koordinationsaufgaben.
  • Halten Sie Teams klein. Jeder Teammate führt sein eigenes Kontextfenster aus, daher ist die Token-Nutzung ungefähr proportional zur Team-Größe.
  • Halten Sie Spawn-Prompts fokussiert. Teammates laden CLAUDE.md, MCP-Server und Skills automatisch, aber alles im Spawn-Prompt trägt von Anfang an zu ihrem Kontext bei.
  • Bereinigen Sie Teams, wenn die Arbeit erledigt ist. Aktive Teammates verbrauchen weiterhin Token, auch wenn sie untätig sind.
  • Agent-Teams sind standardmäßig deaktiviert. Setzen Sie CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 in Ihrer settings.json oder Umgebung, um sie zu aktivieren. Siehe Agent-Teams aktivieren.

Reduzieren Sie die Token-Nutzung

Token-Kosten skalieren mit der Kontextgröße: Je mehr Kontext Claude verarbeitet, desto mehr Token verwenden Sie. Claude Code optimiert Kosten automatisch durch Prompt Caching (das Kosten für wiederholte Inhalte wie Systemprompts reduziert) und Auto-Compaction (das Gesprächsverlauf zusammenfasst, wenn sich dem Kontextlimit genähert wird). Die folgenden Strategien helfen Ihnen, den Kontext klein zu halten und die Kosten pro Nachricht zu reduzieren.

Verwalten Sie den Kontext proaktiv

Verwenden Sie /usage, um Ihre aktuelle Token-Nutzung zu überprüfen, oder konfigurieren Sie Ihre Statuszeile, um sie kontinuierlich anzuzeigen.
  • Zwischen Aufgaben löschen: Verwenden Sie /clear, um neu zu beginnen, wenn Sie zu nicht verwandter Arbeit wechseln. Veralteter Kontext verschwendet Token bei jeder nachfolgenden Nachricht. Verwenden Sie /rename vor dem Löschen, damit Sie die Sitzung später leicht finden können, dann /resume, um zu ihr zurückzukehren.
  • Fügen Sie benutzerdefinierte Compaction-Anweisungen hinzu: /compact Focus on code samples and API usage teilt Claude mit, was während der Zusammenfassung beibehalten werden soll.
Sie können das Compaction-Verhalten auch in Ihrer CLAUDE.md anpassen:
# Compact instructions

When you are using compact, please focus on test output and code changes

Wählen Sie das richtige Modell

Sonnet bewältigt die meisten Codierungsaufgaben gut und kostet weniger als Opus. Reservieren Sie Opus für komplexe architektonische Entscheidungen oder mehrstufiges Denken. Verwenden Sie /model, um Modelle während einer Sitzung zu wechseln, oder legen Sie einen Standard in /config fest. Für einfache Subagent-Aufgaben geben Sie model: haiku in Ihrer Subagent-Konfiguration an.

Reduzieren Sie den MCP-Server-Overhead

MCP-Tool-Definitionen werden standardmäßig aufgeschoben, daher treten nur Tool-Namen in den Kontext ein, bis Claude ein bestimmtes Tool verwendet. Führen Sie /context aus, um zu sehen, was Platz verbraucht.
  • Bevorzugen Sie CLI-Tools, wenn verfügbar: Tools wie gh, aws, gcloud und sentry-cli sind immer noch kontexteffektiver als MCP-Server, da sie keine Pro-Tool-Auflistung hinzufügen. Claude kann CLI-Befehle direkt ausführen.
  • Deaktivieren Sie ungenutzte Server: Führen Sie /mcp aus, um konfigurierte Server anzuzeigen und alle zu deaktivieren, die Sie nicht aktiv verwenden.

Installieren Sie Code-Intelligence-Plugins für typisierte Sprachen

Code-Intelligence-Plugins geben Claude präzise Symbol-Navigation statt textbasierter Suche, wodurch unnötige Dateileser beim Erkunden unbekannten Codes reduziert werden. Ein einzelner „Gehe zu Definition”-Aufruf ersetzt, was sonst ein Grep gefolgt vom Lesen mehrerer Kandidatendateien sein könnte. Installierte Sprachserver melden auch Typfehler automatisch nach Bearbeitungen, sodass Claude Fehler erkennt, ohne einen Compiler auszuführen.

Verlagern Sie die Verarbeitung auf Hooks und Skills

Benutzerdefinierte Hooks können Daten vorverarbeiten, bevor Claude sie sieht. Anstatt dass Claude eine 10.000-Zeilen-Protokolldatei liest, um Fehler zu finden, kann ein Hook nach ERROR suchen und nur übereinstimmende Zeilen zurückgeben, wodurch der Kontext von Zehntausenden Token auf Hunderte reduziert wird. Ein Skill kann Claude Domänenwissen geben, sodass es nicht erkunden muss. Beispielsweise könnte ein „codebase-overview”-Skill die Architektur Ihres Projekts, wichtige Verzeichnisse und Namenskonventionen beschreiben. Wenn Claude den Skill aufruft, erhält es diesen Kontext sofort, anstatt Token zu verschwenden, um mehrere Dateien zu lesen, um die Struktur zu verstehen. Beispielsweise filtert dieser PreToolUse-Hook die Testausgabe, um nur Fehler anzuzeigen:
Fügen Sie dies zu Ihrer settings.json hinzu, um den Hook vor jedem Bash-Befehl auszuführen:
{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

Verschieben Sie Anweisungen von CLAUDE.md zu Skills

Ihre CLAUDE.md-Datei wird beim Sitzungsstart in den Kontext geladen. Wenn sie detaillierte Anweisungen für spezifische Workflows enthält (wie PR-Reviews oder Datenbankmigrationen), sind diese Token vorhanden, auch wenn Sie nicht verwandte Arbeit erledigen. Skills werden bei Bedarf nur geladen, wenn sie aufgerufen werden, daher hält das Verschieben spezialisierter Anweisungen in Skills Ihren Basis-Kontext kleiner. Streben Sie danach, CLAUDE.md unter 200 Zeilen zu halten, indem Sie nur das Wesentliche einbeziehen.

Passen Sie das erweiterte Denken an

Erweitertes Denken ist standardmäßig aktiviert, da es die Leistung bei komplexen Planungs- und Denkaufgaben erheblich verbessert. Thinking-Token werden als Output-Token abgerechnet, und das Standard-Budget kann je nach Modell Zehntausende Token pro Anfrage betragen. Für einfachere Aufgaben, bei denen tiefes Denken nicht erforderlich ist, können Sie Kosten reduzieren, indem Sie die Anstrengungsstufe mit /effort senken oder in /model, Denken in /config deaktivieren oder das Budget mit MAX_THINKING_TOKENS=8000 senken.

Delegieren Sie ausführliche Operationen an Subagents

Das Ausführen von Tests, das Abrufen von Dokumentation oder das Verarbeiten von Protokolldateien kann erheblichen Kontext verbrauchen. Delegieren Sie diese an Subagents, sodass die ausführliche Ausgabe im Kontext des Subagent bleibt, während nur eine Zusammenfassung zu Ihrem Hauptgespräch zurückkehrt.

Verwalten Sie Agent-Team-Kosten

Agent-Teams verwenden ungefähr 7-mal mehr Token als Standard-Sitzungen, wenn Teammates im Plan Mode laufen, da jeder Teammate sein eigenes Kontextfenster verwaltet und als separate Claude-Instanz läuft. Halten Sie Team-Aufgaben klein und in sich geschlossen, um die Token-Nutzung pro Teammate zu begrenzen. Siehe Agent-Teams für Details.

Schreiben Sie spezifische Prompts

Vage Anfragen wie „Verbessern Sie diese Codebasis” lösen breites Scannen aus. Spezifische Anfragen wie „Fügen Sie Eingabevalidierung zur Login-Funktion in auth.ts hinzu” ermöglichen es Claude, effizient mit minimalen Dateileser zu arbeiten.

Arbeiten Sie effizient an komplexen Aufgaben

Für längere oder komplexere Arbeiten helfen diese Gewohnheiten, verschwendete Token durch das Gehen des falschen Weges zu vermeiden:
  • Verwenden Sie Plan Mode für komplexe Aufgaben: Drücken Sie Shift+Tab, um Plan Mode vor der Implementierung zu betreten. Claude erkundet die Codebasis und schlägt einen Ansatz zur Genehmigung vor, was teure Überarbeitungen verhindert, wenn die anfängliche Richtung falsch ist.
  • Korrigieren Sie den Kurs früh: Wenn Claude in die falsche Richtung geht, drücken Sie Escape, um sofort zu stoppen. Verwenden Sie /rewind oder doppeltippen Sie Escape, um das Gespräch und den Code zu einem vorherigen Checkpoint wiederherzustellen.
  • Geben Sie Verifizierungsziele an: Fügen Sie Testfälle ein, fügen Sie Screenshots ein oder definieren Sie erwartete Ausgabe in Ihrem Prompt. Wenn Claude seine eigene Arbeit verifizieren kann, erkennt es Probleme, bevor Sie Korrektionen anfordern müssen.
  • Testen Sie schrittweise: Schreiben Sie eine Datei, testen Sie sie, dann fahren Sie fort. Dies erkennt Probleme früh, wenn sie billig zu beheben sind.

Hintergrund-Token-Nutzung

Claude Code verwendet Token für einige Hintergrund-Funktionalität, auch wenn untätig:
  • Gesprächszusammenfassung: Hintergrund-Jobs, die vorherige Gespräche für die claude --resume-Funktion zusammenfassen
  • Befehlsverarbeitung: Einige Befehle wie /usage können Anfragen generieren, um den Status zu überprüfen
Diese Hintergrund-Prozesse verbrauchen eine kleine Menge Token (typischerweise unter 0,04 USD pro Sitzung), auch ohne aktive Interaktion.

Verstehen Sie Änderungen im Claude Code-Verhalten

Claude Code erhält regelmäßig Updates, die ändern können, wie Funktionen funktionieren, einschließlich Kostenberichterstattung. Führen Sie claude --version aus, um Ihre aktuelle Version zu überprüfen. Für spezifische Abrechnungsfragen kontaktieren Sie den Anthropic-Support über Ihr Console-Konto.