> ## Documentation Index
> Fetch the complete documentation index at: https://code.claude.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# Kosten effektiv verwalten

> Verfolgen Sie die Token-Nutzung, legen Sie Ausgabenlimits für Teams fest und reduzieren Sie Claude Code-Kosten durch Kontextverwaltung, Modellauswahl, Einstellungen für erweitertes Denken und Preprocessing-Hooks.

Claude Code wird nach API-Token-Verbrauch berechnet. Für Abonnementplan-Preise (Pro, Max, Team, Enterprise) siehe [claude.com/pricing](https://claude.com/pricing). Die Kosten pro Entwickler variieren stark je nach Modellauswahl, Codebasis-Größe und Nutzungsmustern wie dem Ausführen mehrerer Instanzen oder Automatisierung.

In unternehmensweiten Bereitstellungen betragen die durchschnittlichen Kosten etwa 13 USD pro Entwickler pro aktivem Tag und 150–250 USD pro Entwickler pro Monat, wobei die Kosten für 90 % der Benutzer unter 30 USD pro aktivem Tag bleiben. Um die Ausgaben für Ihr eigenes Team zu schätzen, beginnen Sie mit einer kleinen Pilotgruppe und verwenden Sie die Tracking-Tools unten, um eine Baseline zu etablieren, bevor Sie einen breiteren Rollout durchführen.

Diese Seite behandelt, wie Sie [Ihre Kosten verfolgen](#track-your-costs), [Kosten für Teams verwalten](#managing-costs-for-teams) und [Token-Nutzung reduzieren](#reduce-token-usage).

<h2 id="track-your-costs">
  Verfolgen Sie Ihre Kosten
</h2>

<h3 id="using-the-/usage-command">
  Verwenden des `/usage`-Befehls
</h3>

<Note>
  Der Session-Block in `/usage` zeigt die API-Token-Nutzung an und ist für API-Benutzer vorgesehen. Claude Max und Pro-Abonnenten haben die Nutzung in ihrem Abonnement enthalten, daher ist die Session-Kostenzahl nicht relevant für Abrechnungszwecke. Abonnenten sehen Plannutzungsbalken, Aktivitätsstatistiken und eine Nutzungsaufschlüsselung auf demselben Bildschirm.
</Note>

Der Session-Block oben in `/usage` zeigt detaillierte Token-Nutzungsstatistiken für Ihre aktuelle Sitzung. Die Dollarzahl ist eine Schätzung, die lokal aus Token-Zählungen berechnet wird, und kann sich von Ihrer tatsächlichen Rechnung unterscheiden. Für verbindliche Abrechnung siehe die Nutzungsseite in der [Claude Console](https://platform.claude.com/usage).

```text theme={null}
Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed
```

Auf einem Pro-, Max-, Team- oder Enterprise-Plan zeigt `/usage` auch eine Aufschlüsselung dessen, was gegen Ihre Planlimits zählt. Es ordnet die aktuelle Nutzung Skills, Subagenten, Plugins und einzelnen MCP-Servern zu, wobei jeder als Prozentsatz des Gesamtbetrags angezeigt wird. Drücken Sie `d` oder `w`, um zwischen den letzten 24 Stunden und den letzten 7 Tagen zu wechseln. Die Zahlen sind ungefähr und werden aus dem lokalen Sitzungsverlauf auf diesem Computer berechnet, daher ist die Nutzung von anderen Geräten oder claude.ai nicht enthalten.

In der [VS Code-Erweiterung](/de/vs-code#check-account-and-usage) wird die gleiche Aufschlüsselung im Dialog „Konto & Nutzung" mit einem Tag- und Woche-Umschalter angezeigt. Erfordert Claude Code v2.1.174 oder später.

<h2 id="managing-costs-for-teams">
  Verwalten Sie Kosten für Teams
</h2>

Bei Verwendung der Claude API können Sie [Workspace-Ausgabenlimits festlegen](https://platform.claude.com/docs/de/build-with-claude/workspaces#workspace-limits) für die gesamten Claude Code-Workspace-Ausgaben. Administratoren können [Kosten- und Nutzungsberichte anzeigen](https://platform.claude.com/docs/de/build-with-claude/workspaces#usage-and-cost-tracking) in der Console.

Bei Pro- und Max-Plänen können Sie mit dem Befehl `/usage-credits` ein monatliches Ausgabenlimit für Nutzungsguthaben festlegen. Wenn Sie dieses Limit erreichen, während Sie noch Nutzungsguthaben verfügbar haben, fordert Claude Code Sie auf, das Limit zu erhöhen oder zu entfernen, damit Sie ohne Unterbrechung der CLI fortfahren können. Das Ändern des Limits erfordert Abrechnungszugriff auf dem Konto.

<Note>
  Wenn Sie Claude Code zum ersten Mal mit Ihrem Claude Console-Konto authentifizieren, wird automatisch ein Workspace namens „Claude Code" für Sie erstellt. Dieser Workspace bietet zentrale Kostenverfolgung und Verwaltung für alle Claude Code-Nutzung in Ihrer Organisation. Sie können keine API-Schlüssel für diesen Workspace erstellen; er ist ausschließlich für Claude Code-Authentifizierung und -Nutzung.

  Für Organisationen mit benutzerdefinierten Ratenlimits zählt Claude Code-Verkehr in diesem Workspace zu den gesamten API-Ratenlimits Ihrer Organisation. Sie können ein [Workspace-Ratenlimit](https://platform.claude.com/docs/de/api/rate-limits#setting-lower-limits-for-workspaces) auf der Limits-Seite dieses Workspace in der Claude Console festlegen, um Claude Code's Anteil zu begrenzen und andere Produktions-Workloads zu schützen.
</Note>

Bei Bedrock, Vertex und Foundry sendet Claude Code keine Metriken aus Ihrer Cloud. Ein selbst gehostetes [Claude Apps Gateway](/de/claude-apps-gateway) bietet Nutzungszuordnung pro Benutzer, OTLP-Metriken mit Token-Zählungen und [Ausgabenlimits pro Benutzer](/de/claude-apps-gateway-spend-limits) auf diesen Anbietern. Organisationen, die Claude Code über ein anderes [LLM-Gateway](/de/llm-gateway) leiten, können die Ausgaben stattdessen am Gateway verfolgen, da es jede Anfrage sieht.

<h3 id="rate-limit-recommendations">
  Empfehlungen für Ratenlimits
</h3>

Beim Einrichten von Claude Code für Teams sollten Sie diese Token Pro Minute (TPM) und Anfragen Pro Minute (RPM) pro Benutzer-Empfehlungen basierend auf Ihrer Organisationsgröße berücksichtigen:

| Team-Größe       | TPM pro Benutzer | RPM pro Benutzer |
| ---------------- | ---------------- | ---------------- |
| 1–5 Benutzer     | 200.000–300.000  | 5–7              |
| 5–20 Benutzer    | 100.000–150.000  | 2,5–3,5          |
| 20–50 Benutzer   | 50.000–75.000    | 1,25–1,75        |
| 50–100 Benutzer  | 25.000–35.000    | 0,62–0,87        |
| 100–500 Benutzer | 15.000–20.000    | 0,37–0,47        |
| 500+ Benutzer    | 10.000–15.000    | 0,25–0,35        |

Wenn Sie beispielsweise 200 Benutzer haben, könnten Sie 20.000 TPM für jeden Benutzer anfordern, oder insgesamt 4 Millionen TPM (200\*20.000 = 4 Millionen).

Die TPM pro Benutzer sinkt mit zunehmender Team-Größe, da in größeren Organisationen weniger Benutzer Claude Code gleichzeitig verwenden. Diese Ratenlimits gelten auf Organisationsebene, nicht pro einzelnem Benutzer, was bedeutet, dass einzelne Benutzer vorübergehend mehr als ihren berechneten Anteil verbrauchen können, wenn andere den Service nicht aktiv nutzen.

<Note>
  Wenn Sie Szenarien mit ungewöhnlich hoher gleichzeitiger Nutzung erwarten (z. B. Live-Schulungssitzungen mit großen Gruppen), benötigen Sie möglicherweise höhere TPM-Zuordnungen pro Benutzer.
</Note>

<h3 id="agent-team-token-costs">
  Token-Kosten für Agent-Teams
</h3>

[Agent-Teams](/de/agent-teams) starten mehrere Claude Code-Instanzen, jede mit ihrem eigenen Kontextfenster. Die Token-Nutzung skaliert mit der Anzahl der aktiven Teammates und wie lange jeder läuft.

Um Agent-Team-Kosten überschaubar zu halten:

* Verwenden Sie Sonnet für Teammates. Es bietet ein Gleichgewicht zwischen Fähigkeit und Kosten für Koordinationsaufgaben.
* Halten Sie Teams klein. Jeder Teammate führt sein eigenes Kontextfenster aus, daher ist die Token-Nutzung ungefähr proportional zur Team-Größe.
* Halten Sie Spawn-Prompts fokussiert. Teammates laden CLAUDE.md, MCP-Server und Skills automatisch, aber alles im Spawn-Prompt trägt von Anfang an zu ihrem Kontext bei.
* Fahren Sie Teammates herunter, wenn ihre Arbeit erledigt ist. Jeder aktive Teammate verbraucht weiterhin Token, bis er beendet wird oder die Sitzung endet.
* Agent-Teams sind standardmäßig deaktiviert. Setzen Sie `CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1` in Ihrer [settings.json](/de/settings) oder Umgebung, um sie zu aktivieren. Siehe [Agent-Teams aktivieren](/de/agent-teams#enable-agent-teams).

<h2 id="reduce-token-usage">
  Reduzieren Sie die Token-Nutzung
</h2>

Token-Kosten skalieren mit der Kontextgröße: Je mehr Kontext Claude verarbeitet, desto mehr Token verwenden Sie. Claude Code optimiert Kosten automatisch durch [Prompt Caching](/de/prompt-caching), das Kosten für wiederholte Inhalte wie Systemprompts reduziert, und Auto-Compaction, das Gesprächsverlauf zusammenfasst, wenn sich dem Kontextlimit genähert wird.

Die folgenden Strategien helfen Ihnen, den Kontext klein zu halten und die Kosten pro Nachricht zu reduzieren.

<h3 id="manage-context-proactively">
  Verwalten Sie den Kontext proaktiv
</h3>

Verwenden Sie `/usage`, um Ihre aktuelle Token-Nutzung zu überprüfen, oder [konfigurieren Sie Ihre Statuszeile](/de/statusline#context-window-usage), um sie kontinuierlich anzuzeigen.

* **Zwischen Aufgaben löschen**: Verwenden Sie `/clear`, um neu zu beginnen, wenn Sie zu nicht verwandter Arbeit wechseln. Veralteter Kontext verschwendet Token bei jeder nachfolgenden Nachricht. Verwenden Sie `/rename` vor dem Löschen, damit Sie die Sitzung später leicht finden können, dann `/resume`, um zu ihr zurückzukehren.
* **Fügen Sie benutzerdefinierte Compaction-Anweisungen hinzu**: `/compact Focus on code samples and API usage` teilt Claude mit, was während der Zusammenfassung beibehalten werden soll.

Sie können das Compaction-Verhalten auch in Ihrer CLAUDE.md anpassen:

```markdown theme={null}
# Compact instructions

When you are using compact, please focus on test output and code changes
```

<h3 id="choose-the-right-model">
  Wählen Sie das richtige Modell
</h3>

Sonnet bewältigt die meisten Codierungsaufgaben gut und kostet weniger als Opus. Reservieren Sie Opus für komplexe architektonische Entscheidungen oder mehrstufiges Denken. Verwenden Sie `/model`, um Modelle während einer Sitzung zu wechseln, oder legen Sie einen Standard in `/config` fest. Für einfache Subagent-Aufgaben geben Sie `model: haiku` in Ihrer [Subagent-Konfiguration](/de/sub-agents#choose-a-model) an.

<h3 id="reduce-mcp-server-overhead">
  Reduzieren Sie den MCP-Server-Overhead
</h3>

MCP-Tool-Definitionen werden [standardmäßig aufgeschoben](/de/mcp#scale-with-mcp-tool-search), daher treten nur Tool-Namen in den Kontext ein, bis Claude ein bestimmtes Tool verwendet. Führen Sie `/context` aus, um zu sehen, was Platz verbraucht.

* **Bevorzugen Sie CLI-Tools, wenn verfügbar**: Tools wie `gh`, `aws`, `gcloud` und `sentry-cli` sind immer noch kontexteffektiver als MCP-Server, da sie keine Pro-Tool-Auflistung hinzufügen. Claude kann CLI-Befehle direkt ausführen.
* **Deaktivieren Sie ungenutzte Server**: Führen Sie `/mcp` aus, um konfigurierte Server anzuzeigen und alle zu deaktivieren, die Sie nicht aktiv verwenden.

<h3 id="install-code-intelligence-plugins-for-typed-languages">
  Installieren Sie Code-Intelligence-Plugins für typisierte Sprachen
</h3>

[Code-Intelligence-Plugins](/de/discover-plugins#code-intelligence) geben Claude präzise Symbol-Navigation statt textbasierter Suche, wodurch unnötige Dateileser beim Erkunden unbekannten Codes reduziert werden. Ein einzelner „Gehe zu Definition"-Aufruf ersetzt, was sonst ein Grep gefolgt vom Lesen mehrerer Kandidatendateien sein könnte. Installierte Sprachserver melden auch Typfehler automatisch nach Bearbeitungen, sodass Claude Fehler erkennt, ohne einen Compiler auszuführen.

<h3 id="offload-processing-to-hooks-and-skills">
  Verlagern Sie die Verarbeitung auf Hooks und Skills
</h3>

Benutzerdefinierte [Hooks](/de/hooks) können Daten vorverarbeiten, bevor Claude sie sieht. Anstatt dass Claude eine 10.000-Zeilen-Protokolldatei liest, um Fehler zu finden, kann ein Hook nach `ERROR` suchen und nur übereinstimmende Zeilen zurückgeben, wodurch der Kontext von Zehntausenden Token auf Hunderte reduziert wird.

Ein [Skill](/de/skills) kann Claude Domänenwissen geben, sodass es nicht erkunden muss. Beispielsweise könnte ein „codebase-overview"-Skill die Architektur Ihres Projekts, wichtige Verzeichnisse und Namenskonventionen beschreiben. Wenn Claude den Skill aufruft, erhält es diesen Kontext sofort, anstatt Token zu verschwenden, um mehrere Dateien zu lesen, um die Struktur zu verstehen.

Beispielsweise filtert dieser PreToolUse-Hook die Testausgabe, um nur Fehler anzuzeigen:

<Tabs>
  <Tab title="settings.json">
    Fügen Sie dies zu Ihrer [settings.json](/de/settings#settings-files) hinzu, um den Hook vor jedem Bash-Befehl auszuführen:

    ```json theme={null}
    {
      "hooks": {
        "PreToolUse": [
          {
            "matcher": "Bash",
            "hooks": [
              {
                "type": "command",
                "command": "~/.claude/hooks/filter-test-output.sh"
              }
            ]
          }
        ]
      }
    }
    ```
  </Tab>

  <Tab title="filter-test-output.sh">
    Der Hook ruft dieses Skript auf, das überprüft, ob der Befehl ein Test-Runner ist, und ihn ändert, um nur Fehler anzuzeigen:

    ```bash theme={null}
    #!/bin/bash
    input=$(cat)
    cmd=$(echo "$input" | jq -r '.tool_input.command')

    # If running tests, filter to show only failures
    if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
      filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
      echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
    else
      echo "{}"
    fi
    ```
  </Tab>
</Tabs>

<h3 id="move-instructions-from-claude-md-to-skills">
  Verschieben Sie Anweisungen von CLAUDE.md zu Skills
</h3>

Ihre [CLAUDE.md](/de/memory)-Datei wird beim Sitzungsstart in den Kontext geladen. Wenn sie detaillierte Anweisungen für spezifische Workflows enthält (wie PR-Reviews oder Datenbankmigrationen), sind diese Token vorhanden, auch wenn Sie nicht verwandte Arbeit erledigen. [Skills](/de/skills) werden bei Bedarf nur geladen, wenn sie aufgerufen werden, daher hält das Verschieben spezialisierter Anweisungen in Skills Ihren Basis-Kontext kleiner. Streben Sie danach, CLAUDE.md unter 200 Zeilen zu halten, indem Sie nur das Wesentliche einbeziehen.

<h3 id="adjust-extended-thinking">
  Passen Sie das erweiterte Denken an
</h3>

Erweitertes Denken ist standardmäßig aktiviert, da es die Leistung bei komplexen Planungs- und Denkaufgaben erheblich verbessert. Thinking-Token werden als Output-Token abgerechnet, und das Standard-Budget kann je nach Modell Zehntausende Token pro Anfrage betragen. Für einfachere Aufgaben, bei denen tiefes Denken nicht erforderlich ist, können Sie Kosten reduzieren, indem Sie die [Anstrengungsstufe](/de/model-config#adjust-effort-level) mit `/effort` senken oder in `/model`, Denken in `/config` deaktivieren oder auf Modellen mit einem [festen Thinking-Budget](/de/model-config#adaptive-reasoning-and-fixed-thinking-budgets) das Budget mit `MAX_THINKING_TOKENS=8000` senken. Adaptive-Reasoning-Modelle ignorieren Budgets ungleich Null, daher verwenden Sie stattdessen Anstrengungsstufen. Das Deaktivieren von Thinking ist auf Fable 5 nicht verfügbar, das immer erweitertes Denken verwendet.

<h3 id="delegate-verbose-operations-to-subagents">
  Delegieren Sie ausführliche Operationen an Subagents
</h3>

Das Ausführen von Tests, das Abrufen von Dokumentation oder das Verarbeiten von Protokolldateien kann erheblichen Kontext verbrauchen. Delegieren Sie diese an [Subagents](/de/sub-agents#isolate-high-volume-operations), sodass die ausführliche Ausgabe im Kontext des Subagent bleibt, während nur eine Zusammenfassung zu Ihrem Hauptgespräch zurückkehrt.

<h3 id="manage-agent-team-costs">
  Verwalten Sie Agent-Team-Kosten
</h3>

Agent-Teams verwenden ungefähr 7-mal mehr Token als Standard-Sitzungen, wenn Teammates im Plan Mode laufen, da jeder Teammate sein eigenes Kontextfenster verwaltet und als separate Claude-Instanz läuft. Halten Sie Team-Aufgaben klein und in sich geschlossen, um die Token-Nutzung pro Teammate zu begrenzen. Siehe [Agent-Teams](/de/agent-teams) für Details.

<h3 id="write-specific-prompts">
  Schreiben Sie spezifische Prompts
</h3>

Vage Anfragen wie „Verbessern Sie diese Codebasis" lösen breites Scannen aus. Spezifische Anfragen wie „Fügen Sie Eingabevalidierung zur Login-Funktion in auth.ts hinzu" ermöglichen es Claude, effizient mit minimalen Dateileser zu arbeiten.

<h3 id="work-efficiently-on-complex-tasks">
  Arbeiten Sie effizient an komplexen Aufgaben
</h3>

Für längere oder komplexere Arbeiten helfen diese Gewohnheiten, verschwendete Token durch das Gehen des falschen Weges zu vermeiden:

* **Verwenden Sie Plan Mode für komplexe Aufgaben**: Drücken Sie Shift+Tab, um [Plan Mode](/de/permission-modes#analyze-before-you-edit-with-plan-mode) vor der Implementierung zu betreten. Claude erkundet die Codebasis und schlägt einen Ansatz zur Genehmigung vor, was teure Überarbeitungen verhindert, wenn die anfängliche Richtung falsch ist.
* **Korrigieren Sie den Kurs früh**: Wenn Claude in die falsche Richtung geht, drücken Sie Escape, um sofort zu stoppen. Verwenden Sie `/rewind` oder doppeltippen Sie Escape, um das Gespräch und den Code zu einem vorherigen Checkpoint wiederherzustellen.
* **Geben Sie Verifizierungsziele an**: Fügen Sie Testfälle ein, fügen Sie Screenshots ein oder definieren Sie erwartete Ausgabe in Ihrem Prompt. Wenn Claude seine eigene Arbeit verifizieren kann, erkennt es Probleme, bevor Sie Korrektionen anfordern müssen.
* **Testen Sie schrittweise**: Schreiben Sie eine Datei, testen Sie sie, dann fahren Sie fort. Dies erkennt Probleme früh, wenn sie billig zu beheben sind.

<h2 id="background-token-usage">
  Hintergrund-Token-Nutzung
</h2>

Claude Code verwendet Token für einige Hintergrund-Funktionalität, auch wenn untätig:

* **Gesprächszusammenfassung**: Hintergrund-Jobs, die vorherige Gespräche für die `claude --resume`-Funktion zusammenfassen
* **Befehlsverarbeitung**: Einige Befehle wie `/usage` können Anfragen generieren, um den Status zu überprüfen

Diese Hintergrund-Prozesse verbrauchen eine kleine Menge Token (typischerweise unter 0,04 USD pro Sitzung), auch ohne aktive Interaktion.

<h2 id="understanding-changes-in-claude-code-behavior">
  Verstehen Sie Änderungen im Claude Code-Verhalten
</h2>

Claude Code erhält regelmäßig Updates, die ändern können, wie Funktionen funktionieren, einschließlich Kostenberichterstattung. Führen Sie `claude --version` aus, um Ihre aktuelle Version zu überprüfen. Für spezifische Abrechnungsfragen kontaktieren Sie den Anthropic-Support über Ihr [Console-Konto](https://platform.claude.com/login).