有效管理成本 - Claude Code Docs

Claude Code 按 API 令牌消耗收费。有关订阅计划定价（Pro、Max、Team、Enterprise），请参阅 claude.com/pricing。每个开发者的成本差异很大，取决于模型选择、代码库大小和使用模式，例如运行多个实例或自动化。在企业部署中，平均成本约为每个开发者每个活跃日

13，每个开发者每月

150-250，90% 的用户每个活跃日成本保持在 $30 以下。要估计您自己团队的支出，请从一个小的试点团体开始，并使用下面的跟踪工具建立基线，然后再进行更广泛的推出。本页面介绍如何跟踪成本、管理团队成本和减少令牌使用。

跟踪成本

使用 `/usage` 命令

/usage 中的 Session 块显示 API 令牌使用情况，适用于 API 用户。Claude Max 和 Pro 订阅者的使用情况包含在订阅中，因此会话成本数据与计费无关。订阅者在同一屏幕上看到计划使用条和活动统计以及使用情况明细。

/usage 顶部的 Session 块显示当前会话的详细令牌使用统计。美元数字是从令牌计数本地计算的估计值，可能与您的实际账单不同。有关权威计费，请参阅 Claude Console 中的使用情况页面。

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

在 Pro、Max、Team 或 Enterprise 计划上，/usage 还显示计入您的计划限制的内容明细。它将最近的使用情况归属于 skills、subagents、plugins 和各个 MCP 服务器，每个都显示为总数的百分比。按 d 或 w 在过去 24 小时和过去 7 天之间切换。这些数据是近似值，从此机器上的本地会话历史记录计算，因此不包括来自其他设备或 claude.ai 的使用情况。

管理团队成本

使用 Claude API 时，您可以在 Claude Code 工作区上设置工作区支出限制。管理员可以在 Console 中查看成本和使用情况报告。在 Pro 和 Max 计划中，您可以使用 /usage-credits 命令在使用额度上设置每月支出限制。如果在您仍有可用使用额度的情况下达到该限制，Claude Code 会提示您提高或移除该限制，以便您可以继续使用而无需离开 CLI。更改限制需要账户的计费访问权限。

当您首次使用 Claude Console 账户对 Claude Code 进行身份验证时，会自动为您创建一个名为”Claude Code”的工作区。此工作区为您的组织中的所有 Claude Code 使用情况提供集中式成本跟踪和管理。您无法为此工作区创建 API 密钥；它专门用于 Claude Code 身份验证和使用。对于具有自定义速率限制的组织，此工作区中的 Claude Code 流量计入您的组织整体 API 速率限制。您可以在 Claude Console 的此工作区的 Limits 页面上设置工作区速率限制，以限制 Claude Code 的份额并保护其他生产工作负载。

在 Bedrock、Vertex 和 Foundry 上，Claude Code 不会从您的云中发送指标。为了获取成本指标，几家大型企业报告使用LiteLLM，这是一个开源工具，可帮助公司按密钥跟踪支出。此项目与 Anthropic 无关，尚未进行安全审计。

速率限制建议

为团队设置 Claude Code 时，请根据您的组织规模考虑这些每用户的令牌/分钟 (TPM) 和请求/分钟 (RPM) 建议：

团队规模	每用户 TPM	每用户 RPM
1-5 用户	200k-300k	5-7
5-20 用户	100k-150k	2.5-3.5
20-50 用户	50k-75k	1.25-1.75
50-100 用户	25k-35k	0.62-0.87
100-500 用户	15k-20k	0.37-0.47
500+ 用户	10k-15k	0.25-0.35

例如，如果您有 200 个用户，您可能会为每个用户请求 20k TPM，或总共 400 万 TPM (200*20,000 = 400 万)。随着团队规模的增长，每用户的 TPM 会减少，因为在较大的组织中，往往较少的用户同时使用 Claude Code。这些速率限制在组织级别应用，而不是按个人用户应用，这意味着当其他人未积极使用该服务时，个人用户可以暂时消耗超过其计算份额的资源。

如果您预期会出现异常高的并发使用情况（例如与大型团体进行的实时培训会话），您可能需要更高的每用户 TPM 分配。

Agent 团队令牌成本

Agent 团队生成多个 Claude Code 实例，每个实例都有自己的上下文窗口。令牌使用情况随活跃队友的数量和每个队友运行的时间长度而扩展。为了保持 agent 团队成本可控：

为队友使用 Sonnet。它为协调任务平衡了能力和成本。
保持团队规模小。每个队友运行自己的上下文窗口，因此令牌使用大致与团队规模成正比。
保持生成提示的重点。队友会自动加载 CLAUDE.md、MCP servers 和 skills，但生成提示中的所有内容都会从一开始就添加到其上下文中。
工作完成后清理团队。活跃的队友即使处于空闲状态也会继续消耗令牌。
Agent 团队默认被禁用。在您的settings.json或环境中设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 以启用它们。请参阅启用 agent 团队。

减少令牌使用

令牌成本随上下文大小而扩展：Claude 处理的上下文越多，您使用的令牌就越多。Claude Code 通过 prompt caching（减少重复内容（如系统提示）的成本）和 auto-compact（在接近上下文限制时总结对话历史）自动优化成本。以下策略可帮助您保持上下文较小并降低每条消息的成本。

主动管理上下文

使用 /usage 检查您当前的令牌使用情况，或配置您的状态行以连续显示它。

在任务之间清除：使用 /clear 在切换到不相关的工作时重新开始。陈旧的上下文会在随后的每条消息上浪费令牌。在清除之前使用 /rename 以便您稍后可以轻松找到会话，然后使用 /resume 返回到它。
添加自定义 compaction 指令：/compact Focus on code samples and API usage 告诉 Claude 在总结期间保留什么。

您还可以在 CLAUDE.md 中自定义 compaction 行为：

# Compact instructions

When you are using compact, please focus on test output and code changes

选择正确的模型

Sonnet 处理大多数编码任务效果很好，成本低于 Opus。为复杂的架构决策或多步推理保留 Opus。使用 /model 在会话中途切换模型，或在 /config 中设置默认值。对于简单的 subagent 任务，在您的 subagent 配置中指定 model: haiku。

减少 MCP server 开销

MCP 工具定义默认被延迟，因此只有工具名称进入上下文，直到 Claude 使用特定工具。运行 /context 查看占用空间的内容。

在可用时优先使用 CLI 工具：gh、aws、gcloud 和 sentry-cli 等工具比 MCP servers 更节省上下文，因为它们不添加任何每工具列表。Claude 可以直接运行 CLI 命令。
禁用未使用的 servers：运行 /mcp 查看配置的 servers 并禁用您未积极使用的任何 servers。

为类型化语言安装代码智能插件

代码智能插件为 Claude 提供精确的符号导航，而不是基于文本的搜索，减少在探索不熟悉的代码时不必要的文件读取。单个”转到定义”调用替代了可能需要的 grep 后跟读取多个候选文件。已安装的语言服务器还会在编辑后自动报告类型错误，因此 Claude 无需运行编译器即可捕获错误。

将处理卸载到 hooks 和 skills

自定义 hooks可以在 Claude 看到数据之前对其进行预处理。Claude 不是读取 10,000 行日志文件来查找错误，hook 可以 grep ERROR 并仅返回匹配的行，将上下文从数万个令牌减少到数百个。 skill可以为 Claude 提供领域知识，这样它就不必进行探索。例如，“codebase-overview” skill 可以描述您的项目架构、关键目录和命名约定。当 Claude 调用该 skill 时，它会立即获得此上下文，而不是花费令牌读取多个文件来理解结构。例如，此 PreToolUse hook 过滤测试输出以仅显示失败：

settings.json
filter-test-output.sh

将此添加到您的 settings.json以在每个 Bash 命令之前运行 hook：

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

hook 调用此脚本，该脚本检查命令是否为测试运行器并修改它以仅显示失败：

#!/bin/bash
input=$(cat)
cmd=$(echo "$input" | jq -r '.tool_input.command')

# If running tests, filter to show only failures
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
  echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
else
  echo "{}"
fi

将指令从 CLAUDE.md 移动到 skills

您的 CLAUDE.md文件在会话开始时加载到上下文中。如果它包含特定工作流的详细指令（如 PR 审查或数据库迁移），即使您在做不相关的工作时，这些令牌也会存在。Skills仅在调用时按需加载，因此将专门指令移动到 skills 中可以保持您的基础上下文较小。目标是通过仅包含必要内容来将 CLAUDE.md 保持在 200 行以下。

调整扩展思考

扩展思考默认启用，因为它显著改进了复杂规划和推理任务的性能。思考令牌作为输出令牌计费，默认预算可能是每个请求数万个令牌，具体取决于模型。对于不需要深度推理的更简单任务，您可以通过在 /effort 中或在 /model 中降低 effort level、在 /config 中禁用思考或使用 MAX_THINKING_TOKENS=8000 降低预算来降低成本。

将冗长的操作委托给 subagents

运行测试、获取文档或处理日志文件可能会消耗大量上下文。将这些委托给 subagents，以便冗长的输出保留在 subagent 的上下文中，而只有摘要返回到您的主对话。

管理 agent 团队成本

当队友在 plan mode 中运行时，Agent 团队使用的令牌大约是标准会话的 7 倍，因为每个队友维护自己的上下文窗口并作为单独的 Claude 实例运行。保持团队任务小且独立，以限制每个队友的令牌使用。有关详细信息，请参阅 agent 团队。

编写具体的提示

模糊的请求（如”改进此代码库”）会触发广泛扫描。具体的请求（如”向 auth.ts 中的登录函数添加输入验证”）让 Claude 能够以最少的文件读取高效地工作。

高效处理复杂任务

对于较长或更复杂的工作，这些习惯有助于避免因走错路而浪费的令牌：

对复杂任务使用 plan mode：按 Shift+Tab 进入 plan mode，然后再进行实现。Claude 探索代码库并提出一个方法供您批准，防止当初始方向错误时的昂贵返工。
尽早纠正方向：如果 Claude 开始朝错误的方向发展，按 Escape 立即停止。使用 /rewind 或双击 Escape 将对话和代码恢复到之前的 checkpoint。
给出验证目标：在您的提示中包含测试用例、粘贴屏幕截图或定义预期输出。当 Claude 可以验证自己的工作时，它会在您需要请求修复之前捕获问题。
增量测试：编写一个文件，测试它，然后继续。这会在问题便宜时尽早捕获问题。

后台令牌使用

Claude Code 即使在空闲时也会为某些后台功能使用令牌：

对话总结：为 claude --resume 功能总结以前对话的后台作业
命令处理：某些命令（如 /usage）可能会生成请求以检查状态

这些后台进程即使没有活跃交互也会消耗少量令牌（通常每个会话不到 $0.04）。

了解 Claude Code 行为的变化

Claude Code 定期接收可能改变功能工作方式的更新，包括成本报告。运行 claude --version 检查您的当前版本。如有具体计费问题，请通过您的Console 账户联系 Anthropic 支持。

​跟踪成本

​使用 /usage 命令

​管理团队成本

​速率限制建议

​Agent 团队令牌成本

​减少令牌使用

​主动管理上下文

​选择正确的模型

​减少 MCP server 开销

​为类型化语言安装代码智能插件

​将处理卸载到 hooks 和 skills

​将指令从 CLAUDE.md 移动到 skills

​调整扩展思考

​将冗长的操作委托给 subagents

​管理 agent 团队成本

​编写具体的提示

​高效处理复杂任务

​后台令牌使用

​了解 Claude Code 行为的变化

跟踪成本

使用 `/usage` 命令

管理团队成本

速率限制建议

Agent 团队令牌成本

减少令牌使用

主动管理上下文

选择正确的模型

减少 MCP server 开销

为类型化语言安装代码智能插件

将处理卸载到 hooks 和 skills

将指令从 CLAUDE.md 移动到 skills

调整扩展思考

将冗长的操作委托给 subagents

管理 agent 团队成本

编写具体的提示

高效处理复杂任务

后台令牌使用

了解 Claude Code 行为的变化