跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://code.claude.com/docs/llms.txt

Use this file to discover all available pages before exploring further.

Claude Code 按 API 令牌消耗收费。有关订阅计划定价(Pro、Max、Team、Enterprise),请参阅 claude.com/pricing。每个开发者的成本差异很大,取决于模型选择、代码库大小和使用模式,例如运行多个实例或自动化。 在企业部署中,平均成本约为每个开发者每个活跃日 13,每个开发者每月13,每个开发者每月 150-250,90% 的用户每个活跃日成本保持在 $30 以下。要估计您自己团队的支出,请从一个小的试点团体开始,并使用下面的跟踪工具建立基线,然后再进行更广泛的推出。 本页面介绍如何跟踪成本管理团队成本减少令牌使用

跟踪成本

使用 /usage 命令

/usage 中的 Session 块显示 API 令牌使用情况,适用于 API 用户。Claude Max 和 Pro 订阅者的使用情况包含在订阅中,因此会话成本数据与计费无关。订阅者在同一屏幕上看到计划使用条和活动统计。
/usage 命令为您的当前会话提供详细的令牌使用统计。美元数字是从令牌计数本地计算的估计值,可能与您的实际账单不同。有关权威计费,请参阅 Claude Console 中的使用情况页面。
Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

管理团队成本

使用 Claude API 时,您可以在 Claude Code 工作区上设置工作区支出限制。管理员可以在 Console 中查看成本和使用情况报告
当您首次使用 Claude Console 账户对 Claude Code 进行身份验证时,会自动为您创建一个名为”Claude Code”的工作区。此工作区为您的组织中的所有 Claude Code 使用情况提供集中式成本跟踪和管理。您无法为此工作区创建 API 密钥;它专门用于 Claude Code 身份验证和使用。对于具有自定义速率限制的组织,此工作区中的 Claude Code 流量计入您的组织整体 API 速率限制。您可以在 Claude Console 的此工作区的 Limits 页面上设置工作区速率限制,以限制 Claude Code 的份额并保护其他生产工作负载。
在 Bedrock、Vertex 和 Foundry 上,Claude Code 不会从您的云中发送指标。为了获取成本指标,几家大型企业报告使用LiteLLM,这是一个开源工具,可帮助公司按密钥跟踪支出。此项目与 Anthropic 无关,尚未进行安全审计。

速率限制建议

为团队设置 Claude Code 时,请根据您的组织规模考虑这些每用户的令牌/分钟 (TPM) 和请求/分钟 (RPM) 建议:
团队规模每用户 TPM每用户 RPM
1-5 用户200k-300k5-7
5-20 用户100k-150k2.5-3.5
20-50 用户50k-75k1.25-1.75
50-100 用户25k-35k0.62-0.87
100-500 用户15k-20k0.37-0.47
500+ 用户10k-15k0.25-0.35
例如,如果您有 200 个用户,您可能会为每个用户请求 20k TPM,或总共 400 万 TPM (200*20,000 = 400 万)。 随着团队规模的增长,每用户的 TPM 会减少,因为在较大的组织中,往往较少的用户同时使用 Claude Code。这些速率限制在组织级别应用,而不是按个人用户应用,这意味着当其他人未积极使用该服务时,个人用户可以暂时消耗超过其计算份额的资源。
如果您预期会出现异常高的并发使用情况(例如与大型团体进行的实时培训会话),您可能需要更高的每用户 TPM 分配。

Agent 团队令牌成本

Agent 团队生成多个 Claude Code 实例,每个实例都有自己的上下文窗口。令牌使用情况随活跃队友的数量和每个队友运行的时间长度而扩展。 为了保持 agent 团队成本可控:
  • 为队友使用 Sonnet。它为协调任务平衡了能力和成本。
  • 保持团队规模小。每个队友运行自己的上下文窗口,因此令牌使用大致与团队规模成正比。
  • 保持生成提示的重点。队友会自动加载 CLAUDE.md、MCP servers 和 skills,但生成提示中的所有内容都会从一开始就添加到其上下文中。
  • 工作完成后清理团队。活跃的队友即使处于空闲状态也会继续消耗令牌。
  • Agent 团队默认被禁用。在您的settings.json或环境中设置 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 以启用它们。请参阅启用 agent 团队

减少令牌使用

令牌成本随上下文大小而扩展:Claude 处理的上下文越多,您使用的令牌就越多。Claude Code 通过 prompt caching(减少重复内容(如系统提示)的成本)和 auto-compact(在接近上下文限制时总结对话历史)自动优化成本。 以下策略可帮助您保持上下文较小并降低每条消息的成本。

主动管理上下文

使用 /usage 检查您当前的令牌使用情况,或配置您的状态行以连续显示它。
  • 在任务之间清除:使用 /clear 在切换到不相关的工作时重新开始。陈旧的上下文会在随后的每条消息上浪费令牌。在清除之前使用 /rename 以便您稍后可以轻松找到会话,然后使用 /resume 返回到它。
  • 添加自定义 compaction 指令/compact Focus on code samples and API usage 告诉 Claude 在总结期间保留什么。
您还可以在 CLAUDE.md 中自定义 compaction 行为:
# Compact instructions

When you are using compact, please focus on test output and code changes

选择正确的模型

Sonnet 处理大多数编码任务效果很好,成本低于 Opus。为复杂的架构决策或多步推理保留 Opus。使用 /model 在会话中途切换模型,或在 /config 中设置默认值。对于简单的 subagent 任务,在您的subagent 配置中指定 model: haiku

减少 MCP server 开销

MCP 工具定义默认被延迟,因此只有工具名称进入上下文,直到 Claude 使用特定工具。运行 /context 查看占用空间的内容。
  • 在可用时优先使用 CLI 工具ghawsgcloudsentry-cli 等工具比 MCP servers 更节省上下文,因为它们不添加任何每工具列表。Claude 可以直接运行 CLI 命令。
  • 禁用未使用的 servers:运行 /mcp 查看配置的 servers 并禁用您未积极使用的任何 servers。

为类型化语言安装代码智能插件

代码智能插件为 Claude 提供精确的符号导航,而不是基于文本的搜索,减少在探索不熟悉的代码时不必要的文件读取。单个”转到定义”调用替代了可能需要的 grep 后跟读取多个候选文件。已安装的语言服务器还会在编辑后自动报告类型错误,因此 Claude 无需运行编译器即可捕获错误。

将处理卸载到 hooks 和 skills

自定义hooks可以在 Claude 看到数据之前对其进行预处理。Claude 不是读取 10,000 行日志文件来查找错误,hook 可以 grep ERROR 并仅返回匹配的行,将上下文从数万个令牌减少到数百个。 skill可以为 Claude 提供领域知识,这样它就不必进行探索。例如,“codebase-overview” skill 可以描述您的项目架构、关键目录和命名约定。当 Claude 调用该 skill 时,它会立即获得此上下文,而不是花费令牌读取多个文件来理解结构。 例如,此 PreToolUse hook 过滤测试输出以仅显示失败:
将此添加到您的settings.json以在每个 Bash 命令之前运行 hook:
{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

将指令从 CLAUDE.md 移动到 skills

您的CLAUDE.md文件在会话开始时加载到上下文中。如果它包含特定工作流的详细指令(如 PR 审查或数据库迁移),即使您在做不相关的工作时,这些令牌也会存在。Skills仅在调用时按需加载,因此将专门指令移动到 skills 中可以保持您的基础上下文较小。目标是通过仅包含必要内容来将 CLAUDE.md 保持在 200 行以下。

调整扩展思考

扩展思考默认启用,因为它显著改进了复杂规划和推理任务的性能。思考令牌作为输出令牌计费,默认预算可能是每个请求数万个令牌,具体取决于模型。对于不需要深度推理的更简单任务,您可以通过在 /effort 中或在 /model 中降低努力级别、在 /config 中禁用思考或使用 MAX_THINKING_TOKENS=8000 降低预算来降低成本。

将冗长的操作委托给 subagents

运行测试、获取文档或处理日志文件可能会消耗大量上下文。将这些委托给subagents,以便冗长的输出保留在 subagent 的上下文中,而只有摘要返回到您的主对话。

管理 agent 团队成本

当队友在 plan mode 中运行时,Agent 团队使用的令牌大约是标准会话的 7 倍,因为每个队友维护自己的上下文窗口并作为单独的 Claude 实例运行。保持团队任务小且独立,以限制每个队友的令牌使用。有关详细信息,请参阅agent 团队

编写具体的提示

模糊的请求(如”改进此代码库”)会触发广泛扫描。具体的请求(如”向 auth.ts 中的登录函数添加输入验证”)让 Claude 能够以最少的文件读取高效地工作。

高效处理复杂任务

对于较长或更复杂的工作,这些习惯有助于避免因走错路而浪费的令牌:
  • 对复杂任务使用 plan mode:按 Shift+Tab 进入plan mode,然后再进行实现。Claude 探索代码库并提出一个方法供您批准,防止当初始方向错误时的昂贵返工。
  • 尽早纠正方向:如果 Claude 开始朝错误的方向发展,按 Escape 立即停止。使用 /rewind 或双击 Escape 将对话和代码恢复到之前的 checkpoint。
  • 给出验证目标:在您的提示中包含测试用例、粘贴屏幕截图或定义预期输出。当 Claude 可以验证自己的工作时,它会在您需要请求修复之前捕获问题。
  • 增量测试:编写一个文件,测试它,然后继续。这会在问题便宜时尽早捕获问题。

后台令牌使用

Claude Code 即使在空闲时也会为某些后台功能使用令牌:
  • 对话总结:为 claude --resume 功能总结以前对话的后台作业
  • 命令处理:某些命令(如 /usage)可能会生成请求以检查状态
这些后台进程即使没有活跃交互也会消耗少量令牌(通常每个会话不到 $0.04)。

了解 Claude Code 行为的变化

Claude Code 定期接收可能改变功能工作方式的更新,包括成本报告。运行 claude --version 检查您的当前版本。如有具体计费问题,请通过您的Console 账户联系 Anthropic 支持。