理解令牌使用情况
TypeScript 和 Python SDK 使用不同的字段名称公开相同的使用数据:- TypeScript 在每个助手消息上提供每步令牌细分(
message.message.id、message.message.usage),通过结果消息上的modelUsage提供每个模型的成本,以及结果消息上的累积总计。 - Python 在每个助手消息上提供每步令牌细分(
message.usage、message.message_id),通过结果消息上的model_usage提供每个模型的成本,以及结果消息上的累积总计(total_cost_usd和usage字典)。
query()调用: SDK 的query()函数的一次调用。单个调用可能涉及多个步骤(Claude 响应、使用工具、获取结果、再次响应)。每个调用在末尾产生一条result消息。- 步骤:
query()调用中的单个请求/响应周期。每个步骤产生带有令牌使用情况的助手消息。 - 会话: 由会话 ID 链接的一系列
query()调用(使用resume选项)。会话中的每个query()调用独立报告其自己的成本。
query() 调用的消息流,在每个步骤报告令牌使用情况,末尾显示累积估计:
每个步骤产生助手消息
当 Claude 响应时,它发送一条或多条助手消息。在 TypeScript 中,每条助手消息包含一个嵌套的
BetaMessage(通过 message.message 访问),具有 id 和一个 usage 对象,其中包含令牌计数(input_tokens、output_tokens)。在 Python 中,AssistantMessage 数据类通过 message.usage 和 message.message_id 直接公开相同的数据。当 Claude 在一个回合中使用多个工具时,该回合中的所有消息共享相同的 ID,因此按 ID 去重以避免重复计数。结果消息提供累积估计
当
query() 调用完成时,SDK 发出一条结果消息,其中包含 total_cost_usd 和累积 usage。这在 TypeScript(SDKResultMessage)和 Python(ResultMessage)中都可用。如果您进行多个 query() 调用(例如,在多轮会话中),每个结果仅反映该单个调用的成本。如果您只需要估计的总计,可以忽略每步使用情况并读取此单个值。获取查询的总成本
结果消息(TypeScript、Python)标记query() 调用的代理循环的结束。它包括 total_cost_usd,即该调用中所有步骤的累积估计成本。这适用于成功和错误结果。如果您使用会话进行多个 query() 调用,每个结果仅反映该单个调用的成本。
以下示例遍历 query() 调用的消息流,并在 result 消息到达时打印总成本:
跟踪每步和每个模型的使用情况
本部分中的示例使用 TypeScript 字段名称。在 Python 中,等效字段是AssistantMessage.usage 和 AssistantMessage.message_id 用于每步使用情况,以及 ResultMessage.model_usage 用于每个模型的细分。
跟踪每步使用情况
每条助手消息包含一个嵌套的BetaMessage(通过 message.message 访问),具有 id 和 usage 对象,其中包含令牌计数。当 Claude 并行使用工具时,多条消息共享相同的 id 和相同的使用数据。跟踪您已经计数的 ID,并跳过重复项以避免膨胀的总计。
以下示例累积所有步骤中的输入和输出令牌,仅计数每个唯一消息 ID 一次:
按模型细分使用情况
结果消息包括modelUsage,这是一个模型名称到每个模型令牌计数和成本的映射。当您运行多个模型(例如,为子代理使用 Haiku,为主代理使用 Opus)并想查看令牌的去向时,这很有用。
以下示例运行查询并打印所使用的每个模型的成本和令牌细分:
累积多个调用的成本
每个query() 调用返回其自己的 total_cost_usd。SDK 不提供会话级别的总计,因此如果您的应用程序进行多个 query() 调用(例如,在多轮会话中或跨不同用户),请自己累积总计。
以下示例按顺序运行两个 query() 调用,将每个调用的 total_cost_usd 添加到运行总计,并打印每个调用和合并的成本:
处理错误、缓存和令牌差异
为了准确的成本跟踪,需要考虑失败的对话、缓存令牌定价和偶发的报告不一致。解决输出令牌差异
在极少数情况下,您可能会观察到具有相同 ID 的消息的output_tokens 值不同。当这种情况发生时:
- 使用最高值: 一组中的最终消息通常包含准确的总计。
- 优先使用结果消息: 结果消息中的
total_cost_usd反映 SDK 在所有步骤中的累积估计,因此比自己求和每步值更可靠。它仍然是一个估计值,可能与您的实际账单不同。 - 报告不一致: 在 Claude Code GitHub 存储库 提交问题。
跟踪失败对话的成本
成功和错误结果消息都包括usage 和 total_cost_usd。如果对话在中途失败,您仍然消耗了到失败点为止的令牌。无论其 subtype 如何,始终从结果消息读取成本数据。
跟踪缓存令牌
Agent SDK 自动使用 prompt caching 来减少重复内容的成本。您不需要自己配置缓存。使用对象包括两个额外的字段用于缓存跟踪:cache_creation_input_tokens:用于创建新缓存条目的令牌(按比标准输入令牌更高的速率计费)。cache_read_input_tokens:从现有缓存条目读取的令牌(按降低的速率计费)。
input_tokens 分开跟踪以了解缓存节省。在 TypeScript 中,这些字段在 Usage 对象上进行类型化。在 Python 中,它们作为 ResultMessage.usage 字典中的键出现(例如,message.usage.get("cache_read_input_tokens", 0))。
将 prompt cache TTL 扩展到一小时
当您使用 API 密钥进行身份验证或在 Amazon Bedrock、Google Cloud Vertex AI 或 Microsoft Foundry 上运行时,SDK 写入的缓存条目默认使用 5 分钟 TTL。如果您的工作负载针对相同的系统提示和上下文运行许多短会话,且会话之间的间隔超过 5 分钟,缓存会在会话之间过期,每个新会话都会支付完整的输入价格。 要请求缓存写入的 1 小时 TTL,请设置ENABLE_PROMPT_CACHING_1H 环境变量。您可以在 shell 或容器环境中导出它,或通过 options.env 传递它。
以下示例为在 Bedrock 上运行的代理启用 1 小时 TTL:
相关文档
- TypeScript SDK 参考 - 完整的 API 文档
- SDK 概述 - SDK 入门
- SDK 权限 - 管理工具权限