Перейти к основному содержанию
Claude Code потребляет токены при каждом взаимодействии. Затраты варьируются в зависимости от размера кодовой базы, сложности запроса и длины разговора. Средняя стоимость составляет $6 на разработчика в день, при этом ежедневные затраты остаются ниже $12 для 90% пользователей. Для командного использования Claude Code взимает плату в зависимости от потребления API токенов. В среднем Claude Code стоит примерно $100-200 на разработчика в месяц с Sonnet 4.6, хотя есть большая вариативность в зависимости от того, сколько экземпляров запускают пользователи и используют ли они его в автоматизации. На этой странице рассматривается, как отслеживать ваши затраты, управлять затратами для команд и снижать использование токенов.

Отслеживание ваших затрат

Использование команды /cost

Команда /cost показывает использование API токенов и предназначена для пользователей API. Подписчики Claude Max и Pro имеют использование, включённое в их подписку, поэтому данные /cost не имеют отношения к целям выставления счётов. Подписчики могут использовать /stats для просмотра паттернов использования.
Команда /cost предоставляет подробную статистику использования токенов для вашей текущей сессии:
Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

Управление затратами для команд

При использовании Claude API вы можете установить лимиты расходов рабочего пространства на общие расходы Claude Code рабочего пространства. Администраторы могут просматривать отчёты о затратах и использовании в Console.
Когда вы впервые аутентифицируете Claude Code с помощью своей учётной записи Claude Console, автоматически создаётся рабочее пространство под названием “Claude Code”. Это рабочее пространство обеспечивает централизованное отслеживание и управление затратами для всего использования Claude Code в вашей организации. Вы не можете создавать API ключи для этого рабочего пространства; оно предназначено исключительно для аутентификации и использования Claude Code.
На Bedrock, Vertex и Foundry Claude Code не отправляет метрики из вашего облака. Чтобы получить метрики затрат, несколько крупных предприятий сообщили об использовании LiteLLM, который является инструментом с открытым исходным кодом, помогающим компаниям отслеживать расходы по ключу. Этот проект не связан с Anthropic и не был проверен на безопасность.

Рекомендации по ограничению скорости

При настройке Claude Code для команд учитывайте эти рекомендации по Token Per Minute (TPM) и Request Per Minute (RPM) на пользователя в зависимости от размера вашей организации:
Размер командыTPM на пользователяRPM на пользователя
1-5 пользователей200k-300k5-7
5-20 пользователей100k-150k2.5-3.5
20-50 пользователей50k-75k1.25-1.75
50-100 пользователей25k-35k0.62-0.87
100-500 пользователей15k-20k0.37-0.47
500+ пользователей10k-15k0.25-0.35
Например, если у вас есть 200 пользователей, вы можете запросить 20k TPM для каждого пользователя, или 4 миллиона общего TPM (200*20,000 = 4 миллиона). TPM на пользователя уменьшается по мере роста размера команды, потому что в более крупных организациях меньше пользователей, как правило, используют Claude Code одновременно. Эти ограничения скорости применяются на уровне организации, а не для отдельного пользователя, что означает, что отдельные пользователи могут временно потреблять больше, чем их рассчитанная доля, когда другие не активно используют сервис.
Если вы предполагаете сценарии с необычно высоким одновременным использованием (такие как живые сеансы обучения с большими группами), вам может потребоваться более высокое распределение TPM на пользователя.

Затраты на токены команды агентов

Команды агентов запускают несколько экземпляров Claude Code, каждый со своим собственным контекстным окном. Использование токенов масштабируется в зависимости от количества активных товарищей по команде и того, как долго каждый из них работает. Чтобы сохранить затраты команды агентов управляемыми:
  • Используйте Sonnet для товарищей по команде. Он обеспечивает баланс между возможностями и стоимостью для задач координации.
  • Держите команды небольшими. Каждый товарищ по команде запускает своё собственное контекстное окно, поэтому использование токенов примерно пропорционально размеру команды.
  • Держите prompts для создания сфокусированными. Товарищи по команде автоматически загружают CLAUDE.md, MCP servers и skills, но всё в prompt для создания добавляется к их контексту с самого начала.
  • Очищайте команды после завершения работы. Активные товарищи по команде продолжают потреблять токены даже если они неактивны.
  • Команды агентов отключены по умолчанию. Установите CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 в вашем settings.json или переменной окружения, чтобы включить их. См. включение команд агентов.

Снижение использования токенов

Затраты на токены масштабируются с размером контекста: чем больше контекста обрабатывает Claude, тем больше токенов вы используете. Claude Code автоматически оптимизирует затраты через prompt caching (что снижает затраты на повторяющееся содержимое, такое как системные prompts) и auto-compact (что суммирует историю разговора при приближении к лимитам контекста). Следующие стратегии помогают вам сохранять контекст небольшим и снижать затраты на сообщение.

Управление контекстом проактивно

Используйте /cost для проверки текущего использования токенов или настройте вашу строку состояния для непрерывного отображения.
  • Очищайте между задачами: Используйте /clear для начала с чистого листа при переходе на несвязанную работу. Устаревший контекст тратит токены на каждое последующее сообщение. Используйте /rename перед очисткой, чтобы вы могли легко найти сессию позже, затем /resume для возврата к ней.
  • Добавляйте пользовательские инструкции компактирования: /compact Focus on code samples and API usage говорит Claude, что сохранять во время суммирования.
Вы также можете настроить поведение компактирования в вашем CLAUDE.md:
# Compact instructions

When you are using compact, please focus on test output and code changes

Выберите правильную модель

Sonnet хорошо справляется с большинством задач кодирования и стоит дешевле, чем Opus. Зарезервируйте Opus для сложных архитектурных решений или многошаговых рассуждений. Используйте /model для переключения моделей в середине сессии или установите значение по умолчанию в /config. Для простых задач subagent укажите model: haiku в вашей конфигурации subagent.

Снижение накладных расходов MCP server

Каждый MCP server добавляет определения инструментов в ваш контекст, даже когда неактивен. Запустите /context для просмотра того, что потребляет пространство.
  • Предпочитайте CLI инструменты, когда доступны: Инструменты, такие как gh, aws, gcloud и sentry-cli, более эффективны по контексту, чем MCP servers, потому что они не добавляют постоянные определения инструментов. Claude может запускать CLI команды напрямую без накладных расходов.
  • Отключайте неиспользуемые servers: Запустите /mcp для просмотра настроенных servers и отключите любые, которые вы не активно используете.
  • Поиск инструментов автоматический: Когда описания инструментов MCP превышают 10% вашего контекстного окна, Claude Code автоматически откладывает их и загружает инструменты по требованию через поиск инструментов. Поскольку отложенные инструменты входят в контекст только при фактическом использовании, более низкий порог означает меньше неиспользуемых определений инструментов, потребляющих пространство. Установите более низкий порог с помощью ENABLE_TOOL_SEARCH=auto:<N> (например, auto:5 срабатывает, когда инструменты превышают 5% вашего контекстного окна).

Установите плагины code intelligence для типизированных языков

Плагины code intelligence дают Claude точную навигацию по символам вместо поиска на основе текста, снижая ненужные чтения файлов при изучении незнакомого кода. Один вызов “go to definition” заменяет то, что в противном случае могло бы быть grep, за которым следует чтение нескольких файлов-кандидатов. Установленные языковые серверы также автоматически сообщают об ошибках типов после редактирования, поэтому Claude ловит ошибки без запуска компилятора.

Делегируйте обработку hooks и skills

Пользовательские hooks могут предварительно обрабатывать данные перед тем, как Claude их увидит. Вместо того, чтобы Claude читал файл логов из 10,000 строк для поиска ошибок, hook может выполнить grep для ERROR и вернуть только совпадающие строки, снижая контекст с десятков тысяч токенов до сотен. Skill может дать Claude знание предметной области, чтобы ему не пришлось исследовать. Например, skill “codebase-overview” может описать архитектуру вашего проекта, ключевые директории и соглашения об именовании. Когда Claude вызывает skill, он получает этот контекст немедленно вместо того, чтобы тратить токены на чтение нескольких файлов для понимания структуры. Например, этот hook PreToolUse фильтрует вывод тестов для отображения только сбоев:
Добавьте это в ваш settings.json для запуска hook перед каждой командой Bash:
{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

Переместите инструкции из CLAUDE.md в skills

Ваш файл CLAUDE.md загружается в контекст при запуске сессии. Если он содержит подробные инструкции для конкретных рабочих процессов (такие как PR reviews или миграции баз данных), эти токены присутствуют даже когда вы выполняете несвязанную работу. Skills загружаются по требованию только при вызове, поэтому перемещение специализированных инструкций в skills сохраняет ваш базовый контекст меньшим. Стремитесь сохранять CLAUDE.md под ~500 строк, включая только необходимое.

Отрегулируйте расширенное мышление

Расширенное мышление включено по умолчанию с бюджетом 31,999 токенов, потому что оно значительно улучшает производительность на сложных задачах планирования и рассуждения. Однако токены мышления выставляются как выходные токены, поэтому для более простых задач, где глубокое рассуждение не требуется, вы можете снизить затраты, понизив уровень усилий с помощью /effort или в /model, отключив мышление в /config или понизив бюджет (например, MAX_THINKING_TOKENS=8000).

Делегируйте многословные операции subagents

Запуск тестов, получение документации или обработка файлов логов может потребить значительный контекст. Делегируйте эти subagents, чтобы многословный вывод оставался в контексте subagent, в то время как только резюме возвращается в вашу основную беседу.

Управление затратами команды агентов

Команды агентов используют примерно в 7 раз больше токенов, чем стандартные сессии, когда товарищи по команде работают в plan mode, потому что каждый товарищ по команде поддерживает своё собственное контекстное окно и работает как отдельный экземпляр Claude. Держите задачи команды небольшими и самостоятельными, чтобы ограничить использование токенов на товарища по команде. См. команды агентов для деталей.

Пишите конкретные prompts

Расплывчатые запросы, такие как “улучшить эту кодовую базу”, запускают широкое сканирование. Конкретные запросы, такие как “добавить проверку входных данных в функцию входа в auth.ts”, позволяют Claude работать эффективно с минимальными чтениями файлов.

Работайте эффективно над сложными задачами

Для более длительной или сложной работы эти привычки помогают избежать потраченных впустую токенов от неправильного направления:
  • Используйте plan mode для сложных задач: Нажмите Shift+Tab для входа в plan mode перед реализацией. Claude исследует кодовую базу и предлагает подход для вашего одобрения, предотвращая дорогостоящую переделку, когда первоначальное направление неправильно.
  • Корректируйте курс рано: Если Claude начинает идти в неправильном направлении, нажмите Escape для немедленной остановки. Используйте /rewind или двойное нажатие Escape для восстановления разговора и кода к предыдущей контрольной точке.
  • Дайте цели проверки: Включите тестовые случаи, вставьте скриншоты или определите ожидаемый вывод в вашем prompt. Когда Claude может проверить свою собственную работу, он ловит проблемы перед тем, как вам нужно запросить исправления.
  • Тестируйте постепенно: Напишите один файл, протестируйте его, затем продолжайте. Это ловит проблемы рано, когда они дешевы в исправлении.

Использование токенов в фоновом режиме

Claude Code использует токены для некоторой фоновой функциональности даже когда неактивен:
  • Суммирование разговора: Фоновые задания, которые суммируют предыдущие разговоры для функции claude --resume
  • Обработка команд: Некоторые команды, такие как /cost, могут генерировать запросы для проверки статуса
Эти фоновые процессы потребляют небольшое количество токенов (обычно менее $0.04 за сессию) даже без активного взаимодействия.

Понимание изменений в поведении Claude Code

Claude Code регулярно получает обновления, которые могут изменить способ работы функций, включая отчётность о затратах. Запустите claude --version для проверки вашей текущей версии. Для конкретных вопросов выставления счётов свяжитесь с поддержкой Anthropic через вашу учётную запись Console. Для развёртываний команды начните с небольшой пилотной группы для установления паттернов использования перед более широким развёртыванием.