비용을 효과적으로 관리하기

Claude Code는 API 토큰 소비량으로 청구됩니다. 구독 요금제 가격(Pro, Max, Team, Enterprise)은 claude.com/pricing을 참조하십시오. 개발자당 비용은 모델 선택, 코드베이스 크기, 여러 인스턴스 실행 또는 자동화와 같은 사용 패턴에 따라 크게 달라집니다. 엔터프라이즈 배포 전반에 걸쳐 평균 비용은 개발자당 활성 일일 약

13이며, 개발자당 월

150-250이고, 90%의 사용자는 활성 일일 비용이 $30 이하로 유지됩니다. 팀의 지출을 추정하려면 작은 파일럿 그룹으로 시작하고 아래의 추적 도구를 사용하여 더 광범위한 롤아웃 전에 기준선을 설정하십시오. 이 페이지에서는 비용 추적 방법, 팀 비용 관리, 토큰 사용량 감소 방법을 다룹니다.

비용 추적

`/usage` 명령 사용

/usage의 Session 블록은 API 토큰 사용량을 표시하며 API 사용자를 위한 것입니다. Claude Max 및 Pro 구독자는 구독에 사용량이 포함되어 있으므로 세션 비용 수치는 청구 목적으로 관련이 없습니다. 구독자는 동일한 화면에서 요금제 사용량 막대 및 활동 통계를 볼 수 있습니다.

/usage 명령은 현재 세션에 대한 자세한 토큰 사용량 통계를 제공합니다. 달러 수치는 토큰 수에서 로컬로 계산된 추정치이며 실제 청구서와 다를 수 있습니다. 권위 있는 청구를 위해 Claude Console의 사용량 페이지를 참조하십시오.

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

팀 비용 관리

Claude API를 사용할 때, 전체 Claude Code 워크스페이스 지출에 대해 워크스페이스 지출 한도를 설정할 수 있습니다. 관리자는 Console에서 비용 및 사용량 보고서를 볼 수 있습니다.

Claude Code를 Claude Console 계정으로 처음 인증할 때, “Claude Code”라는 워크스페이스가 자동으로 생성됩니다. 이 워크스페이스는 조직의 모든 Claude Code 사용에 대한 중앙 집중식 비용 추적 및 관리를 제공합니다. 이 워크스페이스에 대해 API 키를 생성할 수 없습니다. 이는 Claude Code 인증 및 사용 전용입니다.사용자 정의 속도 제한이 있는 조직의 경우, 이 워크스페이스의 Claude Code 트래픽은 조직의 전체 API 속도 제한에 포함됩니다. Claude Console의 이 워크스페이스의 한도 페이지에서 워크스페이스 속도 제한을 설정하여 Claude Code의 할당량을 제한하고 다른 프로덕션 워크로드를 보호할 수 있습니다.

Bedrock, Vertex 및 Foundry에서 Claude Code는 클라우드에서 메트릭을 전송하지 않습니다. 비용 메트릭을 얻으려면 여러 대규모 엔터프라이즈에서 LiteLLM을 사용한다고 보고했으며, 이는 회사가 키별 지출을 추적하는 데 도움이 되는 오픈소스 도구입니다. 이 프로젝트는 Anthropic과 무관하며 보안 감사를 받지 않았습니다.

속도 제한 권장사항

팀을 위해 Claude Code를 설정할 때, 조직 규모에 따른 다음 분당 토큰(TPM) 및 분당 요청(RPM) 사용자당 권장사항을 고려하십시오:

팀 규모	사용자당 TPM	사용자당 RPM
1-5 사용자	200k-300k	5-7
5-20 사용자	100k-150k	2.5-3.5
20-50 사용자	50k-75k	1.25-1.75
50-100 사용자	25k-35k	0.62-0.87
100-500 사용자	15k-20k	0.37-0.47
500+ 사용자	10k-15k	0.25-0.35

예를 들어, 200명의 사용자가 있는 경우, 각 사용자에 대해 20k TPM을 요청하거나 총 400만 TPM(200*20,000 = 400만)을 요청할 수 있습니다. 팀 규모가 커질수록 사용자당 TPM이 감소하는 이유는 더 큰 조직에서 더 적은 수의 사용자가 Claude Code를 동시에 사용하는 경향이 있기 때문입니다. 이러한 속도 제한은 개별 사용자별이 아닌 조직 수준에서 적용되므로, 다른 사용자가 적극적으로 서비스를 사용하지 않을 때 개별 사용자는 일시적으로 계산된 할당량보다 더 많이 소비할 수 있습니다.

대규모 그룹과의 라이브 교육 세션과 같이 비정상적으로 높은 동시 사용 시나리오를 예상하는 경우, 사용자당 더 높은 TPM 할당이 필요할 수 있습니다.

에이전트 팀 토큰 비용

에이전트 팀은 각각 자체 컨텍스트 윈도우를 가진 여러 Claude Code 인스턴스를 생성합니다. 토큰 사용량은 활성 팀원의 수와 각 팀원이 실행되는 시간에 따라 확장됩니다. 에이전트 팀 비용을 관리 가능하게 유지하려면:

팀원에게 Sonnet을 사용하십시오. 조정 작업을 위해 기능과 비용의 균형을 맞춥니다.
팀을 작게 유지하십시오. 각 팀원은 자체 컨텍스트 윈도우를 실행하므로 토큰 사용량은 대략 팀 규모에 비례합니다.
spawn 프롬프트를 집중적으로 유지하십시오. 팀원은 CLAUDE.md, MCP servers 및 skills를 자동으로 로드하지만, spawn 프롬프트의 모든 것이 처음부터 컨텍스트에 추가됩니다.
작업이 완료되면 팀을 정리하십시오. 활성 팀원은 유휴 상태에서도 계속 토큰을 소비합니다.
에이전트 팀은 기본적으로 비활성화되어 있습니다. settings.json에서 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1을 설정하거나 환경에서 설정하여 활성화하십시오. 에이전트 팀 활성화를 참조하십시오.

토큰 사용량 감소

토큰 비용은 컨텍스트 크기에 따라 확장됩니다. Claude가 처리하는 컨텍스트가 많을수록 더 많은 토큰을 사용합니다. Claude Code는 prompt caching(시스템 프롬프트와 같은 반복되는 콘텐츠의 비용을 줄임)과 auto-compaction(컨텍스트 한도에 접근할 때 대화 기록을 요약함)을 통해 비용을 자동으로 최적화합니다. 다음 전략은 컨텍스트를 작게 유지하고 메시지당 비용을 줄이는 데 도움이 됩니다.

컨텍스트를 사전에 관리하기

/usage를 사용하여 현재 토큰 사용량을 확인하거나, 상태 줄을 구성하여 지속적으로 표시하십시오.

작업 간 지우기: 관련 없는 작업으로 전환할 때 /clear를 사용하여 새로 시작하십시오. 오래된 컨텍스트는 이후의 모든 메시지에서 토큰을 낭비합니다. 지우기 전에 /rename을 사용하여 나중에 세션을 쉽게 찾을 수 있도록 한 다음, /resume을 사용하여 돌아가십시오.
사용자 정의 compaction 지침 추가: /compact Focus on code samples and API usage는 Claude에게 요약 중에 보존할 내용을 알려줍니다.

CLAUDE.md에서 compaction 동작을 사용자 정의할 수도 있습니다:

# Compact instructions

When you are using compact, please focus on test output and code changes

올바른 모델 선택

Sonnet은 대부분의 코딩 작업을 잘 처리하며 Opus보다 비용이 적습니다. 복잡한 아키텍처 결정이나 다단계 추론을 위해 Opus를 예약하십시오. /model을 사용하여 세션 중간에 모델을 전환하거나, /config에서 기본값을 설정하십시오. 간단한 subagent 작업의 경우, subagent 구성에서 model: haiku를 지정하십시오.

MCP server 오버헤드 감소

MCP 도구 정의는 기본적으로 연기됩니다. 따라서 Claude가 특정 도구를 사용할 때까지 도구 이름만 컨텍스트에 들어갑니다. /context를 실행하여 공간을 소비하는 것을 확인하십시오.

사용 가능한 경우 CLI 도구 선호: gh, aws, gcloud, sentry-cli와 같은 도구는 도구별 목록을 추가하지 않기 때문에 MCP server보다 컨텍스트 효율적입니다. Claude는 CLI 명령을 직접 실행할 수 있습니다.
사용하지 않는 server 비활성화: /mcp를 실행하여 구성된 server를 확인하고 적극적으로 사용하지 않는 것을 비활성화하십시오.

타입 언어를 위한 코드 인텔리전스 플러그인 설치

코드 인텔리전스 플러그인은 Claude에게 텍스트 기반 검색 대신 정확한 기호 탐색을 제공하여 낯선 코드를 탐색할 때 불필요한 파일 읽기를 줄입니다. 단일 “정의로 이동” 호출은 grep 다음에 여러 후보 파일을 읽는 것을 대체합니다. 설치된 언어 서버는 편집 후 자동으로 타입 오류를 보고하므로 Claude는 컴파일러를 실행하지 않고도 실수를 포착합니다.

hooks 및 skills로 처리 오프로드

사용자 정의 hooks는 Claude가 보기 전에 데이터를 전처리할 수 있습니다. Claude가 10,000줄 로그 파일을 읽어 오류를 찾는 대신, hook은 ERROR를 grep하고 일치하는 줄만 반환하여 컨텍스트를 수만 개의 토큰에서 수백 개로 줄일 수 있습니다. skill은 Claude에게 도메인 지식을 제공하여 탐색할 필요가 없도록 할 수 있습니다. 예를 들어, “codebase-overview” skill은 프로젝트의 아키텍처, 주요 디렉토리 및 명명 규칙을 설명할 수 있습니다. Claude가 skill을 호출하면, 구조를 이해하기 위해 여러 파일을 읽는 데 토큰을 소비하는 대신 즉시 이 컨텍스트를 얻습니다. 예를 들어, 이 PreToolUse hook은 테스트 출력을 필터링하여 실패만 표시합니다:

settings.json
filter-test-output.sh

이를 settings.json에 추가하여 모든 Bash 명령 전에 hook을 실행하십시오:

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

hook은 이 스크립트를 호출하며, 이는 명령이 테스트 러너인지 확인하고 실패만 표시하도록 수정합니다:

#!/bin/bash
input=$(cat)
cmd=$(echo "$input" | jq -r '.tool_input.command')

# If running tests, filter to show only failures
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
  echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
else
  echo "{}"
fi

CLAUDE.md에서 skills로 지침 이동

CLAUDE.md 파일은 세션 시작 시 컨텍스트에 로드됩니다. PR 검토 또는 데이터베이스 마이그레이션과 같은 특정 워크플로우에 대한 자세한 지침이 포함되어 있으면, 관련 없는 작업을 수행할 때도 해당 토큰이 존재합니다. Skills는 호출될 때만 필요에 따라 로드되므로, 특화된 지침을 skills로 이동하면 기본 컨텍스트를 더 작게 유지합니다. CLAUDE.md를 필수 항목만 포함하여 약 200줄 이하로 유지하십시오.

확장 사고 조정

확장 사고는 기본적으로 활성화되어 있습니다. 복잡한 계획 및 추론 작업의 성능을 크게 향상시키기 때문입니다. 사고 토큰은 출력 토큰으로 청구되며, 기본 예산은 모델에 따라 수만 개의 토큰이 될 수 있습니다. 깊은 추론이 필요하지 않은 더 간단한 작업의 경우, /effort를 사용하거나 /model에서 노력 수준을 낮추거나, /config에서 사고를 비활성화하거나, MAX_THINKING_TOKENS=8000으로 예산을 낮춤으로써 비용을 줄일 수 있습니다.

자세한 작업을 subagents에 위임

테스트 실행, 문서 가져오기 또는 로그 파일 처리는 상당한 컨텍스트를 소비할 수 있습니다. 이를 subagents에 위임하여 자세한 출력이 subagent의 컨텍스트에 유지되는 동안 요약만 주 대화로 반환되도록 하십시오.

에이전트 팀 비용 관리

에이전트 팀은 팀원이 plan mode에서 실행될 때 표준 세션보다 약 7배 더 많은 토큰을 사용합니다. 각 팀원은 자체 컨텍스트 윈도우를 유지하고 별도의 Claude 인스턴스로 실행되기 때문입니다. 팀 작업을 작고 자체 포함되도록 유지하여 팀원당 토큰 사용량을 제한하십시오. 자세한 내용은 에이전트 팀을 참조하십시오.

구체적인 프롬프트 작성

“이 코드베이스 개선”과 같은 모호한 요청은 광범위한 스캔을 트리거합니다. “auth.ts의 로그인 함수에 입력 검증 추가”와 같은 구체적인 요청은 Claude가 최소한의 파일 읽기로 효율적으로 작업하도록 합니다.

복잡한 작업을 효율적으로 수행

더 길거나 복잡한 작업의 경우, 이러한 습관은 잘못된 경로로 인한 낭비된 토큰을 피하는 데 도움이 됩니다:

복잡한 작업에 plan mode 사용: Shift+Tab을 눌러 구현 전에 plan mode에 들어가십시오. Claude는 코드베이스를 탐색하고 승인을 위한 접근 방식을 제안하여, 초기 방향이 잘못되었을 때 비용이 많이 드는 재작업을 방지합니다.
조기에 방향 수정: Claude가 잘못된 방향으로 가기 시작하면, Escape를 눌러 즉시 중지하십시오. /rewind를 사용하거나 Escape를 두 번 눌러 대화 및 코드를 이전 checkpoint로 복원하십시오.
검증 대상 제공: 테스트 케이스를 포함하고, 스크린샷을 붙여넣거나, 프롬프트에서 예상 출력을 정의하십시오. Claude가 자신의 작업을 검증할 수 있으면, 수정을 요청해야 하기 전에 문제를 포착합니다.
증분적으로 테스트: 한 파일을 작성하고, 테스트한 다음, 계속하십시오. 이는 문제가 저렴하게 수정될 수 있을 때 조기에 포착합니다.

백그라운드 토큰 사용량

Claude Code는 유휴 상태에서도 일부 백그라운드 기능에 토큰을 사용합니다:

대화 요약: claude --resume 기능을 위해 이전 대화를 요약하는 백그라운드 작업
명령 처리: /usage와 같은 일부 명령은 상태를 확인하기 위해 요청을 생성할 수 있습니다

이러한 백그라운드 프로세스는 활성 상호작용 없이도 세션당 적은 양의 토큰(일반적으로 $0.04 미만)을 소비합니다.

Claude Code 동작 변경 이해

Claude Code는 비용 보고를 포함한 기능 작동 방식을 변경할 수 있는 정기적인 업데이트를 받습니다. claude --version을 실행하여 현재 버전을 확인하십시오. 특정 청구 질문의 경우, Console 계정을 통해 Anthropic 지원에 문의하십시오.

설정 및 액세스

사용량 및 비용

플러그인 배포

보안 및 데이터

비용을 효과적으로 관리하기

비용 추적

`/usage` 명령 사용

팀 비용 관리

속도 제한 권장사항

에이전트 팀 토큰 비용

토큰 사용량 감소

컨텍스트를 사전에 관리하기

올바른 모델 선택

MCP server 오버헤드 감소

타입 언어를 위한 코드 인텔리전스 플러그인 설치

hooks 및 skills로 처리 오프로드

CLAUDE.md에서 skills로 지침 이동

확장 사고 조정

자세한 작업을 subagents에 위임

에이전트 팀 비용 관리

구체적인 프롬프트 작성

복잡한 작업을 효율적으로 수행

백그라운드 토큰 사용량

Claude Code 동작 변경 이해

설정 및 액세스

사용량 및 비용

플러그인 배포

보안 및 데이터

​비용 추적

​/usage 명령 사용

​팀 비용 관리

​속도 제한 권장사항

​에이전트 팀 토큰 비용

​토큰 사용량 감소

​컨텍스트를 사전에 관리하기

​올바른 모델 선택

​MCP server 오버헤드 감소

​타입 언어를 위한 코드 인텔리전스 플러그인 설치

​hooks 및 skills로 처리 오프로드

​CLAUDE.md에서 skills로 지침 이동

​확장 사고 조정

​자세한 작업을 subagents에 위임

​에이전트 팀 비용 관리

​구체적인 프롬프트 작성

​복잡한 작업을 효율적으로 수행

​백그라운드 토큰 사용량

​Claude Code 동작 변경 이해

비용 추적

`/usage` 명령 사용

팀 비용 관리

속도 제한 권장사항

에이전트 팀 토큰 비용

토큰 사용량 감소

컨텍스트를 사전에 관리하기

올바른 모델 선택

MCP server 오버헤드 감소

타입 언어를 위한 코드 인텔리전스 플러그인 설치

hooks 및 skills로 처리 오프로드

CLAUDE.md에서 skills로 지침 이동

확장 사고 조정

자세한 작업을 subagents에 위임

에이전트 팀 비용 관리

구체적인 프롬프트 작성

복잡한 작업을 효율적으로 수행

백그라운드 토큰 사용량

Claude Code 동작 변경 이해