コストを追跡する
/usage コマンドを使用する
/usage のセッションブロックは API トークン使用量を表示し、API ユーザーを対象としています。Claude Max および Pro サブスクライバーはサブスクリプションに使用量が含まれているため、セッションコスト数値は請求目的では関連がありません。サブスクライバーは同じ画面でプラン使用量バーとアクティビティ統計を表示します。/usage コマンドは現在のセッションの詳細なトークン使用統計を提供します。ドル数値はトークン数から局所的に計算された推定値であり、実際の請求書と異なる場合があります。権限のある請求については、Claude Console の使用量ページを参照してください。
チームのコストを管理する
Claude API を使用する場合、Claude Code ワークスペース支出の合計に対して ワークスペース支出制限を設定 できます。管理者は Console で コストと使用状況レポートを表示 できます。Claude Code を Claude Console アカウントで初めて認証すると、「Claude Code」というワークスペースが自動的に作成されます。このワークスペースは、組織内のすべての Claude Code 使用量の一元化されたコスト追跡と管理を提供します。このワークスペースの API キーを作成することはできません。これは Claude Code 認証と使用量専用です。カスタムレート制限を持つ組織の場合、このワークスペースの Claude Code トラフィックは組織全体の API レート制限にカウントされます。Claude Console の Limits ページでこのワークスペースに ワークスペースレート制限 を設定して、Claude Code の共有をキャップし、他の本番ワークロードを保護できます。
レート制限の推奨事項
チーム向けに Claude Code を設定する場合、組織のサイズに基づいて、これらのユーザーあたりのトークン/分(TPM)およびリクエスト/分(RPM)の推奨事項を検討してください。| チームサイズ | ユーザーあたり TPM | ユーザーあたり RPM |
|---|---|---|
| 1~5 ユーザー | 200k~300k | 5~7 |
| 5~20 ユーザー | 100k~150k | 2.5~3.5 |
| 20~50 ユーザー | 50k~75k | 1.25~1.75 |
| 50~100 ユーザー | 25k~35k | 0.62~0.87 |
| 100~500 ユーザー | 15k~20k | 0.37~0.47 |
| 500 ユーザー以上 | 10k~15k | 0.25~0.35 |
大規模グループとのライブトレーニングセッションなど、異常に高い同時使用シナリオが予想される場合は、ユーザーあたりのより高い TPM 割り当てが必要になる場合があります。
エージェントチームのトークンコスト
エージェントチーム は複数の Claude Code インスタンスを生成し、各インスタンスは独自のコンテキストウィンドウを持ちます。トークン使用量はアクティブなチームメイトの数と各チームメイトが実行される期間に応じてスケーリングされます。 エージェントチームのコストを管理可能に保つには、以下を実行してください。- チームメイトに Sonnet を使用します。これは調整タスクの機能とコストのバランスを取ります。
- チームを小さく保ちます。各チームメイトは独自のコンテキストウィンドウを実行するため、トークン使用量はおおよそチームサイズに比例します。
- スポーンプロンプトを焦点を絞ったものにします。チームメイトは CLAUDE.md、MCP サーバー、およびスキルを自動的に読み込みますが、スポーンプロンプト内のすべてが最初からコンテキストに追加されます。
- 作業が完了したらチームをクリーンアップします。アクティブなチームメイトはアイドル状態でもトークンを消費し続けます。
- エージェントチームはデフォルトで無効になっています。settings.json または環境で
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1を設定して有効にします。エージェントチームを有効にする を参照してください。
トークン使用量を削減する
トークンコストはコンテキストサイズに応じてスケーリングされます。Claude が処理するコンテキストが多いほど、より多くのトークンを使用します。Claude Code はプロンプトキャッシング(システムプロンプトなどの繰り返されるコンテンツのコストを削減)と自動コンパクション(コンテキスト制限に近づくと会話履歴を要約)を通じてコストを自動的に最適化します。 以下の戦略は、コンテキストを小さく保ち、メッセージあたりのコストを削減するのに役立ちます。コンテキストを積極的に管理する
/usage を使用して現在のトークン使用量を確認するか、ステータスラインを設定 してそれを継続的に表示します。
- タスク間でクリアする: 関連のない作業に切り替える場合は
/clearを使用して新しく開始します。古いコンテキストは後続のすべてのメッセージでトークンを浪費します。クリアする前に/renameを使用してセッションに名前を付けると、後で簡単に見つけることができます。その後、/resumeを使用して戻ります。 - カスタムコンパクション指示を追加する:
/compact Focus on code samples and API usageは、要約中に保持する内容を Claude に指示します。
適切なモデルを選択する
Sonnet はほとんどのコーディングタスクをうまく処理し、Opus よりもコストが低くなります。複雑なアーキテクチャの決定または複数ステップの推論のために Opus を予約します。/model を使用してセッション中にモデルを切り替えるか、/config でデフォルトを設定します。単純な subagent タスクの場合、subagent 設定 で model: haiku を指定します。
MCP サーバーのオーバーヘッドを削減する
MCP ツール定義は デフォルトで遅延 されるため、Claude が特定のツールを使用するまで、ツール名のみがコンテキストに入ります。/context を実行して、何がスペースを消費しているかを確認します。
- 利用可能な場合は CLI ツールを優先する:
gh、aws、gcloud、sentry-cliなどのツールは、ツールごとのリストを追加しないため、MCP サーバーよりもコンテキスト効率が高くなります。Claude はオーバーヘッドなしで CLI コマンドを直接実行できます。 - 未使用のサーバーを無効にする:
/mcpを実行して設定されたサーバーを確認し、積極的に使用していないサーバーを無効にします。
型付き言語用のコードインテリジェンスプラグインをインストールする
コードインテリジェンスプラグイン は Claude にテキストベースの検索の代わりに正確なシンボルナビゲーションを提供し、不慣れなコードを探索する際の不要なファイル読み取りを削減します。単一の「定義に移動」呼び出しは、grep の後に複数の候補ファイルを読み取る必要があるものを置き換えます。インストールされた言語サーバーは編集後に型エラーを自動的に報告するため、Claude はコンパイラを実行せずにエラーをキャッチします。フックとスキルに処理をオフロードする
カスタム フック は Claude がそれを見る前にデータを前処理できます。Claude が 10,000 行のログファイルを読んでエラーを見つける代わりに、フックはERROR に対して grep を実行し、一致する行のみを返すことができ、コンテキストを数万トークンから数百に削減します。
スキル は Claude にドメイン知識を与えることができるため、探索する必要がありません。たとえば、「codebase-overview」スキルはプロジェクトのアーキテクチャ、主要なディレクトリ、および命名規則を説明できます。Claude がスキルを呼び出すと、構造を理解するために複数のファイルを読むトークンを費やす代わりに、このコンテキストが即座に取得されます。
たとえば、この PreToolUse フックはテスト出力をフィルタリングして失敗のみを表示します。
- settings.json
- filter-test-output.sh
これを settings.json に追加して、すべての Bash コマンドの前にフックを実行します。
CLAUDE.md からスキルに指示を移動する
CLAUDE.md ファイルはセッション開始時にコンテキストに読み込まれます。PR レビューやデータベース移行などの特定のワークフロー用の詳細な指示が含まれている場合、関連のない作業を行っている場合でもそれらのトークンが存在します。スキル はオンデマンドでのみ呼び出されたときに読み込まれるため、特殊な指示をスキルに移動することで、ベースコンテキストを小さく保ちます。CLAUDE.md を 200 行以下に保つことを目指し、必須のみを含めます。拡張思考を調整する
拡張思考はデフォルトで有効になっています。これは複雑な計画と推論タスクのパフォーマンスを大幅に向上させるためです。思考トークンは出力トークンとして課金され、デフォルト予算はモデルに応じて数万トークンになる場合があります。深い推論が必要ない単純なタスクの場合、/effort で 努力レベル を低下させるか、/model で、/config で思考を無効にするか、MAX_THINKING_TOKENS=8000 で予算を低下させることでコストを削減できます。
詳細な操作を subagent に委任する
テストの実行、ドキュメントの取得、またはログファイルの処理は、かなりのコンテキストを消費できます。これらを subagent に委任して、詳細な出力が subagent のコンテキストに留まり、メインの会話に戻るのはサマリーのみです。エージェントチームのコストを管理する
エージェントチームは、チームメイトがプランモードで実行される場合、標準セッションよりも約 7 倍多くのトークンを使用します。これは、各チームメイトが独自のコンテキストウィンドウを維持し、別の Claude インスタンスとして実行されるためです。チームメイトあたりのトークン使用量を制限するために、チームタスクを小さく自己完結させておきます。詳細については、エージェントチーム を参照してください。具体的なプロンプトを作成する
「このコードベースを改善する」のような曖昧なリクエストは、広範なスキャンをトリガーします。「auth.ts のログイン関数に入力検証を追加する」のような具体的なリクエストにより、Claude は最小限のファイル読み取りで効率的に作業できます。複雑なタスクで効率的に作業する
より長いまたはより複雑な作業の場合、これらの習慣は間違った方向に進むことからの無駄なトークンを回避するのに役立ちます。- 複雑なタスクにはプランモードを使用する: Shift+Tab を押して、実装の前に プランモード に入ります。Claude はコードベースを探索し、承認のためのアプローチを提案し、初期方向が間違っている場合の高価な再作業を防ぎます。
- 早期に方向を修正する: Claude が間違った方向に向かい始めた場合は、Escape を押して直ちに停止します。
/rewindを使用するか、Escape をダブルタップして、会話とコードを前のチェックポイントに復元します。 - 検証ターゲットを指定する: テストケースを含めるか、スクリーンショットを貼り付けるか、プロンプトで予想される出力を定義します。Claude が独自の作業を検証できる場合、修正をリクエストする必要がある前に問題をキャッチします。
- 段階的にテストする: 1 つのファイルを作成し、テストしてから続行します。これは、修正が安い場合に早期に問題をキャッチします。
バックグラウンドトークン使用量
Claude Code はアイドル状態でも、バックグラウンド機能にトークンを使用します。- 会話要約:
claude --resume機能の前の会話を要約するバックグラウンドジョブ - コマンド処理:
/usageなどの一部のコマンドは、ステータスを確認するためにリクエストを生成する場合があります
Claude Code の動作の変更を理解する
Claude Code は、コスト報告を含む機能の動作方法を変更する可能性のある定期的な更新を受け取ります。claude --version を実行して現在のバージョンを確認します。特定の請求に関する質問については、Console アカウント を通じて Anthropic サポートに連絡してください。