Kelola biaya secara efektif

Claude Code mengenakan biaya berdasarkan konsumsi token API. Untuk harga paket langganan (Pro, Max, Team, Enterprise), lihat claude.com/pricing. Biaya per pengembang bervariasi luas berdasarkan pemilihan model, ukuran basis kode, dan pola penggunaan seperti menjalankan beberapa instans atau otomasi. Di seluruh penyebaran perusahaan, biaya rata-rata adalah sekitar $13 per pengembang per hari aktif dan $150-250 per pengembang per bulan, dengan biaya tetap di bawah $30 per hari aktif untuk 90% pengguna. Untuk memperkirakan pengeluaran untuk tim Anda sendiri, mulai dengan kelompok pilot kecil dan gunakan alat pelacakan di bawah untuk membangun baseline sebelum peluncuran yang lebih luas. Halaman ini mencakup cara melacak biaya Anda, mengelola biaya untuk tim, dan mengurangi penggunaan token.

Lacak biaya Anda

Menggunakan perintah `/usage`

Blok Session dalam /usage menampilkan penggunaan token API dan dimaksudkan untuk pengguna API. Pelanggan Claude Max dan Pro memiliki penggunaan yang disertakan dalam langganan mereka, jadi angka biaya sesi tidak relevan untuk tujuan penagihan. Pelanggan melihat bilah penggunaan paket dan statistik aktivitas di layar yang sama.

Perintah /usage menyediakan statistik penggunaan token terperinci untuk sesi Anda saat ini. Angka dolar adalah perkiraan yang dihitung secara lokal dari jumlah token dan mungkin berbeda dari tagihan aktual Anda. Untuk penagihan yang berwenang, lihat halaman Penggunaan di Claude Console.

Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed

Mengelola biaya untuk tim

Saat menggunakan Claude API, Anda dapat menetapkan batas pengeluaran ruang kerja pada total pengeluaran ruang kerja Claude Code. Admin dapat melihat pelaporan biaya dan penggunaan di Konsol.

Ketika Anda pertama kali mengautentikasi Claude Code dengan akun Claude Console Anda, ruang kerja yang disebut “Claude Code” secara otomatis dibuat untuk Anda. Ruang kerja ini menyediakan pelacakan dan manajemen biaya terpusat untuk semua penggunaan Claude Code di organisasi Anda. Anda tidak dapat membuat kunci API untuk ruang kerja ini; ini secara eksklusif untuk autentikasi dan penggunaan Claude Code.Untuk organisasi dengan batas laju kustom, lalu lintas Claude Code di ruang kerja ini dihitung terhadap batas laju API keseluruhan organisasi Anda. Anda dapat menetapkan batas laju ruang kerja di halaman Batas ruang kerja ini di Claude Console untuk membatasi bagian Claude Code dan melindungi beban kerja produksi lainnya.

Di Bedrock, Vertex, dan Foundry, Claude Code tidak mengirim metrik dari cloud Anda. Untuk mendapatkan metrik biaya, beberapa perusahaan besar melaporkan menggunakan LiteLLM, yang merupakan alat sumber terbuka yang membantu perusahaan melacak pengeluaran berdasarkan kunci. Proyek ini tidak berafiliasi dengan Anthropic dan belum diaudit untuk keamanan.

Rekomendasi batas laju

Saat menyiapkan Claude Code untuk tim, pertimbangkan rekomendasi Token Per Minute (TPM) dan Request Per Minute (RPM) per pengguna ini berdasarkan ukuran organisasi Anda:

Ukuran tim	TPM per pengguna	RPM per pengguna
1-5 pengguna	200k-300k	5-7
5-20 pengguna	100k-150k	2.5-3.5
20-50 pengguna	50k-75k	1.25-1.75
50-100 pengguna	25k-35k	0.62-0.87
100-500 pengguna	15k-20k	0.37-0.47
500+ pengguna	10k-15k	0.25-0.35

Misalnya, jika Anda memiliki 200 pengguna, Anda mungkin meminta 20k TPM untuk setiap pengguna, atau 4 juta total TPM (200*20.000 = 4 juta). TPM per pengguna menurun seiring pertumbuhan ukuran tim karena lebih sedikit pengguna yang cenderung menggunakan Claude Code secara bersamaan di organisasi yang lebih besar. Batas laju ini berlaku di tingkat organisasi, bukan per pengguna individual, yang berarti pengguna individual dapat sementara mengonsumsi lebih dari bagian yang dihitung mereka ketika orang lain tidak secara aktif menggunakan layanan.

Jika Anda mengantisipasi skenario dengan penggunaan bersamaan yang tidak biasa tinggi (seperti sesi pelatihan langsung dengan kelompok besar), Anda mungkin memerlukan alokasi TPM yang lebih tinggi per pengguna.

Biaya token tim agen

Tim agen menjalankan beberapa instans Claude Code, masing-masing dengan jendela konteks sendiri. Penggunaan token diskalakan dengan jumlah rekan kerja aktif dan berapa lama masing-masing berjalan. Untuk menjaga biaya tim agen tetap dapat dikelola:

Gunakan Sonnet untuk rekan kerja. Ini menyeimbangkan kemampuan dan biaya untuk tugas koordinasi.
Jaga tim tetap kecil. Setiap rekan kerja menjalankan jendela konteks sendiri, jadi penggunaan token kira-kira sebanding dengan ukuran tim.
Jaga prompt spawn tetap fokus. Rekan kerja memuat CLAUDE.md, server MCP, dan skills secara otomatis, tetapi semuanya dalam prompt spawn menambah konteks mereka dari awal.
Bersihkan tim ketika pekerjaan selesai. Rekan kerja aktif terus mengonsumsi token bahkan jika menganggur.
Tim agen dinonaktifkan secara default. Atur CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 di settings.json atau lingkungan Anda untuk mengaktifkannya. Lihat aktifkan tim agen.

Kurangi penggunaan token

Biaya token diskalakan dengan ukuran konteks: semakin banyak konteks yang diproses Claude, semakin banyak token yang Anda gunakan. Claude Code secara otomatis mengoptimalkan biaya melalui prompt caching (yang mengurangi biaya untuk konten berulang seperti prompt sistem) dan auto-compact (yang merangkum riwayat percakapan saat mendekati batas konteks). Strategi berikut membantu Anda menjaga konteks tetap kecil dan mengurangi biaya per pesan.

Kelola konteks secara proaktif

Gunakan /usage untuk memeriksa penggunaan token Anda saat ini, atau konfigurasi baris status Anda untuk menampilkannya secara berkelanjutan.

Bersihkan antar tugas: Gunakan /clear untuk memulai segar saat beralih ke pekerjaan yang tidak terkait. Konteks basi membuang token pada setiap pesan berikutnya. Gunakan /rename sebelum membersihkan sehingga Anda dapat dengan mudah menemukan sesi nanti, kemudian /resume untuk kembali ke sana.
Tambahkan instruksi compaction kustom: /compact Focus on code samples and API usage memberi tahu Claude apa yang harus dipertahankan selama perangkuman.

Anda juga dapat menyesuaikan perilaku compaction di CLAUDE.md Anda:

# Compact instructions

When you are using compact, please focus on test output and code changes

Pilih model yang tepat

Sonnet menangani sebagian besar tugas pengkodean dengan baik dan biayanya lebih rendah dari Opus. Cadangkan Opus untuk keputusan arsitektur yang kompleks atau penalaran multi-langkah. Gunakan /model untuk beralih model di tengah sesi, atau atur default di /config. Untuk tugas subagent sederhana, tentukan model: haiku di konfigurasi subagent Anda.

Kurangi overhead server MCP

Definisi alat MCP adalah ditunda secara default, jadi hanya nama alat yang masuk ke konteks sampai Claude menggunakan alat tertentu. Jalankan /context untuk melihat apa yang mengonsumsi ruang.

Lebih suka alat CLI jika tersedia: Alat seperti gh, aws, gcloud, dan sentry-cli masih lebih efisien konteks daripada server MCP karena mereka tidak menambahkan daftar per-alat apa pun. Claude dapat menjalankan perintah CLI secara langsung.
Nonaktifkan server yang tidak digunakan: Jalankan /mcp untuk melihat server yang dikonfigurasi dan nonaktifkan yang tidak Anda gunakan secara aktif.

Instal plugin kecerdasan kode untuk bahasa yang diketik

Plugin kecerdasan kode memberi Claude navigasi simbol yang tepat daripada pencarian berbasis teks, mengurangi pembacaan file yang tidak perlu saat menjelajahi kode yang tidak dikenal. Satu panggilan “go to definition” menggantikan apa yang mungkin merupakan grep diikuti dengan membaca beberapa file kandidat. Server bahasa yang diinstal juga melaporkan kesalahan tipe secara otomatis setelah pengeditan, jadi Claude menangkap kesalahan tanpa menjalankan compiler.

Offload pemrosesan ke hooks dan skills

Hooks kustom dapat memproses data sebelum Claude melihatnya. Alih-alih Claude membaca file log 10.000 baris untuk menemukan kesalahan, hook dapat grep untuk ERROR dan mengembalikan hanya baris yang cocok, mengurangi konteks dari puluhan ribu token menjadi ratusan. Skill dapat memberi Claude pengetahuan domain sehingga tidak harus menjelajahi. Misalnya, skill “codebase-overview” dapat mendeskripsikan arsitektur proyek Anda, direktori kunci, dan konvensi penamaan. Ketika Claude memanggil skill, ia mendapatkan konteks ini segera daripada menghabiskan token membaca beberapa file untuk memahami struktur. Misalnya, hook PreToolUse ini memfilter output tes untuk menampilkan hanya kegagalan:

settings.json
filter-test-output.sh

Tambahkan ini ke settings.json Anda untuk menjalankan hook sebelum setiap perintah Bash:

{
  "hooks": {
    "PreToolUse": [
      {
        "matcher": "Bash",
        "hooks": [
          {
            "type": "command",
            "command": "~/.claude/hooks/filter-test-output.sh"
          }
        ]
      }
    ]
  }
}

Hook memanggil skrip ini, yang memeriksa apakah perintah adalah test runner dan memodifikasinya untuk menampilkan hanya kegagalan:

#!/bin/bash
input=$(cat)
cmd=$(echo "$input" | jq -r '.tool_input.command')

# If running tests, filter to show only failures
if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
  filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
  echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
else
  echo "{}"
fi

Pindahkan instruksi dari CLAUDE.md ke skills

File CLAUDE.md Anda dimuat ke konteks saat awal sesi. Jika berisi instruksi terperinci untuk alur kerja spesifik (seperti ulasan PR atau migrasi database), token tersebut ada bahkan ketika Anda melakukan pekerjaan yang tidak terkait. Skills dimuat sesuai permintaan hanya saat dipanggil, jadi memindahkan instruksi khusus ke skills menjaga konteks dasar Anda tetap lebih kecil. Bertujuan untuk menjaga CLAUDE.md di bawah 200 baris dengan hanya menyertakan hal-hal penting.

Sesuaikan pemikiran yang diperluas

Pemikiran yang diperluas diaktifkan secara default karena secara signifikan meningkatkan kinerja pada tugas perencanaan dan penalaran yang kompleks. Token pemikiran ditagih sebagai token output, dan anggaran default dapat mencapai puluhan ribu token per permintaan tergantung pada model. Untuk tugas yang lebih sederhana di mana penalaran mendalam tidak diperlukan, Anda dapat mengurangi biaya dengan menurunkan tingkat upaya dengan /effort atau di /model, menonaktifkan pemikiran di /config, atau menurunkan anggaran dengan MAX_THINKING_TOKENS=8000.

Delegasikan operasi verbose ke subagents

Menjalankan tes, mengambil dokumentasi, atau memproses file log dapat mengonsumsi konteks yang signifikan. Delegasikan ini ke subagents sehingga output verbose tetap dalam konteks subagent sementara hanya ringkasan yang kembali ke percakapan utama Anda.

Kelola biaya tim agen

Tim agen menggunakan sekitar 7x lebih banyak token daripada sesi standar ketika rekan kerja berjalan dalam plan mode, karena setiap rekan kerja mempertahankan jendela konteks sendiri dan berjalan sebagai instans Claude terpisah. Jaga tugas tim tetap kecil dan mandiri untuk membatasi penggunaan token per rekan kerja. Lihat tim agen untuk detail.

Tulis prompt spesifik

Permintaan yang tidak jelas seperti “tingkatkan basis kode ini” memicu pemindaian luas. Permintaan spesifik seperti “tambahkan validasi input ke fungsi login di auth.ts” memungkinkan Claude bekerja secara efisien dengan pembacaan file minimal.

Bekerja secara efisien pada tugas yang kompleks

Untuk pekerjaan yang lebih lama atau lebih kompleks, kebiasaan ini membantu menghindari token yang terbuang dari mengambil jalan yang salah:

Gunakan plan mode untuk tugas yang kompleks: Tekan Shift+Tab untuk memasuki plan mode sebelum implementasi. Claude menjelajahi basis kode dan mengusulkan pendekatan untuk persetujuan Anda, mencegah pekerjaan ulang yang mahal ketika arah awal salah.
Koreksi kursus lebih awal: Jika Claude mulai menuju arah yang salah, tekan Escape untuk berhenti segera. Gunakan /rewind atau tekan dua kali Escape untuk mengembalikan percakapan dan kode ke checkpoint sebelumnya.
Berikan target verifikasi: Sertakan kasus uji, tempel tangkapan layar, atau tentukan output yang diharapkan dalam prompt Anda. Ketika Claude dapat memverifikasi pekerjaan sendiri, ia menangkap masalah sebelum Anda perlu meminta perbaikan.
Uji secara bertahap: Tulis satu file, uji, kemudian lanjutkan. Ini menangkap masalah lebih awal ketika murah untuk diperbaiki.

Penggunaan token latar belakang

Claude Code menggunakan token untuk beberapa fungsi latar belakang bahkan saat menganggur:

Perangkuman percakapan: Pekerjaan latar belakang yang merangkum percakapan sebelumnya untuk fitur claude --resume
Pemrosesan perintah: Beberapa perintah seperti /usage dapat menghasilkan permintaan untuk memeriksa status

Proses latar belakang ini mengonsumsi sejumlah kecil token (biasanya di bawah $0,04 per sesi) bahkan tanpa interaksi aktif.

Memahami perubahan dalam perilaku Claude Code

Claude Code secara teratur menerima pembaruan yang dapat mengubah cara fitur bekerja, termasuk pelaporan biaya. Jalankan claude --version untuk memeriksa versi Anda saat ini. Untuk pertanyaan penagihan spesifik, hubungi dukungan Anthropic melalui akun Konsol Anda.

Pengaturan dan akses

Penyebaran

Penggunaan dan biaya

Distribusi Plugin

Keamanan dan data

Adopsi

Lacak biaya Anda

Menggunakan perintah `/usage`

Mengelola biaya untuk tim

Rekomendasi batas laju

Biaya token tim agen

Kurangi penggunaan token

Kelola konteks secara proaktif

Pilih model yang tepat

Kurangi overhead server MCP

Instal plugin kecerdasan kode untuk bahasa yang diketik

Offload pemrosesan ke hooks dan skills

Pindahkan instruksi dari CLAUDE.md ke skills

Sesuaikan pemikiran yang diperluas

Delegasikan operasi verbose ke subagents

Kelola biaya tim agen

Tulis prompt spesifik

Bekerja secara efisien pada tugas yang kompleks

Penggunaan token latar belakang

Memahami perubahan dalam perilaku Claude Code

Pengaturan dan akses

Penyebaran

Penggunaan dan biaya

Distribusi Plugin

Keamanan dan data

Adopsi

Documentation Index

​Lacak biaya Anda

​Menggunakan perintah /usage

​Mengelola biaya untuk tim

​Rekomendasi batas laju

​Biaya token tim agen

​Kurangi penggunaan token

​Kelola konteks secara proaktif

​Pilih model yang tepat

​Kurangi overhead server MCP

​Instal plugin kecerdasan kode untuk bahasa yang diketik

​Offload pemrosesan ke hooks dan skills

​Pindahkan instruksi dari CLAUDE.md ke skills

​Sesuaikan pemikiran yang diperluas

​Delegasikan operasi verbose ke subagents

​Kelola biaya tim agen

​Tulis prompt spesifik

​Bekerja secara efisien pada tugas yang kompleks

​Penggunaan token latar belakang

​Memahami perubahan dalam perilaku Claude Code

Lacak biaya Anda

Menggunakan perintah `/usage`

Mengelola biaya untuk tim

Rekomendasi batas laju

Biaya token tim agen

Kurangi penggunaan token

Kelola konteks secara proaktif

Pilih model yang tepat

Kurangi overhead server MCP

Instal plugin kecerdasan kode untuk bahasa yang diketik

Offload pemrosesan ke hooks dan skills

Pindahkan instruksi dari CLAUDE.md ke skills

Sesuaikan pemikiran yang diperluas

Delegasikan operasi verbose ke subagents

Kelola biaya tim agen

Tulis prompt spesifik

Bekerja secara efisien pada tugas yang kompleks

Penggunaan token latar belakang

Memahami perubahan dalam perilaku Claude Code