Lacak biaya Anda
Menggunakan perintah /cost
Perintah
/cost menampilkan penggunaan token API dan dimaksudkan untuk pengguna API. Pelanggan Claude Max dan Pro memiliki penggunaan yang disertakan dalam langganan mereka, jadi data /cost tidak relevan untuk tujuan penagihan. Pelanggan dapat menggunakan /stats untuk melihat pola penggunaan./cost menyediakan statistik penggunaan token terperinci untuk sesi Anda saat ini:
Mengelola biaya untuk tim
Saat menggunakan Claude API, Anda dapat menetapkan batas pengeluaran ruang kerja pada total pengeluaran ruang kerja Claude Code. Admin dapat melihat pelaporan biaya dan penggunaan di Konsol.Ketika Anda pertama kali mengautentikasi Claude Code dengan akun Claude Console Anda, ruang kerja yang disebut “Claude Code” secara otomatis dibuat untuk Anda. Ruang kerja ini menyediakan pelacakan dan manajemen biaya terpusat untuk semua penggunaan Claude Code di organisasi Anda. Anda tidak dapat membuat kunci API untuk ruang kerja ini; ini secara eksklusif untuk autentikasi dan penggunaan Claude Code.
Rekomendasi batas laju
Saat menyiapkan Claude Code untuk tim, pertimbangkan rekomendasi Token Per Minute (TPM) dan Request Per Minute (RPM) per pengguna ini berdasarkan ukuran organisasi Anda:| Ukuran tim | TPM per pengguna | RPM per pengguna |
|---|---|---|
| 1-5 pengguna | 200k-300k | 5-7 |
| 5-20 pengguna | 100k-150k | 2.5-3.5 |
| 20-50 pengguna | 50k-75k | 1.25-1.75 |
| 50-100 pengguna | 25k-35k | 0.62-0.87 |
| 100-500 pengguna | 15k-20k | 0.37-0.47 |
| 500+ pengguna | 10k-15k | 0.25-0.35 |
Jika Anda mengantisipasi skenario dengan penggunaan bersamaan yang tidak biasa tinggi (seperti sesi pelatihan langsung dengan kelompok besar), Anda mungkin memerlukan alokasi TPM yang lebih tinggi per pengguna.
Biaya token tim agen
Tim agen menjalankan beberapa instans Claude Code, masing-masing dengan jendela konteks sendiri. Penggunaan token diskalakan dengan jumlah rekan kerja aktif dan berapa lama masing-masing berjalan. Untuk menjaga biaya tim agen tetap dapat dikelola:- Gunakan Sonnet untuk rekan kerja. Ini menyeimbangkan kemampuan dan biaya untuk tugas koordinasi.
- Jaga tim tetap kecil. Setiap rekan kerja menjalankan jendela konteks sendiri, jadi penggunaan token kira-kira sebanding dengan ukuran tim.
- Jaga prompt spawn tetap fokus. Rekan kerja memuat CLAUDE.md, server MCP, dan skills secara otomatis, tetapi semuanya dalam prompt spawn menambah konteks mereka dari awal.
- Bersihkan tim ketika pekerjaan selesai. Rekan kerja aktif terus mengonsumsi token bahkan jika menganggur.
- Tim agen dinonaktifkan secara default. Atur
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1di settings.json atau lingkungan Anda untuk mengaktifkannya. Lihat aktifkan tim agen.
Kurangi penggunaan token
Biaya token diskalakan dengan ukuran konteks: semakin banyak konteks yang diproses Claude, semakin banyak token yang Anda gunakan. Claude Code secara otomatis mengoptimalkan biaya melalui prompt caching (yang mengurangi biaya untuk konten berulang seperti prompt sistem) dan auto-compact (yang merangkum riwayat percakapan saat mendekati batas konteks). Strategi berikut membantu Anda menjaga konteks tetap kecil dan mengurangi biaya per pesan.Kelola konteks secara proaktif
Gunakan/cost untuk memeriksa penggunaan token Anda saat ini, atau konfigurasi baris status Anda untuk menampilkannya secara berkelanjutan.
- Bersihkan antar tugas: Gunakan
/clearuntuk memulai segar saat beralih ke pekerjaan yang tidak terkait. Konteks basi membuang token pada setiap pesan berikutnya. Gunakan/renamesebelum membersihkan sehingga Anda dapat dengan mudah menemukan sesi nanti, kemudian/resumeuntuk kembali ke sana. - Tambahkan instruksi compaction kustom:
/compact Focus on code samples and API usagememberi tahu Claude apa yang harus dipertahankan selama perangkuman.
Pilih model yang tepat
Sonnet menangani sebagian besar tugas pengkodean dengan baik dan biayanya lebih rendah dari Opus. Cadangkan Opus untuk keputusan arsitektur yang kompleks atau penalaran multi-langkah. Gunakan/model untuk beralih model di tengah sesi, atau atur default di /config. Untuk tugas subagent sederhana, tentukan model: haiku di konfigurasi subagent Anda.
Kurangi overhead server MCP
Setiap server MCP menambahkan definisi alat ke konteks Anda, bahkan saat menganggur. Jalankan/context untuk melihat apa yang mengonsumsi ruang.
- Lebih suka alat CLI jika tersedia: Alat seperti
gh,aws,gcloud, dansentry-clilebih efisien konteks daripada server MCP karena mereka tidak menambahkan definisi alat yang persisten. Claude dapat menjalankan perintah CLI secara langsung tanpa overhead. - Nonaktifkan server yang tidak digunakan: Jalankan
/mcpuntuk melihat server yang dikonfigurasi dan nonaktifkan yang tidak Anda gunakan secara aktif. - Pencarian alat bersifat otomatis: Ketika deskripsi alat MCP melebihi 10% dari jendela konteks Anda, Claude Code secara otomatis menunda mereka dan memuat alat sesuai permintaan melalui pencarian alat. Karena alat yang ditunda hanya memasuki konteks saat benar-benar digunakan, ambang batas yang lebih rendah berarti lebih sedikit definisi alat menganggur yang mengonsumsi ruang. Atur ambang batas yang lebih rendah dengan
ENABLE_TOOL_SEARCH=auto:<N>(misalnya,auto:5memicu ketika alat melebihi 5% dari jendela konteks Anda).
Instal plugin kecerdasan kode untuk bahasa yang diketik
Plugin kecerdasan kode memberi Claude navigasi simbol yang tepat daripada pencarian berbasis teks, mengurangi pembacaan file yang tidak perlu saat menjelajahi kode yang tidak dikenal. Satu panggilan “go to definition” menggantikan apa yang mungkin merupakan grep diikuti dengan membaca beberapa file kandidat. Server bahasa yang diinstal juga melaporkan kesalahan tipe secara otomatis setelah pengeditan, jadi Claude menangkap kesalahan tanpa menjalankan compiler.Offload pemrosesan ke hooks dan skills
Hooks kustom dapat memproses data sebelum Claude melihatnya. Alih-alih Claude membaca file log 10.000 baris untuk menemukan kesalahan, hook dapat grep untukERROR dan mengembalikan hanya baris yang cocok, mengurangi konteks dari puluhan ribu token menjadi ratusan.
Skill dapat memberi Claude pengetahuan domain sehingga tidak harus menjelajahi. Misalnya, skill “codebase-overview” dapat mendeskripsikan arsitektur proyek Anda, direktori kunci, dan konvensi penamaan. Ketika Claude memanggil skill, ia mendapatkan konteks ini segera daripada menghabiskan token membaca beberapa file untuk memahami struktur.
Misalnya, hook PreToolUse ini memfilter output tes untuk menampilkan hanya kegagalan:
- settings.json
- filter-test-output.sh
Tambahkan ini ke settings.json Anda untuk menjalankan hook sebelum setiap perintah Bash:
Pindahkan instruksi dari CLAUDE.md ke skills
File CLAUDE.md Anda dimuat ke konteks saat awal sesi. Jika berisi instruksi terperinci untuk alur kerja spesifik (seperti ulasan PR atau migrasi database), token tersebut ada bahkan ketika Anda melakukan pekerjaan yang tidak terkait. Skills dimuat sesuai permintaan hanya saat dipanggil, jadi memindahkan instruksi khusus ke skills menjaga konteks dasar Anda tetap lebih kecil. Bertujuan untuk menjaga CLAUDE.md di bawah ~500 baris dengan hanya menyertakan hal-hal penting.Sesuaikan pemikiran yang diperluas
Pemikiran yang diperluas diaktifkan secara default dengan anggaran 31.999 token karena secara signifikan meningkatkan kinerja pada tugas perencanaan dan penalaran yang kompleks. Namun, token pemikiran ditagih sebagai token output, jadi untuk tugas yang lebih sederhana di mana penalaran mendalam tidak diperlukan, Anda dapat mengurangi biaya dengan menurunkan tingkat upaya dengan/effort atau di /model, menonaktifkan pemikiran di /config, atau menurunkan anggaran (misalnya, MAX_THINKING_TOKENS=8000).
Delegasikan operasi verbose ke subagents
Menjalankan tes, mengambil dokumentasi, atau memproses file log dapat mengonsumsi konteks yang signifikan. Delegasikan ini ke subagents sehingga output verbose tetap dalam konteks subagent sementara hanya ringkasan yang kembali ke percakapan utama Anda.Kelola biaya tim agen
Tim agen menggunakan sekitar 7x lebih banyak token daripada sesi standar ketika rekan kerja berjalan dalam plan mode, karena setiap rekan kerja mempertahankan jendela konteks sendiri dan berjalan sebagai instans Claude terpisah. Jaga tugas tim tetap kecil dan mandiri untuk membatasi penggunaan token per rekan kerja. Lihat tim agen untuk detail.Tulis prompt spesifik
Permintaan yang tidak jelas seperti “tingkatkan basis kode ini” memicu pemindaian luas. Permintaan spesifik seperti “tambahkan validasi input ke fungsi login di auth.ts” memungkinkan Claude bekerja secara efisien dengan pembacaan file minimal.Bekerja secara efisien pada tugas yang kompleks
Untuk pekerjaan yang lebih lama atau lebih kompleks, kebiasaan ini membantu menghindari token yang terbuang dari mengambil jalan yang salah:- Gunakan plan mode untuk tugas yang kompleks: Tekan Shift+Tab untuk memasuki plan mode sebelum implementasi. Claude menjelajahi basis kode dan mengusulkan pendekatan untuk persetujuan Anda, mencegah pekerjaan ulang yang mahal ketika arah awal salah.
- Koreksi kursus lebih awal: Jika Claude mulai menuju arah yang salah, tekan Escape untuk berhenti segera. Gunakan
/rewindatau tekan dua kali Escape untuk mengembalikan percakapan dan kode ke checkpoint sebelumnya. - Berikan target verifikasi: Sertakan kasus uji, tempel tangkapan layar, atau tentukan output yang diharapkan dalam prompt Anda. Ketika Claude dapat memverifikasi pekerjaan sendiri, ia menangkap masalah sebelum Anda perlu meminta perbaikan.
- Uji secara bertahap: Tulis satu file, uji, kemudian lanjutkan. Ini menangkap masalah lebih awal ketika murah untuk diperbaiki.
Penggunaan token latar belakang
Claude Code menggunakan token untuk beberapa fungsi latar belakang bahkan saat menganggur:- Perangkuman percakapan: Pekerjaan latar belakang yang merangkum percakapan sebelumnya untuk fitur
claude --resume - Pemrosesan perintah: Beberapa perintah seperti
/costdapat menghasilkan permintaan untuk memeriksa status
Memahami perubahan dalam perilaku Claude Code
Claude Code secara teratur menerima pembaruan yang dapat mengubah cara fitur bekerja, termasuk pelaporan biaya. Jalankanclaude --version untuk memeriksa versi Anda saat ini. Untuk pertanyaan penagihan spesifik, hubungi dukungan Anthropic melalui akun Konsol Anda. Untuk penyebaran tim, mulai dengan kelompok pilot kecil untuk membangun pola penggunaan sebelum peluncuran yang lebih luas.