> ## Documentation Index
> Fetch the complete documentation index at: https://code.claude.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# Gerencie custos de forma eficaz

> Rastreie o uso de tokens, defina limites de gastos da equipe e reduza os custos do Claude Code com gerenciamento de contexto, seleção de modelo, configurações de pensamento estendido e hooks de pré-processamento.

Claude Code cobra pelo consumo de tokens da API. Para preços do plano de assinatura (Pro, Max, Team, Enterprise), consulte [claude.com/pricing](https://claude.com/pricing). Os custos por desenvolvedor variam amplamente com base na seleção de modelo, tamanho da base de código e padrões de uso, como executar múltiplas instâncias ou automação.

Em implantações empresariais, o custo médio é de cerca de \$13 por desenvolvedor por dia ativo e \$150-250 por desenvolvedor por mês, com custos permanecendo abaixo de \$30 por dia ativo para 90% dos usuários. Para estimar gastos para sua própria equipe, comece com um pequeno grupo piloto e use as ferramentas de rastreamento abaixo para estabelecer uma linha de base antes de um lançamento mais amplo.

Esta página aborda como [rastrear seus custos](#track-your-costs), [gerenciar custos para equipes](#managing-costs-for-teams) e [reduzir o uso de tokens](#reduce-token-usage).

<h2 id="track-your-costs">
  Rastreie seus custos
</h2>

<h3 id="using-the-/usage-command">
  Usando o comando `/usage`
</h3>

<Note>
  O bloco Session em `/usage` mostra o uso de tokens da API e é destinado a usuários de API. Assinantes do Claude Max e Pro têm uso incluído em sua assinatura, portanto, a figura de custo da sessão não é relevante para fins de faturamento. Os assinantes veem barras de uso do plano, estatísticas de atividade e um detalhamento de uso na mesma tela.
</Note>

O bloco Session no topo de `/usage` mostra estatísticas detalhadas de uso de tokens para sua sessão atual. A figura em dólares é uma estimativa calculada localmente a partir de contagens de tokens e pode diferir de sua fatura real. Para faturamento autorizado, consulte a página de Uso no [Claude Console](https://platform.claude.com/usage).

```text theme={null}
Total cost:            $0.55
Total duration (API):  6m 19.7s
Total duration (wall): 6h 33m 10.2s
Total code changes:    0 lines added, 0 lines removed
```

Em um plano Pro, Max, Team ou Enterprise, `/usage` também mostra um detalhamento do que conta contra seus limites de plano. Ele atribui o uso recente a skills, subagents, plugins e servidores MCP individuais, cada um mostrado como uma porcentagem do total. Pressione `d` ou `w` para alternar entre as últimas 24 horas e os últimos 7 dias. As figuras são aproximadas e calculadas a partir do histórico de sessão local nesta máquina, portanto, o uso de outros dispositivos ou claude.ai não está incluído.

Na [extensão do VS Code](/pt/vs-code#check-account-and-usage), o mesmo detalhamento aparece no diálogo Account & usage com um alternador Day e Week. Requer Claude Code v2.1.174 ou posterior.

<h2 id="managing-costs-for-teams">
  Gerenciando custos para equipes
</h2>

Ao usar a API Claude, você pode [definir limites de gastos do workspace](https://platform.claude.com/docs/pt/build-with-claude/workspaces#workspace-limits) no gasto total do workspace do Claude Code. Administradores podem [visualizar relatórios de custo e uso](https://platform.claude.com/docs/pt/build-with-claude/workspaces#usage-and-cost-tracking) no Console.

Nos planos Pro e Max, você pode definir um limite de gastos mensal em créditos de uso com o comando `/usage-credits`. Se você atingir esse limite enquanto ainda tiver créditos de uso disponíveis, Claude Code o solicita a aumentar ou remover o limite para que você possa continuar sem sair da CLI. Alterar o limite requer acesso de faturamento na conta.

<Note>
  Quando você autentica pela primeira vez o Claude Code com sua conta do Claude Console, um workspace chamado "Claude Code" é criado automaticamente para você. Este workspace fornece rastreamento e gerenciamento centralizado de custos para todo o uso do Claude Code em sua organização. Você não pode criar chaves de API para este workspace; é exclusivamente para autenticação e uso do Claude Code.

  Para organizações com limites de taxa personalizados, o tráfego do Claude Code neste workspace conta para os limites de taxa geral da API da sua organização. Você pode definir um [limite de taxa do workspace](https://platform.claude.com/docs/pt/api/rate-limits#setting-lower-limits-for-workspaces) na página Limits deste workspace no Claude Console para limitar a cota do Claude Code e proteger outras cargas de trabalho de produção.
</Note>

No Bedrock, Vertex e Foundry, Claude Code não envia métricas da sua nuvem. Um [gateway de aplicativos Claude](/pt/claude-apps-gateway) auto-hospedado fornece atribuição de uso por usuário, métricas OTLP com contagens de tokens e [limites de gastos por usuário](/pt/claude-apps-gateway-spend-limits) nesses provedores. Organizações que roteiam Claude Code através de um [gateway LLM](/pt/llm-gateway) diferente podem rastrear gastos no gateway, já que ele vê cada requisição.

<h3 id="rate-limit-recommendations">
  Recomendações de limite de taxa
</h3>

Ao configurar Claude Code para equipes, considere estas recomendações de Token Por Minuto (TPM) e Requisição Por Minuto (RPM) por usuário com base no tamanho da sua organização:

| Tamanho da equipe | TPM por usuário | RPM por usuário |
| ----------------- | --------------- | --------------- |
| 1-5 usuários      | 200k-300k       | 5-7             |
| 5-20 usuários     | 100k-150k       | 2.5-3.5         |
| 20-50 usuários    | 50k-75k         | 1.25-1.75       |
| 50-100 usuários   | 25k-35k         | 0.62-0.87       |
| 100-500 usuários  | 15k-20k         | 0.37-0.47       |
| 500+ usuários     | 10k-15k         | 0.25-0.35       |

Por exemplo, se você tiver 200 usuários, você pode solicitar 20k TPM para cada usuário, ou 4 milhões de TPM total (200\*20.000 = 4 milhões).

O TPM por usuário diminui conforme o tamanho da equipe cresce porque menos usuários tendem a usar Claude Code simultaneamente em organizações maiores. Esses limites de taxa se aplicam no nível da organização, não por usuário individual, o que significa que usuários individuais podem consumir temporariamente mais do que sua cota calculada quando outros não estão usando ativamente o serviço.

<Note>
  Se você antecipar cenários com uso concorrente incomumente alto (como sessões de treinamento ao vivo com grandes grupos), você pode precisar de alocações de TPM mais altas por usuário.
</Note>

<h3 id="agent-team-token-costs">
  Custos de tokens de equipes de agentes
</h3>

[Equipes de agentes](/pt/agent-teams) geram múltiplas instâncias do Claude Code, cada uma com sua própria janela de contexto. O uso de tokens escala com o número de colegas de equipe ativos e quanto tempo cada um executa.

Para manter os custos das equipes de agentes gerenciáveis:

* Use Sonnet para colegas de equipe. Ele equilibra capacidade e custo para tarefas de coordenação.
* Mantenha equipes pequenas. Cada colega de equipe executa sua própria janela de contexto, portanto, o uso de tokens é aproximadamente proporcional ao tamanho da equipe.
* Mantenha prompts de geração focados. Colegas de equipe carregam CLAUDE.md, servidores MCP e skills automaticamente, mas tudo no prompt de geração adiciona ao seu contexto desde o início.
* Desligue colegas de equipe quando o trabalho estiver concluído. Cada colega de equipe ativo continua consumindo tokens até sair ou a sessão terminar.
* Equipes de agentes são desabilitadas por padrão. Defina `CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1` em seu [settings.json](/pt/settings) ou ambiente para habilitá-las. Veja [habilitar equipes de agentes](/pt/agent-teams#enable-agent-teams).

<h2 id="reduce-token-usage">
  Reduza o uso de tokens
</h2>

Os custos de tokens escalam com o tamanho do contexto: quanto mais contexto Claude processa, mais tokens você usa. Claude Code otimiza automaticamente os custos através do [prompt caching](/pt/prompt-caching), que reduz custos para conteúdo repetido como prompts do sistema, e auto-compaction, que resume o histórico de conversa ao se aproximar dos limites de contexto.

As seguintes estratégias ajudam você a manter o contexto pequeno e reduzir custos por mensagem.

<h3 id="manage-context-proactively">
  Gerencie o contexto proativamente
</h3>

Use `/usage` para verificar seu uso atual de tokens, ou [configure sua linha de status](/pt/statusline#context-window-usage) para exibi-la continuamente.

* **Limpe entre tarefas**: Use `/clear` para começar do zero ao mudar para trabalho não relacionado. Contexto obsoleto desperdiça tokens em cada mensagem subsequente. Use `/rename` antes de limpar para que você possa encontrar facilmente a sessão depois, então `/resume` para retornar a ela.
* **Adicione instruções de compactação personalizadas**: `/compact Focus on code samples and API usage` diz a Claude o que preservar durante a sumarização.

Você também pode personalizar o comportamento de compactação em seu CLAUDE.md:

```markdown theme={null}
# Compact instructions

When you are using compact, please focus on test output and code changes
```

<h3 id="choose-the-right-model">
  Escolha o modelo certo
</h3>

Sonnet lida bem com a maioria das tarefas de codificação e custa menos que Opus. Reserve Opus para decisões arquitetônicas complexas ou raciocínio em múltiplas etapas. Use `/model` para alternar modelos no meio da sessão, ou defina um padrão em `/config`. Para tarefas simples de subagente, especifique `model: haiku` em sua [configuração de subagente](/pt/sub-agents#choose-a-model).

<h3 id="reduce-mcp-server-overhead">
  Reduza a sobrecarga do servidor MCP
</h3>

As definições de ferramentas MCP são [adiadas por padrão](/pt/mcp#scale-with-mcp-tool-search), portanto apenas nomes de ferramentas entram no contexto até Claude usar uma ferramenta específica. Execute `/context` para ver o que está consumindo espaço.

* **Prefira ferramentas CLI quando disponíveis**: Ferramentas como `gh`, `aws`, `gcloud` e `sentry-cli` são ainda mais eficientes em contexto do que servidores MCP porque não adicionam nenhuma listagem por ferramenta. Claude pode executar comandos CLI diretamente.
* **Desabilite servidores não utilizados**: Execute `/mcp` para ver servidores configurados e desabilite qualquer um que você não esteja usando ativamente.

<h3 id="install-code-intelligence-plugins-for-typed-languages">
  Instale plugins de inteligência de código para linguagens tipadas
</h3>

[Plugins de inteligência de código](/pt/discover-plugins#code-intelligence) dão a Claude navegação de símbolo precisa em vez de busca baseada em texto, reduzindo leituras de arquivo desnecessárias ao explorar código desconhecido. Uma única chamada "ir para definição" substitui o que poderia ser um grep seguido de leitura de múltiplos arquivos candidatos. Servidores de linguagem instalados também relatam erros de tipo automaticamente após edições, portanto Claude detecta erros sem executar um compilador.

<h3 id="offload-processing-to-hooks-and-skills">
  Descarregue o processamento para hooks e skills
</h3>

[Hooks](/pt/hooks) personalizados podem pré-processar dados antes de Claude vê-los. Em vez de Claude ler um arquivo de log de 10.000 linhas para encontrar erros, um hook pode fazer grep para `ERROR` e retornar apenas linhas correspondentes, reduzindo contexto de dezenas de milhares de tokens para centenas.

Uma [skill](/pt/skills) pode dar a Claude conhecimento de domínio para que não tenha que explorar. Por exemplo, uma skill "codebase-overview" poderia descrever a arquitetura do seu projeto, diretórios-chave e convenções de nomenclatura. Quando Claude invoca a skill, obtém este contexto imediatamente em vez de gastar tokens lendo múltiplos arquivos para entender a estrutura.

Por exemplo, este hook PreToolUse filtra a saída de teste para mostrar apenas falhas:

<Tabs>
  <Tab title="settings.json">
    Adicione isto ao seu [settings.json](/pt/settings#settings-files) para executar o hook antes de cada comando Bash:

    ```json theme={null}
    {
      "hooks": {
        "PreToolUse": [
          {
            "matcher": "Bash",
            "hooks": [
              {
                "type": "command",
                "command": "~/.claude/hooks/filter-test-output.sh"
              }
            ]
          }
        ]
      }
    }
    ```
  </Tab>

  <Tab title="filter-test-output.sh">
    O hook chama este script, que verifica se o comando é um executor de teste e o modifica para mostrar apenas falhas:

    ```bash theme={null}
    #!/bin/bash
    input=$(cat)
    cmd=$(echo "$input" | jq -r '.tool_input.command')

    # If running tests, filter to show only failures
    if [[ "$cmd" =~ ^(npm test|pytest|go test) ]]; then
      filtered_cmd="$cmd 2>&1 | grep -A 5 -E '(FAIL|ERROR|error:)' | head -100"
      echo "{\"hookSpecificOutput\":{\"hookEventName\":\"PreToolUse\",\"permissionDecision\":\"allow\",\"updatedInput\":{\"command\":\"$filtered_cmd\"}}}"
    else
      echo "{}"
    fi
    ```
  </Tab>
</Tabs>

<h3 id="move-instructions-from-claude-md-to-skills">
  Mova instruções de CLAUDE.md para skills
</h3>

Seu arquivo [CLAUDE.md](/pt/memory) é carregado no contexto no início da sessão. Se contiver instruções detalhadas para fluxos de trabalho específicos (como revisões de PR ou migrações de banco de dados), esses tokens estão presentes mesmo quando você está fazendo trabalho não relacionado. [Skills](/pt/skills) carregam sob demanda apenas quando invocadas, portanto mover instruções especializadas para skills mantém seu contexto base menor. Procure manter CLAUDE.md com menos de 200 linhas incluindo apenas essenciais.

<h3 id="adjust-extended-thinking">
  Ajuste o pensamento estendido
</h3>

O pensamento estendido é habilitado por padrão porque melhora significativamente o desempenho em tarefas complexas de planejamento e raciocínio. Tokens de pensamento são faturados como tokens de saída, e o orçamento padrão pode ser dezenas de milhares de tokens por solicitação dependendo do modelo. Para tarefas mais simples onde raciocínio profundo não é necessário, você pode reduzir custos baixando o [nível de esforço](/pt/model-config#adjust-effort-level) com `/effort` ou em `/model`, desabilitando pensamento em `/config`, ou, em modelos com um [orçamento de pensamento fixo](/pt/model-config#adaptive-reasoning-and-fixed-thinking-budgets), baixando o orçamento com `MAX_THINKING_TOKENS=8000`. Modelos de raciocínio adaptativo ignoram orçamentos diferentes de zero, portanto use níveis de esforço lá em vez disso. Desabilitar pensamento não está disponível no Fable 5, que sempre usa pensamento estendido.

<h3 id="delegate-verbose-operations-to-subagents">
  Delegue operações verbosas para subagentes
</h3>

Executar testes, buscar documentação ou processar arquivos de log pode consumir contexto significativo. Delegue estes para [subagentes](/pt/sub-agents#isolate-high-volume-operations) para que a saída verbosa permaneça no contexto do subagente enquanto apenas um resumo retorna à sua conversa principal.

<h3 id="manage-agent-team-costs">
  Gerencie custos de equipes de agentes
</h3>

Equipes de agentes usam aproximadamente 7x mais tokens do que sessões padrão quando colegas de equipe executam em modo de plano, porque cada colega de equipe mantém sua própria janela de contexto e executa como uma instância Claude separada. Mantenha tarefas de equipe pequenas e auto-contidas para limitar o uso de tokens por colega de equipe. Veja [equipes de agentes](/pt/agent-teams) para detalhes.

<h3 id="write-specific-prompts">
  Escreva prompts específicos
</h3>

Solicitações vagas como "melhorar esta base de código" disparam varredura ampla. Solicitações específicas como "adicionar validação de entrada à função de login em auth.ts" deixam Claude trabalhar eficientemente com leituras de arquivo mínimas.

<h3 id="work-efficiently-on-complex-tasks">
  Trabalhe eficientemente em tarefas complexas
</h3>

Para trabalho mais longo ou complexo, esses hábitos ajudam a evitar tokens desperdiçados por seguir o caminho errado:

* **Use modo de plano para tarefas complexas**: Pressione Shift+Tab para entrar em [modo de plano](/pt/permission-modes#analyze-before-you-edit-with-plan-mode) antes da implementação. Claude explora a base de código e propõe uma abordagem para sua aprovação, prevenindo retrabalho caro quando a direção inicial está errada.
* **Corrija o curso cedo**: Se Claude começar a seguir a direção errada, pressione Escape para parar imediatamente. Use `/rewind` ou toque duplo em Escape para restaurar conversa e código para um checkpoint anterior.
* **Dê alvos de verificação**: Inclua casos de teste, cole capturas de tela ou defina saída esperada em seu prompt. Quando Claude pode verificar seu próprio trabalho, detecta problemas antes de você precisar solicitar correções.
* **Teste incrementalmente**: Escreva um arquivo, teste-o, depois continue. Isto detecta problemas cedo quando são baratos de corrigir.

<h2 id="background-token-usage">
  Uso de tokens em segundo plano
</h2>

Claude Code usa tokens para algumas funcionalidades em segundo plano mesmo quando ocioso:

* **Sumarização de conversa**: Trabalhos em segundo plano que resumem conversas anteriores para o recurso `claude --resume`
* **Processamento de comando**: Alguns comandos como `/usage` podem gerar solicitações para verificar status

Esses processos em segundo plano consomem uma pequena quantidade de tokens (tipicamente menos de \$0.04 por sessão) mesmo sem interação ativa.

<h2 id="understanding-changes-in-claude-code-behavior">
  Entendendo mudanças no comportamento do Claude Code
</h2>

Claude Code recebe regularmente atualizações que podem mudar como os recursos funcionam, incluindo relatório de custos. Execute `claude --version` para verificar sua versão atual. Para perguntas específicas de faturamento, entre em contato com o suporte da Anthropic através de sua [conta Console](https://platform.claude.com/login).