Pular para o conteúdo principal
Tokens são a unidade de “combustível” que um modelo usa para processar texto. Cada mensagem que entra, cada instrução do agente, cada variável incluída como contexto e cada resposta que sai é medida (internamente) em tokens. Pense nisso como combustível: se o seu fluxo “pesa” mais ou percorre uma distância maior, tende a consumir mais.
Nota: entender tokens ajuda você a projetar agentes mais rápidos, estáveis e baratos para operar em escala. Veja: Preços

O que é um token

Um token é uma unidade de texto que o modelo processa. Ele não tem correspondência 1:1 com “uma palavra”: pode ser uma palavra completa ou um fragmento. Em uma execução típica, você consome tokens para:
  • Entrada: a mensagem do usuário + a instrução do agente + o contexto que você injeta.
  • Saída: a resposta do modelo.
  • Ferramentas e nós: por exemplo, quando um nó busca dados (como um JSON) e esses dados são usados como contexto.

A regra mental: tokens = combustível

1) Mais peso, mais consumo

Se o seu agente carrega muitas instruções, exemplos, regras redundantes ou dados desnecessários, o prompt “pesa” mais. Causas comuns:
  • Você escreve instruções longas ou repetidas.
  • Você inclui muito histórico ou informações “copiadas e coladas” no contexto.
  • Você recebe respostas de ferramentas com payloads grandes.
Guias relacionados:

2) Quanto mais longe você vai, mais gasta

Conversas com muitas rodadas tendem a acumular contexto útil… e às vezes ruído também. Se o seu fluxo depende de histórico longo, considere:
  • Resumir ou normalizar informações-chave.
  • Salvar apenas o que você precisa para o próximo passo (não o chat inteiro).
Guias relacionados:

3) O modelo também importa

Modelos “maiores” ou mais capazes tendem a ser mais caros de executar. Em geral:
  • Use um modelo especializado ou leve para tarefas simples (roteamento, validações, extração).
  • Reserve um modelo mais capaz para raciocínio complexo ou geração mais rica.

O que normalmente impulsiona o consumo em um fluxo

  • Prompts extensos (especialmente se incluírem texto repetido).
  • Integrações/APIs que retornam muito conteúdo (catálogos enormes, logs, JSONs não filtrados).
  • Variáveis persistidas sem critério que você inclui novamente em cada etapa.
  • Respostas longas quando o usuário precisa apenas de uma saída curta/estruturada.
Relacionados:

Sinais de alerta

Se você notar algum desses sintomas, provavelmente está consumindo mais tokens do que o necessário:
SintomaCausa provávelSolução
Alta latência (>5s)Contexto muito grandeReduza o histórico, filtre os dados
Respostas truncadasLimite de saída atingidoSolicite respostas mais curtas ou estruturadas
Erro “context length exceeded”Entrada ultrapassa o limiteReduza instruções ou contexto
Respostas inconsistentesMuito ruído no promptLimpe e priorize informações relevantes
Custos inesperadosTokens de ferramenta/APIFiltre as respostas de integração

Exemplo: antes vs depois

Você é um assistente virtual de atendimento ao cliente da empresa
XYZ Corporation S.A. de C.V. que foi fundada em 1985 e tem
presença em 15 países da América Latina. Seu objetivo principal
é ajudar os clientes com suas consultas de forma amigável,
profissional e eficiente. Você deve sempre ser cortês e empático.
Lembre-se de que o cliente sempre tem razão e você deve tratá-lo
com respeito. Se não souber algo, admita honestamente.

Aqui está o histórico completo da conversa:
[500 linhas de chat anterior]

Aqui está o catálogo completo de produtos:
[2000 produtos com todos os seus atributos]

Responda ao cliente de forma detalhada e completa.
Problema: ~15.000+ tokens apenas para entrada.
Use o OpenAI Tokenizer para analisar seus prompts e encontrar oportunidades de otimização.

Boas práticas para otimizar (sem perder qualidade)

Faça prompts “enxutos”

Um bom prompt tende a ser:
  • Breve
  • Com regras claras
  • Sem exemplos desnecessários
  • Com formato de saída explícito (quando aplicável)
Comece aqui:

Decida onde cada dado vive: Contexto vs Memória

Nem tudo precisa persistir.
  • Contexto: vive apenas durante a execução atual. Use para cálculos temporários e etapas intermediárias. Veja: Contexto
  • Memória: persiste entre conversas/skills com um controle de tempo de vida (TTL). Use para dados que você realmente reutiliza (ex.: preferências ou identificadores). Veja: Memória

Limite as informações que você traz das ferramentas

Se você usa APIs, filtre desde a origem:
  • Solicite apenas os campos necessários.
  • Pagine os resultados.
  • Evite buscar blobs ou catálogos completos “por precaução”.
Relacionados:

Tokens e faturamento no Jelou

Saiba mais sobre custos em: Mesmo que você não pague “por token” diretamente em todos os casos, otimizar tokens ainda é valioso porque você reduz o atrito operacional: latência, ruído no contexto, respostas inconsistentes e custo total de infraestrutura quando você escala.

Princípio orientador

Cada token deve ter trabalho real a fazer. Tokens decorativos = combustível evaporando.