Tokens - Jelou AI Docs

Tokens são a unidade de “combustível” que um modelo usa para processar texto. Cada mensagem que entra, cada instrução do agente, cada variável incluída como contexto e cada resposta que sai é medida (internamente) em tokens. Pense nisso como combustível: se o seu fluxo “pesa” mais ou percorre uma distância maior, tende a consumir mais.

Nota: entender tokens ajuda você a projetar agentes mais rápidos, estáveis e baratos para operar em escala. Veja: Preços

O que é um token

Um token é uma unidade de texto que o modelo processa. Ele não tem correspondência 1:1 com “uma palavra”: pode ser uma palavra completa ou um fragmento. Em uma execução típica, você consome tokens para:

Entrada: a mensagem do usuário + a instrução do agente + o contexto que você injeta.
Saída: a resposta do modelo.
Ferramentas e nós: por exemplo, quando um nó busca dados (como um JSON) e esses dados são usados como contexto.

A regra mental: tokens = combustível

1) Mais peso, mais consumo

Se o seu agente carrega muitas instruções, exemplos, regras redundantes ou dados desnecessários, o prompt “pesa” mais. Causas comuns:

Você escreve instruções longas ou repetidas.
Você inclui muito histórico ou informações “copiadas e coladas” no contexto.
Você recebe respostas de ferramentas com payloads grandes.

Guias relacionados:

2) Quanto mais longe você vai, mais gasta

Conversas com muitas rodadas tendem a acumular contexto útil… e às vezes ruído também. Se o seu fluxo depende de histórico longo, considere:

Resumir ou normalizar informações-chave.
Salvar apenas o que você precisa para o próximo passo (não o chat inteiro).

Guias relacionados:

3) O modelo também importa

Modelos “maiores” ou mais capazes tendem a ser mais caros de executar. Em geral:

Use um modelo especializado ou leve para tarefas simples (roteamento, validações, extração).
Reserve um modelo mais capaz para raciocínio complexo ou geração mais rica.

O que normalmente impulsiona o consumo em um fluxo

Prompts extensos (especialmente se incluírem texto repetido).
Integrações/APIs que retornam muito conteúdo (catálogos enormes, logs, JSONs não filtrados).
Variáveis persistidas sem critério que você inclui novamente em cada etapa.
Respostas longas quando o usuário precisa apenas de uma saída curta/estruturada.

Relacionados:

Sinais de alerta

Se você notar algum desses sintomas, provavelmente está consumindo mais tokens do que o necessário:

Sintoma	Causa provável	Solução
Alta latência (>5s)	Contexto muito grande	Reduza o histórico, filtre os dados
Respostas truncadas	Limite de saída atingido	Solicite respostas mais curtas ou estruturadas
Erro “context length exceeded”	Entrada ultrapassa o limite	Reduza instruções ou contexto
Respostas inconsistentes	Muito ruído no prompt	Limpe e priorize informações relevantes
Custos inesperados	Tokens de ferramenta/API	Filtre as respostas de integração

Exemplo: antes vs depois

Antes (pesado)
Depois (otimizado)

Você é um assistente virtual de atendimento ao cliente da empresa
XYZ Corporation S.A. de C.V. que foi fundada em 1985 e tem
presença em 15 países da América Latina. Seu objetivo principal
é ajudar os clientes com suas consultas de forma amigável,
profissional e eficiente. Você deve sempre ser cortês e empático.
Lembre-se de que o cliente sempre tem razão e você deve tratá-lo
com respeito. Se não souber algo, admita honestamente.

Aqui está o histórico completo da conversa:
[500 linhas de chat anterior]

Aqui está o catálogo completo de produtos:
[2000 produtos com todos os seus atributos]

Responda ao cliente de forma detalhada e completa.

Problema: ~15.000+ tokens apenas para entrada.

XYZ support assistant. Respond in English, maximum 2 paragraphs.

Customer context:
- Name: {{memory.name}}
- Last order: {{memory.last_order}}

Relevant products (filtered):
{{context.filtered_products}}

Question: {{input.message}}

Resultado: ~200-400 tokens. Mesmo resultado, 50x mais eficiente.

Use o OpenAI Tokenizer para analisar seus prompts e encontrar oportunidades de otimização.

Boas práticas para otimizar (sem perder qualidade)

Faça prompts “enxutos”

Um bom prompt tende a ser:

Breve
Com regras claras
Sem exemplos desnecessários
Com formato de saída explícito (quando aplicável)

Comece aqui:

Prompting

Decida onde cada dado vive: Contexto vs Memória

Nem tudo precisa persistir.

Contexto: vive apenas durante a execução atual. Use para cálculos temporários e etapas intermediárias. Veja: Contexto
Memória: persiste entre conversas/skills com um controle de tempo de vida (TTL). Use para dados que você realmente reutiliza (ex.: preferências ou identificadores). Veja: Memória

Limite as informações que você traz das ferramentas

Se você usa APIs, filtre desde a origem:

Solicite apenas os campos necessários.
Pagine os resultados.
Evite buscar blobs ou catálogos completos “por precaução”.

Relacionados:

Nó API

Tokens e faturamento no Jelou

Saiba mais sobre custos em:

Mesmo que você não pague “por token” diretamente em todos os casos, otimizar tokens ainda é valioso porque você reduz o atrito operacional: latência, ruído no contexto, respostas inconsistentes e custo total de infraestrutura quando você escala.

Princípio orientador

Cada token deve ter trabalho real a fazer. Tokens decorativos = combustível evaporando.

Documentation Index

​O que é um token

​A regra mental: tokens = combustível

​1) Mais peso, mais consumo

​2) Quanto mais longe você vai, mais gasta

​3) O modelo também importa

​O que normalmente impulsiona o consumo em um fluxo

​Sinais de alerta

​Exemplo: antes vs depois

​Boas práticas para otimizar (sem perder qualidade)

​Faça prompts “enxutos”

​Decida onde cada dado vive: Contexto vs Memória

​Limite as informações que você traz das ferramentas

​Tokens e faturamento no Jelou

​Princípio orientador

O que é um token

A regra mental: tokens = combustível

1) Mais peso, mais consumo

2) Quanto mais longe você vai, mais gasta

3) O modelo também importa

O que normalmente impulsiona o consumo em um fluxo

Sinais de alerta

Exemplo: antes vs depois

Boas práticas para otimizar (sem perder qualidade)

Faça prompts “enxutos”

Decida onde cada dado vive: Contexto vs Memória

Limite as informações que você traz das ferramentas

Tokens e faturamento no Jelou

Princípio orientador