Tokens

Los tokens son la unidad de “combustible” que usa un modelo para procesar texto. Cada mensaje que entra, cada instrucción del agente, cada variable que incluyes como contexto y cada respuesta que sale se mide (internamente) en tokens. Piénsalo como gasolina: si tu flujo “pesa” más o viaja más lejos, tiende a consumir más.

Nota: entender tokens te ayuda a diseñar agentes más rápidos, estables y baratos de operar a escala.
Ver: Precios

Qué es un token

Un token es una unidad de texto que el modelo procesa. No equivale 1:1 a “una palabra”: puede ser una palabra completa o un fragmento. En una ejecución típica, consumes tokens por:

Entrada: el mensaje del usuario + la instrucción del agente + el contexto que inyectas.
Salida: la respuesta del modelo.
Herramientas y nodos: por ejemplo, cuando un nodo trae datos (como un JSON) y esos datos se usan como contexto.

La regla mental: tokens = gasolina

1) Más peso, más consumo

Si tu agente carga demasiadas instrucciones, ejemplos, reglas redundantes o datos innecesarios, el prompt “pesa” más. Causas comunes:

Escribes instrucciones largas o repetidas.
Incluyes demasiado historial o haces “copypaste” de información en el contexto.
Recibes respuestas de herramientas con payloads grandes.

Guías relacionadas:

2) Mientras más lejos viajas, más gastas

Las conversaciones con muchos turnos tienden a acumular contexto útil… y a veces también ruido. Si tu flujo depende de historial largo, considera:

Resumir o normalizar información clave.
Guardar solo lo que necesitas para el siguiente paso (no todo el chat).

Guías relacionadas:

3) El modelo también importa

Los modelos más “grandes” o con más capacidades suelen ser más costosos de ejecutar. En general:

Usa un modelo especializado o liviano para tareas simples (routing, validaciones, extracción).
Reserva un modelo más capaz para razonamiento complejo o generación más rica.

Qué suele disparar el consumo en un flujo

Prompts extensos (sobre todo si incluyes texto repetido).
Integraciones/API que retornan demasiado contenido (catálogos enormes, logs, JSONs sin filtrar).
Variables persistidas sin criterio que vuelves a incluir en cada paso.
Respuestas largas cuando el usuario solo necesita una salida corta/estructurada.

Relacionado:

Señales de alerta

Si notas alguno de estos síntomas, probablemente estés consumiendo más tokens de los necesarios:

Síntoma	Causa probable	Solución
Latencia alta (>5s)	Contexto muy grande	Reduce historial, filtra datos
Respuestas cortadas	Límite de salida alcanzado	Pide respuestas más cortas o estructuradas
Error “context length exceeded”	Entrada supera el límite	Reduce instrucciones o contexto
Respuestas inconsistentes	Demasiado ruido en el prompt	Limpia y prioriza información relevante
Costos inesperados	Tokens de herramientas/API	Filtra respuestas de integraciones

Ejemplo: antes vs después

Antes (pesado)
Después (optimizado)

Eres un asistente virtual de atención al cliente para la empresa 
XYZ Corporation S.A. de C.V. que fue fundada en 1985 y tiene 
presencia en 15 países de Latinoamérica. Tu objetivo principal 
es ayudar a los clientes con sus consultas de manera amable, 
profesional y eficiente. Siempre debes ser cortés y empático.
Recuerda que el cliente siempre tiene la razón y debes tratarlo
con respeto. Si no sabes algo, admítelo honestamente.

Aquí está el historial completo de la conversación:
[500 líneas de chat previo]

Aquí está el catálogo completo de productos:
[2000 productos con todos sus atributos]

Responde al cliente de forma detallada y completa.

Problema: ~15,000+ tokens solo de entrada.

Asistente de soporte de XYZ. Responde en español, máximo 2 párrafos.

Contexto del cliente:
- Nombre: {{memory.nombre}}
- Último pedido: {{memory.ultimo_pedido}}

Productos relevantes (filtrados):
{{context.productos_filtrados}}

Pregunta: {{input.message}}

Resultado: ~200-400 tokens. Mismo resultado, 50x más eficiente.

Usa el Tokenizer de OpenAI para analizar tus prompts y encontrar oportunidades de optimización.

Buenas prácticas para optimizar (sin perder calidad)

Haz prompts “delgados”

Un buen prompt suele ser:

Breve
Con reglas claras
Sin ejemplos innecesarios
Con formato de salida explícito (si aplica)

Empieza por acá:

Prompting

Decide dónde vive cada dato: Context vs Memory

No todo debe persistir.

Context: vive solo durante la ejecución actual. Úsalo para cálculos temporales y pasos intermedios.
Ver: Contexto
Memory: persiste entre conversaciones/skills con control de tiempo de vida (TTL). Úsalo para datos que realmente reutilizas (por ejemplo, preferencias o identificadores).
Ver: Memory

Limita la información que traes de herramientas

Si usas API, filtra desde origen:

Pide solo los campos necesarios.
Pagina resultados.
Evita traer blobs o catálogos completos “por si acaso”.

Relacionado:

Nodo API

Tokens y facturación en Jelou

Conoce más sobre costos en:

Aunque no pagues “por token” directamente en todos los casos, optimizar tokens sigue siendo valioso porque reduces fricción operativa: latencia, ruido en contexto, respuestas inconsistentes y costo total de infraestructura cuando escalas.

Idea guía

Cada token debería tener trabajo real que hacer. Tokens decorativos = gasolina evaporándose.

Empezando

Agentes IA

Brain

Nodos

Databases

Variables

Tools

Functions

Configuración

Marketplace

Enterprise

Facturación

Qué es un token

La regla mental: tokens = gasolina

1) Más peso, más consumo

2) Mientras más lejos viajas, más gastas

3) El modelo también importa

Qué suele disparar el consumo en un flujo

Señales de alerta

Ejemplo: antes vs después

Buenas prácticas para optimizar (sin perder calidad)

Haz prompts “delgados”

Decide dónde vive cada dato: Context vs Memory

Limita la información que traes de herramientas

Tokens y facturación en Jelou

Idea guía

Empezando

Agentes IA

Brain

Nodos

Databases

Variables

Tools

Functions

Configuración

Marketplace

Enterprise

Facturación

​Qué es un token

​La regla mental: tokens = gasolina

​1) Más peso, más consumo

​2) Mientras más lejos viajas, más gastas

​3) El modelo también importa

​Qué suele disparar el consumo en un flujo

​Señales de alerta

​Ejemplo: antes vs después

​Buenas prácticas para optimizar (sin perder calidad)

​Haz prompts “delgados”

​Decide dónde vive cada dato: Context vs Memory

​Limita la información que traes de herramientas

​Tokens y facturación en Jelou

​Idea guía

Qué es un token

La regla mental: tokens = gasolina

1) Más peso, más consumo

2) Mientras más lejos viajas, más gastas

3) El modelo también importa

Qué suele disparar el consumo en un flujo

Señales de alerta

Ejemplo: antes vs después

Buenas prácticas para optimizar (sin perder calidad)

Haz prompts “delgados”

Decide dónde vive cada dato: Context vs Memory

Limita la información que traes de herramientas

Tokens y facturación en Jelou

Idea guía