O que são os parâmetros de IA (Temperatura, Max tokens e Chunks no contexto)

Nível: Intermediário
Tempo de leitura: 5 min

Na aba Inteligência do formulário de cada agente, há três controles que ajustam o comportamento da IA: Temperatura, Max tokens e Chunks no contexto (RAG). Você não precisa mexer neles para começar. Os valores padrão funcionam bem para a maioria dos casos, mas entendê-los ajuda a afinar o agente quando algo não está saindo como esperado.

Temperatura

Escala: 0 (Preciso) a 1 (Criativo). Padrão: 0,7

A temperatura controla o quanto a IA "arrisca" nas respostas. Com temperatura baixa, ela escolhe as palavras mais prováveis e seguras. Com temperatura alta, ela varia mais o texto e pode surpreender.

Faixa	Comportamento	Quando usar
0 a 0,3	Respostas previsíveis, consistentes, quase idênticas para a mesma pergunta	Atendimento técnico, FAQ, respostas que precisam ser exatas
0,4 a 0,7	Equilíbrio entre consistência e naturalidade	A maioria dos agentes de atendimento e vendas
0,8 a 1	Respostas mais variadas, criativas, "humanas"	Conteúdo criativo, copy, interações leves e descontraídas

Atenção: temperatura muito alta pode fazer o agente "improvisar" informações que não estão no prompt. Se o agente está inventando respostas ou sendo inconsistente, tente reduzir para 0,3 a 0,5.

Max tokens

Escala: 256 a 8.192. Padrão: 4.096

Define o tamanho máximo que cada resposta do agente pode ter. Um token equivale a aproximadamente 3 a 4 caracteres em português:

256 tokens: resposta bem curta (2 a 3 frases)
1.024 tokens: resposta média (1 a 2 parágrafos)
4.096 tokens: resposta longa (vários parágrafos)
8.192 tokens: resposta muito longa (artigo completo)

O agente não usa mais tokens do que precisa. Esse é o limite máximo, não o tamanho fixo. Se a resposta caber em 200 tokens, ele vai usar 200.

Reduzir o limite é útil quando você quer forçar respostas mais curtas e objetivas. Aumentar é útil quando o agente costuma cortar respostas no meio.

Chunks no contexto (RAG)

Escala: 1 a 20. Padrão: 5

Esse parâmetro só tem efeito quando o agente tem uma base de conhecimento (RAG) configurada.

Quando o usuário envia uma mensagem, o sistema busca na base de conhecimento os trechos mais relevantes e os envia junto com a pergunta para a IA. O número de chunks define quantos trechos são incluídos nessa busca.

Valor	Comportamento	Quando usar
1 a 3	Menos contexto, resposta mais focada	Base pequena, perguntas diretas
4 a 7	Equilíbrio padrão	A maioria dos casos
8 a 15	Mais contexto, resposta mais completa	Base grande, perguntas complexas que exigem cruzar informações de vários documentos
16 a 20	Contexto máximo	Raramente necessário; aumenta o custo por mensagem

Dica: se o agente não está encontrando informações que você colocou na base de conhecimento, tente aumentar os chunks para 8 a 10. Se as respostas estão longas demais ou desviando do assunto, reduza para 3 a 5.

Resumo rápido

Parâmetro	Padrão	Mudar quando...
Temperatura	0,7	O agente está inventando respostas (baixar) ou soando robótico demais (subir)
Max tokens	4.096	O agente corta respostas no meio (subir) ou você quer forçar respostas curtas (baixar)
Chunks (RAG)	5	O agente não acha informações da base (subir) ou as respostas misturam assuntos demais (baixar)

Veja também

←

Quais modelos de IA estão disponíveis e quando usar cada um

Como funciona o BYOK (Bring Your Own Key)

→