Central de Ajuda O que são os parâmetros de IA (Temperatura, Max tokens e Chunks no contexto)

O que são os parâmetros de IA (Temperatura, Max tokens e Chunks no contexto)

Nível: Intermediário
Tempo de leitura: 5 min


Na aba Inteligência do formulário de cada agente, há três controles que ajustam o comportamento da IA: Temperatura, Max tokens e Chunks no contexto (RAG). Você não precisa mexer neles para começar. Os valores padrão funcionam bem para a maioria dos casos, mas entendê-los ajuda a afinar o agente quando algo não está saindo como esperado.


Temperatura

Escala: 0 (Preciso) a 1 (Criativo). Padrão: 0,7

A temperatura controla o quanto a IA "arrisca" nas respostas. Com temperatura baixa, ela escolhe as palavras mais prováveis e seguras. Com temperatura alta, ela varia mais o texto e pode surpreender.

Faixa Comportamento Quando usar
0 a 0,3 Respostas previsíveis, consistentes, quase idênticas para a mesma pergunta Atendimento técnico, FAQ, respostas que precisam ser exatas
0,4 a 0,7 Equilíbrio entre consistência e naturalidade A maioria dos agentes de atendimento e vendas
0,8 a 1 Respostas mais variadas, criativas, "humanas" Conteúdo criativo, copy, interações leves e descontraídas

Atenção: temperatura muito alta pode fazer o agente "improvisar" informações que não estão no prompt. Se o agente está inventando respostas ou sendo inconsistente, tente reduzir para 0,3 a 0,5.


Max tokens

Escala: 256 a 8.192. Padrão: 4.096

Define o tamanho máximo que cada resposta do agente pode ter. Um token equivale a aproximadamente 3 a 4 caracteres em português:

  • 256 tokens: resposta bem curta (2 a 3 frases)
  • 1.024 tokens: resposta média (1 a 2 parágrafos)
  • 4.096 tokens: resposta longa (vários parágrafos)
  • 8.192 tokens: resposta muito longa (artigo completo)

O agente não usa mais tokens do que precisa. Esse é o limite máximo, não o tamanho fixo. Se a resposta caber em 200 tokens, ele vai usar 200.

Reduzir o limite é útil quando você quer forçar respostas mais curtas e objetivas. Aumentar é útil quando o agente costuma cortar respostas no meio.


Chunks no contexto (RAG)

Escala: 1 a 20. Padrão: 5

Esse parâmetro só tem efeito quando o agente tem uma base de conhecimento (RAG) configurada.

Quando o usuário envia uma mensagem, o sistema busca na base de conhecimento os trechos mais relevantes e os envia junto com a pergunta para a IA. O número de chunks define quantos trechos são incluídos nessa busca.

Valor Comportamento Quando usar
1 a 3 Menos contexto, resposta mais focada Base pequena, perguntas diretas
4 a 7 Equilíbrio padrão A maioria dos casos
8 a 15 Mais contexto, resposta mais completa Base grande, perguntas complexas que exigem cruzar informações de vários documentos
16 a 20 Contexto máximo Raramente necessário; aumenta o custo por mensagem

Dica: se o agente não está encontrando informações que você colocou na base de conhecimento, tente aumentar os chunks para 8 a 10. Se as respostas estão longas demais ou desviando do assunto, reduza para 3 a 5.


Resumo rápido

Parâmetro Padrão Mudar quando...
Temperatura 0,7 O agente está inventando respostas (baixar) ou soando robótico demais (subir)
Max tokens 4.096 O agente corta respostas no meio (subir) ou você quer forçar respostas curtas (baixar)
Chunks (RAG) 5 O agente não acha informações da base (subir) ou as respostas misturam assuntos demais (baixar)

Veja também