O que são os parâmetros de IA (Temperatura, Max tokens e Chunks no contexto)
Nível: Intermediário
Tempo de leitura: 5 min
Na aba Inteligência do formulário de cada agente, há três controles que ajustam o comportamento da IA: Temperatura, Max tokens e Chunks no contexto (RAG). Você não precisa mexer neles para começar. Os valores padrão funcionam bem para a maioria dos casos, mas entendê-los ajuda a afinar o agente quando algo não está saindo como esperado.
Temperatura
Escala: 0 (Preciso) a 1 (Criativo). Padrão: 0,7
A temperatura controla o quanto a IA "arrisca" nas respostas. Com temperatura baixa, ela escolhe as palavras mais prováveis e seguras. Com temperatura alta, ela varia mais o texto e pode surpreender.
| Faixa | Comportamento | Quando usar |
|---|---|---|
| 0 a 0,3 | Respostas previsíveis, consistentes, quase idênticas para a mesma pergunta | Atendimento técnico, FAQ, respostas que precisam ser exatas |
| 0,4 a 0,7 | Equilíbrio entre consistência e naturalidade | A maioria dos agentes de atendimento e vendas |
| 0,8 a 1 | Respostas mais variadas, criativas, "humanas" | Conteúdo criativo, copy, interações leves e descontraídas |
Atenção: temperatura muito alta pode fazer o agente "improvisar" informações que não estão no prompt. Se o agente está inventando respostas ou sendo inconsistente, tente reduzir para 0,3 a 0,5.
Max tokens
Escala: 256 a 8.192. Padrão: 4.096
Define o tamanho máximo que cada resposta do agente pode ter. Um token equivale a aproximadamente 3 a 4 caracteres em português:
- 256 tokens: resposta bem curta (2 a 3 frases)
- 1.024 tokens: resposta média (1 a 2 parágrafos)
- 4.096 tokens: resposta longa (vários parágrafos)
- 8.192 tokens: resposta muito longa (artigo completo)
O agente não usa mais tokens do que precisa. Esse é o limite máximo, não o tamanho fixo. Se a resposta caber em 200 tokens, ele vai usar 200.
Reduzir o limite é útil quando você quer forçar respostas mais curtas e objetivas. Aumentar é útil quando o agente costuma cortar respostas no meio.
Chunks no contexto (RAG)
Escala: 1 a 20. Padrão: 5
Esse parâmetro só tem efeito quando o agente tem uma base de conhecimento (RAG) configurada.
Quando o usuário envia uma mensagem, o sistema busca na base de conhecimento os trechos mais relevantes e os envia junto com a pergunta para a IA. O número de chunks define quantos trechos são incluídos nessa busca.
| Valor | Comportamento | Quando usar |
|---|---|---|
| 1 a 3 | Menos contexto, resposta mais focada | Base pequena, perguntas diretas |
| 4 a 7 | Equilíbrio padrão | A maioria dos casos |
| 8 a 15 | Mais contexto, resposta mais completa | Base grande, perguntas complexas que exigem cruzar informações de vários documentos |
| 16 a 20 | Contexto máximo | Raramente necessário; aumenta o custo por mensagem |
Dica: se o agente não está encontrando informações que você colocou na base de conhecimento, tente aumentar os chunks para 8 a 10. Se as respostas estão longas demais ou desviando do assunto, reduza para 3 a 5.
Resumo rápido
| Parâmetro | Padrão | Mudar quando... |
|---|---|---|
| Temperatura | 0,7 | O agente está inventando respostas (baixar) ou soando robótico demais (subir) |
| Max tokens | 4.096 | O agente corta respostas no meio (subir) ou você quer forçar respostas curtas (baixar) |
| Chunks (RAG) | 5 | O agente não acha informações da base (subir) ou as respostas misturam assuntos demais (baixar) |