Fontes de Treinamento
Como adicionar URLs, PDFs, texto e sitemaps para treinar seu AI agent.
O Simple Agent usa Retrieval-Augmented Generation (RAG): o agent não memoriza respostas, mas busca os trechos mais relevantes do seu conteúdo em tempo real e os usa para responder. Isso significa que atualizar uma fonte atualiza imediatamente o comportamento do agent.
Tipos de fonte
URL (site ou página)
Cole qualquer URL pública. O crawler extrai texto, respeitando robots.txt:
https://seusite.com/faq
https://docs.seusite.com
https://seusite.com/politica-de-privacidade
Como o crawl funciona:
- Baixa a página com renderização JavaScript (headless Chromium)
- Extrai o texto principal (ignora menu, rodapé, ads)
- Divide em chunks de ~800 tokens com overlap de 100 tokens
- Gera embeddings e armazena em pgvector
Profundidade do crawl:
- URL única: apenas aquela página
- Domínio completo: até 500 páginas (configurável)
- Sitemap XML: todas as URLs listadas
Atualização automática: URLs são re-crawleadas a cada 7 dias. Você pode forçar um re-crawl manual na lista de fontes.
Arraste o arquivo ou clique para upload. Suporte a:
- PDFs com texto selecionável (extração direta, mais rápida)
- PDFs digitalizados (OCR automático via Tesseract)
- PDFs protegidos por senha (insira a senha no momento do upload)
Limites:
- Máximo 50MB por arquivo
- Até 10 arquivos simultâneos por upload
- Máximo 1.000 páginas por PDF (documentos maiores são truncados com aviso)
Tabelas e listas: Extraídas como texto estruturado — o agent consegue responder sobre dados tabulares com boa precisão.
Texto direto
Cole qualquer conteúdo na caixa de texto. Útil para:
- FAQs que não estão em nenhum site
- Scripts de atendimento
- Políticas internas confidenciais (não indexadas na web)
- Dados estruturados como preços e tabelas
Não há limite de tamanho para texto direto.
Sitemap XML
Cole a URL do sitemap:
https://seusite.com/sitemap.xml
https://seusite.com/sitemap-index.xml
O Simple Agent lê todas as URLs listadas e faz crawl de cada uma. Sitemaps aninhados (sitemap index) são resolvidos automaticamente.
Gerenciar fontes
No painel do agent → aba Treinamento:
| Ação | Descrição |
|---|---|
| Adicionar fonte | URL, PDF, texto ou sitemap |
| Re-indexar | Força re-crawl/reprocessamento imediato |
| Excluir | Remove a fonte e todos os embeddings associados |
| Ver chunks | Inspeciona como o conteúdo foi dividido |
Quanto conteúdo adicionar?
Mais conteúdo não é sempre melhor. O RAG busca os top-K trechos mais relevantes — conteúdo irrelevante aumenta o risco de ruído na resposta.
Boas práticas:
- Comece com as páginas mais visitadas do seu site
- Adicione seu FAQ completo como fonte de texto
- Evite adicionar termos de uso e documentos legais extensos (raramente relevantes para suporte)
- Se tiver mais de 200 páginas, use sitemap para garantir cobertura completa
Conteúdo que o agent não aprende
- Conteúdo atrás de login — o crawler não autentica
- Conteúdo em imagens sem texto alternativo — não há OCR em imagens em HTML
- Vídeos e áudios — transcrição automática não está disponível nesta versão
- Google Docs / Notion — use o link de exportação público ou PDF
Testar o treinamento
Após adicionar uma fonte, vá ao Playground e teste com perguntas reais:
"Qual é a política de reembolso?"
"Vocês atendem finais de semana?"
"Quanto custa o plano empresarial?"
Se a resposta não incluir a informação esperada, use Ver chunks para confirmar que o conteúdo foi indexado corretamente.
Reindexar fontes → · Customizar respostas → · API de fontes →