Docstraining

Fontes de Treinamento

Como adicionar URLs, PDFs, texto e sitemaps para treinar seu AI agent.

O Simple Agent usa Retrieval-Augmented Generation (RAG): o agent não memoriza respostas, mas busca os trechos mais relevantes do seu conteúdo em tempo real e os usa para responder. Isso significa que atualizar uma fonte atualiza imediatamente o comportamento do agent.

Tipos de fonte

URL (site ou página)

Cole qualquer URL pública. O crawler extrai texto, respeitando robots.txt:

https://seusite.com/faq
https://docs.seusite.com
https://seusite.com/politica-de-privacidade

Como o crawl funciona:

Baixa a página com renderização JavaScript (headless Chromium)
Extrai o texto principal (ignora menu, rodapé, ads)
Divide em chunks de ~800 tokens com overlap de 100 tokens
Gera embeddings e armazena em pgvector

Profundidade do crawl:

URL única: apenas aquela página
Domínio completo: até 500 páginas (configurável)
Sitemap XML: todas as URLs listadas

Atualização automática: URLs são re-crawleadas a cada 7 dias. Você pode forçar um re-crawl manual na lista de fontes.

PDF

Arraste o arquivo ou clique para upload. Suporte a:

PDFs com texto selecionável (extração direta, mais rápida)
PDFs digitalizados (OCR automático via Tesseract)
PDFs protegidos por senha (insira a senha no momento do upload)

Limites:

PDF: máximo de 4 MB por arquivo (DOCX: 20 MB; TXT: 2 MB)
Até 10 arquivos simultâneos por upload
Máximo 1.000 páginas por PDF (documentos maiores são truncados com aviso)

Tabelas e listas: Extraídas como texto estruturado — o agent consegue responder sobre dados tabulares com boa precisão.

Texto direto

Cole qualquer conteúdo na caixa de texto. Útil para:

FAQs que não estão em nenhum site
Scripts de atendimento
Políticas internas confidenciais (não indexadas na web)
Dados estruturados como preços e tabelas

Não há limite de tamanho para texto direto.

Sitemap XML

Cole a URL do sitemap:

https://seusite.com/sitemap.xml
https://seusite.com/sitemap-index.xml

O Simple Agent lê todas as URLs listadas e faz crawl de cada uma. Sitemaps aninhados (sitemap index) são resolvidos automaticamente.

Gerenciar fontes

No painel do agent → aba Treinamento:

Ação	Descrição
Adicionar fonte	URL, PDF, texto ou sitemap
Re-indexar	Força re-crawl/reprocessamento imediato
Excluir	Remove a fonte e todos os embeddings associados
Ver chunks	Inspeciona como o conteúdo foi dividido

Quanto conteúdo adicionar?

Mais conteúdo não é sempre melhor. O RAG busca os top-K trechos mais relevantes — conteúdo irrelevante aumenta o risco de ruído na resposta.

Boas práticas:

Comece com as páginas mais visitadas do seu site
Adicione seu FAQ completo como fonte de texto
Evite adicionar termos de uso e documentos legais extensos (raramente relevantes para suporte)
Se tiver mais de 200 páginas, use sitemap para garantir cobertura completa

Conteúdo que o agent não aprende

Conteúdo atrás de login — o crawler não autentica
Conteúdo em imagens sem texto alternativo — não há OCR em imagens em HTML
Vídeos e áudios — transcrição automática não está disponível nesta versão
Google Docs / Notion — use o link de exportação público ou PDF

Testar o treinamento

Após adicionar uma fonte, vá ao Playground e teste com perguntas reais:

"Qual é a política de reembolso?"
"Vocês atendem finais de semana?"
"Quanto custa o plano empresarial?"

Se a resposta não incluir a informação esperada, use Ver chunks para confirmar que o conteúdo foi indexado corretamente.

Reindexar fontes → · Customizar respostas → · API de fontes →