Simple Agent
Docstraining

Fontes de Treinamento

Como adicionar URLs, PDFs, texto e sitemaps para treinar seu AI agent.

O Simple Agent usa Retrieval-Augmented Generation (RAG): o agent não memoriza respostas, mas busca os trechos mais relevantes do seu conteúdo em tempo real e os usa para responder. Isso significa que atualizar uma fonte atualiza imediatamente o comportamento do agent.

Tipos de fonte

URL (site ou página)

Cole qualquer URL pública. O crawler extrai texto, respeitando robots.txt:

https://seusite.com/faq
https://docs.seusite.com
https://seusite.com/politica-de-privacidade

Como o crawl funciona:

  1. Baixa a página com renderização JavaScript (headless Chromium)
  2. Extrai o texto principal (ignora menu, rodapé, ads)
  3. Divide em chunks de ~800 tokens com overlap de 100 tokens
  4. Gera embeddings e armazena em pgvector

Profundidade do crawl:

  • URL única: apenas aquela página
  • Domínio completo: até 500 páginas (configurável)
  • Sitemap XML: todas as URLs listadas

Atualização automática: URLs são re-crawleadas a cada 7 dias. Você pode forçar um re-crawl manual na lista de fontes.


PDF

Arraste o arquivo ou clique para upload. Suporte a:

  • PDFs com texto selecionável (extração direta, mais rápida)
  • PDFs digitalizados (OCR automático via Tesseract)
  • PDFs protegidos por senha (insira a senha no momento do upload)

Limites:

  • Máximo 50MB por arquivo
  • Até 10 arquivos simultâneos por upload
  • Máximo 1.000 páginas por PDF (documentos maiores são truncados com aviso)

Tabelas e listas: Extraídas como texto estruturado — o agent consegue responder sobre dados tabulares com boa precisão.


Texto direto

Cole qualquer conteúdo na caixa de texto. Útil para:

  • FAQs que não estão em nenhum site
  • Scripts de atendimento
  • Políticas internas confidenciais (não indexadas na web)
  • Dados estruturados como preços e tabelas

Não há limite de tamanho para texto direto.


Sitemap XML

Cole a URL do sitemap:

https://seusite.com/sitemap.xml
https://seusite.com/sitemap-index.xml

O Simple Agent lê todas as URLs listadas e faz crawl de cada uma. Sitemaps aninhados (sitemap index) são resolvidos automaticamente.


Gerenciar fontes

No painel do agent → aba Treinamento:

Ação Descrição
Adicionar fonte URL, PDF, texto ou sitemap
Re-indexar Força re-crawl/reprocessamento imediato
Excluir Remove a fonte e todos os embeddings associados
Ver chunks Inspeciona como o conteúdo foi dividido

Quanto conteúdo adicionar?

Mais conteúdo não é sempre melhor. O RAG busca os top-K trechos mais relevantes — conteúdo irrelevante aumenta o risco de ruído na resposta.

Boas práticas:

  • Comece com as páginas mais visitadas do seu site
  • Adicione seu FAQ completo como fonte de texto
  • Evite adicionar termos de uso e documentos legais extensos (raramente relevantes para suporte)
  • Se tiver mais de 200 páginas, use sitemap para garantir cobertura completa

Conteúdo que o agent não aprende

  • Conteúdo atrás de login — o crawler não autentica
  • Conteúdo em imagens sem texto alternativo — não há OCR em imagens em HTML
  • Vídeos e áudios — transcrição automática não está disponível nesta versão
  • Google Docs / Notion — use o link de exportação público ou PDF

Testar o treinamento

Após adicionar uma fonte, vá ao Playground e teste com perguntas reais:

"Qual é a política de reembolso?"
"Vocês atendem finais de semana?"
"Quanto custa o plano empresarial?"

Se a resposta não incluir a informação esperada, use Ver chunks para confirmar que o conteúdo foi indexado corretamente.

Reindexar fontes → · Customizar respostas → · API de fontes →