- Insights de Domingo
- Posts
- 🎲 As melhores ferramentas para extrair dados e treinar seus Agentes IA
🎲 As melhores ferramentas para extrair dados e treinar seus Agentes IA
Como treinar o cérebro dos seus Agentes IA de maneira descomplicada e automatizada

✨ Inscreva-se | 💌 Inicie a sua | 🫱🏻🫲🏻 Patrocine
Nessa edição:
As melhores ferramentas para extrair e gerar conteúdo no treinamento dos seus Agentes IA.
Lançamento do novo GPT para imagens.
Edge Functions do Supabase no Bolt.
NotebookLM como segundo cérebro.
Zapier saiu na frente com seu próprio MCP.
Um app de celular que “escuta“ e grava tudo para você não precisar lembrar ou escrever depois. Lembra do Plaud?
Ferramentas para produtividade extrema, design de email e alternativa ao Loom.
E mais…
Boa leitura e uma excelente semana 🦾
🔎 Meus achados da semana
Tudo sobre o lançamento do novo modelo de geração de imagens da OpenAI (Comunidade)
Edge Functions do Supabase agora nativamente no Bolt (Comunidade)
NotebookLM é perfeito como segundo cérebro, ainda mais agora com a geração de mapas mentais (Twitter)
Zapier saiu na frente com seu próprio MCP (Twitter)
👌 Sugestões da semana
Raycast: quer explodir sua produtividade? Precisa conhecer o Raycast, me agradeça depois.
new.email: imagine um Lovable para design de email.
Supercut: nova opção ao Loom.
Quer ferramentas com desconto? Confira aqui a minha lista.
🎲 As melhores ferramentas para extrair dados e treinar seus Agentes IA
Uma das etapas mais importantes na construção de um Agente IA é a base de conhecimento, ou seja, as informações que serão utilizadas para treinar o seu agente.
Para quem já está mais avançado nessa área, é o RAG (Retrieval-augmented Generation).
A eficiência do seu agente vai depender de vários fatores:
Qualidade das informações utilizadas
Como essas informações são extraídas
Formatação desses dados
Como seu agente é "alimentado" com esses dados
Mas hoje quero falar sobre a parte de extração de dados.
Pelo que percebo, é uma das etapas onde as pessoas possuem mais dificuldade.
Afinal de contas, são muitas perguntas:
De onde extrair os dados?
Como extrair os dados?
Preciso usar código?
Quais ferramentas usar?
Tem que fazer manualmente ou dá pra automatizar?
Vivemos um momento onde existe informação para praticamente tudo disponível na internet, nos mais variados formatos: vídeos, artigos, imagens, áudios, documentos, etc.
Cada tipo de conteúdo exige um processo específico para extração de dados:
Nos links com conteúdo em texto (ex. artigos de blog, notícias, etc) precisamos extrair o texto que é relevante (desconsiderando todo o resto)
Nos vídeos do Youtube precisamos extrair a legenda ou transcrever o vídeo para texto quando necessário
Nos áudios (ex. podcasts, mensagens de Whatsapp, reuniões online, etc) precisamos transcrever o áudio para texto
Nas imagens precisamos extrair o texto (caso exista) e/ou "reconhecer" o conteúdo da imagem para gerar um texto descritivo
Nos documentos (ex. PDFs, planilhas, apresentações, etc) precisamos extrair o texto e às vezes até as imagens contidas neles
Pois é, não é uma tarefa fácil... nem simples.
Para facilitar a sua vida, vou listar aqui algumas ferramentas que utilizo nessa parte de extração de dados.
APIFY
A Apify é uma das ferramentas mais completas e robustas quando falamos de web scraping (raspagem de dados).
Apenas com ela, você consegue extrair informações de várias fontes. Citando alguns exemplos:
X (Twitter)
Youtube
Anúncios da Meta
Google Meu Negócio
Instagram
LinkedIn
e muitas outras
Eles usam o conceito de actors, que são como se fossem automações prontas para fins específicos, que estão disponíveis no marketplace.
Sabe o que é mais legal?
Criando a sua conta gratuitamente você recebe 5 dólares todos os meses para utilizar a plataforma.
Dependendo do seu uso, talvez nem precise gastar com ela.
E você pode extrair os dados de várias formas:
Se você usa o Make, lá vai encontrar o módulo nativo que facilita bastante o uso e também módulos de actors específicos, como:

Módulos nativos do Apify no Make
FIRECRAWL
A Firecrawl virou a mais nova "queridinha" da galera que trabalha com inteligência artificial.
Começou como "mais uma" ferramenta de web scraping e hoje já se tornou indispensável para extração de dados na era das LLMs.
Estou usando desde o ano passado e em janeiro comecei a falar dela na comunidade.
Aliás, no link acima eu falei da funcionalidade "extract" que lançaram, que podemos chamar de "web scraping inteligente".
Em vez de retornar todas as informações de uma URL, ela já retorna só o que você precisa. Ex. Acesse o site X e retorne os nomes e emails disponíveis.
Ela já retorna um JSON pronto para uso.
Não sei em que dia você está lendo esse artigo, mas quando divulguei na comunidade eles estavam liberando 500.000 tokens para testar por tempo limitado.
Quer mais?
Atualmente existem outras duas funcionalidades em período Alpha de testes:
Imagine que você precise treinar seu agente com o conteúdo inteiro da documentação de alguma plataforma.
Simplesmente envie a URL e aguarde o Firecrawl retornar o arquivo pronto e formatado para uso no seu agente.
Estou usando ele para treinar os Agentes IA da comunidade, onde os membros possuem agentes exclusivos para resolver problemas, tirar dúvidas e até mesmo receber o código pronto para chamada de APIs.
Veja o Agente da Z-API em ação:

Agente Z-API facilitando nossa vida
Quanto tempo economizado? 😍
Já pensou ter o recurso de DeepResearch (Busca profunda) via API para usar em seus agentes?
É exatamente isso que esse endpoint faz, varre a internet realizando uma busca profunda e retorna o conteúdo mastigado para seu agente.
Bônus: obviamente eles já possuem um MCP disponível:
A ferramenta vale cada centavo investido, mas se quiser ainda 10% de desconto na assinatura, só criar sua conta aqui e usar o cupom Eduardo10.
ASSEMBLYAI
Quando falamos de transcrição de áudio/vídeo para texto, a AssemblyAI é uma das minhas preferidas.
A qualidade da transcrição é excelente e você só paga pelo consumo.
E no playground deles, até consegue fazer transcrições manualmente, sem custo.
Também gosto do Whisper da OpenAI, mas ele tem um limite de tamanho de arquivos, o que inviabiliza o uso de transcrição de longos vídeos, como reuniões, lives, etc.
Falando de vídeos do Youtube, se você se contenta com a legenda automática do Youtube e não precisa transcrever, consegue pegar essa legenda com o próprio Apify ou com o Supadata.
OPENAI VISION
Para reconhecimento e entendimento de imagens, gosto de usar os modelos da OpenAI.
Os novos modelos do Gemini também estão incríveis.
Imagine um Agente SDR alimentado com um Raio-x de perfis do Instagram, antes de iniciar a conversa.
O agente já vai saber do que a pessoa gosta, o que ela faz, o que escreve, o que publica, etc... etc... etc.
Ano passado construí uma automação que conseguia identificar se a pessoa tinha placa da Hotmart no cenário das suas fotos no Instagram.
💸 LTD (lifetime deal) da semana
LTD quer dizer Lifetime Deal, ou seja, pague uma única vez e utilize para sempre. Empresas fazem essas ofertas temporárias geralmente para levantar capital ou escalar seus negócios. Depois que a oferta encerra, só é possível assinar o serviço normalmente pagando todos os meses.
Hedy AI

Imagine um aplicativo no seu celular que “escuta“ tudo e grava pra você.
Lembra do Plaud? Então, digamos que seja uma versão do Plaud sem o dispositivo físico.
Pontos fortes: Tem API, suporte em tempo real, personalização, transcrições e sumarização automática, integração multilingue e integrações via Zapier.
As avaliações estão extremamente positivas, coloquei várias aqui.
De qualquer forma, você tem 60 dias para testar no Appsumo e, caso desista, pode pedir reembolso.
LTDs obrigatórios (no-brainer)
📅 Tidycal, já falei dele aqui, é uma ferramenta estilo Calendly, para agendamento automático de reuniões online. Além de ser pagamento único, custa só 29 dólares.
🔗 Switchy, talvez o melhor LTD que já comprei. Resumindo: um encurtador de links com esteroides. Já indiquei para dezenas de pessoas e até hoje ninguém reclamou, muito pelo contrário, só elogios. A partir de 39 dólares.
🫱🏻🫲🏻 Antes de você ir
Aqui duas maneiras que eu posso ajudar…
1) Faça parte da comunidade Chave Mestra, o local onde você precisa estar para aprender e estar por dentro do que acontece no universo da automação digital e inteligência artificial, só acessar aqui.
2) Se você já tem um negócio rodando e quer minha ajuda individual e personalizada para colocar seu projeto no ar em até 30 dias, só me mandar uma DM no @scheduardo do Instagram.
Até breve,
Eduardo
Reply