- Insights de Domingo
- Posts
- 🗣️ Agora não conseguimos mais diferenciar voz de IA e voz humana
🗣️ Agora não conseguimos mais diferenciar voz de IA e voz humana
A Elevenlabs conseguiu

Join over 4 million Americans who start their day with 1440 – your daily digest for unbiased, fact-centric news. From politics to sports, we cover it all by analyzing over 100 sources. Our concise, 5-minute read lands in your inbox each morning at no cost. Experience news without the noise; let 1440 help you make up your own mind. Sign up now and invite your friends and family to be part of the informed.
✨ Inscreva-se | 💌 Inicie a sua | 🫱🏻🫲🏻 Patrocine
Nessa edição:
Agora não conseguimos mais diferenciar voz de IA e voz humana
Voz do ChatGPT também melhorou
Avatar IV da Heygen recebeu um grande upgrade
Manus AI agora integra com Veo 3
O que é possível fazer quando unimos: Imagem do ChatGPT + Kling AI + Elevenlabs
Uma ferramenta que vai te ajudar na produtividade
28 ofertas de ferramentas com pagamento único no Sumo Day
E mais…
Boa leitura e uma excelente semana 🦾
🔎 Meus achados da semana
Voz do ChatGPT ainda melhor (Twitter)
Avatar IV da Heygen (que permite gerar vídeos com apenas uma foto) agora tem gestos e uma melhor sincronização labial (Twitter)
Manus AI agora integra com Veo 3 (Twitter)
Exemplo do que é possível fazer combinando o gerador de imagens do ChatGPT + Kling AI + Elevenlabs (Twitter)
👌 Sugestões da semana
Rize: tá se sentindo improdutivo? Não sabe onde está gastando seu tempo? Instale o Rize e descubra (Use o cupom NEWSEDU e ganhe 25% de desconto nos três primeiros meses).
Quer ferramentas com desconto? Confira aqui a minha lista.
🗣️ Agora não conseguimos mais diferenciar voz de IA e voz humana
A Elevenlabs chocou todo mundo semana passada quando lançou a versão 3 do seu gerador de voz com base em texto (text-to-speech).
A qualidade das vozes e possibilidades de personalização da V3 permitem que agora tenhamos vozes extremamente realistas, ficando praticamente impossível distinguir de uma voz humana.
O que já tínhamos de automações utilizando voz, ficará ainda melhor:
ligações
envio de áudios no Whatsapp
audiobooks
canais dark
etc... etc... etc...
E não é apenas a qualidade da voz, na V3 da Elevenlabs agora podemos também:
inserir efeitos sonoros
colocar emoções
usar sotaques
criar diálogos, ou seja, mais de um locutor (sabe o recurso de podcast do NotebookLM, então...)
Dá uma olhada nos exemplos do vídeo de lançamento abaixo:
Controle tudo com as "audio tags"
Com elas conseguimos personalizar diversos aspectos do áudio.
Para utilizar basta colocá-las entre colchetes []
Para tags relacionadas diretamente à voz, podemos usar:
[laughs]
,[laughs harder]
,[starts laughing]
,[wheezing]
[whispers]
[sighs]
,[exhales]
[sarcastic]
,[curious]
,[excited]
,[crying]
,[snorts]
,[mischievously]
Exemplo: uma voz sussurrando a frase "Que bom que você está aqui lendo a minha newsletter!", ficaria:
E aí, tudo bem? [whispers] Que bom que você está aqui lendo a minha newsletter!
Fica assim:
Para tags relacionadas diretamente a efeitos sonoros, podemos usar:
[gunshot]
,[applause]
,[clapping]
,[explosion]
[swallows]
,[gulps]
Podemos iniciar ou terminar uma frase com aplausos, por exemplo.
Para tags únicas e especiais, podemos usar:
[strong X accent]
(trocar o X pelo sotaque desejado)[sings]
,[woo]
,[fart]
(sim, colocaram "fart" 💨 também)
Pontuação funciona melhor na V3
A pontuação afeta significativamente a entrega na v3:
Reticências (…) adicionam pausas e dão ênfase
Letras maiúsculas aumentam a ênfase
Pontuação padrão proporciona ritmo natural à fala
"Foi um LONGO dia [sigh] … ninguém quer mais nada agora."
Múltiplos locutores
A V3 permite incluir mais de um locutor.
Olha só essa narração de uma luta entre Donald Trump e Elon Musk 🥊
Eleven v3 WWE: Musk vs Trump 😂
— Flavio Schneider (@flavioschneide)
9:19 PM • Jun 5, 2025
Sensação de estar lá ao vivo 🤯
Alguns exemplos
Vídeo utilizando o Avatar IV da HeyGen + Elevenlabs V3:
Áudio com risadas, sussurro e até cantoria:
Boas práticas
Agora vamos falar de algumas boas práticas.
A V3 da Elevenlabs ainda está em Alpha, ou seja, requer mais engenharia de prompt. Mas é só ir testando e refinando.
Algumas vozes funcionam melhor para a V3. Na plataforma tem uma lista das melhores vozes para utilizar com a V3.
Combine o estilo da voz com as "audio tags". Uma voz calma com tags de gritaria, podem não funcionar muito bem.
No controle de estabilidade:
Creative: expressão variada na frase e no tom, podendo até cantar. Nesse caso pode ter mais alucinação.
Neutral: mais perto da voz original.
Robust: preciso e estável.
Quanto maior o script, melhor fica. Utilize mais de 250 caracteres.
Menos é mais: muitas tags de uma vez só pode não ficar bom.
A V3 foi lançada em mais de 70 idiomas, na lista estava apenas o português de Portugal, mas testei com o nosso português e funcionou normalmente.
Riscos
Claro que uma tecnologia dessas, infelizmente, trará muitos riscos para a sociedade.
Imagine mães, pais, avós... recebendo ligações de crianças (filhos ou netos) chorando, gritando, sofrendo... os golpes ficarão ainda mais reais 😢
Mas vamos focar nas coisas boas e benefícios que essa tecnologia trará ao mundo.
Teste você mesmo
Se você ainda não tem conta, crie agora por esse link e ganhe 10.000 créditos gratuitos para testar.
Eles estão também com uma oferta de 80% de desconto para quem assinar até fim de junho, uma excelente oportunidade, já que a Elevenlabs é uma ferramenta obrigatória para quem trabalha ou quer trabalhar com automação e inteligência artificial.
💸 LTD (lifetime deal) da semana
LTD quer dizer Lifetime Deal, ou seja, pague uma única vez e utilize para sempre. Empresas fazem essas ofertas temporárias geralmente para levantar capital ou escalar seus negócios. Depois que a oferta encerra, só é possível assinar o serviço normalmente pagando todos os meses.
Como está rolando o Sumo Day da Appsumo, vou deixar aqui o link com as 28 ofertas disponíveis na campanha deles.
Todas estão com 10% de desconto.
Mas não dá bobeira que só vai até dia 12/06.
De qualquer forma, você tem 60 dias para testar no Appsumo e, caso desista, pode pedir reembolso.
Quer descobrir mais LTDs? Só acessar aqui.
LTDs obrigatórios (no-brainer)
📅 Tidycal, já falei dele aqui, é uma ferramenta estilo Calendly, para agendamento automático de reuniões online. Além de ser pagamento único, custa só 29 dólares.
🔗 Switchy, talvez o melhor LTD que já comprei. Resumindo: um encurtador de links com esteroides. Já indiquei para dezenas de pessoas e até hoje ninguém reclamou, muito pelo contrário, só elogios. A partir de 39 dólares.
🫱🏻🫲🏻 Antes de você ir
Aqui duas maneiras que eu posso ajudar…
1) Faça parte da comunidade Chave Mestra, o local onde você precisa estar para aprender e estar por dentro do que acontece no universo da automação digital e inteligência artificial, só acessar aqui.
2) Se você já tem um negócio rodando e quer minha ajuda individual e personalizada para automatizar processos e eliminar tarefas repetitivas, só responder esse email ou me mandar uma DM no @scheduardo.
Até breve,
Eduardo
Reply