• Insights de Domingo
  • Posts
  • 🗣️ Agora não conseguimos mais diferenciar voz de IA e voz humana

🗣️ Agora não conseguimos mais diferenciar voz de IA e voz humana

A Elevenlabs conseguiu

In partnership with

The Daily Newsletter for Intellectually Curious Readers

Join over 4 million Americans who start their day with 1440 – your daily digest for unbiased, fact-centric news. From politics to sports, we cover it all by analyzing over 100 sources. Our concise, 5-minute read lands in your inbox each morning at no cost. Experience news without the noise; let 1440 help you make up your own mind. Sign up now and invite your friends and family to be part of the informed.

 Inscreva-se | 💌 Inicie a sua | 🫱🏻‍🫲🏻 Patrocine

Nessa edição:

  • Agora não conseguimos mais diferenciar voz de IA e voz humana

  • Voz do ChatGPT também melhorou

  • Avatar IV da Heygen recebeu um grande upgrade

  • Manus AI agora integra com Veo 3

  • O que é possível fazer quando unimos: Imagem do ChatGPT + Kling AI + Elevenlabs

  • Uma ferramenta que vai te ajudar na produtividade

  • 28 ofertas de ferramentas com pagamento único no Sumo Day

  • E mais…

Boa leitura e uma excelente semana 🦾

🔎 Meus achados da semana

  • Voz do ChatGPT ainda melhor (Twitter)

  • Avatar IV da Heygen (que permite gerar vídeos com apenas uma foto) agora tem gestos e uma melhor sincronização labial (Twitter)

  • Manus AI agora integra com Veo 3 (Twitter)

  • Exemplo do que é possível fazer combinando o gerador de imagens do ChatGPT + Kling AI + Elevenlabs (Twitter)

👌 Sugestões da semana

Rize: tá se sentindo improdutivo? Não sabe onde está gastando seu tempo? Instale o Rize e descubra (Use o cupom NEWSEDU e ganhe 25% de desconto nos três primeiros meses).

Quer ferramentas com desconto? Confira aqui a minha lista.

🗣️ Agora não conseguimos mais diferenciar voz de IA e voz humana

A Elevenlabs chocou todo mundo semana passada quando lançou a versão 3 do seu gerador de voz com base em texto (text-to-speech).

A qualidade das vozes e possibilidades de personalização da V3 permitem que agora tenhamos vozes extremamente realistas, ficando praticamente impossível distinguir de uma voz humana.

O que já tínhamos de automações utilizando voz, ficará ainda melhor:

  • ligações

  • envio de áudios no Whatsapp

  • audiobooks

  • canais dark

  • etc... etc... etc...

E não é apenas a qualidade da voz, na V3 da Elevenlabs agora podemos também:

  • inserir efeitos sonoros

  • colocar emoções

  • usar sotaques

  • criar diálogos, ou seja, mais de um locutor (sabe o recurso de podcast do NotebookLM, então...)

Dá uma olhada nos exemplos do vídeo de lançamento abaixo:

Controle tudo com as "audio tags"

Com elas conseguimos personalizar diversos aspectos do áudio.

Para utilizar basta colocá-las entre colchetes []

Para tags relacionadas diretamente à voz, podemos usar:

  • [laughs][laughs harder][starts laughing][wheezing]

  • [whispers]

  • [sighs][exhales]

  • [sarcastic][curious][excited][crying][snorts][mischievously]

Exemplo: uma voz sussurrando a frase "Que bom que você está aqui lendo a minha newsletter!", ficaria:

E aí, tudo bem? [whispers] Que bom que você está aqui lendo a minha newsletter!

Fica assim:

Para tags relacionadas diretamente a efeitos sonoros, podemos usar:

  • [gunshot][applause][clapping][explosion]

  • [swallows][gulps]

Podemos iniciar ou terminar uma frase com aplausos, por exemplo.

Para tags únicas e especiais, podemos usar:

  • [strong X accent] (trocar o X pelo sotaque desejado)

  •  [sings][woo][fart] (sim, colocaram "fart" 💨 também)

Pontuação funciona melhor na V3

A pontuação afeta significativamente a entrega na v3:

  • Reticências (…) adicionam pausas e dão ênfase

  • Letras maiúsculas aumentam a ênfase

  • Pontuação padrão proporciona ritmo natural à fala

"Foi um LONGO dia [sigh] … ninguém quer mais nada agora."

Múltiplos locutores

A V3 permite incluir mais de um locutor.

Olha só essa narração de uma luta entre Donald Trump e Elon Musk 🥊

Sensação de estar lá ao vivo 🤯

Alguns exemplos

Vídeo utilizando o Avatar IV da HeyGen + Elevenlabs V3:

Áudio com risadas, sussurro e até cantoria:

Boas práticas

Agora vamos falar de algumas boas práticas.

  1. A V3 da Elevenlabs ainda está em Alpha, ou seja, requer mais engenharia de prompt. Mas é só ir testando e refinando.

  2. Algumas vozes funcionam melhor para a V3. Na plataforma tem uma lista das melhores vozes para utilizar com a V3.

  3. Combine o estilo da voz com as "audio tags". Uma voz calma com tags de gritaria, podem não funcionar muito bem.

  4. No controle de estabilidade:

    1. Creative: expressão variada na frase e no tom, podendo até cantar. Nesse caso pode ter mais alucinação.

    2. Neutral: mais perto da voz original.

    3. Robust: preciso e estável.

  5. Quanto maior o script, melhor fica. Utilize mais de 250 caracteres.

  6. Menos é mais: muitas tags de uma vez só pode não ficar bom.

A V3 foi lançada em mais de 70 idiomas, na lista estava apenas o português de Portugal, mas testei com o nosso português e funcionou normalmente.

Riscos

Claro que uma tecnologia dessas, infelizmente, trará muitos riscos para a sociedade.

Imagine mães, pais, avós... recebendo ligações de crianças (filhos ou netos) chorando, gritando, sofrendo... os golpes ficarão ainda mais reais 😢

Mas vamos focar nas coisas boas e benefícios que essa tecnologia trará ao mundo.

Teste você mesmo

Eles estão também com uma oferta de 80% de desconto para quem assinar até fim de junho, uma excelente oportunidade, já que a Elevenlabs é uma ferramenta obrigatória para quem trabalha ou quer trabalhar com automação e inteligência artificial.

💸 LTD (lifetime deal) da semana

LTD quer dizer Lifetime Deal, ou seja, pague uma única vez e utilize para sempre. Empresas fazem essas ofertas temporárias geralmente para levantar capital ou escalar seus negócios. Depois que a oferta encerra, só é possível assinar o serviço normalmente pagando todos os meses.

Sumo Day - Appsumo

Como está rolando o Sumo Day da Appsumo, vou deixar aqui o link com as 28 ofertas disponíveis na campanha deles.

Todas estão com 10% de desconto.

Mas não dá bobeira que só vai até dia 12/06.

De qualquer forma, você tem 60 dias para testar no Appsumo e, caso desista, pode pedir reembolso.

Quer descobrir mais LTDs? Só acessar aqui.

LTDs obrigatórios (no-brainer)

📅 Tidycal, já falei dele aqui, é uma ferramenta estilo Calendly, para agendamento automático de reuniões online. Além de ser pagamento único, custa só 29 dólares.

🔗 Switchy, talvez o melhor LTD que já comprei. Resumindo: um encurtador de links com esteroides. Já indiquei para dezenas de pessoas e até hoje ninguém reclamou, muito pelo contrário, só elogios. A partir de 39 dólares.

🫱🏻‍🫲🏻 Antes de você ir

Aqui duas maneiras que eu posso ajudar…

1) Faça parte da comunidade Chave Mestra, o local onde você precisa estar para aprender e estar por dentro do que acontece no universo da automação digital e inteligência artificial, só acessar aqui.

2) Se você já tem um negócio rodando e quer minha ajuda individual e personalizada para automatizar processos e eliminar tarefas repetitivas, só responder esse email ou me mandar uma DM no @scheduardo.

Até breve,

Eduardo

Reply

or to participate.