top of page

Geração de Voz com IA: Como Criei uma Assistente Virtual Humanizada com Eleven Labs

  • Foto do escritor: Concreto Neves
    Concreto Neves
  • 6 de ago.
  • 3 min de leitura

Atualizado: 8 de ago.

Trabalhar com geração de voz por IA é uma experiência que mistura tecnologia, criatividade e um pouco de mágica. Fui chamado pela BrainBuffet, uma empresa baseada nos EUA que produz cursos de preparação para certificações, para dar voz a uma personagem muito especial: a Genny, uma assistente virtual que conversa com o instrutor humano em um curso sobre IA generativa.


O trabalho, basicamente, era transformar as falas de Genny no roteiro em áudio, e para isso escolhemos a plataforma Eleven Labs, que ainda me parece o melhor custo benefício considerando a qualidade e o fluxo de trabalho. A ideia era criar uma personagem que soasse humanizada, mas com um toque sutil de robótico, para marcar a diferença entre ela e o instrutor e marcar sua natureza sintética.


Trecho do curso Generative AI Foundations Certification

A Busca pela Voz Certa


Começamos testando várias vozes diferentes. Era quase como um casting digital: cada voz tinha sua personalidade, seu jeito de falar, seu ritmo. A Genny precisava parecer real, próxima do aluno, mas sem perder a identidade de uma inteligência artificial. Depois de experimentar uns 15 timbres, encontramos o tom ideal: um equilíbrio entre naturalidade e aquele leve “quê” de máquina. Lembrando que, se necessário, é possível clonar uma voz na plataforma e gerar as falas a partir dessa voz base.


Alguns exemplos do nosso "casting" digital


Controlando a Voz em Detalhes


Gerar voz por IA não é só digitar o texto e deixar a máquina falar. A plataforma Eleven Labs tem controles que funcionam como faders numa mesa de som. O "speed" regula a velocidade da fala, então dá pra deixar o ritmo mais pausado ou mais acelerado conforme o clima do conteúdo. A "stability" influencia o quanto a voz mantém um tom constante ou varia, quanto menor, mais expressiva e imprevisível ela fica e, maior, mais linear. Já o "similarity" define o quão próxima a nova fala fica da voz original usada como referência, sendo ótimo pra manter a identidade vocal. E por fim, o "style exaggeration" dá aquele tempero final, acentuando o estilo emocional da fala, o que pode deixar tudo mais dramático, divertido ou envolvente, dependendo do objetivo. É válido identificar quais falas do seu roteiro merecem variar um ou outro para dar dinâmica ao resultado final completo.


Além disso, o jeito que você escreve o texto faz toda a diferença: a pontuação, as pausas, até as palavras em maiúsculas ajudam a dar o tom certo. Às vezes é preciso escrever uma palavra "errado", pensando mais na fonética que na gramatica. Foi um trabalho de paciência e cuidado, alterando esses parâmetros pra que a Genny falasse do jeito que a gente queria, nem muito mecânica, nem totalmente humana.


Captura de tela dos controles no Eleven Labs
Captura de tela dos controles no Eleven Labs

A Pós-Produção


Depois de gerar as falas, vem a parte que ninguém vê, mas que é fundamental: a edição. Precisei cortar algumas pausas estranhas, ajustar o tempo das falas pra combinar com o instrutor, equalizar o áudio pra que tudo soasse como se estivesse no mesmo ambiente. Pequenos ajustes que fazem toda a diferença pra deixar a experiência mais fluida e natural.


Edição de audio no Davinci (Fairlight)
Edição de audio no Davinci (Fairlight)

O Que Aprendi no Processo


Trabalhar com a voz da Genny me mostrou que, mesmo com toda a tecnologia, o que faz a diferença é o cuidado com a comunicação. A voz é o que conecta o personagem ao aluno, cria empatia e ajuda a tornar o conteúdo mais acessível. Essa experiência me fez perceber que a geração de voz por IA é uma ferramenta poderosa, mas que precisa ser usada com atenção. Não basta só ter uma voz bonita como base, tem que pensar na personalidade, no contexto, no que aquela voz vai transmitir.


Por Que Isso Importa


No fim das contas, a voz da Genny é mais do que um som gerado por computador. É uma personagem que ajuda a explicar conceitos complexos de IA generativa, tornando o aprendizado mais dinâmico e interessante. É um exemplo de como a tecnologia pode ser usada para criar experiências educativas mais envolventes.


E o melhor: essa tecnologia está ficando cada vez mais acessível, abrindo portas para que mais pessoas possam criar personagens, narrativas e conteúdos com vozes únicas, sem precisar de um estúdio ou equipamentos caros.


Se você está pensando em trabalhar com geração de voz por IA, minha dica é: experimente, teste, ajuste. Cada detalhe importa e faz a diferença no resultado final. E, acima de tudo, lembre-se que, por trás da tecnologia, o que importa é a conexão que você cria com quem vai ouvir.

 
 
bottom of page