Já ouviu uma narração no TikTok ou no YouTube e pensei "Hmmmm.há algo que não está certo com isso"? É provável que o criador estivesse usando síntese de voz.
Com o surgimento da inteligência artificial (IA), a síntese de voz é uma das muitas maneiras pelas quais o conteúdo está sendo criado por computadores.
Mas essa tecnologia já existe há algum tempo.
As far back as the 18th century, inventors were trying to create machines that could mimic real voices, using pipes and bellows to work their veritable magic.
E embora o sonho da fala artificial tenha evoluído ao longo dos séculos, foi somente nas últimas décadas que a síntese de voz, ou conversão de texto em fala (TTS), realmente começou a produzir narrações mais semelhantes às humanas.
Nos últimos anos, a tradução de fala para fala (SST) também se juntou à tecnologia de síntese de voz, usando software digital para imitar a voz de uma pessoa real, incluindo seu sotaque, inflexões vocais e padrões de fala.
No entanto, à medida que as narrações artificiais se tornam mais comuns em marketing e criação de conteúdo, as preocupações sobre seu impacto negativo nos meios de subsistência dos dubladores, bem como nas marcas e empresas, precisam ser abordadas.
Mas antes de nos aprofundarmos nessas preocupações, vamos primeiro conhecer os mecanismos por trás da síntese de voz.
Frequentemente chamada de clonagem de voz e também de conversão de texto em fala (TTS), a síntese de voz é um método que converte linguagem escrita em fala usando inteligência artificial (IA) e tecnologia de computador.
Ela se enquadra na categoria de mídia sintética, que é um termo abrangente para qualquer tipo de mídia gerada, manipulada ou modificada artificialmente, seja texto, vídeo ou voz.
A mídia sintética baseada em áudio é desenvolvida usando algoritmos ou sistemas de IA para transformar o texto escrito em áudio falado com som humano.
Os sistemas analisam um enorme banco de dados de amostras de voz gravadas, aprendendo como prever diferentes tons, pitch e padrões de fala. A partir daí, um vocoder transforma esses recursos em uma forma de onda de áudio, e-voil!-a fala é criada.
A síntese de voz moderna foi desenvolvida inicialmente para ajudar pessoas com distúrbios de fala e outras dificuldades sensoriais, ou aquelas que têm dificuldades de leitura.
Para pessoas com condições como ELA ou paralisia cerebral, esses primeiros sistemas TTS permitiram que se comunicassem de forma mais eficaz. Como tal, o objetivo principal era melhorar a qualidade de vida e promover a independência.
No entanto, hoje em dia, é tão provável que você encontre uma voz artificial em um audiolivro ou no TikTok quanto em um dispositivo de comunicação assistida.
É claro que usar esse tipo de tecnologia para criar conteúdo, implementar estratégias de marketing e desenvolver assistentes domésticos inteligentes (estamos falando de vocês, Alexa e Siri) não é inerentemente errado.
Mas pode trazer consigo desafios éticos , sem mencionar a queda na qualidade.
Por exemplo, dubladores que licenciam suas vozes por taxas fixas — que é como a maioria dos contratos de TTS são estruturados — podem involuntariamente contribuir para serem excluídos de projetos futuros.
Depois que a voz é clonada, as empresas podem usá-la repetidamente em anúncios, audiolivros, videogames ou outras mídias, eliminando a necessidade de qualquer trabalho adicional do talento original.
Not only does this undermine the intellectual property rights of professional voice actors, but flooding the market with regurgitated audio-based synthetic media will undoubtedly lead to a slump in industry standards.
Mesmo que os dubladores retenham suas vozes para uso, as empresas ainda podem tentar contornar isso.
Recently, Hollywood actor Scarlet Johansson threatened legal action against OpenAI for allegedly mimicking her voice on their latest AI system after she refused to license it to the company.
Para muitos, o incidente mostrou a necessidade crítica de controle regulamentado sobre como as vozes sintetizadas são usadas.
In a media interview, a spokesperson for merged entertainment unions, TheScreen Actors Guild and American Federation of Television and Radio Artists (SAG-AFTRA) claimed:
Não são apenas os dubladores que estão sofrendo as consequências das consequências da IA.
O uso de síntese de voz em anúncios, vídeos e outras criações de conteúdo também pode ter um impacto negativo nos negócios.
Para começar, vozes sintéticas muitas vezes não têm o sutil toque emocional que um dublador humano pode trazer a uma gravação.
Isso pode tornar o conteúdo, sejam comerciais ou dublagens de videogame , soam robóticos e pouco relacionáveis, o que por sua vez criará uma desconexão emocional com o público.
Se as marcas persistirem em usar vozes de IA em seu conteúdo de marketing, elas podem ter dificuldades para construir confiança genuína ou conexões verdadeiras com seu público-alvo.
Isso não quer dizer que a tecnologia TTS não tenha melhorado muito ao longo das décadas. Melhorou.
Certamente, as vozes artificiais usadas por gigantes globais de marcas como Google e Amazon, embora um tanto genéricas, estão muito longe da saída de som eletrônico que muitos de nós normalmente associamos à fala sintética.
No entanto, marcas e empresas menores geralmente não estão no mesmo nível do Google ao escolher a síntese de voz e optar por opções mais baratas pode fazer com que enfrentem problemas de qualidade.
Na verdade, as vozes comuns de IA ainda enfrentam dificuldades com entonações não naturais, pronúncias erradas e para transmitir certas formas de humor, como piadas e sarcasmo.
Isso pode fazer com que o conteúdo pareça monótono ou artificial demais para que o público se esforce mais para absorver as informações transmitidas.
A verdade é que, com tanto conteúdo excelente e autêntico disponível, os ouvintes simplesmente se desligam e clicam para sair com um "Obrigado! Próximo!"
Como o público moderno geralmente sabe o que é real e o que não é, uma voz sintética mal renderizada é bem fácil de identificar.
Mesmo que você tenha se esforçado para fazer uma voz de IA funcionar no seu vídeo, a verdade é que isso tem o estigma de ser barato e "de pouco esforço".
As pessoas querem conteúdo envolvente e agradável, com um toque humano.
Uma voz sem personalidade, ênfase ou emoção pode fazer com que os ouvintes acreditem que o conteúdo em si é genérico e abaixo da média, mesmo que não seja.
Essa percepção não só prejudicará a reputação de uma empresa, mas também tornará mais difícil para a marca se destacar em um mercado concorrido, onde a autenticidade é respeitada e a originalidade recompensada.
No entanto, nem tudo é desgraça para dubladores, marcas e empresas que enfrentam uma nova era de mídia gerada por IA.
Com certeza, a mídia sintética veio para ficar e a síntese de voz faz parte do grupo. Mas há maneiras de desenvolvê-la no futuro para que artistas de voz e marcas também se beneficiem.
Isso, por sua vez, tornará a indústria mais ética e sustentável.
A primeira tarefa dos governos ou órgãos da indústria deve ser implementar proteções legais para dubladores, garantindo compensação justa e uso ético de tecnologias de clonagem de voz.
Essas medidas não apenas reduzirão o risco de exploração, mas também criarão um ambiente mais seguro para artistas e marcas.
Depois disso, contratos padrão para dubladores que licenciam seus ganha-pão devem ser criados, nos quais os termos específicos de como e onde a voz do indivíduo pode ser usada sejam claramente definidos.
Isso não só permitirá que os talentos de voz mantenham o controle sobre sua propriedade intelectual, mas também ajudará as marcas a contornar quaisquer obstáculos legais associados ao uso indevido de dublagens licenciadas.
Além disso, um sistema baseado em royalties, semelhante ao que os músicos usam para arrecadar mais dinheiro com transmissões ou reproduções em plataformas como Spotify e Apple Music, poderia ser implementado para talentos de voz.
Dessa forma, os dubladores podem ter certeza de uma renda contínua sempre que suas vozes forem usadas.
As marcas, por outro lado, só precisariam desembolsar os fundos para uso real, tornando todo o sistema justo e escalável.
Por fim, novas abordagens precisam ser encontradas para combinar os pontos fortes da tecnologia TTS e do trabalho de narração humana.
Por exemplo, uma empresa poderia usar IA para gerar rascunhos iniciais de conteúdo e, então, envolver dubladores humanos reais para aplicar o polimento final. Essa colaboração daria ao trabalho um impacto emocional e um som autêntico.
Ao fazer isso, as empresas uniriam a eficiência da tecnologia virtual com a qualidade da criatividade humana real.
Garantir que existam padrões e salvaguardas claros do setor em vigor em relação à remuneração justa, transparência e consentimento claro dos dubladores sobre como as vozes são usadas só pode melhorar o uso e a eficácia da tecnologia TTS.
Os talentos de dublagem confiarão que não serão enganados e não receberão uma remuneração justa, e grandes marcas e pequenas empresas terão acesso igual a dublagens de alta qualidade, de uma forma que incentive a confiança, a criatividade e as práticas éticas.
A IA é parte do nosso futuro. Isso é um dado adquirido.
Mas práticas injustas e impróprias quando se trata de implementar síntese de voz (e outras mídias sintéticas) em negócios e empreendimentos criativos não precisam ser assim.
* * * *
Se você está procurando vozes humanas autênticas e de alta qualidade agora, por que não explorar nossa gama de dubladores profissionais premiados?
Entre em contato conosco e nós ajudaremos a gerenciar seu projeto, desde a busca por talentos de voz experientes até o fornecimento de transcrição , tradução, legendagem, edição de vídeo e todos os outros serviços de pós-edição que você possa precisar.
0 Comentários