Ever heard a voiceover on TikTok or YouTube and thought "Hmmmm.there's something not quite right with that"? Chances are the creator was using voice synthesis.
Con el auge de la inteligencia artificial (IA), la síntesis de voz es una de las muchas formas en que las computadoras ahora crean contenido.
Pero en realidad esta tecnología ya existe desde hace tiempo.
As far back as the 18th century, inventors were trying to create machines that could mimic real voices, using pipes and bellows to work their veritable magic.
Y aunque el sueño del habla artificial evolucionó a lo largo de los siglos, recién en las últimas décadas la síntesis de voz, o texto a voz (TTS), comenzó realmente a producir voces en off más parecidas a las humanas.
En los últimos años, la traducción de voz a voz (SST) también se ha unido al grupo de tecnologías de síntesis de voz, utilizando software digital para imitar la voz de una persona real, incluido su acento, inflexiones vocales y patrones de habla.
Sin embargo, a medida que las voces en off artificiales se vuelven más comunes en el marketing y la creación de contenido, es necesario abordar las preocupaciones sobre su impacto negativo en los medios de vida de los actores de voz, así como en las marcas y las empresas.
Pero antes de profundizar en estas cuestiones, conozcamos primero los mecanismos detrás de la síntesis de voz.
La síntesis de voz, a menudo denominada clonación de voz o conversión de texto a voz (TTS), es un método que convierte el lenguaje escrito en habla utilizando inteligencia artificial (IA) y tecnología informática.
Pertenece a la categoría de medios sintéticos, que es un término general para cualquier tipo de medio generado, manipulado o modificado artificialmente, ya sea texto, vídeo o voz.
Los medios sintéticos basados en audio se desarrollan utilizando algoritmos o sistemas de inteligencia artificial para convertir el texto escrito en audio hablado con sonido humano.
Los sistemas analizan una enorme base de datos de muestras de voz grabadas y aprenden a predecir diferentes tonos, timbres y patrones de habla. A partir de ahí, un vocoder transforma estas características en una forma de onda de audio y, ¡voilá!, se crea el habla.
La síntesis de voz moderna se desarrolló inicialmente para ayudar a las personas con trastornos del habla y otras dificultades sensoriales, o a aquellos que tenían dificultades para leer.
En el caso de las personas con enfermedades como la esclerosis lateral amiotrófica (ELA) o la parálisis cerebral, estos primeros sistemas TTS les permitieron comunicarse de forma más eficaz. Por tanto, el objetivo principal era mejorar la calidad de vida y fomentar la independencia.
Sin embargo, hoy en día es tan probable encontrar una voz artificial en un audiolibro o TikTok como en un dispositivo de comunicación asistida.
Por supuesto, utilizar este tipo de tecnología para crear contenidos, implementar estrategias de marketing y desarrollar asistentes domésticos inteligentes (nos referimos a ustedes, Alexa y Siri) no es intrínsecamente incorrecto.
But it can come with ethical challenges, not to mention a downslide in quality.
Por ejemplo, los actores de voz que licencian sus voces por tarifas fijas (que es comúnmente como se estructuran la mayoría de los contratos TTS) pueden contribuir involuntariamente a quedar excluidos de proyectos futuros.
Una vez clonada su voz, las empresas pueden usarla repetidamente en anuncios, audiolibros, videojuegos u otros medios, eliminando la necesidad de trabajo adicional por parte del talento original.
Not only does this undermine the intellectual property rights of professional voice actors, but flooding the market with regurgitated audio-based synthetic media will undoubtedly lead to a slump in industry standards.
Incluso si los locutores reservan su voz para uso personal, las empresas aún pueden intentar evitar este problema.
Recently, Hollywood actor Scarlet Johansson threatened legal action against OpenAI for allegedly mimicking her voice on their latest AI system after she refused to license it to the company.
Para muchos, el incidente mostró la necesidad crítica de un control regulado sobre cómo se utilizan las voces sintetizadas.
In a media interview, a spokesperson for merged entertainment unions, TheScreen Actors Guild and American Federation of Television and Radio Artists (SAG-AFTRA) claimed:
No son solo los artistas de doblaje los que se llevan la peor parte de las consecuencias de la IA.
El uso de síntesis de voz en anuncios, vídeos y otros tipos de creación de contenidos también puede tener un impacto negativo en las empresas.
Para empezar, las voces sintéticas a menudo carecen del toque emocional sutil que un actor de voz humano puede aportar a una grabación.
This can make content, whether commercials or video game voiceovers, sound robotic and unrelatable, which in turn will create an emotional disconnect with audiences.
Si las marcas persisten en utilizar voces de IA para su contenido de marketing, es posible que tengan dificultades para generar confianza genuina o conexiones verdaderas con su público objetivo.
Eso no quiere decir que la tecnología TTS no haya mejorado mucho a lo largo de las décadas. Lo ha hecho.
Ciertamente, las voces artificiales utilizadas por gigantes de marcas globales como Google y Amazon, aunque algo genéricas, están muy lejos del sonido electrónico que muchos de nosotros solemos asociar con el habla sintética.
Sin embargo, las marcas y empresas más pequeñas generalmente no están en el mismo campo de juego que Google a la hora de elegir la síntesis de voz, y optar por opciones más económicas puede hacer que tengan que lidiar con problemas de calidad.
De hecho, las voces de IA comunes y corrientes aún tienen problemas con la entonación poco natural, la pronunciación incorrecta y la transmisión de ciertas formas de ingenio, como bromas y sarcasmo.
Esto puede hacer que el contenido parezca poco convincente o demasiado poco natural como para que el público no tenga que hacer el esfuerzo adicional de absorber la información que se transmite.
La verdad es que, con tanto contenido excelente y auténtico disponible, los oyentes simplemente se desvincularán y harán clic en "Gracias. ¡Siguiente!".
Como el público moderno generalmente tiene claro qué es real y qué no, una voz sintética mal interpretada es bastante fácil de detectar.
Incluso si has trabajado duro para lograr que una voz de IA funcione en tu video, la verdad es que tiene el estigma de ser barata y de "poco esfuerzo".
La gente quiere contenido que sea atractivo y agradable, con un toque humano.
Una voz que carece de personalidad, énfasis o emoción puede hacer que los oyentes crean que el contenido en sí es genérico y de calidad inferior, incluso si no lo es.
Esta percepción no sólo dañará la reputación de una empresa, sino que también hará más difícil que la marca se destaque en un mercado abarrotado donde se respeta la autenticidad y se recompensa la originalidad.
Sin embargo, no todo es pesimismo para los actores de voz, las marcas y las empresas que se enfrentan a una nueva era de medios generados por IA.
Sin duda, los medios sintéticos han llegado para quedarse y la síntesis de voz forma parte de la tendencia, pero hay formas de desarrollarla en el futuro para que los artistas de voz y las marcas también se beneficien.
Esto, a su vez, hará que la industria sea más ética y sostenible.
La primera orden del día debe ser que los gobiernos o los organismos industriales establezcan protecciones legales para los artistas de voz, garantizando una compensación justa y un uso ético de las tecnologías de clonación de voz.
Estas medidas no sólo reducirán el riesgo de explotación, sino que también crearán un entorno más seguro tanto para los artistas como para las marcas.
A continuación, se deben crear contratos estándar para los actores de doblaje que otorgan licencias para sus producciones lucrativas, en los que se definan claramente los términos específicos de cómo y dónde se puede utilizar la voz del individuo.
Esto no solo permitirá que los talentos de voz conserven el control sobre su propiedad intelectual, sino que también ayudará a las marcas a eludir cualquier campo minado legal asociado con el mal uso de voces en off autorizadas.
Además, se podría implementar un sistema basado en regalías para los talentos de voz, similar a cómo los músicos recaudan más dinero por las transmisiones o reproducciones en plataformas como Spotify y Apple Music.
De esta manera, los locutores pueden tener la seguridad de tener ingresos continuos cada vez que utilicen sus voces.
Las marcas, por otro lado, sólo necesitarían desembolsar los fondos para el uso real, lo que haría que todo el sistema fuera justo y escalable.
Por último, es necesario encontrar nuevos enfoques para combinar las fortalezas de la tecnología TTS y el trabajo de locución humana.
Por ejemplo, una empresa podría utilizar la IA para generar borradores preliminares de contenido y luego contratar actores de doblaje humanos reales para aplicar el toque final. Esta colaboración le daría al trabajo un impacto emocional y un sonido auténtico.
Al hacerlo, las empresas combinarían la eficiencia de la tecnología virtual con la calidad de la creatividad humana real.
Asegurarse de que existan estándares claros en la industria y salvaguardas con respecto a una compensación justa, transparencia y consentimiento claro de los artistas de voz sobre cómo se utilizan las voces solo puede mejorar el uso y la eficacia de la tecnología TTS.
Los talentos de doblaje confiarán en que no serán engañados y no recibirán una compensación justa, y las grandes marcas y las pequeñas empresas tendrán acceso igualitario a locuciones de alta calidad de una manera que fomente la confianza, la creatividad y las prácticas éticas.
La IA es parte de nuestro futuro, eso es un hecho.
Pero las prácticas injustas e inapropiadas a la hora de implementar la síntesis de voz (y otros medios sintéticos) en los negocios y en los esfuerzos creativos no tienen por qué serlo.
* * * *
Si está buscando voces humanas auténticas y de alta calidad en este momento, ¿por qué no explorar nuestra gama superior de actores de voz profesionales y galardonados?
Contact us and we'll help manage your project, from sourcing experienced voice talent to providing transcription, translation, subtitling, video editing, and all other post-editing services you might need.
0 Comentarios