Schon mal ein Voiceover gehört auf TikTok oder YouTube und dachte „Hmmmm.da stimmt etwas nicht ganz damit"? Wahrscheinlich hat der Ersteller Sprachsynthese verwendet.
Mit dem Aufkommen der künstlichen Intelligenz (KI) ist die Sprachsynthese eine der vielen Möglichkeiten, mit denen Computer heute Inhalte erstellen.
Doch diese Technologie gibt es eigentlich schon länger.
As far back as the 18th century, inventors were trying to create machines that could mimic real voices, using pipes and bellows to work their veritable magic.
Und während sich der Traum von der künstlichen Sprache über Jahrhunderte weiterentwickelt hat, ist es erst in den letzten Jahrzehnten gelungen, mit der Sprachsynthese bzw. Text-to-Speech (TTS) wirklich menschlichere Voiceovers zu produzieren.
In den letzten Jahren ist neben der Sprachsynthesetechnologie auch die Sprach-zu-Sprache-Übersetzung (SST) hinzugekommen. Dabei wird digitale Software verwendet, um die Stimme einer echten Person mitsamt Akzent, Stimmmodulation und Sprechmuster nachzuahmen.
Da jedoch künstliche Voiceovers im Marketing und bei der Inhaltserstellung immer häufiger zum Einsatz kommen, müssen Bedenken hinsichtlich ihrer negativen Auswirkungen auf den Lebensunterhalt der Synchronsprecher sowie auf Marken und Unternehmen ausgeräumt werden.
Doch bevor wir uns näher mit diesen Fragen befassen, wollen wir uns zunächst die Mechanismen hinter der Sprachsynthese genauer ansehen.
Sprachsynthese, oft auch als Stimmenklonen oder Text-to-Speech (TTS) bezeichnet, ist eine Methode, die geschriebene Sprache mithilfe künstlicher Intelligenz (KI) und Computertechnologie in Sprache umwandelt.
Es fällt unter die Kategorie der synthetischen Medien, ein Sammelbegriff für alle Arten künstlich erzeugter, manipulierter oder veränderter Medien, seien es Text, Video oder Sprache.
Audiobasierte synthetische Medien werden durch den Einsatz von KI-Algorithmen oder -Systemen entwickelt, um den geschriebenen Text in menschlich klingende gesprochene Audiodaten umzuwandeln.
Die Systeme analysieren eine riesige Datenbank aufgezeichneter Sprachproben und lernen, unterschiedliche Töne, Tonhöhen und Sprachmuster vorherzusagen. Anschließend wandelt ein Vocoder diese Merkmale in eine Audiowellenform um, und – voil! – Sprache entsteht.
Die moderne Sprachsynthese wurde ursprünglich entwickelt, um Menschen mit Sprachstörungen und anderen sensorischen Schwierigkeiten oder solchen, die Schwierigkeiten beim Lesen haben, zu helfen.
Menschen mit Erkrankungen wie ALS oder Zerebralparese konnten mit diesen frühen TTS-Systemen effektiver kommunizieren. Das Hauptziel war also, die Lebensqualität zu verbessern und die Unabhängigkeit zu fördern.
Heutzutage ist die Wahrscheinlichkeit, dass Sie in einem Hörbuch oder TikTok eine künstliche Stimme finden, jedoch genauso hoch wie bei einem unterstützenden Kommunikationsgerät.
Natürlich ist es nicht grundsätzlich falsch, diese Art von Technologie zur Erstellung von Inhalten, Umsetzung von Marketingstrategien und Entwicklung von Smart-Home-Assistenten (wir meinen euch, Alexa und Siri) zu verwenden.
Aber es kann mit ethischen Herausforderungen einhergehen , ganz zu schweigen von der Verschlechterung der Qualität.
Beispielsweise können Synchronsprecher, die ihre Stimmen gegen Festpreise lizenzieren – und so sind die meisten TTS-Verträge strukturiert –, unabsichtlich dazu beitragen, dass sie von zukünftigen Projekten ausgeschlossen werden.
Sobald die Stimme geklont wurde, können Unternehmen sie wiederholt in Anzeigen, Hörbüchern, Videospielen oder anderen Medien verwenden, wodurch die Notwendigkeit weiterer Arbeit des ursprünglichen Talents entfällt.
Dies untergräbt nicht nur die geistigen Eigentumsrechte von professionellen Synchronsprechern , aber die Überschwemmung des Marktes mit wiedergekäuten, synthetischen Audiomedien wird zweifellos zu einem Einbruch der Industriestandards führen.
Auch wenn Sprecher ihre Stimme nicht verwenden, versuchen Unternehmen möglicherweise, dies zu umgehen.
Recently, Hollywood actor Scarlet Johansson threatened legal action against OpenAI for allegedly mimicking her voice on their latest AI system after she refused to license it to the company.
Für viele hat der Vorfall gezeigt, dass es dringend einer geregelten Kontrolle über den Einsatz synthetischer Stimmen bedarf.
In einem Medieninterview , ein Sprecher der fusionierten Unterhaltungsgewerkschaften TheScreen Actors Guild und American Federation of Television and Radio Artists (SAG-AFTRA), behauptete:
Es sind nicht nur Synchronsprecher, die die Hauptlast der Auswirkungen der KI tragen.
Der Einsatz der Sprachsynthese in Anzeigen, Videos und anderen Inhalten kann sich auch negativ auf Unternehmen auswirken.
Zunächst einmal fehlt synthetischen Stimmen oft der subtile emotionale Kick, den ein menschlicher Synchronsprecher einer Aufnahme verleihen kann.
Dadurch können Inhalte, ob Werbespots oder Videospiel-Voiceovers, , klingen roboterhaft und unzugänglich, was wiederum zu einer emotionalen Trennung beim Publikum führt.
Wenn Marken weiterhin KI-Stimmen für ihre Marketinginhalte verwenden, fällt es ihnen möglicherweise schwer, echtes Vertrauen oder eine echte Verbindung zu ihrer Zielgruppe aufzubauen.
Das soll nicht heißen, dass sich die TTS-Technologie im Laufe der Jahrzehnte nicht stark verbessert hat. Das ist sie.
Sicherlich sind die künstlichen Stimmen, die von globalen Markengiganten wie Google und Amazon verwendet werden, zwar eher generisch, aber weit entfernt von der elektronisch klingenden Ausgabe, die viele von uns normalerweise mit synthetischer Sprache assoziieren.
Kleinere Marken und Unternehmen haben bei der Auswahl der Sprachsynthese jedoch in der Regel nicht die gleichen Voraussetzungen wie Google und müssen sich bei der Entscheidung für günstigere Alternativen möglicherweise mit Qualitätsproblemen herumschlagen.
Tatsächlich haben gewöhnliche KI-Stimmen immer noch Probleme mit unnatürlicher Intonation, falscher Aussprache und der Übermittlung bestimmter Formen von Witz wie geistreichen Bemerkungen und Sarkasmus.
Dies kann dazu führen, dass die Inhalte nicht überzeugend wirken oder zu unnatürlich klingen, als dass das Publikum sich die Mühe machen würde, die übermittelten Informationen aufzunehmen.
Die Wahrheit ist: Bei so viel großartigem, authentischem Inhalt werden die Hörer einfach abschalten und mit einem „Danke! Weiter!“ wegklicken.
Da das moderne Publikum im Allgemeinen weiß, was echt ist und was nicht, ist eine schlecht wiedergegebene synthetische Stimme ziemlich einfach zu erkennen.
Auch wenn Sie sich viel Mühe gegeben haben, eine KI-Stimme in Ihr Video zu integrieren, haftet ihr in Wahrheit der Ruf an, billig und „ohne großen Aufwand“ zu sein.
Die Leute wollen ansprechende und unterhaltsame Inhalte mit einer menschlichen Note.
Eine Stimme ohne Persönlichkeit, Nachdruck oder Emotion kann bei den Zuhörern den Eindruck erwecken, der Inhalt selbst sei generisch und minderwertig – selbst wenn das nicht der Fall ist.
Diese Wahrnehmung schadet nicht nur dem Ruf eines Unternehmens, sondern erschwert es der Marke auch, sich auf einem überfüllten Markt abzuheben, auf dem Authentizität geschätzt und Originalität belohnt wird.
Für Synchronsprecher, Marken und Unternehmen, die sich in einem neuen Zeitalter KI-generierter Medien behaupten müssen, ist die Lage jedoch nicht nur hoffnungslos.
Synthetische Medien werden uns mit Sicherheit erhalten bleiben und die Sprachsynthese ist ein Teil davon. Aber es gibt Möglichkeiten, sie in Zukunft so weiterzuentwickeln, dass auch Sprecher und Marken davon profitieren.
Dies wiederum wird die Branche ethischer und nachhaltiger machen.
Die erste Aufgabe der Regierungen oder Branchenverbände muss darin bestehen, rechtlichen Schutz für Synchronsprecher zu schaffen und so eine faire Vergütung und einen ethischen Einsatz von Technologien zum Klonen von Stimmen zu gewährleisten.
Diese Schritte verringern nicht nur das Risiko einer Ausbeutung, sondern schaffen auch ein sichereres Umfeld für Künstler und Marken.
Als Folge davon müssen Standardverträge für Synchronsprecher erstellt werden, die ihren Geldquellen Lizenzen erteilen. In diesen Verträgen müssen die genauen Bedingungen, wie und wo die Stimme des Einzelnen verwendet werden darf, klar definiert sein.
Dadurch behalten die Sprecher nicht nur die Kontrolle über ihr geistiges Eigentum, sondern Marken können auch alle rechtlichen Minenfelder umgehen, die mit dem Missbrauch lizenzierter Sprecher verbunden sind.
Darüber hinaus könnte für Sprecher ein auf Lizenzgebühren basierendes System eingeführt werden, das dem ähnelt, wie Musiker mit Streams oder Wiedergaben auf Plattformen wie Spotify und Apple Music mehr Geld verdienen.
Auf diese Weise können sich Sprecher bei jedem Einsatz ihrer Stimme fortlaufende Einnahmen sichern.
Marken hingegen müssten nur die Mittel für die tatsächliche Nutzung aufbringen, was das gesamte System fair und skalierbar macht.
Schließlich müssen neue Ansätze gefunden werden, um die Stärken der TTS-Technologie und der menschlichen Voiceover-Arbeit zu kombinieren.
Ein Unternehmen könnte beispielsweise KI nutzen, um erste Entwürfe für Inhalte zu erstellen und dann echte menschliche Synchronsprecher engagieren, um den letzten Schliff zu geben. Diese Zusammenarbeit würde dem Werk eine emotionale Note und einen authentischen Klang verleihen.
Auf diese Weise könnten Unternehmen die Effizienz virtueller Technologien mit der Qualität echter menschlicher Kreativität vereinen.
Die Nutzung und Effektivität der TTS-Technologie kann nur verbessert werden, indem klare Branchenstandards und Sicherheitsvorkehrungen hinsichtlich einer fairen Vergütung, Transparenz und eindeutiger Zustimmung der Sprecher zur Verwendung der Stimmen eingehalten werden.
Sprechertalente können darauf vertrauen, dass sie nicht um eine faire Vergütung betrogen werden. Und große Marken und kleine Unternehmen haben den gleichen Zugang zu qualitativ hochwertigen Voiceovers, und zwar auf eine Art und Weise, die Vertrauen, Kreativität und ethisches Verhalten fördert.
KI ist Teil unserer Zukunft. Das ist eine Selbstverständlichkeit.
Doch es muss keine unfaire und unangemessene Vorgehensweise bei der Implementierung der Sprachsynthese (und anderer synthetischer Medien) in geschäftlichen und kreativen Unternehmungen geben.
* * * *
Wenn Sie gerade auf der Suche nach hochwertigen, authentischen menschlichen Stimmen sind, warum erkunden Sie nicht unser erstklassiges Angebot an preisgekrönten, professionellen Synchronsprechern?
Kontaktieren Sie uns und wir unterstützen Sie bei der Verwaltung Ihres Projekts, von der Beschaffung erfahrener Sprecher bis hin zur Bereitstellung von Transkriptionen , Übersetzung, Untertitelung, Videobearbeitung und alle anderen Nachbearbeitungsdienste, die Sie benötigen könnten.
0 Kommentare