Hast du das gerade gesagt?

2. April 2024

OpenAI stellt mit der Voice Engine ein neues Sprachmodell vor, das lediglich eine 15-sekündige Probe benötigt, um aus einem Text eine Audiodatei zu erzeugen, die klingt, als hättest du sie selbst gesprochen. Damit beweisen sie einmal mehr: wenn sie etwas anpacken, dann machen sie es richtig - die bereitgestellten Beispielaudios sind überzeugend.

Die Technologie an sich ist nicht neu. Einige von euch haben das Voice Cloning von ElevenLabs ausprobiert oder Beispiele gehört. Sich selbst in einer anderen Sprache zu hören, die man gar nicht beherrscht, war verblüffend. Doch benötigt ElevenLabs eine mindestens 60-sekündige Aufnahme, besser eine von mehreren Minuten, um einen ähnlich klingenden Klon zu erzeugen.

Mehr als nur Stimmen

Zu den Einsatzszenarien gehört neben der Kommunikation über Sprachgrenzen hinweg auch einiges, das unter die Überschrift "AI for good" fällt. Vorlesehilfe für Menschen, die nicht lesen können, seien es Kinder oder Erwachsene, oder therapeutische Anwendungen für Personen mit Kommunikationsdefiziten sind nur zwei Beispiele dafür.

Doch das neue Sprachmodell birgt Risiken, insbesondere im Hinblick auf Deepfakes. OpenAI ist sich dieser Gefahr bewusst und hält die Voice Engine deshalb bislang zurück. Doch wie lange noch? Und wird nicht ein anderer Anbieter ein ähnlich leistungsstarkes Tool herausbringen, wenn OpenAI es nicht tut?

Deepfakes werden immer leichter produzierbar. Das müssen wir beim Umgang mit Informationen immer im Hinterkopf haben. Doch die Klons können auch in den direkten Kontakt eingreifen. Brauchen wir in Zukunft vielleicht Code-Wörter für unsere persönlichen Gespräche, ähnlich den Passwörtern für digitale Dienste?

Klar ist: Niemand kommt an generativer KI vorbei. Auch wer sie noch nicht selbst einsetzt, ist von den Risiken genauso betroffen wie alle anderen. Höchste Zeit, sich damit auseinanderzusetzen.

Hast du das gerade gesagt?

Mehr als nur Stimmen

Mehr lesen