Faktencheck: Wie erkenne ich Audio-Deepfakes?
21. August 2024Hat der ehemalige US-Präsident Barack Obama angedeutet, dass die Demokraten hinter dem gescheiterten Attentat auf seinen Nachfolger Donald Trump stecken?
In den USA kursieren mehrere Tonaufnahmen, auf denen Obama angeblich mit seinem ehemaligen Berater David Axelrod über die bevorstehenden US-Präsidentschaftswahlen im November spricht.
In einem der Ausschnitte sagt eine Stimme, die wie die Obamas klingt: "Es war ihre einzige Chance, und diese Idioten haben sie verpasst. Wenn sie nur Trump loswerden könnten, würden wir ihnen den Sieg gegen jeden republikanischen Kandidaten sichern."
Der Ton wurde jedoch als Fälschung identifiziert. Obama hat in Wirklichkeit nichts davon gesagt. Stattdessen wurde der Ton mit Hilfe von Künstlicher Intelligenz (KI) synthetisch erzeugt.
NewsGuard, ein US-amerikanischer Auswertungsdienst für Desinformation und Medien, veröffentlichte eine Analyse der Audiodateien. Das NewsGuard-Team verwendete mehrere KI-Erkennungswerkzeuge, befragte einen Experten für digitale Forensik und kam zu dem Schluss, dass die Audios gefälscht wurden. Das Team sprach auch mit einem Sprecher Obamas, der bestätigte, dass die Tonaufnahmen nicht authentisch sind.
Obama ist nicht der einzige Politiker, dessen Stimme gefälscht wurde. Anfang dieses Jahres forderte eine von einer Künstlichen Intelligenz generierte Stimme von US-Präsident Joe Biden die Wähler bei den Vorwahlen in New Hampshire auf, nicht zu wählen.
Doch gefälschte Audios tauchen nicht nur in den Vereinigten Staaten auf. Letztes Jahr, kurz vor den Präsidentschaftswahlen in der Slowakei, wurde ein Audio-Deepfake von der Stimme des liberalen Parteichefs Michal Simecka veröffentlicht. In Großbritannien wurde der Londoner Bürgermeister Sadiq Khan Opfer einer gefälschten KI-Aufnahme, die ihm kontroverse Äußerungen in den Mund legte.
Leicht zu machen, schwer zu entlarven
In Zeiten politischer Unsicherheit stellen Audio-Deepfake eine große Bedrohung dar. Besonders in Wahlzyklen können KI-generierte Audiofälschungen schädlich sein, weil sie so einfach zu erstellen und zu verbreiten sind.
"Sie benötigen weniger Trainingsdaten und Rechenleistung - im Vergleich zu Deepfake-Videos - um nahezu realistische Ergebnisse zu erzielen", so Anna Schild, Expertin für Medien und Kommunikation im Team Research and Cooperation Projects der DW.
Gemeinsam mit ihrer Kollegin Julia Bayer hat sie die Auswirkungen von Audio-Deepfakes untersucht und erklärt, warum sie sich immer größerer Beliebtheit erfreuen. "Ihre vielseitige Anwendbarkeit, von Robocalls über Sprachnachrichten bis hin zu Video-Voice-Overs, bietet viele verschiedene Verbreitungskanäle", so Schild.
Audio-Deepfakes sind zudem schwieriger zu erkennen als andere Formen der Desinformation. "Audio-Fälschungen sind etwas schwieriger zu erkennen als Video-Fälschungen, weil wir einfach weniger Anhaltspunkte haben", sagt Nicolas Müller, Ingenieur für maschinelles Lernen am deutschen Fraunhofer-Institut für Angewandte und Integrierte Sicherheit, der DW.
"In einem Video haben wir den Ton, das Video und eine gewisse Synchronität zwischen ihnen", erklärt Müller, der untersucht hat, wie gut Menschen gefälschte Aufnahmen erkennen können. Er und seine Kollegen fanden heraus, dass es bei Audiodateien weniger Elemente gibt, die erkennen lassen, ob die Aufnahme authentisch ist oder nicht.
Die Sinne schärfen - hilft auch gegen Deepfakes
Was können Nutzer also tun, wenn sie auf eine Audiodatei stoßen, die möglicherweise von KI erstellt wurde? Eine Möglichkeit, zu überprüfen, ob Audioaufnahmen echt sind oder nicht, besteht darin, die Datei auf verräterische Muster zu untersuchen, die auf eine KI-Manipulation hindeuten könnten.
Im oben erwähnten Beispiel von Barack Obama würde dies bedeuten, die verdächtige Datei mit einer bekannten und verifizierten Audioaufnahme seiner Stimme zu vergleichen, um mögliche Abweichungen von Obamas normaler Sprechweise zu finden.
Dazu können unterschiedliche Ausspracheweisen, unnatürliche Pausen oder unrealistische Atemmuster gehören. Darüber hinaus könnten Hintergrundgeräusche oder unnatürliche Klänge im betreffenden Audiomaterial weitere Hinweise geben.
Für ungeübte Ohren kann es schwierig sein, diese Hinweise zu erkennen. Es gibt jedoch mehrere Tools, mit denen Menschen üben können, diese Art von Desinformation zu erkennen. Eines davon ist das Deepfake-Erkennungsprojekt Digger, das in Zusammenarbeit mit der DW entwickelt wurde. Das Projekt hat praktische Übungen erstellt, mit denen Menschen ihre kritischen Hörfähigkeiten trainieren können.
Das Team von Nicolas Müller hat außerdem ein Spiel entwickelt, mit dem Teilnehmer testen können, wie gut sie Audio-Deepfakes erkennen.
Einsatz von KI-Tools zur Bekämpfung von KI-Desinformation
Eine weitere Möglichkeit ist, eine KI-gestützte Software zu verwenden, die darauf trainiert ist, Audio-Deepfakes zu erkennen.
In unserem Beispiel mit der synthetischen Stimme von Obama hat NewsGuard einen Deepfake-Checker wie TrueMedia verwendet, das über einen Deepfake-Detektor-Bot verfügt. Dieser Bot kann nach eigenen Angaben auf Verifizierungsanfragen von Nutzern auf der Social-Media-Plattform X (ehemals Twitter) antworten.
Das Fraunhofer-Institut hat inzwischen Deepfake Total entwickelt, eine Plattform, auf der Nutzer verdächtige Audiodateien hochladen und analysieren lassen können. Alle hochgeladenen Dateien werden mit einem sogenannten "Fake-O-Meter" mit einer Punktzahl bewertet, die angibt, wie wahrscheinlich es ist, dass die Datei künstlich erzeugt oder manipuliert wurde.
Bisher sind die Tools zum Erkennen von Deepfakes aber nicht unfehlbar. Sie können zwar oft die Wahrscheinlichkeit einschätzen, ob eine Datei mithilfe von KI generiert wurde oder nicht, doch nicht immer ist das Ergebnis korrekt. Deshalb sollten solche Tools in der Überprüfung immer mit Vorsicht eingesetzt werden.
Zu einer Überprüfung können Nutzer auch auf andere vertrauenswürdigen Webseiten und Plattformen zurückgreifen und dort suchen, ob die fragliche Audiodatei bereits von anderen Faktenprüfern widerlegt wurde.
Mehrere Medien haben ebenfalls Tools zur Identifizierung von Audio-Deepfakes entwickelt, darunter etwa VerificAudio des spanischen Medienunternehmens PRISA Media, dessen Ziel darin besteht, Fälschungen im spanischsprachigen Raum aufzuspüren.
Jose Gutierrez von PRISA Media erklärte im Gespräch mit der DW, dass das Tool auf zwei KI-gesteuerten Prozessen basiert: Während der erste verdächtige Audiodateien mit authentischen Audioaufnahmen derselben Person vergleicht, analysiert der zweite verschiedene akustische Merkmale wie Bandbreite, Tonhöhe, Frequenz und Klangtextur.
Gutierrez betonte auch, dass dieses Tool keine endgültigen Antworten liefere, sondern nur eine Wahrscheinlichkeit angeben könne.
Den Kontext prüfen
Es kann es auch helfen, sich bei der Identifizierung von Audio-Deepfakes auf traditionellere Verifizierungsmethoden zu konzentrieren, die sich nicht nur auf Audioaufnahmen beschränken.
Das DW-Team Research and Cooperations, zu dem Anna Schild gehört, hat auf der Website "How to Verify" das Team einige hilfreiche Tools zusammengestellt.
Nützliche Tipps sind beispielsweise:
1. den Audioinhalt mit bekannten Fakten zu vergleichen
2. die Social-Media-Kanäle der Person zu überprüfen
3. in vertrauenswürdigen Nachrichtenquellen nach zusätzlichem Kontext zu suchen.
Letztlich kommt es auf eine Mischung verschiedener Techniken an. Wie DW Research and Cooperations betont, "gibt es keine Ein-Knopf-Lösung, die jegliche Art von Manipulation im Audiomaterial erkennen kann."
Dieser Artikel ist Teil einer DW-Factcheck-Serie zum Thema digitale Kompetenz. Weitere Artikel sind:
• Wie erkenne ich manipulierte Bilder?
• Wie erkenne ich KI-generierte Bilder?
• Wie erkenne ich staatliche Propaganda?
• Wie erkenne ich Fake-Accounts, Bots und Trolle?
Und hier lesen Sie mehr darüber, wie die DW Fake News für ihre Faktenchecks überprüft.