Deepfakes im Videotelefonat

oder: Der Hauptmann von Köpenick goes zoom

Warum neue Herausforderungen für die Rezeption (digitaler) Bilder entstehen und eine kompetente Unterscheidung zwischen Realität, Deepfake oder Shallowfake gar nicht so leicht ist

Regierende Bürgermeisterin von Berlin, Franziska Giffey (SPD), nach ihrem Videotelefonat mit dem Bürgermeister von Kiew, Vitali Klitschko, das sich im Nachhinein als Fälschung herausstellte.

Alma Kolleck | 08. Juli 2022

Unter Deepfakes werden im Allgemeinen wirklichkeitsgetreu erscheinende mediale Inhalte, in erster Linie Filme bzw. manipulierte oder synthetische Audio- oder Bildmedien, verstanden, die mithilfe künstlicher Intelligenz (KI) entstanden sind. Sie gelten aufgrund ihres Täuschungs- und Manipulationspotenzials als große Gefahr, wie jüngste, medial breit rezipierte Beispiele zeigen. Ab November beschäftigt sich das TAB in einer TA-Kurzstudie ausführlicher mit rechtlichen und gesellschaftlichen Herausforderungen, aber auch mit Innovationspotenzialen von Deepfakes.

Sichtlich bestürzt zeigte sich die Regierende Bürgermeisterin von Berlin, Franziska Giffey (SPD), nach ihrem Videotelefonat mit dem Bürgermeister von Kiew, Vitali Klitschko, das sich im Nachhinein als Fälschung herausstellte. Gegenüber dem Rundfunksender rbb äußerte sie: »Es ist so, dass Sie nicht unterscheiden können. Selbst Profis können das nicht unterscheiden, ob sie mit der echten Person sprechen oder mit einem Fake. Die Lippenbewegungen waren eins zu eins so, als würde ich mit Ihnen sprechen. Auch Gestik und Mimik waren da und haben dem entsprochen.« Es habe sich um ein Deepfake gehandelt, schloss sie daraus, also um ein Video, bei dem mittels maschineller Lernverfahren täuschend echt wirkende Manipulationen von audiovisuellen Daten hergestellt werden, teilweise auch in Echtzeit. Mit dieser Technik ist es beispielsweise möglich, sich das Gesicht einer anderen, realen oder fiktiven Person wie eine digitale Maske über das eigene Gesicht zu legen und somit die eigenen Gesichtsbewegungen auf das Fakegesicht zu übertragen.

Bekanntheit erlangte eine Reihe von Videos, die mit dieser Technologie hergestellt wurden. Beispielsweise existiert eine Sequenz, in dem der ehemalige US-amerikanische Präsident Barack Obama seinen Nachfolger Donald Trump als »total and complete dipshit« bezeichnet. Am Ende des genannten Videos wird klar, dass es sich um einen Deepfake handelt und die Betrachter/innen werden zur Achtsamkeit im Umgang mit authentisch erscheinenden Videos aufgefordert. Weitere bekannte Fakes simulieren eine Weihnachtsnachricht der britischen Königin, das Alltagsleben des US-Schauspielers Tom Cruise, oder – weniger unterhaltsam – verbreiten aus dem Mund des künstlich erstellten ukrainischen Präsidenten Wolodymyr Selenskyj die Botschaft an die eigenen Soldaten, die Waffen niederzulegen.

Viele Medien gaben Franziska Giffeys Annahme, dass es sich bei ihrem Gegenüber im Videotelefonat um einen Deepfake gehandelt habe, weitgehend ungeprüft weiter (zum Beispiel Berliner Zeitung, Neue Zürcher Zeitung und The Guardian). Kaum hatte die Meldung die Runde gemacht, wurden jedoch erste Zweifel laut. So arbeitete etwa der rbb-Journalist Daniel Laufer im ARD-Magazin »Kontraste« heraus, dass die Screenshots, die aus dem Videotelefonat mit dem vermeintlichen Klitschko stammten, deckungsgleich mit Filmaufnahmen eines Interviews des echten Vitali Klitschko mit dem ukrainischen Journalisten Dmitrij Gordon sind. Kleine, technisch erzeugte Fehler, die typisch für Deepfakes sind (wie etwa fehlende oder falsche Schattenwürfe, fehlendes Augenblinzeln, künstliche Übergänge von Haaren zu Hintergrund oder Fehler bzw. Ruckler in der Wiedergabe des Hintergrunds) waren in den Screenshots zudem nicht erkennbar. Die Schlussfolgerung lautete, dass es sich nicht um ein Deepfake, sondern um ein sogenanntes Shallowfake gehandelt habe – also ein technisch deutlich leichter zu erstellendes manipuliertes (Bewegt-)Bild, das mit einfachen Mitteln eine mehr oder minder als manipuliert zu erkennende Realität wiedergibt. Einfache Shallowfakes umfassen beispielsweise die verlangsamte Wiedergabe einer Videosequenz, bei der die sprechende Person unter Drogeneinfluss zu sprechen scheint. Eine andere Möglichkeit, ein Shallowfake zu erstellen, besteht im geschickten Neuschnitt vorhandener Bewegtbildsequenzen. Letzteres scheint auch im Fall des vermeintlichen Klitschko zum Einsatz gekommen zu sein. Einige Tage nach Bekanntwerden des Vorfalls gab das russische Komikerduo Lexus und Vovan (bürgerliche Namen Alexei Stolyarov und Vladimir Krasnov) bekannt, dass sie hinter der Täuschung steckten, ließen technische Details jedoch offen. Das Komikerduo erhielt für seine Aktionen jüngst eine Ehrung durch die russische Regierung.

Franziska Giffey ist nicht die Einzige, die sich von Shallowfakes hat täuschen lassen. Bürgermeister anderer Städte (etwa von Wien, Warschau, Budapest und Madrid) hatten sich zuvor ebenfalls mit dem falschen Klitschko per Videocall ausgetauscht – im Fall des Wiener Bürgermeisters offenbar, ohne etwas zu bemerken. Vitali Klitschko ist zudem nicht der einzige politisch aktive Europäer, dessen Identität im Rahmen von gefakten Videotelefonaten benutzt wurde. Weniger bekannt, doch politisch und technisch ähnlich gelagert ist ein Vorfall vom April vergangenen Jahres, in dem mehrere Abgeordnete des niederländischen Parlaments (wie zuvor bereits britische und baltische Parlamentarier/innen) ein Videotelefonat mit Leonid Volkov, dem Stabschef des inhaftierten russischen Kreml-Kritikers Alexei Nawalny, zu führen glaubten. Auch hier vermuteten die Beteiligten und die Berichterstattung zunächst ein Deepfake. Auch hier fiel der vermeintliche Gesprächspartner mit seltsam anmutenden Äußerungen auf, und auch hier steckte das Komikerduo Lexus und Vovan hinter der Täuschung. Anstelle eines Zusammenschnitts von Videomaterial handelte es sich in diesem Fall allerdings offenbar um eine schlichte Verkleidung, um einen »schlecht geschminkten Witzbold im Bademantel«. Das Vorgehen verweist auf eine altbewährte Form der Täuschung, wie sie schon der titelgebende Hauptmann von Köpenick aus Carl Zuckmayers gleichnamigem Theaterstück sowohl auf der Theaterbühne als auch zuvor im echten Leben vorführte – allerdings in preußischer Uniform statt im Bademantel.

Was lehren uns diese Vorfälle? In vielen journalistischen Einschätzungen zu den Fällen wurde darauf hingewiesen, dass den Betrüger/innen ihr Handwerk dadurch erleichtert wurde, dass die Vorabkommunikation ausschließlich per Mail erfolgte. Ob ein Telefonat vor dem eigentlichen Termin angesichts bestehender Sprachbarrieren allerdings tatsächlich mehr Klarheit gebracht hätte, muss offenbleiben. In Giffeys Fall hätte eine vorherige Überprüfung der Kontaktdaten durch die ukrainische Botschaft den Betrüger/innen sicherlich ihr Vorgehen erschwert. Im Fall Volkovs erscheint dies hingegen wenig realistisch – handelt es sich doch um einen Mitarbeiter des wohl international bekanntesten Putin-Gegners Alexei Nawalny, sodass eine Verifikation über offizielle Staatskanäle eher unpassend erscheint. Wie also soll man sich gegen Hochstapler im Videotelefonat wappnen?

Medienkompetenz ist ein vielgenutztes Schlagwort, das in der öffentlichen Diskussion um Vorfälle wie die zuvor skizzierten zuverlässig genannt wird. Den eigenen Augen nicht zu trauen und die vermeintliche Gewissheit visuell verfügbarer Informationen kritisch zu hinterfragen, ist eine zentrale Aufgabe für Mediennutzende wie auch für Medienschaffende (Pawelec/Bieß 2021, S. 186). Positive Beispiele einer bildersensiblen Berichterstattung im Kontext des russischen Angriffskrieges auf die Ukraine illustrieren dies, etwa als die Behauptung, die Leichen der Zivilisten in Butscha seien lebende Komparsen gewesen, detailliert aufgegriffen und falsifiziert wurde. Nötig ist es zudem, das Wissen um digitale Manipulationen sowie um die Anwendungsmöglichkeiten maschinellen Lernens leichter zugänglich zu machen: Was kann KI? Was wird KI in absehbarer Zeit können und was eher nicht? Auch technische Lösungen stehen im Raum, die eine automatische Detektion von manipuliertem Bildmaterial versprechen. Inwiefern solche Detektionswerkzeuge im technischen Wettbewerb mit den Fälschungs- bzw. Manipulationsmöglichkeiten werden mithalten können, bleibt abzuwarten. Die technischen Fortschritte machen Manipulationswerkzeuge leichter zugänglich und bedienbar, wie Spaßanwendungen (wie Avatarify) illustrieren, mit denen sich die Nutzer/innen im Videotelefonat in Bekanntheiten wie Albert Einstein oder Bill Gates verwandeln können. Fest steht, dass mit der wachsenden Bedeutung von Bildern in der Alltagskultur (nicht zuletzt bedingt durch den technologischen Fortschritt hin zum digitalen Bild und den damit einhergehenden Medienwandel) neue Herausforderungen für die Rezeption (digitaler) Bilder entstehen, um kompetent zwischen Realität, Deepfake und Köpenickiade unterscheiden zu können. Die neu beauftragte TAB-Untersuchung zu Deepfakes schließt an diese Problematik an und soll im Rahmen einer Kurzstudie einen konzentrierten Überblick über den bisherigen Stand der technologischen Entwicklung und der gesellschaftlichen und rechtlichen Umgangsweisen geben.

Dieser wie andere Beiträge zu "Themen im Kontext" spiegelt die Meinung der Autor/innen und weder notwendigerweise noch ausschließlich die Meinung des TAB wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Projekten für den Deutschen Bundestag kontaktieren Sie bitte die Autor/innen oder info∂tab-beim-bundestag.de.