Das Thema Deepfakes bewegt Menschen, von besorgten Eltern, ihren Kindern, Prominenten bis hin in die Politik. Ob Nacktbilder von Mitschülerinnen und Mitschülern, Politikerinnen und Politiker, denen Falschaussagen in den Mund gelegt werden oder andere Verfälschungen von Bildern und Videos: Die Möglichkeiten sind geradezu unbegrenzt und die Werkzeuge zur Erstellung sind im Web einfach zu finden. Was tun? Wir haben uns dazu mit Johannes Wobus unterhalten.
Johannes Wobus ist Mitinhaber der Firma Wobus & Wächter, einem Service-Unternehmen für Datenanalysen und hielt beim OTMR-Barcamp eine Session zum Thema „Geopolitische Leaks & Datenanalyse“. Dabei führte er Methoden der Erkennung von Deepfake Bildern und Videos vor. Grund genug, ihn um ein Gespräch zu diesem Thema zu bitten, am 10. Mai trafen wir uns. Beim OTMR-Barcamp waren wir bereits zum Du übergegangen und vereinbarten, auch das Gespräch in dieser Form zu führen.
Hallo und danke für deine Zeit, Johannes, fangen wir gleich an. Das Thema ist: Können wir unseren Augen und Ohren noch trauen?
Johannes Wobus: Nein!
Okay, was kann man machen? Oder erst mal die Frage: Was sind Deepfakes? Ich meine, es sind Videos, Audios und Bilder, die durchaus auch KI-generiert sind und falsche Aussagen treffen. Kann man das so sagen?
Das ist richtig, das nennen wir im Allgemeinen Deepfakes.
Nun sagen ja viele: Man kann die nicht mehr erkennen, du sagst aber man kann es. Wie bist Du dazu gekommen?
Man kann das definitiv sogar sehr gut unterscheiden, dazu eine kleine Geschichte. Ich bin in das Deepfake-Thema Anfang 2024 eingestiegen, als ein sehr guter Freund mich eines Tages anrief, mit dieser Taylor Swift Revenge PornStory. Wir haben lange geredet und er war sehr aufgeregt. Da habe ich ihm im Gespräch gesagt: Du kannst deine Klienten im Bereich Deepfake-Abwehr, Deepfake-Erkennung nur dann beraten und auch sinnvoll absichern, wenn du genau verstehst, wie man ein Deepfake baut.
Das war damals mein Einstieg. Was habe ich gemacht? Ich habe mir eine Deepfake-Generierungs-Software besorgt, alles an Datenmodellen gesaugt und ein bisschen experimentiert mit Prompt-Engineering. Ein Prompt wäre zum Beispiel „Instagram-Foto, 30 Jahre alte Frau, Französin, sitzt im Café, Komma, Heart Shadows, Komma, Film Quaint“, das ist ein klassischer Prompt. Und dann drückst du auf den Knopf und hast wenige Stunden später 500, 600 Deepfakes mit völlig verschiedenen Personen.
Da wusste ich immer noch nicht so richtig, was das ist. Ich habe zwei Computer, auf der linken Seite mein Laptop, der das Zeug macht und frontal ein großer Arbeitsdesktop. Dann habe ich mir eine kleine Applikation gebaut, die sämtliche einfach per Slideshow einzieht, damit ich ein Gefühl dafür bekomme. Und da dachte ich beim Überfliegen der generierten Deepfakes: Ja, das ist gut, das gefällt mir, es ist sehr fotorealistisch in verschiedenen Qualitätsabstufungen. Aber da stimmt etwas nicht, da passt etwas nicht.
Dann habe ich Caroline etwas davon geschickt und diversen männlichen Kumpels. Im Kontext dieser Revenge-Porn-Geschichte um Taylor Swift habe ich mir natürlich klassische Akt Deepfakes gebaut. Irgendwie gefiel Caroline da etwas nicht, sie hat mich darauf gebracht, auf die Augen zu schauen. Und das war der Trick. Da muss man sich überlegen: Wie kann man das algorithmisch programmieren, wie kann man das in einen Algorithmus reinpressen und ein Tool bauen, in welches du dann jedes Bild rein gibst und dann zeigt es an: Mit Wahrscheinlichkeit ist das ein Deepfake.
Dazu brauchst du irrsinnig viele Deepfakes, ich sitze auf ungefähr 150.000. Ich achtete bei der Generierung auf völlig verschiedene Qualitäten, völlig verschiedene Trainingsdatenrechnung. Wie ich das euch bei der OTMR grob gezeigt habe, ist der Trick im Prinzip ganz einfach. Du baust dir einen Algorithmus, der die Augen ausschneidet und die Augen in eine Trainingsdatenbank hinein schmeißt.
Und du hast eine eigene KI, die in der Lage ist folgende Sachen zu checken: Die Gestaltung der Iris, die Gestaltung der Pupille, und zwar pro Auge, also die Pupille muss immer so sein, nicht so. Das ist zum Beispiel ein Augensignal für Deepfake. Oder wenn du hier zum Beispiel siehst, dass die Farbe und die Gestaltung der Iris, pro Auge völlig verschieden ist, das ist auch ein Marker. Oder die Klassiker sind auch eine deformierte Iris oder deformierte Pupillen.
Du meinst damit, wenn die Pupillen oval sind, nicht rund?
Genau, deswegen hatte ich neulich eine sehr schöne Debatte mit anderen Profis. Die haben gefragt: Johannes, was machst du, wenn die KI so weit ist, dass du eine perfekt runde Iris und runde Pupillen hast? Das interessiert mich nicht, du kannst immer noch über den Marker der Irisgestaltung gehen. Ganz einfach, die Irisgestaltung ist immer unique je Person. Die ist einzigartig, was mache ich dann, wenn ich ein Deepfake prüfe? Wenn die Irisgestaltung in der Datenbank schon einmal vorkommt, habe ich ein Signal für Deepfake.
Also du kannst dann gerade bei Promis, oder auch bei jemandem den du kennst, ein Originalbild mit der Originaliris, mit dem Deepfake vergleichen. Und wenn die voneinander abweichen, dann kann das Gesicht noch so stimmen, dann ist es trotzdem ein Deepfake?
Korrekt, gerade in dem geometrischen Marker, genannt Auge, hast du einen unglaublich guten Ansatzpunkt. Und selbst wenn das nicht mehr funktioniert, gehst du über weitere Marker in Verbindung mit dem Auge. Zum Beispiel die Lippenhaut, die ist auch immer unique.
Die ist praktisch wie ein Fingerabdruck. Wenn die Lippen also komplett glatt sind, dann ist entweder eine sehr gute Schminke oder ein Deepfake.
Korrekt. Ganz genau so schaut es aus.
Jetzt ist das ja die eine Sache, wenn du das als Profi machst. Ein Amateur, beispielsweise ein Schüler, der ein Bild von der Klassenkameradin in verfänglicher Pose bekommt, was kann der tun? Können er oder Eltern und Lehrer sich wirklich nur auf das Gefühl verlassen und sagen: „Schau mir in die Augen Kleines“?
Ja, ich denke tatsächlich an andere Szenarien. Stell dir Folgendes vor: Du bist CEO einer mittelständischen Firma und bekommst eine Kontaktanfrage auf LinkedIn mit einer sehr gut aussehenden Dame. Ich meine nicht im Bereich der Erotik, sondern äußerst gut aussehend und eine klassische Anfrage. Du hast das Gefühl, da stimmt etwas nicht. Ich sage den Leuten immer: Foto groß machen, die Augen suchen. Genau.
Du hast uns bei OTMR noch etwas gezeigt, das sah aus wie ein Wärmebild. Was war das?
Genau, das Verfahren nennt sich optische Flussanalyse. Du musst dir das auch immer vorstellen, eigentlich bin ich damals rein in die Recherche, ohne davon überhaupt eine Ahnung zu haben. Ich wollte es aber wissen. Und da recherchiert man so ein bisschen herum und es gibt mehrere Verfahren, die Fraktalanalyse oder die Pixelrauschenanalyse zum Beispiel.
Das hat mich alles nicht wirklich begeistert, das war so eine Nerd-IT-Gefühlsgeschichte. Da kam mir die Idee, jedes einzelne Pixel auf dem Frame anzusehen. Ein Pixel bewegt sich ja. Ich mache jetzt ein organisches Video von dir und du machst so eine Grimasse, also bewegt sich deine Nasenspitze.
Wenn ich jetzt aber dein komplettes Gesicht austausche oder nur einen Teil austausche, passiert Folgendes, was das menschliche Auge gar nicht mitbekommt: Für das Auge ist das real und safe, aber du hast in dem Video die minimalen Zuckungen in den Pixeln, die niemals in den Kontext des Hintergrundes passen. Damit habe ich das visualisiert. Wärmebild ist übrigens eine sehr schöne Umschreibung.
Das Wärmebild kennen fast alle, deshalb habe ich es als Vergleich gewählt.
Genau, ich glaube, ich hatte noch ein Beispiel gezeigt, diese Nuklearexplosion?
Nein, du hast erst mal das von Prinzessin Kate auf der Parkbank gezeigt.
Korrekt, da hat man ja gesehen, dass der ganze Hintergrund statisch war. Das war das Erste, was mich vorgewarnt hatte. Damit kann man das im Prinzip visualisieren.
Das zweite Video, das ich gezeigt habe, war ja diese mutmaßliche Nuklearexplosion. Da sieht man in dieser Flussanalyse (du hast ja ein Video im Vordergrund, im Mittelgrund und im Hintergrund), dass der Vordergrund sich immer schneller als der Hintergrund bewegt. Pure Logik. Und die Schnelligkeit der Pixelbewegung, das habe ich euch ja erklärt, zeigt sich in der Farbe. Das habe ich hingekriegt im Video, das noch mal zur Visualisierung.
Da erinnerst du dich ja noch, dass die Farbe von Vordergrund, Mittelgrund und Hintergrund ungefähr gleich war. Also passte da was nicht. Im Moment sind die tatsächlich an einem Algorithmus, der das, was du da siehst, was man auch so begreifen kann, automatisch sagt: Deepfake, Deepfake, Deepfake, kein Deepfake. Das ist tatsächlich noch mit äußerst viel Aufwand verbunden.
Es gibt ja nun schon viele Programme, mit denen Amateure Deepfakes kreieren können, meinst du, dass es bald eine kommerzielle Software geben wird, mit der man Deepfakes erkennen kann?
Unwahrscheinlich, äußerst unwahrscheinlich. Deswegen denke ich ja auch darüber nach, meine Skripte und meine kompletten Trainingsdaten auf Open Source Basis herauszugeben.
Im militärischen Kontext gibt es den Spruch: Im Wettkampf zwischen Panzer und Geschoss gewinnt am Ende, in der Entwicklung, immer das Geschoss. Wir haben bei den Deepfakes noch gar keinen Panzer, nur Geschosse. Die Frage ist: Wer entwickelt jetzt mal einen Panzer?
Da gibt es gerade eine sehr interessante Entwicklung, bei den Russen. Das System nennt sich Oculus. Da sind teilweise sehr weit fortgeschrittene Deepfake-Erkennungsalgorithmen drin. Ist mir mal aufgefallen.
Okay, aber das ist ja nicht frei zugänglich, nehme ich an.
Natürlich nicht, das ist eben das Problem, du hast keine Budgets. Auch bei staatlichen Akteuren fehlt das Problembewusstsein, dass man da was machen sollte.
Es fehlt also der politische Wille? Es wird jetzt wieder über IP-Vorratsdatenspeicherung, Chat-Kontrolle und so weiter geredet, alle regen sich über diese Deepfakes auf, aber niemand tut wirklich etwas.
Deswegen habe ich auch den Anwälten bei der OTMR den dringenden Ratschlag gegeben, sie sind ja Rechtspflegeorgane und haben gewisse Möglichkeiten, zu den Plattformen zu gehen und zu sagen: Wie macht ihr das eigentlich? Also ich unterstelle als Johannes Wobus, dass Plattformen wie LinkedIn oder Meta natürlich Fachabteilungen haben, die sich mit so etwas beschäftigen.
Die will ich gerne sehen, ich möchte die Algorithmen sehen, ich möchte die Konzepte sehen, wo sind die?
Die Plattformen müssten eigentlich – ich erinnere jetzt nur mal dran was auf TikTok passiert – mehr Eigenkontrolle haben und nicht nur sagen: Wenn du mir was meldest, nehme ich es raus. Sie müssten Bilder und Videos filtern und dann sichtbar markieren oder entfernen, wenn es Deepfakes sind.
Also das, was du bei der OTMR bei mir gesehen hast, diese „Wärmebilder“, das Skript sind ungefähr 40 Code-Zeilen. Damit guckt man sich das Ganze an. Es gab dazu auch spannende Diskussionen in meinem Umfeld, privater wie auch beruflicher Natur, darum habe ich das hinbekommen.
Es fehlt irgendwo der Wille. Du hast den Willen als Mensch, als Unternehmer, da etwas zu bauen, warum gibt es nicht diesen Willen bei den Akteuren nicht?
Genau. Darüber müssen wir diskutieren.
Im zweiten Teil des Gesprächs geht es dann um Datenkraken und eine halluzinierende KI.
Keine Kommentare bisher