Daten in der KI – geht das auch anonym, Melle?

Melle steht kurz vor dem Masterabschluss in Informatik und möchte nicht mit Bild und vollem Namen im Artikel erscheinen. Wir haben uns darauf geeinigt und bleiben im Gespräch auch beim Du, aufgrund unserer längeren Bekanntschaft. Mit Melle sprach ich im Rahmen meiner Interviewreihe auf dem wunderschönen Wagenplatz karlhelga über das große Thema Künstliche Intelligenz und die damit verbundenen Fragen.

Du arbeitest in der KI-Forschung, neben Deinem Studium. Erzähl uns doch etwas darüber.

Genau, ich studiere noch Informatik, bin gerade noch in meinem Master und arbeite in der KI-Forschung. Ich bin Research Assistant und arbeite mit synthetischen Daten. Das geht in Richtung Datenschutz mithilfe von KI. Wie kann man reale Daten in synthetische Daten umwandeln, sodass sie möglichst gut anonymisiert sind? Das ist mein Arbeitsgebiet.

Viele Menschen haben große Bedenken bei der KI, weil personenbezogene Daten im Gesundheitswesen, in Sicherheitsbereichen und anderen verwendet werden sollen. Man will eigentlich eine Anonymisierung, keine Pseudonymisierung. Wie erreicht man das am besten?

Ich würde sagen, auch weil ich natürlich daran forsche, dass synthetische Daten auf jeden Fall ein sehr guter Ansatz sind, um diese Ziele zu erreichen. Eine Anonymisierung von realen Datensätzen ist eigentlich per se nicht möglich, weil ich durch die Verknüpfung mit anderen Datensätzen oder anderen Informationen immer wieder Rückschlüsse auf die Originaldaten und somit die sensiblen Informationen über Einzelpersonen ziehen kann.

Bleiben wir jetzt mal im Krankenhausbereich. Wenn wir da sensible Daten haben, dann sind die natürlich auch immer personenbezogen. Und da reicht es nicht, wenn ich den Namen schwärze oder wenn ich das Geburtsdatum auf eine Art und Weise unkenntlich mache. Ich kann dann trotzdem über andere Daten, wie zum Beispiel den Beruf der Person oder den ungefähren Todeszeitraum, herausfinden, um welche Person es sich handelt.

Was man aber trotzdem möchte, ist diese Informationen auswerten und für die Forschung nutzen, dafür muss man sie aber weitergeben. Da kommen synthetische Datensätze ins Spiel. Da ist das Ziel, mithilfe von KI-Algorithmen diese realen Daten zu nehmen und dann synthetische Daten zu erschaffen, die im besten Fall alle Informationen aus den Originaldaten enthalten, aber ohne explizite Angaben zu Einzelpersonen aus dem Originaldatensatz zu kopieren.

Bei normaler Anonymisierung schwärze ich den Namen, ich sage statt geboren am, im Alter zwischen 60 und 65 und anstatt Beruf Schmied sage ich, er arbeitet in der Metallverarbeitung. Was aber bedeutet: Wenn ich weiß, er war in einer bestimmten Zeit in dem und dem Krankenhaus, kann ich Rückschlüsse ziehen, wer es war.

Genau. Wenn ich da andere Datensätze habe, die dann die gleichen Personen beinhalten, dann kann ich das matchen und dann kann ich das Ganze deanonymisieren. Theoretisch ist es nicht möglich, personenbezogene Daten zuverlässig zu anonymisieren mit dieser, sage ich mal, veralteten Methode. Außerdem gehen bei dem Verwischen von Zeiträumen oder dem Schwärzen von ganzen Spalten Informationen verloren, die wiederum relevant sein könnten für Anwendungen oder Forschung.

Die synthetischen Daten betreffend: Könnte dieselbe KI, die sie anonymisiert hat, sie auch wieder deanonymisieren? Wenn ich sage, guck mal der Datensatz, den Du mir jetzt ausgegeben hast, welcher war das im Original?

Das kann sie nicht, die funktioniert nur in eine Richtung. Jedenfalls die, an der ich forsche. Ich kann jetzt nicht für alle Systeme, in allen Bereichen der synthetischen Daten sprechen. Aber, was wir heutzutage haben, ist ja eher narrow intelligence, also KI Modelle, deren Aufgabe auf einen bestimmten Bereich beschränkt ist. Es wäre wieder ein anderer Bereich, etwas zu deanonymisieren, das wären dann Attacken auf diese anonymisierten Daten.

Und dafür müsste man wieder andere Sachen programmieren, die dann diese Aufgabe vollführen können. Meine Modelle funktionieren so: Ich gebe einen Datensatz ein, ich anonymisiere ihn bis zu einem gewissen Grad. Wir arbeiten gerade daran, dass diese Anonymisierung immer besser und verlässlicher wird. Den synthetischen Datensatz, kann ich dann auswerten, wie ähnlich ist er dem Originaldatensatz, wie viele Informationen sind da noch darin enthalten und wie gut ist die Anonymisierung.

Und da will man natürlich möglichst hohe Werte erreichen, sodass man dann diese Datensätze, zum Beispiel in der Forschung oder in anderen Bereichen, nutzen kann.

Aktuell wurde der europäische Gesundheitsdatenraum beschlossen, wo viele sagen: Ich bin dafür, dass meine Daten für Forschungszwecke genutzt werden, aber ich möchte nicht, dass andere (zum Beispiel Arbeitgeber oder Versicherungen) Zugriff haben. Die dürfen nicht alles über meinen Gesundheitszustand wissen. Was auch interessant ist: Werden Daten bei der Verarbeitung durch KI unterschiedlich gewichtet, oder sind die alle gleichwertig? Da geht es etwas weg vom Thema Anonymisierung. Ich denke an KI für Propaganda und ähnliches.

Puh, also ich würde sagen, das kommt ganz auf das Modell an. Das kann ich schwer beantworten, weil das wie bei jeder Zeitung oder wie bei jedem Fernsehprogramm ist, da stecken Menschen dahinter, die das Ganze programmieren und die Daten labeln, also die Trainingsdatensätze erstellen. Die geben natürlich auch ihre bestimmten Vorgaben mit in das Modell. Ich kümmere mich zum Beispiel eher um die Algorithmen, ich forsche daran, die Trainingsalgorithmen von Modellen zu verbessern und bin nicht so sehr für andere Bereiche wie z.B. die Trainingsdaten zuständig.

Man kann sich das vorstellen wie eine Art Fließband, da gibt es ganz viele unterschiedliche Stellen, die unterschiedliche Personen beeinflussen können. Und je nachdem, wie man diese Stellschrauben dreht, umso mehr Einfluss haben bestimmte Sachen aus dem Datensatz. Es gibt die Leute, die sich um die Daten kümmern, um die Algorithmen und so weiter.

Und an jeder Station können Menschen natürlich ihren Input mit reingeben, was letztendlich dann irgendwie das Gesamtergebnis beeinflusst. Ja, ich weiß nicht, ob ich jetzt so um Deine Frage technisch drumherum gesprochen habe, weil es wirklich schwierig ist, das konkret zu beantworten.

Die meisten Menschen denken bei KI wahrscheinlich an ChatGPT. Das ist halt einfach das bekannteste Modell gerade und das, was wahrscheinlich von den meisten Leuten schon mal direkt benutzt wurde. ChatGPT ist natürlich nochmal eine ganz andere Sache und eine ganz andere Anwendung als die, die ich programmiere.

Und ja, auch dort spielen dann ganz viele unterschiedliche Sachen mit rein. Da haben die Trainingsdaten natürlich einen großen Anteil, die Funktion des Algorithmus und dann auch das Systemprompting, das heißt welche Grundanweisungen gebe ich dem Modell vor. Und damit kann man dann natürlich das Ergebnis beeinflussen, wenn man sich einen ChatGPT-Klon programmiert und dann bestimmte Systemprompts nutzt, dann kann man das Ganze natürlich auch missbrauchen und dafür sorgen, dass nur Propaganda im Model entsteht.

epaper — Cover Leipziger Zeitung Nr. 124, VÖ 03.05.2024. Foto: LZ

Anonymisierung ist ja Dein Thema, die Verhinderung von Deanonymisierung hängt ja damit sehr stark zusammen. Nach meinem Verständnis von Chiffrierung, was ich tatsächlich mal gelernt habe, ist es ja so: Um etwas zu dechiffrieren, braucht man den Schlüssel. Wäre es denn theoretisch möglich, mit dem Wissen über die Algorithmen, mit denen Daten synthetisiert wurden, das rückgängig zu machen?

Das ist eigentlich sehr cool, dass Du das so ansprichst, weil das genau der Knackpunkt ist. Das geht bei der Anonymisierung mithilfe von KI, von meinem Wissensstand her, eher nicht. Aber wahrscheinlich gibt es da Leute, die mir widersprechen würden, die genau an diesen Attacken darauf forschen. Ganz einfach heruntergebrochen ist der Vorteil von Anonymisierung mithilfe von KI, dass ich den Algorithmus nicht wie klassische Algorithmen einfach umdrehen kann.

Das ist ganz anders, als wenn ich nach einem bestimmten Muster und nach einer bestimmten Vorgabe, also linearem Vorgehen einen Datensatz anonymisiere. Da kann ich einfach die Umkehrfunktion nutzen und kann aus den anonymisierten Daten, wieder die Ursprungsdaten machen.

Der Schlüssel wäre dann dieser lineare Algorithmus, eine klassische Programmierung. Jetzt habe ich aber keinen linearen Algorithmus, sondern ich habe ein KI-Modell. Wenn man in der klassischen Kryptographie bleibt, kann man sich das so vorstellen, dass man Zufallsfaktoren mit reinbringt. Das ist jetzt allerdings sehr stark vereinfacht dargestellt.

Was man dazu auch sagen muss, dass es trotzdem passieren kann, dass am Ende in den durch KI anonymisierten Daten Informationen aus den Originaldaten reinkopiert wurden, die wieder Rückschluss auf Personen zulassen. Das ist gerade noch Teil der Forschung, es so hinzubekommen, dass genau das nicht passiert.

Es sollen Personen erschaffen werden, die mit großer Wahrscheinlichkeit dann auch in diesem künstlichen Datensatz vorkommen könnten, aber nichts mehr mit irgendwelchen Personen aus den Ursprungsdaten gemein haben. Also so muss man sich das vorstellen. Da sind wir noch nicht angekommen, aber es sieht schon sehr vielversprechend aus.

Es bleibt ein spannendes Thema. Ein Blick in die Glaskugel, wahrscheinlich kannst Du da auch nur schätzen: Wie sind denn die Chancen wirklich, eine richtige Anonymisierung von Daten zu erreichen?

Ich sage mal so, die Forschung ist noch im Gange. Das heißt, es zeichnet sich jetzt schon ab, dass diese KI-Anonymisierung der klassischen Anonymisierung überlegen ist, zumindest theoretisch. Wir wollen, dass zum Beispiel sensible Krankenhausdaten für die Forschung geteilt werden können, weil es wichtig ist, dass Forschende möglichst guten Zugang zu möglichst hoher Datenqualität bekommen.

Und gleichzeitig haben wir auf der anderen Seite wieder diese Gefahr, dass diese personenbezogenen Daten dann ausgenutzt werden. Ich sage mal so, ich würde nicht in dem Bereich forschen, wenn ich da kein großes Potenzial sehen würde, dass man damit diese Lücke schließen kann.

Und ich glaube, dass es gerade in Europa sehr, sehr wichtig ist, sich auf synthetische Daten zu konzentrieren, weil wir zum Glück strenge Datenschutzgesetze haben. Das ist aber auch ein Wettbewerbsnachteil und auch ein Forschungsnachteil, weil Forschende in den USA zum Beispiel wesentlich leichter an personenbezogene Krankenhausdaten kommen als Forschende hier in Europa.

Das ist natürlich etwas, was wir nicht wollen. Einen Gleichstand der Voraussetzungen in der Forschung, mit höheren Standards und ohne personenbezogene Daten, brauchen wir aber. Es sollte ein wichtiger Teil der Forschung sein, sich um Datensicherheit zu kümmern. Weil man nur so Vertrauen aufbauen kann und letztendlich soll ja Forschung, jedenfalls nach meinem Verständnis, immer zu einer Verbesserung und zu etwas Gutem führen.

Nehmen wir das als Schlusswort! Melle ich danke Dir für das Gespräch.

„Daten in der KI – geht das auch anonym, Melle?“ erschien erstmals im am 03.05.2024 fertiggestellten ePaper LZ 124 der LEIPZIGER ZEITUNG.

Sie wollen zukünftig einmal im Monat unser neues ePaper erhalten? Hier können Sie es buchen.