Die deutsche Datenschutzkonferenz (DSK) hat eine neue Orientierungshilfe zu KI-Systemen veröffentlicht, die „Retrieval-Augmented Generation“ (RAG) nutzen. Im Zentrum steht die Frage, wie sich ein RAG-System auf den datenschutzkonformen Einsatz eines generativen KI-Systems auswirken kann.
Das Wichtigste auf einen Blick
- Die DSK sieht RAG als eine Methode, die „positive Effekte“ auf die DSGVO-Konformität von KI haben kann. Es wird als eine mögliche „risikomindernde Maßnahme“ anerkannt.
- Ein Hauptproblem von KI sind „Halluzinationen“ (falsche Ausgaben). RAG kann dieses Risiko verringern, da die KI „gezwungen“ wird, ihre Antworten auf vorgegebene Referenzdokumente zu stützen. Ein Restrisiko bleibt dennoch bestehen.
- Das Löschen oder Berichtigen von Daten in einem trainierten LLM ist fast unmöglich. Bei RAG können die Daten in der angebundenen Datenbank (z. B. Vektordatenbank) gelöscht oder korrigiert werden, was die Erfüllung wesentlicher Vorgaben aus der DSGVO ermöglicht (z. B. Auskunft, Löschung, Berichtigung).
- Die DSK stellt klar, dass ein rechtswidrig trainiertes KI-Modell auch mit RAG rechtswidrig bleibt. RAG löst nicht die Grundprobleme des LLM-Trainings.
Funktionsweise eines KI-RAG-Systems
Ein RAG-System ist im Grunde eine Art der Spezialisierung von Künstlicher Intelligenz. Statt nur auf ihr antrainiertes Wissen zurückzugreifen, kombiniert die das Large Language Model (LLM) ihre Fähigkeiten mit einer externen Wissensdatenbank die (unternehmensspezifisches) Sonderwissen enthält, das nicht bereits Bestandteil des KI-Trainings war, z. B. Wissen, das Angaben zu unternehmensinternen Richtlinien, Kundendaten oder Projektdokumenten enthält. Zur Minimierung von Halluzinationen, könnte man als Datenquelle dem LLM damit vorgeben, die Antworten ausschließlich aus dem im RAG hinterlegten Informationspool zu beziehen und nicht aus den Trainingsdaten.[1]
Vereinfachter RAG-Prozess:
- Eine Nutzeranfrage (Prompt) kommt herein.
- Das RAG-System sucht zuerst in der Firmendatenbank (z. B. technische Handbücher, HR-Richtlinien, Support-Artikel) nach den relevanten Informationen.
- Dann übergibt es die gefundenen Informationen zusammen mit dem Original-Prompt an die KI, die daraus eine spezifischere Antwort formuliert.[2]
Datenschutzrechtliche Vorteile durch den Einsatz von RAG
RAG kann im Vergleich zu einem alleinstehenden Sprachmodell einige zentrale Datenschutzrisiken mindern:
- Da die Antworten idealerweise auf den bereitgestellten Referenzdokumenten basieren, wird die Gefahr reduziert, dass das KI-System unrichtige personenbezogene Daten (sogenannte Halluzinationen) ausgibt. Da die Antworten eines LLM auf Grund von Wahrscheinlichkeiten berechnet werden, kann jedoch auch bei Einsatz eines RAG nicht vollständig ausgeschlossen werden, dass das LLM unrichtige personenbezogene Daten ausgibt. Außerdem ist zu beachten, dass die Qualität der Antworten jetzt direkt von der Qualität der Referenzdokumente abhängt. Veraltete oder fehlerhafte Dokumente führen zu veralteten oder fehlerhaften KI-Antworten.
- Die in den Referenzdokumenten und der Vektordatenbank gespeicherten Daten sind direkt adressierbar. Im Gegensatz zu den tief im LLM verankerten Trainingsdaten können die Daten gezielt gelöscht, berichtigt oder aktualisiert und Auskunft dazu erteilt werden. Wenn ein Kunde oder Mitarbeiter zum Beispiel die Löschung seiner Daten verlangt, müssen diese dadurch nicht aus dem KI-Modell selbst „herausoperiert“ werden, sondern könnten einfacher im RAG-Datenbestand berichtigt oder aus diesem entfernt werden.
- RAG ermöglicht es unter Umständen, ein LLM im eigenen Unternehmen (on-premise) zu betreiben, das weniger umfangsreiche Trainingsdaten enthält. Im Ergebnis können durch RAG weniger trainierte LLMs verbessert und an die Bedürfnisse des jeweiligen Unternehmens angepasst werden. Dadurch kann außerdem vermieden werden, dass sensible personenbezogene Daten an Online-Betreiber externer Sprachmodelle übertragen werden. Dies kann auch die Verarbeitung von Daten mit höherem Schutzbedarf (wie Art. 9 und 10 DSGVO-Daten) erleichtern oder sogar erst zulässig werden lassen, da diese nicht im LLM verbleiben. Entscheidend ist, dass kein gezieltes Training oder Nachtrainieren des LLM erfolgen darf/ muss, sondern die Daten separat in den Referenzdokumenten gespeichert sind.
Keine Heilung von rechtswidrigen LLMs durch rechtskonforme RAGs
Die DSK stellt klar, dass ein z. B. durch rechtswidriges Web-Scraping, trainiertes LLM durch die Anbindung an ein RAG-System nicht plötzlich rechtmäßig wird. Die datenschutzrechtliche Problematik des Kernmodells bleibt bestehen, da ein RAG-System an den LLM-Eigenschaften selbst keine Änderungen vornimmt, sondern diese lediglich um zusätzlichen Kontext ergänzt.
Neue Risiken durch den Einsatz von RAG
RAG löst alte Probleme, schafft aber neue. Die DSK nennt insbesondere:
- Data Chaining (Datenverkettung) stellt eines der größten neuen Risiken dar. Das LLM könnte personenbezogene Daten aus der RAG-Datenbank (z. B. Name eines Kunden) mit personenbezogenen Daten aus seinem eigenen Trainingswissen (z. B. öffentlich bekannte Infos über diesen Kunden) verketten. Diese neue Verknüpfung kann gegen die für die Verarbeitung von personenbezogenen Daten erforderliche Zweckbindung verstoßen. Das Problematische daran ist, dass eine auf diese Weise durchgeführte Verkettung möglicherweise nicht in der Ausgabe des RAG-Systems erkennbar ist. Es kann dadurch in der Regel nicht oder nur mit größerem Aufwand nachvollzogen werden, ob die internen Daten mit externen Daten des LLM vermischt wurden, was eine Kontrolle der Datenverarbeitung erschwert.
- Obwohl RAG die Transparenz der Quellen erhöhen kann, bleibt die Intransparenz des Verarbeitungsprozesses im LLM selbst bestehen. Es ist weiterhin schwer nachzuvollziehen, wie die Ausgaben des KI-Modells und somit auch des RAG-Systems entstehen. Auch in Bezug auf die gespeicherten Vektoren ist die Transparenz eingeschränkt. Diese sind erforderlich, um die Dokumente durchsuchbar zu machen. Es kann weder nachvollzogen werden, warum den Textabschnitten (Chunks) die entsprechenden Vektoren zugeordnet werden, noch welche genaue Bedeutung diese Vektoren bei der finalen Ausgabe haben.
Beispiel: Ein Embedding wandelt Text in einen Zahlenvektor um, der seine Bedeutung im mehrdimensionalen Raum mathematisch abbildet. Texte mit ähnlichem Inhalt wie: „Der Hund läuft im Park“ und „Ein Hund rennt über die Wiese“ erhalten dabei ähnliche Zahlenmuster, sodass das System diese Inhalte näher beieinander legt und systematisiert. „Heute scheint die Sonne.“ Wäre dagegen weiter entfernt, weil es hier um die Sonne und das Wetter geht. Eine klare Zuordnung im Sinne von: „Diese Zahl steht für das Wort Hund“ oder „jene Zahl steht für laufen“ ist dabei nicht möglich. Das Modell hat diese Zahlen durch statistisches Lernen aus riesigen Mengen von Texten abgeleitet. Es ist nahezu unmöglich nachzuvollziehen oder zu vorherzusagen, warum ein bestimmter Text einem bestimmten Vektor zugeordnet wird, sondern nur, dass ähnliche Texte in ähnliche Vektoren abgeleitet werden.[3] - Die gesamte Datenaufbereitung, die Erstellung der Embeddings und die Speicherung in der Vektordatenbank sind eigene Verarbeitungsschritte, die eine Rechtsgrundlage nach der DSGVO benötigen.
Konkrete Umsetzungsschritte beim RAG-Einsatz anhand der DSK-Vorgaben
- Der RAG-Einsatz muss für jeden einzelnen spezifischen Anwendungsfall bewertet werden. Eine Pauschalfreigabe gibt es nicht.
- Der Einsatz eines RAG-Systems erfordert eine Rechtsgrundlage, da unter anderem personenbezogene Daten aus den Referenzdokumenten wegen der Embeddings verarbeitet und in einer Vektordatenbank gespeichert werden.
- Es muss sichergestellt werden, dass die Referenzdokumente aktuell, richtig und vollständig sind. Personenbezogene Daten, die für den Zweck nicht erforderlich sind, müssen entfernt werden (Datenminimierung, Art. 5 Abs. 1 lit. c DSGVO).
- Die Rechtmäßigkeit des (eigenen) LLM-Trainings muss geprüft werden. Modelle, die on-premise betrieben werden, bei denen die Kontrolle über die Daten bei den Unternehmen liegt, sollten bevorzugt werden.
- Es sollten strikte Zugriffs- und Rollenkonzepte für die Vektordatenbank implementiert werden. Außerdem sollten System-Prompts verwendet werden, die die KI anweisen, ausschließlich die bereitgestellten RAG-Quellen zu nutzen.
- Das Risiko der „Datenverkettung“ sollte geprüft und dokumentiert werden, insbesondere sollte dokumentiert werden, welche Maßnahmen dagegen ergriffen werden.
[1] Siehe auch „Retrieval-Augmented Generation (RAG)“ im infobrief-ki-und-digitalisierung-zur-zukunft-des-rechts (abrufbar unter: https://www.anwaltverlag.de/rechtsgebiete/rechtsgebiete-von-a-bis-z/berufsrecht/3268/infobrief-ki-und-digitalisierung-zur-zukunft-des-rechts)
[2] Ausführlicher: Reuter in „Generative KI in der Rechtsberatung“, Rn. 215ff.
[3] Ausführlicher: Reuter in „Generative KI in der Rechtsberatung“, Rn. 218f.