Datenschutz vs. KI – Wie lassen sich moderne Technologien rechtssicher nutzen?

Künstliche Intelligenz (KI) gewinnt nicht nur im Privatleben an Bedeutung, sondern revolutioniert auch den beruflichen Alltag und bietet Unternehmen dabei zahlreiche Möglichkeiten zur Effizienzsteigerung. Gleichzeitig stehen aber vor allem Unternehmen vor der Herausforderung, innovative Technologien zu nutzen und die strengen Datenschutzvorgaben der Datenschutzgrundverordnung (DSGVO) einzuhalten. Besonders beliebt sind Large Language Models (LLMs) von Anbietern wie OpenAI (z. B. ChatGPT), Google (z. B. Gemini) oder Meta (z. B. Llama). Doch wie datenschutzkonform ist ihr Einsatz wirklich?

LLMs erfassen Daten auf mehreren Wegen: Einerseits in Form von Trainingsdaten, andererseits durch direkte Eingaben der Nutzenden, bei denen bewusste Angaben wie Namen, Adressen oder geschäftsbezogene Informationen gemacht werden oder indirekt, durch die Analyse von Kontextdaten, wie Standortinformationen, Berufsbezeichnungen oder Muster in der Kommunikation, um indirekte Rückschlüsse auf den Nutzer zu ziehen. Diese Daten stellen häufig besonders geschützte sog. Personenbezogene Daten dar. Personenbezogene Daten sind Daten, die einer Person zugeordnet werden oder zugeordnet werden können.

Die Erfassung personenbezogener Daten durch LLMs stellt sich dabei aus verschiedenen Gründen als erhebliche datenschutzrechtliche Herausforderungen dar. Ohne eine gültige Rechtsgrundlage gemäß Art. 6 (1) DSGVO, wie eine ausdrückliche Einwilligung oder eine vertragliche Notwendigkeit, ist die Verarbeitung unzulässig. Besonders kritisch ist daher die Eingabe von Drittdaten, da betroffene Personen regelmäßig nicht über die Verarbeitung informiert sind. Zudem speichern und verarbeiten Anbieter diese Daten zur Modelloptimierung, was ohne Transparenz über deren Nutzung gegen das Transparenzgebot nach Art. 5 (1) (a) DSGVO verstößt.

Auch ist zu beachten, dass Anbieter wie OpenAI, Google, Microsoft oder – aktuell insbesondere – der chinesische Konkurrent DeepSeek R1 den nationalen Gesetzen ihrer Sitzländer unterliegen. Nicht nur, dass die Möglichkeit besteht, dass Daten auf Server außerhalb der EU übertragen und gespeichert werden, auch sehen der US CLOUD Act oder das chinesische Datensicherheitsgesetz (DSL) weitreichende Zugriffsrechte für staatliche Stellen vor. Diese verpflichten Unternehmen, auf behördliche Anfragen Zugriff auf gespeicherte Daten zu gewähren – zum Teil auch unabhängig vom physischen Standort der Server. Dabei stehen diese Regelungen im Konflikt mit den Art. 44 ff. DSGVO, die eine Datenübermittlung nur unter strengen Bedingungen erlauben. Insbesondere ist nach Art. 44 DSGVO ein angemessenes Datenschutzniveau sicherzustellen. An einem Angemessenheitsbeschluss der EU-Kommission für die USA oder China fehlt es bisher jedoch, ebenso wie an „geeigneten Garantien“ i. S. d. Art. 46 (1) DSGVO, dass das europäische Datenschutzniveau gewahrt werden kann.

Für eine DSGVO-konforme Nutzung von LLM’s sollten Unternehmen daher folgende Punkte beachten:

  • Datensparsamkeit sicherstellen: Sensible und personenbezogene Daten sollten nur in zwingenden Fällen eingeben werden. Stattdessen sollten Pseudonymisierungs- und Anonymisierungstechniken gemäß Art. 25 DSGVO angewendet werden.
  • Geeignete Anbieter wählen: Es sollten LLM-Dienstleister mit nachweislich DSGVO-konformen Prozessen gewählt und ein Auftragsverarbeitungsvertrag (AVV) gemäß Art. 28 DSGVO abgeschlossen werden, um eine datenschutzkonforme Verarbeitung sicherzustellen.
  • Technische Sicherheitsmaßnahmen umsetzen: Daten sollten vor der Übertragung verschlüsselt und ausschließlich über sichere Netzwerke kommuniziert werden, um den Zugriff Unbefugter zu verhindern.
  • Mitarbeiter sensibilisieren und Prozesse überwachen: Es sollten regelmäßige Schulungen zur Sensibilisierung für Datenschutzrisiken durchgeführt und durch kontinuierliche Audits sichergestellt werden, dass alle Maßnahmen den gesetzlichen Anforderungen entsprechen.
  • Lokale Hosting-Optionen nutzen: Open-Source-Modelle wie Llama 2, Mistral 7B, Falcon 40B oder GPT-J ermöglichen eine Verarbeitung auf eigenen Servern und gewährleisten somit größtmögliche Datenkontrolle.
  • Vermeidung cloud-basierter LLMs mit externen Datenübertragungen: Modelle wie GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) oder DeepSeek R1 (DeepSeek) sollten nur mit Vorsicht eingesetzt werden, da Nutzerdaten an externe Server übertragen werden.
  • Europäische Anbieter bevorzugen: Unternehmen wie Aleph Alpha oder IBM watsonx bieten DSGVO-konforme Hosting-Optionen mit On-Premises-Lösungen an.