
Datenschutz
im
KI-Länd.
Datenschutz
im
KI-Länd.
von
Die Nutzung von Künstlicher Intelligenz wirft viele Datenschutzfragen auf. Der Landesbeauftragte für Datenschutz Baden-Württemberg hat jetzt eine neue Fassung eines umfassendes Diskussionspapier vorgelegt, das Unternehmen und Behörden praktische Orientierung biete soll. Wir fassen die wichtigsten Erkenntnisse, wie Sie KI datenschutzkonform einsetzen können, zusammen.
Warum dieses Diskussionspapier interessant ist für jeden, der KI nutzt
Ob Chatbots im Kundenservice, automatisierte Personalauswahl oder intelligente Assistenzsysteme – Künstliche Intelligenz ist längst im Geschäftsalltag angekommen. Doch viele Unternehmen sind unsicher: Dürfen wir Kundendaten zum Training unserer KI nutzen? Welche Rechtsgrundlage brauchen wir? Was ist mit personenbezogenen Daten aus dem Internet?
Das neue Diskussionspapier des Landesbeauftragten für den Datenschutz und die Informationsfreiheit Baden-Württemberg, Prof. Dr. Tobias Keber, gibt Antworten auf diese brennenden Fragen. Es versteht sich bewusst als „lebendes Dokument“, das den aktuellen Stand der Diskussion abbildet. Das Motto: „Daten nützen – Daten schützen“. Innovation und Datenschutz sollen Hand in Hand gehen.
Die zentrale Frage: Verarbeitet mein KI-System personenbezogene Daten?
Bevor Sie überhaupt über Rechtsgrundlagen nachdenken, müssen Sie klären: Verarbeitet Ihr KI-System personenbezogene Daten? Die Antwort ist oft komplizierter als gedacht.
Personenbezogene Daten sind alle Informationen über identifizierbare Personen. Das können Namen, E-Mail-Adressen, aber auch IP-Adressen oder Standortdaten sein. Bei KI-Systemen wird es besonders knifflig: Selbst wenn ein KI-Modell keine Daten direkt speichert, können durch geschickte Anfragen oder Angriffe möglicherweise Rückschlüsse auf Personen gezogen werden.
Das Diskussionspapier betont: Sie müssen regelmäßig prüfen, ob jemand aus Ihrem KI-System personenbezogene Informationen ableiten kann. Technische Angriffe wie „Model Attacks“ können versuchen, Trainingsdaten zu rekonstruieren. Was heute technisch unmöglich scheint, könnte morgen machbar sein.
Besonders wichtig für die Praxis:
- Große Sprachmodelle (LLMs): Umstritten ist, ob trainierte Modelle selbst personenbezogene Daten enthalten. Sicher ist: Wenn Nutzer durch bestimmte Eingaben personenbezogene Informationen als Ausgabe erhalten können, liegt eine Datenverarbeitung vor.
- Trainingsdaten: Auch wenn diese nach dem Training „nur noch“ im Modell verarbeitet sind, können sie unter Umständen wiederhergestellt werden.
- Ausgaben: Wenn Ihr KI-System Texte oder Bilder zu realen Personen generiert, verarbeitet es definitiv personenbezogene Daten.
Die fünf Phasen der KI-Nutzung: Für jede brauchen Sie eine Rechtsgrundlage
Ein häufiger Fehler: Unternehmen denken, sie bräuchten „eine Rechtsgrundlage für die KI“. Tatsächlich müssen Sie für jede Verarbeitungsphase separat prüfen, ob Sie rechtlich abgesichert sind:
1. Datensammlung für das Training
Woher kommen Ihre Trainingsdaten? Sammeln Sie selbst Daten, kaufen Sie Datensätze oder laden Sie Informationen aus dem Internet herunter? Web Scraping – das automatische Sammeln von Daten aus öffentlichen Webseiten – ist datenschutzrechtlich heikel. Nur weil etwas öffentlich im Internet steht, heißt das nicht, dass Sie es frei für KI-Training nutzen dürfen.
2. Training des KI-Systems
Hier verarbeiten Sie die gesammelten Daten, um Ihr System zu entwickeln oder zu verbessern. Das sogenannte Fine-Tuning – die Spezialisierung eines bereits trainierten Modells – fällt ebenfalls in diese Phase.
3. Bereitstellung der KI-Anwendung
Wenn Sie Ihr trainiertes System anderen zur Verfügung stellen, stellt sich die Frage: Werden die Trainingsdaten dabei weiterverarbeitet? Lernt das System aus den Eingaben der Nutzer weiter? Das macht einen großen Unterschied für die erforderliche Rechtsgrundlage.
4. Nutzung durch Anwender
Sowohl Sie als Anbieter als auch Ihre Kunden oder Mitarbeiter als Nutzer brauchen jeweils eigene Rechtsgrundlagen. Das nennt sich „Doppeltürmodell„ im Datenschutzrecht.
5. Verwendung der KI-Ergebnisse
Wenn Sie einen KI-generierten Text mit Kundendaten personalisieren oder eine KI-Diagnose in eine Patientenakte übernehmen, entsteht eine neue Verarbeitung, die wiederum eine Rechtsgrundlage braucht.
Welche Rechtsgrundlagen stehen zur Verfügung?
Die DSGVO bietet verschiedene Möglichkeiten, Datenverarbeitungen zu rechtfertigen. Hier die wichtigsten für KI-Anwendungen:
Einwilligung: Meist unpraktisch
Die Einwilligung als Rechtsgrundlage stößt in der KI-Praxis stößt sie aber schnell an Grenzen:
- Bei großen Trainingsdatensätzen aus dem Internet ist es unmöglich, von allen Betroffenen Einwilligungen einzuholen.
- Komplexe KI-Systeme können so schwer verständlich sein, dass eine wirklich informierte Einwilligung kaum möglich ist.
- Das Widerrufsrecht kann problematisch werden: Wenn jemand seine Einwilligung zurückzieht, müssen Sie die Daten löschen – möglicherweise aus einem bereits trainierten Modell.
Einwilligungen eignen sich daher eher für die direkte Nutzung von KI-Diensten mit bekannten Nutzern, weniger für das Training großer Modelle.
Vertragserfüllung: Enge Grenzen
Sie dürfen Daten verarbeiten, wenn dies zur Erfüllung eines Vertrags notwendig ist.
Beispiel: Ein Arzt nutzt ein KI-Diagnosesystem im Rahmen der Behandlung. Die Verarbeitung von Patientendaten ist dann Teil der vertraglich vereinbarten Behandlung.
Wichtige Einschränkung: Die Verarbeitung muss wirklich erforderlich sein. Nur weil etwas in den Nutzungsbedingungen steht, macht es das nicht automatisch rechtmäßig. Und: Daten von Dritten, die nicht Vertragspartei sind, dürfen Sie so nicht verarbeiten.
Berechtigte Interessen: Die flexible Option mit Abwägungspflicht
Für viele Unternehmen ist diese Rechtsgrundlage besonders interessant. Sie dürfen Daten verarbeiten, wenn Sie ein berechtigtes Interesse haben und dieses die Rechte der Betroffenen nicht überwiegt.
Berechtigte Interessen können sein:
- Entwicklung innovativer Produkte und Dienstleistungen
- Verbesserung der Sicherheit
- Wissenschaftliche Forschung
- Betrugsbekämpfung
Die Abwägung ist komplex. Es muss geprüft werden:
- Ist die Verarbeitung wirklich erforderlich? Geht es auch ohne personenbezogene Daten? Könnten Sie anonymisierte oder synthetische Daten nutzen?
- Welche Interessen haben die Betroffenen? Können sie mit der Datenverarbeitung rechnen? Wie sensibel sind die Daten? Geht es um besonders schützenswerte Kategorien wie Gesundheitsdaten?
- Welche Schutzmaßnahmen haben Sie getroffen? Je besser Sie Daten durch Verschlüsselung, Pseudonymisierung und andere Techniken schützen, desto eher können Ihre Interessen überwiegen.
Praxisbeispiele aus dem Diskussionspapier:
Große Sprachmodelle: Bei der Bewertung spielt eine Rolle, ob das Modell öffentlich zugänglich ist (Open Source), welchen gesellschaftlichen Nutzen es bietet und ob gefährliche Nutzungen ausgeschlossen sind. Die Tatsache, dass große Datenmengen verwendet werden, kann sogar vorteilhaft sein, weil einzelne Personen in der Datenmasse „untergehen“ und weniger identifizierbar sind.
Fahrerassistenzsysteme: Hier müssen Sie abwägen zwischen dem Interesse an Verkehrssicherheit und dem Recht der Menschen, sich unbeobachtet im öffentlichen Raum zu bewegen. Wichtig ist, ob Sie auf Identifizierung abzielen oder nur Eigenschaften erkennen wollen („Fahrradfahrer“, nicht „Herr Müller“).
Besondere Regeln für Behörden und Schulen
Öffentliche Stellen in Baden-Württemberg haben zusätzliche Rechtsgrundlagen im Landesdatenschutzgesetz, sind aber auch stärker eingeschränkt. Die sehr allgemeine Generalklausel darf nur bei geringer Eingriffsintensität genutzt werden.
Besonders für Schulen wichtig:
- KI darf zur Unterstützung des individuellen Lernwegs eingesetzt werden
- Verboten ist: Notenvergabe durch KI, Emotionserkennung bei Schülern
- Schülerdaten dürfen nicht zum Training von KI-Systemen verwendet werden
- Schulen müssen für KI-Kompetenz bei Lehrern und Schülern sorgen
Beschäftigtendatenschutz: Vorsicht bei Einwilligungen
Der Einsatz von KI in der Personalabteilung – etwa für Bewerbermanagement oder Leistungsbeurteilung – ist datenschutzrechtlich heikel. Einwilligungen von Beschäftigten sind problematisch, weil das Unterordnungsverhältnis die Freiwilligkeit infrage stellt.
Wenn Sie KI im HR-Bereich einsetzen wollen:
- Die KI muss für die Aufgabe wirklich geeignet sein (nicht diskriminierend!)
- Es darf keine datenschutzfreundlichere Alternative geben
- Sie müssen nachweisen, dass Ihr Interesse das der Beschäftigten überwiegt
- Betriebsrat oder Personalrat müssen eingebunden werden
Sensitive Daten: Besondere Kategorien, besondere Vorsicht
Gesundheitsdaten, ethnische Herkunft, politische Meinungen und andere sensitive Informationen unterliegen verschärften Regeln. Das Problem: Auch wenn Sie solche Daten nicht direkt erheben, können sie sich aus anderen Daten ableiten lassen.
Beispiel: Ein KI-System zur Kreditwürdigkeit verarbeitet auf den ersten Blick keine Gesundheitsdaten. Wenn es aber aus Kaufverhalten auf Krankheiten schließen kann, werden trotzdem sensitive Daten verarbeitet.
Für wissenschaftliche Forschung gibt es privilegierte Rechtsgrundlagen, aber nur unter strengen Voraussetzungen:
- Die Forschung muss methodisch und systematisch sein
- Es muss ein Erkenntnisziel geben
- Die Ergebnisse müssen nachprüfbar sein
- Die Forschung muss dem Gemeinwohl dienen
Praktische Checkliste: 10 Schritte zur datenschutzkonformen KI
1. Klären Sie die Phase: Welche Verarbeitungsphase liegt vor – Sammlung, Training, Bereitstellung, Nutzung oder Ergebnisverwertung?
2. Prüfen Sie den Personenbezug: Werden wirklich personenbezogene Daten verarbeitet? Könnte jemand Personen identifizieren?
3. Dokumentieren Sie Ihre Technologie: Welches KI-Verfahren setzen Sie ein? Wie funktioniert es?
4. Prüfen Sie das Modell selbst: Enthält das trainierte Modell personenbezogene Daten?
5. Dokumentieren Sie Trainingsdaten: Woher kommen sie? Welche Kategorien umfassen sie?
6. Aktualisieren Sie Ihr Verarbeitungsverzeichnis: Jedes Unternehmen muss seine Datenverarbeitungen dokumentieren.
7. Erstellen Sie eine Datenschutz-Folgenabschätzung: Bei hohem Risiko ist diese Pflicht – und bei KI oft der Fall.
8. Klären Sie Verantwortlichkeiten: Wer ist datenschutzrechtlich verantwortlich? Gibt es Auftragsverarbeiter?
9. Finden Sie die passende Rechtsgrundlage: Für jede Verarbeitungsphase!
10. Erfüllen Sie weitere Pflichten: Informieren Sie Betroffene, implementieren Sie Schutzmaßnahmen, ermöglichen Sie die Ausübung von Betroffenenrechten.
Privacy by Design: Datenschutz von Anfang an mitdenken
Die beste Strategie: Bauen Sie Datenschutz von Anfang an in Ihr KI-System ein, nicht als nachträgliches Add-on. Das nennt sich Privacy by Design.
Konkret bedeutet das:
- Differential Privacy: Techniken, die Trainingsdaten so „verrauschen“, dass keine Rückschlüsse auf Einzelpersonen möglich sind
- Federated Learning: Das Modell kommt zu den Daten, nicht umgekehrt – Daten bleiben dezentral
- Pseudonymisierung und Verschlüsselung: Standard-Schutzmaßnahmen, die das Risiko erheblich senken
- Synthetische Daten: Künstlich erzeugte Daten ohne Personenbezug für Training und Tests
Je besser Ihre technischen Schutzmaßnahmen, desto besser stehen Sie bei der datenschutzrechtlichen Rechtfertigung da.
Transparenz: Erklären Sie, was Ihre KI macht
Menschen haben ein Recht zu erfahren, dass und wie ihre Daten verarbeitet werden. Bei KI ist das eine besondere Herausforderung, denn selbst Experten verstehen komplexe Systeme nicht immer vollständig.
Trotzdem müssen Sie informieren über:
- Was macht Ihre KI mit den Daten?
- Zu welchem Zweck?
- Wer ist verantwortlich?
- Welche Rechte haben Betroffene?
- Gibt es automatisierte Entscheidungen?
Sie müssen nicht jedes technische Detail erklären. Aber die wesentlichen Aspekte müssen klar und verständlich sein. Wer sein eigenes System nicht verständlich erklären kann, sollte sich fragen, ob er es einsetzen sollte.
Häufige Fehler vermeiden
Fehler 1: „Wir haben eine Einwilligung in den AGB“ Das reicht nicht. Einwilligungen müssen freiwillig, konkret und verständlich sein. Versteckte Klauseln in 20-seitigen Nutzungsbedingungen erfüllen diese Anforderungen nicht.
Fehler 2: „Die Daten sind öffentlich im Internet, also dürfen wir sie nutzen“ Falsch. Auch öffentlich zugängliche Daten sind personenbezogene Daten mit allen rechtlichen Konsequenzen. Sie müssen eine Rechtsgrundlage für die Verarbeitung haben.
Fehler 3: „Wir trainieren nur, das fällt unter Forschung“ Kommerzielle Produktentwicklung ist keine privilegierte wissenschaftliche Forschung. Echte Forschung erfordert Systematik, Nachprüfbarkeit und Gemeinwohlbezug.
Fehler 4: „Das Modell speichert keine Daten mehr“ Selbst wenn Trainingsdaten nach dem Training gelöscht werden, können sie möglicherweise aus dem Modell rekonstruiert werden. Das kann weiterhin eine Datenverarbeitung sein.
Fehler 5: „Wir brauchen nur eine Rechtsgrundlage für unser KI-Projekt“ Nein, Sie brauchen für jede Verarbeitungsphase (Sammlung, Training, Bereitstellung, Nutzung, Ergebnisverwertung) eine eigene Prüfung.
Was bedeutet die KI-Verordnung?
Neben der DSGVO tritt schrittweise die KI-Verordnung in Kraft. Sie führt ein risikobasiertes System ein:
- Verbotene KI-Praktiken: z.B. Emotionserkennung in Schulen, Social Scoring
- Hochrisiko-KI: Strenge Anforderungen an Dokumentation, Tests, Qualitätssicherung
- Transparenzpflichten: Kennzeichnung von KI-generierten Inhalten
Die KI-Verordnung ergänzt die DSGVO. Beide Regelwerke müssen Sie parallel beachten – das macht die Sache nicht einfacher, sorgt aber für einen umfassenden Rechtsrahmen.
Konkrete Handlungsempfehlungen für Unternehmen
Vor dem Start eines KI-Projekts:
Planen Sie Datenschutz von Anfang an ein. Je früher Sie datenschutzrechtliche Anforderungen berücksichtigen, desto günstiger und einfacher wird es.
Binden Sie Ihren Datenschutzbeauftragten bzw. Datenschutzexperten früh ein, nicht erst wenn das System fertig entwickelt ist. Datenschutzexpertise hilft, teure Fehler zu vermeiden.
Prüfen Sie Alternativen zu personenbezogenen Daten. Können Sie Ihr Ziel mit anonymisierten oder synthetischen Daten erreichen? Das erspart viele datenschutzrechtliche Probleme.
Dokumentieren Sie alle Entscheidungen. Sie müssen später nachweisen können, warum Sie welche Rechtsgrundlage gewählt und welche Schutzmaßnahmen getroffen haben.
Während der Entwicklung:
Implementieren Sie Privacy Enhancing Technologies. Differential Privacy, Verschlüsselung, Pseudonymisierung – das sind nicht nur rechtliche Pflichten, sondern auch Vertrauensbildner bei Kunden.
Testen Sie Ihr System auf Fairness. Diskriminierung ist nicht nur ethisch problematisch, sondern auch rechtlich riskant.
Bereiten Sie verständliche Informationen vor für die Menschen, deren Daten Sie verarbeiten.
Nach dem Launch:
Bleiben Sie am Ball. Technologie entwickelt sich weiter, Rechtsprechung auch. Was heute datenschutzkonform ist, kann morgen problematisch werden.
Nehmen Sie Betroffenenrechte ernst. Wenn jemand Auskunft verlangt, seine Daten löschen oder widersprechen will, haben Sie Prozesse, um das umzusetzen?
Lernen Sie aus Fehlern. Datenschutzverletzungen können teuer werden, aber sie sind auch Lernchancen.
Fazit
Das Diskussionspapier aus Baden-Württemberg zeigt, dass Datenschutz und KI-Innovation sich nicht widersprechen müssen. Es erfordert aber sorgfältige Planung, technische Schutzmaßnahmen und eine ehrliche Auseinandersetzung mit rechtlichen Anforderungen – aber es ist machbar.
Das Paper aus dem KI-Länd gibt wertvolle Anregungen und Informationen zur datenschutzkonformen Umsetzung von KI-Projekten, auch wenn noch nicht alle Fragen hierzu abschließend geklärt sind.
Wir beraten
Sie gerne zum
Datenschutz!
