Zum Inhalt springen
Home » Datenschutz-News » Navigating the Future: Trainingsdatensammlung und die DSGVO

Navigating the Future: Trainingsdatensammlung und die DSGVO

Künstliche Intelligenz wird immer mehr Bestandteil in unserem Alltag, sowohl im Privaten als auch im Unternehmensalltag. Daher werden wir in dieser Beitragsreihe die Hauptaspekte der rechtlichen Regulierung von Künstlicher Intelligenz sowie die damit verbundenen Herausforderungen und Chancen detaillierter beleuchten. In diesem Beitrag geht es um die Trainingsdatensammlung für KI-Systeme und deren Einklang mit der DSGVO.

Welchen Zweck haben Trainingsdaten?

Nach dem aktuellen Entwurf des AI Acts sind Trainingsdaten

„Daten, die zum Trainieren eines KI-Systems verwendet werden, wobei dessen lernbare Parameter und die Gewichte eines neuronalen Netzes angepasst werden“

(Art. 3 Nr. 29 der 2021/0106)

Diese Daten sind enorm wichtig, um KI-Systeme zu entwickeln. Die Sammlung dieser Daten erfolgt in der Regel auf unterschiedliche Art und Weise. Oftmals werden diese mittels Software im Internet gesammelt, wobei es auch zur Verarbeitung personenbezogener Daten kommen kann.

Nachfolgend werden die technischen Grundlagen sowie die Konformität mit der DSGVO und welche Anforderungen der AI Act dahingehend stellt.

Wie funktioniert das Sammeln von Trainingsdaten technisch?

Es gibt unterschiedliche Möglichkeiten, um eine KI mit Informationen zu bestücken und zu trainieren. 

Beim Scraping werden bestimmte Inhalte einer Webseite extrahiert, also beispielsweise Bilder, Videos oder Texte und in einem Datensatz gespeichert.

Beim Crawling hingegen wird eine Webseite allgemein analysiert und alle Daten der Webseite in einem Index gespeichert. Das heißt, meist werden nicht die konkreten Inhalte gespeichert, wie beim Scraping, sondern nur Verweise oder Links zu diesen Informationen. Dadurch entsteht für denjenigen, der diese Daten sammelt, meist nur die technische Herrschaft über einen Verweisindex, nicht aber über die konkreten Dateien.

Solche Sammelmethoden sind essenziell, um Trainingsdaten zu sammeln. Oftmals sind diejenigen, die KI trainieren, nicht gleichzeitig diejenigen, die solche Datensätze sammeln. Der Markt für Trainingsdaten ist sehr intransparent und die einzelnen Methoden zur Erhebung sind teilweise unbekannt.

Wie wirkt sich die DSGVO auf eine Trainingsdatensammlung aus?

Die oben erklärten Trainingsmethoden können personenbezogene Daten nicht automatisch ausschließen, sodass eine hohe Wahrscheinlichkeit besteht, dass sich in Trainingsdatensammlungen Daten mit Personenbezug befinden. Die Datensätze der Trainingsdatensammlung werden dann oftmals ohne Kenntnis und Einwilligung der Betroffenen zur Entwicklung der KI genutzt, was zu einer Verletzung der DSGVO führen kann.

Ist eine datenschutzkonforme Trainingsdatensammlung möglich?

Einwilligung

Eine personenbezogene Datenverarbeitung im Rahmen der Trainingsdatensammlung kann gerechtfertigt sein, wenn die betroffene Person einwilligt. Dies ist in der Praxis allerdings kaum umsetzbar aus mehreren Gründen:

  1. Bei einer automatisierten Sammlung der Daten kennt der Verarbeiter in der Regel die konkreten Inhalte nicht und kann daher nicht ausreichend über die erhobenen Daten informieren. Außerdem ist meistens nicht ganz klar, was im Rahmen des Einsatzes des KI-Systems mit den Daten geschieht. Eine informierte Einwilligung ist jedoch nach der DSGVO zwingende Voraussetzung.
  2. Ebenso wenig umsetzbar ist die Kontaktaufnahme zu den Betroffenen, da es sich regelmäßig um eine unüberschaubare Anzahl von Personen handelt.
  3. Eine erteilte Einwilligung muss außerdem einfach und ohne Voraussetzungen widerrufbar sein. Die verantwortliche Stelle müsste dann diese Daten löschen. Bei einer Weitergabe dieser Datensätze ist eine Löschung jedoch kaum möglich.

Vertragliche Verpflichtung

Ebenso wenig kommt eine personenbezogene Datenverarbeitung auf Grundlage einer vertraglichen Verpflichtung in Betracht. Zwar könnte der Datensammler im Anschluss an die Datenanalyse den Betroffenen kontaktieren und ihm ein Vertragsangebot über die Nutzung der Daten vorlegen, aber der Wortlaut des Art. 6 Abs. 1 Buchst. b) DSGVO verlangt ein Näheverhältnis zwischen dem Betroffenen und der verantwortlichen Stelle. Dies liegt zum Zeitpunkt der Datensammlung allerdings nicht vor.

Berechtigtes Interesse

Dafür kommt das berechtigte Interesse der verantwortlichen Stelle für die Trainingsdatensammlung in Betracht.

Rechtlicher Exkurs:

Das berechtigte Interesse wird dann gewahrt, wenn die Verarbeitung des Verantwortlichen oder eines Dritten erforderlich ist und keine Interessen oder Grundrechte und Grundfreiheiten der betroffenen Person überwiegen. Daraus ergibt sich eine dreistufige Prüfung, wonach 1. das berechtigte Interesse nachgewiesen, 2. die Erforderlichkeit der konkreten Verarbeitung festgestellt werden und 3. die Interessen, Grundrechte und Grundfreiheiten des Verantwortlichen und des Betroffenen gegenübergestellt werden muss.

Bei einer Veröffentlichung von personenbezogenen Daten durch den Betroffenen im Internet kann durchaus unterstellt werden, dass die Betroffenen auch mit einer Verarbeitung der personenbezogenen Daten ohne einen bestimmten Zweck rechnen können. Ein Datensammler muss auch nicht zwingend davon ausgehen, dass Unberechtigte die Daten veröffentlicht haben. Allerdings bestehen hier dennoch rechtliche Unsicherheiten und eine Einzelfallbetrachtung ist immer notwendig. Daher ist eine vorherige Absprache mit dem Datenschutzbeauftragten sinnvoll.

Unabhängig von der Rechtsgrundlage für die Datenverarbeitung ist die verantwortliche Stelle dazu verpflichtet, ihren Informationspflichten nachzukommen. Diese sollte in Form einer Datenschutzerklärung öffentlich zugänglich bereitgestellt werden. Die Wahrung der Betroffenenrechte kann durch ein Betroffenenrechtemanagement erfolgen.

Was sagt der AI Act zur Trainingsdatensammlung?

Eine konkrete Regelung zu Trainingsdaten findet sich in der aktuellen Fassung des AI Acts nicht. Dennoch sind Datenverwaltungsverfahren und auch Daten-Governance insbesondere bei Hochrisiko-KI-Systemen zwingend erforderlich.

Die Rechtsgrundlage für eine personenbezogene Datenverarbeitung ist lediglich für KI-Reallabore vorgesehen, deren Einrichtung für die Entwicklung von KI vorangetrieben werden soll (Art. 53 AI Act). Diese betrifft aber nur die Weiterarbeitung von personenbezogenen Daten und nicht die Datensammlung selbst.

Fazit

Die Trainingsdatensammlung ist für die Entwicklung von KI nicht wegzudenken. Dass die Verarbeitung personenbezogener Daten ebenfalls dabei erfolgt, kann zum aktuellen Zeitpunkt technisch nicht vermieden werden, weshalb die verantwortlichen Stellen auch bei der Entwicklung von KI im Rahmen der Trainingsdatensammlung die DSGVO beachten müssen. Aus dem AI Act wurde dafür keine spezielle Rechtsgrundlage geschaffen. Daher ist eine Einbindung des Datenschutzbeauftragten der verantwortlichen Stelle bei dieser Art der Datenverarbeitung unabdingbar.

Bildnachweis: Beitragsbild KI generiert