Samsung Leak durch ChatGPT: Datenschutzlösungen für Prompteingaben in generativen KI Systemen

Kaum ein Thema hat in letzter Zeit so breite Medienberichterstattung erhalten wie generative KI und insbesondre ChatGPT. Großunternehmen wie Privatpersonen nutzen den Chatbot regelmäßig und entdecken dabei immer vielseitigere Anwendungsmöglichkeiten.
Dass die Verwendung von ChatGPT im beruflichen Umfeld jedoch mit Risiken verbunden sein kann, wurde neulich am Beispiel von Samsung deutlich.
Dabei wurde Quellcode hochgeladen und wurde so geleakt. In einem anderen Fall wurden vertrauliche Meetingnotizen in das Promptfenster kopiert, um von ChatGPT eine automatische Präsentation generieren zu lassen und gelangten so an die Öffentlichkeit.

Konsequenzen aus dem Datenleck

Die Auswirkungen dieses Vorfalls werden zweifellos weitreichend sein.
Das Datenleck hat Bedenken bezüglich des Datenschutzes bei der Benutzung generativer KI-Systeme laut werden lassen.

Die Technologiebranche steht vor der Herausforderung, einen angemessenen Schutz der Privatsphäre und Sicherheit in einer zunehmend vernetzten und datengetriebenen Welt zu gewährleisten.
Samsung hat auf den Vorfall reagiert und seinen Beschäftigten die Nutzung des Chatdienstes verboten. Auf Firmenrechnern wurde die Seite von OpenAI gesperrt und für private Geräte die dringliche Aufforderung ausgesprochen, keine Firmeninterna hochzuladen.  Bei Verstößen wurden Konsequenzen bis hin zur Kündigung angedroht.
Außerdem möchte Samsung eine eigene KI im Stil von ChatGPT entwickeln, die nur für die interne Nutzung für Mitarbeiter:innen gedacht ist.

Ob dadurch aussreichend Schutz vor einem ähnlichen Vorfall geboten ist, bleibt fraglich. Eine Sperrung von ChatGPT auf Firmencomputern wird nicht ausreichen, da Beschäftigte das Tool auf ihrem privaten Rechner oder Smartphone weiterhin nutzen können.
In Chatbots wie ChatGPT steckt so viel Potential, dass sie die Arbeitswelt, wie wir sie bis jetzt kannten, grundlegend verändern wird. Die KI erleichtert den Arbeitsalltag branchenabhängig extrem, sodass Mitarbeiter:innen nicht langfristig darauf verzichten werden oder können. Aus diesem Grund sollte besser nach Lösungen gesucht werden, die die Nutzung generativer KI-Systeme sicherer machen, anstatt sie zu verbieten.

Sicherheitsrisiken von ChatGPT

Was Samsung geschehen ist, hätte jedem Techunternehmen passieren können.
Schon vor dem Vorfall bei dem südkoreanischen Techhersteller Samsung haben Firmen ihren Beschäftigten die Nutzung von ChatGPT untersagt. Darunter JPMorgan, Bank of America, Goldman Sachs oder Citigroup.

Sie sind besorgt, dass Firmeninterna durch Mitarbeiter:innen über eine Prompteingabe nach außen dringen und so Geschäftsgeheimnisse wie strategische Entscheidungen, technische Neuerungen oder Quellcode an die Öffentlichkeit gelangen.
Bei der dialogischen Anwendung von ChatGPT können Nutzer:innen aufgefordert werden, Dokumente hochzuladen oder tiefergehende Informationen bereitzustellen, damit der Bot bestmöglich antworten kann.
Werden der KI Aufgaben gestellt wie die Erstellung einer Präsentation aus Meeting Notizen oder die Zusammenfassung eines langen Textdokuments ist der Upload der Textgrundlage selbstverständlich notwendig.

Was für das Internet im Allgemeinen gilt, ist auch bei der Nutzung von Chatbots der Fall: Was einmal hochgeladen und abgeschickt wurde, liegt außerhalb des Einflussbereichs der agierenden Person.
Was einmal hochgeladen wurde, ist kaum mehr zu löschen. Daten werden vervielfacht und es ist schwierig nachzuvollziehen, auf welchen Servern sie gespeichert werden und wo die Nutzungsrechte für Datenpunkte liegen.

Die Firma hinter ChatGPT, OpenAI,  ist ein US-amerikanisches Unternehmen mit Sitz in San Francisco. Dementsprechend laufen alle Dateneingaben auf deren Servern in den USA zusammen und werden dort gespeichert.

OpenAI gibt in seinen AGBs an, Eingaben zum Zwecke von Trainings zu speichern.
Dort heißt es: “Die Inhalte werden auf OpenAI-Systemen und den Systemen unserer Subauftragnehmer gespeichert. Wir können auch ausgewählte Teile de-identifizierter Inhalte zu Sicherheitszwecken an externe Auftragnehmer senden (vorbehaltlich Vertraulichkeits- und Sicherheitsverpflichtungen). Unsere 30-Tage-Datenaufbewahrungsrichtlinie gilt auch für unsere Subauftragsverarbeiter und Auftragnehmer.)

Somit werden alle Anfragen, die ChatGPT gestellt werden, auf Servern von OpenAI, deren Subunternehmen und Dritten gespeichert und ausgewertet.

Dass personenbezogene Daten die EU verlassen und in den USA gespeichert werden, ist nach europäischem Gesetz nicht zulässig.
Datenabfluss in die USA wurde mit dem Schrems II Abkommen von 2020 vom Europäischen Gerichtshof für ungesetzlich erklärt.
Der EuGH hält das Datenschutzniveaus in den USA nicht für angemessen, da das Privacy Shield-Abkommen keinen ausreichenden Schutz gegenüber nachrichtendienstlichen Aufforderungen zur Herausgabe von personenbezogenen Daten von EU-Bürgern biete, die in den USA verarbeitet werden bzw. dorthin übermittelt werden.

Einseitige Vertraulichkeitsbestimmungen in OpenAIs AGBs

Die Anwältin für geistiges Eigentum Kate Downing, setzte sich genauer mit den AGBs von OpenAI auseinander und stellte fest, dass die Vertraulichkeitsbestimmung von OpenAI nur einseitig gilt:  Sie beinhaltet einen Vertraulichkeitsschutz ausschließlich für die Informationen von OpenAI. Das bedeutet, dass weder die Eingaben, die OpenAI zur Verfügung gestellt werden, noch die Ergebnisse, die es produziert, von OpenAI als vertraulich behandelt werden.
Das ist für Software Anbieter ungewöhnlich, da diese in der Regel anerkennen, dass die ihnen zur Verfügung gestellten Daten vertraulich sind.

Was in der Vertraulichkeitsklausel leicht übersehen wird, so Downing, ist die Tatsache, dass in den AGBs die Anwendbarkeit eines Datenverarbeitungszusatzes (Data Processing Addendum, DPA) erwähnt wird, der in erster Linie dazu dient, Unternehmen bei der Einhaltung der GDPR (der wichtigsten europäischen Datenschutzverordnung) zu unterstützen. Viele, die die AGBs lesen, werden davon ausgehen, dass das DPA ihre Eingangs- und Ausgangsdaten schützt. Die DPA schützt jedoch nur Daten, die auch persönlich identifizierbare Informationen sind.

Vorausgesetzt, dass OpenAI die Eingabedaten von jeglichen personenbezogenen Daten befreit (was sie ausdrücklich als Praxis angeben), können die Eingabedaten von OpenAI ohne jegliche Vertraulichkeitsverpflichtung verwendet werden.

Mit der Vertraulichkeitsklausel legen die AGBs offen, dass OpenAI jede andere Verwendung der Input- und Output-Daten offen steht, sei es die Veröffentlichung der Inputs oder Outputs, Datenanreicherung, Analyse oder die private Weitergabe an Dritte.

OpenAI hat auf seiner Internetseite die Subauftragnehmer aufgelistet, an die Daten übermittelt werden. Ein Blick auf deren Datenschutzbestimmungen wiederum legt offen, dass hier alles gespeichert wird:
TaskUS,  ein Unternehmen, das ausgelagerte digitale Services anbietet, und von OpenAI als Subauftragnehmer aufgeführt wird, listet in seinen AGBs folgende Informationen auf, die es selbst erhebt oder von Dritten erhält. Die Firma gibt an, ohne Einschränkungen zu speichern:
“Identifikatoren wie Vor- und Nachname, E-Mail-Adresse, Postanschrift, Benutzername und Passwort, Handle in sozialen Medien oder andere ähnliche Identifikatoren. Geschlecht, Alter, Rasse oder andere geschützte Klassifizierungen nach geltendem Recht. Finanzielle, medizinische oder gesundheitliche Informationen, Bank- oder Kreditkartennummern oder andere finanzielle Informationen.  Audio-, elektronische, visuelle, thermische, olfaktorische oder ähnliche Informationen wie Fotos oder IP-Adresse. Berufliche Informationen Arbeitgeber, Gehalt,  beruflichen Werdegang, beruflichen Interessen oder Berufsbezeichnung. Bildungsinformationen, wie z. B. Bildungsweg, erworbene Abschlüsse oder Zertifizierungen.”

Konsequenzen für die Einbindung von ChatGPT in andere Domänen

Unternehmen auf der ganzen Welt sind bestrebt, Technologien, die wie ChatGPT auf Large Language Models (LLMs) basieren, in ihre Produkte und Dienste zu integrieren.

Microsoft hat bekanntlich eine Version von ChatGPT in seine Suchmaschine Bing integriert und plant, sie in Produkte und Dienste im gesamten Microsoft-Ökosystem zu integrieren. Viele Unternehmen werden sich diese Integrationen jedoch zweimal überlegen müssen, wenn OpenAI und vergleichbare Anbieter ihre Datenverarbeitungspraktiken nicht ändern.

Das liegt daran, so Downing, dass fast jeder Softwaredienstleister zumindest eine Untergruppe von Kunden hat, deren Daten sie als vertraulich zu behandeln versprechen. Die Vertraulichkeitsanforderungen müssen an jeden Dritten weitergegeben werden, der Zugang zu Kundendaten erhält.

Um die nützlichen KI-Tools dennoch ohne Bedenken nutzen zu können, gilt es Tools zu finden, die den datenschutzkonformen Umgang möglich machen. Ein effizienter Ansatz ist dabei die Anonymisierung von Eingaben zur Anwendungszeit.

Lösung: Anonymisierung als API direkt bei Prompteingabe

Die schnellste und effizienteste Lösung ist Anonymisierung direkt beim Vorgang der Prompteingabe.
Dabei werden alle personenbezogene Daten von natürlichen oder juristischen Personen erkannt und anonymisiert durch sinnerhaltende Platzhalter wie “Max Mustermann” oder mit Pseudonymen ersetzt, bevor sie an ChatGPT & Co. geschickt werden.
So wird die aufwändige juristische Auseinandersetzung mit AGBs, DSGVO und länderspezifisch variierenden Nutzungsrechte von Daten vollkommen umgangen, da der Chatbot keine sensiblen Informationen empfängt und diese somit nie gespeichert werden können –  DSGVO und GDPR legen klar fest, dass anonymisierte Daten nicht in ihre Zuständigkeit fallen.

Eine solche Lösung hat Glanos entwickelt: Mit den APIs von anonymization.ai kann der Input des Nutzers automatisch in Millisekunden von sensiblen Daten bereinigt werden und dennoch Inhalt und Sinn bewahren. Anonymization.ai ist dabei vielseitig konfigurierbar, beispielsweise können konkrete Firmen durch ähnlich große und in derselben Branche tätige ersetzt werden (also z.B. “BMW” mit “Audi” und nicht etwa mit “Musterfirma AG”), so dass ChatGPT weiterhin sinnvolle Antworten auf die Prompts liefert.

Fazit: Anstatt auf das große Potential generativer KIs zu verzichten ist eine anonymisierte Prompteingabe der sicherste Weg zu datenschutzkonformen Anfragen, die hilfreiche Antworten liefern.
Hier geht´s zu Glanos und der anonymization.ai.

Contact Us

  • Please contact vivienne.offermanns@glanos.de for product inquiries or arrange a meeting  for product demonstrations or call +49 89 998 299 157
  • If you want to apply for a job, please send your CV to info@glanos.de or leave a message on the answering machine of +49 89 998 299 150 and we will call you back.
  • For all further inquiries please write to info@glanos.de