Ein Datenwissenschaftler und eine Bankerin

Kundenbanken statt Datenbanken: Banken im Zeitalter von Data Governance
(Teil 1: Datenschutz und Anonymisierung von Daten)

Die Pandemie hat den digitalen Wandel nicht nur im Finanzbereich weiter beschleunigt. Die EU-Kommission formuliert im „Digital Finance Package“ den politischen Willen, die EU zu einem führenden Marktplatz für Digitalisierung auszubauen. Ein Aspekt daraus ist der Legislativvorschlag, eine europäische Daten-Strategie aufzubauen.

Grund genug für Dr. Gerhard Rolletschek und Ingeborg Kauper, das Thema aus unterschiedlichen Blickwinkeln – fachlich und technisch – zu beleuchten.

Die Datenlandschaft der Banken ist vielfältig, insbesondere in Hinblick auf deren Art und Lagerung. Anforderungen an Daten aus aufsichtsrechtlicher Sicht sind zum Beispiel in den MaRisk unter AT 4.3.4 „Datenmanagement, Datenqualität und Aggregation von Risikodaten“ definiert. Ursprünglich nur für systemrelevante Institute anzuwenden, sollen diese nun auch gemäß der sechsten MaRisk-Novelle für „große und komplexe Institute“ gelten.
Dabei wird unter anderem der Abgleich und die Plausibilisierung von Risikodaten, beispielsweise mit Daten aus dem Rechnungswesen, verlangt. Hier sind automatisierte Prüfroutinen, etwa für festgestellte Mängel oder Datenfehler und Inkonsistenzen, sinnvoll, um einen gültigen Datenabgleich leisten zu können. Das Thema „Stammdatenmanagement“ ist für weitergehende Analysen eine wichtige Grundlage – denn nur mit richtigen und sinnvollen Daten können Algorithmen auch brauchbare Ergebnisse liefern.

Im ersten Teil unserer dreiteiligen Reihe wird das Thema „Data Governance“ aus dem Blickwinkel von Datenschutz und der Anonymisierung von Daten betrachtet. Doch vorab eine kurze technische Einführung:


Mit welchen Daten hat man es eigentlich zu tun?


Man unterscheidet strukturierte und unstrukturierte Daten. Strukturierte Daten umfassen alles, was in Tabellenform gespeichert werden kann. Dazu zählen Adressdaten, Bestellungen, Kontostände, aber auch zum Beispiel Sensordaten – also alles, was Maschinen erzeugen oder durch Eingabeformulare entsteht. Der ganze Rest – und der ist wirklich erheblich – sind unstrukturierte Daten. Darunter fallen Dokumente/ PDFs mit ihren unterschiedlichsten Inhalten: Bestellungen, Nachrichten, Rechnungen, Akkreditive, Vertragstexte, Bewerbungen und vieles mehr.

Manches, was bei strukturierten Daten gut funktioniert, geht bei unstrukturierten Daten nicht so ohne weiteres. Zum Beispiel maschinelles Lernen, egal ob supervised oder unsupervised. Beim supervised learning wird die Maschine durch bereits vorliegende Trainingsdaten angeleitet und lernt durch Nachahmung. Das ist allerdings mühsam und erfordert oft viel Handarbeit, solche Trainingsdaten in ausreichender Zahl bereitzustellen. Beim unsupervised learning gibt man keine Trainingsdaten vor. Der Computer geht quasi explorativ vor. Aufdecken lassen sich Gruppen von ähnlichen Daten (Clustern) oder andere unbekannte Muster, Vorhersagen oder Ausreißer. Bei strukturierten Daten funktioniert das gut.

Bei Freitexten und Dokumenten, also unstrukturierten Daten, besteht zunächst das Problem, dass sprachliche Äußerungen oft mehrdeutig sind und viele verschiedene Begriffe etwas ähnliches meinen können. Hier gibt es zwei grundsätzliche Strategien: Man übersetzt entweder Sprache in Zahlen – und zwar so, dass ähnliche Begriffe auch ähnliche Werte erhalten – und kann damit genauso wie beispielsweise mit Sensordaten weiterverfahren. Allerdings sind die Ergebnisse dann nicht mehr ohne weiteres erklärbar, denn den Schritt von der Sprache zu Zahlen können wir Menschen nicht nachvollziehen. Oder man gibt dem Algorithmus sprachliches Wissen mit – das ist am Anfang vielleicht aufwändiger, aber dafür können die Ergebnisse auch an jedem Schritt erklärbar und transparent bleiben. Und diese Eigenschaften tragen zur Akzeptanz von Lösungen erheblich bei.

Vor diesen Herausforderungen stehen Banken, die ihre Data-Governance verbessern wollen. Zur Lösung gehören nicht nur Technik und Software, sondern auch Prozesse und Kultur, die bei jeder Bank individuell sind. Was bringen die besten Ergebnisse, wenn sie nicht an die richtigen Stellen kommen und akzeptiert und genutzt werden? Das ausgefeilteste System hilft nicht weiter, wenn es nur übergestülpt wird ohne Gespür und Wissen für die Besonderheiten und Anforderungen einer Branche. Manuelle Prozesse sind aber zeitaufwändig und fehleranfällig. Hier kommt die Technik wieder ins Spiel. Auch die MaRisk fordern eine weitgehende Automatisierung, etwa der Datenaggregation von Risikodaten.

Eine weitere sinnvolle Unterscheidung ist die zwischen internen und externen Daten, also solchen, die im Haus anfallen und in der Regel schützenswert sind (als Beispiele seien Kundendaten, das eigene CRM oder ERP genannt), und solchen, die von außerhalb bereitgestellt werden und oft, aber nicht zwingend, öffentlich verfügbar sind (etwa Nachrichtendaten, Bonitätsinformationen, aber auch Wetterdaten). Beide sind für erfolgreiche Datenprojekte wichtig – die internen Daten müssen aber üblicherweise erst anonymisiert werden, um personenbezogene und sonstige schützenswerte Angaben zu entfernen, bevor die Analyse startet. Anonymisierung mittels KI

Wer mit Daten arbeiten will, muss zunächst sicherstellen, dass keine personenbezogenen Informationen in unbefugte Hände gelangen. Das betrifft auch die unternehmensinterne Weitergabe: Da nach Datenschutzgrundverordnung der Grundsatz der Erforderlichkeit gilt, können Dokumente mit Kundendaten nicht ohne weiteres an die eigene Data Science/ AnalyticsAbteilung oder auch an Übersetzer weitergegeben werden. Dazu ist nämlich erst mal das Erkennen von sensiblen Informationen und persönlichen Daten notwendig. Hier setzt Künstliche Intelligenz als „Enabler“-Technologie an. Nach der Erkennung können die sensiblen Angaben entweder komplett geschwärzt (Anonymisierung) oder durch Fantasienamen ersetzt werden (Pseudonymisierung). Per Hand lässt sich eine solche Anonymisierung oder Pseudonymisierung nicht zuverlässig durchführen, wenn es um eine große Zahl von Dokumenten (wir erinnern uns: unstrukturierte Daten) geht.

Das automatisierte Verfahren erkennt personenbezogene Angaben wie Personenname, Adresse, Telefon und E-Mail – das sind alles sogenannte Entitäten. Daneben müssen aber auch branchenspezifische Angaben, beispielsweise IBANs oder Kundennummern, erkannt werden. Schließlich gibt es indirekte Hinweise auf eine Person, die sich nur durch den Kontext erschließen. Beispiel: In einem Kreditantrag geht es um einen Friseurbetrieb in einer kleinen Ortschaft. Da es dort nur einen Friseur gibt, kann der Betreiber trotz Schwärzung von Name und Adresse erkannt werden. Wegen dieser Gefahr braucht eine Anonymisierung von Daten, bei denen keine Fehler durchschlüpfen dürfen, noch einen Menschen zur Endkontrolle. Für eine kombinierte Lösung aus Technik und Prozessen stehen wir – Glanos und IKM Team Kauper – mit langjähriger technischer und fachlicher Umsetzungskompetenz. Weiter Informationen finden Sie unter

www.linkedin.com/in/ingeborg-kauper
www.xing.com/profile/Ingeborg_Kauper
www.esg-monitoring.ai
www.anonymization.ai

Dr. Gerhard Rolletschek
Semantikexperte und
Unternehmensgründer



Gerhard Rolletschek ist mehrfacher Gründer
von Startups mit erfolgreichen Exits. Tätigkeit bei der Bertelsmann Stiftung im Bereich
Medienpolitik.
Promotion 2007 in Computerlinguistik an der
LMU München.
Seit 2003 zahlreiche erfolgreiche Projekte
mit renommierten internationalen Kunden im
Bereich Informationsextraktion und
Suchtechnologien. Besondere Expertise auf
dem Gebiet der semantischen DataminingTechnologie mit einem speziellen Fokus auf
Firmendatenextraktion und -aggregation.
Seit 2013 ist er einer der beiden Gründer der
Glanos GmbH. Er ist Alumnus der Studienstiftung des Deutschen Volkes.
Ingeborg Kauper
Unabhängige fachliche Beratung
für Banken seit 24 Jahren



Ingeborg Kauper berät seit 24 Jahren
Banken und Finanzdienstleister bei der
Strategieentwicklung sowie bei der
Optimierung der Aufbau- und
Ablauforganisation.
Ein Schwerpunkt der Arbeit von Ingeborg
Kauper und ihrem Team sind die
Anforderungen der nationalen
Bankenaufsicht und die jeweilige Umsetzung
in die Bankpraxis.
Vor ihrer Selbstständigkeit war Ingeborg
Kauper für die Bay. Hypotheken- und
Wechsel-Bank AG in Deutschland und USA
tätig (zuletzt als Abteilungsdirektorin
Großkundenbetreuung) sowie als Senior
Beraterin „Banken” bei KPMG.
glanos