+49 89 998 299 150 info@glanos.com

Datenintegration optimieren und Wissen generieren

Das Datenwachstum in Unternehmen und im Netz ist nicht aufzuhalten. Bereits im Jahr 2011 wurde die unvorstellbare Zahl von 1,8 Zettabyte Daten erreicht. Das entspricht mehr als 200 Milliarden HD-Filmen von jeweils zwei Stunden Länge. Wir alle generieren immer mehr Daten in Emails, Dokumenten, Bewerberformularen und den sozialen Netzwerken. Diese bieten eine Fülle von interessanten Daten, sind aber auch besonders schwer zu strukturieren und in bestehende Datenlandschaften zu integrieren.

Der Großteil dieser Informationen aus internen und externen Quellen stehen nur roh und unstrukturiert in Textform (Raw Text Format) zur Verfügung und sind deshalb für Business Analytics Tools noch nicht les- und auswertbar. Die entscheidende Herausforderung von Unternehmen heutzutage ist es, einen Weg zu finden, diesen unaufhaltsam wachsenden Strom an unstrukturierten Daten nicht nur verwalten zu können, sondern diese auch nach den für die entsprechende Fragestellung wichtigen Informationen zu filtern, zu deuten und in die globale Unternehmens-Datenstrategie oder in Business Analysen mit einfließen zu lassen.

Datenintegration durch Drei-Säulen-Modell

Betrachtet man die Datenlandschaft in Unternehmen, lässt sich schnell feststellen, dass es neben den von Menschen generierten Daten (Human-Generated Data) noch zwei weitere Datentypen gibt, die in Betracht gezogen werden müssen. Fasst man diese zusammen, ergibt sich daraus ein Drei-Säulen-Modell, das die Verarbeitung der Daten in vereinfachter Form beschreibt. Die zweite Säule in diesem Modell stellen die prozess-generierten Daten dar, die bei den primären Geschäftsprozessen und rechtsverbindlichen Geschäftstransaktionen entstehen (Process-Mediated Data). Hier befinden sich die traditionellen, operativen Kerndaten. Die dritte Säule ergibt sich aus den maschinen-generierten Daten (Machine-Generated Data), die von Logs über Trackinginformationen, die von Ihnen internen Servern generiert wurden, bis hin zu externen Feeds von RFID Tags und Smartphones mit GPS reichen können.

Sammlung und Vorverarbeitung unstrukturierter Daten

Die Verarbeitung der prozess-generierten und maschinen-generierten Daten stellt für allgemeine Datenanalyse-Tools keine Schwierigkeiten dar. Die eigentliche Problematik entsteht bei den unstrukturierten, von Menschen geschriebenen Texten. Dies beginnt bereits bei der Sammlung der Daten. Um die wirklich nützlichen Daten vom Datenmüll zu unterscheiden, wurden spezielle Web Mining-Tools entwickelt, die externe Quellen wie soziale Netzwerke, Foren und Communities durchsuchen und dort wichtige Informationen wie zum Beispiel die Bewertungen eines neuen Produktes sammeln.

Gemeinsam mit den internen Daten wie Bewerberformulare, Emails oder andere Dokumente werden die aus dem Web extrahierten Daten im Anschluss durch Textanalyse und Text Mining Verfahren vorverarbeitet. Die Daten werden nach Bedeutungsstrukturen analysiert und in ein maschinenlesbares Format (Metadaten) umgewandelt. Dies erlaubt im Anschluss eine Integration in die bestehende Datenlandschaft.

Hybride Verfahren des Text Minings

Für dieses Preprocessing existieren verschiedene Methoden des Text Minings. Dazu gehören klassische statistische Verfahren wie das maschinelle Lernen oder linguistische Verfahren, die natürliche Sprache verarbeiten (Natural Language Processing). Letzteres ist jedoch nur mit einem umfassenden Wissen der Linguistik möglich. In jahrelanger Erfahrung hat sich bei der Verarbeitung von Texten jedoch ein hybrides Verfahren als am effektivsten erwiesen, das einerseits auf Regeln und umfangreiche Lexika, andererseits auf selbstlernenden Algorithmen basiert.

Dabei werden linguistische Verfahren des Natural Language Processing mit Methoden des maschinellen Lernens kombiniert. Denn die Techniken aus der Linguistik liefern zwar akkuratere, eindeutigere und schneller Ergebnisse als statistische Verfahren, erfordern aber auch einen größeren Aufwand und ständige Überwachung durch den Menschen. Durch die Kombination der beiden Verfahren erhält man somit nicht nur sehr schnell qualitativ hochwertige Daten, sondern der Überwachungsaufwand wir auf ein handhabbares Maß reduziert.

Smart Data für Analysen in Echtzeit

Nach Abschluss des Text Mining Verfahrens stehen alle drei Datentypen in derselben Form zur Verfügung und können für umfassende Analysen über die gesamte Datenlandschaft hinweg genutzt werden. Mit entsprechenden Analyse-Tools können Unternehmen so auf Grundlage dieser Daten in Echtzeit wichtige strategische Erkenntnisse gewinnen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Suche