Es ist kein Geheimnis, dass die Bedeutung datengestützter Entscheidungen zugenommen hat und sehr wahrscheinlich weiter zunehmen wird. Die meisten Organisationen haben erkannt, dass es notwendig ist, Daten aus ihren Geschäftstransaktionen zu sammeln und sie in den Kontext allgemeiner Brancheninformationen zu setzen, um wertvolle, objektive Einblicke für fundierte Geschäftsentscheidungen zu gewinnen. Diese Entscheidungen können sich auf das tägliche Geschäft beziehen, z. B. müssen Kundenfeedback-Daten entsprechend integriert werden, um die Kundenzufriedenheit zu verbessern. Sie können aber auch mittel- oder langfristige Geschäftspläne betreffen, wie z. B. die Anpassung der Preisstrategie basierend auf den Umsatzzahlen des Unternehmens oder die Entscheidung über Fusionen und Übernahmen basierend auf den Marktdaten des Zielunternehmens.
Datenintegration
In den meisten Fällen reicht es nicht aus, nur Daten zu sammeln oder zu kaufen. Ein valider Datensatz als Single Source of Truth ist entscheidend für den Aufbau einer wertvollen Geschäftsanalytik. Daher muss etwas mit den Rohdaten geschehen, bevor Modelle erfolgreich angewendet werden können.
Dieses „etwas“ ist die Datenintegration, d. h. die Kombination von Daten aus verschiedenen Quellen und deren Darstellung in einer einheitlichen Ansicht. Es handelt sich um einen Prozess, der aus verschiedenen Schritten besteht, dazu gehören Bereinigung, Mapping, Merging, Reconciliation, Konsolidierung, Enrichment und Blending der Daten. Dieser Artikel soll einen Überblick über diesen Prozess geben, diese Begriffe entwirren und den Wert der Datenintegration hervorheben.
Der Bedarf an einem Datenintegrationsprozess ergibt sich aus der einfachen Tatsache, dass Daten aus verschiedenen, sich potenziell ständig verändernden Quellen stammen. Während die Daten in diesen Quellen möglicherweise miteinander verwandt sind, werden die meisten Quellen unterschiedliche Strukturen aufweisen. Sie könnten unterschiedliche Aspekte der benötigten Informationen enthalten oder sogar widersprüchliche Angaben machen. Unternehmen müssen in der Lage sein, die Beziehung zwischen den verschiedenen Datenquellen zu finden, die Daten zu bereinigen und alle Informationen zu kombinieren. Andernfalls könnte ihre Geschäftsanalytik auf fehlerhaften oder unvollständigen Daten basieren. Unentdeckte Duplikate in den Daten können ebenfalls zu falschen Schlussfolgerungen und damit zu schlechten Geschäftsentscheidungen führen.
1. Datenbereinigung
Datenbereinigung ist ein offensichtlicher Schritt bei der Erkundung eines neuen Datensatzes. Es umfasst den Umgang mit fehlenden Daten, die Identifizierung und Behandlung ungenauer Daten, Ausreißererkennung, Duplikaterkennung, Standardisierung usw. Je nach Anwendungsfall müssen nicht alle diese Methoden angewendet werden, bevor die Daten integriert werden.
Da Datenbereinigung fast immer eine Voraussetzung für die Einbindung von Daten in analytische Modelle ist, die nicht spezifisch für die Erstellung eines konsolidierten Datensatzes ist, gehen wir hier nicht ins Detail ein. Es ist jedoch ein wichtiger Schritt, da ohne ihn die Datenqualität nicht gewährleistet werden kann und die Ausgabe jedes Datenmodells fragwürdig ist.
2. Daten-Mapping
Daten-Mapping ist einer der ersten Schritte bei der Kombination mehrerer Datensätze in einen einzigen Satz. Es bezieht sich darauf, zu definieren, wie Daten aus einer Quelle mit Daten in einer anderen Quelle in Beziehung stehen. Es umfasst die Erstellung einer Zuordnung zwischen Feldern in verschiedenen Datensätzen oder Systemen, um Daten genau zu transformieren, zu migrieren oder zu integrieren.
Ein einfaches Beispiel sind zwei Datensätze, die Kundeninformationen enthalten. Beide haben einige grundlegende Informationen über den Kunden, wie eine ID, den Namen, die Adresse usw., gemeinsam, aber sie könnten unterschiedliche Bezeichnungen für diese Felder verwenden, z. B. CustomerID vs. client_id oder FirstName und LastName vs. name. Um diese Felder zuzuordnen, muss herausgefunden werden, welche ähnliche Informationen enthalten sind und ob diese Informationen im gleichen Format vorliegen, d. h. stammen CustomerID und client_id aus dem gleichen ID-Universum, oder beziehen sie sich auf etwas anderes, und ist das Namensfeld eine Aggregation von Vor- und Nachnamen oder etwas anderes?
Ein valides Daten-Mapping ist die Grundlage für viele Datenprozesse. Es stellt sicher, dass die Strukturen der Datensätze aufeinander abgestimmt sind, was unerlässlich ist, bevor die einzelnen Einträge der Datensätze betrachtet werden.
3. Daten-Merging
Durch das Mapping der Daten werden gemeinsame Attribute entdeckt. Daten-Merging bedeutet, die Daten auf der Grundlage dieser gemeinsamen Attribute zu kombinieren. Es liefert einen einzigen kohärenten Datensatz, der die Datenanalyse erleichtert.
Typischerweise basiert das Merging auf einem gemeinsamen Identifikator. Ein Beispiel sind Joins in SQL (z. B. LEFT JOIN, INNER JOIN usw.), die auf Primär- und Fremdschlüsseln basieren und zur Kombination normalisierter Daten für die Analyse verwendet werden. Stellen Sie sich eine Kundenverhaltensanalyse vor, bei der Daten über jeden Kunden auf mehrere Tabellen verteilt sind, die jeweils unterschiedliche Informationen wie deren Bestellungen und demografische Daten enthalten.
4. Daten-Reconciliation
Nach dem Mapping der Daten können einige davon leicht zusammengeführt werden; in den meisten Fällen muss jedoch eine Reconciliation (auch als Datenabgleich bezeichnet) erfolgen. Das bedeutet, dass die entsprechenden Einträge aus den verschiedenen Quellen nicht nur identifiziert werden müssen, sondern auch, dass Abweichungen gefunden und aufgelöst werden müssen. Die Suche nach entsprechenden Einträgen aus verschiedenen Datensätzen ist im Wesentlichen eine Duplikaterkennungsaufgabe auf dem kombinierten Datensatz; allerdings werden auch die Strukturen der verschiedenen Datensätze durch Mapping und Reconciliation vereinheitlicht.
Wenn man beispielsweise mit zwei Datensätzen arbeitet, die den Verkauf von Produkten eines Unternehmens enthalten, könnte das Finden der entsprechenden Einträge eine einfache Zusammenführung sein, wenn eine Artikel-ID vorhanden ist. Ist dies nicht der Fall, wird es schwieriger, und andere Attribute wie eine Artikelbeschreibung könnten helfen. Mehrere Verkaufszahlen aus verschiedenen Quellen, die dem gleichen Artikel entsprechen, müssen aufgelöst werden. Wie dies geschieht, hängt von der Art der Daten ab; vielleicht ist ein Datensatz vertrauenswürdiger als der andere, oder möglicherweise enthalten beide gültige Daten aus unterschiedlichen Zeitpunkten, Regionen usw.
Das Ziel ist sicherzustellen, dass Daten über verschiedene Quellen hinweg konsistent und genau sind. Die Reconciliation spielt in diesem Prozess eine entscheidende Rolle. Sie ist daher notwendig für die Konsolidierung von Datensätzen und wenn ein Datensatz (oder ein ganzer Datenanbieter) durch einen anderen Datensatz ersetzt werden soll.
5. Datenkonsolidierung
Datenkonsolidierung bedeutet, Daten aus mehreren Quellen in einem einzigen Datensatz oder einer einzigen Datenbank zu bündeln. Daher geht ihr normalerweise die Datenbereinigung, Duplikaterkennung, Mapping, Merging und Reconciliation voraus.
Eine konsolidierte Ansicht der Daten erhöht die Effizienz der Arbeit mit diesen. Da sie an einem Ort gespeichert sind, muss nicht auf verschiedene Quellen zugegriffen werden. Wichtige Mappings, Merges und Reconciliations sind gespeichert und müssen nicht jedes Mal neu berechnet werden, wenn die Daten verwendet werden. Das Vorhandensein eines einzigen Ortes anstelle vieler, der die relevanten Daten enthält, kann es auch erleichtern, die Einhaltung von Compliance- und Datensicherheitsvorschriften zu gewährleisten.
6. Daten-Enrichment
Daten-Enrichment erweitert bestehende Daten durch Hinzufügen zusätzlicher Informationen aus externen oder internen Quellen. Es kann eine Datenkonsolidierungsaufgabe sein, die weitere Daten zu einem bestehenden konsolidierten Datensatz hinzufügt, anstatt einen völlig neuen zu erstellen, oder ein Daten-Blending-Vorgang (siehe nächster Absatz).
Der Nutzen ergibt sich aus der Annahme, dass ein neuer Datensatz andere Informationen als der vorhandene liefert. Diese Informationen können zusätzliche Felder für bestehende Einträge oder neue Einträge sein. In jedem Fall muss eine Form von Daten-Mapping und Reconciliation angewendet werden, um sicherzustellen, dass der angereicherte Datensatz konsistent und gültig bleibt.
Ein Anwendungsbeispiel für Daten-Enrichment ist ein Unternehmen, das bereits eine Datenbank für seine Lieferanten und die Interaktionen mit diesen hat, aber zusätzliche Informationen über die Lieferanten hinzufügen möchte, wie deren Umsatz, Marktkapitalisierung, Beziehungen zu anderen Unternehmen usw.
7. Daten-Blending
Im Gegensatz zur Datenkonsolidierung ist Daten-Blending eher eine „on the fly“-Methode zur Integration von Daten, bei der die kombinierten Daten nicht unbedingt in einer einzigen Datenbank konsolidiert werden, sondern für Ad-hoc-Analysen verwendet werden. Das Nichtspeichern des zusammengeführten Datensatzes in einer Datenbank ist sinnvoll für explorative Analysen oder Analysen, die so selten durchgeführt werden, dass die Kosten für die Speicherung einer konsolidierten Ansicht höher sind als die des Blendings der Daten während der Nutzung. Es bietet dem Analysten auch eine höhere Flexibilität bei der Entscheidung, wie welche Daten verwendet werden sollen, was für die Exploration ein Vorteil, aber auch ein Risiko für Fehler sein kann.
Ein typisches Beispiel wäre das Blending von Daten aus einer Excel-Tabelle mit Daten aus einer SQL-Datenbank in einem Analysetool. Dieses Beispiel zeigt die Anreicherung einer bestehenden konsolidierten Datenquelle (SQL-Datenbank) mit zusätzlichen Informationen (Excel-Tabelle), ein häufiger Anwendungsfall für Daten-Blending.
Fazit
Obwohl dieser Artikel die verschiedenen Prozesse und Terminologien der Datenintegration entwirrt, überschneiden sich die meisten dieser Prozesse und sind teilweise voneinander abhängig. Beispielsweise kann eine Daten-Reconciliation nicht ohne Daten-Mapping und -Merging erfolgen, und die Begriffe werden häufig synonym verwendet. Die Anreicherung eines Datensatzes ist ohne Mapping, Merging und Reconciliation nicht möglich. Das Ziel all dieser Prozesse ist in der Regel die Erstellung eines konsolidierten Datensatzes. Daher wird Datenkonsolidierung oft als Sammelbegriff für den gesamten Prozess verwendet. Datenkonsolidierung und -Merging beziehen sich darauf, Daten in einem einzigen Datensatz zu kombinieren, haben jedoch einen unterschiedlichen Fokus, nämlich gemeinsamer Datenspeicher vs. Zusammenführung einzelner Dateneinträge. Datenbereinigung kann separat oder als Teil der anderen Prozesse erfolgen. Daten-Blending kann auf konsolidierten oder separaten Datensätzen basieren. Die sieben in diesem Artikel genannten Schritte dienen als Richtlinie für die Prozesse, die für die Datenintegration angewendet werden müssen, und die Reihenfolge, in der sie anzuwenden sind.
Der Bedarf an Reconciliation, Konsolidierung (oder welchen anderen Begriffen auch immer, die für einen spezifischen Anwendungsfall zutreffen) scheint klar und allgemein anerkannt zu sein. Eine größere Herausforderung besteht in der Frage, wie man dieses Ziel erreicht. Die Datenarchitektur oder Pipeline kann variieren; es könnte sogar ein fertiges Softwareprodukt geben, das diese Fragen behandelt. Es ist jedoch wichtig zu beachten, dass die Kombination von Daten letztendlich ein Datenproblem bleibt, das maßgeschneiderte Lösungen erfordert, basierend auf den tatsächlichen Daten und dem geschäftlichen Anwendungsfall. Wir als CID können Sie dabei unterstützen eine maßgeschneiderte Lösung für Ihr Datenproblem zu finden.
Autorin © 2024: Lilli Kaufhold – www.linkedin.com/in/lilli-kaufhold-467659110/