Die Rolle von KI im Data Engineering: Wie Arbeitsabläufe und Effizienz transformiert werden

Künstliche Intelligenz (KI) und Generative Künstliche Intelligenz (GenAI) verändern rasant die Art und Weise, wie Branchen Automatisierung, Datenanalyse und Produktivität angehen. KI wird dabei häufig mit Machine Learning (ML), das heißt Algorithmen, die automatisch wertvolle Erkenntnisse aus Daten gewinnen, in Verbindung gebracht. Bei GenAI denkt man zunächst an Anwendungen wie ChatGPT für Konversations-KI oder DALL·E zur Bildgenerierung. Die Einsatzmöglichkeiten sind jedoch weitaus umfassender. Wenn Sie Entwickler sind oder Programmieren generell Teil Ihres Arbeitsalltags ist, sind Sie vermutlich bereits auf GenAI als Hilfsmittel zur Code-Generierung und -Optimierung gestoßen.

Ein Bereich, in dem GenAI zunehmend Potenzial entfaltet, ist Data Engineering. In diesem Artikel veranschaulichen wir den Einsatz von KI auf diesem Gebiet. Data Engineering umfasst die Konzeption, den Aufbau und die Wartung von Datenpipelines, die es Unternehmen ermöglichen, Daten effizient zu erfassen und zu speichern. Damit bildet es eine essenzielle Grundlage für Organisationen, die Daten für maschinelles Lernen, Analysen und Business Intelligence nutzen möchten.

Anwendungsbeispiele

KI kann dazu beitragen, Aufgaben im Data Engineering effizienter und skalierbarer zu gestalten. Nachfolgend finden sich einige zentrale Bereiche, in denen KI einen erheblichen Mehrwert bieten kann.

Code-Generierung

Da das Erstellen von Code, sei es für eigenständige Skripte oder produktionsreife Software, ein fester Bestandteil des Data Engineerings ist, sind GenAI-Fähigkeiten zur Code-Generierung hilfreich. Ein Data Engineer kann beispielsweise in natürlicher Sprache beschreiben, was erreicht werden soll, und ein KI-Assistent erstellt daraufhin einen ersten Codeentwurf. Ebenso können Data Engineers bei Problemen im bestehenden Code Unterstützung anfordern. Natürlich bleibt es unerlässlich, dass der Data Engineer den Code versteht, um seine Richtigkeit sicherzustellen und zu vermeiden, dass eine “Black-Box”-Anwendung entsteht, die sich der menschlichen Kontrolle entzieht. Wichtig ist: Die Möglichkeiten der GenAI-Codegenerierung sind begrenzt, bei komplexen oder neuartigen Aufgabenstellungen stößt sie schnell an ihre Grenzen. „Reasoning“-Modelle, also Modelle, die entlang einer kohärenten Argumentationslinie Entscheidungen treffen, sind für die Codegenerierung besser geeignet als Modelle ohne diese Fähigkeiten. Es bleibt essenziell, KI als begrenzten Assistenten zu betrachten und nicht als vollwertigen, eigenständigen Programmierer. Dieser Hinweis gilt gleichermaßen für alle folgenden Beispiele.

Automatisierung von Datenpipelines

KI-gestützte Tools können die Erstellung einfacher ETL-/ELT-Skripte (Extract, Transform, Load) in Sprachen wie SQL und Python unterstützen und den manuellen Aufwand für den Aufbau und die Pflege von Datenpipelines deutlich reduzieren. Diese Tools können bestehende Workflows analysieren sowie Code für ETL-Prozesse vorschlagen oder generieren. So können zum Beispiel SQL-Befehle aus natürlicher Sprache heraus automatisch erzeugt werden.

Optimierung von Abfragen

KI kann Abfragemuster analysieren, Ineffizienzen erkennen und Optimierungsvorschläge machen, um die Performance zu verbessern. ML-Modelle sind in der Lage, optimale Ausführungspläne für Abfragen vorherzusagen und damit Latenzzeiten sowie Ressourcenverbrauch in großen Datenbanken zu senken.

Erzeugung synthetischer Daten

Der Zugang zu wertvollen Daten kann und sollte in vielen Fällen stark eingeschränkt werden. Beispielsweise müssen sensible Informationen wie personenbezogene Daten (PII) vor unbefugtem Zugriff geschützt werden. Häufig stehen auch während der Entwicklungsphasen noch keine realen Daten zur Verfügung. Trotzdem müssen Data Engineers Datenpipelines entwickeln, was ohne verfügbare Basisdaten eine große Herausforderung darstellt.

Sind die zugrundeliegenden Informationen bekannt, kann KI synthetische Datensätze generieren, die reale Strukturen und Verteilungen nachbilden. Dies ist besonders hilfreich, wenn Datenschutz eine große Rolle spielt oder wenn mit unvollständigen Datensätzen gearbeitet wird. Synthetische Daten ermöglichen es, ML-Modelle zu testen und deren Robustheit zu verbessern ohne sensible Informationen zu kompromittieren.

Daten-Labeling

Das Labeln großer Datensätze ist äußerst zeitaufwändig, aber insbesondere für Supervised Learning Verfahren unverzichtbar. KI-gestützte Tools können diesen Prozess automatisieren, indem sie Daten taggen und klassifizieren, und so den Aufwand erheblich reduzieren. Allerdings sollten die Modelle kontinuierlich überwacht und durch menschliche Validierung verbessert werden. Zudem kann die KI Edge-Cases identifizieren, die eine menschliche Überprüfung erfordern.

In einem früheren Projekt bei CID, noch vor dem aktuellen KI-Hype, haben wir beispielsweise Ereignisse in Nachrichtenartikeln automatisch erkannt und klassifiziert. Da keine fertigen Trainingsdaten für unsere spezifischen Ereignisdefinitionen existierten, mussten wir die Labeling-Arbeit selbst übernehmen. Wir nutzten die Ergebnisse des bestehenden Modells, um die vielversprechendsten Dokumente für weiteres Labeln und damit die Weiterentwicklung der Modelqualität zu identifizieren. Mit den heutigen GenAI-Fähigkeiten wäre ein erheblicher Teil dieser manuellen Arbeit entfallen.

Schema-Mapping

KI kann unterschiedliche Schemata aus verschiedenen Datenbanken analysieren, Ähnlichkeiten erkennen und passende Zuordnungen vorschlagen. Beispielsweise lassen sich Felder wie „name“ und „full_name“ bei Personendaten oder „{‘price’: x, ‘currency’: ‘USD’}“ und „price_usd“ bei Produktpreisen automatisch zusammenführen. Dies ist besonders bei Datenintegrationsprojekten von Bedeutung, bei denen Datensätze aus unterschiedlichen Quellen zusammengeführt werden müssen, ohne die Konsistenz zu gefährden. Wie bereits bei der Codegenerierung gilt jedoch auch hier: KI kann das Problem nicht in allen Fällen automatisch lösen. Fehlen notwendige Informationen in den Daten oder deren Beschreibung, wird auch eine KI scheitern. Zum Beispiel könnte eine KI annehmen, dass ein Preis in USD angegeben ist, obwohl es sich in Wahrheit um Euro handelt.

Einschränkungen von KI im Data Engineering

Genauigkeit und manuelle Überprüfung

Trotz aller Fortschritte sind KI-generierte Ergebnisse nicht immer zu 100 % korrekt. Deshalb ist menschliche Aufsicht notwendig, insbesondere bei kritischen Aufgaben im Data Engineering, bei denen Fehler schwerwiegende Auswirkungen auf nachgelagerte Prozesse haben können.

Selbst scheinbar einfache Aufgaben, wie etwa das zuvor beschriebene Schema-Mapping, können sich als komplex erweisen, insbesondere wenn der erforderliche Kontext fehlt. Ein KI-System könnte beispielsweise voreilig annehmen, dass „customer_id“ stets dieselbe Bedeutung hat. Dabei könnte es sich je nach Kontext aber beispielsweise entweder um einen Endkunden oder einen Vertriebspartner handeln. Zusätzlich variieren Namenskonventionen oft von System zu System. So könnte im einen System die Kunden-ID „client_id“ heißen, während sie im anderen schlicht als „id“ bezeichnet wird und „client_id“ etwas völlig anderes bedeutet. Diese Unterschiede sind schon für Menschen schwierig zu erfassen; umso wichtiger ist es, der KI den nötigen Kontext zu liefern und die Ergebnisse kontinuierlich zu überwachen. Unentdeckte Fehler in der KI-Ausgabe können zur Verfälschung ganzer Datenpipelines führen, mühsam gepflegte Metadaten unbrauchbar machen und das Vertrauen in die Datenqualität untergraben.

Datenbias

KI-Modelle lernen aus historischen Daten und diese Daten enthalten oft Verzerrungen. Wenn ein System zur Überwachung der Datenqualität nur auf einen eingeschränkten Datenausschnitt (z. B. nur eine Produktgruppe) trainiert wird, kann es unter Umständen auf andere Bereiche nicht richtig verallgemeinern. Werden diese Verzerrungen nicht erkannt, kann das zum falschen Alarm oder einem Nichterkennen von Problemen führen. Eine vielfältige und repräsentative Datenbasis ist essenziell, um dieses Risiko zu minimieren.

Ein besonderes Problem tritt auf, wenn ein auf verzerrten Daten trainiertes System anschließend als Basis für ein weiteres Modell dient und so die Verzerrung verstärkt. Auch deshalb ist es wichtig, Bias frühzeitig zu erkennen und aus der Pipeline zu eliminieren.

Interpretierbarkeit

KI-gestützte Entscheidungsprozesse sind häufig schwer nachvollziehbar. Insbesondere Deep-Learning-Modelle, wie die in GenAI-Anwendungen eingesetzten Large Language Modelle (LLMs), haben Schwierigkeiten mit der Erklärbarkeit. Bei traditionellen ML-Ansätzen wie Entscheidungsbäumen oder linearer Regression hingegen sind Entscheidungswege meist besser nachvollziehbar.

Fehlende Interpretierbarkeit in Kombination mit unvollkommener Genauigkeit kann erhebliche Herausforderungen beim Debugging verursachen. Wenn etwas schiefläuft, muss der Engineer unter Umständen darüber spekulieren, warum die KI so gehandelt hat und hat womöglich keine Möglichkeit, den Fehler direkt zu korrigieren. Manchmal bleiben Fehler sogar gänzlich unbemerkt. Gerade in regulierten Umgebungen, die Transparenz erfordern, ist es entscheidend, die Entscheidungswege von KI-Systemen nachvollziehen zu können.

Sicherheit und Compliance

Wir haben bereits darauf hingewiesen, dass fehlende Interpretierbarkeit ein Compliance-Risiko darstellen kann, insbesondere in hochregulierten Branchen wie dem Finanz- oder Gesundheitswesen. Wenn bei einem Audit eine transparente Dokumentation der Datenflüsse gefordert wird, kann eine KI-„Blackbox“ ein erhebliches Risiko darstellen. Alle durch KI generierten Datenworkflows müssen daher den geltenden Standards und Regularien entsprechen, etwa der DSGVO oder dem EU-AI-Gesetz.

Besonders zu berücksichtigen ist der konforme Zugriff auf sensible Daten. Auch wenn dies in einigen Fällen offensichtlich erscheint, etwa beim Schutz personenbezogener Informationen vor unkontrolliertem Einsatz in externen KI-Tools, lauern Risiken bereits in frühen Entwicklungsphasen. Schon beim Aufbau einer Datenpipeline kann es zu unbeabsichtigten Datenlecks kommen. Hier ist größte Sorgfalt gefragt, um zu bewerten, welche Informationen wie geschützt werden müssen. KI-Tools müssen unbedingt den besten Sicherheitspraktiken entsprechen, um Datenpannen und rechtliche Konsequenzen zu vermeiden.

Fazit und Ausblick

KI spielt bereits eine wichtige Rolle im Data Engineering, indem sie Aufgaben effizienter gestaltet, schnellere Erkenntnisse ermöglicht und neue Ansätze wie die Generierung synthetischer Daten unterstützt. Doch sie ist keine universelle Lösung, die sämtliche Herausforderungen auf einen Schlag beseitigt. Reale Probleme wie ungenügende Datenqualität, Bias, fehlende Transparenz und regulatorische Anforderungen bleiben bestehen. Je mehr KI-Tools in Datenworkflows integriert werden, desto wichtiger wird es, Innovationsfreude mit einem klaren Blick auf die Grenzen und Risiken zu verbinden.

Der Einfluss von KI auf das Data Engineering wird sich in den kommenden Jahren weiter verstärken. Jetzt ist der richtige Zeitpunkt für Organisationen, die notwendigen Grundlagen zu schaffen: Investitionen in Datenqualität, Aufbau robuster Governance-Strukturen und erste Experimente mit KI-Tools in kontrollierten, gut verstandenen Umgebungen. Eine verantwortungsvolle Einführung heute schafft die Flexibilität, sich künftigen technologischen Entwicklungen erfolgreich anzupassen.

Sind Sie bereit, loszulegen? Kontaktieren Sie uns, um Ihre Situation gemeinsam zu analysieren. Wir freuen uns darauf, mit Ihnen einen pragmatischen, durchdachten Weg zur Einführung von KI zu gestalten.

Die Rolle von KI im Data Engineering: Wie Arbeitsabläufe und Effizienz transformiert werden

Anwendungsbeispiele

Code-Generierung

Automatisierung von Datenpipelines

Optimierung von Abfragen

Erzeugung synthetischer Daten

Daten-Labeling

Schema-Mapping

Einschränkungen von KI im Data Engineering

Genauigkeit und manuelle Überprüfung

Datenbias

Interpretierbarkeit

Sicherheit und Compliance

Fazit und Ausblick

Autor

Teilen

Weitere Beiträge

Von einem monolithischen Altsystem zu modernen Microservices

Moderne Ansätze für Data-Platforms

Neueste Medieninhalte

Softwarearchitektur: Systeme nach Ihrem Bedarf

Cloud Native – Fundament moderner Softwareentwicklung

Team Talks: Software und Infrastruktur – Symbiose des Business-Erfolgs