Daten fit für KI machen
Bereiten Sie Ihre Daten für KI vor, sichern Sie Qualität und Compliance, um das volle Potenzial auszuschöpfen und bessere Geschäftsergebnisse zu erzielen.

KI (Künstliche Intelligenz), und insbesondere GenAI (generative künstliche Intelligenz), ist heutzutage allgegenwärtig. Bereits 2024 berichtete McKinsey in einer globalen KI-Umfrage, dass die Einführung von KI unter den Befragten auf 72 % gestiegen ist, verglichen mit etwa 55 % im Vorjahr. Die Nutzung von GenAI hat sich fast verdoppelt und lag bei fast 65 % – ein Trend, der weiter wachsen dürfte.
Nutzen Sie noch keine KI in Ihrem Unternehmen und sind neugierig, was Sie tun müssen, um vom Einsatz von KI-Lösungen zu profitieren? Oder vielleicht haben Sie bereits versucht KI anzuwenden, waren aber von den Ergebnissen enttäuscht? Falls ja, könnte dieser Artikel für Sie von Interesse sein – gerade weil wir uns nicht auf die gehypten Fähigkeiten von KI-Systemen konzentrieren, sondern auf einen oft vernachlässigten Aspekt der erfolgreichen Implementierung einer KI-Lösung: Daten. Die richtigen Daten zu erhalten – also Daten, die nicht nur auf die spezifischen Geschäftsanforderungen zugeschnitten, sondern auch präzise, vollständig, zuverlässig und frei von Verzerrungen sind – ist keine leichte Aufgabe. Doch diese Mühe ist es wert und notwendig, um das Potenzial der KI wirklich auszuschöpfen.
Was soll schon schiefgehen?
Wie so oft im Umgang mit Daten gilt auch hier das Prinzip: „Garbage in, garbage out“ – schlechte Datenqualität führt zwangsläufig zu schlechten Ergebnissen. Algorithmen und Modelle, die erstellt werden, hängen stark von den Daten ab, die ihnen zur Verfügung stehen. Sind diese unvollständig, verzerrt oder fehlerhaft, werden die KI-Modelle diese Mängel widerspiegeln und ungenaue Vorhersagen oder falsche Entscheidungen treffen.
Stellen Sie sich vor, eine Bank verwendet ein KI-System zur Kreditbewilligung. Wenn das verwendete Modell mit veralteten Einkommensdaten oder voreingenommenen menschlichen Entscheidungen trainiert wurde, sind präzise Vorhersagen nicht zu erwarten. Eine Datenbereinigung für diesen speziellen Anwendungsfall wird erforderlich. Wenn die Daten jedoch nicht optimal zwischen den Abteilungen geteilt werden, könnte dies zu doppelter Arbeit und ineffizienter Ressourcennutzung führen. Noch schlimmer wäre es, wenn ein auf fehlerhaften Daten basiertes Modell zur Anwendung kommt. Verzerrte oder inkonsistente Vorhersagen würden nicht nur das Tagesgeschäft der Bank beeinträchtigen, sondern auch das Vertrauen in KI-Lösungen untergraben.
Wenn Sie darin investieren, Ihre Daten KI-fähig zu machen, legen Sie den Grundstein für präzise Vorhersagen und fundierte Entscheidungen. Gut strukturierte, bereinigte Daten verringern zudem den Zeit- und Arbeitsaufwand für die Datenvorbereitung und ermöglichen es Teams, sich auf Innovationen, statt auf Fehlerbehebung zu konzentrieren.
Was geht tatsächlich schief? (Datenprobleme)
Daten stehen im Kern jedes KI-Systems; sie haben einen erheblichen Einfluss auf die Leistung während seines gesamten Lebenszyklus. Beginnend mit den Daten, die für das Training oder das Finetuning eines vortrainierten Modells verwendet werden, über die Daten, auf denen Inferenzen durchgeführt werden, bis hin zu Test- oder Monitoring Daten. Wie bereits erwähnt, stellen ungenaue, fehlerhafte Daten eine Herausforderung dar. Zusätzlich zu Problemen mit der Datenqualität müssen weitere Aspekte berücksichtigt werden, die von Skalierbarkeitsproblemen über Datensegmentierung und Datensilos bis hin zu gesetzlichen und regulatorischen Anforderungen reichen. Der folgende Abschnitt behandelt all diese Themen.
Datenqualität
KI ist nur so gut wie die Daten, auf denen sie basiert. Schlechte Datenqualität kann zu ungenauen Ergebnissen führen, wodurch die Glaubwürdigkeit und Effektivität von KI-Lösungen untergraben wird. Einige der häufigsten Probleme mit der Datenqualität sind:
Unvollständige Daten: Fehlende Werte oder Felder in Datensätzen können zu Modellen führen, die nicht generalisieren. Beispielsweise könnte eine KI im Gesundheitswesen, die mit unvollständigen Patientendaten trainiert wurde, kritische Diagnosen übersehen und dadurch mangelhafte Behandlungsempfehlungen geben.
Ungenaue Daten: Fehler bei der Dateneingabe oder veraltete Informationen können KI-Modelle in die Irre führen. Ein Logistik-KI-System, das sich auf fehlerhafte Bestandsdaten stützt, könnte beispielsweise falsche Entscheidungen im Ressourcenmanagement treffen, was zu Verzögerungen oder Einnahmeverlusten führt.
Duplikate: Redundante Einträge vergrößern den Datensatz, ohne einen Mehrwert zu schaffen. Im Gegenteil, sie verringern sogar den Wert, indem sie potenziell verzerrte Modellausgaben verursachen und unnötig hohe Rechenkosten mit sich bringen. Eine besondere Herausforderung, die in unserer Serie zur Daten-Reconciliation behandelt wird (sehen Sie unten, sind doppelte Daten, die aufgrund unterschiedlicher Datenschemata oder Werteausdrücke schwer zu erkennen sind.
Artikelserie zur Daten-Reconciliation

Herausforderungen bei der Daten-Reconciliation – Eine Beispielanwendung
Sichern Sie die Genauigkeit Ihrer Daten mit maßgeschneiderten Abstimmungslösungen von CID. Erzielen Sie Automatisierung, Qualität und Erkenntnisse für…

Reconciliation – So bringen Sie Ordnung ins Datenchaos
Schöpfen Sie das Potenzial Ihrer Daten aus. Erfahren Sie, wie Sie Silos aufbrechen, Datensätze harmonisieren und fundierte Entscheidungen treffen können.

Von Mapping zu Blending – Klärung der Terminologie der Datenintegration
Entdecken Sie zentrale Prozesse der Datenintegration wie Bereinigung und Mapping zur Verbesserung der Datenqualität für fundierte Entscheidungen.
Outlier (Ausreißer): Extreme Werte können die Modellleistung verzerren, insbesondere bei Regressions- oder Clustering-Algorithmen. Das Erkennen und Behandeln von Ausreißern ist entscheidend für robuste KI-Ergebnisse.
Bias (Verzerrung): Datenverzerrungen können beispielsweise durch historische Ungleichheiten, Stichprobenfehler oder subjektive Urteile entstehen. Sie können zu faktisch falschen oder unfairen und diskriminierenden KI-Ergebnissen führen. Beispielsweise können voreingenommene Personaleinstellungsdaten dazu beitragen, bestehende Ungleichheiten am Arbeitsplatz weiter zu verstärken.
Segmentierung und Silos
Während effektive Datensegmentierung entscheidend für KI-Lösungen ist, die sinnvolle Erkenntnisse liefern, können schlechte Segmentierung und Datensilos den Erkenntnisgewinn einschränken.
Die Segmentierung von Daten in sinnvolle Gruppen (z. B. nach Kundendemografie oder geografischen Regionen) erfordert Fachwissen und klare Ziele. Schlechte Segmentierung kann Muster verschleiern, was zu irrelevanten oder ungenauen Modellausgaben führt. Beispielsweise können betrügerische und legitime Transaktionen nicht ausreichend unterschieden werden, wenn diese nur in ‚online‘ und ‚offline‘ segmentiert werden, während andere relevante Merkmale wie der Transaktionsbetrag oder die Region ignoriert werden.
Oft sind Daten über Abteilungen hinweg verstreut und in inkompatiblen Systemen gespeichert. Diese Fragmentierung ist als Datensilos bekannt und hindert die Integration der für KI benötigten Datensätze. Zum Beispiel kann die separate Speicherung und fehlende Zusammenführung von Marketingdaten und Verkaufsdaten zu einer unvollständigen Analyse des Kundenverhaltens führen.
Das Aufbrechen von Silos ist ein Schritt in Richtung einheitlicher, verständlicher Datensätze, die ein Eckpfeiler erfolgreicher KI-Implementierungen sind. Es erfordert die Verbesserung der Teamzusammenarbeit, die Implementierung zentralisierter Datenplattformen und die Sicherstellung einer konsistenten Datenverwaltung.
Regulatorische und rechtliche Aspekte
Mit dem Aufstieg der KI hat die Bedeutung von regulatorischer und rechtlicher Überprüfung der Datennutzung zugenommen. Die Einhaltung von Gesetzen und Vorschriften ist entscheidend, um rechtliche Haftung und Rufschädigungen zu vermeiden.
Vorschriften wie die DSGVO (Datenschutz-Grundverordnung) in der EU und der CCPA (California Consumer Privacy Act) in den USA verlangen von Organisationen, personenbezogene Daten verantwortungsbewusst zu sammeln, zu speichern und zu verarbeiten. Für KI-Projekte bedeutet dies, dass die Daten anonymisiert und sicher gespeichert werden müssen, und dass sie ausschließlich im Rahmen der gegebenen Einwilligung genutzt werden dürfen.
Kürzlich wurde der EU AI Act verabschiedet, um eine sichere und ethische Nutzung von KI zu gewährleisten. Er klassifiziert KI-Systeme nach Risikostufen und legt spezifische Verpflichtungen für Hochrisiko-Anwendungen fest. Dies umfasst Anforderungen an Transparenz, Robustheit und eine ordnungsgemäße Datenverwaltung. Organisationen müssen sicherstellen, dass KI-Systeme innerhalb dieser Standards betrieben werden, um Strafen zu vermeiden und konform zu bleiben. Bitte lesen Sie unseren Artikel zum EU AI Act für weitere Informationen.
Datenverarbeitung und Speicherung
KI-Modelle profitieren im Allgemeinen von großen Datensätzen. Allerdings kann das enorme Volumen an benötigten Daten zu Herausforderungen bei der Speicherung, Verarbeitung und Analyse führen. Daher erfordert der Umgang mit massiven Datensätzen eine robuste Infrastruktur, wie verteilte Speichersysteme oder Cloud-Plattformen. Ohne diese könnten Organisationen Schwierigkeiten bekommen, ihre KI-Initiativen zu skalieren.
Darüber hinaus erfordern viele KI-Anwendungen Echtzeit- oder nahezu Echtzeit-Daten. Das Einrichten von Pipelines, um Live-Datenströme zu erfassen, zu verarbeiten und zu analysieren, ist technisch anspruchsvoll, aber essenziell für Anwendungen wie Betrugserkennung oder Empfehlungssysteme.
Es gibt auch andere Herausforderungen bei der Verarbeitung von Daten für KI-Anwendungen. Oft müssen unstrukturierte Daten vorverarbeitet werden, z.B. mit Metadaten oder Labels annotiert werden, um sie für KI nutzbar zu machen. Sobald ein KI-Modell erfolgreich bereitgestellt ist, muss seine Leistung überwacht werden. Andernfalls könnten Veränderungen in den Datenmustern, sogenannte Konzept-Drifts, unbemerkt bleiben, und das Modell würde zunehmend Schwierigkeiten haben, mit einer dynamischen, sich ständig verändernden Welt umzugehen.
Was kann man tun? (Lösungen)
Um das volle Potenzial von KI zu entfalten, müssen Daten zugänglich, zuverlässig und bereit für die Analyse gemacht werden. Daher muss man Herausforderungen wie schlechte Datenqualität, fragmentierte Silos und regulatorische Einschränkungen überwinden. Data Governance spielt dabei eine wichtige Rolle, indem sie den Rahmen für das effektive Management von Daten bietet.
Eines der Hauptprobleme beim Zugänglichmachen von Daten liegt in übermäßig segmentierten Datensilos. Die Wahl der geeigneten Datenarchitektur, die die erwartete Datenmenge verarbeiten kann und dabei hilft, Aspekte der Daten zu zentralisieren, ist ein wichtiger Teil der Lösung. Bitte lesen Sie unseren Artikel über moderne Datenarchitekturen, um mehr zu erfahren.
Effektives Master Data Management schafft eine einheitliche, konsistente Sicht auf kritische Daten über Systeme hinweg, indem es einen einzigen Master-Datensatz für funktionale Geschäftseinheiten (z. B. Kunden, Produkte usw.) erstellt. Es beseitigt Duplikate und behebt Unstimmigkeiten in den gemeinsam genutzten Schlüsselinformationen des Unternehmens.
Die Erstellung eines Datenkatalogs ist ein entscheidender Schritt zur Optimierung von Datenbeständen und zur Zusammenarbeit an Datenressourcen in Ihrem Unternehmen. Dies erfordert eine sorgfältige Bewertung aller verwendeten Daten und deren Anreicherung mit sinnvollen Metadaten. Ein Datenkatalog macht Daten leicht auffindbar und transparenter und reduziert Duplikate. Er ist daher ein weiterer Schritt zur Beseitigung von Datensilos.
Das Datenqualitätsmanagement umfasst die Bereinigung, Validierung und Überwachung der Daten. Es sollte von automatisierten Tools unterstützt werden, die z. B. auf potenzielle Fehler und Inkonsistenzen in den Daten hinweisen oder diese sogar automatisch beheben können. Datenqualitätsmanagement ist nicht nur eine Lösung für alle potenziellen Datenqualitätsprobleme selbst, sondern bietet auch Vorteile durch Monitoring und Warnmeldungen, die unbemerkte Konzept-Drifts während der Lebensdauer einer KI-Anwendung verhindern können.
Das Befolgen von Sicherheits- und Datenschutzstandards durch die Verwendung von Anonymisierungs-, Pseudonymisierungs- und Verschlüsselungstechniken ist entscheidend für die Einhaltung der geltenden Gesetze und den Schutz sensibler Informationen. Es ist wichtig, schon vor dem Sammeln von Daten über die mögliche Nutzung der Daten nachzudenken, um sicherzustellen, dass alle notwendigen Zustimmungen eingeholt und die entsprechenden Informationen gespeichert werden. Andernfalls könnten Sie einen Plan für eine KI-Lösung haben, der auf dem Papier perfekt ist, aber niemals umgesetzt werden kann, weil die Verwendung der erforderlichen Daten gesetzlich verboten ist.
Obwohl es Datenmanagementsysteme und andere Software gibt, die Ziele der Daten-Governance unterstützen, werden diese leider nicht alle potenziellen Probleme Ihrer Daten magisch lösen. Sie können jedoch hilfreiche Werkzeuge sein, um einen sauberen Datensatz zu erstellen. Ob ein Fertigprodukt Ihren Bedürfnissen entspricht, ob Sie eine maßgeschneiderte Lösung benötigen oder etwas das dazwischen liegt, ist eine sehr individuelle Entscheidung. Wir bei CID können Ihnen helfen, Ihre derzeitige Datennutzung zu durchleuchten und einen Plan zu erstellen, um Ihre Daten in das Zeitalter der KI zu führen.
Was nun? (Fazit)
Die Vorbereitung Ihrer Daten für KI kann wie eine mühsame Aufgabe wirken, die keinen sofortigen, inhärenten Wert zeigt. Diese Ansicht ist jedoch eher kurzsichtig und lähmt alle datengetriebenen Initiativen, seien es KI oder BI-Lösungen, noch bevor sie überhaupt beginnen können. Es erfordert Aufmerksamkeit für Details, die Einhaltung von Best Practices und kontinuierliche Verbesserungen. Durch die Behebung von Qualitätsproblemen und die Sicherstellung der Datenzugänglichkeit können Organisationen das volle Potenzial von KI freisetzen, um ihre Organisation zu transformieren.
Bereit, loszulegen? Kontaktieren Sie uns, um mit der Analyse Ihrer aktuellen Datenpraktiken zu beginnen und eine Roadmap für die KI-Befähigung zu erstellen – es ist eine Investition, die sich auszahlt.
Autorin © 2025: Lilli Kaufhold – www.linkedin.com/in/lilli-kaufhold/
Weitere Medieninhalte

Reconciliation – So bringen Sie Ordnung ins Datenchaos
Reconciliation ist ein entscheidender Schritt, um die Konsistenz Ihrer Daten sicherzustellen. Bei CID sind wir darauf spezialisiert, maßgeschneiderte…

Cloud-native Software: ein Fundament für die Zukunft Ihres Unternehmens
Unternehmen müssen sich stets an neue Anforderungen anpassen. Erfahren Sie, warum Cloud-native Software, die auf modernen, entkoppelten…

Softwarearchitektur: Systeme nach Ihrem Bedarf
Die Softwarearchitektur ist entscheidend für robuste Anwendungen, vermeidet Skalierbarkeitsprobleme und gewährleistet effiziente Leistung.