Data Governance: Wem gehören eure Daten?

In fast jedem Unternehmen gibt es irgendwann dieses Meeting. Vertrieb und Controlling sitzen am Tisch. Beide haben Zahlen. Beide kommen aus dem eigenen System. Beide sehen unterschiedlich aus. Zwanzig Minuten lang diskutiert man, welche Zahl die richtige ist. Am Ende einigt man sich auf eine Zahl, weil die Besprechung weitermuss.

Niemand weiß es wirklich. Niemand ist dafür zuständig.

Das ist der Ausgangszustand, in dem AI Projekte in deutschen Unternehmen meistens starten. Und der Hauptgrund, warum so viele von ihnen nicht ankommen.

Was "niemand ist zuständig" für AI bedeutet

In klassischen Reporting-Umgebungen ist das "Welche-Zahl-stimmt?"-Problem ärgerlich. Bei AI ist es gefährlich.

AI Modelle lernen aus Daten. Sie lernen Muster, Zusammenhänge, Kausalitäten. Wenn die Datenbasis, auf der sie trainiert werden, inkonsistent ist, lernen sie Inkonsistenz. Wenn niemand für Datenqualität verantwortlich ist, wird niemand bemerken, dass ein Sensor seit drei Monaten fehlerhafte Werte liefert, bevor das Modell tausende falsche Empfehlungen ausgegeben hat. Oder dass die Kundendaten, auf denen das Churn-Modell trainiert wurde, von drei Abteilungen mit drei verschiedenen Definitionen befüllt wurden.

IBM hat es präzise formuliert: "AI systems inherit and amplify data quality issues." Sie übernehmen das Problem. Und sie skalieren es.

Gartner prognostiziert: Bis 2027 werden 80 % der Data Governance Initiativen scheitern, weil sie nicht an echte Geschäftsergebnisse geknüpft sind. Und bis 2026 werden laut einer Gartner-Befragung von 248 Data Management Führungskräften 60 % der AI Projekte aufgegeben, weil ihre Daten nicht AI-tauglich sind.

Das eine bedingt das andere. Ohne Governance keine Qualität. Ohne Qualität keine AI.

Was Data Governance eigentlich bedeutet -- und was nicht

Data Governance ist kein IT-Projekt. Es ist auch keine neue Software. Es ist die Antwort auf eine einzige Frage: Wer in diesem Unternehmen ist für welche Daten verantwortlich?

Das klingt einfach. Es ist es nicht.

Stell dir ein Produktionsunternehmen vor. Es hat ein ERP-System mit Artikelstammdaten. Außerdem ein CRM, das dieselben Produkte unter anderen Bezeichnungen führt. Außerdem Excel-Listen im Einkauf mit eigenen Kategorisierungen. Drei Systeme, drei Wahrheiten, kein Verantwortlicher. Wenn jetzt ein AI Modell für die Absatzprognose auf alle drei Quellen zugreift, addiert es Äpfel, Birnen und Kategorien, die nur der Einkauf kennt. Das Modell ist nicht falsch gebaut. Es lernt aus dem, was es bekommt.

Data Governance löst das. Nicht technisch, sondern organisatorisch. Es legt fest, welches System für welchen Datenbereich die führende Quelle ist. Und es benennt die Person, die dafür einsteht.

Nur 5 % der deutschen Unternehmen haben das vollumfänglich implementiert. 24 % haben noch überhaupt keine Governance-Strukturen. Das zeigt die IBsolution-Studie "Data Governance in volatilen Zeiten", eine der wenigen belastbaren Erhebungen für den DACH-Markt. Das Institut der deutschen Wirtschaft (IW Köln) kommt in seiner DEMAND-Studie auf 2 %, wenn man die Latte auf "strukturiert kontrollierte, unternehmensweite Regeln" legt.

Das ist kein Nischenthema für Konzerne. Es ist der Normalzustand im deutschen Mittelstand.

Warum die meisten Governance-Initiativen scheitern -- bevor sie beginnen

Gartner hat 2024 eine Prognose veröffentlicht, die aufrüttelt: 80 % der Data Governance Initiativen scheitern bis 2027. Das klingt nach Kapitulation vor dem Thema. Ist es aber nicht.

Gartner-Analyst Saul Judah erklärt das Muster: Governance-Programme scheitern, wenn sie als zentralistische "Command-and-Control"-Initiative aufgesetzt werden. Wenn eine IT-Abteilung Regeln definiert, die Fachabteilungen nicht verstehen und nicht mitgestaltet haben. Wenn Governance als Selbstzweck betrieben wird, anstatt als Mittel zu klar definierten Geschäftsergebnissen.

Sein Rat ist eindeutig: "CDAOs should stop taking a center-out, command-and-control approach to D&A governance, and instead rescope their governance to target tangible business outcomes."

Was das in der Praxis bedeutet: Governance startet nicht mit einem Framework oder einem Tool. Es startet mit einer Frage, die jeder Fachbereich beantworten kann: "Welche Daten braucht ihr, um eure wichtigsten Entscheidungen besser zu treffen?" Wer mit dieser Frage beginnt, baut Governance von unten nach oben, mit Fachbereichen als Treiber statt als Betroffene.

Data Governance Rollen: Data Owner, Data Steward, Governance Officer

Funktionierende Data Governance beruht auf drei Rollen. Die meisten deutschen Unternehmen haben keine davon explizit besetzt.

Data Owner ist eine Person aus dem Fachbereich mit Entscheidungsbefugnis. Der Vertriebsleiter für Kundendaten, der Finanzchef für Buchhaltungsdaten, HR für Mitarbeiterdaten. Nicht die IT. Der Data Owner entscheidet, wer auf Daten zugreifen darf, was als "korrekt" gilt und ob ein AI Projekt diesen Datenbereich verwenden darf.

Ohne Entscheidungsbefugnis und Budget ist die Rolle wirkungslos. Das ist ein häufiger Fehler: Jemand bekommt den Titel "Data Owner", aber wenn er oder sie eine Entscheidung treffen möchte, muss erst die IT, dann der Abteilungsleiter, dann noch jemand zustimmen. Formale Ownership ohne echte Autorität produziert Frustration, keine Governance.

Data Steward ist die operative Brücke zwischen Fachbereich und IT. Oft ein Business Analyst oder erfahrener Controller. Diese Person pflegt den Datenkatalog, überwacht Qualitätschecks, definiert Business-Begriffe. Was bedeutet "aktiver Kunde" in eurem Unternehmen? Ab wann gilt eine Bestellung als abgeschlossen? Zahlt eine Retoure noch auf den Umsatz ein oder nicht?

Diese Definitionen müssen existieren, schriftlich, für alle einsehbar. Sonst baut jede Abteilung ihre eigene Version. Und jedes AI Modell, das quer durch Abteilungsgrenzen trainiert wird, lernt die Inkonsistenz zwischen diesen Versionen.

Data Governance Officer koordiniert über Abteilungsgrenzen hinweg. In größeren Unternehmen eine eigene Funktion, im Mittelstand oft die CTO oder ein erfahrener Controller in erweiterter Rolle. Aufgabe: Konflikte moderieren, die unvermeidlich entstehen, wenn zwei Abteilungen verschiedene Interessen an denselben Daten haben. Compliance-Status berichten. Die Roadmap priorisieren.

Diese drei Rollen zu besetzen kostet kein zusätzliches Budget. Es kostet Klarheit und die Bereitschaft, Verantwortung zuzuweisen.

Was ein Datenkatalog ist und warum er AI Projekten Monate spart

Wenn Governance die Struktur ist, ist ein Datenkatalog das sichtbare Ergebnis. Er beantwortet die Fragen, auf die Data Scientists in jedem Projekt Stunden oder Tage warten: Welche Daten haben wir? Wo liegen sie? Wer ist verantwortlich? Wie aktuell sind sie? Was bedeuten die einzelnen Felder?

Ohne Datenkatalog verbringen hochqualifizierte Fachleute einen Großteil ihrer Zeit damit, diese Fragen durch persönliche Nachfragen, E-Mail-Ketten und Ausprobieren zu beantworten. IBM schätzt, dass Data Scientists 50--80 % ihrer Arbeitszeit für Datensuche und -vorbereitung aufwenden, nicht für Modellentwicklung.

Ein Datenkatalog hat vier Kernelemente:

Business Glossar. Zentrale Definitionen aller relevanten Geschäftsbegriffe. Was bedeutet "Umsatz" bei euch? Brutto, netto, nach Retouren, vor Skonto? Was ist "aktiver Kunde"? Eine Person, die in den letzten 12 Monaten gekauft hat? 24 Monate? Was gilt bei B2B mit Rahmenverträgen?

Diese Definitionen klingen trivial. In der Praxis haben sie in fast jedem Projekt, das wir begleitet haben, zu stundenlangen Diskussionen geführt. Ein Business Glossar, das diese Fragen ein für alle Mal klärt, spart bei jedem folgenden Projekt Zeit.

Data Dictionary. Für jede relevante Tabelle und jedes relevante Feld: Name, Datentyp, Beschreibung, welche Werte sind möglich, Data Owner, wann zuletzt aktualisiert. Das klingt nach Bürokratie. In einem Projekt, in dem ein Data Engineer herausfindet, dass ein Feld "null" nicht "leer" bedeutet, sondern "kein Wert erfasst wurde, weil der Prozess damals anders war", ist ein sauberes Data Dictionary bares Geld.

Data Lineage. Woher kommen die Daten? Welches Quellsystem speist welches Warehouse-Feld? Wenn in einem Dashboard ein falscher Wert erscheint, ermöglicht Data Lineage die Rückverfolgung in Minuten statt in Tagen. Für AI Projekte ist Lineage außerdem Pflicht unter dem EU AI Act: Wer hat welche Daten in welches Modell eingebracht?

Zugriffsregeln. Wer darf welche Daten sehen? Auf welcher Grundlage? Wann wurde der Zugriff genehmigt? Für AI Projekte: Welche Datensätze dürfen für Training genutzt werden? Welche personenbezogenen Merkmale müssen vor dem Training anonymisiert werden?

Für den Einstieg reicht oft ein gut gepflegtes Wiki. Microsoft Purview (für Azure-Kunden kostenlos in der Basisversion), Atlan oder OpenMetadata (Open Source) sind ausgereifte Tools für Unternehmen, die skalieren möchten.

Data Governance Bestandsaufnahme?

Wir analysieren eure Datenlandschaft und identifizieren die wichtigsten Governance Lücken.

Gespräch vereinbaren

Das Single Source of Truth Problem

Das häufigste Datenproblem in Unternehmen, die AI einführen wollen, ist auch das einfachste zu benennen und das schwierigste zu lösen: Es gibt keine Single Source of Truth.

Stell dir ein Unternehmen vor, das ein Predictive Maintenance Modell für seine Produktionsanlagen bauen will. Die Maschinendaten liegen im Leitsystem. Die Wartungshistorie liegt in einem separaten Wartungsmanagement-System. Die Produktionspläne liegen in Excel-Dateien beim Schichtleiter. Und die Ausfallstatistiken werden manuell in eine Access-Datenbank eingepflegt, die seit 2018 niemand mehr aktualisiert hat.

Das Modell kann auf alle diese Quellen zugreifen. Aber es lernt aus vier Systemen, die nie aufeinander abgestimmt wurden, mit verschiedenen Zeitstempeln, verschiedenen Granularitäten, verschiedenen Definitionen von "Ausfall". Es ist nicht möglich, aus dieser Datenbasis ein verlässliches Modell zu bauen, egal wie gut der Algorithmus ist.

Data Governance löst dieses Problem nicht durch Technik. Es löst es, indem es vorab festlegt: Welches dieser vier Systeme ist führend für welchen Aspekt? Wer harmonisiert die Daten, wenn sie divergieren? Wer entscheidet, was in das Training darf?

Das sind organisatorische Entscheidungen. Sie können nicht von einem Data Engineer in der zweiten Projektwoche getroffen werden. Sie müssen vom Management kommen.

Der EU AI Act: Governance wird Rechtspflicht

Für viele Unternehmen bleibt der EU AI Act noch abstrakt. Das ändert sich, sobald man Artikel 10 liest.

Artikel 10 ist die Kernanforderung an Data Governance für Hochrisiko AI Systeme. Er ist seit August 2025 in Kraft und wird ab August 2026 vollständig durchgesetzt. Die Anforderungen sind konkret:

Trainingsdaten müssen dokumentiert sein: Herkunft, Erhebungsmethode, Vorbereitungsschritte. Mögliche Verzerrungen (Bias) müssen erkannt, bewertet und adressiert sein. Die Datensätze müssen relevant, hinreichend repräsentativ und möglichst fehlerfrei sein. Datenzugriffe müssen nachvollziehbar sein.

Artikel 17 geht weiter. Er verlangt ein vollständiges Qualitätsmanagementsystem (QMS) für Anbieter von Hochrisiko AI, das unter anderem ein dokumentiertes Datenmanagementsystem umfasst: Erfassung, Sammlung, Analyse, Labeling, Speicherung, Filterung, Aggregation, Aufbewahrung.

Hochrisiko AI umfasst unter anderem: AI im Personalbereich, Kreditvergabe, medizinische Diagnose, kritische Infrastruktur. Wer in diesen Bereichen AI betreibt oder nutzt, unterliegt diesen Anforderungen.

Die Strafen: Bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes für Verstöße gegen Datenqualitätspflichten bei Hochrisiko AI.

Die wichtigste Erkenntnis: Was der EU AI Act für Compliance verlangt, ist dieselbe Datenbasis, die für gute AI Ergebnisse nötig ist. Governance ist keine Bremse für AI Adoption. Sie ist die Voraussetzung für AI, die hält, was sie verspricht.

DSGVO, KI und EU AI Act: Was sich überschneidet

82 % der deutschen Unternehmen nennen regulatorische Hürden als Bremse für den AI Einsatz, zeigt die Lünendonk-Studie 2024. Viele verstehen DSGVO und EU AI Act als doppelte Last. Tatsächlich ergänzen sie sich.

Die DSGVO regelt den Schutz personenbezogener Daten. Der EU AI Act fügt dazu: Auch wenn Daten DSGVO-konform erhoben wurden, gelten für ihre Nutzung in AI Trainingsdaten zusätzliche Qualitäts- und Dokumentationspflichten.

Das Spannungsfeld: Die DSGVO verlangt Datensparsamkeit, nur erheben, was notwendig ist. Artikel 10 des EU AI Act verlangt repräsentative Datensätze, also ausreichend Daten, damit das Modell fair und vollständig lernt. Dieser Widerspruch lässt sich durch Pseudonymisierung und kontrollierte Anonymisierung lösen. Aber er lässt sich nicht ignorieren.

Praktische Empfehlung: Datenschutzbeauftragte früh in AI Projekte einbinden. Die Fragen "Dürfen wir diese Daten für Training nutzen?" und "Sind die Daten dafür geeignet?" müssen gemeinsam beantwortet werden, nicht sequenziell.

Wie IBM Watson zeigt, was ohne Governance passiert

IBM hat mehrere Milliarden Dollar in Watson for Oncology investiert. Das Versprechen: Ein AI System, das Ärzte bei Krebsbehandlungen unterstützt und Therapieempfehlungen basierend auf Patientendaten und medizinischer Literatur macht.

Das System wurde mit hypothetischen Patientenszenarien trainiert, nicht mit realen Patientendaten. Die Datenbasis stammte primär aus wenigen US-Krankenhäusern mit spezifischem Patientenprofil: meistens wohlhabende, gut versicherte Patientinnen und Patienten in westlichen Gesundheitssystemen. Beim globalen Einsatz, in Kliniken in Asien, Europa, Lateinamerika, empfahl Watson Behandlungen, die Ärzte als unsicher, unangemessen oder irrelevant für ihre Patientenpopulation bewerteten.

2018 wurde das Programm in mehreren Kliniken eingestellt. IBMs eigene interne Analyse, die 2018 durch eine Recherche öffentlich wurde, beschrieb Empfehlungen als "unsafe and incorrect".

Das Problem war nicht der Algorithmus. Es war, dass niemand vor dem Training die Frage gestellt hatte: Repräsentieren diese Daten die Patienten, für die das System eingesetzt werden soll? Eine einfache Governance-Frage. Mit einer sehr teuren fehlenden Antwort.

Drei Schritte für diese Woche

Governance fühlt sich wie ein Jahresprojekt an. Es muss keins sein. Drei konkrete Schritte, die ohne externes Consulting-Budget funktionieren:

Schritt 1: Für die fünf wichtigsten Datenbereiche je einen Data Owner benennen. Keine IT-Personen. Fachbereichsverantwortliche mit Entscheidungsbefugnis. Kundendaten gehören dem Vertrieb. Produktdaten gehören dem Produktmanagement. Finanzdaten gehören dem Controlling. Diese Entscheidung kostet einen halben Nachmittag und ist der wichtigste Governance-Schritt überhaupt.

Schritt 2: Drei zentrale Begriffe definieren, die in eurem Unternehmen unklar sind. Was ist "Umsatz"? Was ist "aktiver Kunde"? Was ist "Ausfall" in eurer Produktion? Diese Definitionen schriftlich festhalten, im Team validieren, für alle zugänglich machen. Das ist der Kern eines Business Glossars. Es braucht kein Tool dafür. Ein Confluence-Dokument oder eine Notion-Seite reicht.

Schritt 3: Für den nächsten AI Use Case die Datenzugangsfragen vorab klären. Welche Daten braucht das Modell? Wer muss die Nutzung genehmigen? Gibt es personenbezogene Merkmale, die anonymisiert werden müssen? Wer dokumentiert, welche Daten in das Training geflossen sind?

Diese drei Schritte lösen nicht alle Governance-Fragen. Aber sie verhindern die drei häufigsten Fehler, die Projekte in den ersten Wochen stoppen: unklare Zuständigkeit, undefinierte Begriffe, ungeklärter Datenzugang.

Die eigentliche Botschaft

Gartner-Analyst Anurag Raj formuliert es direkt: "Before CDAOs embark on delivering GenAI use cases, they must ensure their organization's core, genetic information is well governed."

Wir würden es noch direkter sagen: Klärt erst, wem die Daten gehören. Dann redet über AI.

Nicht weil AI warten kann. Sondern weil AI ohne diese Klarheit keinen Return liefert. Das investierte Budget für Modelle, Dienstleister und Tools ist ohne Governance-Fundament Ressourcen, die verpuffen, weil die Grundlage fehlt.

Die 5 %, die Data Governance in Deutschland wirklich implementiert haben, sind nicht langsamer bei AI. Sie sind schneller. Weil sie auf einer Basis bauen, die hält.

Verwandte Artikel:

Data Governance im Unternehmen: Wem gehören eure Daten?