What is Data Fabric?
Angesichts von immer komplexer werdenden und stärker verteilten Daten, sind neue Datenmanagementtechniken entstanden, um die damit verbundenen Herausforderungen zu meistern. Eine dieser Techniken wird als „Data Fabric“ bezeichnet und von Gartner als eine der Top 10 Daten- und Analysetechnologie-Trends für 2021 bezeichnet..
What is ein Data Fabric?
Ein Data Fabric ist eine integrierte Ebene, die alle Datenverbindungen und Datenquellen innerhalb eines Unternehmens sowie die Beziehungen zwischen diesen Daten umfasst. Es handelt sich nicht um eine einzelne Technologie, sondern um ein Designkonzept, das viele verschiedene Technologien nutzt, die gleichzeitig arbeiten, um sicherzustellen, dass alle Daten leicht durchsuchbar sind. Da ein Data Fabric am Puls aller Daten im gesamten Unternehmen ist, kann es praktisch jede Analyseabfrage beantworten.
Metadaten sind das Rückgrat eines Data Fabric
Ein Data Fabric lebt von umfangreichen Metadaten. Metadaten sind „Daten über Daten“, also Informationen darüber, was die Daten enthalten oder wie sie strukturiert sind. Sie sind für alle Phasen des Datenlebenszyklus' von entscheidender Bedeutung. In einem Data Fabric besteht das Ziel darin, dass Metadaten sowohl interoperable Komponenten verbinden als auch als Barometer für den Erfolg des Data Fabric dienen und Bereiche mit Verbesserungspotenzial aufzeigen.
Um dies zu erreichen, ist ein Data Fabric auf zwei Arten von Metadaten angewiesen: „aktive“ und „passive“ Metadaten, wie von Gartner definiert. Passive Metadaten sind Metadaten, die für eine festgelegte Verwendung entwickelt wurden (z. B. Datenmodelle, Schemata oder Glossare) und auch Laufzeitmetadaten umfassen, die Protokolle oder Audit-Informationen enthalten. Aktive Metadaten hingegen sind KI-gesteuert. In einem Data Fabric sind es aktive Metadaten, die kontinuierliche Verbesserungen des Data-Fabric-Designs vorantreiben.
Gartner empfiehlt, dass ein Data Fabric passive Daten so weit wie möglich in aktive Daten umwandelt. Dies kann beispielsweise so aussehen: „Kontinuierliche Analyse der verfügbaren Metadaten hinsichtlich wichtiger Kennzahlen und Statistiken und anschließender Aufbau eines Graphmodells“ oder „Nutzung wichtiger Metadatenkennzahlen, um KI/ML-Algorithmen zu ermöglichen, die über die Zeit lernen und fortschrittliche Prognosen in Bezug auf Datenmanagement und -integration liefern“. In beiden Fällen spielen die Metadaten eine aktive Rolle bei der Verbesserung der Datenverteilung im gesamten Unternehmen.
Aufgrund ihrer entscheidenden Rolle in einem Data Fabric sollten Metadaten ein wichtiges Kriterium bei der Auswahl von Technologien sein. Unternehmen sollten Technologien priorisieren, die ihre Metadaten über offene APIs und offene Standards teilen, um ein erfolgreiches Data Fabric zu erstellen.
Warum ist ein Data Fabric notwendig?
Wenn das Ziel einer Dateninfrastruktur darin besteht, Daten zu vereinheitlichen, um die Auffindbarkeit und Zugänglichkeit zu verbessern, könnte man fragen, warum Organisationen nicht Data Lakes oder Data Warehouses verwenden können, um all ihre Daten zu kombinieren, anstatt einem Data Fabric? Zunächst einmal schließen sich Data Fabric und andere gängige Datenrepositorys nicht gegenseitig aus. Tatsächlich funktioniert ein Data Fabric am besten, wenn es mit ihnen einhergeht.
Tatsächlich ist es jedoch unrealistisch zu erwarten, dass sich Unternehmen auf einen einzigen zentralen Speicher verlassen. Die meisten verfügen über eine Mischung aus verschiedenen Public Clouds oder einer Kombination aus On-Premise- oder Cloud-Speicher. Darüber hinaus beziehen Unternehmen Daten aus einer Vielzahl von Datenquellen, wie Social Media oder dem Internet der Dinge (IoT).
Frühere Lösungen zur Zusammenführung der vielen Datenspeicher- und Zugriffspunkte waren oft unzureichend. Unternehmen haben Punkt-zu-Punkt-Integrationen ausprobiert, aber jede neue Integration verursacht erhebliche zusätzliche Kosten und Wartungsarbeiten für ein Unternehmen, und sie sind auch nicht besonders skalierbar. Data Hubs sind eine weitere architektonische Lösung, die versucht hat, dieses Problem zu lösen. Sie brachten jedoch häufig ein höheres Risiko für mangelnde Datenqualität mit sich.
Die Vorteile eines Data Fabric
Die Vorteile eines Data Fabric wirken sich auf nahezu alle Bereiche eines Unternehmens aus und lassen sich im Wesentlichen in drei Kategorien einteilen:
- Self-Service-Datenzugriff und verbesserte Erkenntnisse
Dies ist vielleicht der greifbarste Vorteil eines Data Fabric. Da ein Data Fabric eine erhöhte Datenintegration ermöglicht und Unternehmen die Möglichkeit bietet, routinemäßig größere Datenmengen auf einmal zu analysieren, besteht ein viel größeres Potenzial für neue und häufigere analytische Erkenntnisse. Darüber hinaus bietet ein Data Fabric dem Unternehmen einen einzigen Zugangspunkt für die Suche nach Daten – es muss nicht mehr die IT-Abteilung bitten, Daten aus verschiedenen Datensilos zusammenzufügen. Die Möglichkeit für Geschäftsanwender:innen, die benötigten Daten zu finden, fördert weitere Innovationen und neue Analyseprojekte im gesamten Unternehmen, deren monetärer Nutzen enorm sein kann. - Automatisierte Governance
Als Teil eines Data Fabric ist eine Data Governance-Ebene integriert, die gleichmäßig über alle Datenzugriffspunkte verteilt ist. Dadurch genießen Unternehmen ein höheres Vertrauen und mehr Datentransparenz und können Datenrichtlinien automatisch organisationsweit durchsetzen. Je nach KI-Niveau können Unternehmen ihr Data Fabric auch nutzen, um automatisch Data Governance anzuwenden, abhängig von der Sprache, die in bestimmten Dokumenten oder Richtlinien verwendet wird. Innerhalb weniger Minuten können Unternehmen die Einhaltung der Vorschriften nachweisen und dabei potenziell hohe Bußgelder vermeiden. - Automatisierte Data-Engineering-Aufgaben
Im Gegensatz zu herkömmlichen End-to-End-Datenintegrationen und manueller Überwachung der Datenpipeline funktioniert ein Data Fabric weitgehend eigenständig – es muss kein Code erstellt oder verwaltet werden. Dies spart Data Engineers nicht nur enorm viel Zeit, sondern eliminiert auch typische menschliche Fehler, die mit der Programmierung einhergehen. Mithilfe von Metadaten trägt ein Data Fabric zudem automatisch zur Optimierung der Datenintegration bei, was die Datenbereitstellung sowie den Lastenausgleich und die elastische Skalierung verbessert. Ein Data Fabric kann sogar dazu beitragen, Datenermittlungsaufgaben zu automatisieren, abhängig von den individuellen Anforderungen des Unternehmens, um die Wertschöpfung aus einem Datenbestand schneller zu realisieren. Im Wesentlichen reduziert ein Data Fabric einen Großteil des erforderlichen Data-Engineering-Aufwands.
Die Hauptkomponenten eines Data Fabric
Wie zuvor erwähnt, ist ein Data Fabric keine einzelne Technologie, sondern die Kombination vieler Technologien. Ausgehend von Metadaten als verbindendem Element müssen diese Technologien bestimmte Fähigkeiten berücksichtigen, die laut Garter Folgendes umfassen:
- Datenkatalog
Ein Datenkatalog ist eine wichtige Komponente eines Data Fabric. Er ermöglicht Organisationen den Zugriff auf und die Darstellung aller Metadatentypen und dient als Inventar für alle Datenbestände. Daher ist es der Datenkatalog, der Daten den richtigen Metadatenkontext gibt, damit sie umgebungsübergreifend gemeinsam genutzt werden können. Ein Datenkatalog ermöglicht auch das automatische Hinzufügen von Metadaten zu bestimmten Datentypen und das Extrahieren bestimmter Metadaten zur Speicherung. - Knowledge Graph
Ein Knowledge Graph gibt einem Data Fabric seine Bedeutung. Ein Knowledge Graph reichert Daten mit Semantik über die Datennutzung innerhalb der Organisation an, sodass sie für Analyseverantwortliche leicht zu interpretieren sind. Mit dem Knowledge Graph kann das Unternehmen Beziehungen über mehrere Datenrepositorys hinweg besser identifizieren, die dann in KI/ML-Algorithmen zur Unterstützung von Datenmodellen verwendet werden können. - Aktives Metadatenmanagement
Aktive Metadatenmanagement-Technologien sind entscheidend, um vorgeschlagene Änderungen am Data Fabric aufzudecken, die durch aktive Metadaten hervorgerufen werden. Dadurch kann sich der Data Fabric automatisch und kontinuierlich verbessern, ohne dass eine ständige Überarbeitung durch das Data Engineering erforderlich ist. - Datenvorbereitungs- und Bereitstellungsebene
In der Datenvorbereitungs- und Bereitstellungsebene eines Data Fabric werden Daten den Benutzer:innen zur Verfügung gestellt. Es ist wichtig, dass die für diese Ebene ausgewählte(n) Technologie(n) für alle Arten von Benutzer:innen zugänglich ist/sind, nicht nur für diejenigen innerhalb der IT-Abteilung. Insbesondere sollten Geschäftsanwender:innen eine entscheidende Rolle bei der Datenvorbereitung spielen, da sie aufgrund ihres einzigartigen Kontexts dafür sorgen können, dass die Daten optimal transformiert und für Analysen genutzt werden können. Damit dies gelingt, sollten Organisationen einen ELT-Ansatz verfolgen (und nicht einen ETL-Ansatz). Dadurch kann die Datenumwandlung erfolgen, nachdem die Rohdaten extrahiert und in das entsprechende Repository geladen wurden, was den Benutzer:innen mehr Autonomie bei der Entscheidung gibt, wie die Daten umgewandelt werden sollen. Die Auswahl einer Data-Engineering-Plattform, die diesen ELT-Ansatz und eine benutzerfreundliche Datenvorbereitung ermöglicht, sollte für Unternehmen, die am Aufbau eines Data Fabric interessiert sind, oberste Priorität haben. - Orchestrierung & DataOps
Damit Daten kontinuierlich und pünktlich von einem Ort zum anderen gelangen, müssen bestimmte Prozesse und Planungen vorhanden sein. Dafür sorgt die Orchestrierungs- und DataOps-Ebene eines Data Fabric. In vielen Fällen ist diese Funktionalität in Datenvorbereitungs- und Data-Engineering-Plattformen integriert, da sie für eine nahtlose Datenvorbereitung unerlässlich ist. Unternehmen sollten in der Lage sein, viele ihrer routinemäßigen Datenvorbereitungsprozesse einmalig einzurichten und dann zu vergessen, um sicherzustellen, dass stets aktuelle und zeitnahe Daten geliefert werden.
Erste Schritte
Der Einstieg in Data Fabric kann anfangs etwas überwältigend sein, aber wahrscheinlich haben Sie bereits einen guten Ausgangspunkt: Ihre ELT-Prozesse. Über diese Prozesse haben Sie in der Vergangenheit den Großteil Ihrer Datenintegrationsarbeit abgewickelt. Jetzt können Sie beginnen, Prozesse anzupassen (z. B. die Umstellung auf einen ELT-Ansatz) und die erforderlichen Technologien hinzuzufügen, um etwaige Lücken in Metadaten, Governance, Datenvorbereitung usw. zu schließen.
Weitere Daten in den Kern aufzunehmen (natürlich mit umfassenden Metadaten) ist der nächste Schritt zum Aufbau eines Data Fabric. Die aktiven Metadaten und Machine-Learning-Modelle mögen zwar einen größeren Bedarf darstellen, aber lassen Sie sich Zeit – es ist besser, klein anzufangen und das Data Fabric langsam auszubauen, als zu viel auf einmal anzugehen.
Eines ist sicher: Es gibt einen Grund, warum Gartner Data Fabric zu einem der Trends 2021 ernannt hat: Die Technik erfüllt viele Anforderungen und wird in den kommenden Jahren nur noch an Popularität gewinnen.