<div class="hzweiwrapper"><span class="circled-number">1</span><h2 class="c-blog_head" id="1. Was ist ein Data Warehouse in der Cloud?">Was ist ein Data Warehouse in der Cloud?</h2></div>
Ein Data Warehouse ist eine zentrale Datenbank eines Unternehmens, in der große Datenmengen aus verschiedenen Quellen gespeichert werden: aus Business-Anwendungen wie dem ERP-System, aus den Points of Sale, aus der Finanzbuchhaltung, aus weiteren internen und externen Quellen. Bei der Speicherung werden die Daten zunächst im Rohformat abgelegt, dann bereinigt und harmonisiert.
Anwender können die Daten nutzen, um Analysen, Prognosen, Datenvisualisierungen und Berichte zu erstellen. Das Data Warehouse dient als sogenannte „Single Source of Truth“: Statt verteilt in separaten Systemen wird dort ein harmonisierter Datenbestand gepflegt. Alle können mit denselben, korrekten und vollständigen Informationen arbeiten.
Ein Cloud Data Warehouse unterscheidet sich in der Architektur und Funktionsweise grundsätzlich nicht von einer herkömmlichen On-Premise-Version. Der Unterschied liegt in der zugrunde liegenden Hardware und der Art der Bereitstellung. Die Software wird nicht lizenziert und im eigenen Rechenzentrum betrieben, sondern als SaaS (Software as a service) in der Public Cloud genutzt. Um Weiterentwicklung und Betrieb kümmert sich der Cloud-Provider. Die Kunden bezahlen regelmäßig einen Preis, der von der Nutzung abhängt.
In der Funktionalität gibt es dennoch mittlerweile große Unterschiede. Das liegt jedoch nicht an der Technologie selbst, sondern an der erwähnten Herstellerstrategie. Updates für die On-Prem-Lösungen gibt es nur noch selten, während die meisten neuen Features nur noch in die Cloud-Produkte implementiert werden.
<div class="hzweiwrapper"><span class="circled-number">2</span><h2 class="c-blog_head" id="2. Aufbau eines Cloud Data Warehouse">Aufbau eines Cloud Data Warehouse</h2></div>
Wie auch die On-Prem-Varianten besteht das Cloud Data Warehouse im Wesentlichen aus drei Schichten:
Relationale Datenbank
Basis des Data Warehouse ist der Datenspeicher. Meist handelt es sich dabei um relationale Datenbanken (Tabellen) mit strukturierten und teilstrukturierten Daten. Ein anderer Typ sind sogenannte In-Memory-Datenbanken, die deutlich schneller sind und größere Datenmengen verarbeiten können (Big Data).
Datenintegration
Ein weiterer Bereich des Data Warehouse sind die Funktionen zur Datenintegration und -verarbeitung. Die Daten werden aus verschiedenen Quellen – Drittsystemen oder Import-Dateien – eingelesen. Sie werden bereinigt, harmonisiert und an die Struktur der Datenbank angepasst. Dieser Prozess wird als ETL (Extrahieren, Transformieren, Laden) oder ELT bezeichnet.
Datenzugriff
Über die oberste Ebene können die Anwender auf die Daten zugreifen: etwa über Tools für Berichte (Reportings), Analysen oder Data Mining. Über Schnittstellen lassen sich die Daten mit externen Tools verwenden oder in externen Systemen weiterverarbeiten.
<div class="hzweiwrapper"><span class="circled-number">3</span><h2 class="c-blog_head" id="3. Was ist der Unterschied zwischen Data Warehouse, Data Lake und Data Mart?">Was ist der Unterschied zwischen Data Warehouse, Data Lake und Data Mart?</h2></div>
- Data Warehouse: Enthält bereinigte, strukturierte und semi-strukturierte Daten für das gesamte Unternehmen; für Reporting und Analysen durch Fachbereiche
- Data Lake: Enthält unbereinigte Daten im nativen Format der jeweiligen Quelle; für Data-Science-Anwendungen wie Machine Learning
- Data Mart: Teilbereich eines Data Warehouse, für eine Abteilung oder einen Geschäftsbereich; kann innerhalb eines Data Warehouse oder als separate Lösung betrieben werden
<div class="hzweiwrapper"><span class="circled-number">4</span><h2 class="c-blog_head" id="4. Welche Vorteile bietet Data Warehousing in der Cloud?">Welche Vorteile bietet Data Warehousing in der Cloud?</h2></div>
Die Bereitstellung in der Cloud bringt für Unternehmen tatsächlich messbare Verbesserungen mit sich. Wo liegen die Unterschiede im Vergleich zum Data Warehouse On-Premise?
Skalierbare Kapazität und Leistung
Die Ressourcen werden nicht von der vorhandenen Hardware bestimmt. Sie können praktisch unbegrenzt nach oben und unten skaliert werden. Rechenleistung und Speicher lassen sich kurzfristig hinzufügen und wieder abbestellen; auch spontan, um Leistungsspitzen bewältigen zu können.
Dadurch eignen sich Cloud Data Warehouses besonders für die Verarbeitung riesiger, wachsender Datenmengen und vieler paralleler Anfragen.
Bessere Zugänglichkeit und Konnektivität
Das Data Warehouse ist überall über das Internet erreichbar, etwa für Remote Work (natürlich geschützt durch Firewalls und andere Maßnahmen). Es bietet Standard-Schnittstellen oder fertige Konnektoren für die Integration von anderen Systemen.
Kürzere Time-to-Market
Das Data Warehouse steht nach der Installation und Einrichtung der Komponenten bereit. Zahlreiche Services können jederzeit zum Leistungsumfang hinzugebucht und sofort genutzt werden (und wieder abbestellt werden). Weitere Systeme und Services können leicht angebunden werden. Dafür ist nicht jedes Mal ein großes IT-Projekt notwendig. Tests und Proof of Concepts werden wesentlich vereinfacht und beschleunigt.
Niedrigere Investitionen und Fixkosten
Sie müssen sich zu Beginn keine eigene Hardware und Infrastruktur anschaffen, sondern bezahlen für die Nutzung (Abo-Modell). Nicht benötigte Ressourcen können, je nach Vertragsbedingungen, meist kurzfristig wieder abbestellt werden.
Geringerer Personalbedarf
Der Cloud-Provider stellt eine betriebsbereite Infrastruktur und Software zur Verfügung, kümmert sich um Support und Weiterentwicklung. Der Bedarf an Administration für das Data Warehouse ist inhouse relativ gering. Sie benötigen ein viel kleines Team an Entwickler, Admins und Berater sowie weniger Spezial-know-how.
Schnelle Datenverarbeitung
Im täglichen ELT-Zyklus (Extract, Load, Transform) werden die neuesten Daten ins Data Warehouse geladen und bereinigt – meist über Nacht. Das erfordert hohe Rechenleistung und kann mehrere Stunden dauern. Da die Leistung beliebig skaliert werden kann, können Unternehmen den ELT-Zyklus exakt nach ihren Anforderungen planen. Die Daten stehen schneller zur Verfügung.
Hohe Datensicherheit
IT-Sicherheit ist teuer. Da sich die Kosten in der Cloud auf viele Kunden verteilen, können die Provider Sicherheitsmaßnahmen zu wesentlich niedrigeren Preisen durchführen. Beispielsweise bieten sie als Standard alle 15 Minuten ein Backup – im schlimmsten Fall gehen also Daten von nur 14 Minuten verloren.
<div class="hzweiwrapper"><span class="circled-number">5</span><h2 class="c-blog_head" id="5. Herausforderungen bei einem Cloud Data Warehouse">Herausforderungen bei einem Cloud Data Warehouse</h2></div>
Vor Ihrer Entscheidung für ein Cloud Data Warehouse sollten Sie sich mit drei Herausforderungen beschäftigen:
IT-Sicherheit
Cloud-Anwendungen sind nicht grundsätzlich mehr oder weniger sicher als On-Prem-Systeme. Doch während Sie komplett selbst für die Sicherheit in Ihren eigenen Rechenzentren verantwortlich sind, müssen Sie in der Cloud dem Provider vertrauen. Sie sollten sich fragen, welche Anforderungen sie in puncto Sicherheit an ein Data Warehouse haben und wie sich diese erfüllen lassen.
Die Anbieter der Cloud Data Warehouses informieren transparent über ihre Sicherheitskonzepte. Für die meisten Unternehmen ist das Sicherheitsniveau ausreichend und wahrscheinlich sogar höher als im eigenen Rechenzentrum. Für die Cloud-Betreiber ist IT-Sicherheit schließlich Kerngeschäft und nicht nur Kostenstelle.
Anbieter wie SAP und Microsoft bieten die Wahl, in welcher Region die Daten gespeichert werden sollen, etwa innerhalb Deutschlands oder der EU. So werden auch die Vorgaben der EU-DSGVO erfüllt.
Abhängigkeit vom Cloud-Provider
Mit der Entscheidung für ein Cloud Data Warehouse werden Sie die nächsten zehn bis zwanzig Jahre leben müssen. Das ist allerdings kein Unterschied zu On-Prem-Software: eine Unternehmenssoftware für die kritischen Kernprozesse tauscht man nicht mal eben aus. Daran hängen eine Gesamtarchitektur, Schnittstellen, Prozesse und aufgebautes Know-how.
Unabhängig von der Technologie eines Data Warehouse sollten Sie gewissenhaft prüfen, welcher Anbieter Ihre Anforderungen langfristig erfüllen kann, und Investitionssicherheit bietet.
Budgetüberschreitung
Bei Abo-Produkten gibt es keine hohen Fixkosten. Die Kosten fallen monatlich oder jährlich wiederkehrend an. Bei nutzungsabhängigen Preisen gibt es nach oben hin praktisch keine Grenze. Wer nicht aufpasst, zahlt eventuell mehr als nötig.
Cloud-Lösungen sind nur dann im Vergleich günstiger, wenn die Ressourcen dem Bedarf entsprechend gebucht werden. Deshalb ist gewissenhaftes Kostenmanagement und Planung wichtig. Anhand von Prognosen kann der zukünftige Bedarf ermittelt werden. Bei längeren Vertragslaufzeiten gewähren die Anbieter teils erhebliche Rabatte. Wer vorausschauend plant, kann dadurch viel sparen.
Regelmäßig sollte überprüft werden, ob bestimmte Leistungen noch benötigt oder gekündigt werden können. Buchungen sollten nur von autorisierten Personen durchgeführt oder freigegeben werden.