Case Study – Migration in die Cloud: Eine Data Lake Analytics-Lösung

In dieser Fallstudie geht es um ein Projekt, das die Migration eines on Premise Data Lake zu einer Amazon AWS Cloud-basierten Data Lake- und Analyselösung umfasste. Das Projekt zielte darauf ab, das On-Demand-Computing zu verbessern und die Belastung des bestehenden On-Premise-Systems sowie dessen Kosten zu reduzieren und gleichzeitig die Gesamteffizienz und Leistung des Datenanalyseprozesses zu verbessern.

Übersicht

Des Weiteren sollte das neu formierte Data-Engineering und Data-Science Team möglichst kurzfristig seinen Regelbetrieb auf der neuen Plattform aufnehmen, die im Vergleich zur lokal betriebenen Architektur einen deutlichen Performance- sowie Kostenvorteil versprach.

Als IT-Projektmanager und Agile Coach bestand unsere Aufgabe darin, ein Team von Spezialisten zusammenzustellen und zu leiten. Die Bereitstellung der Plattform musste innerhalb von 16 Wochen abgeschlossen und das neu gebildete Data-Engineering- und Data-Science-Team in der Anwendung agiler Methoden (Scrum & Kanban) gecoacht werden.

Der Kunde suchte nach einer Lösung für den Aufbau eines Cloud-basierten Datenspeichers und einer Analyselösung, die für verschiedene Arbeitslasten geeignet ist und schließlich eine wachsende Datenmenge bewältigen kann. Die anfängliche Migration umfasste 75 TB an vorhandenen Daten und eine Wachstumsrate von 15 % pro Monat.

Ein großer Fokus lag auf der Migration der enormen Datenmenge innerhalb des zur Verfügung stehenden Zeitfensters und Bandbreiten im Falle einer Online-Migration. Für die Migration der lokalen Daten sollte daher die AWS Snowball Technologie zu Einsatz kommen.

Ansatz

Der Ansatz für das Projekt war eine Kombination aus bewährten Methoden der Datenmigration, Cloud-Architektur und agilen Methoden. Das Ziel war der Aufbau einer skalierbaren und sicheren Amazon AWS-Cloud-basierten Data Lake- und Analyselösung, die alle Arbeitslasten abdeckt und die Belastung des bestehenden lokalen Systems reduziert.

Das Projekt bestand aus mehreren Phasen, darunter die Migration vorhandener Daten von einem lokalen HDFS Raw Data Hub in die Cloud, die Entwicklung und Architektur eines S3-basierten Data Lake sowie die Optimierung und Komprimierung der Daten für Analysezwecke.

Um eine erfolgreiche Migration zu gewährleisten, wurden die vorhandenen Daten zunächst mithilfe der AWS Snowball-Technologie in die AWS Cloud Landing S3 aufgenommen.

Jetzt Verfügbarkeit anfragen Jetzt anfragen

Inkrementelle Daten aus dem Raw Data Hub wurden dann mithilfe von EMR/Spark und Hive in den AWS S3-Speicherort aufgenommen. Der Data Lake bestand aus drei Ebenen: einer Dateneingabeebene, einer Rechenbereitschaftsebene und einer Geschäftsaktivierungsebene mit Front-Ends, die von den Dateningenieuren und -analysten verwendet werden.

Der Data Lake wurde unter Einhaltung der IT-Sicherheits- und Datenschutzrichtlinien sicher gestaltet und ein Konzept für den Betrieb nach den Prinzipien und Philosophien von Agile DevOps entwickelt.

Unter Wahrung der konzernweiten Compliance- und Beschaffungsrichtlinien wurde eine technische Ausschreibung, Bewertung und Auswahl eines externen Dienstleisters vorgenommen, um den nachgelagerten Betrieb sowie Betreibbarkeit sicherzustellen.

Ergebnisse

Fazit

Lieferung innerhalb von 16 Wochen

Erfolgreiche Datenübertragung mit AWS Snowball-Technologie

Drastisch reduzierte Betriebskosten im Vergleich zum On-Premises-Betrieb

Agiler Ansatz zahlt sich aus

Innovativ genug, um auf der AWS re:invent behandelt zu werden

Das Projekt wurde innerhalb von 16 Wochen geliefert und in Betrieb genommen, wobei die Datenübertragung erfolgreich mit der AWS Snowball-Technologie durchgeführt wurde. Das neu gebildete Data Engineering & Science-Team konnte seine Tätigkeit unter „Business as Usual“-Bedingungen aufnehmen, und die Betriebskosten des Cloud Data Lake wurden im Vergleich zum Betrieb vor Ort drastisch reduziert.

Die Migration des lokalen Data Lakes in eine Cloud-basierte Data Lake- und Analyselösung war für den Kunden ein voller Erfolg, da das Projekt gleich mehrere Ziele erfüllte.

Eine Verbesserung des On-Demand-Computing, die Verringerung der Belastung des vorhandenen On-Premise-Systems inklusive drastischer Kosteneinsparung und die Steigerung der Effizienz und Leistung des Datenanalyseprozesses insgesamt wurde von Amazon als innovativ genug angesehen, um das Projekt in einer Breakout-Session auf der AWS re:invent in Las Vegas zu behandeln.

Die Nutzung von AWS-Services und der agile Ansatz machten das Projekt zu einem Erfolg und waren ein Beweis für die Vorteile von Cloud Computing und agilen DevOps-Prinzipien.