Building Batch Data Analytics Solutions on AWS (BBDAS)

Ihre Termine

Datum	Ort	Preis
23.06.2026	Virtuelles Live Training	892,50 €* Buchen

* Preise inkl. der gesetzlichen Mehrwertsteuer

Beschreibung

In diesem Kurs lernen Sie die Erstellung von Batch-Datenanalyselösungen mit Amazon EMR, einem verwalteten Apache Spark- und Apache Hadoop-Service der Enterprise-Klasse. Sie lernen, wie Amazon EMR mit Open-Source-Projekten wie Apache Hive, Hue und HBase und mit AWS-Services wie AWS Glue und AWS Lake Formation integriert wird. Der Kurs behandelt die Komponenten Datenerfassung, -aufnahme, -katalogisierung, -speicherung und -verarbeitung im Kontext von Spark und Hadoop. Sie lernen die Verwendung von EMR Notebooks zur Unterstützung von Analyse- und Machine Learning-Arbeitslasten. Sie werden auch lernen, die besten Praktiken für Sicherheit, Leistung und Kostenmanagement auf den Betrieb von Amazon EMR anzuwenden.

Inhalte

Modul A: Überblick über Datenanalyse und die Datenpipeline

Anwendungsfälle der Datenanalyse
Nutzung der Datenpipeline für Analysen

Modul 1: Einführung in Amazon EMR

Verwendung von Amazon EMR in Analyselösungen
Amazon EMR-Cluster-Architektur
Interaktive Demo 1: Starten eines Amazon EMR-Clusters
Strategien für das Kostenmanagement

Modul 2: Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung

Speicheroptimierung mit Amazon EMR
Techniken für die Datenübernahme

Modul 3: Leistungsstarke Batch-Datenanalyse mit Apache Spark auf Amazon EMR

Apache Spark auf Amazon EMR Anwendungsfälle
Warum Apache Spark auf Amazon EMR
Spark-Konzepte
Interaktive Demo 2: Verbinden mit einem EMR-Cluster und Ausführen von Scala-Befehlen mit der Spark-Shell
Umwandlung, Verarbeitung und Analyse
Verwendung von Notebooks mit Amazon EMR
Praxisübung 1: Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR

Modul 4: Verarbeitung und Analyse von Batch-Daten mit Amazon EMR und Apache Hive

Verwendung von Amazon EMR mit Hive zur Verarbeitung von Stapeldaten
Umwandlung, Verarbeitung und Analyse
Praxisübung 2: Batch-Datenverarbeitung mit Amazon EMR und Hive
Einführung in Apache HBase auf Amazon EMR

Modul 5: Serverlose Datenverarbeitung

Serverlose Datenverarbeitung, -umwandlung und -analyse
Verwendung von AWS Glue mit Amazon EMR-Arbeitslasten
Praxisübung 3: Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions

Modul 6: Sicherheit und Überwachung von Amazon EMR-Clustern

Sicherung von EMR-Clustern
Interaktive Demo 3: Client-seitige Verschlüsselung mit EMRFS
Überwachung und Fehlerbehebung von Amazon EMR-Clustern
Demo: Überprüfung der Apache Spark-Cluster-Historie

Modul 7: Entwurf von Batch Data Analytics-Lösungen

Anwendungsfälle der Batch-Datenanalyse
Tätigkeit: Entwurf eines Arbeitsablaufs für die Batch-Datenanalyse

Modul B: Entwicklung von modernen Datenarchitekturen auf AWS

Moderne Datenarchitekturen

Voraussetzungen

Teilnehmer mit mindestens einem Jahr Erfahrung im Umgang mit Open-Source-Datenframeworks wie Apache Spark oder Apache Hadoop profitieren von diesem Kurs.

Zielgruppe

Dieser Kurs richtet sich an:

Ingenieure für Datenplattformen
Architekten und Betreiber, die Datenanalyse-Pipelines aufbauen und verwalten

Hinweise

Dieser Kurs wird vom autorisierten AWS Trainingspartner Fast Lane durchgeführt.

Seminarkatalog