Programm
"Big Data in AWS" bietet eine Einführung in Cloud-basierte Big Data-Lösungen wie Amazon Elastic MapReduce (EMR), Amazon Redshift, Amazon Kinesis und die restliche AWS-Plattform für Big Data.
In diesem Kurs zeigen wir Ihnen, wie Sie Amazon EMR zum Verarbeiten von Daten mithilfe des umfassenden Angebots an Hadoop-Tools wie beispielsweise Hive und Hue einsetzen.
Sie erfahren außerdem, wie Sie Big Data-Umgebungen erstellen, mit Amazon DynamoDB, Amazon Redshift und Amazon Kinesis arbeiten, und wie Sie durch Befolgen bewährter Methoden sichere und wirtschaftliche Big Data-Umgebungen einrichten.
Nach Abschluss dieses Seminars haben die Teilnehmer Wissen zu folgenden Themen:
.... Zur Videobeschreibung
In diesem Kurs zeigen wir Ihnen, wie Sie Amazon EMR zum Verarbeiten von Daten mithilfe des umfassenden Angebots an Hadoop-Tools wie beispielsweise Hive und Hue einsetzen.
Sie erfahren außerdem, wie Sie Big Data-Umgebungen erstellen, mit Amazon DynamoDB, Amazon Redshift und Amazon Kinesis arbeiten, und wie Sie durch Befolgen bewährter Methoden sichere und wirtschaftliche Big Data-Umgebungen einrichten.
Nach Abschluss dieses Seminars haben die Teilnehmer Wissen zu folgenden Themen:
- Integrieren von AWS-Lösungen in ein Big Data-Ökosystem
- Nutzen von Apache Hadoop im Kontext von Amazon EMR / Information über die Komponenten eines Amazon EMR-Clusters
- Starten und Konfigurieren eines Amazon EMR-Clusters
- Nutzen gängiger Programmierungs-Frameworks, die für Amazon EMR zur Verfügung stehen, wie z. B. Hive, Pig und Streaming
- Nutzen von Hue zur Verbesserung der Benutzerfreundlichkeit von Amazon EMR
- Verwenden der speicherresidenten Analyse mit Spark und Spark SQL auf Amazon EMR
- Auswählen der geeigneten AWS-Datenspeicherungsoptionen
- Erkennen der Vorteile des Einsatzes von Amazon Kinesis für die Verarbeitung von Big Data beinahe in Echtzeit
- Definieren von Data Warehousing und Konzepten für spaltenbasierte Datenbanken
- Nutzen von Amazon Redshift, um Daten effizient zu speichern und zu analysieren
- Ein Blick in die Kosten und Verwaltung von Kosten und Sicherheit für Amazon EMR- und Amazon Redshift-Bereitstellungen
- Identifizieren von Optionen für das Einlesen, die Übertragung und die Komprimierung von Daten
- Nutzung der Visualisierungssoftware zur Darstellung von Daten und Abfragen
- Registrieren von Big Data-Workflows mithilfe von AWS Data Pipeline
.... Zur Videobeschreibung
Ziele
- 1. Tag
- Überblick über Big Data
- Eingabe, Übertragung und Komprimierung von Daten
- Speicherlösungen
- Speichern und Abfragen von Daten in DynamoDB
- Verarbeiten von Big Data und Amazon Kinesis
- Einführung in Apache Hadoop und Amazon EMR
- Verwenden von Amazon Elastic MapReduce
- 2. Tag
- Hadoop-Programmierungs-Frameworks
- Verarbeiten von Serverprotokollen mit Hive auf Amazon EMR
- Verarbeiten von Chemiedaten mithilfe von Hadoop Streaming auf Amazon EMR
- Optimieren Ihrer Amazon EMR-Erfahrung mit Hue
- Ausführen von Pig-Skripten in Hue auf Amazon EMR
- Spark auf Amazon EMR
- Interaktives Erstellen und Abfragen von Tabellen mit Spark und Spark SQL auf Amazon EMR
- Kostenmanagement für Amazon EMR
- Sichern Ihrer Amazon EMR-Bereitstellungen
- 3. Tag
- Data Warehouses und spaltenbasierte Datenspeicher
- Amazon Redshift und Big Data
- Optimieren Ihrer Amazon Redshift-Umgebung
- Big Data-Designmuster
- Visualisieren und Orchestrieren von Big Data
- Verwenden von Tibco Spotfire zur Visualisierung von Big Data
Voraussetzungen
Für dieses Seminar werden folgende Kenntnisse empfohlen:
- Grundkenntnisse in Big Data-Technologien einschließlich Apache Hadoop-, MapReduce-, HDFS- und SQL/NoSQL-Abfragen
- Teilnehmer müssen den Kurs Big Data Technology Fundamentals absolviert haben oder eine ähnliche Erfahrung aufweisen.
- Arbeitskenntnisse der wichtigen AWS-Services und Implementierung öffentlicher Clouds
- Teilnehmer müssen den Kurs AWSE01 Amazon Web Services: Technical Essentialsabsolviert haben oder eine ähnliche Erfahrung aufweisen.
- Grundlegendes Verständnis von Data Warehouses, relationalen Datenbanksystemen und Datenbank-Design