Einführung in Apache Spark und seine Python-API

Durchblick im Datendickicht

Jens Albrecht

Das Big-Data-Framework Apache Spark bietet in Version 2.1 vom Dezember 2016 mehr Tempo und neue Funktionen, sodass immer mehr Hadoop-Komponenten durch Spark ersetzt und neue Anwendungsgebiete erschlossen werden. Zeit für eine ausführliche Analyse.

Daten über Daten – die Welt ist digital und produziert im Überfluss Daten, die verarbeitet und ausgewertet werden wollen. Wo relationale Datenbanken an ihre Grenzen stoßen oder unwirtschaftlich sind, müssen Big-Data-Frameworks wie Hadoop und Spark oder (verteilte) NoSQL-Datenbanken die Schwerarbeit übernehmen.

Diese Systeme basieren auf der Grundidee, dass wirklich große Datenmengen nur auf einem Cluster kostengünstiger Hardware zweckmäßig und wirtschaftlich ausgewertet werden können. Die Software muss einerseits die Ressourcen im Cluster effizient ausnutzen. Dazu gehört, die Daten nach dem Prinzip der Datenlokalität möglichst auf den Knoten zu verarbeiten, auf denen sie gespeichert sind, um teure Netzwerkkommunikation zu vermeiden. Andererseits muss ein solches Framework mit Fehlern der Hardware umgehen können, sodass der Ausfall eines Servers weder zu Datenverlust noch zum Abbruch eines laufenden Jobs führt.