Performance-Tuning für Ceph

In Bestform

Martin Gerhard Loschwitz

Ein Ceph-Cluster ist zwar schnell aufgesetzt. Für die optimale Performance muss man aber an vielen Stellschrauben drehen.

Ceph ist mittlerweile eine feste Größe im Segment des Software-defined Storage. Ein Grund dürfte in den niedrigen Einstiegshürden liegen. Es genügen virtuelle Maschinen für die ersten Gehversuche, und wer einen physischen Ceph-Cluster bauen möchte, kann ihn heute per Mausklick installieren.

Will der Administrator aber nicht nur ein stabiles, sondern auch ein schnelles Ceph, ist Handarbeit angesagt. Die gute und gleichzeitig schlechte Nachricht: Ein typischer Ceph-Cluster hat eine Unmenge Stellschrauben, die die Performance beeinflussen. Dieser Artikel zeigt die wichtigsten Hebel und Schalter und verrät, wie man einem Ceph-Cluster Beine macht.

Ceph – die schnöde Theorie

Ceph ist ein Objektspeicher, der mit den Anforderungen mitwachsen kann. Dabei kann er anders als klassische Dateisysteme wie XFS, ext4 oder NTFS Daten auf unterschiedliche Datenträger verteilen. Dafür baut Ceph eine Zwischenschicht zwischen dem Datenträger mit dem Dateisystem und dem Client-System ein: Sie zerlegt die gespeicherten Daten in kleine Segmente oder Objekte und verteilt sie nach festen Regeln auf Festplatten im System. Der Clou: Bei Objektspeichern der Gegenwart, zu denen auch Ceph zählt, dürfen beliebig viele Festplatten auf mehrere Rechner verteilt sein. Geht der verfügbare Speicher zur Neige, erweitert der Administrator den Storage-Pool einfach um zusätzliche Server mit weiteren Festplatten.

Bei Ceph heißt der eigentliche Objektspeicher RADOS. Die Abkürzung steht für „Reliable Autonomic Distributed Object Store“ und verweist auf eine weitere Eigenschaft: Ceph kümmert sich selbstständig um die Redundanz der Daten. Fällt eine Festplatte aus, sind deren Daten in der Standardkonfiguration zwei weitere Male im System vorhanden und weiter verfügbar.

Der Objektspeicher RADOS bietet vier Schnittstellen für den Client-Zugriff (Abb. 1).

Zur Seite der Nutzer hin bietet Ceph mehrere Schnittstellen: Das Ceph Block Device oder RADOS Block Device (RBD) lässt sich unter Linux sowohl per Kernel-Treiber als auch aus dem Userland heraus als Blockgerät, etwa wie eine lokale Festplatte, ansprechen. Das Ceph Object Gateway oder RADOS Gateway ermöglicht den Zugriff auf die Daten über ein ReSTful Interface, also über eine HTTPS-Verbindung. Das Ceph-eigene Dateisystem CephFS schließlich bietet eine POSIX-kompatible Schnittstelle und lässt sich als Netzdateisystem ähnlich wie NFS nutzen (siehe Abbildung 1).

MONs, OSDs, MDSes

RADOS selbst besteht aus mehreren Komponenten. Die Monitoringserver (MONs) sind die Cluster-Wachhunde: Sie führen Buch über alle OSDs und setzen das Quorum innerhalb des Clusters durch. Bricht ein Ceph-Cluster in mehrere Segmente auseinander, schalten die MONs jene Segmente des Clusters ab, die nicht die Mehrheit der MON-Server in sich vereinen. Darüber hinaus bilden die MONs die erste Anlaufstelle für Clients: Von ihnen erhalten sie die MON-Map und die OSD-Map, also die Informationen darüber, welche MONs und OSDs gerade zum Cluster gehören. Die Metadatenserver (MDSes) übersetzen die Interna in POSIX-kompatible Syntax für CephFS.

Die OSDs (Object Storage Daemons) sind die Arbeitstiere im Ceph-Cluster: Sie speichern die Daten auf den Festplatten und kümmern sich ums Replizieren der Daten. Für jedes Objekt im Cluster gibt es ein Primary OSD (Object Storage Device): Darauf lädt ein Client das jeweilige Objekt, per Replikation bekommen die anderen OSDs die Kopien.

Apropos Clients: Ihnen obliegt die Aufgabe, auf Basis der Informationen aus den MON- und OSD-Verzeichnissen selbstständig zu errechnen, welches das primäre OSD für ein Objekt ist. Dazu verwenden sie den CRUSH-Algorithmus (Controlled Replication Under Scalable Hashing). CRUSH gehört zu den sogenannten pseudozufälligen Algorithmen: Die Ergebnisse einer Kalkulation des CRUSH-Algorithmus wirken zwar zufällig, sind bei unveränderten Voraussetzungen aber identisch.

Wer einen Ceph-Cluster tunen will, sollte zumindest grundlegend wissen, wie er funktioniert. Nur so lassen sich Flaschenhälse vermeiden. Die Kurzvorstellung im Kasten „Ceph – die schnöde Theorie“ verdeutlicht schnell, dass es der Administrator mit einem recht komplexen Gebilde zu tun hat, in dem Hard- und Software ineinandergreifen.

Ungenügende Hardwareressourcen stellen allerdings eine deutlich größere Hürde dar als Mängel in der Konfiguration: Letztere kann der Administrator mit recht geringem Aufwand beheben, während er für neue Hardware Geld investieren muss. Deshalb empfiehlt es sich, der Performance bereits in der Planung eines Ceph-Clusters hinreichend Aufmerksamkeit zu schenken.

Durchsatz und Latenz

Reden Administratoren von Performance, meinen sie nicht unbedingt dasselbe, denn sie hat bekanntlich mindestens zwei Dimensionen: Beim Durchsatz geht es um die Frage, wie viele Daten sich in einem bestimmten Zeitraum von A nach B transportieren lassen. Der Begriff Latenz hingegen wirft die Frage auf, wie lange Daten benötigen, um überhaupt von A nach B zu gelangen, genauer: welche Pausen sie unterwegs einlegen.

Wer einen Ceph-Cluster tunen möchte, muss diese beiden Dimensionen der Performance unbedingt beachten: Das Erhöhen des Durchsatzes verlangt andere Strategien als das Senken der Latenz. Letzteres ist zudem ungleich schwerer, da Ceph mit latenzlastigen Techniken arbeitet, die sich nur mit hohem Aufwand oder gar nicht umgehen lassen. Da für die Verringerung der Latenz auch weniger Stellschrauben zur Verfügung stehen, bezieht sich der weitaus größere Teil der Empfehlungen auf den Durchsatz. Die Abhängigkeit von Hard- und Software kommt besonders hier zum Tragen.

Zuvor stellen sich aber zwei andere Fragen, nämlich erstens, welche Werkzeuge dem Administrator überhaupt zur Verfügung stehen, damit er die Performance eines Ceph-Clusters bewerten kann, und zweitens, wie er herausfindet, wo in seinem Setup das größte Optimierungspotenzial liegt, also mit welchen – idealerweise eher kleinen – Veränderungen er große Performancesprünge erreichen kann. Die Antwort auf diese Frage ist ziemlich unbefriedigend und lautet: Kommt drauf an.

Warmlaufen mit dd

Gern genutzt, da einfach, flexibel und immer einsetzbar, ist das klassische Unix-Werkzeug Disk Dump dd, das mit Dateien und Block Devices umgehen kann. Ein lokal aktiviertes RBD lässt sich etwa mit dem Kommando

dd if=/dev/zero of=/dev/rbd1 bs=1G count=1
oflag=direct

auf seine Schreibgeschwindigkeit hin untersuchen. Lesen kann man vom RBD mit

dd if=/dev/rbd1 of=/dev/null bs=1G count=1
iflag=direct

Ist das Gerät über CephFS eingehängt, muss eine Datei etwa /mountpoint/tmp/tempfile1 als Quelle (if=) oder Ziel (of=) herhalten. Die Ein- und Ausgabe-Flags iflag=direct und oflag=direct sollen dd veranlassen, den Page Cache des Kernels zu umgehen.

Einen großen Einfluss bei allen Tests haben die Caches, mit denen die Empfänger gern der Anwendung suggerieren, die Daten seien bereits am Zielort angekommen. Um dem nicht auf den Leim zu gehen, muss man wissen, wie groß die Caches sind.

Festplatten-Caches können heute 256 MByte groß sein. Das heißt, eine 100 MByte große Datei kann die Festplatte als angekommen quittieren, bevor sich der Schreibkopf überhaupt in Bewegung gesetzt hat. Der Lese-Cache beeinflusst das Ergebnis vor allem bei sich wiederholenden Datenabfragen, was beim Benchmarking oft der Fall ist. Wer seine Systeme nicht an eine USV (unterbrechungsfreie Stromversorgung) angeschlossen hat, könnte den flüchtigen Cache, der nicht mit einem eigenen Akku gesichert ist, etwa mit hdparm –W0 /dev/<gerät> abschalten. Zum Einschalten verwendet man den Schalter –W1.

Auch RAID-Controller haben einen Cache, der mehrere GByte fassen kann oder sich durch SSDs aufrüsten lässt. Das flüchtige RAM, das die Hersteller teilweise optional mit Battery Units sichern, befindet sich auf dem Rückzug, dafür zieht nichtflüchtiger Flash in die Controller ein. Aber auch der lässt sich mit den herstellerspezifischen Werkzeugen ein- und ausschalten oder nachrüsten.

Bleibt der Betriebssystem-Cache oder Page Cache. Selbst geschriebene Anwendungen können mit dem Flag O_DIRECT der Funktion open() den Kernel überreden, den Page Cache zu umgehen und einen möglichst direkten Weg zwischen Gerät und User Space Buffer zu wählen. Aber auch der kann eine Menge Daten schlucken, vor allem beim Schreiben.

Sicherstellen, dass man nicht die Geschwindigkeit des Cache misst, kann man nur, wenn die Menge der Testdaten die Größe des Arbeitsspeichers und aller anderen Zwischenspeicher übersteigt. Lässt man etwa dd in einer Schleife laufen, kann man gut beobachten, wann das Betriebssystem „den Hals voll hat“ und sich die Werte auf das des nächsten Nadelöhrs einpendeln. Hat ein Client beispielsweise 4 GByte RAM und schickt man mit dem Befehl

for (( i=1; i<=16; i++ )); do dd if=/dev/zero of=/dev/rbd1 bs=1G count=1 oflag=direct ;done

16 Dateien à 1 GByte an das RBD, dürfte nach wenigen Durchläufen das Tempo fallen. Wählt man die Dateien in später vorkommenden Größen und ausreichender Menge, bekommt man die Spannbreite vom Best Case bis zum Worst Case präsentiert.

Freiräumen kann man die Caches mit dem Befehl

echo 3 | tee /proc/sys/vm/drop_caches && sync

Systeme mit gesperrtem root-Account wie Ubuntu verlangen vor jedem einzelnen Befehl ein sudo. Susanne Nolte

Grundsätzlich gilt: „Keep it simple, stupid!“ Wer etwa die Performance eines RADOS Block Device (RBD) testen möchte, kann das mit speziellen Werkzeugen erledigen, er kann aber auch auf die Bordmittel wie dd zurückgreifen, die die meisten Linux-Distributionen in der Standardinstallation bereits aufgespielt haben (siehe Kasten „Warmlaufen mit dd“).

Ceph-Performance sinnvoll messen

Mit dem separat zu installierenden iperf kann man Latenz und Durchsatz des Datentransfers zwischen zwei Hosts messen, ohne dass das entfernte Gerät lokal eingebunden ist. Auf dem einen Host startet der Administrator dazu den Befehl iperf –s und auf dem anderen Host ruft er den Befehl iperf –c IP-Adresse auf, um den Test zu starten.

Der Performance von CephFS kann man mit handelsüblichen Werkzeugen wie Bonnie++ auf den Grund gehen. Für fortgeschrittene Ansprüche eignet sich auch fio, das vielen Administratoren ebenfalls bekannt ist.

Ceph bringt zudem selbst Werkzeuge mit, die die Performance einzelner Teile des Ceph-Clusters untersuchen. Die Befehle