21.2. Das Z-Dateisystem (ZFS)

Das Z-Dateisystem ist eine neue von Sun™ entwickelte Technologie, mit dem Konzept einer gepoolten Speichermethodik. Das bedeutet, dass Speicher nur verwendet wird, wenn dieser als Datenspeicher benutzt wird. ZFS wurde auch für maximale Datenintegrität entwickelt und unterstützt dabei mehrfache Kopien, Schnappschüsse und Prüfsummen für Daten. Ein neues Datenreplikationsmodell, bekannt als RAID-Z, wurde ebenfalls hinzugefügt. Das RAID-Z-Modell ist ähnlich zu RAID5, wurde aber mit dem Ziel entworfen, Datenverfälschung beim Schreiben zu verhindern.

21.2.1. ZFS Einstellungen

Das ZFS-Teilsystem benötigt viele Systemressourcen, weshalb gewisse Einstellungen notwendig sind, um maximale Effizienz während des täglichen Gebrauchs zu gewährleisten. Da es sich um eine experimentelle Funktion in FreeBSD handelt, wird sich das in naher Zukunft ändern. Wie dem auch sei, zum gegenwärtigen Zeitpunkt wird die Anwendung der folgenden Schritte empfohlen.

21.2.1.1. Hauptspeicher

Der verfügbare Hauptspeicher im System sollte mindestens 1 Gigabyte betragen, jedoch werden 2 Gigabyte oder mehr empfohlen. In allen gezeigten Beispielen in diesem Abschnitt verwendet das System 1 Gigabyte Hauptspeicher mit mehreren anderen Einstellungen.

Manche Nutzer hatten Erfolg bei der Verwendung von weniger als 1 GB Hauptspeicher, aber mit dieser begrenzten Menge an RAM ist es sehr wahrscheinlich, dass FreeBSD eine Panic wegen erschöpftem Hauptspeicher erleiden wird, wenn es hohen Belastungen ausgesetzt ist.

21.2.1.2. Kernelkonfiguration

Es wird vorgeschlagen, nicht benötigte Treiber und Optionen aus der Kernelkonfigurationsdatei zu entfernen. Da die meisten Geräte als Module verfügbar sind, können diese einfach mittels der Datei /boot/loader.conf geladen werden.

Nutzer der i386™-Architektur sollten die folgende Option in ihrer Kernelkonfigurationsdatei hinzufügen, den Kernel neu erstellen und anschliessend das System neustarten:

options 	KVA_PAGES=512

Diese Option wird den Adressraum des Kernels vergrössern, was es ermöglicht, die Einstellung vm.kvm_size über die momentan verhängte Grenze von 1 GB (2 GB für PAE) zu erhöhen. Um den passenden Wert dieser Option zu ermitteln, teilen Sie den gewünschten Adressraum in Megabyte durch vier. In diesem Fall beträgt er 512 für 2 GB.

21.2.1.3. Einstellungen des Loaders

Der kmem-Addressraum sollte auf allen FreeBSD-Architekturen erhöht werden. Die folgende Option, die dem Testsystem mit einem Gigabyte Hauptspeicher der Datei /boot/loader.conf hinzugefügt und welches anschliessend neu gestartet wurde, war erfolgreich:

vm.kmem_size="330M"
vm.kmem_size_max="330M"
vfs.zfs.arc_max="40M"
vfs.zfs.vdev.cache.size="5M"

Eine detailliertere Liste von Vorschlägen zu ZFS-verwandten Einstellungen finden Sie unter http://wiki.freebsd.org/ZFSTuningGuide.

21.2.2. Verwenden von ZFS

Es existiert ein Startmechanismus, der es FreeBSD erlaubt, ZFS als Pool während des Systemstarts zu initialisieren. Um das zu tun, geben Sie die folgenden Befehle ein:

# echo 'zfs_enable="YES"' >> /etc/rc.conf
# /etc/rc.d/zfs start

Für den Rest dieses Dokuments wird angenommen, dass drei SCSI-Platten im System verfügbar sind und dass deren Gerätenamen da0, da1 und da2 lauten. Benutzer von IDE-Hardware können ad-Geräte an Stelle von SCSI-Hardware einsetzen.

21.2.2.1. Pool mit nur einer Platte

Um ein einfaches, nicht-redundantes ZFS auf einer einzelnen Festplatte zu erstellen, benutzen Sie das zpool-Kommando:

# zpool create example /dev/da0

Um den neuen Pool anzusehen, überprüfen Sie die Ausgabe von df:

# df
Filesystem  1K-blocks    Used    Avail Capacity  Mounted on
/dev/ad0s1a   2026030  235230  1628718    13%    /
devfs               1       1        0   100%    /dev
/dev/ad0s1d  54098308 1032846 48737598     2%    /usr
example      17547136       0 17547136     0%    /example

Diese Ausgabe zeigt deutlich, dass der example-Pool nicht nur erstellt, sondern auch gemountet wurde. Er ist genau wie andere Dateisysteme verfügbar, Dateien können darin erstellt und von den Benutzern aufgelistet werden, wie im folgenden Beispiel gezeigt wird:

# cd /example
# ls
# touch testfile
# ls -al
total 4
drwxr-xr-x   2 root  wheel    3 Aug 29 23:15 .
drwxr-xr-x  21 root  wheel  512 Aug 29 23:12 ..
-rw-r--r--   1 root  wheel    0 Aug 29 23:15 testfile

Leider verwendet dieser Pool keine der Vorteile der ZFS-Eigenschaften. Erstellen Sie ein Dateisystem auf diesem Pool und aktivieren Sie die Komprimierung darauf:

# zfs create example/compressed
# zfs set compression=gzip example/compressed

Jetzt ist example/compressed ein von ZFS komprimiertes Dateisystem. Versuchen Sie, ein paar grosse Dateien in das Verzeichnis /example/compressed zu kopieren.

Die Komprimierung kann jetzt deaktiviert werden mittels:

# zfs set compression=off example/compressed

Um das Dateisystem aus dem Verzeichnisbaum abzuhängen, geben Sie den folgenden Befehl ein und vergewissern Sie sich über df vom Erfolg dieser Aktion:

# zfs umount example/compressed
# df
Filesystem  1K-blocks    Used    Avail Capacity  Mounted on
/dev/ad0s1a   2026030  235232  1628716    13%    /
devfs               1       1        0   100%    /dev
/dev/ad0s1d  54098308 1032864 48737580     2%    /usr
example      17547008       0 17547008     0%    /example

Mounten Sie das Dateisystem erneut, um es wieder verfügbar zu machen und bestätigen Sie mit df:

# zfs mount example/compressed
# df
Filesystem         1K-blocks    Used    Avail Capacity  Mounted on
/dev/ad0s1a          2026030  235234  1628714    13%    /
devfs                      1       1        0   100%    /dev
/dev/ad0s1d         54098308 1032864 48737580     2%    /usr
example             17547008       0 17547008     0%    /example
example/compressed  17547008       0 17547008     0%    /example/compressed

Der Pool und das Dateisystem können genausogut über die Ausgabe von mount überwacht werden:

# mount
/dev/ad0s1a on / (ufs, local)
devfs on /dev (devfs, local)
/dev/ad0s1d on /usr (ufs, local, soft-updates)
example on /example (zfs, local)
example/data on /example/data (zfs, local)
example/compressed on /example/compressed (zfs, local)

Wie zu beobachten ist, können ZFS-Dateisysteme nach deren Erstellung genauso wie normale Dateisysteme verwendet werden, jedoch sind auch noch viele andere Eigenschaften verfügbar. Im folgenden Beispiel wird ein neues Dateisystem, data, erstellt. Wichtige Dateien sollen hier gespeichert werden, weshalb das Dateisystem angewiesen wird, jeweils zwei Kopien jedes Datenblocks zu unterhalten:

# zfs create example/data
# zfs set copies=2 example/data

Es ist nun möglich, den Speicherplatzverbrauch der Daten mittels df erneut zu betrachten:

# df
Filesystem         1K-blocks    Used    Avail Capacity  Mounted on
/dev/ad0s1a          2026030  235234  1628714    13%    /
devfs                      1       1        0   100%    /dev
/dev/ad0s1d         54098308 1032864 48737580     2%    /usr
example             17547008       0 17547008     0%    /example
example/compressed  17547008       0 17547008     0%    /example/compressed
example/data        17547008       0 17547008     0%    /example/data

Beachten Sie, dass jedem Dateisystem des Pools die gleiche Menge an Speicher zur Verfügung steht. Das ist der Grund für die Verwendung von df in all diesen Beispielen, da es zeigt, dass das Dateisystem nur den Speicher belegt, den es auch benötigt und alles wird von dem gleichen Pool abgezogen. ZFS macht Konzepte wie Volumen und Partitionen überflüssig und erlaubt mehrere Dateisysteme auf demselben Pool. Zerstören Sie die Datensysteme und anschliessend den Pool, da sie nicht länger gebraucht werden:

# zfs destroy example/compressed
# zfs destroy example/data
# zpool destroy example

Festplatten werden mit der Zeit schlechter und fallen aus, eine unvermeidliche Tatsache. Wenn diese Platte ausfällt, sind die Daten verloren. Eine Möglichkeit, diesen Datenverlust beim Plattenausfall zu vermeiden, ist die Verwendung von RAID. ZFS unterstützt diese Eigenschaft im Entwurf seiner Pools und wird im nächsten Abschnitt behandelt.

21.2.2.2. ZFS RAID-Z

Wie zuvor bereits erwähnt, wird in diesem Abschnitt angenommen, dass drei SCSI-Geräte vorhanden sind (da0, da1 und da1 bzw. ad0 und so weiter, falls IDE-Platten verwendet werden). Um einen RAID-Z Pool zu erstellen, geben Sie das folgende Kommando ein:

# zpool create storage raidz da0 da1 da2

Anmerkung: Sun empfiehlt, dass die Anzahl von Geräten in einer RAID-Z Konfiguration drei bis neun beträgt. Falls Ihre Anforderungen unbedingt einen einzelnen Pool, bestehend aus zehn oder mehr Platten, erfordern, sollten Sie überlegen, diesen in kleinere RAID-Z Gruppen aufzuteilen. Sollten Sie nur zwei Platten zur Verfügung haben und trotzdem Redundanz benötigen, ziehen Sie den Einsatz der ZFS-Mirror (Spiegel) Fähigkeiten in Betracht. Lesen Sie die zpool(8) Manualpage, um mehr darüber zu erfahren.

Der storage-zPool sollte jetzt erstellt worden sein. Sie können das überprüfen, indem Sie die Befehle mount(8) und df(1) wie zuvor verwenden. Weitere Plattenspeicher können an das Ende der oben stehenden Liste hinzugefügt werden. Erstellen Sie ein neues Dateisystem in dem Pool, home genannt, in dem später Dateien von Benutzern platziert werden:

# zfs create storage/home

Nun kann die Komprimierung aktiviert und zusätzliche Kopien der Benutzerverzeichnisse und der darin enthaltenen Dateien angelegt werden. Dies geschieht über die gleichen Befehle wie bereits zuvor:

# zfs set copies=2 storage/home
# zfs set compression=gzip storage/home

Um dieses Verzeichnis als neues Benutzerverzeichnis zu verwenden, kopieren Sie die Nutzerdaten dort hin und erstellen Sie die entsprechenden Symlinks:

# cp -rp /home/* /storage/home
# rm -rf /home /usr/home
# ln -s /storage/home /home
# ln -s /storage/home /usr/home

Anwender sollten jetzt ihre Daten in dem neu angelegten /storage/home Dateisystem auffinden. Prüfen Sie das, indem Sie einen neuen Benutzer hinzufügen und sich als dieser Benutzer am System anmelden.

Versuchen Sie, einen Schnappschuss anzulegen, der später wieder zurückgerollt werden kann:

# zfs snapshot storage/home@08-30-08

Beachten Sie, dass die Schnappschuss-Option nur auf echte Dateisysteme, jedoch nicht auf Verzeichnisse oder eine Datei angewendet werden kann. Das @-Zeichen dient als Begrenzer zwischen dem Dateisystem- oder Volumenamen. Wenn ein Benutzerverzeichnis zerstört wird, können Sie es über den folgenden Befehl wieder herstellen:

# zfs rollback storage/home@08-30-08

Um eine Liste von allen verfügbaren Schnappschüssen zu erhalten, starten Sie das ls-Kommando in Verzeichnis .zfs/snapshot des entsprechenden Dateisystems. Beispielsweise können Sie den vorhin angelegten Schnappschuss mit dem folgenden Befehl auflisten:

# ls /storage/home/.zfs/snapshot

Es ist möglich ein Skript zu schreiben, dass monatliche Schnappschüsse der Nutzerdaten anlegt. Allerdings werden die Schnappschüsse mit der Zeit eine grosse Menge an Speicherplatz einnehmen. Den vorherigen Schnappschuss können Sie über das folgende Kommando löschen:

# zfs destroy storage/home@08-30-08

Nach all diesen Tests gibt es keinen Grund, das Verzeichnis /storage/home noch länger in seinem momentanen Zustand zu belassen. Ernennen Sie es zum echten /home-Dateisystem:

# zfs set mountpoint=/home storage/home

Die Eingabe der Befehle df und mount zeigt, dass das System das Dateisystem nun als das echte /home behandelt:

# mount
/dev/ad0s1a on / (ufs, local)
devfs on /dev (devfs, local)
/dev/ad0s1d on /usr (ufs, local, soft-updates)
storage on /storage (zfs, local)
storage/home on /home (zfs, local)
# df
Filesystem   1K-blocks    Used    Avail Capacity  Mounted on
/dev/ad0s1a    2026030  235240  1628708    13%    /
devfs                1       1        0   100%    /dev
/dev/ad0s1d   54098308 1032826 48737618     2%    /usr
storage       26320512       0 26320512     0%    /storage
storage/home  26320512       0 26320512     0%    /home

Damit ist die RAID-Z-Konfiguration abgeschlossen. Um über den Status des Dateisystems mittels des nächtlichen periodic(8)-Skripts auf dem Laufenden gehalten zu werden, geben Sie das folgende Kommando ein:

# echo 'daily_status_zfs_enable="YES"' >> /etc/periodic.conf

21.2.2.3. Wiederherstellung von RAID-Z

Jedes Software-RAID besitzt Verfahren, um dessen Zustand zu überwachen. ZFS ist da keine Ausnahme. Der Status von RAID-Z Geräten kann mittels des folgenden Kommandos betrachtet werden:

# zpool status -x

Wenn alle Pools gesund sind und alles normal ist, wird die folgende Nachricht zurückgegeben:

all pools are healthy

Wenn ein Problem existiert (möglicherweise ist eine Platte ausgefallen), wird der Zustand des Pools ähnlich dem Folgenden ausgegeben:

  pool: storage
 state: DEGRADED
status: One or more devices has been taken offline by the administrator.
	Sufficient replicas exist for the pool to continue functioning in a
	degraded state.
action: Online the device using 'zpool online' or replace the device with
	'zpool replace'.
 scrub: none requested
config:

	NAME        STATE     READ WRITE CKSUM
	storage     DEGRADED     0     0     0
	  raidz1    DEGRADED     0     0     0
	    da0     ONLINE       0     0     0
	    da1     OFFLINE      0     0     0
	    da2     ONLINE       0     0     0

errors: No known data errors

Das bedeutet, dass das Gerät vom Systemadministrator abgeschaltet wurde. In diesem Fall trifft das zu. Um eine Platte abzuschalten, wurde das folgende Kommando eingegeben:

# zpool offline storage da1

Es ist jetzt möglich, da1 zu ersetzen, nachdem das System ausgeschaltet wurde. Wenn das System wieder läuft, kann der folgende Befehl benutzt werden, um die Platte zu ersetzen:

# zpool replace storage da1

Von da an kann der Status erneut überprüft werden, jedoch dieses Mal ohne die Option -x, um die Zustandsinformation zu bekommen:

# zpool status storage
 pool: storage
 state: ONLINE
 scrub: resilver completed with 0 errors on Sat Aug 30 19:44:11 2008
config:

	NAME        STATE     READ WRITE CKSUM
	storage     ONLINE       0     0     0
	  raidz1    ONLINE       0     0     0
	    da0     ONLINE       0     0     0
	    da1     ONLINE       0     0     0
	    da2     ONLINE       0     0     0

errors: No known data errors

Wie in diesem Beispiel gezeigt, scheint alles wieder normal zu sein.

21.2.2.4. Datenüberprüfung

Wie bereits erwähnt, verwendet ZFS Prüfsummen, um die Integrität der gespeicherten Daten zu verifizieren. Die Prüfsummen werden automatisch beim Erstellen des Dateisystem aktiviert und können über den folgenden Befehl deaktiviert werden:

# zfs set checksum=off storage/home

Das ist jedoch kein schlauer Einfall, da die Prüfsummen nur ganz wenig Speicherplatz einnehmen und viel nützlicher sind, wenn Sie aktiviert bleiben. Es scheint auch kein nennenswerter Ressourcenverbrauch mit deren Aktivierung verbunden zu sein. Wenn die Prüfsummen aktiv sind, kann ZFS die Datenintegrität über den Vergleich der Prüfsummen gewährleisten. Dieser Prozess wird als “reinigen” bezeichnet. Um die Datenintegrität des storage-Pools zu überprüfen, geben Sie den folgenden Befehl ein:

# zpool scrub storage

Dieser Prozess kann einige Zeit in Anspruch nehmen, abhängig davon, wieviele Daten gespeichert sind. Es handelt sich dabei auch um eine I/O-intensive Aktion, weshalb auch jeweils nur eine dieser Operationen durchgeführt werden darf. Nachdem die Reinigung abgeschlossen ist, wird der Status aktualisiert und kann über eine Statusabfrage eingesehen werden:

# zpool status storage
 pool: storage
 state: ONLINE
 scrub: scrub completed with 0 errors on Sat Aug 30 19:57:37 2008
config:

	NAME        STATE     READ WRITE CKSUM
	storage     ONLINE       0     0     0
	  raidz1    ONLINE       0     0     0
	    da0     ONLINE       0     0     0
	    da1     ONLINE       0     0     0
	    da2     ONLINE       0     0     0

errors: No known data errors

Die Zeit des Abschlusses der Aktion kann in diesem Beispiel direkt abgelesen werden. Die Prüfsummen helfen dabei, sicherzustellen, dass die Datenintegrität über einen langen Zeitraum hinaus erhalten bleibt.

Es gibt viele weitere Optionen für das Z-Dateisystem, lesen Sie dazu die Manualpage zfs(8) und zpool(8).

Wenn Sie Fragen zu FreeBSD haben, schicken Sie eine E-Mail an <[email protected]>.
Wenn Sie Fragen zu dieser Dokumentation haben, schicken Sie eine E-Mail an <[email protected]>.