22.3. Mögliche Engpässe

Moderne Systeme müssen häufig parallel auf Daten zugreifen. Große FTP- und HTTP-Server können beispielsweise Tausende von parallelen Sitzungen verwalten und haben mehrere 100 MBit/s-Verbindungen zur Außenwelt. Diese Bandbreite überschreitet die durchschnittliche Transferrate der meisten Platten bei weitem.

Aktuelle Plattenlaufwerke können Daten mit bis zu 70 MB/s sequentiell übertragen, wobei dieser Wert in einer Umgebung, in der viele unabhängige Prozesse auf eine gemeinsame Platte zugreifen, die jeweils nur einen Bruchteil dieses Wertes erreichen, von geringer Aussagekraft ist. In solchen Fällen ist es interessanter, das Problem vom Blickwinkel des Platten-Subsystems aus zu betrachten. Der wichtigste Parameter ist dabei die Last, die eine Übertragung auf dem Subsystem verursacht. Unter Last versteht man dabei die Zeit, in der die Platte mit der Übertragung der Daten beschäftigt ist.

Bei jedem Plattenzugriff muss das Laufwerk zuerst die Köpfe positionieren und auf den ersten Sektor warten, bis er den Lesekopf passiert. Dann wird die Übertragung gestartet. Diese Aktionen können als atomar betrachtet werden, da es keinen Sinn macht, diese zu unterbrechen.

Nehmen wir beispielsweise an, dass wir 10 kB transferieren wollen. Aktuelle hochperformante Platten können die Köpfe im Durchschnitt in 3,5 ms positionieren und drehen sich mit maximal 15.000 U/min. Daher beträgt die durchschnittliche Rotationslatenz (eine halbe Umdrehung) 2 ms. Bei einer Transferrate von 70 MB/s dauert die eigentliche Übertragung von 10 kB etwa 150 μs, fast nichts im Vergleich zur Positionierungszeit. In einem solchen Fall beträgt die effektive Transferrate nur etwas mehr als 1 MB/s. Die Tranferrate ist also stark von der Größe der zu tranferierenden Daten abhängig.

Die traditionelle und offensichtliche Lösung zur Beseitigung dieses Flaschenhalses sind “mehr Spindeln”. Statt einer einzigen großen Platte werden mehrere kleinere Platten mit demselben Gesamtspeicherplatz benutzt. Jede Platte ist in der Lage, unabhängig zu positionieren und zu transferieren, weshalb der effektive Durchsatz um einen Faktor nahe der Zahl der eingesetzten Platten steigt.

Obwohl die Platten Daten parallel transferieren können, ist es nicht möglich, Anfragen gleichmäßig auf die einzelnen Platten zu verteilen. Daher wird die Last auf bestimmten Laufwerken immer höher sein als auf anderen Laufwerken. Daraus ergibt sich auch, dass die exakte Verbesserung des Datendurchsatzes immer kleiner ist als die Anzahl der involvierten Platten.

Die gleichmäßige Verteilung der Last auf die einzelnen Platten ist stark abhängig von der Art, wie die Daten auf die Laufwerke aufgeteilt werden. In den folgenden Ausführungen wird eine Platte als eine große Anzahl von Datensektoren dargestellt, die durch Zahlen adressierbar sind (ähnlich den Seiten eines Buches). Die naheliegendste Methode ist es, die virtuelle Platte (wieder analog den Seiten eines Buches) in Gruppen aufeinanderfolgender Sektoren zu unterteilen, die jeweils der Größe der einzelnen physischen Platten entsprechen. Diese Vorgehensweise wird als Konkatenation bezeichnet und hat den Vorteil, dass die Platten keine spezielle Größenbeziehung haben müssen. Sie funktioniert gut, solange der Zugriff gleichmäßig auf den Adressraum der virtuellen Platte verteilt wird. Wenn sich der Zugriff allerdings auf einen kleinen Bereich konzentriert, ist die Verbesserung vernachlässigbar klein. Abbildung 22-1 verdeutlicht die Verteilung der Speichereinheiten in einer konkatenierten Anordnung.

Abbildung 22-1. Konkatenierte Anordnung



Ein alternatives Mapping unterteilt den Adressraum in kleinere, gleich große Komponenten und speichert diese sequentiell auf verschiedenen Geräten. Zum Beispiel werden die ersten 256 Sektoren auf der ersten Platte, die nächsten 256 Sektoren auf der zweiten Platte gespeichert und so weiter. Nachdem die letzte Platte beschrieben wurde, wird dieser Vorgang solange wiederholt, bis die Platten voll sind. Dieses Mapping nennt man Striping oder RAID-0. [1]

Striping erfordert einen etwas größeren Aufwand, um die Daten zu lokalisieren, und kann zusätzliche E/A-Last verursachen, wenn eine Übertragung über mehrere Platten verteilt ist. Auf der anderen Seite erlaubt es aber eine gleichmäßigere Verteilung der Last auf die einzelnen Platten. Abbildung 22-2 veranschaulicht die Abfolge, in der Speichereinheiten in einer striped-Anordnung alloziert werden.

Abbildung 22-2. Striped-Anordnung



Fußnoten

[1]

RAID steht für Redundant Array of Inexpensive Disks und bietet verschiedene Formen der Fehlertorleranz, obwohl der letzte Begriff etwas irreführend ist, da RAID keine Redundanz bietet.

Wenn Sie Fragen zu FreeBSD haben, schicken Sie eine E-Mail an <[email protected]>.
Wenn Sie Fragen zu dieser Dokumentation haben, schicken Sie eine E-Mail an <[email protected]>.