Re: [PUG] UBUNTU Server

Klaus Klein Wed, 03 Jan 2007 00:14:29 -0800

Max Trense wrote:

Am Dienstag, 2. Januar 2007 23:00 schrieb Klaus Klein:
Max Trense wrote:
... [viel Text]
Um das kurz auf den Punkt zu Bringen: Bei grossen Dateien, welche
sequenziell gelesen werden, wird das optimum da liegen wo der Read-Ahead
ein ganzzahliges mehrfaches der Groesse eines Stripes entspricht.
Genau. Das auf jeden Fall. Allerdings ist der Read-Ahead-Algorithmuswesentlich wichtiger als die Größe des Read-Ahead-Buffers. Allerdings hat manals reiner Bediener auf den Algorithmus wenig Einfluss :-(

Meines Wissens ist Read-Ahead eine Funktion welche anstatt nur desadressierten Sektors gleich mehrere darauf folgende Sektoren mit liestund hier die Wahrscheinlichkeit, dass sowieso die nächsten Blocks auchgebraucht werden, nutzt um den Lesezugriff zu erhöhen, da diese dannschon im Cache stehen. Mir ist nicht bekannt das es hier einenAlgorithmus gibt, weder was der tun sollte. (ist sowiesoLowLevel-Zugriff auf die Platte und somit ohne Optimierungsmöglichkeithinsichtlich irgendwelcher File Systeme)

Ein Problem ist aber auch hier der Overhead. Der fällt im
Vergleich zur Performancesteigerung zwar recht gering aus, aber es gibt
eben auch Fälle, in denen es nicht möglich ist, mehrere Blöcke parallel
zu lesen. Eben dieser Fall ist bei Swap gegeben: Arbeitsspeicher wird in
der Regel nicht in zusammenhängenden Clustern benötigt, sondern meistens
nur einzelne Pages. Und das entspricht dem Laden eines einzelnen Blocks
von der Festplatte.
Kurze Frage: Warum müssen Pages, gerade bei multithreaded Anwendungen
oder MultiKern/Prozessoren, immer 'sequenziell' geswapped (Autsch, ganz
übles Neudeutsch) werden?
Das werden Sie nicht. Das Betriebssystem (hier natürlich vor allem dieSpeicherverwaltung) wird eine bestimmte Menge an Speicherseiten auslagern,wenn der Systemspeicher knapp wird. Welche das sind, das bestimmt einspezieller Paging-Algorithmus. Der lässt sich im Linux-Kernel zum Beispielauch auswählen (Allerdings ist der voreingestellte Algo wohl definitiv derBeste). Diese Speicherseiten sind in der Regel weder zusammenhängend, nochstehen sie in irgendeiner Relation zueinander. Und genau da beginnt natürlichauch das große Problem. Während des Einlagerns von Speicherseiten wird wiederzufällig auf eine Speicherseite zugegriffen. Welche Speicherseite das seinwird, lässt sich nicht vorhersagen und damit auch nicht optimieren. Es gabvor einigen Jahren mal einen Ansatz, Page-Faults (Also die Ereignisse, diezum Einlagern einer Speicherseite führen) in Gruppen zusammenzufassen undüber Heuristiken vorhersagbar zu machen. Allerdings steht der Aufwand fürdiese Methodik wohl in keinem Verhältnis zur erreichtenPerformance-Steigerung.


So war das mit sequenziell nicht gemeint.

Vielmehr, wird den seitens des Kernel bzw. der Speicherverwaltungerwartet das die Pages in der Reihenfolge von der Platte gelesen bzw.von dort geliefert werden wie sie angefordert wurden (FiFo) oder istdies auch, wie z.B. IP-Pakete, auch in einer abweichenden Reihenfolgegeschehen und das Speichermanagement sortiert das dann aus?


Beispiel:
Anforderung   : #12, #265, #2, #177, #5674
Rücklieferung : #12, #2, #177, #265, #5674

Dies wäre dann eigentlich, im Gegensatz zu Deiner ursprünglichenAbhandung, ein klassischer Fall für eine Parallelisierung. ;-)

Ich denke schon das hier mächtig'parallelisiert' werden kann. Zudem ist die Wahrscheinlichkeit, das die
Blöcke welche gelesen oder geschrieben werden müssen auf
unterschiedlichen Platten liegen, beim Stripping (über zwei oder mehrere
Platten) nun mal nahe 50:50 (bei zwei) oder grösser (bei mehreren
Platten). Somit sollte eigentlich genau hier das Thema mit der
Verteilung des Overheads (Kopfbewegung) greifen.
Das sieht natürlich erstmal so aus. Allerdings musst Du auch bedenken, dassfür diese Optimierung mehr als ein Block in einem gewissen Zeitabschnittgelesen werden muss.

Gerade nicht. Davon ausgehend dass das swapping dann gebraucht wird wennes Angefordert wird und eben zufällig, bzw. nicht vorhersehbar, ist,macht es erstmal keinen Sinn auf etwas zu warten. Da Festplattendurchaus schon eine gewisse Intelligenz mitbringen (Lese.- undSchreiboperationen werden optimiert) wird hier u.U. schon beimlesen/schreiben parallelisiert ohne das das Speichermanagement davonetwas mitbekommt. Bei den Zugriffen auf eine Platte bleiben jedoch dieKopfbewegungen der grösste Faktor und somit kann währen eine Platte nochpositioniert die zweite Platte schon den nächsten (bei einerWahrscheinlichkeit von 50:50) Sektor anfahren und somit im Vergleich zueinem Zugriff auf einer Platte einen Zeitvorteil herausholen.


HDD  : |----Seek----------|-Read-|----Seek----------|-Read-|

im Vergleich zu zwei Platten

HDD1 : |----Seek----------|-Read-|
HDD2 :    |----Seek----------|-Read-|

Im Falle von Page-Faults kann aber eben das nichtvorhergesagt werden. Man würde also eine Weile warten und mehrere Page-Faultssammeln, damit man sie dann gemeinsam bearbeiten kann. Da aber nichtvorhergesagt werden kann, ob in den nächsten n Zeiteinheiten weitere (undwenn ja, wieviele) Page-Faults auftreten, muss man auf jeden Fall bis zueinem bestimmten Timeout warten. Ist innerhalb dieses Timeouts mindestens einweiterer Page-Fault aufgetreten, könnte diese Methode tatsächlich etwasschneller sein, als das herkömmliche Lesen einer Speicherseite. Ist jedochkein weiterer Page-Fault aufgetreten, kommt zu der Zeit, die der Rechnerbenötigt, um eine Seite einzulagern natürlich noch die Zeit des Timeoutshinzu. Leider ist der letzte Fall der deutlich häufigere (vgl. Stallings,William: Betriebssysteme).Ein weiterer Einflussfaktor ist die Reaktionszeit von Prozessen. Natürlichkann ein Prozess, der einen Page-Fault ausgelöst hat, nicht fortgesetztwerden, bis der Page-Fault korrigiert ist. Dadurch würden im schlimmsten Fallmehrere Prozesse hängen, bis der Timeout abgelaufen ist.

Das warten auf Page-Faults macht nur dann einen Sinn wenn ich damitZugriffszeiten auf der HDD optimieren kann. Da Page-Faults aber'anscheinend' nicht zusammenhängend auftreten (wäre mal interessant sichdie Zusammenhänge zwischen Applikation, Speichermanagement und swappingmal anzuschauen) ergibt für mich eine Warten (mittels TomeOut) erstmalkeinen Sinn da anschliessend noch nicht mal feststeht das damit Zugriffeoptiemiert werden können und sich somit meist nur Wartezeiten addieren.

Da dieser Vorgang nicht parallelisierbar ist, gibt es natürlich
auch keine Performance-Steigerung.
Nochmal. Warum nicht?
Weil auf die Daten in zufälliger Reihenfolge nacheinander zugegriffen wird.Das heißt, man kann nicht anhand des aktuell abgefragten Datums auf diezukünftig abgefragten Daten schließen.

Also ein voneinander unabhängiger, in sich abgeschlossener Zugriff inzufälliger Reihenfolge. Wenn das _nicht_ parallelisierbar ist, hab ichwahrscheinlich das Konzept von parallel nicht verstanden. ;-)


BTW, erinnert mich irgendwie an UDP!

BTW. die Grösse einer Page ist nicht zufällig ein Vielfaches von 512
Byte und somit ein ideales Vielfaches der Blockgrösse, was dann wieder
ideal zum Read-Ahead passt?
Die Größe einer Page hängt vor allem vom verwendeten Paging-Algorithmus ab.Diese Größe muss allerdings nicht mal für alle verwendeten Pages fest sein.Der Buddy-Algorithmus verwendet zum Beispiel statt der Pages sogenannteBuddies, die für jede Invokation der Buddy-Funktion halbiert werden, bis einBuddy von optimaler Größer erreicht ist.

Ich kann jedoch nicht glauben das hier Speicher in Grössenordnugnenkleiner 512 Byte 'geswapped' wird. und 512 Byte sind nun mal ein Sektorund somit kleinste Einheit auf der Platte. ;-)

Einen ähnlichen Fall gibt es bei sehr
kleinen Dateien. Natürlich könnte man nun die Blockgröße des Dateisystems
auf einen kleineren Wert konfigurieren. Das bringt allerdings wegen der
Seektime der Festplatte nicht besonders viel.

Bei der Änderung der Blockgrösse wird man bei einer nicht fragmentierten
Datei wohl keinen Unterschied messen, zumindest nicht wenn die Datei
nicht über die Zylindergrenze der Platte hinausreicht und somit ohne
Kopfbewegung gelesen wird. (und so ein Zylinder ist schon mächtig gross.
;-) )

Was wiederum auch nur für das sequentielle Lesen von Daten von der Festplattestimmt.

Mitnichten. Dein Beispiel bezog sich auf die Änderung der Blockgrösse imZusammenhang mit dem lesen von 'sehr kleinen' Dateien.Davon Ausgehend das eine 'sehr kleine', nicht fragmentierte, Dateiinnerhalb eines Zylinders auf der Platte liegt und somit ohneKopfbewegung (und mit Read-Ahead) gelesen werden kann wird eineModifikation der Blockgrösse wohl keine nennenswerte Auswirkung haben.Egal ob die Datei nun sequenziell oder Random-Access gelesen wird.

Bei mehreren kleinen Dateien, die über die Partition verteilt sind(das ist genau das Szenario des ausgelagerten Speichers; hier liegen mehrereSpeicherseiten an unterschiedlichen Stellen im Swap) ist natürlich imschlimmsten Fall (übrigens streng genommen auch im durchschnittlichen Fall)für jeden einzelnen Lesevorgang eine Neupositionierung nötig.

Exakt. Und diese sollten sich eigenlich mit mehreren Platten besserOptimieren lassen als mit einer einzelnen. ;-)

Ausserdem lässt sich Swap nicht sinnvoll defragmentieren, da sich der Inhaltregelmäßig ändert.

Max, ich glaube hier bringst Du diverse Sachen durcheinander.Defragmentieren hat erstmal nichts mit dem Inhalt zu tun!!Ich glaube auch nicht das eine Swap-Partition überhaupt im irgendeinemZusammenhang mit Fragmentierung steht. Bei einer Swap-Datei auf z.B.einer FAT-Partition (Live-CD) gibts das dann schon, aber eben nur imZusammenhang mit der Datei und dem Filesystem, aber nicht mit dem Inhalt!!

Die Abwägung zwischen Striping oder nicht ist also wirklich nicht ganz
trivial und definitiv nicht allgemein entscheidbar ;-)
Genau dies kann ich aber aus Deinen Ausführungen eben nicht entnehmen. :-(
Nimm an, Du hast einen Webserver mit vielen (kleinen) statischen Seiten. Indiesem Fall ist Striping völlig überflüssig, weil jede andereOptimierungstechnik (von denen die meisten einen geringeren Overhead haben)nahezu das selbe Ergebnis bringt. Hast Du allerdings einen Downloadserver mitvielen größeren Dateien, dann wird Dir Striping sicherlich viel mehr bringen,als der Overhead schadet.

Da gehst Du aber jetzt davon aus das der Overhead beim Stripping mehrZeit in Anspruch nimmt als die Platte beim Seek 'verballert', und daskann ich fast nicht glauben. Zumal ein Stripping (Raid0) ein durchauslineare Vorgang ist und somit fast NULL Mehraufwand im Vergleich zumeigentlichen Filesystemmanagement erzeugt.

Allerdings solltest Du natürlich auch noch die Geschwindigkeit des Bus, an demdie Festplatten hängen, in Betracht ziehen. Ausserdem die Geschwindigkeit derPlatten selbst. Hast du beispielsweise eine langsame und eine schnelleFestplatte, wird das Striping des LVM böse auf die Schnauze fallen. Denndieser Read-Ahead-Algorithmus arbeitet mit Data-Windows (als ob das nichtschon schlimm genug wäre ;-) ). Das bedeutet, da er die Stripes (gleicherGröße) auf der schnellen Platte natürlich schneller liest, dass die Stripesdieser Platte das Ende des Fensters erreichen, während die Stripes derlangsamen Platte das Verschieben des Fensters blockieren. Damit bremst dielangsamste Platte im Verbund natürlich alle anderen aus.


Na mal langsam und nicht den Bezug zur Realität verlieren. :-)

Ausgangssituation waren, wenn ich mich recht erinnere, zwei gleichePlatten im Server von Ernst. Und das ist Basis der Diskussion.

Passende Szenarien kann ich mir auch stricken. ;-)

Schaut man sich bei AIX um, gibt es dort eine Implementation einesVolume-Managers, die für unterschiedlich schnelle Platten unterschiedlichgroße Stripes erlaubt... All diese Dinge (und leider noch einige mehr, dieglücklicherweise nicht in meiner Abschlußprüfung vorkommen :-) ) sollte manaber wissen, wenn man wirklich die optimale Performance erreichen will. Nichtumsonst beschäftigt Oracle mehr als 200 wirklich fähige Mitarbeiter mitsolchen Optimierungen.

Na dann weis Ernst ja jetzt wo er sich mit seinem Problem hinwendenkann. :-)

Aber ich glaube wir sollten einfach mal die Kirche im Dorf lassen.

Gruß,
Klaus
--
----------------------------------------------------------------------------
PUG - Penguin User Group Wiesbaden - http://www.pug.org

Re: [PUG] UBUNTU Server

Antwort per Email an