Hi Hilmar,

> On 21.01.2014, at 16:31, Hilmar Preusse <[email protected]> wrote:
> 
> Der Kunde hat kein sync ausgeführt, also gabs scheinbar keine dirty
> pages, sonst hätte es nicht geholfen.
> 
>> Da dies mit sehr hoher Wahrscheinlichkeit ein NUMA-System ist, was
>> sagt den z.B.  "numactl -H” vor dem Start und auf was steht der
>> Kernel-Parameter vm.zone_reclaim_mode?  Auf was ist
>> vm.overcommit_memory gestellt?
>> 
> Ich vermute, Du beziehst Dich auf das hier
> http://www.poempelfox.de/blog/2010/03/

Nein,  Erfahrungswerte ;-)

> 
> Ich häng Dir erstmal den Output von zoneinfo an. Eventuell sagt es ja
> was.

Ist das die Information vor dem Neustart oder während die Applikation läuft? Im 
System sind 2 NUMA-Nodes mit jeweils 48GB RAM, was sagt nun ein numactl -H vor 
dem Neustart?

> 
> Default:
> 
> vm.overcommit_memory = 0
> vm.overcommit_ratio = 50

> vm.zone_reclaim_interval = 30
> vm.zone_reclaim_mode = 0

Du könntest Testweise vm.overcommit_memory = 1 mit vm.zone_reclaim_mode = 1 
probieren. Das erstere führt dazu, dass man quasi beliebig viel Speicher 
allokieren kann (der Wert 0 ist eine heuristische Konfiguration, bei der der 
Kernel probiert zu "schätzen" ob der freie Speicher für die Allokation reicht). 
Der zweite Wert führt dazu, dass in der zu allokierenden Zone, auf dem 
aktuellen NUMA-Node, probiert wird, einfach freizugebender Speicher wieder 
freizugeben (also z.B. page cache), wenn die Gefahr besteht, dass die Zone 
"leer" läuft.

Wie schon in der vorherigen Mail geschrieben, interessant wäre noch die 
Fehlermeldung der Applikation.

MfG
Martin
_______________________________________________
Lug-dd maillist  -  [email protected]
https://ssl.schlittermann.de/mailman/listinfo/lug-dd

Antwort per Email an