Hi, On Sunday, Sunday 19 January 2014 at 23:17, Hilmar Preusse wrote: > eine Kunde von uns hat eine Applikation die ganz schön viel RAM > braucht (so 80GB) auf RH 6.x. Wenn er diese stoppt kann sie > anschließend nicht wieder korrekt gestartet werden. Er hat heraus > gefunden, daß man den Cache vom OS vorher explizit leeren kann und > dann fährt die Applikation wieder hoch.
Industriekunde? Oder eher akademischer Kunde?
Erstere stricken Programme immer mit der heißen Nadel. Letztere kann man
überzeugen sich den Bug richtig anzuschaun.
> Kernelbug? Oder blöde race condition?
Kernelbug ist nicht unmöglich, aber unwahrscheinlich.
Ich würde mal eine Nacht lang memtest drüber laufen lassen. Es klingt zwar so
als wäre es ein System welches natürlicherweise mit ordentlichem ECC-RAM
kommt, aber man weiß nie...
Race Condition halte ich für sehr wahrscheinlich. Gecachte Daten ändern die
Laufzeiten gewaltig. Nach meiner Erfahrung sind 95% solcher Effekte simple
Race Conditions.
Tipps:
* schau mal ob es offensichtlich ungesicherten parallelen Code gibt
* schau Dir alle Stellen an die (u)sleep machen, um irgendetwas anderem Zeit
zu geben
* wenn es nichts offensichtliches gibt: Valgrind.
Konrad
signature.asc
Description: This is a digitally signed message part.
_______________________________________________ Lug-dd maillist - [email protected] https://ssl.schlittermann.de/mailman/listinfo/lug-dd
