Le 2023-05-16 13:14, Olivier a écrit :
Merci pour cette anecdote, même si elle me semble particulièrement angoissante !

Avec le temps, les admin. sys. de notre entreprises sont devenus fatalistes. Ils anticipent les problèmes en achetant du matériel d'occasion, car les plateformes en question ne sont plus commercialisées. Ils cannibalisent ces matériels de seconde main pour maintenir en condition les serveurs (i.e. ils récupèrent sur le matériel d'occasion les pièces qui flanchent sur les serveurs en production).

Certains d'entre vous se demanderont peut-être, en lisant ces lignes, pourquoi nous ne gérons pas l'obsolescence et ne planifions pas des migrations de plateforme. La raison est simple, ces plateformes relèvent de projets industriels dont la durée de vie est assez longue (10 ou 20 ans), que nous nous engageons à maintenir sur la durée et à l'identique sur différents sites.

Y aurait-il une action faite pendant la maintenance électrique qui pourrait expliquer ces pannes au démarrage ?

Non, nos salles d'hébergement répondent aux standards du domaine. Elles sont dotées d'onduleurs monumentaux qui filtrent le courant. Les machines sont éteintes avant la maintenance électrique et elles sont ensuite rallumées une à une pour éviter toute pointe de charge.

Mais si vous discutez avec des gens qui gèrent du matériel et ont roulé leur bosse, ils vous diront que les condensateurs vieillissent, que les roulements à billes des disques s'usent, que les ventilateurs se grippent et que tous ces problèmes se révèlent au démarrage des serveurs, lorsque les systèmes sont restés suffisamment de temps au repos pour refroidir.

À vue de nez, combien de panne au démarrage pour combien de disque (à la louche) ?

Je ne saurais donner de chiffres spontanément, il faut que je me renseigne. Mais ce n'est pas une hécatombe non plus, on est à la marge. Ceci étant, le problème est bien réel parce que même si c'est 1 % du parc ou moins qui est affecté, le lundi qui suit l'opération de maintenance, une équipe est en panique parce que son serveur est parti en fumée durant le week-end et que la continuité du service vient de prendre une grosse claque.

Les hébergeurs commerciaux (OVH, Scaleway, Orange... pour ne parler que de quelques fournisseurs français) n'ont probablement pas ce problème, car ils renouvèlent leurs machines plus rapidement (leurs clients n'aiment pas l'idée d'avoir une machine qui a 10 ans, ils veulent des plateformes récentes).

Sébastien


--
Sébastien Dinot
Ne goutez pas au logiciel libre, vous ne pourriez plus vous en passer !
https://www.palabritudes.net/

Répondre à