Philippe, la réponse de Sly était du second degré....
Pas la peine d'en rajouter une tartine :)

A.

On 27/12/2013 14:24, Philippe Verdy wrote:
Le 27 décembre 2013 17:43, sly (sylvain letuffe) <lis...@letuffe.org <mailto:lis...@letuffe.org>> a écrit :

    Le vendredi 27 décembre 2013 17:14:11, Philippe Verdy a écrit :
    > S'il ne peut pas tenir la charge à cause de défauts matériels
    > (refroidissement, alimentation, câblage ou connecteurs
    défectueux, mauvais
    > contacts, défaut de montage, problèmes de barrettes mémoire,
    bogues de
    > firmwares ou de BIOS, problème de mise à jour de l'hyperviseur,
    etc.)

    C'est en effet un problème lié en partie à ce que tu décris (mais
    pas tout à
    la fois heureusement) en fait, cette machine dispose d'une carte
    mère assez
    ancienne et à cause de vibrations anormales dans la super structure du
    bâtiment (peut-être liées, à des micro vibration du sous sol de la
    plaque
    eurasiatique et une expert en tecktonik des plaques doit nous le
    confirmer)


:-) Dans ce cas je comprend pourquoi mon propre PC situé sur la même plaque continentale m'a lâché il n'y a pas si longtemps. Sérieusement les microvibrations du batiment dans un datacenter, ça n'existe pas.

A la limite on pourrait avoir des vibrations causées par le système de ventilation des baies, à cause d'une mauvaise installation/fixation, des cheminements hasardeux de cables (et des longueurs flottantes en excès) qui gêne le flux de ventilation.

Mais on peut soupçonner que le PC était lui-même mal monté avec ses composants internes aussi, et que durant le transport des connecteurs ont bougé. c'est pour ça qu'on a besoin d'une salle de montage sur place pour vérifier que tout est bien calé. Souent quand on monte soi-même un PC, on peut oublier de monter des fixations. Le transport peut aussi provoquer des torsions suffisantes sur la carcasse, avec des chocs pendant la conduite, pour que des connecteurs se déboitent partiellement (les barettes mémoire sont facilement sujettes à ce genre de défaut de connexion, ainsi que les miniconnecteurs des ventilos internes).

Certains câbles SATA ou USB ont aussi tendance à se défaire trop facilement, les prises externes ont parfois des soudures à peine suffisantes, qui lâchent à la première insertion (bogue courant sur de nombreuses clés de stockage USB dont la coque de protection est beaucoup trop souple alors que les broches soudées du connecteur sont trop rigides, ce qui décolle facilement les micro-soudures; nombre de cartes mères ont des soudures en surface mal faires pour les puces les plus larges, une microtorsion suffit à décoller les contacts de façon invisible, notamment sur les broches des coins, les connecteurs de nappes plastiques souple sont souvent très fragiles aussi, et la gravure de ces nappes est beaucoup trop fine et génère une impédance trop élevée nuisible à la qualité des signaux aux plus hautes fréquences : cela peut concerner les nappes des têtes de disque dur, mais on en trouve aussi dans les SSD entre plusieurs mini-cartes reliant la partie contrôleur bus aux puces mémoires).

Sur plein de SSD, les puces mémoires ont juste un refroidissement passif par simple contact avec le boitier alu externe, une légère déformation du boîtier lors de la manutention et du montage provoque des surchauffes en utilisation intensive du SSD.

Et sur nombre de PC, le CPU, le GPU ou les chips contrôleurs de bridge, sont tout bonnement mal montés (mauvaise efficacité des caloducs, pâte thermique non conforme), de même que les capteurs externes de température.

On trouve aussi des trucs hideux comme le remplissage façon barbouillage, avec des gels silicones sensés immobiliser les connecteurs et puces montées dans un support, mais qui mettent les composants en contact direct avec les chocs et vibrations des coques externes et réduit aussi l'efficacité de la disspation thermique. Et c'est fou maintenant le nombre de "scotches" de mauvaise qualité qu'on trouve dans les matériels électroniques (dont la colle durcit et craquelle avec le temps ce qui produit des abrasions locales ou des réactions chimiques d'oxydation prématurée).

L'usine a utilisé ces "scotches" au lieu de plaques métalliques de fixation, ou bien a remplacé un modèle de ventilo par un autre qu n'est qu'à demi fixé et monté avec du scotch aussi pour éviter les fuites d'air: ce scotch finit par se décoller à cause de la température des radiateurs.

Les usines chinoises prennent beaucoup de liberté avec les cahiers des charges des constructeurs, qui eux oublient de contrôler en continu les lots sortis des conteneurs (une fois passé la douane, c'est directement expédié par un service postal ou logistique sans aucun contrôle du contructeur ou de l'importateur en ne faisant que coller les étiquettes sur les cartons d'emballage ou gardé des mois dans des dépots logistiques pour la revente par n'mporte qui dans un catalogue de prix).

Mais le pire ce sont les condensateurs qui fuient avec la température (ça ne se voit pas toujours, mais on peut parfois le humer en ouvrant la machine, ou constater le léger gonflement sur la partie supérieure où se trouve une "croix" de dilatation): s'il y a eu déjà un incident de surchauffe, c'est toute la carte mère qui est endommagée car on ne peut pas proprement remplacer ces condos. Et c'est souvent volontaire de la part du constructeur : designed to fail, on dit "obsolescence programmée", les matérieisl d'aujourd'hui ne tiennent pas plus de 2 ans, ou à peine plus que la durée de garantie initiale du constructeur.


    En bref, quoi qu'il en soit, régulièrement, des puces de cette
    carte mère
    perdent le contact avec les pistes et le contrôleur disque devient
    devient
    inaccessible partiellement au driver SATA de linux qui passe alors
    en mode
    dégradé voir carrément c'est la panique dans le kernel. La
    dernière fois une
    puce à carrément sautée (comme certaines puces d'ailleurs) alors
    forcément !

    Ce qu'on fait c'est donc des rotations des câbles sur ceux qui
    marchent
    encore, et c'est assez pénible car au final on se retrouve avec
    plein de
    noeuds.


    > Je ne connais pas les lieux de ce datacenter Free, mais certains
    que j'ai
    > visités (chez Level3 ou les systèmes boursiers/bancaires, ou les
    systèmes de
    > l'armée par exemple) sont très stricts sur les conditions
    d'accès aux salles

    Plus encore que tu ne l'imagine ! Jocelyn est parti il y a 5 jours
    maintenant
    pour faire des noeuds avec les câbles, et on est toujours sans
    nouvelles de
    lui. On suppose qu'il avait oublié sa pièce d'identité et qu'il
    est maintenant
    séquestré dans le datacenter par l'équipe de sécurité. Vraiment,
    ils ne
    rigolent pas là bas. On espère le revoir en un seul morceau sans
    quoi, je ne
    sais pas ce que l'on va dire à sa famille.

    Peut-être que pour 2014, certains prendrons de bonnes résolutions,
    eux le
    relâcher et d'autres ce qui doit être fait.



    --
    sly (sylvain letuffe)
    http://wiki.openstreetmap.org/wiki/User:Sletuffe

    _______________________________________________
    Talk-fr mailing list
    Talk-fr@openstreetmap.org <mailto:Talk-fr@openstreetmap.org>
    https://lists.openstreetmap.org/listinfo/talk-fr




_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr


--
--------------------------------------------------------------------
Arnaud Vandecasteele
SIG - WebMapping - Spatial Ontology - GeoCollaboration

Web Site
http://www.marinegis.com/?page_id=131
http://geotribu.net/

_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr

Répondre à