Salut tout le monde,
Pour apporter ma maigre expérience, nous avons également 2
baies EMC (1 pour le PRA/PCA) et nous avons eu « l’heureuse surprise » de voir
que lors d’un incident (mineur) le support a anticipé l’inter en prennant en
compte le problème en même temps que nous, et d’un autre coté il a fallut
insister lors de la mise à jour (du firmware il me semble) pour commencer par
la baie de secours, le support comptait attaquer directement sur la baie de
prod…
Rien n’est jamais tout blanc ou tout …
My 2 cent,
Bruno.
[cid:[email protected]]
ü
Pour la planète : échangez par courriel et n’imprimez que si nécessaire.
-----Message d'origine-----
De : FRsAG [mailto:[email protected]] De la part de Alexandre
Envoyé : vendredi 15 avril 2016 17:01
À : Benjamin JOLIVOT; Benoît DEVIJVER; French SysAdmin Group
Objet : Re: [FRsAG] Les engagements sur la fiabilité du matériel
Salut,
On 15/04/16 16:50, Benjamin JOLIVOT wrote:
> Salut,
>
> Faut pas perdre de vue que si tu as un système critique pour ton
> activité, il te faut ton propre système de secours.
C'est certain, la deuxième infra est en cours de finalisation, je pensais (bien
mal), qu'un update de la part du constructeur ne serait pas à l'origine d'une
coupure de plusieurs heures...
>
> Les pénalités liées aux SLA sont souvent capées et ça fait toujours une
> belle jambe d’avoir x mois de service à 100^euros gratos quand t’as
> perdu 10 000 de CA.
Si c'était que 10 000 ...
>
> La mise à jour d’une baie est un bon moment pour tester son/ses PCA/PRA ;o)
Maintenant on a bien compris '').
>
> Bon courage.
>
> ---------
>
> Ben, adepte du ceinture-bretelles
>
> *De :*FRsAG [mailto:[email protected]] *De la part de* Benoît DEVIJVER
> *Envoyé :* vendredi 15 avril 2016 16:11
> *À :* Alexandre <[email protected]<mailto:[email protected]>>; Benoît DEVIJVER
> <[email protected]<mailto:[email protected]>>; French SysAdmin Group
> <[email protected]<mailto:[email protected]>>
> *Objet :* Re: [FRsAG] Les engagements sur la fiabilité du matériel
>
> Salut,
>
> Alors en effet si ta configuration avait déjà 2x CS alors là tu as eu un
> vrai vrai problème !
>
> Il y a chez EMC France d'excellent support, tout comme aux US... mais en
> effet si tu tombes sur la mauvaise personne t'es coincé...
>
> ( /Sache que les VNX2 ont améliorés justement les algorithmes de
> détection des "soft" erreurs, lorsque toute la couche Raid a été
> réécrite (MCx);/ )
>
> Comme je disais, ton problème est forcément connu, mais le support n’a
> pas pris en compte la gravité de ton problème, ni mis les ressources
> nécessaires…
>
> Pour revenir au dernier point : le meilleur moyen d’avoir des
> engagements à la carte c’est de contracter avec certains partenaires qui
> sont parfois capables de prendre des engagements plus souples que le
> gros constructeur ;
>
> Bon courage, Benoît
>
> -----Message d'origine-----
> De : Alexandre [mailto:[email protected]]
> Envoyé : vendredi 15 avril 2016 10:20
> À : Benoît DEVIJVER; French SysAdmin Group
> Objet : Re: [FRsAG] Les engagements sur la fiabilité du matériel
>
> Bonjour Benoît et merci pour ton retour,
>
> On 14/04/16 23:37, Benoît DEVIJVER wrote:
>
>> Bonjour Alexandre,
>
>>
>
>> [ Disclaimer: ex-employé EMC, ~expert~ Avant-Vente puis R&D sur les
>
>> produits Celerra-VNX de 2008 à 2014 ]
>
>>
>
>> La control station du VNX est en effet un élément sensible, qui n'offre
>> aucune redondance interne (1 seule disque, 1 seule alim); mais qui peut
>> elle-même être redondée pour améliorer justement la disponibilité...
>
>> Je doute que le problème provienne d'un des disques protégé en Raid comme tu
>> le dis...
>
> Je précise que nous avions 2 CS.
>
>>
>
>> La procédure de mise-à-jour dont tu parles contient un pre-check
>
>> script, mais il ne check pas forcément tout, et si tu n'as vraiment
>
>> vraiment pas de chance tout allait bien 10 minutes avant le problème
>
>> (mais j'en doute vraiment)
>
>>
>
>>
>
>> En général, la panne de la control station n'a pas d'effet sur la
>> production... mais le processus de boot des datamovers peuvent être perturbé
>> par l'absence de la control station...
>
>> Il convient donc de ne pas provoquer des bascules des datamovers (X-Blades)
>> tant que la control station n'est pas revenu en état...
>
>>
>
>> Normalement la personne en charge de l'opération (salarié EMC ?) a dû faire
>> le nécessaire pour que le support EMC soit informé aussitôt que possible du
>> problème. L'opération aura du être mise en pause jusqu'à la remise en état
>> de la control station déféctueuse...
>
>> (pendant ce temps là, vous êtes néanmoins dans une situation à risque
>
>> puisque c'est la control station qui s'occupe de gérer la redondance
>
>> des datamovers...)
>
> La baie EMC est hébergé chez nous, dans nos locaux. Nous avons ouvert un
> ticket chez EMC pour la prise en charge de l’incident.
>
>>
>
>> 1/ La personne en charge du ticket aurait du en effet vous informer que la
>> remise en état prendrait 9h, mais ca ne peut pas être vrai, car une
>> restauration de control station doit durer 1h maximum... donc le temps de
>> recevoir la nouvelle control-station + de la restaurer...
>
>>
>
>> 2/ Je pense que la plupart des constructeurs proposent le même genre
>> d'engagement qu'EMC propose en standard... mais qui ne correspond pas
>> exactement à votre demande...
>
>> il y a 2 solutions alors:
>
>>
>
>> a/ soit faire signer à EMC un contrat spécifique pour vous, avec les
>
>> engagements que vous souhaitez (par exemple lors d'un RFP....) mais
>
>> bon, a part le CAC40 je ne connais pas beaucoup de client qui ont le
>
>> pouvoir d'obtenir ce genre d'engagement d'EMC... (ni des autres
>
>> constructeurs du secteur)
>
>>
>
>> b/ Si EMC ne s'engage pas comme souhaité, vous pouvez vous appuyer sur des
>> partenaires qui savent faire ça, et qui sont plus souple pour vous proposer
>> des contrats et des engagement de maintenance sur-mesure...
>
>>
>
>> Vu la parc installé EMC VNX, je te rassure: presques tous les problèmes sont
>> déjà connus, et la bonne personnes chez EMC connait les ficelles pour régler
>> ton problème de façon très efficace, le plus difficile étant de trouver la
>> KB applicable à ton problèmre...
>
>> Je doute que ton problème ai été inconnu d'EMC avant qu'il ne se produise...
>
>>
>
> Bien qu'EMC ne soit pas d'accord, une grand partie du problème a été
> géré en Inde. Ensuite nous sommes passé sur le support Américain, et
> étrangement le problème s'est corrigé assez vite.
>
>> Bon courage,Benoît
>
>>
>
>>
>
>> -----Message d'origine-----
>
>> De : FRsAG [mailto:[email protected]] De la part de Alexandre
>
>> Envoyé : jeudi 14 avril 2016 13:53 À : French SysAdmin Group Objet :
>
>> [FRsAG] Les engagements sur la fiabilité du matériel
>
>>
>
>> Bonjour à tous,
>
>>
>
>> je me permets de vous partager une mésaventure, cela permettra peut-être à
>> certain de ne pas faire la même erreur que nous.
>
>>
>
>> Nous avons eu un problème sur une baie de disque EMC vnx 5300. Suite à une
>> opération programmée par EMC pour une mise à jour, le service à été
>> interrompu sur la partie partage NFS/CIFS. Je ne vais pas rentrer dans les
>> détails. Conclusion, après ouverture d'un ticket chez EMC, le
> service n'a pu être rétabli que 9H plus tard.
>
>>
>
>> L'origine du dysfonctionnement viendrait d'un groupe de disques qui
>> hébergeraient le "soft" des control station (CS), l'un des disques aurait
>> fait des problèmes d'écriture.
>
>>
>
>> J'ai plusieurs problème avec ce discourt :
>
>>
>
>> - comment une baie blindée de disque puisse avoir ce type de problème ?
>
>> - comment ce type de problème n'a pas pu être détecté avant (s'il y en
>> avait un) ?
>
>>
>
>> - comment un procédure de mise à jour n'a pas détectée ce type de
>> problème (si la mise à jour est à l'origine du problème) ?
>
>>
>
>> Côté EMC c'est très vague. Il y a deux affirmations :
>
>>
>
>> 1. La personne en charge du ticket incident, aurait du nous prévenir que
>> l'opération serait longue, nous aurions pu basculer sur une autre infra.
>
>>
>
>> 2. EMC n'a pas de SLA, mais une SLO (service level objectives), qui de mon
>> point de vu désengage EMC de toutes responsabilité.
>
>>
>
>> Pour finir, nous avons perdu beaucoup d'argent, et je pense malheureusement
>> que nous pourrons rien y faire.
>
>>
>
>>
>
>> Mes questions :
>
>>
>
>> - Qu'aurions-nous du faire pour que EMC s'engage sur un taux de
>
>> disponibilité ? Tous les constructeurs fonctionnent-ils ainsi ?
>
>>
>
>> - Il n'y a t'il pas des engagements sur le délais de
>
>> rétablissement d'un service ?
>
>>
>
>> - Avez-vous eu un problème similaire dernièrement ?
>
>>
>
>> Je ne cherche pas la polémique, il doit y avoir des gens de chez EMC.
>
>> Je partage juste un message officiel.
>
>>
>
>> Merci par avance pour vos retours.
>
>>
>
>> Alexandre.
>
>> _______________________________________________
>
>> Liste de diffusion du FRsAG
>
>>http://www.frsag.org/
>
>>
>
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/
_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/