Bonjour,

A noter qu'avec un backend Ceph, il se peut que l'algo attende qu'un OSD soit réellement HS (pas juste une (micro-)coupure) pour commencer à rebalancer les données sur les noeuds restant. Il se peut donc que ça soit la cause de ce délais, en particulier si vous avez beaucoup de contenu à rebalancer, avec des grosses VMs en terme de stockage.

Rémy.

Le 29/06/2020 à 03:44, Clément Gineste a écrit :
Il me semble que Xen supporte depuis longtemp le live migration d'une VM avec sa mémoire

Le mer. 17 juin 2020 à 20:02, Benoit MOREAU via FRsAG <frsag@frsag.org <mailto:frsag@frsag.org>> a écrit :

    Salut,

    Je ne comprends pas trop le problème. Normalement, au moment où tu
    isoles le nœud en débranchant ses rings, il faut compter environ 2
    minutes avant que le cluster lance sa procédure de failover.
    Le nœud isolé va stopper les VM pour éviter le "split-brain", et
    le reste du cluster va relancer les VM qui ont été configuré en HA
    sur les nœuds ayant été configuré pour recevoir les VM.

    A priori, le temps de bascule est hard-codé. Selon moi, ce temps
    est raisonnable, pour éviter de relancer inutilement les VM en cas
    de coupure réseau passagère.

    A noter que sans configuration manuelle, il faut que plus de 50%
    des nœuds du cluster soit vivant pour que celui-ci lance la
    procédure de failover.

    Je ne sais pas si j'ai répondu a ta question, mais je reste
    disponible si tu as d'autres questions sur Proxmox.

    Cordialement,
    Benoit MOREAU

    On 16/06/2020 22:55, Racamier Stéphane wrote:
    Bonsoir le groupe,

    Je test actuellement un cluster Proxmox 6.4 avec un stockage
    hyper convergé ceph composé de 3x6 osd (HDD) avec deux carte
    gigabit en protocole LACP actif, 1 carte sur le ring0 et 1 sur le
    ring1.

    La plateforme de test utilisé des HP proliant dl380 g7.

    Ma préoccupation principale est de réussir à migrer mes VMs sans
    interruption de service si le nœuds qui exécute se voit
    brutalement stoppé. Pour simuler cette panne je débranche
    l'interface ring0 et 1.

    Petit problème mes VMs se voient stoppé brutalement au décompte
    du watchdog, l'interruption est bien trop longue pour des
    services en production.

    Existe il un moyen de palier ce problème ?

    Cdlt.

    _______________________________________________
    Liste de diffusion du FRsAG
    http://www.frsag.org/

    _______________________________________________
    Liste de diffusion du FRsAG
    http://www.frsag.org/


_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

--
Dernat Rémy
IT Infrastructure Engineer, CNRS
MBB Platform - ISEM Montpellier

Attachment: smime.p7s
Description: Signature cryptographique S/MIME

_______________________________________________
Liste de diffusion du FRsAG
http://www.frsag.org/

Répondre à