Re: [FRsAG] [TECH] Cluster proxmox hyper convergé

2020-06-17 Par sujet Benoit MOREAU via FRsAG
Salut,

Je ne comprends pas trop le problème. Normalement, au moment où tu
isoles le nœud en débranchant ses rings, il faut compter environ 2
minutes avant que le cluster lance sa procédure de failover.
Le nœud isolé va stopper les VM pour éviter le "split-brain", et le
reste du cluster va relancer les VM qui ont été configuré en HA sur les
nœuds ayant été configuré pour recevoir les VM.

A priori, le temps de bascule est hard-codé. Selon moi, ce temps est
raisonnable, pour éviter de relancer inutilement les VM en cas de
coupure réseau passagère.

A noter que sans configuration manuelle, il faut que plus de 50% des
nœuds du cluster soit vivant pour que celui-ci lance la procédure de
failover.

Je ne sais pas si j'ai répondu a ta question, mais je reste disponible
si tu as d'autres questions sur Proxmox.

Cordialement,
Benoit MOREAU

On 16/06/2020 22:55, Racamier Stéphane wrote:
> Bonsoir le groupe,
>
> Je test actuellement un cluster Proxmox 6.4 avec un stockage hyper
> convergé ceph composé de 3x6 osd (HDD) avec deux carte gigabit en
> protocole LACP actif, 1 carte sur le ring0 et 1 sur le ring1.
>
> La plateforme de test utilisé des HP proliant dl380 g7.
>
> Ma préoccupation principale est de réussir à migrer mes VMs sans
> interruption de service si le nœuds qui exécute se voit brutalement
> stoppé. Pour simuler cette panne je débranche l'interface ring0 et 1.
>
> Petit problème mes VMs se voient stoppé brutalement au décompte du
> watchdog, l'interruption est bien trop longue pour des services en
> production.
>
> Existe il un moyen de palier ce problème ?
>
> Cdlt.
>
> ___
> Liste de diffusion du FRsAG
> http://www.frsag.org/



signature.asc
Description: OpenPGP digital signature
___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] [TECH] Cluster proxmox hyper convergé

2020-06-17 Par sujet Julien Escario
Le 16/06/2020 à 22:55, Racamier Stéphane a écrit :
> Bonsoir le groupe,

Bonjour !

> Je test actuellement un cluster Proxmox 6.4 avec un stockage hyper
> convergé ceph composé de 3x6 osd (HDD) avec deux carte gigabit en
> protocole LACP actif, 1 carte sur le ring0 et 1 sur le ring1.
> 
> La plateforme de test utilisé des HP proliant dl380 g7.
> 
> Ma préoccupation principale est de réussir à migrer mes VMs sans
> interruption de service si le nœuds qui exécute se voit brutalement
> stoppé. Pour simuler cette panne je débranche l'interface ring0 et 1.

Pas certain que tu aies exprimé ton besoin exactement comme tu l'entends
mais si je comprends ta phrase, tu souhaites que la VM continue de
tourner même si le noeud qui l'héberge subis une avarie sévère (panne
électrique ou réseau) ?

Si oui, à ma connaissance, ce n'est pas faisable avec Proxmox. C'est
même encore très rare dans l'univers de la virtualisation, notamment
parce que ca demande un fonctionnement en hot-spare : il faut qu'à tout
moment tu synchronise non seulement le contenu du disque (Ceph pour
cela, c'est parfait) mais également le contenu de la RAM et là, il faut
un sacré réseau et je peux te dire qu'en gigabit, il faut oublier. Je
pense même qu'en dessous de 40Gbps par noeud, c'est mort.

J'ai vu une techno dans ce style chez VMWare qui 'rejoue' l'intégralité
des IOs sur chaque VM. Mais ca semble encore très limité (4 coeurs max,
16 Go de RAM max, etc ..).

Je n'ai jamais vraiment joué avec la H.A. dans Proxmox mais je doute que
tu arrives à un résultat 'sans interruption'. Au mieux, Proxmox va
relancer la VM automatiquement si elle n'est plus palpable après x secondes.

En 2020, le mieux pour ça est de jouer sur une redondance au niveau
applicatif (facile si c'est du web, parfois complexe sur d'autres payloads).

Julien
___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] [TECH] Cluster proxmox hyper convergé

2020-06-17 Par sujet Richard Baret
Bonjour,

as-tu bien configuré le quorum du cluster ?

 

Richard

 

De : FRsAG  De la part de Racamier Stéphane
Envoyé : mardi 16 juin 2020 22:55
À : French SysAdmin Group 
Objet : [FRsAG] [TECH] Cluster proxmox hyper convergé

 

Bonsoir le groupe,

 

Je test actuellement un cluster Proxmox 6.4 avec un stockage hyper convergé 
ceph composé de 3x6 osd (HDD) avec deux carte gigabit en protocole LACP actif, 
1 carte sur le ring0 et 1 sur le ring1.

 

La plateforme de test utilisé des HP proliant dl380 g7.

 

Ma préoccupation principale est de réussir à migrer mes VMs sans interruption 
de service si le nœuds qui exécute se voit brutalement stoppé. Pour simuler 
cette panne je débranche l'interface ring0 et 1.

 

Petit problème mes VMs se voient stoppé brutalement au décompte du watchdog, 
l'interruption est bien trop longue pour des services en production.

 

Existe il un moyen de palier ce problème ?

 

Cdlt.

___
Liste de diffusion du FRsAG
http://www.frsag.org/


[FRsAG] SecSea2k20

2020-06-17 Par sujet spoon

Bonjour à tous,

L'édition du SecSea de cette année a été annulée : https://secsea.org/
Du coup, les organisateurs ont décidé de mettre en ligne les 
présentations qui étaient prévues : https://www.youtube.com/c/secsea

Bref, une occasion de découvrir cet évènement sans se déplacer! ;-)

Rémi.
___
Liste de diffusion du FRsAG
http://www.frsag.org/


Re: [FRsAG] [TECH] Cluster proxmox hyper convergé

2020-06-17 Par sujet Alexandre DERUMIER
Hello, 

>>Je test actuellement un cluster Proxmox 6.4 

6.4 ? 6.2 plutot ? ou 5.4 ? 

>>Ma préoccupation principale est de réussir à migrer mes VMs sans interruption 
>>de service si le nœuds qui exécute se voit brutalement stoppé. 

quand tu dit, le noeud est brutalement stoppé, tu veux dire crash,poweroff ? 
Parce que dans ce cas, les vms sont coupées également. (et la HA les redémarre 
sur un autre noeud, au bout de 1 à 2min). 

il n'y a pas de fault-tolerence dans proxmox. (où la vm mémoire de la vm est 
repliquée en permanence sur un autre noeud, et permet de basculer sans 
coupure). 
Ca existe dans qemu en beta-alpha (projet COLO: [ 
https://wiki.qemu.org/Features/COLO | https://wiki.qemu.org/Features/COLO ] ), 
mais pas encore implémenté dans proxmox. (et même dans qemu, je ne sais pas si 
c'est déjà stable) 

>>Petit problème mes VMs se voient stoppé brutalement au décompte du watchdog, 
>>l'interruption est bien trop longue pour des services en production. 
>>Existe il un moyen de palier ce problème ? 

Pas moyen de baisser le timeout, principalement pour de stabilité du cluster, 
pour ne pas killer les noeuds trop vite en cas de flap réseau. 



De: "Racamier Stéphane"  
À: "French SysAdmin Group"  
Envoyé: Mardi 16 Juin 2020 22:55:11 
Objet: [FRsAG] [TECH] Cluster proxmox hyper convergé 

Bonsoir le groupe, 

Je test actuellement un cluster Proxmox 6.4 avec un stockage hyper convergé 
ceph composé de 3x6 osd (HDD) avec deux carte gigabit en protocole LACP actif, 
1 carte sur le ring0 et 1 sur le ring1. 

La plateforme de test utilisé des HP proliant dl380 g7. 

Ma préoccupation principale est de réussir à migrer mes VMs sans interruption 
de service si le nœuds qui exécute se voit brutalement stoppé. Pour simuler 
cette panne je débranche l'interface ring0 et 1. 

Petit problème mes VMs se voient stoppé brutalement au décompte du watchdog, 
l'interruption est bien trop longue pour des services en production. 

Existe il un moyen de palier ce problème ? 

Cdlt. 

___ 
Liste de diffusion du FRsAG 
http://www.frsag.org/ 
___
Liste de diffusion du FRsAG
http://www.frsag.org/


[FRsAG] [TECH] Cluster proxmox hyper convergé

2020-06-17 Par sujet Racamier Stéphane
Bonsoir le groupe,

Je test actuellement un cluster Proxmox 6.4 avec un stockage hyper convergé
ceph composé de 3x6 osd (HDD) avec deux carte gigabit en protocole LACP
actif, 1 carte sur le ring0 et 1 sur le ring1.

La plateforme de test utilisé des HP proliant dl380 g7.

Ma préoccupation principale est de réussir à migrer mes VMs sans
interruption de service si le nœuds qui exécute se voit brutalement stoppé.
Pour simuler cette panne je débranche l'interface ring0 et 1.

Petit problème mes VMs se voient stoppé brutalement au décompte du
watchdog, l'interruption est bien trop longue pour des services en
production.

Existe il un moyen de palier ce problème ?

Cdlt.
___
Liste de diffusion du FRsAG
http://www.frsag.org/