Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Fri, Sep 12, 2014, at 11:06, Pierre-Yves Maunier wrote: > "Variante sur cette architecture (non mentionnée dans le RFC mais que > j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne > une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud > ce problème et permet de tout faire en L3, mais, si on a des centaines de > milliers de machines, le protocole de routage va souffrir. " > > Sinon pour soulager le protocole de routage, une solution : > des top of racks faisant du routage, un subnet par rack : disons un /26 par > rack pour 100 racks. > Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation > bien que lui connaitra les 64x/32 Une autre vision qui peut rendre les choses un peu plus compliques: - au minimum, plusieurs dizaines de VLANs (disons ~50-60). Si vous aimes pas "VLANs", pensez a "zones de securite". - entre 5 et 25 machines par "VLAN". - les machines dans des "VLANs" differents communiquent uniquement si autorise sur les FW. - les machines dans un meme "VLAN" sont repartis en priorites dans des racks differents (probablement parce qu-ils remplissent des roles identiques ou assez similaires - on a une baie qui "saute", on perd seulement 1-2, max 3 machines ayant le meme role). - dans une meme baie, il y a potentiellement n'importe quel (lire *TOUS* les) "VLAN" qui est(sont) disponible(s). - on ne veut pas faire tourner du daemon de routage sur les machines - il y a plusieurs sites, et au moins on evite comme la peste les "VLANs" cross-site (a.k.a. "niveau 2 etendu"). On fait comment ? En etat, ca fait pas beaucoup, mais quand on pense que le nombre et VLAN et/ou le nombre de machines par VLAN peut exploser assez facilement, ca change les choses. Le concept des VLAN = "zone de securite" est difficilement revisable dans certains endroits (ca peut necessiter plusieurs pannes majeures et/ou le licenciement de plusieurs personnes au technique - "punir les innocents" - avant d'etre pris en compte). --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 5 septembre 2014 21:14, Stephane Bortzmeyer a écrit : > > Ah au fait, j'ai modifié mon article pour mentionner cette > possibilité (qui n'était apparemment pas dans le RFC). Merci. > > > "Variante sur cette architecture (non mentionnée dans le RFC mais que j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud ce problème et permet de tout faire en L3, mais, si on a des centaines de milliers de machines, le protocole de routage va souffrir. " Sinon pour soulager le protocole de routage, une solution : des top of racks faisant du routage, un subnet par rack : disons un /26 par rack pour 100 racks. Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation bien que lui connaitra les 64x/32 En temps normal tes switches/routeurs d'agrégation vont avoir 100 routes dans leur table. Si tu veux bouger un host vers un autre rack, le TOR du rack destination annoncera du coup son /26 et le /32 supplémentaire. Et rien ne t'empêche de changer l'IP de la machine pour qu'elle rentre dans le /26 du nouveau rack. En gros en situation optimale tu as 6400 hosts mais 100 routes dans l'aggreg. Pour couvrir le cas des 100aines de milliers de machines on va dire que tu tu es sur plusieurs DC. Disons un /14 par DC soit 256K hosts, ça fait 1000 racks de /24. Chaque coeur de DC connaitra le /14 du DC d'a cote et les 1000x/24 locaux et éventuellement quelques centaines de /32 more specific locaux, voire venant de l'autre DC si tu bouges des hosts du DC 1 au DC 2. Bref sans doute moins de 10k routes pour joindre 512k hosts. Dans tous les cas, un mec qui a plusieurs centaines de milliers de hosts peut se permettre d'avoir des routeurs prenant plusieurs millions d'entrées en RIB/FIB et BGP gère ça très bien. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Je sais pas si on en a déjà parlé ici mais MS le fait en BGP d'après ce que j'ai pu comprendre. Source http://datatracker.ietf.org/doc/draft-lapukhov-bgp-sdn/ 2014-09-05 21:14 GMT+02:00 Stephane Bortzmeyer : > On Thu, Aug 28, 2014 at 03:53:55PM +0200, > Vincent Bernat wrote > a message of 33 lines which said: > > > > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait > > > cela ? > > > > Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne > > pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de > > mon côté, mais c'est dans les cartons. > > Ah au fait, j'ai modifié mon article pour mentionner cette > possibilité (qui n'était apparemment pas dans le RFC). Merci. > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > -- Matthieu MICHAUD --- Liste de diffusion du FRnOG http://www.frnog.org/
[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Thu, Aug 28, 2014 at 03:53:55PM +0200, Vincent Bernat wrote a message of 33 lines which said: > > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait > > cela ? > > Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne > pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de > mon côté, mais c'est dans les cartons. Ah au fait, j'ai modifié mon article pour mentionner cette possibilité (qui n'était apparemment pas dans le RFC). Merci. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
❦ 30 août 2014 19:23 +0200, "Radu-Adrian Feurdean" : >> Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal >> de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le > > Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque > serveur/VM, oui, pourquoi pas. > > Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article > quelque-part a ce sujet mais je n'arrive plus a trouver le lien. > > On part du postulat que les machines dans un rack ne sont pas forcement > dans le meme subnet, mais que des machines dans le meme subnet se > trouvent dans des racks differents. > L'idee est que chaque ToR porte l'IP du default gateway pour chaque > subnet. Les addresses avec une entree ARP valide sont redistribues en > BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a > une route recue d'ailleurs. > > Est-ce que c'est juste une idee dans le vent, ou il y en a bien des > constructeurs qui permettent de faire ca ? A priori, c'est comme ça que cela fonctionne chez Juniper en "restricted". C'est aussi le cas de Linux si tu configures correctement le "medium_id" de chaque interface à des valeurs différentes (et différentes de 0). -- /* Am I fucking pedantic or what? */ 2.2.16 /usr/src/linux/drivers/scsi/qlogicpti.h --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Sat, Aug 30, 2014, at 10:39, Vincent Bernat wrote: > Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal > de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque serveur/VM, oui, pourquoi pas. Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article quelque-part a ce sujet mais je n'arrive plus a trouver le lien. On part du postulat que les machines dans un rack ne sont pas forcement dans le meme subnet, mais que des machines dans le meme subnet se trouvent dans des racks differents. L'idee est que chaque ToR porte l'IP du default gateway pour chaque subnet. Les addresses avec une entree ARP valide sont redistribues en BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a une route recue d'ailleurs. Est-ce que c'est juste une idee dans le vent, ou il y en a bien des constructeurs qui permettent de faire ca ? En IPv4, bien-sur; en v6 c'est beaucoup trop simple avec le off-link. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
❦ 29 août 2014 23:31 +0200, "Radu-Adrian Feurdean" : >> Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en >> OSPF, ou plutôt en BGP (avec exabgp par exemple). > > Enfin, entre quelques VIP et *toutes* les machines, il y a une > difference Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le même ordre de grandeur que le nombre de MAC). Genre 16k en IPv4 pour les EX4200 (attention, beaucoup moins en IPv6) et autres de la même gamme, 128k en IPv4 pour les QFX5100. Avant d'atteindre 128k VM, il y a de la marge. Si tu passes par des route servers Linux, tu peux aussi aggréger avant de redistribuer aux switchs ToR. Si les migrations se font généralement par subnet ou de manière ponctuelle/discrète, la table de routage doit pouvoir rester assez compacte. -- printk("Entering UltraSMPenguin Mode...\n"); 2.2.16 /usr/src/linux/arch/sparc64/kernel/smp.c --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Thu, Aug 28, 2014, at 15:57, Raphael Mazelier wrote: > Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en > OSPF, ou plutôt en BGP (avec exabgp par exemple). Enfin, entre quelques VIP et *toutes* les machines, il y a une difference --- Liste de diffusion du FRnOG http://www.frnog.org/
[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Thu, Aug 28, 2014 at 04:39:19PM +0200, Pierre Colombier wrote a message of 30 lines which said: > Est-ce qu'on peut définir ce que c'est qu'un réseau "large". RFC 6820 http://www.bortzmeyer.org/6820.html Il cite des réseaux de 100 kmachines physiques... > Est-ce que quelqu'un à réellement éprouvé en pratique des problèmes > liés à la charge ARP dans des réseaux de ce genre ? Indication : regarder l'employeur des auteurs du RFC 7342 :-) --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On 28.08.2014 15:57, Raphael Mazelier wrote: Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit : Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en OSPF, ou plutôt en BGP (avec exabgp par exemple). et si tu controles bien toutes les vm, tu dois bien pouvoir les faire causer BGP elles aussi --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Bonjour, sur les mainframes (z/OS), les systèmes ont toujours deux cartes réseaux et font tourner un routeurs OSPF qui annonce les VIP. Cela permet de déplacer les systèmes d'une machine à une autre, et de gérer la perte du premier router ou d'une carte réseau. Il ne me semble pas qu'une configuration en L2 (VRRP) soient possible sur mainframe. -- Cordialement, Stéphane Diacquenod On 2014-08-28 15:35, Stephane Bortzmeyer wrote: On Thu, Aug 28, 2014 at 03:30:36PM +0200, Vincent Bernat wrote a message of 37 lines which said: Les IP des machines peuvent être annoncées dans un protocole de routage Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? --- Liste de diffusion du FRnOG http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Moi, je le fais pour voir comment mettre en place de l'anycast (un lab donc, je suis étudiant...). Sorti de ça, je ne vois pas en quoi c'est bizarre de faire ça en prod' (si je raconte des bétises, merci de me corriger ;) ) Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit : > On Thu, Aug 28, 2014 at 03:30:36PM +0200, > Vincent Bernat wrote > a message of 37 lines which said: > >> Les IP des machines peuvent être annoncées dans un protocole de >> routage > > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait > cela ? > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Ah ouais, pardon, j’avais oublié le topic de départ :) Le 28 août 2014 à 16:32, Pierre-Yves Kerembellec a écrit : > Le 28 août 2014 à 16:26, David Ponzone a écrit : > >> Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ? > > L3 L3 everywhere ;-) > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? >>> >>> On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on >>> utilise ça aussi. >>> >>> Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, >>> pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur >>> fail. > > Cordialement, > Pierre-Yves > > > > --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 28 août 2014 à 16:26, David Ponzone a écrit : > Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ? L3 L3 everywhere ;-) >>> Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait >>> cela ? >>> >> >> On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on >> utilise ça aussi. >> >> Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, >> pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur >> fail. Cordialement, Pierre-Yves --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ? Le 28 août 2014 à 16:20, Pierre-Yves Maunier a écrit : > Le 28 août 2014 15:35, Stephane Bortzmeyer a écrit : > >> >> Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait >> cela ? >> > > On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on > utilise ça aussi. > > Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, > pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur > fail. > > Pierre-Yves > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 28 août 2014 15:35, Stephane Bortzmeyer a écrit : > > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait > cela ? > On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on utilise ça aussi. Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur, pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur fail. Pierre-Yves --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit : Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en OSPF, ou plutôt en BGP (avec exabgp par exemple). -- Raphael Mazelier AS39605 --- Liste de diffusion du FRnOG http://www.frnog.org/
[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
❦ 28 août 2014 15:35 +0200, Stephane Bortzmeyer : >> Les IP des machines peuvent être annoncées dans un protocole de >> routage > > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait > cela ? Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de mon côté, mais c'est dans les cartons. De manière proche, j'avais fait ça : http://vincent.bernat.im/en/blog/2013-exabgp-highavailability.html Cela me semble très proche de ce qu'il faudrait faire pour permettre à des IP de migrer n'importe où sur un réseau L3. Il faut ajouter côté client que le routeur ne change pas, chose qui est très facile en IPv6 (fe80::1 en routeur pour tout le monde) mais qui est moins évident en IPv4 si on veut de la configuration via DHCP (en statique, pas de soucis, on indique que le routeur par défaut qui est le même pour tout le monde est sur eth0). C'est un peu du SDN avec les technos d'il y a 20 ans. ;-) -- Document your data layouts. - The Elements of Programming Style (Kernighan & Plauger) --- Liste de diffusion du FRnOG http://www.frnog.org/
[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers
On Thu, Aug 28, 2014 at 03:30:36PM +0200, Vincent Bernat wrote a message of 37 lines which said: > Les IP des machines peuvent être annoncées dans un protocole de > routage Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait cela ? --- Liste de diffusion du FRnOG http://www.frnog.org/