Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-09-13 Par sujet Radu-Adrian Feurdean
On Fri, Sep 12, 2014, at 11:06, Pierre-Yves Maunier wrote:
> "Variante sur cette architecture (non mentionnée dans le RFC mais que
> j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne
> une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud
> ce problème et permet de tout faire en L3, mais, si on a des centaines de
> milliers de machines, le protocole de routage va souffrir. "
> 
> Sinon pour soulager le protocole de routage, une solution :
> des top of racks faisant du routage, un subnet par rack : disons un /26 par
> rack pour 100 racks.
> Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation
> bien que lui connaitra les 64x/32

Une autre vision qui peut rendre les choses un peu plus compliques:
 - au minimum, plusieurs dizaines de VLANs (disons ~50-60). Si vous
 aimes pas "VLANs", pensez a "zones de securite".
 - entre 5 et 25 machines par "VLAN".
 - les machines dans des "VLANs" differents communiquent uniquement si
 autorise sur les FW.
 - les machines dans un meme "VLAN" sont repartis en priorites dans des
 racks differents (probablement parce qu-ils remplissent des roles
 identiques ou assez similaires - on a une baie qui "saute", on perd
 seulement 1-2, max 3 machines ayant le meme role).
 - dans une meme baie, il y a potentiellement n'importe quel (lire
 *TOUS* les) "VLAN" qui est(sont) disponible(s).
 - on ne veut pas faire tourner du daemon de routage sur les machines
 - il y a plusieurs sites, et au moins on evite comme la peste les
 "VLANs" cross-site (a.k.a. "niveau 2 etendu").

On fait comment ?

En etat, ca fait pas beaucoup, mais quand on pense que le nombre et VLAN
et/ou le nombre de machines par VLAN peut exploser assez facilement, ca
change les choses. Le concept des VLAN = "zone de securite" est
difficilement revisable dans certains endroits (ca peut necessiter
plusieurs pannes majeures et/ou le licenciement de plusieurs personnes
au technique - "punir les innocents" - avant d'etre pris en compte).


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-09-12 Par sujet Pierre-Yves Maunier
Le 5 septembre 2014 21:14, Stephane Bortzmeyer  a écrit :

>
> Ah au fait, j'ai modifié mon article pour mentionner cette
> possibilité (qui n'était apparemment pas dans le RFC). Merci.
>
>
>
"Variante sur cette architecture (non mentionnée dans le RFC mais que
j'emprunte à Vincent Bernat), annoncer dans le protocole de routage interne
une route par machine (un préfixe /32 en IPv4 et /128 en IPv6). Cela résoud
ce problème et permet de tout faire en L3, mais, si on a des centaines de
milliers de machines, le protocole de routage va souffrir. "


Sinon pour soulager le protocole de routage, une solution :
des top of racks faisant du routage, un subnet par rack : disons un /26 par
rack pour 100 racks.
Tu configures tes TOP of rack pour n'annoncer que son /26 vers l'agrégation
bien que lui connaitra les 64x/32

En temps normal tes switches/routeurs d'agrégation vont avoir 100 routes
dans leur table.
Si tu veux bouger un host vers un autre rack, le TOR du rack destination
annoncera du coup son /26 et le /32 supplémentaire.
Et rien ne t'empêche de changer l'IP de la machine pour qu'elle rentre dans
le /26 du nouveau rack.

En gros en situation optimale tu as 6400 hosts mais 100 routes dans
l'aggreg.


Pour couvrir le cas des 100aines de milliers de machines on va dire que tu
tu es sur plusieurs DC.
Disons un /14 par DC soit 256K hosts, ça fait 1000 racks de /24.

Chaque coeur de DC connaitra le /14 du DC d'a cote et les 1000x/24 locaux
et éventuellement quelques centaines de /32 more specific locaux, voire
venant de l'autre DC si tu bouges des hosts du DC 1 au DC 2.

Bref sans doute moins de 10k routes pour joindre 512k hosts.

Dans tous les cas, un mec qui a plusieurs centaines de milliers de hosts
peut se permettre d'avoir des routeurs prenant plusieurs millions d'entrées
en RIB/FIB et BGP gère ça très bien.

---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-09-09 Par sujet Matthieu Michaud
Je sais pas si on en a déjà parlé ici mais MS le fait en BGP d'après ce que
j'ai pu comprendre.
Source http://datatracker.ietf.org/doc/draft-lapukhov-bgp-sdn/


2014-09-05 21:14 GMT+02:00 Stephane Bortzmeyer :

> On Thu, Aug 28, 2014 at 03:53:55PM +0200,
>  Vincent Bernat  wrote
>  a message of 33 lines which said:
>
> > > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
> > > cela ?
> >
> > Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne
> > pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de
> > mon côté, mais c'est dans les cartons.
>
> Ah au fait, j'ai modifié mon article pour mentionner cette
> possibilité (qui n'était apparemment pas dans le RFC). Merci.
>
>
> ---
> Liste de diffusion du FRnOG
> http://www.frnog.org/
>



-- 
Matthieu MICHAUD

---
Liste de diffusion du FRnOG
http://www.frnog.org/


[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-09-05 Par sujet Stephane Bortzmeyer
On Thu, Aug 28, 2014 at 03:53:55PM +0200,
 Vincent Bernat  wrote 
 a message of 33 lines which said:

> > Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
> > cela ?
> 
> Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne
> pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de
> mon côté, mais c'est dans les cartons.

Ah au fait, j'ai modifié mon article pour mentionner cette
possibilité (qui n'était apparemment pas dans le RFC). Merci.


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-30 Par sujet Vincent Bernat
 ❦ 30 août 2014 19:23 +0200, "Radu-Adrian Feurdean" 
 :

>> Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal
>> de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le
>
> Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque
> serveur/VM, oui, pourquoi pas.
>
> Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article
> quelque-part a ce sujet mais je n'arrive plus a trouver le lien.
>
> On part du postulat que les machines dans un rack ne sont pas forcement
> dans le meme subnet, mais que des machines dans le meme subnet se
> trouvent dans des racks differents.
> L'idee est que chaque ToR porte l'IP du default gateway pour chaque
> subnet. Les addresses avec une entree ARP  valide sont redistribues en
> BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a
> une route recue d'ailleurs.
>
> Est-ce que c'est juste une idee dans le vent, ou il y en a bien des
> constructeurs qui permettent de faire ca ?

A priori, c'est comme ça que cela fonctionne chez Juniper en
"restricted". C'est aussi le cas de Linux si tu configures correctement
le "medium_id" de chaque interface à des valeurs différentes (et
différentes de 0).
-- 
 /* Am I fucking pedantic or what? */
2.2.16 /usr/src/linux/drivers/scsi/qlogicpti.h


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-30 Par sujet Radu-Adrian Feurdean
On Sat, Aug 30, 2014, at 10:39, Vincent Bernat wrote:

> Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal
> de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le

Si ca n'oblige pas a avoir un quagga/bird/exabgp/ sur chaque
serveur/VM, oui, pourquoi pas.

Et tant qu'on y est, j'avais une autre idee, j'avais meme vu un article
quelque-part a ce sujet mais je n'arrive plus a trouver le lien.

On part du postulat que les machines dans un rack ne sont pas forcement
dans le meme subnet, mais que des machines dans le meme subnet se
trouvent dans des racks differents.
L'idee est que chaque ToR porte l'IP du default gateway pour chaque
subnet. Les addresses avec une entree ARP  valide sont redistribues en
BGP, et dans chaque subnet il fait du proxy-ARP pour les IP dont il a
une route recue d'ailleurs.

Est-ce que c'est juste une idee dans le vent, ou il y en a bien des
constructeurs qui permettent de faire ca ?
En IPv4, bien-sur; en v6 c'est beaucoup trop simple avec le
off-link.


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-30 Par sujet Vincent Bernat
 ❦ 29 août 2014 23:31 +0200, "Radu-Adrian Feurdean" 
 :

>> Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en 
>> OSPF, ou plutôt en BGP (avec exabgp par exemple).
>
> Enfin, entre quelques VIP et *toutes* les machines, il y a une
> difference

Bah, pourquoi pas. Ça dépend combien tu as de machines. Il y a pas mal
de switchs ToR qui sont capables d'avoir beaucoup de routes (souvent le
même ordre de grandeur que le nombre de MAC). Genre 16k en IPv4 pour les
EX4200 (attention, beaucoup moins en IPv6) et autres de la même gamme,
128k en IPv4 pour les QFX5100.

Avant d'atteindre 128k VM, il y a de la marge.

Si tu passes par des route servers Linux, tu peux aussi aggréger avant
de redistribuer aux switchs ToR. Si les migrations se font généralement
par subnet ou de manière ponctuelle/discrète, la table de routage doit
pouvoir rester assez compacte.
-- 
printk("Entering UltraSMPenguin Mode...\n");
2.2.16 /usr/src/linux/arch/sparc64/kernel/smp.c


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-29 Par sujet Radu-Adrian Feurdean
On Thu, Aug 28, 2014, at 15:57, Raphael Mazelier wrote:
> Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en 
> OSPF, ou plutôt en BGP (avec exabgp par exemple).

Enfin, entre quelques VIP et *toutes* les machines, il y a une
difference


---
Liste de diffusion du FRnOG
http://www.frnog.org/


[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Stephane Bortzmeyer
On Thu, Aug 28, 2014 at 04:39:19PM +0200,
 Pierre Colombier  wrote 
 a message of 30 lines which said:

> Est-ce qu'on peut définir ce que c'est qu'un réseau "large".

RFC 6820 http://www.bortzmeyer.org/6820.html
Il cite des réseaux de 100 kmachines physiques...

> Est-ce que quelqu'un à réellement éprouvé en pratique des problèmes
> liés à la charge ARP dans des réseaux de ce genre ?

Indication : regarder l'employeur des auteurs du RFC 7342 :-)


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Raphaël Jacquot

On 28.08.2014 15:57, Raphael Mazelier wrote:

Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit :


Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
cela ?




Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en
OSPF, ou plutôt en BGP (avec exabgp par exemple).


et si tu controles bien toutes les vm, tu dois bien pouvoir les faire 
causer BGP elles aussi



---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Stéphane Diacquenod

Bonjour,

sur les mainframes (z/OS), les systèmes ont toujours deux cartes réseaux 
et font tourner un routeurs OSPF qui annonce les VIP.


Cela permet de déplacer les systèmes d'une machine à une autre, et de 
gérer la perte du premier router ou d'une carte réseau.


Il ne me semble pas qu'une configuration en L2 (VRRP) soient possible 
sur mainframe.


--
Cordialement,
Stéphane Diacquenod



On 2014-08-28 15:35, Stephane Bortzmeyer wrote:

On Thu, Aug 28, 2014 at 03:30:36PM +0200,
 Vincent Bernat  wrote
 a message of 37 lines which said:


Les IP des machines peuvent être annoncées dans un protocole de
routage


Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
cela ?


---
Liste de diffusion du FRnOG
http://www.frnog.org/



---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Romain SIBILLE
Moi, je le fais pour voir comment mettre en place de l'anycast (un lab
donc, je suis étudiant...). Sorti de ça, je ne vois pas en quoi c'est
bizarre de faire ça en prod' (si je raconte des bétises, merci de me
corriger ;) )


Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit :
> On Thu, Aug 28, 2014 at 03:30:36PM +0200,
>  Vincent Bernat  wrote 
>  a message of 37 lines which said:
> 
>> Les IP des machines peuvent être annoncées dans un protocole de
>> routage
> 
> Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
> cela ?
> 
> 
> ---
> Liste de diffusion du FRnOG
> http://www.frnog.org/
> 


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet David Ponzone
Ah ouais, pardon, j’avais oublié le topic de départ :)

Le 28 août 2014 à 16:32, Pierre-Yves Kerembellec  a 
écrit :

> Le 28 août 2014 à 16:26, David Ponzone  a écrit :
> 
>> Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ?
> 
> L3  L3 everywhere  ;-)
> 
 Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
 cela ?
 
>>> 
>>> On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
>>> utilise ça aussi.
>>> 
>>> Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
>>> pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
>>> fail.
> 
> Cordialement,
> Pierre-Yves
> 
> 
> 
> 


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Pierre-Yves Kerembellec
Le 28 août 2014 à 16:26, David Ponzone  a écrit :

> Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ?

L3  L3 everywhere  ;-)

>>> Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
>>> cela ?
>>> 
>> 
>> On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
>> utilise ça aussi.
>> 
>> Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
>> pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
>> fail.

Cordialement,
Pierre-Yves





---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet David Ponzone
Juste pour ma culture G, c’est quoi l’avantage par rapport à VRRP ?

Le 28 août 2014 à 16:20, Pierre-Yves Maunier  a 
écrit :

> Le 28 août 2014 15:35, Stephane Bortzmeyer  a écrit :
> 
>> 
>> Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
>> cela ?
>> 
> 
> On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
> utilise ça aussi.
> 
> Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
> pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
> fail.
> 
> Pierre-Yves
> 
> ---
> Liste de diffusion du FRnOG
> http://www.frnog.org/


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Pierre-Yves Maunier
Le 28 août 2014 15:35, Stephane Bortzmeyer  a écrit :

>
> Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
> cela ?
>

On a mis ça en place chez Iguane quand j'y étais (en BGP) et chez Daily on
utilise ça aussi.

Avec des petits tweaks, tu peux même faire de l'ECMP sur ton serveur,
pratique quand il est raccordé à 2 routeurs avec re-routage si un routeur
fail.

Pierre-Yves

---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Raphael Mazelier



Le 28/08/2014 15:35, Stephane Bortzmeyer a écrit :


Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
cela ?




Oui c'est assez courant d'annoncer des VIP en /32 dans le réseau, en 
OSPF, ou plutôt en BGP (avec exabgp par exemple).


--
Raphael Mazelier
AS39605


---
Liste de diffusion du FRnOG
http://www.frnog.org/


[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Vincent Bernat
 ❦ 28 août 2014 15:35 +0200, Stephane Bortzmeyer  :

>> Les IP des machines peuvent être annoncées dans un protocole de
>> routage
>
> Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
> cela ?

Plutôt en BGP qui permet de mieux compartimentaliser et filtrer. Je ne
pense pas que ce soit si inhabituel que ça. Je ne le fais pas encore de
mon côté, mais c'est dans les cartons.

De manière proche, j'avais fait ça :
 http://vincent.bernat.im/en/blog/2013-exabgp-highavailability.html

Cela me semble très proche de ce qu'il faudrait faire pour permettre à
des IP de migrer n'importe où sur un réseau L3.

Il faut ajouter côté client que le routeur ne change pas, chose qui est
très facile en IPv6 (fe80::1 en routeur pour tout le monde) mais qui est
moins évident en IPv4 si on veut de la configuration via DHCP (en
statique, pas de soucis, on indique que le routeur par défaut qui est le
même pour tout le monde est sur eth0).

C'est un peu du SDN avec les technos d'il y a 20 ans. ;-)
-- 
Document your data layouts.
- The Elements of Programming Style (Kernighan & Plauger)


---
Liste de diffusion du FRnOG
http://www.frnog.org/


[FRnOG] Re: [TECH] RFC 7342: Practices for Scaling ARP and ND in Large Data Centers

2014-08-28 Par sujet Stephane Bortzmeyer
On Thu, Aug 28, 2014 at 03:30:36PM +0200,
 Vincent Bernat  wrote 
 a message of 37 lines which said:

> Les IP des machines peuvent être annoncées dans un protocole de
> routage

Annoncer les /32 et /128 en OSPF ? Pas bête mais inhabituel. Qui fait
cela ?


---
Liste de diffusion du FRnOG
http://www.frnog.org/