Re: [FRnOG] [ALERT] Gros problème OVH ?
Le Thu, Oct 14, 2021 at 11:44:21AM +0200, David Ponzone a écrit: > Chez Equinix, c’est 8h pour avoir un remote-hands. Tu as de la chance. Je me rappelle d'une fois où on a une réponse une SEMAINE après en nous demandant s'il fallait toujours le faire... Arnaud. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
Le 14/10/2021 à 11:07, Toussaint OTTAVI a écrit : Erreur sur la route-map, tous les subnets internes se retrouvent router vers l’anti-DDoS. Cà veut dire qu'un seul mec sur un seul routeur peut changer sur une seule instruction toutes les routes de la planète ? Bon, si j'ai bien compris, c'est pas de bol, un phénomène en cascade, et une accumulation de mauvaises routes qui a saturé tous les autres routeurs... Le truc assez imprévisible tant qu'il ne s'est pas produit au moins une fois... Aucun protocole de routage n'a implémenté de protection contre les mauvaises annonces, ni les erreurs de configuration, ni les erreurs de conception. Il n'y a pas non plus de moyen pour un routeur de connaître l'état de ces voisins (un truc comme "je suis momentanément surchargé, ne m'envoie plus de trafic pour le moment", comme SS7 sait faire), c'est sans doute plus facile à faire dans un réseau temporel et avec du routage statique (qui se souvient du partage de charge en SS7) qu'en mode paquet. Le réseau auto-magique qui se configure et se gère tout seul n'existe pas (qui se souvient de la pub télé où cisco protège automatiquement des attaques informatique ?). -- Et le mec qui a fait la boulette, il ne s'en est pas aperçu de suite pour revenir en arrière ? Même moi, à mon petit niveau, j'ai plein de voyants "OVH" qui sont tous passés du vert au rouge en même temps... Ou bien, c'est comme FB, il a perdu la main et n'avait pas d'OOB ? La difficulté dans la résolution de problème c'est déjà d'identifier le problème. Il y a tellement d'équipement, d'interdépendance d'éléments (par exemple: BGP qui dépend d'OSPF qui dépend de BFD) qu'il est parfois long d'identifier la root-cause. Là il y a sans doute des progrès à faire sur des softs qui aiderait les ingé à trouver la root-cause plus rapidement. -- C'est pas encore Vendredi, mais entre çà, FB, les numéros d'urgence il y a quelques mois, je suis assez pessimiste sur l'avenir de cette civilisation hyper-connectée... Et encore, ce n'étaient que des pannes/erreurs... Qu'est-ce que çà serait si des "puissances ennemies" avaient la mauvaise idée de cyber-attaquer ??? Il y a bien d'autres cas où un évènement isolé se déclare, on pense que les conséquences seront limitées et kaboum: - expérimentation BGP qui a mal tournée: https://labs.ripe.net/author/erik/ripe-ncc-and-duke-university-bgp-experiment/ - opération de maintenance classique sur une interco électrique: https://fr.wikipedia.org/wiki/Panne_de_courant_du_4_novembre_2006_en_Europe - arc électrique sur une ligne HT: https://www.youtube.com/watch?v=-iSXF2lraR0=100s Ca c'est pour les éléments documentés, mais je pense que ça existe aussi dans l'économie, avec comme exemple les subprime et la cascade de faillites. Mais on sait faire des choses très robuste en limitant l'environnement, les interco et en augmentant la qualité (on fait la preuve mathématique du code, multiplication des ordinateurs avec chacun du code différent, processeur plus résistant à l'environnement ...): - satellites; - répéteurs des câbles sous-marins; - les sondes (mars et ailleurs); - centrales électriques, postes sources; - ... Globalement là où c'est économiquement plus pertinent d'avoir quelque chose qui marche tout le temps plutôt que de subir les inconvénients de subir un incident. Faut-il en conclure que FB, OVH et tellement d'autre "peuvent se permettre" d'avoir des incidents car ça coûterait encore plus cher de ne pas les avoir ? Pour conclure sur une note plus drôle, je ne pense pas que les pacemaker ont suivi le même chemin que les sextoy qui sont devenus connectés: https://www.lemonde.fr/pixels/article/2018/12/30/pirater-des-sextoys-connectes-une-partie-de-plaisir_5403696_4408996.html -- Jérôme Marteaux --- Liste de diffusion du FRnOG http://www.frnog.org/
RE: [FRnOG] [ALERT] Gros problème OVH ?
> -Message d'origine- > De : frnog-requ...@frnog.org De la part de Renaud > Chaput > Envoyé : jeudi 14 octobre 2021 11:15 > Cc : frnog@frnog.org > Objet : Re: [FRnOG] [ALERT] Gros problème OVH ? > > En gros la route-map était celle qui redistribuait BGP dans OSPF, et les > 850k routes de l'internet se sont retrouvées dans leur OSPF, ce qui a fait > exploser un peu tous les routeurs, et une grosse partie des routeurs se > sont mis à prendre le routeur en question comme default route. Pour se protéger de ces nombreuses routes, est-ce qu'un "maximum-prefix" n'aurait pas été efficace ? -- Christophe GRENIER --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
> Le 14 oct. 2021 à 11:15, Renaud Chaput a écrit : > > Il y a eu un post-mortem et une timeline de publiée : > http://travaux.ovh.net/?do=details=53798; > > En gros la route-map était celle qui redistribuait BGP dans OSPF, et les > 850k routes de l'internet se sont retrouvées dans leur OSPF, ce qui a fait > exploser un peu tous les routeurs, et une grosse partie des routeurs se > sont mis à prendre le routeur en question comme default route. > Une seule zone OSPF pour un réseau de cette taille ? Pas de technicien sur site 24/24 pour un DC qui héberge des milliers de serveurs ? Pas d’accès OOB avec des simples adsl d’un provider tiers sur des routers de bordure ? Pas de gestion des déploiements avec un outil comme Ansible? Et quoi encore ? On éteint un incendie de data center avec des extincteurs? Ah oui c’est le cas > Il n'y avait pas de staff OVH sur place, ils ont demandé au remote hands > local d'intervenir, déjà en débranchant tous les uplinks du routeurs, puis > au final en demandant à le débrancher électriquement. 10 minutes pour > décider de faire ça, puis 30 minutes avant que le remote hands ne soit sur > place, ça va encore. > > Après peut-être qu'il y a des moyens plus propres de changer une conf Cisco > que de copier/coller une config ligne par ligne hein ;) > >> On Thu, Oct 14, 2021 at 11:07 AM Toussaint OTTAVI >> wrote: >> >> >> >>> Le 14/10/2021 à 09:47, David Ponzone a écrit : >>> C’est un peu facile à dire tant que tu gères pas un réseau de ce type. >> >> Justement, je n'ai aucune idée de la façon dont on gère un réseau de ce >> type ! Je cherche juste à augmenter ma culture générale, pour le jour où >> mon réseau atteindra cette taille :D >> >>> Erreur sur la route-map, tous les subnets internes se retrouvent router >> vers l’anti-DDoS. >> >> Cà veut dire qu'un seul mec sur un seul routeur peut changer sur une >> seule instruction toutes les routes de la planète ? Bon, si j'ai bien >> compris, c'est pas de bol, un phénomène en cascade, et une accumulation >> de mauvaises routes qui a saturé tous les autres routeurs... Le truc >> assez imprévisible tant qu'il ne s'est pas produit au moins une fois... >> >> -- >> Et le mec qui a fait la boulette, il ne s'en est pas aperçu de suite >> pour revenir en arrière ? Même moi, à mon petit niveau, j'ai plein de >> voyants "OVH" qui sont tous passés du vert au rouge en même temps... >> >> Ou bien, c'est comme FB, il a perdu la main et n'avait pas d'OOB ? >> >> -- >> C'est pas encore Vendredi, mais entre çà, FB, les numéros d'urgence il y >> a quelques mois, je suis assez pessimiste sur l'avenir de cette >> civilisation hyper-connectée... Et encore, ce n'étaient que des >> pannes/erreurs... Qu'est-ce que çà serait si des "puissances ennemies" >> avaient la mauvaise idée de cyber-attaquer ??? >> >> >> >> --- >> Liste de diffusion du FRnOG >> http://www.frnog.org/ >> > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [ML] Re: [FRnOG] [ALERT] Gros problème OVH ?
On Thu, 14 Oct 2021 11:44:21 +0200 David Ponzone wrote: >| C’est fabuleux comme temps 30 min. >| Chez Equinix, c’est 8h pour avoir un remote-hands. Mauvaise langue :) En remote hands pour incident, c'est a peu près du même ordre (mais faut remplir la bonne demande, pas le remote hands standard). Après ca ne remplace de toute façon jamais un accès autonome aux PDUs... Manuel -- __ Manuel Guesdon - OXYMIUM --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [ML] Re: [FRnOG] [ALERT] Gros problème OVH ?
On Thu, 14 Oct 2021 11:14:57 +0200 Renaud Chaput wrote: >| En gros la route-map était celle qui redistribuait BGP dans OSPF, et les >| 850k routes de l'internet se sont retrouvées dans leur OSPF, ce qui a fait >| exploser un peu tous les routeurs, et une grosse partie des routeurs se >| sont mis à prendre le routeur en question comme default route. Ca veut dire qu'au niveau design, on a un seul OSPF pour tout le réseau OVH ? Avec de l'OSPF par site et des échanges inter-sites plutôt en BGP, avec donc possibilité de filtrage à la fois en OUT sur un routeur et en IN sur le routeur en face, ce genre de boulette n'aurait pas eu d'impact (global), non ? >| Il n'y avait pas de staff OVH sur place, ils ont demandé au remote hands >| local d'intervenir, déjà en débranchant tous les uplinks du routeurs, puis >| au final en demandant à le débrancher électriquement. 10 minutes pour >| décider de faire ça, puis 30 minutes avant que le remote hands ne soit sur >| place, ça va encore. D'où l’intérêt d'avoir un accès OOB complet (serial over ssh + possibilité de off/on/reboot à distance autonome via PDU). Mais c'est clair que dans ce genre de situation les minutes passent très vite (sauf celles ou on attend que l'intervenant arrive sur place, celles là sont très très longues). Difficile de faire beaucoup beaucoup mieux en terme de temps sur ce cycle décision-execution-convergence.. Manuel, qui retourne gérer son tout petit réseau :) -- __ Manuel Guesdon - OXYMIUM --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
C’est fabuleux comme temps 30 min. Chez Equinix, c’est 8h pour avoir un remote-hands. > Le 14 oct. 2021 à 11:14, Renaud Chaput a écrit : > > Il y a eu un post-mortem et une timeline de publiée : > http://travaux.ovh.net/?do=details=53798; > > En gros la route-map était celle qui redistribuait BGP dans OSPF, et les > 850k routes de l'internet se sont retrouvées dans leur OSPF, ce qui a fait > exploser un peu tous les routeurs, et une grosse partie des routeurs se > sont mis à prendre le routeur en question comme default route. > > Il n'y avait pas de staff OVH sur place, ils ont demandé au remote hands > local d'intervenir, déjà en débranchant tous les uplinks du routeurs, puis > au final en demandant à le débrancher électriquement. 10 minutes pour > décider de faire ça, puis 30 minutes avant que le remote hands ne soit sur > place, ça va encore. > > Après peut-être qu'il y a des moyens plus propres de changer une conf Cisco > que de copier/coller une config ligne par ligne hein ;) --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
Il y a eu un post-mortem et une timeline de publiée : http://travaux.ovh.net/?do=details=53798; En gros la route-map était celle qui redistribuait BGP dans OSPF, et les 850k routes de l'internet se sont retrouvées dans leur OSPF, ce qui a fait exploser un peu tous les routeurs, et une grosse partie des routeurs se sont mis à prendre le routeur en question comme default route. Il n'y avait pas de staff OVH sur place, ils ont demandé au remote hands local d'intervenir, déjà en débranchant tous les uplinks du routeurs, puis au final en demandant à le débrancher électriquement. 10 minutes pour décider de faire ça, puis 30 minutes avant que le remote hands ne soit sur place, ça va encore. Après peut-être qu'il y a des moyens plus propres de changer une conf Cisco que de copier/coller une config ligne par ligne hein ;) On Thu, Oct 14, 2021 at 11:07 AM Toussaint OTTAVI wrote: > > > Le 14/10/2021 à 09:47, David Ponzone a écrit : > > C’est un peu facile à dire tant que tu gères pas un réseau de ce type. > > Justement, je n'ai aucune idée de la façon dont on gère un réseau de ce > type ! Je cherche juste à augmenter ma culture générale, pour le jour où > mon réseau atteindra cette taille :D > > > Erreur sur la route-map, tous les subnets internes se retrouvent router > vers l’anti-DDoS. > > Cà veut dire qu'un seul mec sur un seul routeur peut changer sur une > seule instruction toutes les routes de la planète ? Bon, si j'ai bien > compris, c'est pas de bol, un phénomène en cascade, et une accumulation > de mauvaises routes qui a saturé tous les autres routeurs... Le truc > assez imprévisible tant qu'il ne s'est pas produit au moins une fois... > > -- > Et le mec qui a fait la boulette, il ne s'en est pas aperçu de suite > pour revenir en arrière ? Même moi, à mon petit niveau, j'ai plein de > voyants "OVH" qui sont tous passés du vert au rouge en même temps... > > Ou bien, c'est comme FB, il a perdu la main et n'avait pas d'OOB ? > > -- > C'est pas encore Vendredi, mais entre çà, FB, les numéros d'urgence il y > a quelques mois, je suis assez pessimiste sur l'avenir de cette > civilisation hyper-connectée... Et encore, ce n'étaient que des > pannes/erreurs... Qu'est-ce que çà serait si des "puissances ennemies" > avaient la mauvaise idée de cyber-attaquer ??? > > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
Le 14/10/2021 à 09:47, David Ponzone a écrit : C’est un peu facile à dire tant que tu gères pas un réseau de ce type. Justement, je n'ai aucune idée de la façon dont on gère un réseau de ce type ! Je cherche juste à augmenter ma culture générale, pour le jour où mon réseau atteindra cette taille :D Erreur sur la route-map, tous les subnets internes se retrouvent router vers l’anti-DDoS. Cà veut dire qu'un seul mec sur un seul routeur peut changer sur une seule instruction toutes les routes de la planète ? Bon, si j'ai bien compris, c'est pas de bol, un phénomène en cascade, et une accumulation de mauvaises routes qui a saturé tous les autres routeurs... Le truc assez imprévisible tant qu'il ne s'est pas produit au moins une fois... -- Et le mec qui a fait la boulette, il ne s'en est pas aperçu de suite pour revenir en arrière ? Même moi, à mon petit niveau, j'ai plein de voyants "OVH" qui sont tous passés du vert au rouge en même temps... Ou bien, c'est comme FB, il a perdu la main et n'avait pas d'OOB ? -- C'est pas encore Vendredi, mais entre çà, FB, les numéros d'urgence il y a quelques mois, je suis assez pessimiste sur l'avenir de cette civilisation hyper-connectée... Et encore, ce n'étaient que des pannes/erreurs... Qu'est-ce que çà serait si des "puissances ennemies" avaient la mauvaise idée de cyber-attaquer ??? --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
C’est un peu facile à dire tant que tu gères pas un réseau de ce type. Je vois mal comment un réseau pourrait être construit pour résister à n’importe quelle boulette interne. Exemple simple fictif: Des route-map pour router des /32 de force vers leur anti-DDOS. Erreur sur la route-map, tous les subnets internes se retrouvent router vers l’anti-DDoS. Le vrai problème, c’est: -pourquoi l’humain ne savait pas qu’il est opportun de coller ses commandes dans un éditeur avec assez de colonnes pour être certain qu’il y a pas un \n qui se balade…mais l’erreur est humaine, ok -à la limite, pourquoi y avait pas un autre être humain pour vérifier le copier/coller du premier, vu le risque -pourquoi ils utilisent pas des outils type Ansible ou autre pour faire les modifs de conf, avec éventuellement un contrôle de syntaxe, vu la taille du réseau. Ca doit se trouver un analyseur syntaxique pour Cisco, au moins pour la base. > Le 14 oct. 2021 à 09:31, Toussaint OTTAVI a écrit : > > > Le 13/10/2021 à 12:29, Pierre DOLIDON a écrit : >> c'est plutôt la route-map "ipv" qui n'existait pas qui a fichu la brouille. >> non ? > > Quelqu'un peut nous expliquer comment une seule ligne de commande incorrecte > sur un routeur à un endroit donné peut mettre au tapis tout un réseau > multi-site multi-redondant sur plusieurs continents ? N'y aurait-il pas un > problème de design à la base ? > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
Le 14/10/2021 à 09:34, Vincent Habchi a écrit : D’après ce que j’ai compris, la mauvaise configuration a propagé des informations BGP erronées qui ont détourné tout le trafic OVH vers le routeur fautif. Information SGDG, à prendre avec un nombre de pincettes suffisant. Et surtout les routeurs internes, au lieu de recevoir une route par défaut vers les routeurs de bordure ont reçu les ~ 850 000 routes d'internet. Pas sûr qu'ils en aient eu la capacité. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
D’après ce que j’ai compris, la mauvaise configuration a propagé des informations BGP erronées qui ont détourné tout le trafic OVH vers le routeur fautif. Information SGDG, à prendre avec un nombre de pincettes suffisant. Goditi la giurnata, V. --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
En tout cas, si y a bien un truc qui va pas flamber, c’est le cours de leur action vendredi…. Je leur souhaite aucun mal, mais faire une maintenance foirée ce matin, c’était une drôle d’idée. Ils ont peut-être embauché le stagiaire fou de Facebook…. > Le 13 oct. 2021 à 09:38, Richard Klein a écrit : > > Bbq party en cours ? > > Le mer. 13 oct. 2021 à 09:36, Stephane Bortzmeyer a > écrit : > >> Tout leur réseau semble très perturbé. >> >> >> >> --- >> Liste de diffusion du FRnOG >> http://www.frnog.org/ >> > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
https://twitter.com/olesovhcom/ On Wed, Oct 13, 2021 at 09:38:41AM +0200, Richard Klein wrote: Bbq party en cours ? Le mer. 13 oct. 2021 à 09:36, Stephane Bortzmeyer a écrit : Tout leur réseau semble très perturbé. -- @++ --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
Doux euphémisme « perturbé », pour dire que tout est down :-/ > Le 13 oct. 2021 à 09:47, Stephane Bortzmeyer a écrit : > > Tout leur réseau semble très perturbé. > > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
https://twitter.com/ovh_status/status/1448185498812485633 Le mer. 13 oct. 2021 à 09:47, Stephane Bortzmeyer a écrit : > Tout leur réseau semble très perturbé. > > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > --- Liste de diffusion du FRnOG http://www.frnog.org/
[FRnOG] [ALERT] Gros problème OVH ?
Coté supervisions j'ai pas mal de serveur accessible à nouveau depuis 10 minutes mais il en manque une partie encore. Idem pour la partie Transit VOIP les SBC semble down... Jérémy SPIESSER --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
Il semble qu'une maintenance était prévue ce matin à 9h00 UTC+2, cf @ovh_status (sur l'oiseau bleu). Stephane Bortzmeyer , 13/10/2021 – 09:29:28 (+0200): > Tout leur réseau semble très perturbé. > > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ -- Faustin signature.asc Description: PGP signature
Re: [FRnOG] [ALERT] Gros problème OVH ?
J'ai perdu un de mes sites pendant 5 petites minutes. C'est reviendu à la normale. T: @mguiraud | m. 06 95 92 51 33 Le mer. 13 oct. 2021 à 09:38, Stephane Bortzmeyer a écrit : > Tout leur réseau semble très perturbé. > > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > --- Liste de diffusion du FRnOG http://www.frnog.org/
Re: [FRnOG] [ALERT] Gros problème OVH ?
Bbq party en cours ? Le mer. 13 oct. 2021 à 09:36, Stephane Bortzmeyer a écrit : > Tout leur réseau semble très perturbé. > > > > --- > Liste de diffusion du FRnOG > http://www.frnog.org/ > --- Liste de diffusion du FRnOG http://www.frnog.org/
[FRnOG] [ALERT] Gros problème OVH ?
Tout leur réseau semble très perturbé. --- Liste de diffusion du FRnOG http://www.frnog.org/