RE: [FRnOG] [TECH] Gros problème OVH ?

2021-10-16 Par sujet Michel Py via frnog
> Florian Judith a écrit :
> J'espère bien qu'il est toujours en poste ! Il a maintenant une expérience 
> importante en gestion d'incidents
> et l'occasion de participer à la réflexion globale sur comment éviter les 
> incidents futurs dans ce contexte !

En effet ! expérience apprise dans la douleur, ce qui la rend encore plus 
précieuse.

> Je vous invite à lire / regarder cette conférence sur les boulettes qui pose 
> des points intéressants :
> https://www.paris-web.fr/2018/conferences/tempete-de-boulettes-geantes.php !

Ca démarre un peu lentement, mais c'est très bon AMHA. Je recommande sans 
réserve.

Je n'ai pas appris grand chose, mais j'ai plus qu'un peu de bouteille. Quand 
j'avais l'âge de la présentatrice, je n'avais certainement pas une vision aussi 
claire que la sienne; c'était une époque différente. J'aimerais bien avoir vu 
cette présentation il y a 30 ans.

Elle dit bien que les administrateurs système sont hors-concours, et c'est 
encore plus vrai de ceux qui touchent le coeur de réseau : plus la plomberie 
est compliquée et distribuée, plus elle est facile à boucher.

Je prêche un peu pour ma paroisse, mais le job est semé d'embuches et 
certainement pas pour tout le monde. Quand Agnès parle de l'aspect "flemme", et 
qu'il faut taper un méga mot de passe pour avoir le droit de faire des modifs, 
elle a à la fois tort et raison : à son âge, oui. A mon âge, non. Mon 
utilisateur est "privilege 15", quand je me connecte j'ai pas besoin de 
"enable"; j'ai directement le "#", pas le ">".

C:\> telnet toto
Username: michel
Password: cisco
c2851-michel#
Oct 16 18:43:27.038 PDT: %SEC_LOGIN-5-LOGIN_SUCCESS: Login Success [user: 
michel] [Source: 192.168.x.x] PDT Sat Oct 16 2021
c2851-michel#disa
Oct 16 18:43:40.274 PDT: %SYS-5-PRIV_AUTH_PASS: Privilege level set to 1 by 
michel on vty0 (192.168.x.x)
c2851-michel>

L'idée est bonne, mais quand on fait ça toute la journée ça use le clavier et 
les mains de taper ou de copier/coller un mot de passe toutes les 30 secondes.
C'est un peu comme la connerie que Flex avait, il y a 40 ans :

- Are you sure ? (y/n)
- y 
- Are you really sure ?
- y 

En quelques jours, on développe l'habitude automatique "y  y ", 
qui a pour résultat de planter les scripts qui ne demandent "Are you sure ?" 
qu'une seule fois, qui a pour résultat de planter les scripts ou les faire 
redémarrer quand la question suivante attend un nombre, et que la réponse est 
"y".

Le mieux est parfois l'ennemi du bien.

Michel.


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] [TECH] Gros problème OVH ?

2021-10-15 Par sujet Florian Judith
J'espère bien qu'il est toujours en poste !

Il a maintenant une expérience importante en gestion d'incidents et
l'occasion de participer à la réflexion globale sur comment éviter les
incidents futurs dans ce contexte !

Je vous invite à lire / regarder cette conférence sur les boulettes qui
pose des points intéressants :
https://www.paris-web.fr/2018/conferences/tempete-de-boulettes-geantes.php !

On Sat, Oct 16, 2021 at 3:38 AM Michel Py via frnog  wrote:

> >> Michel Py a écrit :
> >> Je pense qu'il a du s'en apercevoir, mais que sa session a du se
> planter et que
> >> l'OOB a du se barrer en même temps. Je ne lui trouve pas d'excuses car
> il n'y en
> >> a pas, mais je compatis. Il y a 100 manières différentes de vautrer un
> réseau.
>
> > Hugues Voiturier a écrit :
> > Un OSPF qui se vautre, c’est un peu plus compliqué que de juste rollback
> visiblement :
> >
> https://routingcraft.net/what-happens-if-you-redistribute-bgp-full-view-into-ospf/
>
> Ah la vache. Ca serait intéressant de demander au mec qui a fait la
> boulette ce qu'il en pense, le jour ou il finira sa traversée du désert,
> que je lui souhaite courte.
>
> > Once BGP full view is redistributed : Abandon all hope.
>
> Je ne l'ai jamais fait, ce coup-là, mais je retiens. Une fois j'ai fait un
> truc un peu fumeux avec une redistribution mutuelle ( BGP -> OSPF _et_ OSPF
> -> BGP ); ça marchait bien mais les route-map étaient un peu usine à gaz
> sur les bords, en plus il y avait des route-reflectors aussi; en bref il
> n'y avait que moi qui comprenais vraiment le bazar et on a simplifié 1 an
> plus tard : c'était un paratonnerre à emmerdes.
>
> Michel.
>
>
> ---
> Liste de diffusion du FRnOG
> http://www.frnog.org/
>

---
Liste de diffusion du FRnOG
http://www.frnog.org/


RE: [FRnOG] [TECH] Gros problème OVH ?

2021-10-15 Par sujet Michel Py via frnog
>> Michel Py a écrit :
>> Je pense qu'il a du s'en apercevoir, mais que sa session a du se planter et 
>> que
>> l'OOB a du se barrer en même temps. Je ne lui trouve pas d'excuses car il 
>> n'y en
>> a pas, mais je compatis. Il y a 100 manières différentes de vautrer un 
>> réseau.

> Hugues Voiturier a écrit :
> Un OSPF qui se vautre, c’est un peu plus compliqué que de juste rollback 
> visiblement :
> https://routingcraft.net/what-happens-if-you-redistribute-bgp-full-view-into-ospf/

Ah la vache. Ca serait intéressant de demander au mec qui a fait la boulette ce 
qu'il en pense, le jour ou il finira sa traversée du désert, que je lui 
souhaite courte.

> Once BGP full view is redistributed : Abandon all hope.

Je ne l'ai jamais fait, ce coup-là, mais je retiens. Une fois j'ai fait un truc 
un peu fumeux avec une redistribution mutuelle ( BGP -> OSPF _et_ OSPF -> BGP 
); ça marchait bien mais les route-map étaient un peu usine à gaz sur les 
bords, en plus il y avait des route-reflectors aussi; en bref il n'y avait que 
moi qui comprenais vraiment le bazar et on a simplifié 1 an plus tard : c'était 
un paratonnerre à emmerdes.

Michel.


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] [TECH] Gros problème OVH ?

2021-10-15 Par sujet Hugues Voiturier
> On 15 Oct 2021, at 01:27, Michel Py via frnog  wrote:
> 
> Je pense qu'il a du s'en apercevoir, mais que sa session a du se planter et 
> que l'OOB a du se barrer en même temps.
> Je ne lui trouve pas d'excuses car il n'y en a pas, mais je compatis. Il y a 
> 100 manières différentes de vautrer un réseau.

Un OSPF qui se vautre, c’est un peu plus compliqué que de juste rollback 
visiblement : 
https://routingcraft.net/what-happens-if-you-redistribute-bgp-full-view-into-ospf/

Hugues Voiturier
Consultant en architecture réseau
AS57199



---
Liste de diffusion du FRnOG
http://www.frnog.org/


RE: [FRnOG] [TECH] Gros problème OVH ?

2021-10-14 Par sujet Michel Py via frnog
> David Ponzone a écrit :
> Exemple simple fictif: Des route-map pour router des /32 de force vers leur 
> anti-DDOS.
> Erreur sur la route-map, tous les subnets internes se retrouvent router vers 
> l’anti-DDoS.

Apparemment c'est ce qui est arrivé.


> Renaud Chaput a écrit :
> Après peut-être qu'il y a des moyens plus propres de changer une conf
> Cisco que de copier/coller une config ligne par ligne hein ;)

Ben pas vraiment, voir plus bas.

> David Ponzone a écrit :
> Le vrai problème, c’est:
> -pourquoi l’humain ne savait pas qu’il est opportun de coller ses commandes 
> dans un éditeur avec assez
> de colonnes pour être certain qu’il y a pas un \n qui se balade... mais 
> l’erreur est humaine, ok
> - pourquoi ils utilisent pas des outils type Ansible ou autre pour faire les 
> modifs de conf, avec éventuellement un contrôle
> de syntaxe, vu la taille du réseau. Ca doit se trouver un analyseur 
> syntaxique pour Cisco, au moins pour la base.

Les gros doigts, ça arrive quel que soit le système. Les trucs automagiques, 
c'est encore pire : quand du déploies un changement sur des dizaines ou des 
centaines de routeurs, et que ça va pas, là t'es vraiment dans la m... dont il 
va falloir plus qu'1/2 heure pour retomber sur ses pieds. Les trucs 
automagiques, il faut qu'il y ait une certaine échelle pour les utiliser; créer 
et surtout tester l'automatisation pour 1 ou 2 routeurs, ça prend beaucoup trop 
de temps. Ce qui te laisse avec la ligne de commande.

> -à la limite, pourquoi y avait pas un autre être humain pour vérifier le 
> copier/coller du premier, vu le risque

Justement, tout dépend de la perception du risque. Chaque fois que j'ai planté 
quelque chose, c'était avec un truc de routine prouvé être sans risque.
Quand ça sent pas bon, on est souvent deux; parfois, un est dans la cage, au 
cas-ou. Mais on ne fait pas ça quand le risque perçu est faible.

Bon clairement, le mec il aurait pu faire "reload in 5" avant de faire son 
copier/coller mais même ça, il y a un danger : le téléphone sonne, c'est 
important, et tu oublies de faire le "reload cancel" et ton truc reboote alors 
que la manip était bonne, c'est pas glop non plus.


> Et le mec qui a fait la boulette, il ne s'en est pas aperçu de suite pour 
> revenir en arrière ? Même moi,
> à mon petit niveau, j'ai plein de voyants "OVH" qui sont tous passés du vert 
> au rouge en même temps...

Je pense qu'il a du s'en apercevoir, mais que sa session a du se planter et que 
l'OOB a du se barrer en même temps.
Je ne lui trouve pas d'excuses car il n'y en a pas, mais je compatis. Il y a 
100 manières différentes de vautrer un réseau.

Quand tu travailles sur un routeur distant : "reload in 5". Ca va planter 
pareil, mais 5 minutes après ça va revenir.
Leçon apprise par le kilométrage en pleine nuit, il y a longtemps.

Michel.


---
Liste de diffusion du FRnOG
http://www.frnog.org/