Le 26/07/2012 12:09, Richard DEMONGEOT a écrit :
Vu les trois points, RPKI ou non, le résultat est le même.


Ma compréhension est que dans l'hypothèse où RPKI est déployé et activé, il aurait du couvrir ce problème d'annonces erronées.
D'où l'invitation au troll de l'OP.

L'important reste donc (encore) la réactivité des équipes techniques, et
en l'occurence, 25 minutes c'est plus que raisonnable.

C'est selon les jugements excellent ou lamentable. Si personne n'a rien vu, il n'y a rien à dire, si cela a été le tsunami au support, le responsable du support donnera sa propre appréciation de l'incident.


Concernant la résilience :
Orange n'est qu'une partie d'internet (certes importante pour le marché
Francophone), mais une partie d'internet, et un AS parmis tant d'autres.
(et encore, pas tout 3215 n'a été impacté à priori).

Un AS parmi tant d'autre dans la table des ASN, mais quelle fraction trafic de l'AS, 1%, 10% , 30% ? Il n'y a que le propriétaire de l'AS qui peut répondre. Et cette fraction de trafic, c'est une fraction de son service qu'il vend, et non pas 1 divisé par "nombre d'AS de la table des ASN de l'Internet".


Est ce qu'il y a eu une coupure Internet ? Non. Il y a eu un incident sur
une partie d'internet. La résilience doit être mesurée sur quelle partie
d'internet?

Sur chaque fraction de son trafic. A priori, rares sont les AS qui discutent uniformément en terme de volumétrie avec le reste de la planète. Chaque AS a son profil volumétrique. Je pense que si 99% de votre trafic ne se fait qu'avec 1 seul autre AS, cet AS mérite 99% de votre attention.

Je suis partisan de cette répartition plutôt que d'une répartition qui consiste à se préoccuper de toutes les AS, y compris celles avec qui on n'a pas ou très peu de trafic.


Enfin, mode avocat du diable :
Le problème viens du fait qu'un AS a émis des routes vérreuses. Avec moins
de résilience (aucun peering uniquement des upstreams), l'impact aurai été
moins visible.

Là encore, la résillience ne peut être mesurée sur des données aussi
faibles, un acteur donné.


J'ai la croyance qu'il vaut mieux diviser le problème de résilience pour y régner dessus, et je crois que la résilience globale obtenue d'un système ou d'un réseau n'est que la réunion de chacun de petits morceaux individuels de résilience du système.

Du coup, quand il y a un problème avec une destination, ce problème dit "quelque chose" sur un petit morceau de résilience du réseau.

Et normalement dans un réseau résilient, avant de perdre un "service", on a perdu "la résilience". Perdre un service, c'est une double faute.


---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/

Répondre à