En effet, je crois qu'on est sur quelque chose.
A peine connecté en shell sur la tfeb0 que popent les messages suivants au
rythme de 1 par seconde :
[Feb 13 16:07:19.147 LOG: Info] PPE Thread Timeout Trap: Count 5720824, PC
369, 0x0369: ktree_nh_launch
[Feb 13 16:07:21.147 LOG: Info] PPE Thread Timeout Trap: Count 5720832, PC
7ec, 0x07ec: KTree_Terminate_With_Default_Route
[Feb 13 16:07:23.147 LOG: Info] PPE Thread Timeout Trap: Count 5720839, PC 4c,
0x004c: KT4Way_ARS01_trap
[Feb 13 16:07:25.147 LOG: Info] PPE Thread Timeout Trap: Count 5720844, PC
7ee, 0x07ee: KT4Way_BTT0_ARS00
Et d'autres. Sans même demander à voir les messages syslog. Et en les
consultant j'ai évidemment ces mêmes messages.
Le nvram m'indique parmis d'autres LOG: Emergency avec un numéro de frame et
des adresses matériel (apriori ?) en hex pour "sp" et "pc" :
[Feb 5 09:02:28.129 LOG: Emergency] <160>Free interrupt violation!
Et fini par conclure :
MPC: Reset reason (0x80): Software initiated CPU reset
Ceci se répète a priori 5 fois.
luchip 0 error m'indique qu'il n'y a pas d'enregistrement alors que luchip 0
ppe 0 trap_info m'indique
PPE Thread Timeout Trap: Count 5723096, PC 7fd, 0x07fd:
KT4Way_update_with_secondary_and_continue
cmerror brief m'indique une valeur dont je ne comprend pas la cohérence.
Le MX est à 0 active errors sur l'ensemble des module sauf LUCHIP(0) qui est à
4 278 032 188
Ce qui je trouve en soit est énorme mais d'autant plus mis en rapport avec le
cmerror du module LUCHIP(0)
Ce dernier m'indique que tout les éléments sont à 0 erreurs, sauf le dernier
dont l'id est 0x040008 qui m'indique :
Occured 94, Cleared 94 et last-occurred il y a 10881595ms soit il y a à peu
près 1h30.
Par contre je n'ai rien vu passer en rapport avec hsl2, sur le dernier tableau
il y a une colonne description mais la ligne qui affiche des erreurs n'en a pas
et les autre ligne n'indiquent pas hsl2.
Vu tout ça, j'ai l'impression que le ticket JTAC devient inévitable.
Merci pour ces pistes détaillées, pourrais-tu me dire ce que tu penses de ce
retour ?
D'avance merci.
Aurélien
________________________________
De : Pierre Emeriaud <[email protected]>
Envoyé : vendredi 13 février 2026 16:45
À : Aurelien Dieval <[email protected]>
Cc : [email protected] <[email protected]>
Objet : Re: [FRnOG] [TECH] Pics de latence sur Juniper MX80
> Au moment de ces pics ou crises, j'ai des messages tels que les suivants dans
> les logs :
> - tfeb0 LUCHIP(0) Congestion Detected, Active Zones
> f:f:7:e:3:f:e:f:1:f:c:f:9:b:f:f
> - tfeb0 Failed to send non-PEC pfe TOD update to other PFEs. Error code: 29.
> - tfeb0 LUCHIP(0) cntx_single_step_timeout PPE0 cntx_id 18
LU = lookup unit. c'est le composant qui va réaliser le lookup d'un
paquet pour voir ce qu'il doit en faire, vers où il doit être envoyé
etc.
chaque luchip a 16 packet processing engine (PPE) sur lesquels seront
distribués en round-robin les paquets, et chaque ppe a 20 contextes
pour paralléliser les opérations.
Si tu as de la congestion + timeout à cet endroit là c'est assez
mauvais comme tu as pu le constater. il faudrait essayer de voir en
effet si c'est à cause d'un soucis hardware ou d'un niveau de trafic
trop élevé.
Passe en shell sur la tfeb :
juniper@router> start shell pfe network tfeb0
de là, les premières choses à vérifier s'il y a des trucs sales :
MX104-ABB-0(router vty)# show syslog messages
MX104-ABB-0(router vty)# show nvram
(j'ai pas de mx80 sous la main pour vérifier mais ça doit être assez proche)
De même à vérifier :
MX104-ABB-0(router vty)# show luchip 0
MX104-ABB-0(router vty)# show luchip 0 errors
MX104-ABB-0(router vty)# show luchip 0 ppe 0 trap_info
en fonction du message d'erreur tu devrais pouvoir essayer de
déterminer si c'est plus hardware ou lié aux conditions.
Eventuellement à vérifier aussi mais moins convaincu que ça affiche
quelque chose de significatif dans ton cas :
MX104-ABB-0(router vty)# show cmerror module brief
=> voir s'il y a des active errors, et si oui :
MX104-ABB-0(router vty)# show cmerror module <module du luchip(0)>
s'il y a des erreurs au niveau des liens de fabrique (hsl2) ça devrait
être visible là.
Une fois tous ces logs relevés tu devrais y voir un poil plus clair
avant d'aller causer à Junipackard.
---------------------------
Liste de diffusion du FRnOG
http://www.frnog.org/