Re: [FRnOG] [TECH] Juniper Checksum Error

2017-02-08 Par sujet Raphael Maunier
Bah :)

request support information | save /var/tmp/RSI-hostname_ticket_number.txt
file archive compress source /var/log/* destination 
/var/tmp/log-hostname_ticket_number.tgz

Apres, c’est pas la seule cause. Je t’ai donné un exemple, il doit y en avoir 
d’autres ( y compris les fameux “internal #PR” )

Raphael



> On 8 Feb 2017, at 17:15, Marc Abel  wrote:
> 
> Intéressant, mais J'ai pas ' per-unit-scheduler' dans mes conf.
> 
> Le routeur a bien fonctionné en test et au départ (le trafic était très 
> faible), est-ce que ça peut être lié à la charge ?
> 
> Marc (bien loin des 10G)
> 
> 
> Le 08/02/2017 à 16:11, Raphael Maunier a écrit :
>> Pas que…
>> 
>> J’ai déjà eu un truc du genre une fois
>> 
>> https://kb.juniper.net/InfoCenter/index?page=content=KB26389=search
>> 
>> 
>> Raphael
>> 
>>> On 8 Feb 2017, at 16:07, David Ponzone  wrote:
>>> 
>>> Ben, juste en lisant, ça sent la RAM foireuse non ?
>>> 
>>> 
 Le 8 févr. 2017 à 16:04, Marc Abel  a écrit :
 
 Bonjour,
 
 J'ai perdu la main et j'ai du rebooter un MX (c'est ma première fois, ne 
 rigolez pas).
 
 Dans les logs j'ai ça :
 
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error 
 Information Quantum 0 bank num 60, ddrio[3].dmcN[1].bank[4] Error bcount 
 2, error addr 0x4000fa => cell addr 0x4000f => row:col 1000:0f
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF Chksum Cnts Current 1, 
 Total 4
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM double bit ECC error, 
 bank 3 addr 0x8080d
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM ECC error summary, 
 bank 3 addr 0x8080d
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ Sram parity error, errlog 
 0x1000
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ TCP freepool overrun error, 
 Qsys0 Queue 1023 agent 1
 Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ NP list timeout error, errlog 
 0x3ff3
 Feb  6 13:51:01  MX104-1 afeb0 MQCHIP(0) WO Packet error .
 
 puis perte de la loopback, quelques secondes après perte des voisins 
 OSPF... Les interfaces restent up mais trafic KO.
 
 D'un coté j'ai ouvert un case chez mon revendeur (je ne traite pas 
 directement avec Juniper).
 
 En attendant son retour je vous demande si ça vous est déjà arrivé (sans 
 relancer un troll, on est mercredi) ?
 
 Je pense à un pb hardware mais si ça se trouve c'est seulement une 
 'mauvaise' utilisation ?
 
 Marc Abel
 
 
 
 ---
 Liste de diffusion du FRnOG
 http://www.frnog.org/
>>> 
>>> ---
>>> Liste de diffusion du FRnOG
>>> http://www.frnog.org/
>> 
> 
> 
> ---
> Liste de diffusion du FRnOG
> http://www.frnog.org/


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] [TECH] Juniper Checksum Error

2017-02-08 Par sujet Marc Abel

Intéressant, mais J'ai pas ' per-unit-scheduler' dans mes conf.

Le routeur a bien fonctionné en test et au départ (le trafic était très 
faible), est-ce que ça peut être lié à la charge ?


Marc (bien loin des 10G)


Le 08/02/2017 à 16:11, Raphael Maunier a écrit :

Pas que…

J’ai déjà eu un truc du genre une fois

https://kb.juniper.net/InfoCenter/index?page=content=KB26389=search


Raphael


On 8 Feb 2017, at 16:07, David Ponzone  wrote:

Ben, juste en lisant, ça sent la RAM foireuse non ?



Le 8 févr. 2017 à 16:04, Marc Abel  a écrit :

Bonjour,

J'ai perdu la main et j'ai du rebooter un MX (c'est ma première fois, ne 
rigolez pas).

Dans les logs j'ai ça :

Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error
Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error Information Quantum 
0 bank num 60, ddrio[3].dmcN[1].bank[4] Error bcount 2, error addr 0x4000fa => 
cell addr 0x4000f => row:col 1000:0f
Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF Chksum Cnts Current 1, Total 4
Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM double bit ECC error, bank 
3 addr 0x8080d
Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM ECC error summary, bank 3 
addr 0x8080d
Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ Sram parity error, errlog 0x1000
Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ TCP freepool overrun error, Qsys0 
Queue 1023 agent 1
Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ NP list timeout error, errlog 
0x3ff3
Feb  6 13:51:01  MX104-1 afeb0 MQCHIP(0) WO Packet error .

puis perte de la loopback, quelques secondes après perte des voisins OSPF... 
Les interfaces restent up mais trafic KO.

D'un coté j'ai ouvert un case chez mon revendeur (je ne traite pas directement 
avec Juniper).

En attendant son retour je vous demande si ça vous est déjà arrivé (sans 
relancer un troll, on est mercredi) ?

Je pense à un pb hardware mais si ça se trouve c'est seulement une 'mauvaise' 
utilisation ?

Marc Abel



---
Liste de diffusion du FRnOG
http://www.frnog.org/


---
Liste de diffusion du FRnOG
http://www.frnog.org/





---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] [TECH] Juniper Checksum Error

2017-02-08 Par sujet David Ponzone
Ben, juste en lisant, ça sent la RAM foireuse non ?


> Le 8 févr. 2017 à 16:04, Marc Abel  a écrit :
> 
> Bonjour,
> 
> J'ai perdu la main et j'ai du rebooter un MX (c'est ma première fois, ne 
> rigolez pas).
> 
> Dans les logs j'ai ça :
> 
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error Information 
> Quantum 0 bank num 60, ddrio[3].dmcN[1].bank[4] Error bcount 2, error addr 
> 0x4000fa => cell addr 0x4000f => row:col 1000:0f
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF Chksum Cnts Current 1, Total 4
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM double bit ECC error, 
> bank 3 addr 0x8080d
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM ECC error summary, bank 3 
> addr 0x8080d
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ Sram parity error, errlog 0x1000
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ TCP freepool overrun error, 
> Qsys0 Queue 1023 agent 1
> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ NP list timeout error, errlog 
> 0x3ff3
> Feb  6 13:51:01  MX104-1 afeb0 MQCHIP(0) WO Packet error .
> 
> puis perte de la loopback, quelques secondes après perte des voisins OSPF... 
> Les interfaces restent up mais trafic KO.
> 
> D'un coté j'ai ouvert un case chez mon revendeur (je ne traite pas 
> directement avec Juniper).
> 
> En attendant son retour je vous demande si ça vous est déjà arrivé (sans 
> relancer un troll, on est mercredi) ?
> 
> Je pense à un pb hardware mais si ça se trouve c'est seulement une 'mauvaise' 
> utilisation ?
> 
> Marc Abel
> 
> 
> 
> ---
> Liste de diffusion du FRnOG
> http://www.frnog.org/


---
Liste de diffusion du FRnOG
http://www.frnog.org/


Re: [FRnOG] [TECH] Juniper Checksum Error

2017-02-08 Par sujet Raphael Maunier
Pas que…

J’ai déjà eu un truc du genre une fois

https://kb.juniper.net/InfoCenter/index?page=content=KB26389=search


Raphael

> On 8 Feb 2017, at 16:07, David Ponzone  wrote:
> 
> Ben, juste en lisant, ça sent la RAM foireuse non ?
> 
> 
>> Le 8 févr. 2017 à 16:04, Marc Abel  a écrit :
>> 
>> Bonjour,
>> 
>> J'ai perdu la main et j'ai du rebooter un MX (c'est ma première fois, ne 
>> rigolez pas).
>> 
>> Dans les logs j'ai ça :
>> 
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF WO Checksum Error Information 
>> Quantum 0 bank num 60, ddrio[3].dmcN[1].bank[4] Error bcount 2, error addr 
>> 0x4000fa => cell addr 0x4000f => row:col 1000:0f
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) DDRIF Chksum Cnts Current 1, Total 4
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM double bit ECC error, 
>> bank 3 addr 0x8080d
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ RLDRAM ECC error summary, bank 
>> 3 addr 0x8080d
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ Sram parity error, errlog 0x1000
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ TCP freepool overrun error, 
>> Qsys0 Queue 1023 agent 1
>> Feb  6 13:51:00  MX104-1 afeb0 MQCHIP(0) CPQ NP list timeout error, errlog 
>> 0x3ff3
>> Feb  6 13:51:01  MX104-1 afeb0 MQCHIP(0) WO Packet error .
>> 
>> puis perte de la loopback, quelques secondes après perte des voisins OSPF... 
>> Les interfaces restent up mais trafic KO.
>> 
>> D'un coté j'ai ouvert un case chez mon revendeur (je ne traite pas 
>> directement avec Juniper).
>> 
>> En attendant son retour je vous demande si ça vous est déjà arrivé (sans 
>> relancer un troll, on est mercredi) ?
>> 
>> Je pense à un pb hardware mais si ça se trouve c'est seulement une 
>> 'mauvaise' utilisation ?
>> 
>> Marc Abel
>> 
>> 
>> 
>> ---
>> Liste de diffusion du FRnOG
>> http://www.frnog.org/
> 
> 
> ---
> Liste de diffusion du FRnOG
> http://www.frnog.org/


---
Liste de diffusion du FRnOG
http://www.frnog.org/