Salutare tuturor,

Urmaresc de foarte mult timp lista dar nu am indraznit sa postez pana
astazi, o scurta descriere... lucrez pentru o companie care se ocupa cu
editari video, au nevoie de foarte mult storage, in momentul de fata
folosind aproximativ 500TB in diferite clustere NAS accesate de
servere/statii de lucru din diferite locatii ...

De aproximativ 2 luni intampin o problema care imi afecteaza fiecare NIC
din retea (cele mai multe fiind conectate pe 1Gbit/10G), statiile mai vechi
cu placi de 100 ajung sa aiba peste 50% loss si marea majoritate a
masinilor conectate la retea primesc pachete eronate...(tcpdump arata
pachete trimise intre storage (nfs) si diferite servere sau statii de lucru
si contin reply ERR/reply ok), cateva linii din tcpdump ar arata cam asa:

12:48:33.752052 IP f1nfs.mydomain.local.nfs >
mine.mydomain.local.518062048: reply ERR 1448
12:48:33.752053 IP f1nfs.mydomain.local.nfs >
mine.mydomain.local.3130183266: reply ERR 1448
12:48:33.752060 IP f1nfs.mydomain.local.nfs >
mine.mydomain.local.3980622089: reply ERR 1448
12:48:33.752181 IP f1nfs.mydomain.local.nfs >
mine.mydomain.local.1209215430: reply ERR 1448
.....................
107453 packets captured
275218 packets received by filter
167431 packets dropped by kernel
(10 secunde, "mine.mydomain.local" este o masina diferita fata de cea pe
care a fost rulat tcpdump)


Switchul principal este un Brocade BigIron RX16 care a inceput sa o ia
razna, mai exact arata pe foarte multe porturi output utilization peste 45%
la porturile 1Gbit si 98% la porturile 100Mbit (am avut si cazuri in care
porturile respective aveau 0 pachete primite prin interfata respectiva)...

Am ramas fara idei si nu stiu ce anume ar putea ajuta la depistarea
problemei, sper sa ma puteti ajuta cu cateva idei/sugestii.


Va multumesc si va doresc Sarbatori Fericite.

----------------
Bogdan
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui