Salutare tuturor, Urmaresc de foarte mult timp lista dar nu am indraznit sa postez pana astazi, o scurta descriere... lucrez pentru o companie care se ocupa cu editari video, au nevoie de foarte mult storage, in momentul de fata folosind aproximativ 500TB in diferite clustere NAS accesate de servere/statii de lucru din diferite locatii ...
De aproximativ 2 luni intampin o problema care imi afecteaza fiecare NIC din retea (cele mai multe fiind conectate pe 1Gbit/10G), statiile mai vechi cu placi de 100 ajung sa aiba peste 50% loss si marea majoritate a masinilor conectate la retea primesc pachete eronate...(tcpdump arata pachete trimise intre storage (nfs) si diferite servere sau statii de lucru si contin reply ERR/reply ok), cateva linii din tcpdump ar arata cam asa: 12:48:33.752052 IP f1nfs.mydomain.local.nfs > mine.mydomain.local.518062048: reply ERR 1448 12:48:33.752053 IP f1nfs.mydomain.local.nfs > mine.mydomain.local.3130183266: reply ERR 1448 12:48:33.752060 IP f1nfs.mydomain.local.nfs > mine.mydomain.local.3980622089: reply ERR 1448 12:48:33.752181 IP f1nfs.mydomain.local.nfs > mine.mydomain.local.1209215430: reply ERR 1448 ..................... 107453 packets captured 275218 packets received by filter 167431 packets dropped by kernel (10 secunde, "mine.mydomain.local" este o masina diferita fata de cea pe care a fost rulat tcpdump) Switchul principal este un Brocade BigIron RX16 care a inceput sa o ia razna, mai exact arata pe foarte multe porturi output utilization peste 45% la porturile 1Gbit si 98% la porturile 100Mbit (am avut si cazuri in care porturile respective aveau 0 pachete primite prin interfata respectiva)... Am ramas fara idei si nu stiu ce anume ar putea ajuta la depistarea problemei, sper sa ma puteti ajuta cu cateva idei/sugestii. Va multumesc si va doresc Sarbatori Fericite. ---------------- Bogdan _______________________________________________ RLUG mailing list [email protected] http://lists.lug.ro/mailman/listinfo/rlug
