On 17-09-2015 13:32, Luiz Otavio O Souza wrote:
2015-09-15 6:28 GMT-03:00 Marcelo Gondim:
Olá meus amigos,

Não sei se sou azarado ou o que. Um ano atrás tive problemas com as
interfaces Intel X520-SR2 que do nada elas morriam e eu tinha que ficar
dando down e up pra elas voltarem à vida. Fiquei mais de 1 ano com esse
problema. Tentei as listas e cheguei à fazer até um PR e nada. Um belo dia
atualizei o router no STABLE e pronto, problema resolvido. O que foi feito
não faço ideia mas resolveu depois de 1 ano de sofrimento de ter trocado
todo o hardware e achando que era temperatura interna da X520-SR2.

Patrick até tentou me ajudar nessa época mas o jeito foi deixar um script
testando e levantando a interface sempre que caía. Pura gambiarra, coisa
feia de se ver em um sistema.  rsrsrsrsrs

Estava eu usando o router funcionando no 10.1-STABLE r281235 e aí então
resolvi passar o mesmo para o FreeBSD 10.2-RELEASE-p2 devido às melhorias da
10.1 para a 10.2 e mais uma vez me decepcionei com o sistema.

Eu tenho 2 laggs nesse router e depois que atualizei, quando chegava no
horário de pico e subia o tráfego nesses laggs, simplesmente meu load subia
pra 40.x à 53.x, minha sessão BGP de um desses laggs com a operadora caía e
levantava de 5 em 5 minutos me gerando grande problema aqui no provedor.

A partir dessa revisão que você colocou (r281235) houveram apenas 3
commits no if_lagg.c:

https://svnweb.freebsd.org/base/stable/10/sys/net/if_lagg.c?view=log

Isso se o problema for realmente no lagg e não em algum outro ponto do
sistema (driver da placa de rede, etc, etc, etc).

Sei que é difícil testar em produção, mas se você pudesse verificar
qual desses commits introduziu o problema que esta vendo isso seria
ótimo!

[]'s
Luiz
Pois é eu mandei lacp porque essa mensagem de flapping está no fonte do sys/net/ieee8023ad_lacp.c mas é como você disse pode estar relacionado com outro problema. Hoje vou bootar com o 10.2-STABLE, que baixei de ontem, para ver se já não foi corrigido nesse meio tempo.

Estou torcendo para que já esteja corrigido pelo menos no STABLE porque usar o CURRENT é doideira demais. :)

Agora essa do ipfw o Melifaro até hoje não fez uma MFC e isso tá desde o 10.0. Só vejo 2 motivos para isso não ter ocorrido ainda: deve ser complexo de mudar na 10.2 ou vai afetar o POLA. Eu instalei o 11 aqui para ver e realmente o ipfw ficou bem legal porque inclusive não precisei mudar meus scripts de firewall e porque agora podemos dar nomes nas tables. :) Espero ver logo uma MFC do ipfw no stable. rsrsrsr

Abrs e darei notícias,




Nos logs ficavam aparecendo:

/var/log/messages:Sep  9 19:21:43 rt01 kernel: igb5: Interface stopped
DISTRIBUTING, possible flapping
/var/log/messages:Sep  9 19:21:44 rt01 kernel: igb4: Interface stopped
DISTRIBUTING, possible flapping
/var/log/messages:Sep  9 19:27:01 rt01 kernel: igb5: Interface stopped
DISTRIBUTING, possible flapping
/var/log/messages:Sep  9 19:27:01 rt01 kernel: igb4: Interface stopped
DISTRIBUTING, possible flapping
/var/log/messages:Sep  9 19:29:13 rt01 kernel: igb5: Interface stopped
DISTRIBUTING, possible flapping
/var/log/messages:Sep  9 19:29:14 rt01 kernel: igb4: Interface stopped
DISTRIBUTING, possible flapping
/var/log/messages:Sep  9 19:46:10 rt01 kernel: igb5: Interface stopped
DISTRIBUTING, possible flapping
/var/log/messages:Sep  9 19:46:11 rt01 kernel: igb4: Interface stopped
DISTRIBUTING, possible flapping

Aí pensei comigo... estava tudo funcionando e não vou cometer o mesmo erro
que cometi com a X520-SR2. Voltei para o 10.1-STABLE r281235 e pronto! Tudo
voltou à funcionar como era antes. Assim fica difícil confiar na
estabilidade e robustez de um sistema. Só Deus sabe agora quando que isso
será resolvido no sistema. 1 ano? 2 anos? Bem, vou começar à pensar em algo
como Juniper porque pelo menos vou poder cobrar de alguém quando isso
acontecer. Uns anos atrás saí do Linux para FreeBSD porque este resolveu
meus problemas, coisas que o Linux não me atendia mas que agora está me
deixando chateado com essas coisas. Saí do problema do ksoftirq do Linux
para outros problemas de instabilidade no FreeBSD.

Querem ver outra coisa feia que desde o FreeBSD 10.0 existe e já tem PR, já
comentei na freebsd-stable? Tudo bem que pode não afetar o sistema mas já
acertaram na CURRENT faz tempo, pelo menos foi o que me disseram na lista. É
uma coisa feia demais para um sistema tão bem trabalhado:

Experimentem fazer:

# ipfw table 100 add 0.0.0.0/8

Agora o resultado:

  # ipfw table 100 list
::/8 0

iptables pode ser estranho ou difícil de aprender mas nunca vi algo assim
nele. Venho desde o FreeBSD 10.0 falando na lista sobre isso e cá estamos no
10.2 e continua esse bug horrendo.

Bem eu abri o PR sobre o problema do LACP e agora vamos ver quando que isso
vai ser resolvido porque ao meu ver isso é sério e muita gente usa lagg no
sistema e com certeza é um problema porque voltei a versão e tudo
normalizou. Fiquei 3 dias com esse problema me ferrando, para não dizer
outra coisa, aqui no provedor.

  https://bugs.freebsd.org/bugzilla/show_bug.cgi?id=203031

Desculpem o desabafo mas puts essa me deixou chateado demais com o sistema,
ainda mais pela importância que ele tem para o meu negócio hoje.

Gondim

-------------------------
Histórico: http://www.fug.com.br/historico/html/freebsd/
Sair da lista: https://www.fug.com.br/mailman/listinfo/freebsd

Responder a