Re: [Linux-HA] Heartbeat - Falha parcial

Luis Claudio R. Goncalves Wed, 04 Jul 2007 13:26:13 -0700

On Wed, Jul 04, 2007 at 05:12:14PM -0300, Eduardo - Suporte Intranetworks wrote:
| Luis,
| 
|    Beleza, entendi o que você falou. Mas eu tenho uma dúvida, como eu 
| faço para especificar as placas de rede que o nodo tem?
|    Pelo que eu sei, é na opção "nodo nodomaster nodoslave".


Retirado do arquivo de configuração, ha.cf, que acompanha a documentação do
heartbeat:

#       What interfaces to broadcast heartbeats over?
#
#bcast  eth0            # Linux
#bcast  eth1 eth2       # Linux
#bcast  le0             # Solaris
#bcast  le1 le2         # Solaris
#
#       Set up a multicast heartbeat medium
#       mcast [dev] [mcast group] [port] [ttl] [loop]
#
#       [dev]           device to send/rcv heartbeats on
#       [mcast group]   multicast group to join (class D multicast address
#                       224.0.0.0 - 239.255.255.255)
#       [port]          udp port to sendto/rcvfrom (set this value to the
#                       same value as "udpport" above)
#       [ttl]           the ttl value for outbound heartbeats.  this effects
#                       how far the multicast packet will propagate.  (0-255)
#                       Must be greater than zero.
#       [loop]          toggles loopback for outbound multicast heartbeats.
#                       if enabled, an outbound packet will be looped back and
#                       received by the interface it was sent on. (0 or 1)
#                       Set this value to zero.
#               
#
#mcast eth0 225.0.0.1 694 1 0
#
#       Set up a unicast / udp heartbeat medium
#       ucast [dev] [peer-ip-addr]
#
#       [dev]           device to send/rcv heartbeats on
#       [peer-ip-addr]  IP address of peer to send packets to
#
#ucast eth0 192.168.1.2



| Gabriel,
| 
|    Vou dar uma estudada no Mon.
| 
| Valeu!
| 
| Luis Claudio R. Goncalves escreveu:
| > A Regra básica é: se todos os canas de comunicação falharem, o nodo está
| > inativo.
| >
| > Se usas somente a etho para heartbeat, se ela parar, para o heartbeat, o
| > nodo morreu.
| >
| > Se usas serial e ethernet, ou mesmo duas ethernets, se somente uma delas
| > parar o nodo ainda está ativo. Neste caso o ipfail te ajuda a definir se a
| > interface que parou é aquela pela qual o heartbeat prestava serviço - caso
| > emq ue um failover é necessário - ou se foi numa interface auxiliar.
| >
| > Mesmo que tenhas 15 interfaces de rede no teu servidor e só uma constar na
| > config do heartbeat, se esta parar - independente do stado das outras - teu
| > servidor morreu para o heartbeat.
| >
| > Luis
| >
| >
| > On Wed, Jul 04, 2007 at 03:07:12PM -0300, Eduardo - Suporte Intranetworks 
wrote:
| > | Luis,
| > | 
| > |    Eu não posso usar uma distro mais recente, por algumas razões que 
| > | não importa agora. Mas, eu fiz alguns testes no Debian Etch 4 e e obtive 
| > | o mesmo resultado que o Fedora 3, mas no Debian o pacote é o 1.2.5.
| > | 
| > |    Eu estou estudando o Heartbeat, estou entendendo algumas coisas que 
| > | ele faz, mas isso leva um pouco de tempo.
| > | 
| > | Valeu!!!!!!
| > | 
| > | 
| > | 
| > | Luis Claudio R. Goncalves escreveu:
| > | >Eduardo, eu costumava ser o mantenedor do heartbeat no tempo em que
| > | >trabalhava na Conectiva (de 2000 a 2004) e desenvolvi algumas coisas do
| > | >heartbeat (hb_standby e nice failback, por exemplo).
| > | >
| > | >Mas tenho andado um pouco distante de HA nos últimos tempos, por vários
| > | >motivos diferentes.
| > | >
| > | >Minhas duas dicas para ti são:
| > | >
| > | >* Se possível, usa uma distro mais nova. o FC3 tem mais de dois anos de
| > | >  idade. Muita coisa foi corrigida, melhorada e/ou mudou neste período.
| > | >
| > | >* Olha a documentação no site. Entender como o heartbeat funciona de 
| > | >fato é
| > | >  a melhor forma de conseguir usá-lo. Se tu tentares dirigir uma Ferrari
| > | >  como diriges um Fusca, afinal os dois são carros e tu sabes dirigir, 
| > | >  não
| > | >  vai te trazer os melhores resultados.
| > | >
| > | >Abração,
| > | >Luis
| > | >
| > | >On Wed, Jul 04, 2007 at 02:33:12PM -0300, Eduardo - Suporte 
Intranetworks 
| > | >wrote:
| > | >| Luis,
| > | >| 
| > | >|    Eu estou usando o Fedora Core 3, com HeartBeat 2.0.4, pacote do RH 
| > | >| Enterprise 4.
| > | >|    Vou dar uma olhada nesses links. Você usa o ipfail? Já fez ele 
| > | >| funcionar?
| > | >| 
| > | >| Valeu!
| > | >| 
| > | >| ________________________________________
| > | >| Eduardo Sachs - Suporte Intranetworks
| > | >| [EMAIL PROTECTED]
| > | >| 
| > | >| Intranetworks
| > | >| Rua Marquês do Pombal 1710/805
| > | >| Porto Alegre - RS - 90540-000
| > | >| +55 51 3325-5700
| > | >| 
| > | >| 
| > | >| 
| > | >| Luis Claudio R. Goncalves escreveu:
| > | >| >Eduardo,
| > | >| >
| > | >| >Imagino que tu estejas usando a versão 1.x do heartbeat... na 
| > | >| >documentação,
| > | >| >vais encontrar dicas sobre como usar o ipfail nos seguintes 
documentos:
| > | >| >
| > | >| >      GettingStarted.html
| > | >| >      faqntips.html
| > | >| >      ipfail-diagram.pdf
| > | >| >
| > | >| >Dependendo da distro que usas, talvez encontres estes documentos em
| > | >| >português. Sugiro que pegues a doc em inglês no site www.linux-ha.org 
| > | >| >
| > | >| >Luis
| > | >| >
| > | >| >
| > | >| >On Wed, Jul 04, 2007 at 02:04:07PM -0300, Gilmar Cabral wrote:
| > | >| >| Eduardo e o seguinte:
| > | >| >| O mon e um monitor de serviços ele não monitora se a placa de rede 
| > | >| >esta | com problemas o cabo. se houver um fala na comunicação
| > | >| >| o heartbeat entende que um dos nodos estão inativos pois ele envia 
| > | >ping | >| de um para outro e quando para de responder a ping e onde
| > | >| >| ele sobe os serviços.
| > | >| >| Posso estar enganado, mas para uma falha como a de comunicação 
| > | >entre | >os | servidores o heartbeat ira levandar os serviços tambem.
| > | >| >| 
| > | >| >| Espero ter ajudado
| > | >| >| 
| > | >| >| Eduardo Sachs escreveu:
| > | >| >| > Gabriel,
| > | >| >| >      Te chamei de Gabriela... me desculpe!!!
| > | >| >| >
| > | >| >| > Em 04/07/07, Eduardo Sachs<[EMAIL PROTECTED]> escreveu:
| > | >| >| >   
| > | >| >| >> Gabriela,
| > | >| >| >>
| > | >| >| >>   Sobre o MON, se a eth0 (cabo cross-over) do nodo master 
estiver 
| > | >com
| > | >| >| >> problemas, o mon pode parar o heartbeat do nodo slave para não 
| > | >haver | >a
| > | >| >| >> troca?
| > | >| >| >>
| > | >| >| >>
| > | >| >| >>
| > | >| >| >> Luis,
| > | >| >| >>
| > | >| >| >>  Sobre o ipfail, fiz alguns testes com ele e não obtive sucesso.
| > | >| >| >>
| > | >| >| >>  A configuração que eu fiz no ha.cf foi a seguinte:
| > | >| >| >>
| > | >| >| >> ping 192.168.0.1
| > | >| >| >> respawn hacluster /usr/lib64/heartbeat/ipfail
| > | >| >| >> apiauth ipfail gid=hacluster uid=hacluster
| > | >| >| >>
| > | >| >| >>  O 192.168.0.1 é o meu router.
| > | >| >| >>
| > | >| >| >>  Estou fazendo o correto? Ou estou ratiando com o ipfail?
| > | >| >| >>
| > | >| >| >>
| > | >| >| >>  Eu pensei em fazer um script que faria o seguinte, quando o nodo
| > | >| >| >> slave rodar o haresources, ele verifica se a placa de rede (eth1 
e
| > | >| >| >> eth1:0 -> (IPaddr) - ligada ao switch) do nodo master está OK, se
| > | >| >| >> estiver OK, o nodo slave obrigatoriamente irá dar um STOP no 
| > | >serviço
| > | >| >| >> do Heartbeat.
| > | >| >| >>
| > | >| >| >>  Mas, eu queria uma solução pronta, tipo o ipfail.
| > | >| >| >>
| > | >| >| >>
| > | >| >| >> Valeu!
| > | >| >| >>
| > | >| >| >> Em 04/07/07, Luis Claudio R. Goncalves<[EMAIL PROTECTED]> 
| > | >escreveu:
| > | >| >| >>     
| > | >| >| >>> Minha sugestão é enviar os heartbeats tanto pela eth0 quanto 
| > | >pela | >eth1.
| > | >| >| >>> Somente se as duas conexões falharem o nodo é consideredo 
| > | >inativo.
| > | >| >| >>>
| > | >| >| >>> No heartbeat existe um aplicativo (que usa a api do heartbeat) 
| > | >| >chamado
| > | >| >| >>> ipfail, que testa conectividade para pontos definidos (ping 
| > | >nodes) e,
| > | >| >| >>> dependendo da resposta, pede ao heartbeat para fazer um 
failover.
| > | >| >| >>>
| > | >| >| >>> Luis
| > | >| >| >>>
| > | >| >| >>> On Wed, Jul 04, 2007 at 09:50:21AM -0300, Gabriel Medina wrote:
| > | >| >| >>> | Eduardo,
| > | >| >| >>> |
| > | >| >| >>> | Você pode também utilizar um script para verificar a conexao 
| > | >de | >rede, algo
| > | >| >| >>> | como um fping no gateway ou melhor, usar o ethtool para 
| > | >verificar | >os links
| > | >| >| >>> | das interfaces.
| > | >| >| >>> | Você pode adotar a estratégia de usar algo como o monitor 
| > | >(mon) | >para fazer
| > | >| >| >>> | isso e, dependendo do que você quer, usar o mon para parar o 
| > | >| >heartbeat.
| > | >| >| >>> | Espero ter ajudado.
| > | >| >| >>> |
| > | >| >| >>> | Abraço
| > | >| >| >>> |
| > | >| >| >>> | Em 04/07/07, Gilmar Cabral <[EMAIL PROTECTED]> 
| > | >escreveu:
| > | >| >| >>> | >
| > | >| >| >>> | >Bom se alguem cortar o cabo realmente você ira ter 2 
| > | >servidores | >masters.
| > | >| >| >>> | >Mas você tem 3 auternativa para evitar ou ficar sabendo se 
deu
| > | >| >| >>> | >problemas. a primeira dela e verificar os logs diariamente, 
a 
| > | >| >segunda e
| > | >| >| >>> | >você criar um script que quando o heartbeat for levantar o 
| > | >| >serviços no
| > | >| >| >>> | >haresources você coloca um script que envia uma mensagem 
para 
| > | >| >sua rede
| > | >| >| >>> | >informando que o servidor tal esta ativo ou desativo.
| > | >| >| >>> | >Imagine o seguinte o heartbeat utiliza uma rede para 
| > | >| >comunicação, ele
| > | >| >| >>> | >não ira saber se o cabo pifou ou a placa de rede pifou sendo 
| > | >que | >a
| > | >| >| >>> | >comunicação e feita atraves de uma rede dedicada.
| > | >| >| >>> | >Espero ter ajudado.
| > | >| >| >>> | >
| > | >| >| >>> | >
| > | >| >| >>> | >Eduardo Sachs escreveu:
| > | >| >| >>> | >> Pessoal, tudo bem?
| > | >| >| >>> | >>
| > | >| >| >>> | >>     Vou explicar como está a minha estrutura.
| > | >| >| >>> | >>
| > | >| >| >>> | >>     NODO1 (eth0) <--------------------------------------> 
| > | >| >(eth0) NODO2
| > | >| >| >>> | >>     NODO1 (eth1) <------------SWITCH------------> (eth1) 
| > | >NODO2
| > | >| >| >>> | >>
| > | >| >| >>> | >>     Eu tenho um cabo cross-over ligado entre os dois 
nodos, 
| > | >na | >eth0.
| > | >| >| >>> | >>     E a eth1 fica ligado direto no Switch.
| > | >| >| >>> | >>
| > | >| >| >>> | >>     Mas, se houver problemas na eth0, por exemplo, alguem 
| > | >corta | >o cabo
| > | >| >| >>> | >> da ETH0, ou, a placa de rede da eth0 estraga.
| > | >| >| >>> | >>
| > | >| >| >>> | >>     Vai acontecer que, o nodo slave vai assumir, mas na 
| > | >verade | >o nodo
| > | >| >| >>> | >> master está funcionando perfeitamente. Vai haver uma troca
| > | >| >| >>> | >> desnecessaria, o que eu faço nessa situação?
| > | >| >| >>> | >>
| > | >| >| >>> | >>
| > | >| >| >>> | >>  Valeu!!!!!!!!!!
| > | >| >| >>> | >>
| > | >| >| >>> | >>
| > | >| >| >>> | >
| > | >| >| >>> | >_______________________________________________
| > | >| >| >>> | >Linux-HA mailing list
| > | >| >| >>> | >[email protected]
| > | >| >| >>> | >http://listas.linuxchix.org.br/mailman/listinfo/linux-ha
| > | >| >| >>> | >
| > | >| >| >>> |
| > | >| >| >>> |
| > | >| >| >>> |
| > | >| >| >>> | --
| > | >| >| >>> | Gabriel Medina Pegoraro
| > | >| >| >>> | [EMAIL PROTECTED]
| > | >| >| >>> | [CheckBox] - www.checkbox.com.br
| > | >| >| >>>
| > | >| >| >>> | _______________________________________________
| > | >| >| >>> | Linux-HA mailing list
| > | >| >| >>> | [email protected]
| > | >| >| >>> | http://listas.linuxchix.org.br/mailman/listinfo/linux-ha
| > | >| >| >>>
| > | >| >| >>> ---end quoted text---
| > | >| >| >>>
| > | >| >| >>> --
| > | >| >| >>> [ Luis Claudio R. Goncalves                   lclaudio at uudg 
| > | >dot | >org ]
| > | >| >| >>> [ Fingerprint:   4FDD B8C4 3C59 34BD 8BE9  2696 7203 D980 A448 
| > | >C8F8  | >]
| > | >| >| >>> [ Linux-HA Developer - LateNite Programmer - Gospel User - Bass 
| > | >| >Player ]
| > | >| >| >>> [ Fault Tolerance - Real-Time - Distributed Systems - IECLB - 
Is 
| > | >| >40:31 ]
| > | >| >| >>>
| > | >| >| >>>
| > | >| >| >>>       
| > | >| >| 
| > | >| >| _______________________________________________
| > | >| >| Linux-HA mailing list
| > | >| >| [email protected]
| > | >| >| http://listas.linuxchix.org.br/mailman/listinfo/linux-ha
| > | >| >---end quoted text---
| > | >| >
| > | >| >  
| > | >---end quoted text---
| > | >
| > | >  
| > ---end quoted text---
| >
| >   
| _______________________________________________
| Linux-HA mailing list
| [email protected]
| http://listas.linuxchix.org.br/mailman/listinfo/linux-ha
---end quoted text---

-- 
[ Luis Claudio R. Goncalves                   lclaudio at uudg dot org ]
[ Fingerprint:   4FDD B8C4 3C59 34BD 8BE9  2696 7203 D980 A448 C8F8    ]
[ Linux-HA Developer - LateNite Programmer - Gospel User - Bass Player ]
[ Fault Tolerance - Real-Time - Distributed Systems - IECLB - Is 40:31 ]

_______________________________________________
Linux-HA mailing list
[email protected]
http://listas.linuxchix.org.br/mailman/listinfo/linux-ha

Re: [Linux-HA] Heartbeat - Falha parcial

Responder a