On 15/01/14 05:55 AM, Ulrich Windl wrote:
Hi!

I'm wondering what is going on with SLES11 SP3 and cluster communication: cLVM 
with mirroring seems to bring cluster communication down. I had this problem in 
SP2, and support told me in SP3 (which was not available at that time) thing 
should be better. Now I have SP3, but things aren't better.
Maybe it's time to take care of the problems; one by one.

The cluster seems to have a longish retransmit list, but the list seems 
inconsistent by itself: The same items appear over and over (which would 
indicate no transmission is possible), but then some items in the list change, 
(which seems to indicating that some transfer must have succeeded). But looking 
that the list as a total, I cannot make any sense from it.

See yourself:
[...]
Jan 15 08:55:29 o5 corosync[13636]:  [TOTEM ] Retransmit List: d252 d254 d256 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d253 d255 d257
Jan 15 08:55:30 o5 corosync[13636]:  [TOTEM ] Retransmit List: d253 d255 d257 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d252 d254 d256
Jan 15 08:55:30 o5 corosync[13636]:  [TOTEM ] Retransmit List: d252 d254 d256 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d253 d255 d257
Jan 15 08:55:30 o5 corosync[13636]:  [TOTEM ] Retransmit List: d253 d255 d257 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d252 d254 d256
Jan 15 08:55:31 o5 corosync[13636]:  [TOTEM ] Retransmit List: d252 d254 d256 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d253 d255 d257
Jan 15 08:55:31 o5 corosync[13636]:  [TOTEM ] Retransmit List: d253 d255 d257 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d252 d254 d256
Jan 15 08:55:32 o5 corosync[13636]:  [TOTEM ] Retransmit List: d252 d254 d256 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d253 d255 d257
Jan 15 08:55:32 o5 corosync[13636]:  [TOTEM ] Retransmit List: d253 d255 d257 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d252 d254 d256
Jan 15 08:55:32 o5 corosync[13636]:  [TOTEM ] Retransmit List: d252 d254 d256 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d253 d255 d257
Jan 15 08:55:33 o5 corosync[13636]:  [TOTEM ] Retransmit List: d253 d255 d257 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d252 d254 d256
Jan 15 08:55:33 o5 corosync[13636]:  [TOTEM ] Retransmit List: d252 d254 d256 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d253 d255 d257
Jan 15 08:55:34 o5 corosync[13636]:  [TOTEM ] Retransmit List: d253 d255 d257 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d252 d254 d256
Jan 15 08:55:34 o5 corosync[13636]:  [TOTEM ] Retransmit List: d252 d254 d256 
d241 d242 d243 d244 d245 d246 d247 d248 d249 d24a d24b d24c d24d d24e d24f d250 
d251 d253 d255 d257
[...]

In between these messages I see some device-mapper messages, usure whether 
thats the culprit or the victim:
Jan 15 08:55:11 o5 kernel: [  758.400071] device-mapper: dm-log-userspace: 
[35cRCORE] Request timed out: [15/186129] - retrying
Jan 15 08:55:13 o5 kernel: [  760.300067] device-mapper: dm-log-userspace: 
[35cRCORE] Request timed out: [9/186130] - retrying
Jan 15 08:55:28 o5 kernel: [  775.300067] device-mapper: dm-log-userspace: 
[35cRCORE] Request timed out: [9/186132] - retrying

I hope these messages don't try to tell me that there are 186 thousand requests 
pending ;-)
Despite of that the message above could benefit from an actual device name 
being included in the messages.

Regards,
Ulrich

I can't speak to Suse, but I've seen this with RHEL 6.1 when there was a short-lived bug caused by the hardware not being fast enough (sorry, the details are fuzzy), which was fixed. The reason I say this is that, not knowing the SP2/SP3 issue, my first thought is to look at the network stack.

Can you elaborate on how 'clvmd with mirroring' triggers this? I've used clvmd a lot, but I've never looked at mirroring in LVM (though I know it's possible).

If possible, can you share your cluster.conf (and crm configure show if using pacemaker, too)?

digimer

--
Digimer
Papers and Projects: https://alteeve.ca/w/
What if the cure for cancer is trapped in the mind of a person without access to education?
_______________________________________________
Linux-HA mailing list
[email protected]
http://lists.linux-ha.org/mailman/listinfo/linux-ha
See also: http://linux-ha.org/ReportingProblems

Reply via email to