Il giorno mar, 15/07/2008 alle 22.25 +0200, Yves Martin ha scritto: > On Tue, 2008-07-15 at 11:15 +0200, Leopoldo Ghielmetti wrote: > > > P.S.: Le support Red Hat on l'a via le support Dell pour des raisons de > > licenses (elles ont été achetées via Dell). Maintenant on a aussi essayé > > de contacter directement Red Hat pour savoir si quelqu'un pourrait venir > > pour débogguer le kernel (car tout porte a croire qu'il s'agit d'un bug > > du noyau). > > Hello, > > Je suppose que tout cela est configuré dans le but de faire tourner un > serveur de base de données en cluster.
Exact, mais pas seulement. > J'ai déjà vu un cluster "partagé" de vrais disques sur un bus commun > SCSI sans problème - les machines se surveillant par ligne série et les > montages/démontages de partitions et exécution de services contrôlés par > heartbeat. Mais dans ce cas, il n'y a qu'un seul bus SCSI. Je ne sais pas du tout comment il se comporte avec un bus physique. je sais que j'avais lu que c'était déconseillé de partager un bus SCSI physique (bien que je ne sache pas trop pourquoi). > Est-ce que ta configuration fonctionne si les deux VM RH5.2 s'exécutent > sur le même ESX ? (il y a à priori plus de chances que ça fonctionne) Peut importe ou elles tournent le problème surgit toujours. > Quels sont les messages que tu obtiens dans les logs du kernel RedHat, > dans les logs des VM (les activer au besoin) et dans ceux de l'ESX ? p.e.: Jul 15 16:28:51 rac01 kernel: sd 0:0:0:0: reservation conflict Jul 15 16:28:51 rac01 kernel: sd 0:0:0:0: SCSI error: return code = 0x00000018 Jul 15 16:28:51 rac01 kernel: end_request: I/O error, dev sda, sector 14922453 Jul 15 16:28:51 rac01 kernel: Buffer I/O error on device dm-4, logical block 217137 Jul 15 16:28:51 rac01 kernel: lost page write due to I/O error on dm-4 Jul 15 16:28:51 rac01 kernel: Aborting journal on device dm-4. Jul 15 16:28:51 rac01 kernel: journal commit I/O error Jul 15 16:28:51 rac01 kernel: ext3_abort called. Jul 15 16:28:51 rac01 kernel: EXT3-fs error (device dm-4): ext3_journal_start_sb: Detected aborted journal Jul 15 16:28:51 rac01 kernel: Remounting filesystem read-only Dans le fichier vmware.log il n'y a absolument rien qui concerne un conflit scsi. Peut-être il y a d'autres logs ailleurs qui pourraient être plus verbeux. Le SAN quant à lui il ne signale rien d'anormal et les switches fibre non plus. > Est-ce que tes VM ne tenteraient pas de monter une même partition chacun > de son côté en même temps ? Est-ce que des outils de montage de > partition automatique seraient en route - par exemple avec un interface > GNOME ouverte ? Les partitions sont toutes montées en même temps vu que c'est un cluster RAC avec ASM sur des disques partagés. Les autres machines par contre partagent les disques via ocfs2. Mais le problème arrive sur ocfs2 comme sur ext3 ou reiserfs et je supposes que certains redémarrages aléatoires de la base de données indiquent que le ASM aussi pourrait souffrir du même problème. > En espérant ouvrir des pistes Merci. ciao, Leo _______________________________________________ gull mailing list [email protected] http://forum.linux-gull.ch/mailman/listinfo/gull
