Hola a todos, como vamo ??? tengo un problema que ha estado dejando loco los tecnicos de DELL/EMC/RedHat por mas de 2 meses. el ambiente:
Servidor DELL PE6950 con RedHat 4.8 conectado "directamente" con dos controladoras HBA a un storage EMC AX150 que tiene como función ser el standby de un otro servidor "idéntico" que se encuentra en producción. Problema: Hace 2 meses, la BD reporto problemas de escrituras en el disco. Al revisar el servidor, se encontró los siguientes logs: ============================================ Jul 6 19:13:34 masou kernel: attempt to access beyond end of device Jul 6 19:13:34 masou kernel: dm-6: rw=0, want=7016163992, limit=83886080 Jul 6 19:13:34 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 877020498, count = 1 Jul 6 19:13:34 masou kernel: Aborting journal on device dm-6. Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6) in ext3_free_blocks_sb: Journal has aborted Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 1296237605, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 3238156357, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 1111884837, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 3254998096, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 3271833858, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 204671517, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 877020498, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 774905904, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 808726064, count = 1 Jul 6 19:13:37 masou kernel: ext3_abort called. Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_journal_start_sb: Detected aborted journal Jul 6 19:13:37 masou kernel: Remounting filesystem read-only [....] Jul 7 05:00:02 masou kernel: EXT3-fs error (device dm-7): ext3_readdir: bad entry in directory #38109186: rec_len is smaller than minimal - offset=0, inode=0, rec_len=0, name_len=0 Jul 7 05:00:02 masou kernel: Aborting journal on device dm-7. Jul 7 05:00:02 masou kernel: ext3_abort called. Jul 7 05:00:02 masou kernel: EXT3-fs error (device dm-7): ext3_journal_start_sb: Detected aborted journal Jul 7 05:00:02 masou kernel: Remounting filesystem read-only ============================================ que mostraba que la particion habia cambiaod desde "lectura-escritura" a modo "solo-lectura" y al ejecutar el comando "scli" para obtener un diagnostico de las controladoras qlogic (que al final provoco una nueva caída del sistema, dejando inaccesible los datos en la AX150), obtuvimos estes logs: ======================== Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): entered Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): exiting - ind=651, status=1. Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): entered Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): exiting - ind=1024, status=0. Jun 10 10:57:23 masou udevd[1782]: udev done! ======================== a principio, al reiniciar el servidor se volvía la partición a modo RW y se podía trabajar en el servidor.. en los siguientes eventos (después de los reinicio brusco), era necesario ejecutar el e2fsck y finalmente (las dos ultimas veces), se elimina las particiones que existían luego del fallo y reinicio !!! :-( El servidor/storage están completamente actualizado (firmwares)... El SO (Redhat) se encuentra en la version 4.8 y existen algunas actualizaciones pendientes !!! pero tenemos otros 3 servidores/storages con las "mismas, mismissimas" versiones de firmware, SO, discos, memorias, etc, etc.. y solo en este se presenta el problema. Nota.2: Tenemos 4 servidores/storages idénticos, por que cuanto armaron el sistema, la idea era que 2 serian para producción y 2 para standby !!! y cuando aplicamos cambios en uno (SO, firmware, BD, etc, etc)... se replica en los demás !!! Bueno... Lógicamente esto es molesto y costoso para nosotros y mismo teniendo soporte "gold" con DELL aun no logran encontrar el problema (pasado 2 meses) !!! Los de Dell, ejecutaron varios diagnósticos sin resultados negativos y hicieron varios cambios en las configuraciones y enviaron una controla HBA y después un cable de fibra como reemplazo (mismo sin detectar el origen del problema)... pero el problema continua !!! por acá, ya he probado la memoria (memtest) y disco (badblock).. pesar que estas maquinas tiene un sistema que "teóricamente" detectan fallos en el hardware. el mas cercano que encontré en algún momento fue este link: http://solutions.qlogic.com/KanisaSupportSite/viewthread.do?kcId=Post-195178042 que los de DELL rechazaron completamente !!! Asi, que ahora les pregunto a alguno de ustedes se tienen alguna idea de donde puede estar el problema las controladoras HBA es una: "QLogic Corp. ISP2432-based 4Gb Fibre Channel to PCI Express HBA (rev 03)" los modulos cargados son: ================= lsmod | egrep '(scsi|qla)' ide_scsi 20425 0 [permanent] qla2400 232769 0 qla2xxx 196385 3 qla2400 scsi_transport_fc 12097 1 qla2xxx mptscsih 2625 0 mptsas 26977 1 mptscsih mptspi 13521 1 mptscsih mptscsi 50513 2 mptsas,mptspi mptbase 78625 4 mptctl,mptsas,mptspi,mptscsi scsi_mod 145297 13 sr_mod,ide_scsi,emcp,libata,sg,qla2xxx,scsi_transport_fc,megaraid_mbox,mptsas,mptspi,mptscsi,megaraid_sas,sd_mod ================= el kernel actual es: 2.6.9-89.0.15.ELsmp #1 SMP Sat Oct 10 05:55:45 EDT 2009 x86_64 x86_64 x86_64 GNU/Linux salu2 y atento a comentarios -- -- Victor Hugo dos Santos Linux Counter #224399