Preguntas Ocupas Multipath , si es así, que software ?
Estas ocupando lvm, si es así manda un sosreport -a Que drivers de Qlogic estas ocupando? Los del fabricante o los de redhat Alguna opción para el Driver qlogic? Eso se me ocurre para ver por ahora...zo El 02/08/10, Victor Hugo dos Santos <[email protected]> escribió: > Hola a todos, como vamo ??? > > tengo un problema que ha estado dejando loco los tecnicos de > DELL/EMC/RedHat por mas de 2 meses. > el ambiente: > > Servidor DELL PE6950 con RedHat 4.8 conectado "directamente" con dos > controladoras HBA a un storage EMC AX150 que tiene como función ser el > standby de un otro servidor "idéntico" que se encuentra en producción. > > Problema: > > Hace 2 meses, la BD reporto problemas de escrituras en el disco. Al > revisar el servidor, se encontró los siguientes logs: > > ============================================ > Jul 6 19:13:34 masou kernel: attempt to access beyond end of device > Jul 6 19:13:34 masou kernel: dm-6: rw=0, want=7016163992, limit=83886080 > Jul 6 19:13:34 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 877020498, > count = 1 > Jul 6 19:13:34 masou kernel: Aborting journal on device dm-6. > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6) in > ext3_free_blocks_sb: Journal has aborted > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 1296237605, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 3238156357, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 1111884837, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 3254998096, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 3271833858, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 204671517, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 877020498, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 774905904, > count = 1 > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_free_blocks: Freeing blocks not in datazone - block = 808726064, > count = 1 > Jul 6 19:13:37 masou kernel: ext3_abort called. > Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): > ext3_journal_start_sb: Detected aborted journal > Jul 6 19:13:37 masou kernel: Remounting filesystem read-only > > [....] > > Jul 7 05:00:02 masou kernel: EXT3-fs error (device dm-7): > ext3_readdir: bad entry in directory #38109186: rec_len is smaller > than minimal - offset=0, inode=0, rec_len=0, name_len=0 > Jul 7 05:00:02 masou kernel: Aborting journal on device dm-7. > Jul 7 05:00:02 masou kernel: ext3_abort called. > Jul 7 05:00:02 masou kernel: EXT3-fs error (device dm-7): > ext3_journal_start_sb: Detected aborted journal > Jul 7 05:00:02 masou kernel: Remounting filesystem read-only > ============================================ > > que mostraba que la particion habia cambiaod desde "lectura-escritura" > a modo "solo-lectura" y al ejecutar el comando "scli" para obtener un > diagnostico de las controladoras qlogic (que al final provoco una > nueva caída del sistema, dejando inaccesible los datos en la AX150), > obtuvimos estes logs: > > ======================== > Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): entered > Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): exiting - ind=651, status=1. > Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): entered > Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): exiting - ind=1024, status=0. > Jun 10 10:57:23 masou udevd[1782]: udev done! > ======================== > > a principio, al reiniciar el servidor se volvía la partición a modo RW > y se podía trabajar en el servidor.. > en los siguientes eventos (después de los reinicio brusco), era > necesario ejecutar el e2fsck > y finalmente (las dos ultimas veces), se elimina las particiones que > existían luego del fallo y reinicio !!! :-( > > El servidor/storage están completamente actualizado (firmwares)... > El SO (Redhat) se encuentra en la version 4.8 y existen algunas > actualizaciones pendientes !!! pero tenemos otros 3 > servidores/storages con las "mismas, mismissimas" versiones de > firmware, SO, discos, memorias, etc, etc.. y solo en este se presenta > el problema. > > Nota.2: Tenemos 4 servidores/storages idénticos, por que cuanto > armaron el sistema, la idea era que 2 serian para producción y 2 para > standby !!! y cuando aplicamos cambios en uno (SO, firmware, BD, etc, > etc)... se replica en los demás !!! > > > Bueno... Lógicamente esto es molesto y costoso para nosotros y mismo > teniendo soporte "gold" con DELL aun no logran encontrar el problema > (pasado 2 meses) !!! > Los de Dell, ejecutaron varios diagnósticos sin resultados negativos y > hicieron varios cambios en las configuraciones y enviaron una controla > HBA y después un cable de fibra como reemplazo (mismo sin detectar el > origen del problema)... pero el problema continua !!! > > por acá, ya he probado la memoria (memtest) y disco (badblock).. pesar > que estas maquinas tiene un sistema que "teóricamente" detectan fallos > en el hardware. > > el mas cercano que encontré en algún momento fue este link: > http://solutions.qlogic.com/KanisaSupportSite/viewthread.do?kcId=Post-195178042 > que los de DELL rechazaron completamente !!! > > > Asi, que ahora les pregunto a alguno de ustedes se tienen alguna idea > de donde puede estar el problema > > las controladoras HBA es una: "QLogic Corp. ISP2432-based 4Gb Fibre > Channel to PCI Express HBA (rev 03)" > los modulos cargados son: > ================= > lsmod | egrep '(scsi|qla)' > ide_scsi 20425 0 [permanent] > qla2400 232769 0 > qla2xxx 196385 3 qla2400 > scsi_transport_fc 12097 1 qla2xxx > mptscsih 2625 0 > mptsas 26977 1 mptscsih > mptspi 13521 1 mptscsih > mptscsi 50513 2 mptsas,mptspi > mptbase 78625 4 mptctl,mptsas,mptspi,mptscsi > scsi_mod 145297 13 > sr_mod,ide_scsi,emcp,libata,sg,qla2xxx,scsi_transport_fc,megaraid_mbox,mptsas,mptspi,mptscsi,megaraid_sas,sd_mod > ================= > > el kernel actual es: 2.6.9-89.0.15.ELsmp #1 SMP Sat Oct 10 05:55:45 > EDT 2009 x86_64 x86_64 x86_64 GNU/Linux > > salu2 y atento a comentarios > > > > > > -- > -- > Victor Hugo dos Santos > Linux Counter #224399 > -- Jorge Palma Escobar Ingeniero de Sistemas Red Hat Linux Certified Engineer Certificate Nº 804005089418233

