Re: partición en el storage se cambia de RW a RO (l argo - para variar)
Un error similar me ocurrió pero con otra plataforma (HP + Debian) el tema era al final un problema eléctrico que todos pasabamos por alto, en una de esas puede ser lo mismo. saludos El 2 de agosto de 2010 22:17, Alvaro Herrera alvhe...@alvh.no-ip.orgescribió: Excerpts from Victor Hugo dos Santos's message of lun ago 02 17:49:09 -0400 2010: Hola a todos, como vamo ??? tengo un problema que ha estado dejando loco los tecnicos de DELL/EMC/RedHat por mas de 2 meses. el ambiente: Servidor DELL PE6950 con RedHat 4.8 conectado directamente con dos controladoras HBA a un storage EMC AX150 que tiene como función ser el standby de un otro servidor idéntico que se encuentra en producción. ¿Has reconstruido el filesystem desde 0, o has seguido siempre con el mismo? Por ej. se me ocurre que puede ser que un bug de algún kernel o del firmware haya dejado el filesystem en un estado inconsistente que vuelve loco a todo lo que hay por encima y que no se puede reparar por medios normales. -- Álvaro Herrera alvhe...@alvh.no-ip.org
Re: partición en el storage se cambia de RW a RO (l argo - para variar)
2010/8/2 Jorge Palma jpal...@gmail.com: Preguntas Ocupas Multipath , si es así, que software ? si.. powerpath !!! Estas ocupando lvm, si es así manda un sosreport -a si.. ocupamos LVM.. pero referente al sosreport son como 8 MB.. se lo envío por acá, me golpean !!! algún archivo en particular ?? Que drivers de Qlogic estas ocupando? Los del fabricante o los de redhat los de redhat (por recomendacion de DELL) Alguna opción para el Driver qlogic? antes, solo los valores por defecto al instalar: === cat /etc/modprobe.conf.pp alias ppemcp emcp alias ppemcpdm emcpdm alias ppemcpxcrypt emcpxcrypt alias ppemcpvlumd emcpvlumd alias ppemcpgpx emcpgpx alias ppemcpmpx emcpmpx #begin-hba-qla2400 install emcp /sbin/modprobe pp_hba; /sbin/modprobe emcp --ignore-install install pp_hba /sbin/modprobe qla2400; #end-hba-qla2400 options emcp managedclass=symm,clariion,hitachi,invista,hpxp,ess,hphsx === ahora se agrego los siguientes valores al modprobe options scsi_mod max_luns=128 max_report_luns=128 Eso se me ocurre para ver por ahora...zo vale.. gracias -- -- Victor Hugo dos Santos Linux Counter #224399
Re: partición en el storage se cambia de RW a RO (l argo - para variar)
2010/8/2 Alvaro Herrera alvhe...@alvh.no-ip.org: Excerpts from Victor Hugo dos Santos's message of lun ago 02 17:49:09 -0400 2010: Hola a todos, como vamo ??? tengo un problema que ha estado dejando loco los tecnicos de DELL/EMC/RedHat por mas de 2 meses. el ambiente: Servidor DELL PE6950 con RedHat 4.8 conectado directamente con dos controladoras HBA a un storage EMC AX150 que tiene como función ser el standby de un otro servidor idéntico que se encuentra en producción. ¿Has reconstruido el filesystem desde 0, o has seguido siempre con el mismo? Por ej. se me ocurre que puede ser que un bug de algún kernel o del firmware haya dejado el filesystem en un estado inconsistente que vuelve loco a todo lo que hay por encima y que no se puede reparar por medios normales. mmm... luego después de la perdida de la estructura del filesystem.. hicimos borrón y cuenta nueva: - creamos las particiones fdisk /dev/sdb - luego los volúmenes pvcreate vgcreate lvcreate - y finalmente formateamos mkfs.ext3 -T largefile4 /dev/VG_AX150/oradata mkfs.ext3 /dev/VG_AX150/oraappl entonces, se procedio a sincronizar los datos desde el servidor principal hacia este que esta con problemas y funcionaba bien hasta que fallo algunas horas despues de estar operando !!! :D también había leído por la net que había una versión del kernel que hacia que el filesystem se cambiaba a modo solo-lectura en RedHat, creo que era este bug https://bugzilla.redhat.com/show_bug.cgi?id=476533 infelizmente no me permite ver el bug relacionado (https://bugzilla.redhat.com/show_bug.cgi?id=460179) pero ahora, que estaba buscando este bug/enlace para enviar a vos.. me encontré con este otro bug https://bugzilla.redhat.com/show_bug.cgi?id=494927 que afecta en principio a kernels de la rama 2.6.18-128 (el nuestro es 2.6.9-89.0.15.ELsmp).. pero lo que hay de interesante en este bug son los comentarios: #12 - reporta el problema en el mismo kernel que el nuestro. #24 - donde comenta que el problema ocurre con una controladora PERC6 (nosotros tenemos una PERC5) cuando se utiliza RMAN para hacer restauraciones y se obtiene harto I/O !!! #35 - acá menciona que luego de cambiar la controladora PERC6, el problema desapareció !!! y ahora encontré una otra herramienta interesante en el mismo reporte de bug, que es fsstress !!! una vez que DELL indique que esta OK.. ya se como realizar mejores pruebas !!! salu2, atento y gracias -- -- Victor Hugo dos Santos Linux Counter #224399
Re: partición en el storage se cambia de RW a RO (l argo - para variar)
Preguntas Ocupas Multipath , si es así, que software ? Estas ocupando lvm, si es así manda un sosreport -a Que drivers de Qlogic estas ocupando? Los del fabricante o los de redhat Alguna opción para el Driver qlogic? Eso se me ocurre para ver por ahora...zo El 02/08/10, Victor Hugo dos Santos listas@gmail.com escribió: Hola a todos, como vamo ??? tengo un problema que ha estado dejando loco los tecnicos de DELL/EMC/RedHat por mas de 2 meses. el ambiente: Servidor DELL PE6950 con RedHat 4.8 conectado directamente con dos controladoras HBA a un storage EMC AX150 que tiene como función ser el standby de un otro servidor idéntico que se encuentra en producción. Problema: Hace 2 meses, la BD reporto problemas de escrituras en el disco. Al revisar el servidor, se encontró los siguientes logs: Jul 6 19:13:34 masou kernel: attempt to access beyond end of device Jul 6 19:13:34 masou kernel: dm-6: rw=0, want=7016163992, limit=83886080 Jul 6 19:13:34 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 877020498, count = 1 Jul 6 19:13:34 masou kernel: Aborting journal on device dm-6. Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6) in ext3_free_blocks_sb: Journal has aborted Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 1296237605, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 3238156357, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 884837, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 3254998096, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 3271833858, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 204671517, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 877020498, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 774905904, count = 1 Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_free_blocks: Freeing blocks not in datazone - block = 808726064, count = 1 Jul 6 19:13:37 masou kernel: ext3_abort called. Jul 6 19:13:37 masou kernel: EXT3-fs error (device dm-6): ext3_journal_start_sb: Detected aborted journal Jul 6 19:13:37 masou kernel: Remounting filesystem read-only [] Jul 7 05:00:02 masou kernel: EXT3-fs error (device dm-7): ext3_readdir: bad entry in directory #38109186: rec_len is smaller than minimal - offset=0, inode=0, rec_len=0, name_len=0 Jul 7 05:00:02 masou kernel: Aborting journal on device dm-7. Jul 7 05:00:02 masou kernel: ext3_abort called. Jul 7 05:00:02 masou kernel: EXT3-fs error (device dm-7): ext3_journal_start_sb: Detected aborted journal Jul 7 05:00:02 masou kernel: Remounting filesystem read-only que mostraba que la particion habia cambiaod desde lectura-escritura a modo solo-lectura y al ejecutar el comando scli para obtener un diagnostico de las controladoras qlogic (que al final provoco una nueva caída del sistema, dejando inaccesible los datos en la AX150), obtuvimos estes logs: Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): entered Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): exiting - ind=651, status=1. Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): entered Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): exiting - ind=1024, status=0. Jun 10 10:57:23 masou udevd[1782]: udev done! a principio, al reiniciar el servidor se volvía la partición a modo RW y se podía trabajar en el servidor.. en los siguientes eventos (después de los reinicio brusco), era necesario ejecutar el e2fsck y finalmente (las dos ultimas veces), se elimina las particiones que existían luego del fallo y reinicio !!! :-( El servidor/storage están completamente actualizado (firmwares)... El SO (Redhat) se encuentra en la version 4.8 y existen algunas actualizaciones pendientes !!! pero tenemos otros 3 servidores/storages con las mismas, mismissimas versiones de firmware, SO, discos, memorias, etc, etc.. y solo en este se presenta el problema. Nota.2: Tenemos 4 servidores/storages idénticos, por que cuanto armaron el sistema, la idea era que 2 serian para producción y 2 para standby !!! y cuando aplicamos cambios en uno (SO, firmware, BD, etc, etc)... se replica en los demás !!! Bueno... Lógicamente esto es molesto y costoso para nosotros y mismo