Re: partición en el storage se cambia de RW a RO (l argo - para variar)

2010-08-03 Por tema Jose Miguel Vidal Lavin
Un error similar me ocurrió pero con otra plataforma (HP + Debian) el tema
era al final un problema eléctrico que todos pasabamos por alto, en una de
esas puede ser lo mismo.

saludos

El 2 de agosto de 2010 22:17, Alvaro Herrera alvhe...@alvh.no-ip.orgescribió:

 Excerpts from Victor Hugo dos Santos's message of lun ago 02 17:49:09 -0400
 2010:
  Hola a todos, como vamo ???
 
  tengo un problema que ha estado dejando loco los tecnicos de
  DELL/EMC/RedHat por mas de 2 meses.
  el ambiente:
 
  Servidor DELL PE6950 con RedHat 4.8 conectado directamente con dos
  controladoras HBA a un storage EMC AX150 que tiene como función ser el
  standby de un otro servidor idéntico que se encuentra en producción.

 ¿Has reconstruido el filesystem desde 0, o has seguido siempre con el
 mismo?  Por ej. se me ocurre que puede ser que un bug de algún kernel o
 del firmware haya dejado el filesystem en un estado inconsistente que
 vuelve loco a todo lo que hay por encima y que no se puede reparar por
 medios normales.

 --
 Álvaro Herrera alvhe...@alvh.no-ip.org



Re: partición en el storage se cambia de RW a RO (l argo - para variar)

2010-08-03 Por tema Victor Hugo dos Santos
2010/8/2 Jorge Palma jpal...@gmail.com:
 Preguntas

 Ocupas Multipath ,  si es así, que software ?

si.. powerpath !!!


 Estas ocupando lvm, si es así manda un sosreport -a

si.. ocupamos LVM.. pero referente al sosreport son como 8 MB.. se lo
envío por acá, me golpean !!!
algún archivo en particular ??


 Que drivers de Qlogic estas ocupando? Los del fabricante o los de redhat

los de redhat (por recomendacion de DELL)


 Alguna opción para el Driver qlogic?

antes, solo los valores por defecto al instalar:

===
cat /etc/modprobe.conf.pp
alias ppemcp emcp
alias ppemcpdm emcpdm
alias ppemcpxcrypt emcpxcrypt
alias ppemcpvlumd emcpvlumd
alias ppemcpgpx emcpgpx
alias ppemcpmpx emcpmpx
#begin-hba-qla2400
install emcp /sbin/modprobe pp_hba; /sbin/modprobe emcp --ignore-install
install pp_hba  /sbin/modprobe qla2400;
#end-hba-qla2400
options emcp managedclass=symm,clariion,hitachi,invista,hpxp,ess,hphsx
===

ahora se agrego los siguientes valores al modprobe

options scsi_mod max_luns=128 max_report_luns=128


 Eso se me ocurre para ver por ahora...zo

vale.. gracias

-- 
--
Victor Hugo dos Santos
Linux Counter #224399


Re: partición en el storage se cambia de RW a RO (l argo - para variar)

2010-08-03 Por tema Victor Hugo dos Santos
2010/8/2 Alvaro Herrera alvhe...@alvh.no-ip.org:
 Excerpts from Victor Hugo dos Santos's message of lun ago 02 17:49:09 -0400 
 2010:
 Hola a todos, como vamo ???

 tengo un problema que ha estado dejando loco los tecnicos de
 DELL/EMC/RedHat por mas de 2 meses.
 el ambiente:

 Servidor DELL PE6950 con RedHat 4.8 conectado directamente con dos
 controladoras HBA a un storage EMC AX150 que tiene como función ser el
 standby de un otro servidor idéntico que se encuentra en producción.

 ¿Has reconstruido el filesystem desde 0, o has seguido siempre con el
 mismo?  Por ej. se me ocurre que puede ser que un bug de algún kernel o
 del firmware haya dejado el filesystem en un estado inconsistente que
 vuelve loco a todo lo que hay por encima y que no se puede reparar por
 medios normales.

mmm... luego después de la perdida de la estructura del filesystem..
hicimos borrón y cuenta nueva:

- creamos las particiones
fdisk /dev/sdb

- luego los volúmenes
pvcreate
vgcreate
lvcreate

- y finalmente formateamos
mkfs.ext3 -T largefile4 /dev/VG_AX150/oradata
mkfs.ext3  /dev/VG_AX150/oraappl

entonces, se procedio a sincronizar los datos desde el servidor
principal hacia este que esta con problemas y funcionaba bien hasta
que fallo algunas horas despues de estar operando !!! :D


también había leído por la net que había una versión del kernel que
hacia que el filesystem se cambiaba a modo solo-lectura en RedHat,
creo que era este bug
https://bugzilla.redhat.com/show_bug.cgi?id=476533
infelizmente no me permite ver el bug relacionado
(https://bugzilla.redhat.com/show_bug.cgi?id=460179)

pero ahora, que estaba buscando este bug/enlace para enviar a vos.. me
encontré con este otro bug
https://bugzilla.redhat.com/show_bug.cgi?id=494927

que afecta en principio a kernels de la rama 2.6.18-128  (el nuestro
es 2.6.9-89.0.15.ELsmp)..
pero lo que hay de interesante en este bug son los comentarios:

#12 - reporta el problema en el mismo kernel que el nuestro.
#24 - donde comenta que el problema ocurre con una controladora PERC6
(nosotros tenemos una PERC5) cuando se utiliza RMAN para hacer
restauraciones y se obtiene harto I/O !!!
#35 - acá menciona que luego de cambiar la controladora PERC6, el
problema desapareció !!!

y ahora encontré una otra herramienta interesante en el mismo reporte
de bug, que es fsstress !!!
una vez que DELL indique que esta OK.. ya se como realizar mejores pruebas !!!

salu2, atento y gracias

-- 
--
Victor Hugo dos Santos
Linux Counter #224399


Re: partición en el storage se cambia de RW a RO (l argo - para variar)

2010-08-02 Por tema Jorge Palma
Preguntas

Ocupas Multipath ,  si es así, que software ?

Estas ocupando lvm, si es así manda un sosreport -a

Que drivers de Qlogic estas ocupando? Los del fabricante o los de redhat

Alguna opción para el Driver qlogic?

Eso se me ocurre para ver por ahora...zo

El 02/08/10, Victor Hugo dos Santos listas@gmail.com escribió:
 Hola a todos, como vamo ???

 tengo un problema que ha estado dejando loco los tecnicos de
 DELL/EMC/RedHat por mas de 2 meses.
 el ambiente:

 Servidor DELL PE6950 con RedHat 4.8 conectado directamente con dos
 controladoras HBA a un storage EMC AX150 que tiene como función ser el
 standby de un otro servidor idéntico que se encuentra en producción.

 Problema:

 Hace 2 meses, la BD reporto problemas de escrituras en el disco. Al
 revisar el servidor, se encontró los siguientes logs:

 
 Jul  6 19:13:34 masou kernel: attempt to access beyond end of device
 Jul  6 19:13:34 masou kernel: dm-6: rw=0, want=7016163992, limit=83886080
 Jul  6 19:13:34 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 877020498,
 count = 1
 Jul  6 19:13:34 masou kernel: Aborting journal on device dm-6.
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6) in
 ext3_free_blocks_sb: Journal has aborted
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 1296237605,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 3238156357,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 884837,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 3254998096,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 3271833858,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 204671517,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 877020498,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 774905904,
 count = 1
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_free_blocks: Freeing blocks not in datazone - block = 808726064,
 count = 1
 Jul  6 19:13:37 masou kernel: ext3_abort called.
 Jul  6 19:13:37 masou kernel: EXT3-fs error (device dm-6):
 ext3_journal_start_sb: Detected aborted journal
 Jul  6 19:13:37 masou kernel: Remounting filesystem read-only

 []

 Jul  7 05:00:02 masou kernel: EXT3-fs error (device dm-7):
 ext3_readdir: bad entry in directory #38109186: rec_len is smaller
 than minimal - offset=0, inode=0, rec_len=0, name_len=0
 Jul  7 05:00:02 masou kernel: Aborting journal on device dm-7.
 Jul  7 05:00:02 masou kernel: ext3_abort called.
 Jul  7 05:00:02 masou kernel: EXT3-fs error (device dm-7):
 ext3_journal_start_sb: Detected aborted journal
 Jul  7 05:00:02 masou kernel: Remounting filesystem read-only
 

 que mostraba que la particion habia cambiaod desde lectura-escritura
 a modo solo-lectura y al ejecutar el comando scli para obtener un
 diagnostico de las controladoras qlogic (que al final provoco una
 nueva caída del sistema, dejando inaccesible los datos en la AX150),
 obtuvimos estes logs:

 
 Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): entered
 Jun 10 10:57:18 masou kernel: qim_cmd_wait(3): exiting - ind=651, status=1.
 Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): entered
 Jun 10 10:57:18 masou kernel: qim_cmd_wait(4): exiting - ind=1024, status=0.
 Jun 10 10:57:23 masou udevd[1782]: udev done!
 

 a principio, al reiniciar el servidor se volvía la partición a modo RW
 y se podía trabajar en el servidor..
 en los siguientes eventos (después de los reinicio brusco), era
 necesario ejecutar el e2fsck
 y finalmente (las dos ultimas veces), se elimina las particiones que
 existían luego del fallo y reinicio !!! :-(

 El servidor/storage están completamente actualizado (firmwares)...
 El SO (Redhat) se encuentra en la version 4.8 y existen algunas
 actualizaciones pendientes !!! pero tenemos otros 3
 servidores/storages con las mismas, mismissimas versiones de
 firmware, SO, discos, memorias, etc, etc.. y solo en este se presenta
 el problema.

 Nota.2: Tenemos 4 servidores/storages idénticos, por que cuanto
 armaron el sistema, la idea era que 2 serian para producción y 2 para
 standby !!! y cuando aplicamos cambios en uno (SO, firmware, BD, etc,
 etc)... se replica en los demás !!!


 Bueno... Lógicamente esto es molesto y costoso para nosotros y mismo