Hola lista, acudo a ustedes para aclarar un poco este tema. Por lo que pude investigar, pareciera un bug, ya que de mi búsqueda en Google solo encontré info en changelogs y algunos posts en la lista de hack. Quisiera conocer si existe forma de recuperar el fallo en caso de no ser un problema de conectividad con storage.
Esto ocurrió en un Postgres Plus Advanced Server 8.4, esta instalado en un cluster de hard que comparte el directorio datos (alojado en un storage redundante). El SO es Red Hat 5.1 (no recuerdo version de kernell) De los logs que vi (ya que doy soporte tercerizado, no tengo libre acceso permanente a los equipos y recibí esta info vía mail recortada), aparentemente se cayo un directorio montado desde un storage y el cluster ejecuto un stop del motor, durante el proceso de backup (copia de filesystem en caliente). 2014-04-01 19:36:50 ART [27191]: [1-1] user=usuario1,db=base FATAL: terminating connection due to administrator command 2014-04-01 19:36:50 ART [29775]: [1-1] user=usuario1,db=base FATAL: terminating connection due to administrator command 2014-04-01 19:36:50 ART [19355]: [1-1] user=usuario1,db=base FATAL: terminating connection due to administrator command 2014-04-01 19:36:50 ART [7258]: [1-1] user=usuario2,db=base FATAL: the database system is shutting down 2014-04-01 19:36:52 ART [7263]: [1-1] user=usuario1,db=base FATAL: the database system is shutting down 2014-04-01 19:36:55 ART [7266]: [1-1] user=usuario3,db=base FATAL: the database system is shutting down 2014-04-01 19:36:56 ART [31407]: [7076-1] user=,db= LOG: checkpoint complete: wrote 10151 buffers (0.6%); 0 transaction log file(s) added, 0 removed, 3 recycled; write=593.804 s, sync=0.799 s, total=598.924 s 2014-04-01 19:36:56 ART [31407]: [7077-1] user=,db= LOG: shutting down 2014-04-01 19:36:57 ART [31407]: [7078-1] user=,db= LOG: checkpoint starting: shutdown immediate 2014-04-01 19:36:57 ART [7268]: [1-1] user=igl,db=pfprd FATAL: the database system is shutting down 2014-04-01 19:37:00 ART [31407]: [7079-1] user=,db= LOG: checkpoint complete: wrote 3254 buffers (0.2%); 0 transaction log file(s) added, 1 removed, 3 recycled; write=0.650 s, sync=1.843 s, total=3.558 s 2014-04-01 19:37:00 ART [31407]: [7080-1] user=,db= LOG: database system is shut down 2014-04-01 19:37:01 ART [31298]: [12-1] user=,db= LOG: online backup mode cancelled 2014-04-01 19:37:01 ART [31298]: [13-1] user=,db= DETAIL: "backup_label" was renamed to "backup_label.old". Unos 20 minutos mas tarde se intenta iniciar el servicio; 2014-04-01 19:58:55 ART [9491]: [1-1] user=,db= LOG: database system was shut down at 2014-04-01 19:37:00 ART 2014-04-01 19:58:55 ART [9491]: [2-1] user=,db= LOG: database system is ready 2014-04-01 19:58:56 ART [9471]: [5-1] user=,db= LOG: could not stat file "/data/base/14413/pg_internal.init": No such file or directory No tuve mas feedback desde las oficinas de mi cliente, pero quisiera poder entender si simplemente es un archivo corrupto o puede tener que ver con un bug al intentar recomponerse la base desde la WAL. Muchas gracias Saludos Federico Sansone
