Очень похоже что именно в контроллере, только понять бы в каком - в SCSI карте или контроллере самого массива.
Вот что произошло изначально: bash-3.2# grep kernel /var/log/messages |less Jun 5 04:12:54 bacula kernel: [135577.144376] Buffer I/O error on device dm-0, logical block 0 Jun 5 04:12:54 bacula kernel: [135577.144379] lost page write due to I/O error on dm-0 Jun 5 04:12:54 bacula kernel: [135577.144412] EXT4-fs error (device dm-0): ext4_find_entry:933: inode #431883054: comm rsync: reading directory lblock 0 Jun 5 04:12:54 bacula kernel: [135577.144498] EXT4-fs error (device dm-0): ext4_find_entry:933: inode #431883283: comm rsync: reading directory lblock 0 Jun 5 04:15:54 bacula kernel: [135757.152338] sd 7:0:2:2: timing out command, waited 180s Jun 5 04:15:54 bacula kernel: [135757.152349] sd 7:0:2:2: [sdg] Unhandled error code Jun 5 04:15:54 bacula kernel: [135757.152352] sd 7:0:2:2: [sdg] Result: hostbyte=DID_OK driverbyte=DRIVER_OK Jun 5 04:15:54 bacula kernel: [135757.152357] sd 7:0:2:2: [sdg] CDB: Read(10): 28 00 1f 75 d6 90 00 00 02 00 Jun 5 04:15:54 bacula kernel: [135757.152370] end_request: I/O error, dev sdg, sector 2111265344 Jun 5 04:15:54 bacula kernel: [135757.152406] EXT4-fs (dm-0): previous I/O error to superblock detected Потом вот такое началось: Jun 5 14:05:18 bacula kernel: [171120.864593] scsi7: At time of recovery, card was not paused Jun 5 14:05:18 bacula kernel: [171120.864601] >>>>>>>>>>>>>>>>>> Dump Card State Begins <<<<<<<<<<<<<<<<< Jun 5 14:05:18 bacula kernel: [171120.864602] scsi7: Dumping Card State at program address 0x1ce Mode 0x11 Jun 5 14:05:18 bacula kernel: [171120.864605] Card was paused Jun 5 14:05:18 bacula kernel: [171120.864608] INTSTAT[0x0] SELOID[0x2] SELID[0x20] Jun 5 14:05:18 bacula kernel: [171120.864618] HS_MAILBOX[0x0] INTCTL[0x80] SEQINTSTAT[0x0] Jun 5 14:05:18 bacula kernel: [171120.864628] SAVED_MODE[0x11] DFFSTAT[0x11] Jun 5 14:05:18 bacula kernel: [171120.864635] SCSISIGI[0x4] SCSIPHASE[0x0] SCSIBUS[0x1] Jun 5 14:05:18 bacula kernel: [171120.864645] LASTPHASE[0x80] SCSISEQ0[0x0] SCSISEQ1[0x12] Jun 5 14:05:18 bacula kernel: [171120.864654] SEQCTL0[0x10] SEQINTCTL[0x0] SEQ_FLAGS[0x0] Jun 5 14:05:18 bacula kernel: [171120.864664] SEQ_FLAGS2[0x4] QFREEZE_COUNT[0xcf43] Jun 5 14:05:18 bacula kernel: [171120.864673] KERNEL_QFREEZE_COUNT[0xcf43] MK_MESSAGE_SCB[0xff00] Jun 5 14:05:18 bacula kernel: [171120.864681] MK_MESSAGE_SCSIID[0xff] SSTAT0[0x0] Jun 5 14:05:18 bacula kernel: [171120.864688] SSTAT1[0x0] SSTAT2[0x0] SSTAT3[0x0] Jun 5 14:05:18 bacula kernel: [171120.864698] PERRDIAG[0xc0] SIMODE1[0xac] LQISTAT0[0x0] Jun 5 14:05:18 bacula kernel: [171120.864707] LQISTAT1[0x0] LQISTAT2[0x0] LQOSTAT0[0x0] Jun 5 14:05:18 bacula kernel: [171120.864716] LQOSTAT1[0x0] LQOSTAT2[0x80] Jun 5 14:05:18 bacula kernel: [171120.864732] Jun 5 14:05:18 bacula kernel: [171120.864733] SCB Count = 12 CMDS_PENDING = 1 LASTSCB 0x1 CURRSCB 0x1 NEXTSCB 0x0 Jun 5 14:05:18 bacula kernel: [171120.864743] qinstart = 53623 qinfifonext = 53623 Jun 5 14:05:18 bacula kernel: [171120.864745] QINFIFO: Jun 5 14:05:18 bacula kernel: [171120.864752] WAITING_TID_QUEUES: Jun 5 14:05:18 bacula kernel: [171120.864766] Pending list: Jun 5 14:05:18 bacula kernel: [171120.864771] 1 FIFO_USE[0x0] SCB_CONTROL[0x60] SCB_SCSIID[0x27] Jun 5 14:05:18 bacula kernel: [171120.864783] Total 1 Jun 5 14:05:18 bacula kernel: [171120.864785] Kernel Free SCB list: 4 11 6 7 5 2 0 3 10 9 8 Jun 5 14:05:18 bacula kernel: [171120.864796] Sequencer Complete DMA-inprog list: Jun 5 14:05:18 bacula kernel: [171120.864801] Sequencer Complete list: Jun 5 14:05:18 bacula kernel: [171120.864806] Sequencer DMA-Up and Complete list: Jun 5 14:05:18 bacula kernel: [171120.864811] Sequencer On QFreeze and Complete list: И закончилось вот этим: Jun 7 18:57:02 bacula kernel: [361424.269659] sd 7:0:2:0: rejecting I/O to offline device Jun 7 18:57:02 bacula kernel: [361424.269675] EXT4-fs (dm-0): previous I/O error to superblock detected Jun 7 18:57:02 bacula kernel: [361424.269685] sd 7:0:2:0: rejecting I/O to offline device Jun 7 18:57:02 bacula kernel: [361424.269694] EXT4-fs error (device dm-0): ext4_find_entry:933: inode #2: comm bash: reading directory lblock 0 После чего система все 3 раздела потеряла и нашла после перезагрузки и не с первого раза. 8 июня 2011 г. 14:56 пользователь Anton Farygin <[email protected]> написал: > Подозреваю, что никак. > По хорошему не надо было трогать lv и смотреть что на физических дисках. > > Теперь там явно какая-то хрень. > > Но я подозреваю что дело даже не в этом, а в RAID контроллере, скорее всего > он тебе данные попортил. > > > > 08.06.2011 14:44, Yuri Khachaturyan пишет: >> >> Наблюдалось - переклинило контроллер на самом аппаратном массиве. >> Вылечилось перезагрузкой. >> Но lvm все равно рассыпался после того, как он хотя-бы SCSI-биосом >> стал определяться... Вот теперь думаю как вытащить оттуда данные... >> >> 8 июня 2011 г. 14:43 пользователь Michael Shigorin<[email protected]> >> написал: >>> >>> On Wed, Jun 08, 2011 at 02:09:08PM +0400, Yuri Khachaturyan wrote: >>>> >>>> После какого-то непонятного сбоя (система ругалась на EXT4 >>>> filesystem IO error) >>> >>> В dmesg случайно ничего про железо не наблюдалось? >>> >>> (я тут хорошо побился головой об стенку за ту неделю, >>> сочтя программные грабли за аппаратные -- с очень схожими >>> симптомами и после починки заведомо аппаратных...) >>> >>> -- >>> ---- WBR, Michael Shigorin<[email protected]> >>> ------ Linux.Kiev http://www.linux.kiev.ua/ >>> _______________________________________________ >>> Sysadmins mailing list >>> [email protected] >>> https://lists.altlinux.org/mailman/listinfo/sysadmins >>> >> >> >> > > > _______________________________________________ > Sysadmins mailing list > [email protected] > https://lists.altlinux.org/mailman/listinfo/sysadmins > -- С уважением, Хачатурян Юрий ([email protected]) _______________________________________________ Sysadmins mailing list [email protected] https://lists.altlinux.org/mailman/listinfo/sysadmins
