Le mode "nonraid" par disque est pourri. Passe la H730 en mode HBA intégral.

Le sam. 19 mars 2022 à 11:47, David Ponzone <[email protected]> a
écrit :

> Hello all,
>
> Sur 2 serveurs r630 que je suis en train de mettre en service
> (progressivement), j’ai eu le même incident, à chaque fois quelques jours
> après avoir mis en prod une 20aine de VM.
> Les 2 serveurs sont identiques:
> -R630 avec H730 entièrement à jour
> -Proxmox 7.1 installé sur 2 HD SAS en raid 1
> -pool ZFS raidz2 sur 6 SSD IBM 1.6To SAS 12Gbps (déclarés en non-Raid sur
> la PERC)
>
> L’incident donne ceci au niveau dmesg :
>
> [630190.562386] sd 0:0:3:0: [sdb] tag#437 FAILED Result: hostbyte=DID_OK
> driverbyte=DRIVER_SENSE cmd_age=0s
> [630190.562392] sd 0:0:3:0: [sdb] tag#437 Sense Key : Data Protect
> [current]
> [630190.562395] sd 0:0:3:0: [sdb] tag#437 Add. Sense: Access denied - no
> access rights[630190.562397] sd 0:0:3:0: [sdb] tag#437 CDB: Write(10) 2a 00
> b4 8a 19 e8 00 01 00 00[630190.562399] blk_update_request: critical target
> error, dev sdb, sector 3028949480 op 0x1:(WRITE) flags 0x700 phys_seg 32
> prio class 0
> [630190.562448] zio pool=zfsPool
> vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=2
> offset=1550821085184 size=131072 flags=40080c80
> [630201.009893] sd 0:0:7:0: [sdf] tag#405 FAILED Result: hostbyte=DID_OK
> driverbyte=DRIVER_SENSE cmd_age=0s
> [630201.009899] sd 0:0:7:0: [sdf] tag#405 Sense Key : Data Protect
> [current]
> [630201.009901] sd 0:0:7:0: [sdf] tag#405 Add. Sense: Access denied - no
> access rights[630201.009903] sd 0:0:7:0: [sdf] tag#405 CDB: Read(10) 28 00
> b4 8a 19 b0 00 00 70 00
> [630201.009905] blk_update_request: critical target error, dev sdf, sector
> 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
> [630201.009955] zio pool=zfsPool
> vdev=/dev/disk/by-id/scsi-35000cca050ae63cc-part1 error=121 type=1
> offset=1550821056512 size=57344 flags=40080ca8
> [630201.010013] sd 0:0:2:0: [sda] tag#408 FAILED Result: hostbyte=DID_OK
> driverbyte=DRIVER_SENSE cmd_age=0s
> [630201.010016] sd 0:0:2:0: [sda] tag#408 Sense Key : Data Protect
> [current]
> [630201.010018] sd 0:0:2:0: [sda] tag#408 Add. Sense: Access denied - no
> access rights[630201.010020] sd 0:0:2:0: [sda] tag#408 CDB: Read(10) 28 00
> b4 8a 19 90 00 00 a8 00
> [630201.010021] blk_update_request: critical target error, dev sda, sector
> 3028949392 op 0x0:(READ) flags 0x700 phys_seg 21 prio class 0
> [630201.010116] zio pool=zfsPool
> vdev=/dev/disk/by-id/scsi-35000cca050ae4dcc-part1 error=121 type=1
> offset=1550821040128 size=86016 flags=40080ca8
> [630201.010525] sd 0:0:6:0: [sde] tag#403 FAILED Result: hostbyte=DID_OK
> driverbyte=DRIVER_SENSE cmd_age=0s
> [630201.010547] sd 0:0:6:0: [sde] tag#403 Sense Key : Data Protect
> [current]
> [630201.010553] sd 0:0:6:0: [sde] tag#403 Add. Sense: Access denied - no
> access rights[630201.010560] sd 0:0:6:0: [sde] tag#403 CDB: Read(10) 28 00
> b4 8a 19 a8 00 00 70 00
> [630201.010565] blk_update_request: critical target error, dev sde, sector
> 3028949416 op 0x0:(READ) flags 0x700 phys_seg 12 prio class 0
> [630201.010713] zio pool=zfsPool
> vdev=/dev/disk/by-id/scsi-35000cca050ae6e78-part1 error=121 type=1
> offset=1550821052416 size=57344 flags=40080ca8
> [630201.045323] sd 0:0:3:0: [sdb] tag#433 FAILED Result: hostbyte=DID_OK
> driverbyte=DRIVER_SENSE cmd_age=0s
> [630201.045328] sd 0:0:3:0: [sdb] tag#433 Sense Key : Data Protect
> [current]
> [630201.045330] sd 0:0:3:0: [sdb] tag#433 Add. Sense: Access denied - no
> access rights[630201.045332] sd 0:0:3:0: [sdb] tag#433 CDB: Read(10) 28 00
> b4 8a 19 b0 00 00 70 00
> [630201.045333] blk_update_request: critical target error, dev sdb, sector
> 3028949424 op 0x0:(READ) flags 0x700 phys_seg 14 prio class 0
> [630201.045383] zio pool=zfsPool
> vdev=/dev/disk/by-id/scsi-35000cca050ae89a0-part1 error=121 type=1
> offset=1550821056512 size=57344 flags=40080ca8
>
> Ça dure donc quelques secondes max.
>
> Évidemment après ça, le pool est en sale état: 2 SSD en faulted, 2 en
> degraded, mais pas d’impact sur les données, et si je fais un clear, ça
> resilver et ça repart comme si de rien n’était.
>
> Dans les logs PERC: rien (peut être normal en non-raid mais alors ça veut
> dire qu’il n’y a pas eu de problèmes sur les 2 HD en raid1).
>
> Ça fait penser à un problème que le driver megaraid aurait eu
> ponctuellement pour accéder physiquement aux SSD en non-raid.
>
> Comme c’est arrivé sur les deux serveurs, le problème hardware semble
> impossible.
> Par contre, incompatibilité de ZFS et/ou H730 et/ou megaraid et/ou SSD IBM
> ?
>
> Je nage un peu pour le moment donc avant de me lancer dans des grandes
> opérations chronophages (swap des SSD pour un autre modèle SATA,
> remplacement de la H730 par une 330 flashée en IT,…), je préfère voir si ca
> dit quelque chose à quelqu’un.
> Google s’est avéré useless pour le moment.
>
> Merci
>
> David Ponzone
>
>
> _______________________________________________
> Liste de diffusion du %(real_name)s
> http://www.frsag.org/
_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

Répondre à