Re: Проблема с дисками

2021-09-16 Пенетрантность Артём Н .

Ладно, обновлю систему, буду смотреть дальше.


12.09.2021 00:01, Dmitry Semyonov пишет:

On Sat, 11 Sept 2021 at 23:05, Артём Н. wrote:


Контроллер - маловероятно: работало же ранее.

Как вариант, проблема могла вскрыться при изменившемся профиле
нагрузки и/или новой версии ядра.





Re: Проблема с дисками

2021-09-11 Пенетрантность Dmitry Semyonov
On Sat, 11 Sept 2021 at 23:05, Артём Н. wrote:

> Контроллер - маловероятно: работало же ранее.

Как вариант, проблема могла вскрыться при изменившемся профиле
нагрузки и/или новой версии ядра.

-- 
...Bye..Dmitry.


Re: Проблема с дисками

2021-09-11 Пенетрантность Артём Н .

8 дисков, но:

- БП рассчитывался с запасом, и это Gold.

- Ранее система работала стабильно года с 2018.


Возможно, что подох блок, конечно...

Контроллер - маловероятно: работало же ранее. Плата тоже ASRock, кстати.


11.09.2021 14:53, Dmitry Semyonov пишет:

On Sat, 11 Sept 2021 at 04:33, spied wrote:

Из моего опыта, чаще всего источником «непонятных» проблем является или 
нестабильное питание — умирающий БП или «вспухшие» конденсаторы на материнской 
плате; или «битая» память.

БП может быть и не умирающий, а просто недостаточно мощный.

Ещё бывают глючные контроллеры SATA (или их драйвера). Не знаю,
насколько это применимо к SAS, но на одном сервере с PCIe SATA
контроллером опция ядра libata.force=noncq,8:3.0 (число перед ":3.0" в
другой конфигурации железа будет своё, а может и не одно) помогла
перевести один сыпавший ошибками BTRFS RAID1-массив, подключенный к
такому контроллеру, в состояние супер-стабильности. Причём ключевым
параметром стало ограничение скорости до SATA 3.0; noncq сам по себе
помог, но не до конца.

Кусок вывода lspci, чтобы в поиске всплывало:
01:00.0 USB controller: ASMedia Technology Inc. ASM1142 USB 3.1 Host Controller
02:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI
Bridge (rev 04)
05:00.0 SATA controller: ASMedia Technology Inc. ASM1062 Serial ATA
Controller (rev 01)





Re: Проблема с дисками

2021-09-11 Пенетрантность Dmitry Semyonov
On Sat, 11 Sept 2021 at 04:33, spied wrote:
> Из моего опыта, чаще всего источником «непонятных» проблем является или 
> нестабильное питание — умирающий БП или «вспухшие» конденсаторы на 
> материнской плате; или «битая» память.

БП может быть и не умирающий, а просто недостаточно мощный.

Ещё бывают глючные контроллеры SATA (или их драйвера). Не знаю,
насколько это применимо к SAS, но на одном сервере с PCIe SATA
контроллером опция ядра libata.force=noncq,8:3.0 (число перед ":3.0" в
другой конфигурации железа будет своё, а может и не одно) помогла
перевести один сыпавший ошибками BTRFS RAID1-массив, подключенный к
такому контроллеру, в состояние супер-стабильности. Причём ключевым
параметром стало ограничение скорости до SATA 3.0; noncq сам по себе
помог, но не до конца.

Кусок вывода lspci, чтобы в поиске всплывало:
01:00.0 USB controller: ASMedia Technology Inc. ASM1142 USB 3.1 Host Controller
02:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI
Bridge (rev 04)
05:00.0 SATA controller: ASMedia Technology Inc. ASM1062 Serial ATA
Controller (rev 01)

-- 
...Bye..Dmitry.


Re: Проблема с дисками

2021-09-10 Пенетрантность spied
03:49, 11 сентября 2021 г., "Артём Н." :Рушатся ZFS пулы. Грешу на кабели, т.к. падают разные диски. Но кабели я поменял, а стыки разъёмов дополнительно укрепил капроном.Что значит «падают»?Провёл badblocks на паре дисков. Битых нет. Однако, на SMART - ошибки,Какие?один пул degraded, второй suspended.Что в dmesg в момент возникновения проблемы?Из моего опыта, чаще всего источником «непонятных» проблем является или нестабильное питание — умирающий БП или «вспухшие» конденсаторы на материнской плате; или «битая» память.Так что для начала осмотреть материнскую плату, запустить memtest86 хотя бы на несколько часов, попробовать поменять блок питания.-- Отправлено из мобильного приложения Яндекс.Почты

Проблема с дисками

2021-09-10 Пенетрантность Артём Н .

Здравствуйте.


Рушатся ZFS пулы. Грешу на кабели, т.к. падают разные диски. Но кабели я 
поменял, а стыки разъёмов дополнительно укрепил капроном.


Провёл badblocks на паре дисков. Битых нет. Однако, на SMART - ошибки, 
один пул degraded, второй suspended.


Диски SAS HGST HUS724040ALS640 A320 и подобные 4 и 6 ТБ по 4 штуки. Один 
заменён на Seagate Exos ST4000NM003A. С ним, вроде, проблем нет.



В чём может быть проблема  остальными дисками?

SMART, если требуется могу скинуть позже.