Hello, Anton!
On February, 05 2014 at 14:35 you wrote to [email protected]:
??>> RAID: 3ware 9690SA-4I (512 Mb, BBU)
??>> Диски: 2 x WDC WD5002ABYS
??>>
??>> Сегодня в процессе подготовки к профилактике понадобилось скопировать
??>> один из небольших разделов (80 Гб) в конец диска. Запустил dd, и почти
??>> сразу сайт отвалился. В /var/log/messages в это время вижу:
??>> twa0: Request 0 timed out!
??>> twa0: INFO: (0x16: 0x1108): Resetting controller...:
??>> twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
??>> twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=2
AY> В первую очередь имеет смысл посмотреть SMART на дисках, если данные
AY> 3ware позволяет это делать.
AY> Потом запустить по очереди на кождом из дисков тест (smartctl -t long)
AY> и еще раз посмотреть.
Прогнал "длинные" тесты на обоих винтах - ошибок нет. Похоже, дело не в них.
Посмотрел через gstat, iostat и top -m io, что больше всего винт грузит.
Оказалось, Постгрес постоянно что-то пишет на диск, причём с хорошей
скоростью - до 15-20 мегабайт в секунду. Скорее всего, это WAL-ы для
репликации со вторым сервером и сессии веб-движка. Подозреваю, что при
запуске dd винты просто "захлёбываются", упираясь в потолок по IOPS.
Непонятно, правда, почему контроллер из-за этого дохнет. :-(
Кстати, а можно ли как-то ограничить число операций ввода/вывода для
процесса? Ну, типа nice, только не для ЦПУ, а для ввода/вывода. Или
хотя бы измерить их число за определённый промежуток времени?
--
WBR, Alexey Markov.