Привет, All!
Имеется удалённый FreeBSD 8.4-RELEASE-p3 amd64 сервер в ДЦ за бугром,
на нём крутится весьма нагруженный веб-сайт с постгресовской базой.
Спецификации сервера:
Мамка: Supermicro X8DTL
Проц: 2 x Xeon E5620 2.40GHz
Память: 6 x 4Gb 1333MHz
RAID: 3ware 9690SA-4I (512 Mb, BBU)
Диски: 2 x WDC WD5002ABYS
Сегодня в процессе подготовки к профилактике понадобилось скопировать
один из небольших разделов (80 Гб) в конец диска. Запустил dd, и почти
сразу сайт отвалился. В /var/log/messages в это время вижу:
twa0: Request 0 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=2
twa0: [ITHREAD]
twa0: Request 29 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=3
twa0: [ITHREAD]
calcru: runtime went backwards from 21372689 usec to 8010101 usec for pid
85359 (sshd)
calcru: runtime went backwards from 77975 usec to 28701 usec for pid 85292
(postgres)
calcru: runtime went backwards from 1065040 usec to 392066 usec for pid
85290 (ruby20)
calcru: runtime went backwards from 15965 usec to 5876 usec for pid 84801
(csh)
calcru: runtime went backwards from 14479 usec to 5329 usec for pid 84801
(csh)
<ещё много-много ошибок calcru>
calcru: runtime went backwards from 142774306478 usec to 52552722917 usec
for pid 12 (intr)
calcru: runtime went backwards from 112259862454500 usec to 41321555907913
usec for pid 11 (idle)
calcru: runtime went backwards from 12289259 usec to 4523452 usec for pid 1
(init)
calcru: runtime went backwards from 12718226103866 usec to 4681414144195
usec for pid 1 (init)
calcru: runtime went backwards from 1185668658 usec to 436420765 usec for
pid 0 (kernel)
twa0: Request 20 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=4
twa0: [ITHREAD]
twa0: Request 2 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=5
twa0: [ITHREAD]
twa0: Request 49 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=6
twa0: [ITHREAD]
Копирование, понятное дело, пришлось оборвать, сразу после этого
в логе появилось:
ntpd[815]: time reset +56.243512 s
и дальше всё заработало в штатном режиме. А вот я глубоко задумался...
Раньше никаких проблем с дисками или рейд-контроллером на этом сервере
не наблюдалось, обычная нагрузка составляет от 1 до 20 Мб в секунду
(в основном - запись в постгресовскую базу). А тут обычный dd весь
сервер раком поставил. :-(
Собственно, вопрос счастливым владельцам контроллеров от 3ware:
встречались ли вы ранее с таким глюком, и если да - то как смогли
его победить?
На всякий случай - вывод tw_cli:
### Time Stamp: 11:19:57 03-Sep-2013
### Host Architecture: x86_64 (64 bit)
### OS Version: FreeBSD 8.4-RELEASE-p3
### Model: 9690SA-4I
### Controller ID: 0
### CLI Version: 2.00.11.022
### API Version: 2.08.00.027
### Driver Version: 3.80.06.003
### Firmware Version: FH9X 4.10.00.027
### BIOS Version: BE9X 4.08.00.004
### Available Memory: 448MB
--
WBR, Alexey Markov.