[freebsd] �� 3ware 9690SA-4I ��

Alexey Markov Wed, 05 Feb 2014 02:31:49 -0800

Привет, All!

Имеется удалённый FreeBSD 8.4-RELEASE-p3 amd64 сервер в ДЦ за бугром,
на нём крутится весьма нагруженный веб-сайт с постгресовской базой.


Спецификации сервера:

Мамка: Supermicro X8DTL
Проц: 2 x Xeon E5620 2.40GHz
Память: 6 x 4Gb 1333MHz
RAID: 3ware 9690SA-4I (512 Mb, BBU)
Диски: 2 x WDC WD5002ABYS

Сегодня в процессе подготовки к профилактике понадобилось скопировать
один из небольших разделов (80 Гб) в конец диска. Запустил dd, и почти
сразу сайт отвалился. В /var/log/messages в это время вижу:

twa0: Request 0 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=2
twa0: [ITHREAD]
twa0: Request 29 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=3
twa0: [ITHREAD]

calcru: runtime went backwards from 21372689 usec to 8010101 usec for pid85359 (sshd)calcru: runtime went backwards from 77975 usec to 28701 usec for pid 85292(postgres)calcru: runtime went backwards from 1065040 usec to 392066 usec for pid85290 (ruby20)calcru: runtime went backwards from 15965 usec to 5876 usec for pid 84801(csh)calcru: runtime went backwards from 14479 usec to 5329 usec for pid 84801(csh)

<ещё много-много ошибок calcru>

calcru: runtime went backwards from 142774306478 usec to 52552722917 usecfor pid 12 (intr)calcru: runtime went backwards from 112259862454500 usec to 41321555907913usec for pid 11 (idle)calcru: runtime went backwards from 12289259 usec to 4523452 usec for pid 1(init)calcru: runtime went backwards from 12718226103866 usec to 4681414144195usec for pid 1 (init)calcru: runtime went backwards from 1185668658 usec to 436420765 usec forpid 0 (kernel)

twa0: Request 20 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=4
twa0: [ITHREAD]
twa0: Request 2 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=5
twa0: [ITHREAD]
twa0: Request 49 timed out!
twa0: INFO: (0x16: 0x1108): Resetting controller...:
twa0: INFO: (0x04: 0x005E): Cache synchronization completed: unit=0
twa0: INFO: (0x04: 0x0001): Controller reset occurred: resets=6
twa0: [ITHREAD]

Копирование, понятное дело, пришлось оборвать, сразу после этого
в логе появилось:

ntpd[815]: time reset +56.243512 s

и дальше всё заработало в штатном режиме. А вот я глубоко задумался...

Раньше никаких проблем с дисками или рейд-контроллером на этом сервере
не наблюдалось, обычная нагрузка составляет от 1 до 20 Мб в секунду
(в основном - запись в постгресовскую базу). А тут обычный dd весь
сервер раком поставил. :-(

Собственно, вопрос счастливым владельцам контроллеров от 3ware:
встречались ли вы ранее с таким глюком, и если да - то как смогли
его победить?

На всякий случай - вывод tw_cli:

### Time Stamp:        11:19:57 03-Sep-2013
### Host Architecture: x86_64 (64 bit)
### OS Version:        FreeBSD 8.4-RELEASE-p3
### Model:             9690SA-4I
### Controller ID:     0
### CLI Version:       2.00.11.022
### API Version:       2.08.00.027
### Driver Version:    3.80.06.003
### Firmware Version:  FH9X 4.10.00.027
### BIOS Version:      BE9X 4.08.00.004
### Available Memory:  448MB

--

WBR, Alexey Markov.

[freebsd] ������ �� 3ware 9690SA-4I ��� ������� �����������

Ответить

[freebsd] �� 3ware 9690SA-4I ��