On 21.12.2012 19:06, Oleksii Tsvietnov wrote:

Плохо помню проблемы. которые наблюдал в феврале-апреле, тогда процессы тоже висели на дисковом чтении, но через энное количество десятков минут машину при снятии нагрузки отпускало (тоже был UFS на флешке для системы). Проблема была вызвана большим количеством файлов на разделе, судя по гуглю, особенно быстро это могло быть вызвано большим количеством файлов в одном каталоге, но обычно проблему триггерит просто find на развесистое дерево (например в ночном periodic). Не в месте дело, то есть. Поглядите, не ваш ли случай.

Приветствую всех!

Возникла проблема с ZFS.
Гугление привело на форум freebsd, где была 1 в 1 проблема, но в 2010 году:
http://forums.freebsd.org/showthread.php?t=19144

Проявляется она следующим образом:
есть Nginx, который одновременно обрабатывает 1200-1500 клиентов,
скачивающих файлы.
Файлы лежат в 8-ми RAIDZ массивах (по 3 в каждом 2 TB винтов). Все 24 винта
висят на 3Ware плате:

3ware device driver for 9000 series storage controllers, version: 3.80.06.003
twa0: <3ware 9000 series Storage Controller> port 0xd800-0xd8ff mem
0xf6000000-0xf7ffffff,0xfaedf000-0xfaedffff irq 16 at device 0.0 on pci2
twa0: INFO: (0x15: 0x1300): Controller details:: Model 9650SE-24M8, 24
ports, Firmware FE9X 4.08.00.006, BIOS BE9X 4.08.00.001

twa0@pci0:2:0:0: class=0x010400 card=0x100413c1 chip=0x100413c1 rev=0x01
hdr=0x00
vendor = '3ware Inc'
device = '9650SE SATA-II RAID PCIe'
class = mass storage
subclass = RAID

Пулы по аналоги и с этим:

pool: data1
state: ONLINE
scan: scrub repaired 0 in 0h0m with 0 errors on Wed Nov 28 03:02:19 2012
config:

NAME STATE READ WRITE CKSUM
data1 ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
da0 ONLINE 0 0 0
da1 ONLINE 0 0 0
da2 ONLINE 0 0 0

errors: No known data errors

В какой-то момент все программы, работающие с zfs замирают и вывести их из
этого состояния невозможно без ребута.
Реакция на Ctrl+T при ls и umount:

# umount /data8

load: 0.02 cmd: umount 87188 [zio->io_cv)] 394.78r 0.00u 0.02s 0% 1224k
load: 0.02 cmd: umount 87188 [zio->io_cv)] 394.97r 0.00u 0.02s 0% 1224k

# ls -l /data1/

load: 0.01 cmd: ls 95938 [db->db_changed)] 1.57r 0.00u 0.00s 0% 1684k
load: 0.01 cmd: ls 95938 [db->db_changed)] 2.04r 0.00u 0.00s 0% 1684k

Сама система стоит на UFS и тут проблем нет, иначе бы и диагностировать не
получилось бы.

Система 9-STABLE (amd64) собрана на основе r243704, RAM: 24GB

Кто-то может что-то посоветовать?
Проект "накрывается" и что делать дальше не особо пока понятно... ;(


--
Vadim Goncharov     <[email protected]>           RU-Center
NET Department                            http://www.nic.ru
NET-SYS Group             phone:+7(495)737-7646  (ext.4019)

Ответить