Приветствую всех!
Возникла проблема с ZFS.
Гугление привело на форум freebsd, где была 1 в 1 проблема, но в 2010
году:
http://forums.freebsd.org/showthread.php?t=19144
Проявляется она следующим образом:
есть Nginx, который одновременно обрабатывает 1200-1500 клиентов,
скачивающих файлы.
Файлы лежат в 8-ми RAIDZ массивах (по 3 в каждом 2 TB винтов). Все 24
винта висят на 3Ware плате:
3ware device driver for 9000 series storage controllers, version:
3.80.06.003
twa0: <3ware 9000 series Storage Controller> port 0xd800-0xd8ff mem
0xf6000000-0xf7ffffff,0xfaedf000-0xfaedffff irq 16 at device 0.0 on pci2
twa0: INFO: (0x15: 0x1300): Controller details:: Model 9650SE-24M8, 24
ports, Firmware FE9X 4.08.00.006, BIOS BE9X 4.08.00.001
twa0@pci0:2:0:0: class=0x010400 card=0x100413c1 chip=0x100413c1
rev=0x01 hdr=0x00
vendor = '3ware Inc'
device = '9650SE SATA-II RAID PCIe'
class = mass storage
subclass = RAID
Пулы по аналоги и с этим:
pool: data1
state: ONLINE
scan: scrub repaired 0 in 0h0m with 0 errors on Wed Nov 28 03:02:19 2012
config:
NAME STATE READ WRITE CKSUM
data1 ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
da0 ONLINE 0 0 0
da1 ONLINE 0 0 0
da2 ONLINE 0 0 0
errors: No known data errors
В какой-то момент все программы, работающие с zfs замирают и вывести их
из этого состояния невозможно без ребута.
Реакция на Ctrl+T при ls и umount:
# umount /data8
load: 0.02 cmd: umount 87188 [zio->io_cv)] 394.78r 0.00u 0.02s 0% 1224k
load: 0.02 cmd: umount 87188 [zio->io_cv)] 394.97r 0.00u 0.02s 0% 1224k
# ls -l /data1/
load: 0.01 cmd: ls 95938 [db->db_changed)] 1.57r 0.00u 0.00s 0% 1684k
load: 0.01 cmd: ls 95938 [db->db_changed)] 2.04r 0.00u 0.00s 0% 1684k
Сама система стоит на UFS и тут проблем нет, иначе бы и диагностировать
не получилось бы.
Система 9-STABLE (amd64) собрана на основе r243704, RAM: 24GB
Кто-то может что-то посоветовать?
Проект "накрывается" и что делать дальше не особо пока понятно... ;(