Re: [freebsd] Re: RAID и таймауты

Зеленяк Алексей Thu, 22 Mar 2012 05:04:02 -0700

Так, мне кажется у вас каша. Давайте разберемся.
1) Параметр ERC влияет только на скорость негативного ответа отжесткого диска в случае проблем. Ерк - 0, то работают внутренниетаймауты диска, обычно достаточно длинные. Ерк выставлен - диск простодаст негативных ответ сразу после таймаутов.2) Если рейд не смог записать что-то на диск - его правильная реакция- попытаться повторить запись несколько раз и выкинуть сбойный винт измассива. Никаким "ремонтом" он заниматься не может и не должен. Счтением - возможны варианты, но я не уверен что кто-то пытаетсяперезаписывать сбойный сектор по чтению, скорее всего реакция будеттакая же. Единственное что может помочь - при выставленном ерк рейдсделает не 1 попытку, а больше, так как таймеры не сработают, и винттаки сделает ремап. Но это только на записи поможет3) В итоге - если винт глючный - рейд выкинет его как с ерк=0, так и серк=100 (10 секунд), но во втором случае это произойдет намногораньше. Кроме того - наша система не будет ужасно тупить пытаясьполучить ответ от умирающего лиска.4) Если у вас начинаются задержки по чтению-записи такие, что рейдвыкидывает диск - ему прямая дорого в рма, и в смарте это должно бытьочень хорошо видно.5) С хардварными рейдами можно наступить еще и на глюки прошивки,которые вообще не имеют никакого отношение к обсуждаемой теме.


Даже не знаю как "возразить"... И у кого каша...

Давайте же разберемся... В рамках данной переписки обсуждается работа:
1. Исправного RAID контроллера
2. Исправных жестких дисков

3. Построение аппаратных массивов на базе Desktop (Err Ctl > 8 sec) и RE(Err Ctl меньше или равно 7 сек)


Немного теории о контроллерах:

*Disk Failure Detection (Обнаружение неисправности дисководов)* - RAIDконтроллер может автоматически обнаруживать повреждения SCSI дисководов.Процесс контроля основывается, среди прочего, на анализе временивыполнения команд, посланных дисководу. Если дисковод в теченииопределенного времени не подтверждает выполнение команды, контроллеросуществляет "сброс" дисковода и посылает команду повторно. Если командаснова не выполняется за заданное время, дисковод может быть контроллеромотключен (установлен в режим "offline") и его состояние фиксируется, как"dead" ("мертвый"). Многие RAID контроллеры также контролируют ошибкичетности SCSI шины и другие потенциальные проблемы.

*Disk Media Error Management (Система Обработки Ошибок Дисководов)* -RAID контроллеры способны обрабатывать ошибки внутреннего кэша и SCSIдисководов. Если установлен кэш с ECC, контроллер исправит одиночные изафиксирует двойные ошибки. Дисководы могут быть запрограммированы так,чтобы сообщать об ошибках, даже если это восстанавливаемые ошибки. Когдадисковод сообщает об ошибке во время чтения, контроллер считываетсоответствующие данные из зеркального дисковода (RAID 1 или 0+1), иливосстанавливает данные, используя информацию, хранящуюся в других блоках(RAID 3, RAID 5), и записывает данные назад на тот дисковод, которыйстолкнулся с ошибкой. Если произошел сбой при записи, контроллерпропускает тот блок, в котором возникла ошибка, и затем записываетданные в следующий блок. Если проблема была успешно решена, то никакиесообщения об ошибках в систему не передаются.


Теперь о поведении Desktop диска в массиве:

Если происходит ошибка чтения или записи на ИСПРАВНЫЙ диск - он пытаетсяее исправить. Это может занять более 8 секунд.В данном случае RAID выполняет *Disk Failure Detection (Обнаружениенеисправности дисководов)* и "выбрасывает" исправный диск из массива.

Подобная ситуация НЕ происходит если используются RE диски т.к.контроллер выполняет *Disk Media Error Management (Система ОбработкиОшибок Дисководов)*, а вот *Disk Failure Detection (Обнаружениенеисправности дисководов)* происходит для дисков, которые можно смелосдавать по гарантии.


Теперь почему я "приплел" софтовый" райд...

В софтовом массиве работой с дисками занимается ОС, которая может ждатьдо 2мин пока диск самостоятельно не исправит ошибку, и потом либозависнет либо выкинет его из массива (в данном случае диск так же можнонести "сдавать")

Re: [freebsd] Re: RAID и таймауты

Ответить