Re: [freebsd] Re: [freebsd] Re: RAID и таймауты

Alex Samorukov Thu, 22 Mar 2012 13:39:21 -0700

Привет.

Еще раз (и последний, чтобы закрыть тему) рассказываю печальную историюо том как работают рейды. Для Вашего образования.

Давайте для примера остановимся на рейд1 - это самое простое. И так,если у нас сата или ide диски (у них общий command set) то всяинформация дублируется на два носителя. В sata/ide дисках есть смарт дляотображения состояния и диагностики и есть скрытая зона ремапов, котораяиспользуется диском для замены убитых участков. Важный момент -менеджмент этой зоны ремапов - дело только прошивки, контроллер об этомвообще понятия не имеет.

Дальше, никаких "списков плохих секторов" у обычных рейдов нет. Нисофтварных ни хардварных. Всё, что может сделать рейд если у неговозникла ошибка - это попытаться повторить операцию еще раз. Если и этоне удалось - он отдаст пользователю данные с живого диска и будетпытаться получить данные еще несколько раз. В случае проблем - простопометит диск как сбойный, а массив как degraded. Верный признак такойбеды - это параметр Current_Pending_Sector. Вы можете сделать что-товроде dd if=/dev/zero of=/dev/ada0 bs=1M для того, чтобы забить его 0 итаким образом винт активизирует зону ремапов и будет пользоваться ей(это очень хорошо видно на графиках raw read). Когда зона ремаповзакончится, то и запись перестанет работать. Вот и все дефект листы.

Идём дальше. Логика SCT таймаутов неплохо описана в стандарте. Немногоцитат:


8.3.3 Error Recovery Control command

The Error Recovery Control command is used to set time limits for readand write error recovery. For nonqueuedcommands, these timers apply to command completion at the hostinterface. For queuedcommands where in-order data delivery is enabled, these timers begincounting when the device begins toexecute the command, not when the command is sent to the device. Thesetimers do not apply to streamingcommands or to queued commands when out-of-order data delivery isenabled. Time limits for errorrecovery may be used in a data redundant RAID environment where it ismore desirable *to have the device

report a data error rather than risk having it being dropped from the RAID*.

Выделение моё.

Вот о том как это работает

If the Read Command Timer is going to expire while the device isperforming error recovery, the device shallstop processing the command and report an uncorrectable ECC error forthe LBA that was causing errorrecovery to be invoked prior to timer expiration. Note that the LBAmight be recoverable given more time forerror recovery. At this point the host may reconstruct the data for thefailing LBA from the other devices in aRAID and issue a write command to the target LBA, allowing the device toattempt vendor specific error

recovery on the suspect LBA

The Write Command Timer sets the upper limit for the amount of time adevice processes a write command.The minimum value for this command is one. Setting this value to zeroshall disable Write Command timeout,allowing the device to perform all available error recovery procedureswithout a time limit.The Write Command Timer has the effect of controlling how aggressivelythe device reallocates write datawhen encountering write errors. A large Write Command Timer value allowsthe device to use moreavailable error recovery procedures for dealing with write errors. Asmall Write Command Timer value forcesthe device to attempt to reallocate sectors that may have otherwise beenwritten without error. If the timer isabout to expire, then the device should attempt to reallocate the databefore the timer expires. If the deviceis unable to complete data reallocation before the timer expires thenthe devices fails the command when thetimer expires. When write cache is enabled the operation of the timer isvendor specific.

Таким образом при записи устройство скорее сделает ремап, а не будетуходить в себя. Как следствие - если таймаут сделать слишком маленьким -зона ремапов закончится быстрее.

При этом никаких "волшебных пузырьков" в виде умного рейда запоминающегоплохие сектора и чинящего диски у нас нет. Хотите убедиться - да простовытащите 2 диска из рейд1 аппаратного и сравните их побайтово -отличается только зона для служебной информации контроллера, если онаесть. Есть куча утилит для того, чтобы "собрать" аппаратные рейдыпрограммно (используются когда контроллер говорит "всё"). В скази и сасесть дефект листы винта и вообще всё несколько сложнее, но мы сейчас нео них.


Резюмируя:

1) В софтрейдах и хардрейдах оно будет рабоать одинаково, и ничеготакого особенного хардрейд не делает. Так что не надо говорить ерунду,что это только для хардрейдов.2) Выставление таймаута на запись и в самом деле уменьшает рисквыпадения диска из рейда при проблемах записи. Но в целом - несильно,так как ремапы обычно быстро проходят и с отключенным таймаутом.3) Таймаут на чтение на это не влияет, так как диск всё равно будетвыброшен из массива при достижении некоторого количества попыток (могупоказать вам логи с 3вари или с lsi, их у меня ОЧЕНЬ много).4) На большинстве винтов scterc можно поменять. В том числе идесктопных. На многих server edition он по умолчанию выставлен в 8-10секунд. И, кстати, прекрасно отключается, так как в случае не-рейдприменения это фича скорее вредная (пусть лучше попыхтит 5 минут, нодостанет сбойный сектор).5) Никаких дефект листов для ата дисков рейд контроллер не ведёт и неиспользует. И логика его работы практически ничем не отличается отmdraid/gmirror. И формат данных на дисках для RAID1/RAID10 обычно крайнепросто понять.

Re: [freebsd] Re: [freebsd] Re: RAID и таймауты

Ответить