Re: плохой диск в зеркале

2009-10-28 Пенетрантность Krasheninnikov Vitaliy
   [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action
   0x6 frozen [435883.988068] ata2.01: cmd
   c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 131072 in [435883.988070]
res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
   [435883.988075] ata2.01: status: { DRDY }
   [435883.988090] ata2: soft resetting link
   [435884.180817] ata2.01: configured for UDMA/133
   [435884.180832] ata2: EH complete
 
  И что - smart опять ничего не показывает ?
 
 А смарт ничего не показывает.
 
У меня такое было с парой винтов... В итоге выкидывал.
А пару месяцев назад опять началось. Поставил на переднюю панель корпуса кулер 
- температура винта спустилась с 45 до 37 и он перестал такие симптомы 
выдавать.

-- 
С уважением,
Крашенинников Виталий m...@krushik.ru


Re: плохой диск в зеркале

2009-10-27 Пенетрантность DamirX
В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет:
  # smartctl -a /dev/sdb
 Тоже чистый. Но вот вентилятор на них поставить бы не машало - 44 градуса,
 это несколько многовато.

Итак, товарищи, настало время исполнить свой общественный долг, то есть
отчитаться.

Как известно, боевой сервер, собранный из подручных материалов не
обладает всеми прелестями настоящих серверных платформ, как-то корзины
для горячей замены винтов. Поэтому было ужасно страшно что-либо в нём
трогать. К тому-же при собирая raid я каким-то макаром умудрился оба
винта в зеркале воткнуть в один контроллер, имея на матери два
контроллера. Второе зеркало, кстати тоже на одном контроллере, то есть
налицо головотяпство. Не повторяйте чужих ошибок!
Итак, для того, чтобы сохранить сервер если что-то пойдет не так,
подготовил внешний usb-sata диск, создав на нем соответствующую таблицу
разделов:
#ssh server sfdisk -d /dev/sdb | sfdisk /dev/sdc
отключил глючный винт (из зеркала он сам заранее вывалился)
#echo 1  /sys/block/sda/device/delete
внешний диск был добавлен в зеркало:
#mdadm --manage /dev/md1 --add /dev/sda1
и спустя 10 часов, которые ушли на синхронизацию дисков, глючный винт был 
акуратно извлечен

глючным оказался именно контроллер диска. :-(
вот я подключил его (на горячую) другой машине:

# echo 0 0 0  /sys/class/scsi_host/host1/scan

[435638.763352] ata1: soft resetting link
[435638.945096] ata1.00: configured for UDMA/133
[435638.945101] ata1: EH complete
[435803.611464] ata2: soft resetting link
[435803.788569] ata2.01: ATA-7: WDC WD7500AAKS-00RBA0, 30.04G30, max UDMA/133
[435803.788575] ata2.01: 1465149168 sectors, multi 0: LBA48 NCQ (depth 0/32)
[435803.805066] ata2.01: configured for UDMA/133
[435803.805076] ata2: EH complete
[435803.805217] scsi 1:0:1:0: Direct-Access ATA  WDC WD7500AAKS-0 30.0 
PQ: 0 ANSI: 5
[435803.805411] sd 1:0:1:0: [sdb] 1465149168 512-byte hardware sectors: (750 
GB/698 GiB)
[435803.805421] sd 1:0:1:0: [sdb] Write Protect is off
[435803.805423] sd 1:0:1:0: [sdb] Mode Sense: 00 3a 00 00
[435803.805439] sd 1:0:1:0: [sdb] Write cache: enabled, read cache: enabled, 
doesn't support DPO or FUA
[435803.805527]  sdb: sdb1
[435803.813030] sd 1:0:1:0: [sdb] Attached SCSI disk

при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 MB/sec, 
а в логах - глюки:

[435883.988028] ata2: lost interrupt (Status 0x51)
[435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 
131072 in
[435883.988070]  res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 
(timeout)
[435883.988075] ata2.01: status: { DRDY }
[435883.988090] ata2: soft resetting link
[435884.180817] ata2.01: configured for UDMA/133
[435884.180832] ata2: EH complete

Ну, чтож, пойду новый диск просить.

Однако-ж, зеркало выручило! ;-)

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-27 Пенетрантность Andrey Melnikoff
DamirX damir.haki...@gmail.com wrote:
 В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет:

[]

 при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 
 MB/sec, а в логах - глюки:

 [435883.988028] ata2: lost interrupt (Status 0x51)
Фуфел это. Глюки такого типа могут возникать из-за разных причин - начиная от
сидения контроллера на одном прерывании с чем-то еще, комбинации ядра +
запущенный smartd, заканчивая долгой возней унутре acpi (тормозной таймер, 
чтение сенсоров).

 [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 
 frozen
 [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 
 131072 in
 [435883.988070]  res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 
 (timeout)
 [435883.988075] ata2.01: status: { DRDY }
 [435883.988090] ata2: soft resetting link
 [435884.180817] ata2.01: configured for UDMA/133
 [435884.180832] ata2: EH complete
И что - smart опять ничего не показывает ? 
Если там пусто - то протираем контакты, выкидываем интерфейсный кабель (да-да, 
они 
тоже дохнут), пускаем long offilne тест с помошью smartctl и рассматривем
результат.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-27 Пенетрантность Konstantin



сервер был собран из подручного материала  :-)



  Если удастся найти такой подручный материал, чтобы было очень дёшево
и диски из программного рейда не вываливались хотя бы месяца три подряд
стабильно -- дай знать.
  Без шуток. Это действительно интересно.
  


Дома на файлопомойке стоит ST-Lab A-224 (на Sil3114) - уже с год 
работает вполне нормально (тьфу-тьфу-тьфу) с программным рейдом.



--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-27 Пенетрантность DamirX
В Втр, 27/10/2009 в 18:23 +0300, Andrey Melnikoff пишет:
 DamirX damir.haki...@gmail.com wrote:
  В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет:
 
 []
 
  при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 
  MB/sec, а в логах - глюки:
 
  [435883.988028] ata2: lost interrupt (Status 0x51)
 Фуфел это. Глюки такого типа могут возникать из-за разных причин - начиная от
 сидения контроллера на одном прерывании с чем-то еще, комбинации ядра +
 запущенный smartd, заканчивая долгой возней унутре acpi (тормозной таймер, 
 чтение сенсоров).
 
Нет, не фуфел. Винт явно умер. Если бы эти глюки были только в логах, я
бы и внимания не обратил, но винт тупо виснет.

  [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 
  frozen
  [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 
  131072 in
  [435883.988070]  res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 
  (timeout)
  [435883.988075] ata2.01: status: { DRDY }
  [435883.988090] ata2: soft resetting link
  [435884.180817] ata2.01: configured for UDMA/133
  [435884.180832] ata2: EH complete
 И что - smart опять ничего не показывает ? 
А смарт ничего не показывает.

 Если там пусто - то протираем контакты, выкидываем интерфейсный кабель 
 (да-да, они 
 тоже дохнут), пускаем long offilne тест с помошью smartctl и рассматривем
 результат.
Это всё сделал еще до того как воткнуть винт в другую машину. smartctl
говорит, что тестов небыло никаких, контакты были грязные, да.
Вставляемый, за каким-то хреном, между платой контроллера и корпусом
винта поролон - влажный и липкий.

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-21 Пенетрантность Prokofyev Vladislav
21 октября 2009 г. 8:34 пользователь DamirX damir.haki...@gmail.comнаписал:

 В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет:
  После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер
 не найден)
  вывод smartctl -a /dev/sda в президиум.
 
 
 # smartctl -a /dev/sda
 smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
 Home page is http://smartmontools.sourceforge.net/

 === START OF INFORMATION SECTION ===
 Model Family: Western Digital Caviar Second Generation Serial ATA
 family
 Device Model: WDC WD7500AAKS-00RBA0
 Serial Number:WD-WCAPT0585317
 Firmware Version: 30.04G30
 User Capacity:750 156 374 016 bytes
 Device is:In smartctl database [for details use: -P show]
 ATA Version is:   7
 ATA Standard is:  Exact ATA specification draft version not indicated
 Local Time is:Wed Oct 21 08:00:56 2009 MSD
 SMART support is: Available - device has SMART capability.
 SMART support is: Enabled

 === START OF READ SMART DATA SECTION ===
 SMART overall-health self-assessment test result: PASSED

 General SMART Values:
 Offline data collection status:  (0x84) Offline data collection activity
was suspended by an interrupting
 command from host.
Auto Offline Data Collection:
 Enabled.
 Self-test execution status:  (   0) The previous self-test routine
 completed
without error or no self-test has
 ever
been run.
 Total time to complete Offline
 data collection: (16800) seconds.
 Offline data collection
 capabilities:(0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off
 support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
 SMART capabilities:(0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
 Error logging capability:(0x01) Error logging supported.
General Purpose Logging supported.
 Short self-test routine
 recommended polling time:(   2) minutes.
 Extended self-test routine
 recommended polling time:( 207) minutes.
 Conveyance self-test routine
 recommended polling time:(   6) minutes.
 SCT capabilities:  (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

 SMART Attributes Data Structure revision number: 16
 Vendor Specific SMART Attributes with Thresholds:
 ID# ATTRIBUTE_NAME  FLAG VALUE WORST THRESH TYPE  UPDATED
  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f   200   200   051Pre-fail  Always
   -   0
  3 Spin_Up_Time0x0003   253   180   021Pre-fail  Always
   -   1433
  4 Start_Stop_Count0x0032   100   100   000Old_age   Always
   -   76
  5 Reallocated_Sector_Ct   0x0033   200   200   140Pre-fail  Always
   -   0
  7 Seek_Error_Rate 0x000e   200   200   051Old_age   Always
   -   0
  9 Power_On_Hours  0x0032   082   082   000Old_age   Always
   -   13151
  10 Spin_Retry_Count0x0012   100   253   051Old_age   Always
 -   0
  11 Calibration_Retry_Count 0x0012   100   253   051Old_age   Always
 -   0
  12 Power_Cycle_Count   0x0032   100   100   000Old_age   Always
 -   76
 192 Power-Off_Retract_Count 0x0032   200   200   000Old_age   Always
 -   73
 193 Load_Cycle_Count0x0032   200   200   000Old_age   Always
 -   76
 194 Temperature_Celsius 0x0022   108   090   000Old_age   Always
 -   44
 196 Reallocated_Event_Count 0x0032   200   200   000Old_age   Always
 -   0
 197 Current_Pending_Sector  0x0012   200   200   000Old_age   Always
 -   0
 198 Offline_Uncorrectable   0x0010   200   200   000Old_age   Offline
-   0
 199 UDMA_CRC_Error_Count0x003e   200   200   000Old_age   Always
 -   0
 200 Multi_Zone_Error_Rate   0x0008   200   200   051Old_age   Offline
-   0

 SMART Error Log Version: 1
 No Errors Logged

 SMART Self-test log structure revision number 1
 No self-tests have been logged.  [To run self-tests, use: smartctl -t]


 SMART Selective self-test log data structure revision number 1
  SPAN  MIN_LBA  MAX_LBA  

Re: плохой диск в зеркале

2009-10-21 Пенетрантность Andrey Melnikoff
DamirX damir.haki...@gmail.com wrote:
 В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет:
  После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не 
  найден)
  вывод smartctl -a /dev/sda в президиум.
  
  
 # smartctl -a /dev/sda
Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA
шлейф на sda


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-21 Пенетрантность DamirX
В Срд, 21/10/2009 в 15:22 +0400, Andrey Melnikoff пишет:
 Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA
 шлейф на sda
 
# smartctl -a /dev/sdb
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Second Generation Serial ATA family
Device Model: WDC WD7500AAKS-00RBA0
Serial Number:WD-WCAPT0556130
Firmware Version: 30.04G30
User Capacity:750 156 374 016 bytes
Device is:In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:Wed Oct 21 15:27:28 2009 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
was suspended by an interrupting 
command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status:  (   0) The previous self-test routine completed
without error or no self-test has ever 
been run.
Total time to complete Offline 
data collection: (17580) seconds.
Offline data collection
capabilities:(0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off 
support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:(0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:(0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine 
recommended polling time:(   2) minutes.
Extended self-test routine
recommended polling time:( 217) minutes.
Conveyance self-test routine
recommended polling time:(   6) minutes.
SCT capabilities:  (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME  FLAG VALUE WORST THRESH TYPE  UPDATED  
WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f   200   200   051Pre-fail  Always   
-   1
  3 Spin_Up_Time0x0003   209   186   021Pre-fail  Always   
-   6550
  4 Start_Stop_Count0x0032   100   100   000Old_age   Always   
-   42
  5 Reallocated_Sector_Ct   0x0033   200   200   140Pre-fail  Always   
-   0
  7 Seek_Error_Rate 0x000e   200   200   051Old_age   Always   
-   0
  9 Power_On_Hours  0x0032   081   081   000Old_age   Always   
-   14289
 10 Spin_Retry_Count0x0012   100   253   051Old_age   Always   
-   0
 11 Calibration_Retry_Count 0x0012   100   253   051Old_age   Always   
-   0
 12 Power_Cycle_Count   0x0032   100   100   000Old_age   Always   
-   41
192 Power-Off_Retract_Count 0x0032   200   200   000Old_age   Always   
-   39
193 Load_Cycle_Count0x0032   200   200   000Old_age   Always   
-   42
194 Temperature_Celsius 0x0022   110   091   000Old_age   Always   
-   42
196 Reallocated_Event_Count 0x0032   200   200   000Old_age   Always   
-   0
197 Current_Pending_Sector  0x0012   200   200   000Old_age   Always   
-   0
198 Offline_Uncorrectable   0x0010   200   200   000Old_age   Offline  
-   0
199 UDMA_CRC_Error_Count0x003e   200   200   000Old_age   Always   
-   0
200 Multi_Zone_Error_Rate   0x0008   200   200   051Old_age   Offline  
-   0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
100  Not_testing
200  Not_testing
300  Not_testing
4   

Re: плохой диск в зеркале

2009-10-21 Пенетрантность Andrey Melnikoff
DamirX damir.haki...@gmail.com wrote:
 В Срд, 21/10/2009 в 15:22 +0400, Andrey Melnikoff пишет:
  Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA
  шлейф на sda
  
 # smartctl -a /dev/sdb
Тоже чистый. Но вот вентилятор на них поставить бы не машало - 44 градуса,
это несколько многовато.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
 вопрос, собственно, какую порекомендуете последовательность проверок/замен?

  Рекомендую начать с контроллера.
  Что за контроллер?

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
 DamirX пишет:
  вопрос, собственно, какую порекомендуете последовательность проверок/замен?
 
   Рекомендую начать с контроллера.
   Что за контроллер?

RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] Serial 
ATA Controller (rev 02)

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
 В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
   Что за контроллер?
 RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] Serial 
 ATA Controller (rev 02)

  Не могу похвастаться большим опытом работы с разными контроллерами, но
к контроллеру за 30$, да на таком чипе (да ещё и от конторы ST-Lab?) я
бы отнёсся как минимум настороженно.
  Думаю, стоит погонять диск чем-нибудь типа MHDD (оно под DOS и
работает с железом напрямую) и на другом контроллере. И если проблем с
диском выявлено не будет -- заменить контроллер.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:45 +0400, Dmitri Samsonov пишет:
 DamirX пишет:
  В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
Что за контроллер?
  RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] 
  Serial ATA Controller (rev 02)
 
   Не могу похвастаться большим опытом работы с разными контроллерами, но
 к контроллеру за 30$, да на таком чипе (да ещё и от конторы ST-Lab?) я
 бы отнёсся как минимум настороженно.
   Думаю, стоит погонять диск чем-нибудь типа MHDD (оно под DOS и
 работает с железом напрямую) и на другом контроллере. И если проблем с
 диском выявлено не будет -- заменить контроллер.

Спасибо за совет. На материнке есть ещё один контроллер:
IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE 
Controller (rev 01)

надо попробовать их потусовать

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
 Спасибо за совет. На материнке есть ещё один контроллер:
 IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE 
 Controller (rev 01)

  Не уверен, что это будет сильно лучше.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:57 +0400, Dmitri Samsonov пишет:
 DamirX пишет:
  Спасибо за совет. На материнке есть ещё один контроллер:
  IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE 
  Controller (rev 01)
 
   Не уверен, что это будет сильно лучше.

сервер был собран из подручного материала  :-)

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
 DamirX пишет:
  вопрос, собственно, какую порекомендуете последовательность проверок/замен?
 
   Рекомендую начать с контроллера.
   Что за контроллер?

Забыл уточнить: есть ли смысл sata-провода проверять?

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
 сервер был собран из подручного материала  :-)

  Если удастся найти такой подручный материал, чтобы было очень дёшево
и диски из программного рейда не вываливались хотя бы месяца три подряд
стабильно -- дай знать.
  Без шуток. Это действительно интересно.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
Если удастся найти такой подручный материал, чтобы было очень дёшево
и диски из программного рейда не вываливались хотя бы месяца три подряд
стабильно -- дай знать.
Без шуток. Это действительно интересно.

Asus M3N H/HDMI, IDE interface: nVidia Corporation MCP78S [GeForce 8200] IDE
(rev a1). Полгода уже.

--
Dmitri Samsonov


--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact
listmas...@lists.debian.org




-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
 Забыл уточнить: есть ли смысл sata-провода проверять?

  Можно и провода проверить. Хотя бы надёжность их подключения, а лучше
заменить.
  Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
авантюре.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 11:30 +0400, Dmitri Samsonov пишет:
 DamirX пишет:
  Забыл уточнить: есть ли смысл sata-провода проверять?
 
   Можно и провода проверить. Хотя бы надёжность их подключения, а лучше
 заменить.
   Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
 авантюре.

1.5 года тем не менее отработал.

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
Dmitri Samsonov
Хм. Слышал, что чипсеты от NVIDIA из строя часто выходят... Не в том
смысле, что что-то там отваливается, а потом продолжает работать, а в
том смысле, что совсем.

Всякое может быть. У меня правда за несколько лет использования никаких
проблем не возникало.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
 В Втр, 20/10/2009 в 11:30 +0400, Dmitri Samsonov пишет:
   Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
 авантюре.
 
 1.5 года тем не менее отработал.

  Отработал именно как зеркало? И проблем не было?

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
On Tue, Oct 20, 2009 at 11:42:32AM +0400, Dmitri Samsonov wrote:
 Prokofyev Vladislav пишет:
  Asus M3N H/HDMI, IDE interface: nVidia Corporation MCP78S [GeForce 8200]
IDE
  (rev a1). Полгода уже.

   Хм. Слышал, что чипсеты от NVIDIA из строя часто выходят... Не в том
 смысле, что что-то там отваливается, а потом продолжает работать, а в
 том смысле, что совсем.

А я и видел.

Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без
ребутов не первый месяц.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact
listmas...@lists.debian.org




-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Sergey Spiridonov
Dmitri Samsonov wrote:

   Если удастся найти такой подручный материал, чтобы было очень дёшево
 и диски из программного рейда не вываливались хотя бы месяца три подряд
 стабильно -- дай знать.

Использовал много и разных дешёвых, в том числе и силиконовские. В
последнее время - в основном встроенные от нвидии. Работают отлично
много лет. Но и силиконовские тоже работали без проблем.

С Promise PDC40718 были странные проблемы.

А вообще нет ничего безотказного. Бэкап это наше всё.
-- 
Best regards, Sergey Spiridonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
 Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без
 ребутов не первый месяц.

Да меня-то зачем убеждать? Если следить за температурным режимом он
и дальше работать будет. Или теперь в нем терморезистор есть?

Терморезисторы есть не везде (на этой матери asus только датчики камня и
платы), но никто не мешает централизованно мониторить температуру по SNMP.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
On Tue, Oct 20, 2009 at 03:08:27PM +0400, Prokofyev Vladislav wrote:
  Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без
  ребутов не первый месяц.

 Да меня-то зачем убеждать? Если следить за температурным режимом он
 и дальше работать будет. Или теперь в нем терморезистор есть?

 Терморезисторы есть не везде (на этой матери asus только датчики камня и
 платы), но никто не мешает централизованно мониторить температуру по SNMP.

Это как-то предотвратит выгорание чипсета, в случае остановки вентилятора
или запыления радиатора?

Выгорание чипсета из-за пыли? На этом чипсете даже вентилятора нет,
температура
в пределах 30-34 градусов. В случае с радиатором на камне -- его либо
периодически
чистить, либо помещать оборудование в круглосуточно охлаждаемое помещение, в
котором уровень пыли минимален.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Mikhail A Antonov
-[ Иван Лох 20/10/2009 17:27 (GMT +3)
 On Tue, Oct 20, 2009 at 05:06:15PM +0400, Prokofyev Vladislav wrote:
  On Tue, Oct 20, 2009 at 03:08:27PM +0400, Prokofyev Vladislav wrote:
 
  Выгорание чипсета из-за пыли? На этом чипсете даже вентилятора нет,
  температура
  в пределах 30-34 градусов. В случае с радиатором на камне -- его либо
  периодически
  чистить, либо помещать оборудование в круглосуточно охлаждаемое
  помещение, в котором уровень пыли минимален.

 У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На чипсете
 стоял небольшой вентилятор. В, конце-концов, он остановился и чипсет тут-же
 сгорел.

А на сколько тут-же? За пару минут? Часов? Дней? Можно и почтой писать если
вдруг у какого-то вентилятора частота вращения меньше чем обычно.

-- 
Best regards,
 Mikhail
xmpp: ant...@stopicq.ru
irc: Bart-mdv- @ SolarNet
SolarNet: http://www.solarnet.ru/


signature.asc
Description: This is a digitally signed message part.


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Andrey Melnikoff
DamirX damir.haki...@gmail.com wrote:
 Hi, All!

 Нарисовалась у меня проблемма на боевом сервере.

 Периодически вываливается из зеркала один диск:
 # cat /proc/mdstat
 Personalities : [raid1]
 md1 : active raid1 sda1[2](F) sdb1[1]
   732571904 blocks [2/1] [_U]

 md0 : active raid1 sdd1[0] sdc1[1]
   7815488 blocks [2/2] [UU]

 Удалось накопать следующее:
 Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: exception Emask 0x10 
 SAct 0x0 SErr 0x1 action 0xe frozen
 Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1: SError: { PHYRdyChg }
 Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: cmd 
 25/00:08:57:10:0c/00:00:27:00:00/e0 tag 0 dma 4096 in
 Oct  9 10:50:44 bagdo kernel: [4620479.650980]  res 
 d0/d0:d0:d0:d0:d0/d0:d0:d0:d0:d0/c0 Emask 0x12 (ATA bus error)
 Oct  9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: status: { Busy }
 Oct  9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: error: { ICRC UNC 
 IDNF }
После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не 
найден)
вывод smartctl -a /dev/sda в президиум.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
20 октября 2009 г. 17:42 пользователь Иван Лох l...@1917.com написал:
 On Tue, Oct 20, 2009 at 05:39:12PM +0400, Mikhail A Antonov wrote:
   У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На
чипсете
  стоял небольшой вентилятор. В, конце-концов, он остановился и чипсет
тут-же
  сгорел.

 А на сколько тут-же? За пару минут? Часов? Дней? Можно и почтой писать
если
 вдруг у какого-то вентилятора частота вращения меньше чем обычно.

 А у него не было датчика оборотов.

ССЗБ. Нужно было смотреть характеристики матери, прежде чем покупать ее.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Mikhail A Antonov
-[ Иван Лох 20/10/2009 17:42 (GMT +3)
 On Tue, Oct 20, 2009 at 05:39:12PM +0400, Mikhail A Antonov wrote:
   У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На
   чипсете стоял небольшой вентилятор. В, конце-концов, он остановился и
   чипсет тут-же сгорел.
 
  А на сколько тут-же? За пару минут? Часов? Дней? Можно и почтой писать
  если вдруг у какого-то вентилятора частота вращения меньше чем обычно.

 А у него не было датчика оборотов.

Ни оборотов ни температуры? И всё же меня интересует время. Нет, я не издеваюсь,
мне правда интересно каких подвохов можно ожидать.

-- 
Best regards,
 Mikhail
xmpp: ant...@stopicq.ru
irc: Bart-mdv- @ SolarNet
SolarNet: http://www.solarnet.ru/


signature.asc
Description: This is a digitally signed message part.


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
Alexander GQ Gerasiov пишет:
 Dmitri Samsonov samson.samson.sam...@gmail.com wrote:
   Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
 авантюре.
 Что за бред? С каких это пор software-raid у нас авантюра? Вполне себе
 применение для дома/небольшого сервера.

  Зачем торопиться с резкими высказываниями?
  Авантюрой является не software-raid, а такой контроллер.
  На дешёвых контроллерах неоднократно сталкивался с отваливанием одного
из дисков в зеркале. Вернее, одного из разделов. Иногда смешнее -- когда
отваливаются разные разделы в шахматном порядке (один на одном диске,
другой на другом). При этом сами диски в порядке, что подтверждается как
тестами, так и их успешной работой без потерь не один год к ряду.
  Да, целостности данных это не вредит. Да, система продолжает успешно
работать. Но я подозреваю, что диски в зеркало загоняются для
надёжности, а не для акробатики на контроллере.
  И вот в целом всю эту акробатику полагаю авантюризмом. Не из-за
SoftRAID, а из-за контроллера.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет:
 После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не 
 найден)
 вывод smartctl -a /dev/sda в президиум.
 
 
# smartctl -a /dev/sda
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Second Generation Serial ATA family
Device Model: WDC WD7500AAKS-00RBA0
Serial Number:WD-WCAPT0585317
Firmware Version: 30.04G30
User Capacity:750 156 374 016 bytes
Device is:In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:Wed Oct 21 08:00:56 2009 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
was suspended by an interrupting 
command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status:  (   0) The previous self-test routine completed
without error or no self-test has ever 
been run.
Total time to complete Offline 
data collection: (16800) seconds.
Offline data collection
capabilities:(0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off 
support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:(0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:(0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine 
recommended polling time:(   2) minutes.
Extended self-test routine
recommended polling time:( 207) minutes.
Conveyance self-test routine
recommended polling time:(   6) minutes.
SCT capabilities:  (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME  FLAG VALUE WORST THRESH TYPE  UPDATED  
WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f   200   200   051Pre-fail  Always   
-   0
  3 Spin_Up_Time0x0003   253   180   021Pre-fail  Always   
-   1433
  4 Start_Stop_Count0x0032   100   100   000Old_age   Always   
-   76
  5 Reallocated_Sector_Ct   0x0033   200   200   140Pre-fail  Always   
-   0
  7 Seek_Error_Rate 0x000e   200   200   051Old_age   Always   
-   0
  9 Power_On_Hours  0x0032   082   082   000Old_age   Always   
-   13151
 10 Spin_Retry_Count0x0012   100   253   051Old_age   Always   
-   0
 11 Calibration_Retry_Count 0x0012   100   253   051Old_age   Always   
-   0
 12 Power_Cycle_Count   0x0032   100   100   000Old_age   Always   
-   76
192 Power-Off_Retract_Count 0x0032   200   200   000Old_age   Always   
-   73
193 Load_Cycle_Count0x0032   200   200   000Old_age   Always   
-   76
194 Temperature_Celsius 0x0022   108   090   000Old_age   Always   
-   44
196 Reallocated_Event_Count 0x0032   200   200   000Old_age   Always   
-   0
197 Current_Pending_Sector  0x0012   200   200   000Old_age   Always   
-   0
198 Offline_Uncorrectable   0x0010   200   200   000Old_age   Offline  
-   0
199 UDMA_CRC_Error_Count0x003e   200   200   000Old_age   Always   
-   0
200 Multi_Zone_Error_Rate   0x0008   200   200   051Old_age   Offline  
-   0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
100  Not_testing
200  Not_testing
3 

плохой диск в зеркале

2009-10-19 Пенетрантность DamirX
Hi, All!

Нарисовалась у меня проблемма на боевом сервере.

Периодически вываливается из зеркала один диск:
# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sda1[2](F) sdb1[1]
  732571904 blocks [2/1] [_U]

md0 : active raid1 sdd1[0] sdc1[1]
  7815488 blocks [2/2] [UU]

Удалось накопать следующее:
Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: exception Emask 0x10 
SAct 0x0 SErr 0x1 action 0xe frozen 
Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1: SError: { PHYRdyChg }  
 
Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: cmd 
25/00:08:57:10:0c/00:00:27:00:00/e0 tag 0 dma 4096 in   
 
Oct  9 10:50:44 bagdo kernel: [4620479.650980]  res 
d0/d0:d0:d0:d0:d0/d0:d0:d0:d0:d0/c0 Emask 0x12 (ATA bus error)  
 
Oct  9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: status: { Busy }
 
Oct  9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: error: { ICRC UNC IDNF 
} 
Oct  9 10:50:44 bagdo kernel: [4620479.659202] ata1: hard resetting link
 
Oct  9 10:50:49 bagdo kernel: [4620484.840165] ata1: SATA link up 1.5 Gbps 
(SStatus 113 SControl 310)  
  
Oct  9 10:50:49 bagdo kernel: [4620484.873459] ata1.00: configured for UDMA/33  
 
Oct  9 10:50:49 bagdo kernel: [4620484.873496] ata1: EH complete
 
Oct  9 10:50:49 bagdo kernel: [4620484.894862] sd 0:0:0:0: [sda] 1465149168 
512-byte hardware sectors (750156 MB)   
 
Oct  9 10:50:49 bagdo kernel: [4620484.900779] sd 0:0:0:0: [sda] Write Protect 
is off
Oct  9 10:50:49 bagdo kernel: [4620484.900779] sd 0:0:0:0: [sda] Mode Sense: 00 
3a 00 00 
Oct  9 10:50:49 bagdo kernel: [4620484.924935] sd 0:0:0:0: [sda] Write cache: 
enabled, read cache: enabled, doesn't support DPO or FUA  

вопрос, собственно, какую порекомендуете последовательность проверок/замен?

-- 
DamirX



-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org