Re: плохой диск в зеркале

2009-10-28 Пенетрантность Krasheninnikov Vitaliy
> > > [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action
> > > 0x6 frozen [435883.988068] ata2.01: cmd
> > > c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 131072 in [435883.988070]
> > >  res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
> > > [435883.988075] ata2.01: status: { DRDY }
> > > [435883.988090] ata2: soft resetting link
> > > [435884.180817] ata2.01: configured for UDMA/133
> > > [435884.180832] ata2: EH complete
> >
> > И что - smart опять ничего не показывает ?
> 
> А смарт ничего не показывает.
> 
У меня такое было с парой винтов... В итоге выкидывал.
А пару месяцев назад опять началось. Поставил на переднюю панель корпуса кулер 
- температура винта спустилась с 45 до 37 и он перестал такие симптомы 
выдавать.

-- 
С уважением,
Крашенинников Виталий 


Re: плохой диск в зеркале

2009-10-27 Пенетрантность DamirX
В Втр, 27/10/2009 в 18:23 +0300, Andrey Melnikoff пишет:
> DamirX  wrote:
> > В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет:
> 
> []
> 
> > при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 
> > MB/sec, а в логах - глюки:
> 
> > [435883.988028] ata2: lost interrupt (Status 0x51)
> Фуфел это. Глюки такого типа могут возникать из-за разных причин - начиная от
> сидения контроллера на одном прерывании с чем-то еще, комбинации ядра +
> запущенный smartd, заканчивая долгой возней унутре acpi (тормозной таймер, 
> чтение сенсоров).
> 
Нет, не фуфел. Винт явно умер. Если бы эти глюки были только в логах, я
бы и внимания не обратил, но винт тупо "виснет".

> > [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 
> > frozen
> > [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 
> > 131072 in
> > [435883.988070]  res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 
> > (timeout)
> > [435883.988075] ata2.01: status: { DRDY }
> > [435883.988090] ata2: soft resetting link
> > [435884.180817] ata2.01: configured for UDMA/133
> > [435884.180832] ata2: EH complete
> И что - smart опять ничего не показывает ? 
А смарт ничего не показывает.

> Если там пусто - то протираем контакты, выкидываем интерфейсный кабель 
> (да-да, они 
> тоже дохнут), пускаем long offilne тест с помошью smartctl и рассматривем
> результат.
Это всё сделал еще до того как воткнуть винт в другую машину. smartctl
говорит, что тестов небыло никаких, контакты были грязные, да.
Вставляемый, за каким-то хреном, между платой контроллера и корпусом
винта поролон - влажный и липкий.

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-27 Пенетрантность Konstantin



сервер был собран "из подручного материала"  :-)



  Если удастся найти такой "подручный материал", чтобы было очень дёшево
и диски из программного рейда не вываливались хотя бы месяца три подряд
стабильно -- дай знать.
  Без шуток. Это действительно интересно.
  


Дома на файлопомойке стоит ST-Lab A-224 (на Sil3114) - уже с год 
работает вполне нормально (тьфу-тьфу-тьфу) с программным рейдом.



--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-27 Пенетрантность Andrey Melnikoff
DamirX  wrote:
> В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет:

[]

> при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 
> MB/sec, а в логах - глюки:

> [435883.988028] ata2: lost interrupt (Status 0x51)
Фуфел это. Глюки такого типа могут возникать из-за разных причин - начиная от
сидения контроллера на одном прерывании с чем-то еще, комбинации ядра +
запущенный smartd, заканчивая долгой возней унутре acpi (тормозной таймер, 
чтение сенсоров).

> [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 
> frozen
> [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 
> 131072 in
> [435883.988070]  res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 
> (timeout)
> [435883.988075] ata2.01: status: { DRDY }
> [435883.988090] ata2: soft resetting link
> [435884.180817] ata2.01: configured for UDMA/133
> [435884.180832] ata2: EH complete
И что - smart опять ничего не показывает ? 
Если там пусто - то протираем контакты, выкидываем интерфейсный кабель (да-да, 
они 
тоже дохнут), пускаем long offilne тест с помошью smartctl и рассматривем
результат.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-27 Пенетрантность DamirX
В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет:
> > # smartctl -a /dev/sdb
> Тоже чистый. Но вот вентилятор на них поставить бы не машало - 44 градуса,
> это несколько многовато.

Итак, товарищи, настало время исполнить свой общественный долг, то есть
отчитаться.

Как известно, боевой сервер, собранный из подручных материалов не
обладает всеми прелестями "настоящих" серверных платформ, как-то корзины
для горячей замены винтов. Поэтому было ужасно страшно что-либо в нём
трогать. К тому-же при собирая raid я каким-то макаром умудрился оба
винта в зеркале воткнуть в один контроллер, имея на матери два
контроллера. Второе зеркало, кстати тоже на одном контроллере, то есть
налицо головотяпство. Не повторяйте чужих ошибок!
Итак, для того, чтобы сохранить сервер "если что-то пойдет не так",
подготовил внешний usb-sata диск, создав на нем соответствующую таблицу
разделов:
#ssh server sfdisk -d /dev/sdb | sfdisk /dev/sdc
отключил глючный винт (из зеркала он сам заранее вывалился)
#echo 1 > /sys/block/sda/device/delete
внешний диск был добавлен в зеркало:
#mdadm --manage /dev/md1 --add /dev/sda1
и спустя 10 часов, которые ушли на синхронизацию дисков, глючный винт был 
акуратно извлечен

глючным оказался именно контроллер диска. :-(
вот я подключил его (на горячую) другой машине:

# echo 0 0 0 > /sys/class/scsi_host/host1/scan

[435638.763352] ata1: soft resetting link
[435638.945096] ata1.00: configured for UDMA/133
[435638.945101] ata1: EH complete
[435803.611464] ata2: soft resetting link
[435803.788569] ata2.01: ATA-7: WDC WD7500AAKS-00RBA0, 30.04G30, max UDMA/133
[435803.788575] ata2.01: 1465149168 sectors, multi 0: LBA48 NCQ (depth 0/32)
[435803.805066] ata2.01: configured for UDMA/133
[435803.805076] ata2: EH complete
[435803.805217] scsi 1:0:1:0: Direct-Access ATA  WDC WD7500AAKS-0 30.0 
PQ: 0 ANSI: 5
[435803.805411] sd 1:0:1:0: [sdb] 1465149168 512-byte hardware sectors: (750 
GB/698 GiB)
[435803.805421] sd 1:0:1:0: [sdb] Write Protect is off
[435803.805423] sd 1:0:1:0: [sdb] Mode Sense: 00 3a 00 00
[435803.805439] sd 1:0:1:0: [sdb] Write cache: enabled, read cache: enabled, 
doesn't support DPO or FUA
[435803.805527]  sdb: sdb1
[435803.813030] sd 1:0:1:0: [sdb] Attached SCSI disk

при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 MB/sec, 
а в логах - глюки:

[435883.988028] ata2: lost interrupt (Status 0x51)
[435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 
131072 in
[435883.988070]  res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 
(timeout)
[435883.988075] ata2.01: status: { DRDY }
[435883.988090] ata2: soft resetting link
[435884.180817] ata2.01: configured for UDMA/133
[435884.180832] ata2: EH complete

Ну, чтож, пойду новый диск просить.

Однако-ж, зеркало выручило! ;-)

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-21 Пенетрантность Andrey Melnikoff
DamirX  wrote:
> В Срд, 21/10/2009 в 15:22 +0400, Andrey Melnikoff пишет:
> > Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA
> > шлейф на sda
> > 
> # smartctl -a /dev/sdb
Тоже чистый. Но вот вентилятор на них поставить бы не машало - 44 градуса,
это несколько многовато.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-21 Пенетрантность DamirX
В Срд, 21/10/2009 в 15:22 +0400, Andrey Melnikoff пишет:
> Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA
> шлейф на sda
> 
# smartctl -a /dev/sdb
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Second Generation Serial ATA family
Device Model: WDC WD7500AAKS-00RBA0
Serial Number:WD-WCAPT0556130
Firmware Version: 30.04G30
User Capacity:750 156 374 016 bytes
Device is:In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:Wed Oct 21 15:27:28 2009 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
was suspended by an interrupting 
command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status:  (   0) The previous self-test routine completed
without error or no self-test has ever 
been run.
Total time to complete Offline 
data collection: (17580) seconds.
Offline data collection
capabilities:(0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off 
support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:(0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:(0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine 
recommended polling time:(   2) minutes.
Extended self-test routine
recommended polling time:( 217) minutes.
Conveyance self-test routine
recommended polling time:(   6) minutes.
SCT capabilities:  (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME  FLAG VALUE WORST THRESH TYPE  UPDATED  
WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f   200   200   051Pre-fail  Always   
-   1
  3 Spin_Up_Time0x0003   209   186   021Pre-fail  Always   
-   6550
  4 Start_Stop_Count0x0032   100   100   000Old_age   Always   
-   42
  5 Reallocated_Sector_Ct   0x0033   200   200   140Pre-fail  Always   
-   0
  7 Seek_Error_Rate 0x000e   200   200   051Old_age   Always   
-   0
  9 Power_On_Hours  0x0032   081   081   000Old_age   Always   
-   14289
 10 Spin_Retry_Count0x0012   100   253   051Old_age   Always   
-   0
 11 Calibration_Retry_Count 0x0012   100   253   051Old_age   Always   
-   0
 12 Power_Cycle_Count   0x0032   100   100   000Old_age   Always   
-   41
192 Power-Off_Retract_Count 0x0032   200   200   000Old_age   Always   
-   39
193 Load_Cycle_Count0x0032   200   200   000Old_age   Always   
-   42
194 Temperature_Celsius 0x0022   110   091   000Old_age   Always   
-   42
196 Reallocated_Event_Count 0x0032   200   200   000Old_age   Always   
-   0
197 Current_Pending_Sector  0x0012   200   200   000Old_age   Always   
-   0
198 Offline_Uncorrectable   0x0010   200   200   000Old_age   Offline  
-   0
199 UDMA_CRC_Error_Count0x003e   200   200   000Old_age   Always   
-   0
200 Multi_Zone_Error_Rate   0x0008   200   200   051Old_age   Offline  
-   0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
100  Not_testing
200  Not_testing
300  Not_testing
4

Re: плохой диск в зеркале

2009-10-21 Пенетрантность Andrey Melnikoff
DamirX  wrote:
> В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет:
> > После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не 
> > найден)
> > вывод smartctl -a /dev/sda в президиум.
> > 
> > 
> # smartctl -a /dev/sda
Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA
шлейф на sda


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-21 Пенетрантность Prokofyev Vladislav
21 октября 2009 г. 8:34 пользователь DamirX написал:

> В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет:
> > После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер
> не найден)
> > вывод smartctl -a /dev/sda в президиум.
> >
> >
> # smartctl -a /dev/sda
> smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
> Home page is http://smartmontools.sourceforge.net/
>
> === START OF INFORMATION SECTION ===
> Model Family: Western Digital Caviar Second Generation Serial ATA
> family
> Device Model: WDC WD7500AAKS-00RBA0
> Serial Number:WD-WCAPT0585317
> Firmware Version: 30.04G30
> User Capacity:750 156 374 016 bytes
> Device is:In smartctl database [for details use: -P show]
> ATA Version is:   7
> ATA Standard is:  Exact ATA specification draft version not indicated
> Local Time is:Wed Oct 21 08:00:56 2009 MSD
> SMART support is: Available - device has SMART capability.
> SMART support is: Enabled
>
> === START OF READ SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED
>
> General SMART Values:
> Offline data collection status:  (0x84) Offline data collection activity
>was suspended by an interrupting
> command from host.
>Auto Offline Data Collection:
> Enabled.
> Self-test execution status:  (   0) The previous self-test routine
> completed
>without error or no self-test has
> ever
>been run.
> Total time to complete Offline
> data collection: (16800) seconds.
> Offline data collection
> capabilities:(0x7b) SMART execute Offline immediate.
>Auto Offline data collection on/off
> support.
>Suspend Offline collection upon new
>command.
>Offline surface scan supported.
>Self-test supported.
>Conveyance Self-test supported.
>Selective Self-test supported.
> SMART capabilities:(0x0003) Saves SMART data before entering
>power-saving mode.
>Supports SMART auto save timer.
> Error logging capability:(0x01) Error logging supported.
>General Purpose Logging supported.
> Short self-test routine
> recommended polling time:(   2) minutes.
> Extended self-test routine
> recommended polling time:( 207) minutes.
> Conveyance self-test routine
> recommended polling time:(   6) minutes.
> SCT capabilities:  (0x303f) SCT Status supported.
>SCT Feature Control supported.
>SCT Data Table supported.
>
> SMART Attributes Data Structure revision number: 16
> Vendor Specific SMART Attributes with Thresholds:
> ID# ATTRIBUTE_NAME  FLAG VALUE WORST THRESH TYPE  UPDATED
>  WHEN_FAILED RAW_VALUE
>  1 Raw_Read_Error_Rate 0x000f   200   200   051Pre-fail  Always
>   -   0
>  3 Spin_Up_Time0x0003   253   180   021Pre-fail  Always
>   -   1433
>  4 Start_Stop_Count0x0032   100   100   000Old_age   Always
>   -   76
>  5 Reallocated_Sector_Ct   0x0033   200   200   140Pre-fail  Always
>   -   0
>  7 Seek_Error_Rate 0x000e   200   200   051Old_age   Always
>   -   0
>  9 Power_On_Hours  0x0032   082   082   000Old_age   Always
>   -   13151
>  10 Spin_Retry_Count0x0012   100   253   051Old_age   Always
> -   0
>  11 Calibration_Retry_Count 0x0012   100   253   051Old_age   Always
> -   0
>  12 Power_Cycle_Count   0x0032   100   100   000Old_age   Always
> -   76
> 192 Power-Off_Retract_Count 0x0032   200   200   000Old_age   Always
> -   73
> 193 Load_Cycle_Count0x0032   200   200   000Old_age   Always
> -   76
> 194 Temperature_Celsius 0x0022   108   090   000Old_age   Always
> -   44
> 196 Reallocated_Event_Count 0x0032   200   200   000Old_age   Always
> -   0
> 197 Current_Pending_Sector  0x0012   200   200   000Old_age   Always
> -   0
> 198 Offline_Uncorrectable   0x0010   200   200   000Old_age   Offline
>-   0
> 199 UDMA_CRC_Error_Count0x003e   200   200   000Old_age   Always
> -   0
> 200 Multi_Zone_Error_Rate   0x0008   200   200   051Old_age   Offline
>-   0
>
> SMART Error Log Version: 1
> No Errors Logged
>
> SMART Self-test log structure revision number 1
> No self-tests have been logged.  [To run self-tests, use: smartctl -t]
>
>
> SMART Selecti

Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет:
> После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не 
> найден)
> вывод smartctl -a /dev/sda в президиум.
> 
> 
# smartctl -a /dev/sda
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Second Generation Serial ATA family
Device Model: WDC WD7500AAKS-00RBA0
Serial Number:WD-WCAPT0585317
Firmware Version: 30.04G30
User Capacity:750 156 374 016 bytes
Device is:In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:Wed Oct 21 08:00:56 2009 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
was suspended by an interrupting 
command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status:  (   0) The previous self-test routine completed
without error or no self-test has ever 
been run.
Total time to complete Offline 
data collection: (16800) seconds.
Offline data collection
capabilities:(0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off 
support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:(0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:(0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine 
recommended polling time:(   2) minutes.
Extended self-test routine
recommended polling time:( 207) minutes.
Conveyance self-test routine
recommended polling time:(   6) minutes.
SCT capabilities:  (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME  FLAG VALUE WORST THRESH TYPE  UPDATED  
WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f   200   200   051Pre-fail  Always   
-   0
  3 Spin_Up_Time0x0003   253   180   021Pre-fail  Always   
-   1433
  4 Start_Stop_Count0x0032   100   100   000Old_age   Always   
-   76
  5 Reallocated_Sector_Ct   0x0033   200   200   140Pre-fail  Always   
-   0
  7 Seek_Error_Rate 0x000e   200   200   051Old_age   Always   
-   0
  9 Power_On_Hours  0x0032   082   082   000Old_age   Always   
-   13151
 10 Spin_Retry_Count0x0012   100   253   051Old_age   Always   
-   0
 11 Calibration_Retry_Count 0x0012   100   253   051Old_age   Always   
-   0
 12 Power_Cycle_Count   0x0032   100   100   000Old_age   Always   
-   76
192 Power-Off_Retract_Count 0x0032   200   200   000Old_age   Always   
-   73
193 Load_Cycle_Count0x0032   200   200   000Old_age   Always   
-   76
194 Temperature_Celsius 0x0022   108   090   000Old_age   Always   
-   44
196 Reallocated_Event_Count 0x0032   200   200   000Old_age   Always   
-   0
197 Current_Pending_Sector  0x0012   200   200   000Old_age   Always   
-   0
198 Offline_Uncorrectable   0x0010   200   200   000Old_age   Offline  
-   0
199 UDMA_CRC_Error_Count0x003e   200   200   000Old_age   Always   
-   0
200 Multi_Zone_Error_Rate   0x0008   200   200   051Old_age   Offline  
-   0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
100  Not_testing
200  Not_testing
3

Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
Alexander GQ Gerasiov пишет:
> Dmitri Samsonov  wrote:
>>   Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
>> авантюре.
> Что за бред? С каких это пор software-raid у нас авантюра? Вполне себе
> применение для дома/небольшого сервера.

  Зачем торопиться с резкими высказываниями?
  Авантюрой является не software-raid, а такой контроллер.
  На дешёвых контроллерах неоднократно сталкивался с отваливанием одного
из дисков в зеркале. Вернее, одного из разделов. Иногда смешнее -- когда
отваливаются разные разделы в шахматном порядке (один на одном диске,
другой на другом). При этом сами диски в порядке, что подтверждается как
тестами, так и их успешной работой "без потерь" не один год к ряду.
  Да, целостности данных это не вредит. Да, система продолжает успешно
работать. Но я подозреваю, что диски в зеркало загоняются для
надёжности, а не для акробатики на контроллере.
  И вот в целом всю эту акробатику полагаю авантюризмом. Не из-за
SoftRAID, а из-за контроллера.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Mikhail A Antonov
-[ Иван Лох 20/10/2009 17:42 (GMT +3)
> On Tue, Oct 20, 2009 at 05:39:12PM +0400, Mikhail A Antonov wrote:
> > > У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На
> > > чипсете стоял небольшой вентилятор. В, конце-концов, он остановился и
> > > чипсет тут-же сгорел.
> >
> > А на сколько "тут-же"? За пару минут? Часов? Дней? Можно и почтой писать
> > если вдруг у какого-то вентилятора частота вращения "меньше чем обычно".
>
> А у него не было датчика оборотов.

Ни оборотов ни температуры? И всё же меня интересует время. Нет, я не издеваюсь,
мне правда интересно каких подвохов можно ожидать.

-- 
Best regards,
 Mikhail
xmpp: ant...@stopicq.ru
irc: Bart-mdv- @ SolarNet
SolarNet: http://www.solarnet.ru/


signature.asc
Description: This is a digitally signed message part.


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
20 октября 2009 г. 17:42 пользователь Иван Лох  написал:
> >On Tue, Oct 20, 2009 at 05:39:12PM +0400, Mikhail A Antonov wrote:
 > > У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На
чипсете
> > стоял небольшой вентилятор. В, конце-концов, он остановился и чипсет
тут-же
> > сгорел.
>
> А на сколько "тут-же"? За пару минут? Часов? Дней? Можно и почтой писать
если
> вдруг у какого-то вентилятора частота вращения "меньше чем обычно".

> А у него не было датчика оборотов.

ССЗБ. Нужно было смотреть характеристики матери, прежде чем покупать ее.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Andrey Melnikoff
DamirX  wrote:
> Hi, All!

> Нарисовалась у меня проблемма на боевом сервере.

> Периодически вываливается из зеркала один диск:
> # cat /proc/mdstat
> Personalities : [raid1]
> md1 : active raid1 sda1[2](F) sdb1[1]
>   732571904 blocks [2/1] [_U]

> md0 : active raid1 sdd1[0] sdc1[1]
>   7815488 blocks [2/2] [UU]

> Удалось накопать следующее:
> Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: exception Emask 0x10 
> SAct 0x0 SErr 0x1 action 0xe frozen
> Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1: SError: { PHYRdyChg }
> Oct  9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: cmd 
> 25/00:08:57:10:0c/00:00:27:00:00/e0 tag 0 dma 4096 in
> Oct  9 10:50:44 bagdo kernel: [4620479.650980]  res 
> d0/d0:d0:d0:d0:d0/d0:d0:d0:d0:d0/c0 Emask 0x12 (ATA bus error)
> Oct  9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: status: { Busy }
> Oct  9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: error: { ICRC UNC 
> IDNF }
После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не 
найден)
вывод smartctl -a /dev/sda в президиум.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Mikhail A Antonov
-[ Иван Лох 20/10/2009 17:27 (GMT +3)
> On Tue, Oct 20, 2009 at 05:06:15PM +0400, Prokofyev Vladislav wrote:
> > On Tue, Oct 20, 2009 at 03:08:27PM +0400, Prokofyev Vladislav wrote:
> >
> > Выгорание чипсета из-за пыли? На этом чипсете даже вентилятора нет,
> > температура
> > в пределах 30-34 градусов. В случае с радиатором на камне -- его либо
> > периодически
> > чистить, либо помещать оборудование в круглосуточно охлаждаемое
> > помещение, в котором уровень пыли минимален.
>
> У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На чипсете
> стоял небольшой вентилятор. В, конце-концов, он остановился и чипсет тут-же
> сгорел.

А на сколько "тут-же"? За пару минут? Часов? Дней? Можно и почтой писать если
вдруг у какого-то вентилятора частота вращения "меньше чем обычно".

-- 
Best regards,
 Mikhail
xmpp: ant...@stopicq.ru
irc: Bart-mdv- @ SolarNet
SolarNet: http://www.solarnet.ru/


signature.asc
Description: This is a digitally signed message part.


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
On Tue, Oct 20, 2009 at 03:08:27PM +0400, Prokofyev Vladislav wrote:
> > Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без
> > ребутов не первый месяц.
>
> >Да меня-то зачем убеждать? Если следить за температурным режимом он
> >и дальше работать будет. Или теперь в нем терморезистор есть?
>
> Терморезисторы есть не везде (на этой матери asus только датчики камня и
> платы), но никто не мешает централизованно мониторить температуру по SNMP.

>Это как-то предотвратит выгорание чипсета, в случае остановки вентилятора
>или запыления радиатора?

Выгорание чипсета из-за пыли? На этом чипсете даже вентилятора нет,
температура
в пределах 30-34 градусов. В случае с радиатором на камне -- его либо
периодически
чистить, либо помещать оборудование в круглосуточно охлаждаемое помещение, в
котором уровень пыли минимален.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
> Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без
> ребутов не первый месяц.

>Да меня-то зачем убеждать? Если следить за температурным режимом он
>и дальше работать будет. Или теперь в нем терморезистор есть?

Терморезисторы есть не везде (на этой матери asus только датчики камня и
платы), но никто не мешает централизованно мониторить температуру по SNMP.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Sergey Spiridonov
Dmitri Samsonov wrote:

>   Если удастся найти такой "подручный материал", чтобы было очень дёшево
> и диски из программного рейда не вываливались хотя бы месяца три подряд
> стабильно -- дай знать.

Использовал много и разных дешёвых, в том числе и силиконовские. В
последнее время - в основном встроенные от нвидии. Работают отлично
много лет. Но и силиконовские тоже работали без проблем.

С Promise PDC40718 были странные проблемы.

А вообще нет ничего безотказного. Бэкап это наше всё.
-- 
Best regards, Sergey Spiridonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
On Tue, Oct 20, 2009 at 11:42:32AM +0400, Dmitri Samsonov wrote:
> Prokofyev Vladislav пишет:
> > Asus M3N H/HDMI, IDE interface: nVidia Corporation MCP78S [GeForce 8200]
IDE
> > (rev a1). Полгода уже.
>
>   Хм. Слышал, что чипсеты от NVIDIA из строя часто выходят... Не в том
> смысле, что что-то там отваливается, а потом продолжает работать, а в
> том смысле, что совсем.

>А я и видел.

Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без
ребутов не первый месяц.

--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact
listmas...@lists.debian.org




-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
> В Втр, 20/10/2009 в 11:30 +0400, Dmitri Samsonov пишет:
>>   Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
>> авантюре.
> 
> 1.5 года тем не менее отработал.

  Отработал именно как зеркало? И проблем не было?

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
Dmitri Samsonov
>Хм. Слышал, что чипсеты от NVIDIA из строя часто выходят... Не в том
>смысле, что что-то там отваливается, а потом продолжает работать, а в
>том смысле, что совсем.

Всякое может быть. У меня правда за несколько лет использования никаких
проблем не возникало.

-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 11:30 +0400, Dmitri Samsonov пишет:
> DamirX пишет:
> > Забыл уточнить: есть ли смысл sata-провода проверять?
> 
>   Можно и провода проверить. Хотя бы надёжность их подключения, а лучше
> заменить.
>   Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
> авантюре.

1.5 года тем не менее отработал.

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
> Забыл уточнить: есть ли смысл sata-провода проверять?

  Можно и провода проверить. Хотя бы надёжность их подключения, а лучше
заменить.
  Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к
авантюре.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность Prokofyev Vladislav
>Если удастся найти такой "подручный материал", чтобы было очень дёшево
>и диски из программного рейда не вываливались хотя бы месяца три подряд
>стабильно -- дай знать.
>Без шуток. Это действительно интересно.

Asus M3N H/HDMI, IDE interface: nVidia Corporation MCP78S [GeForce 8200] IDE
(rev a1). Полгода уже.

--
Dmitri Samsonov


--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact
listmas...@lists.debian.org




-- 
With best regards,
Vladislav Prokofyev


Re: плохой диск в зеркале

2009-10-20 Пенетрантность Dmitri Samsonov
DamirX пишет:
> сервер был собран "из подручного материала"  :-)

  Если удастся найти такой "подручный материал", чтобы было очень дёшево
и диски из программного рейда не вываливались хотя бы месяца три подряд
стабильно -- дай знать.
  Без шуток. Это действительно интересно.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
> DamirX пишет:
> > вопрос, собственно, какую порекомендуете последовательность проверок/замен?
> 
>   Рекомендую начать с контроллера.
>   Что за контроллер?

Забыл уточнить: есть ли смысл sata-провода проверять?

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-20 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:57 +0400, Dmitri Samsonov пишет:
> DamirX пишет:
> > Спасибо за совет. На материнке есть ещё один контроллер:
> > IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE 
> > Controller (rev 01)
> 
>   Не уверен, что это будет сильно лучше.

сервер был собран "из подручного материала"  :-)

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-19 Пенетрантность Dmitri Samsonov
DamirX пишет:
> Спасибо за совет. На материнке есть ещё один контроллер:
> IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE 
> Controller (rev 01)

  Не уверен, что это будет сильно лучше.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-19 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:45 +0400, Dmitri Samsonov пишет:
> DamirX пишет:
> > В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
> >>   Что за контроллер?
> > RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] 
> > Serial ATA Controller (rev 02)
> 
>   Не могу похвастаться большим опытом работы с разными контроллерами, но
> к контроллеру за 30$, да на таком чипе (да ещё и от конторы ST-Lab?) я
> бы отнёсся как минимум настороженно.
>   Думаю, стоит погонять диск чем-нибудь типа MHDD (оно под DOS и
> работает с железом "напрямую") и на другом контроллере. И если проблем с
> диском выявлено не будет -- заменить контроллер.

Спасибо за совет. На материнке есть ещё один контроллер:
IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE 
Controller (rev 01)

надо попробовать их потусовать

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-19 Пенетрантность Dmitri Samsonov
DamirX пишет:
> В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
>>   Что за контроллер?
> RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] Serial 
> ATA Controller (rev 02)

  Не могу похвастаться большим опытом работы с разными контроллерами, но
к контроллеру за 30$, да на таком чипе (да ещё и от конторы ST-Lab?) я
бы отнёсся как минимум настороженно.
  Думаю, стоит погонять диск чем-нибудь типа MHDD (оно под DOS и
работает с железом "напрямую") и на другом контроллере. И если проблем с
диском выявлено не будет -- заменить контроллер.

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-19 Пенетрантность DamirX
В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет:
> DamirX пишет:
> > вопрос, собственно, какую порекомендуете последовательность проверок/замен?
> 
>   Рекомендую начать с контроллера.
>   Что за контроллер?

RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] Serial 
ATA Controller (rev 02)

-- 
DamirX


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: плохой диск в зеркале

2009-10-19 Пенетрантность Dmitri Samsonov
DamirX пишет:
> вопрос, собственно, какую порекомендуете последовательность проверок/замен?

  Рекомендую начать с контроллера.
  Что за контроллер?

--
Dmitri Samsonov


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org