Re: плохой диск в зеркале
[435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 131072 in [435883.988070] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) [435883.988075] ata2.01: status: { DRDY } [435883.988090] ata2: soft resetting link [435884.180817] ata2.01: configured for UDMA/133 [435884.180832] ata2: EH complete И что - smart опять ничего не показывает ? А смарт ничего не показывает. У меня такое было с парой винтов... В итоге выкидывал. А пару месяцев назад опять началось. Поставил на переднюю панель корпуса кулер - температура винта спустилась с 45 до 37 и он перестал такие симптомы выдавать. -- С уважением, Крашенинников Виталий m...@krushik.ru
Re: плохой диск в зеркале
В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет: # smartctl -a /dev/sdb Тоже чистый. Но вот вентилятор на них поставить бы не машало - 44 градуса, это несколько многовато. Итак, товарищи, настало время исполнить свой общественный долг, то есть отчитаться. Как известно, боевой сервер, собранный из подручных материалов не обладает всеми прелестями настоящих серверных платформ, как-то корзины для горячей замены винтов. Поэтому было ужасно страшно что-либо в нём трогать. К тому-же при собирая raid я каким-то макаром умудрился оба винта в зеркале воткнуть в один контроллер, имея на матери два контроллера. Второе зеркало, кстати тоже на одном контроллере, то есть налицо головотяпство. Не повторяйте чужих ошибок! Итак, для того, чтобы сохранить сервер если что-то пойдет не так, подготовил внешний usb-sata диск, создав на нем соответствующую таблицу разделов: #ssh server sfdisk -d /dev/sdb | sfdisk /dev/sdc отключил глючный винт (из зеркала он сам заранее вывалился) #echo 1 /sys/block/sda/device/delete внешний диск был добавлен в зеркало: #mdadm --manage /dev/md1 --add /dev/sda1 и спустя 10 часов, которые ушли на синхронизацию дисков, глючный винт был акуратно извлечен глючным оказался именно контроллер диска. :-( вот я подключил его (на горячую) другой машине: # echo 0 0 0 /sys/class/scsi_host/host1/scan [435638.763352] ata1: soft resetting link [435638.945096] ata1.00: configured for UDMA/133 [435638.945101] ata1: EH complete [435803.611464] ata2: soft resetting link [435803.788569] ata2.01: ATA-7: WDC WD7500AAKS-00RBA0, 30.04G30, max UDMA/133 [435803.788575] ata2.01: 1465149168 sectors, multi 0: LBA48 NCQ (depth 0/32) [435803.805066] ata2.01: configured for UDMA/133 [435803.805076] ata2: EH complete [435803.805217] scsi 1:0:1:0: Direct-Access ATA WDC WD7500AAKS-0 30.0 PQ: 0 ANSI: 5 [435803.805411] sd 1:0:1:0: [sdb] 1465149168 512-byte hardware sectors: (750 GB/698 GiB) [435803.805421] sd 1:0:1:0: [sdb] Write Protect is off [435803.805423] sd 1:0:1:0: [sdb] Mode Sense: 00 3a 00 00 [435803.805439] sd 1:0:1:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA [435803.805527] sdb: sdb1 [435803.813030] sd 1:0:1:0: [sdb] Attached SCSI disk при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 MB/sec, а в логах - глюки: [435883.988028] ata2: lost interrupt (Status 0x51) [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 131072 in [435883.988070] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) [435883.988075] ata2.01: status: { DRDY } [435883.988090] ata2: soft resetting link [435884.180817] ata2.01: configured for UDMA/133 [435884.180832] ata2: EH complete Ну, чтож, пойду новый диск просить. Однако-ж, зеркало выручило! ;-) -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
DamirX damir.haki...@gmail.com wrote: В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет: [] при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 MB/sec, а в логах - глюки: [435883.988028] ata2: lost interrupt (Status 0x51) Фуфел это. Глюки такого типа могут возникать из-за разных причин - начиная от сидения контроллера на одном прерывании с чем-то еще, комбинации ядра + запущенный smartd, заканчивая долгой возней унутре acpi (тормозной таймер, чтение сенсоров). [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 131072 in [435883.988070] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) [435883.988075] ata2.01: status: { DRDY } [435883.988090] ata2: soft resetting link [435884.180817] ata2.01: configured for UDMA/133 [435884.180832] ata2: EH complete И что - smart опять ничего не показывает ? Если там пусто - то протираем контакты, выкидываем интерфейсный кабель (да-да, они тоже дохнут), пускаем long offilne тест с помошью smartctl и рассматривем результат. -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
сервер был собран из подручного материала :-) Если удастся найти такой подручный материал, чтобы было очень дёшево и диски из программного рейда не вываливались хотя бы месяца три подряд стабильно -- дай знать. Без шуток. Это действительно интересно. Дома на файлопомойке стоит ST-Lab A-224 (на Sil3114) - уже с год работает вполне нормально (тьфу-тьфу-тьфу) с программным рейдом. -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Втр, 27/10/2009 в 18:23 +0300, Andrey Melnikoff пишет: DamirX damir.haki...@gmail.com wrote: В Срд, 21/10/2009 в 16:19 +0400, Andrey Melnikoff пишет: [] при попытке выполнить hdparm -t /dev/sdb скорость оказалась в районе 3 MB/sec, а в логах - глюки: [435883.988028] ata2: lost interrupt (Status 0x51) Фуфел это. Глюки такого типа могут возникать из-за разных причин - начиная от сидения контроллера на одном прерывании с чем-то еще, комбинации ядра + запущенный smartd, заканчивая долгой возней унутре acpi (тормозной таймер, чтение сенсоров). Нет, не фуфел. Винт явно умер. Если бы эти глюки были только в логах, я бы и внимания не обратил, но винт тупо виснет. [435883.988054] ata2.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen [435883.988068] ata2.01: cmd c8/00:00:00:49:03/00:00:00:00:00/f0 tag 0 dma 131072 in [435883.988070] res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout) [435883.988075] ata2.01: status: { DRDY } [435883.988090] ata2: soft resetting link [435884.180817] ata2.01: configured for UDMA/133 [435884.180832] ata2: EH complete И что - smart опять ничего не показывает ? А смарт ничего не показывает. Если там пусто - то протираем контакты, выкидываем интерфейсный кабель (да-да, они тоже дохнут), пускаем long offilne тест с помошью smartctl и рассматривем результат. Это всё сделал еще до того как воткнуть винт в другую машину. smartctl говорит, что тестов небыло никаких, контакты были грязные, да. Вставляемый, за каким-то хреном, между платой контроллера и корпусом винта поролон - влажный и липкий. -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
21 октября 2009 г. 8:34 пользователь DamirX damir.haki...@gmail.comнаписал: В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет: После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не найден) вывод smartctl -a /dev/sda в президиум. # smartctl -a /dev/sda smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Model Family: Western Digital Caviar Second Generation Serial ATA family Device Model: WDC WD7500AAKS-00RBA0 Serial Number:WD-WCAPT0585317 Firmware Version: 30.04G30 User Capacity:750 156 374 016 bytes Device is:In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: Exact ATA specification draft version not indicated Local Time is:Wed Oct 21 08:00:56 2009 MSD SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x84) Offline data collection activity was suspended by an interrupting command from host. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (16800) seconds. Offline data collection capabilities:(0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities:(0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability:(0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time:( 2) minutes. Extended self-test routine recommended polling time:( 207) minutes. Conveyance self-test routine recommended polling time:( 6) minutes. SCT capabilities: (0x303f) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051Pre-fail Always - 0 3 Spin_Up_Time0x0003 253 180 021Pre-fail Always - 1433 4 Start_Stop_Count0x0032 100 100 000Old_age Always - 76 5 Reallocated_Sector_Ct 0x0033 200 200 140Pre-fail Always - 0 7 Seek_Error_Rate 0x000e 200 200 051Old_age Always - 0 9 Power_On_Hours 0x0032 082 082 000Old_age Always - 13151 10 Spin_Retry_Count0x0012 100 253 051Old_age Always - 0 11 Calibration_Retry_Count 0x0012 100 253 051Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000Old_age Always - 76 192 Power-Off_Retract_Count 0x0032 200 200 000Old_age Always - 73 193 Load_Cycle_Count0x0032 200 200 000Old_age Always - 76 194 Temperature_Celsius 0x0022 108 090 000Old_age Always - 44 196 Reallocated_Event_Count 0x0032 200 200 000Old_age Always - 0 197 Current_Pending_Sector 0x0012 200 200 000Old_age Always - 0 198 Offline_Uncorrectable 0x0010 200 200 000Old_age Offline - 0 199 UDMA_CRC_Error_Count0x003e 200 200 000Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 051Old_age Offline - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA
Re: плохой диск в зеркале
DamirX damir.haki...@gmail.com wrote: В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет: После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не найден) вывод smartctl -a /dev/sda в президиум. # smartctl -a /dev/sda Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA шлейф на sda -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Срд, 21/10/2009 в 15:22 +0400, Andrey Melnikoff пишет: Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA шлейф на sda # smartctl -a /dev/sdb smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Model Family: Western Digital Caviar Second Generation Serial ATA family Device Model: WDC WD7500AAKS-00RBA0 Serial Number:WD-WCAPT0556130 Firmware Version: 30.04G30 User Capacity:750 156 374 016 bytes Device is:In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: Exact ATA specification draft version not indicated Local Time is:Wed Oct 21 15:27:28 2009 MSD SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x84) Offline data collection activity was suspended by an interrupting command from host. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (17580) seconds. Offline data collection capabilities:(0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities:(0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability:(0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time:( 2) minutes. Extended self-test routine recommended polling time:( 217) minutes. Conveyance self-test routine recommended polling time:( 6) minutes. SCT capabilities: (0x303f) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051Pre-fail Always - 1 3 Spin_Up_Time0x0003 209 186 021Pre-fail Always - 6550 4 Start_Stop_Count0x0032 100 100 000Old_age Always - 42 5 Reallocated_Sector_Ct 0x0033 200 200 140Pre-fail Always - 0 7 Seek_Error_Rate 0x000e 200 200 051Old_age Always - 0 9 Power_On_Hours 0x0032 081 081 000Old_age Always - 14289 10 Spin_Retry_Count0x0012 100 253 051Old_age Always - 0 11 Calibration_Retry_Count 0x0012 100 253 051Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000Old_age Always - 41 192 Power-Off_Retract_Count 0x0032 200 200 000Old_age Always - 39 193 Load_Cycle_Count0x0032 200 200 000Old_age Always - 42 194 Temperature_Celsius 0x0022 110 091 000Old_age Always - 42 196 Reallocated_Event_Count 0x0032 200 200 000Old_age Always - 0 197 Current_Pending_Sector 0x0012 200 200 000Old_age Always - 0 198 Offline_Uncorrectable 0x0010 200 200 000Old_age Offline - 0 199 UDMA_CRC_Error_Count0x003e 200 200 000Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 051Old_age Offline - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 100 Not_testing 200 Not_testing 300 Not_testing 4
Re: плохой диск в зеркале
DamirX damir.haki...@gmail.com wrote: В Срд, 21/10/2009 в 15:22 +0400, Andrey Melnikoff пишет: Винт живее всех живых. Покажи для интересу с sdb то-же самое и поменяй SATA шлейф на sda # smartctl -a /dev/sdb Тоже чистый. Но вот вентилятор на них поставить бы не машало - 44 градуса, это несколько многовато. -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
DamirX пишет: вопрос, собственно, какую порекомендуете последовательность проверок/замен? Рекомендую начать с контроллера. Что за контроллер? -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет: DamirX пишет: вопрос, собственно, какую порекомендуете последовательность проверок/замен? Рекомендую начать с контроллера. Что за контроллер? RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] Serial ATA Controller (rev 02) -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
DamirX пишет: В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет: Что за контроллер? RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] Serial ATA Controller (rev 02) Не могу похвастаться большим опытом работы с разными контроллерами, но к контроллеру за 30$, да на таком чипе (да ещё и от конторы ST-Lab?) я бы отнёсся как минимум настороженно. Думаю, стоит погонять диск чем-нибудь типа MHDD (оно под DOS и работает с железом напрямую) и на другом контроллере. И если проблем с диском выявлено не будет -- заменить контроллер. -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Втр, 20/10/2009 в 10:45 +0400, Dmitri Samsonov пишет: DamirX пишет: В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет: Что за контроллер? RAID bus controller: Silicon Image, Inc. SiI 3114 [SATALink/SATARaid] Serial ATA Controller (rev 02) Не могу похвастаться большим опытом работы с разными контроллерами, но к контроллеру за 30$, да на таком чипе (да ещё и от конторы ST-Lab?) я бы отнёсся как минимум настороженно. Думаю, стоит погонять диск чем-нибудь типа MHDD (оно под DOS и работает с железом напрямую) и на другом контроллере. И если проблем с диском выявлено не будет -- заменить контроллер. Спасибо за совет. На материнке есть ещё один контроллер: IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE Controller (rev 01) надо попробовать их потусовать -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
DamirX пишет: Спасибо за совет. На материнке есть ещё один контроллер: IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE Controller (rev 01) Не уверен, что это будет сильно лучше. -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Втр, 20/10/2009 в 10:57 +0400, Dmitri Samsonov пишет: DamirX пишет: Спасибо за совет. На материнке есть ещё один контроллер: IDE interface: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE Controller (rev 01) Не уверен, что это будет сильно лучше. сервер был собран из подручного материала :-) -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Втр, 20/10/2009 в 10:24 +0400, Dmitri Samsonov пишет: DamirX пишет: вопрос, собственно, какую порекомендуете последовательность проверок/замен? Рекомендую начать с контроллера. Что за контроллер? Забыл уточнить: есть ли смысл sata-провода проверять? -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
DamirX пишет: сервер был собран из подручного материала :-) Если удастся найти такой подручный материал, чтобы было очень дёшево и диски из программного рейда не вываливались хотя бы месяца три подряд стабильно -- дай знать. Без шуток. Это действительно интересно. -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
Если удастся найти такой подручный материал, чтобы было очень дёшево и диски из программного рейда не вываливались хотя бы месяца три подряд стабильно -- дай знать. Без шуток. Это действительно интересно. Asus M3N H/HDMI, IDE interface: nVidia Corporation MCP78S [GeForce 8200] IDE (rev a1). Полгода уже. -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org -- With best regards, Vladislav Prokofyev
Re: плохой диск в зеркале
DamirX пишет: Забыл уточнить: есть ли смысл sata-провода проверять? Можно и провода проверить. Хотя бы надёжность их подключения, а лучше заменить. Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к авантюре. -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Втр, 20/10/2009 в 11:30 +0400, Dmitri Samsonov пишет: DamirX пишет: Забыл уточнить: есть ли смысл sata-провода проверять? Можно и провода проверить. Хотя бы надёжность их подключения, а лучше заменить. Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к авантюре. 1.5 года тем не менее отработал. -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
Dmitri Samsonov Хм. Слышал, что чипсеты от NVIDIA из строя часто выходят... Не в том смысле, что что-то там отваливается, а потом продолжает работать, а в том смысле, что совсем. Всякое может быть. У меня правда за несколько лет использования никаких проблем не возникало. -- With best regards, Vladislav Prokofyev
Re: плохой диск в зеркале
DamirX пишет: В Втр, 20/10/2009 в 11:30 +0400, Dmitri Samsonov пишет: Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к авантюре. 1.5 года тем не менее отработал. Отработал именно как зеркало? И проблем не было? -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
On Tue, Oct 20, 2009 at 11:42:32AM +0400, Dmitri Samsonov wrote: Prokofyev Vladislav пишет: Asus M3N H/HDMI, IDE interface: nVidia Corporation MCP78S [GeForce 8200] IDE (rev a1). Полгода уже. Хм. Слышал, что чипсеты от NVIDIA из строя часто выходят... Не в том смысле, что что-то там отваливается, а потом продолжает работать, а в том смысле, что совсем. А я и видел. Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без ребутов не первый месяц. -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org -- With best regards, Vladislav Prokofyev
Re: плохой диск в зеркале
Dmitri Samsonov wrote: Если удастся найти такой подручный материал, чтобы было очень дёшево и диски из программного рейда не вываливались хотя бы месяца три подряд стабильно -- дай знать. Использовал много и разных дешёвых, в том числе и силиконовские. В последнее время - в основном встроенные от нвидии. Работают отлично много лет. Но и силиконовские тоже работали без проблем. С Promise PDC40718 были странные проблемы. А вообще нет ничего безотказного. Бэкап это наше всё. -- Best regards, Sergey Spiridonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без ребутов не первый месяц. Да меня-то зачем убеждать? Если следить за температурным режимом он и дальше работать будет. Или теперь в нем терморезистор есть? Терморезисторы есть не везде (на этой матери asus только датчики камня и платы), но никто не мешает централизованно мониторить температуру по SNMP. -- With best regards, Vladislav Prokofyev
Re: плохой диск в зеркале
On Tue, Oct 20, 2009 at 03:08:27PM +0400, Prokofyev Vladislav wrote: Ну как знаете, не убеждать же мне кого-то. У меня отлично работает без ребутов не первый месяц. Да меня-то зачем убеждать? Если следить за температурным режимом он и дальше работать будет. Или теперь в нем терморезистор есть? Терморезисторы есть не везде (на этой матери asus только датчики камня и платы), но никто не мешает централизованно мониторить температуру по SNMP. Это как-то предотвратит выгорание чипсета, в случае остановки вентилятора или запыления радиатора? Выгорание чипсета из-за пыли? На этом чипсете даже вентилятора нет, температура в пределах 30-34 градусов. В случае с радиатором на камне -- его либо периодически чистить, либо помещать оборудование в круглосуточно охлаждаемое помещение, в котором уровень пыли минимален. -- With best regards, Vladislav Prokofyev
Re: плохой диск в зеркале
-[ Иван Лох 20/10/2009 17:27 (GMT +3) On Tue, Oct 20, 2009 at 05:06:15PM +0400, Prokofyev Vladislav wrote: On Tue, Oct 20, 2009 at 03:08:27PM +0400, Prokofyev Vladislav wrote: Выгорание чипсета из-за пыли? На этом чипсете даже вентилятора нет, температура в пределах 30-34 градусов. В случае с радиатором на камне -- его либо периодически чистить, либо помещать оборудование в круглосуточно охлаждаемое помещение, в котором уровень пыли минимален. У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На чипсете стоял небольшой вентилятор. В, конце-концов, он остановился и чипсет тут-же сгорел. А на сколько тут-же? За пару минут? Часов? Дней? Можно и почтой писать если вдруг у какого-то вентилятора частота вращения меньше чем обычно. -- Best regards, Mikhail xmpp: ant...@stopicq.ru irc: Bart-mdv- @ SolarNet SolarNet: http://www.solarnet.ru/ signature.asc Description: This is a digitally signed message part.
Re: плохой диск в зеркале
DamirX damir.haki...@gmail.com wrote: Hi, All! Нарисовалась у меня проблемма на боевом сервере. Периодически вываливается из зеркала один диск: # cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sda1[2](F) sdb1[1] 732571904 blocks [2/1] [_U] md0 : active raid1 sdd1[0] sdc1[1] 7815488 blocks [2/2] [UU] Удалось накопать следующее: Oct 9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x1 action 0xe frozen Oct 9 10:50:44 bagdo kernel: [4620479.650980] ata1: SError: { PHYRdyChg } Oct 9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: cmd 25/00:08:57:10:0c/00:00:27:00:00/e0 tag 0 dma 4096 in Oct 9 10:50:44 bagdo kernel: [4620479.650980] res d0/d0:d0:d0:d0:d0/d0:d0:d0:d0:d0/c0 Emask 0x12 (ATA bus error) Oct 9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: status: { Busy } Oct 9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: error: { ICRC UNC IDNF } После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не найден) вывод smartctl -a /dev/sda в президиум. -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
20 октября 2009 г. 17:42 пользователь Иван Лох l...@1917.com написал: On Tue, Oct 20, 2009 at 05:39:12PM +0400, Mikhail A Antonov wrote: У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На чипсете стоял небольшой вентилятор. В, конце-концов, он остановился и чипсет тут-же сгорел. А на сколько тут-же? За пару минут? Часов? Дней? Можно и почтой писать если вдруг у какого-то вентилятора частота вращения меньше чем обычно. А у него не было датчика оборотов. ССЗБ. Нужно было смотреть характеристики матери, прежде чем покупать ее. -- With best regards, Vladislav Prokofyev
Re: плохой диск в зеркале
-[ Иван Лох 20/10/2009 17:42 (GMT +3) On Tue, Oct 20, 2009 at 05:39:12PM +0400, Mikhail A Antonov wrote: У меня была в хозяйстве интеграшка Abit с чипсетом от nvidia. На чипсете стоял небольшой вентилятор. В, конце-концов, он остановился и чипсет тут-же сгорел. А на сколько тут-же? За пару минут? Часов? Дней? Можно и почтой писать если вдруг у какого-то вентилятора частота вращения меньше чем обычно. А у него не было датчика оборотов. Ни оборотов ни температуры? И всё же меня интересует время. Нет, я не издеваюсь, мне правда интересно каких подвохов можно ожидать. -- Best regards, Mikhail xmpp: ant...@stopicq.ru irc: Bart-mdv- @ SolarNet SolarNet: http://www.solarnet.ru/ signature.asc Description: This is a digitally signed message part.
Re: плохой диск в зеркале
Alexander GQ Gerasiov пишет: Dmitri Samsonov samson.samson.sam...@gmail.com wrote: Но поднимать зеркало (sic!) на таком контроллере я бы отнёс скорее к авантюре. Что за бред? С каких это пор software-raid у нас авантюра? Вполне себе применение для дома/небольшого сервера. Зачем торопиться с резкими высказываниями? Авантюрой является не software-raid, а такой контроллер. На дешёвых контроллерах неоднократно сталкивался с отваливанием одного из дисков в зеркале. Вернее, одного из разделов. Иногда смешнее -- когда отваливаются разные разделы в шахматном порядке (один на одном диске, другой на другом). При этом сами диски в порядке, что подтверждается как тестами, так и их успешной работой без потерь не один год к ряду. Да, целостности данных это не вредит. Да, система продолжает успешно работать. Но я подозреваю, что диски в зеркало загоняются для надёжности, а не для акробатики на контроллере. И вот в целом всю эту акробатику полагаю авантюризмом. Не из-за SoftRAID, а из-за контроллера. -- Dmitri Samsonov -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org
Re: плохой диск в зеркале
В Втр, 20/10/2009 в 17:36 +0400, Andrey Melnikoff пишет: После ICRC UNC IDNF (ошибка CRC, невосстановимая ошибка, адресный маркер не найден) вывод smartctl -a /dev/sda в президиум. # smartctl -a /dev/sda smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/ === START OF INFORMATION SECTION === Model Family: Western Digital Caviar Second Generation Serial ATA family Device Model: WDC WD7500AAKS-00RBA0 Serial Number:WD-WCAPT0585317 Firmware Version: 30.04G30 User Capacity:750 156 374 016 bytes Device is:In smartctl database [for details use: -P show] ATA Version is: 7 ATA Standard is: Exact ATA specification draft version not indicated Local Time is:Wed Oct 21 08:00:56 2009 MSD SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x84) Offline data collection activity was suspended by an interrupting command from host. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (16800) seconds. Offline data collection capabilities:(0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities:(0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability:(0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time:( 2) minutes. Extended self-test routine recommended polling time:( 207) minutes. Conveyance self-test routine recommended polling time:( 6) minutes. SCT capabilities: (0x303f) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051Pre-fail Always - 0 3 Spin_Up_Time0x0003 253 180 021Pre-fail Always - 1433 4 Start_Stop_Count0x0032 100 100 000Old_age Always - 76 5 Reallocated_Sector_Ct 0x0033 200 200 140Pre-fail Always - 0 7 Seek_Error_Rate 0x000e 200 200 051Old_age Always - 0 9 Power_On_Hours 0x0032 082 082 000Old_age Always - 13151 10 Spin_Retry_Count0x0012 100 253 051Old_age Always - 0 11 Calibration_Retry_Count 0x0012 100 253 051Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000Old_age Always - 76 192 Power-Off_Retract_Count 0x0032 200 200 000Old_age Always - 73 193 Load_Cycle_Count0x0032 200 200 000Old_age Always - 76 194 Temperature_Celsius 0x0022 108 090 000Old_age Always - 44 196 Reallocated_Event_Count 0x0032 200 200 000Old_age Always - 0 197 Current_Pending_Sector 0x0012 200 200 000Old_age Always - 0 198 Offline_Uncorrectable 0x0010 200 200 000Old_age Offline - 0 199 UDMA_CRC_Error_Count0x003e 200 200 000Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 051Old_age Offline - 0 SMART Error Log Version: 1 No Errors Logged SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t] SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 100 Not_testing 200 Not_testing 3
плохой диск в зеркале
Hi, All! Нарисовалась у меня проблемма на боевом сервере. Периодически вываливается из зеркала один диск: # cat /proc/mdstat Personalities : [raid1] md1 : active raid1 sda1[2](F) sdb1[1] 732571904 blocks [2/1] [_U] md0 : active raid1 sdd1[0] sdc1[1] 7815488 blocks [2/2] [UU] Удалось накопать следующее: Oct 9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x1 action 0xe frozen Oct 9 10:50:44 bagdo kernel: [4620479.650980] ata1: SError: { PHYRdyChg } Oct 9 10:50:44 bagdo kernel: [4620479.650980] ata1.00: cmd 25/00:08:57:10:0c/00:00:27:00:00/e0 tag 0 dma 4096 in Oct 9 10:50:44 bagdo kernel: [4620479.650980] res d0/d0:d0:d0:d0:d0/d0:d0:d0:d0:d0/c0 Emask 0x12 (ATA bus error) Oct 9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: status: { Busy } Oct 9 10:50:44 bagdo kernel: [4620479.659202] ata1.00: error: { ICRC UNC IDNF } Oct 9 10:50:44 bagdo kernel: [4620479.659202] ata1: hard resetting link Oct 9 10:50:49 bagdo kernel: [4620484.840165] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310) Oct 9 10:50:49 bagdo kernel: [4620484.873459] ata1.00: configured for UDMA/33 Oct 9 10:50:49 bagdo kernel: [4620484.873496] ata1: EH complete Oct 9 10:50:49 bagdo kernel: [4620484.894862] sd 0:0:0:0: [sda] 1465149168 512-byte hardware sectors (750156 MB) Oct 9 10:50:49 bagdo kernel: [4620484.900779] sd 0:0:0:0: [sda] Write Protect is off Oct 9 10:50:49 bagdo kernel: [4620484.900779] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00 Oct 9 10:50:49 bagdo kernel: [4620484.924935] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA вопрос, собственно, какую порекомендуете последовательность проверок/замен? -- DamirX -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of unsubscribe. Trouble? Contact listmas...@lists.debian.org