Hola. A veure si algú m'aporta la llum. Molt sovint em trobo amb aquest problema:
[539698.662250] ata2.00: exception Emask 0x10 SAct 0x0 SErr 0x1950000 action 0xe frozen [539698.662369] ata2: SError: { PHYRdyChg CommWake Dispar LinkSeq TrStaTrns } [539698.662466] ata2.00: failed command: READ DMA EXT [539698.662542] ata2.00: cmd 25/00:00:00:88:b1/00:01:0a:01:00/e0 tag 0 dma 131072 in res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask 0x14 (ATA bus error) [539698.662747] ata2.00: status: { DRDY } [539698.662808] ata2: hard resetting link [539698.662811] ata2: nv: skipping hardreset on occupied port [539699.534259] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300) [539699.557332] ata2.00: configured for UDMA/133 [539699.557365] sd 1:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE [539699.557370] sd 1:0:0:0: [sdb] tag#0 Sense Key : Illegal Request [current] [539699.557376] sd 1:0:0:0: [sdb] tag#0 Add. Sense: Unaligned write command [539699.557383] sd 1:0:0:0: [sdb] tag#0 CDB: Read(16) 88 00 00 00 00 01 0a b1 88 00 00 00 01 00 00 00 [539699.557387] print_req_error: I/O error, dev sdb, sector 4474374144 [539699.557529] ata2: EH complete Tinc 2 discos muntats amb RAID1 amb mdadm. El cas és que m'ha començat a aparèixer des que l'altre disc va haver-hi una falla general (suposadament tampoc culpa del disc ja que canviat el cable SATA l'altre disc va tornar a funcionar com sempre). Després del canvi de cable he provat de permutar i substituir cables i permutar ports i no hi ha manera que desapareguin els missatges (més freqüents com més feina se li exigeix al dsic). Teniu alguna idea (abans de canviar el disc)? Informació del SMART: 1 2 smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-13-amd64] (local build) 3 Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org 4 5 === START OF INFORMATION SECTION === 6 Model Family: Seagate IronWolf 7 Device Model: ST3000VN007-2AH16M 8 Serial Number: ZDH7AQZ6 9 LU WWN Device Id: 5 000c50 0b69174f5 10 Firmware Version: SC60 11 User Capacity: 3.000.592.982.016 bytes [3,00 TB] 12 Sector Sizes: 512 bytes logical, 4096 bytes physical 13 Rotation Rate: 5980 rpm 14 Form Factor: 3.5 inches 15 Device is: In smartctl database [for details use: -P show] 16 ATA Version is: ACS-3 T13/2161-D revision 5 17 SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s) 18 Local Time is: Thu Jan 28 10:00:01 2021 CET 19 SMART support is: Available - device has SMART capability. 20 SMART support is: Enabled 21 22 === START OF READ SMART DATA SECTION === 23 SMART overall-health self-assessment test result: PASSED 24 25 General SMART Values: 26 Offline data collection status: (0x00) Offline data collection activity 27 was never started. 28 Auto Offline Data Collection: Disabled. 29 Self-test execution status: ( 0) The previous self-test routine completed 30 without error or no self-test has ever 31 been run. 32 Total time to complete Offline 33 data collection: ( 591) seconds. 34 Offline data collection 35 capabilities: (0x73) SMART execute Offline immediate. 36 Auto Offline data collection on/off support. 37 Suspend Offline collection upon new 38 command. 39 No Offline surface scan supported. 40 Self-test supported. 41 Conveyance Self-test supported. 42 Selective Self-test supported. 43 SMART capabilities: (0x0003) Saves SMART data before entering 44 power-saving mode. 45 Supports SMART auto save timer. 46 Error logging capability: (0x01) Error logging supported. 47 General Purpose Logging supported. 48 Short self-test routine 49 recommended polling time: ( 1) minutes. 50 Extended self-test routine 51 recommended polling time: ( 502) minutes. 52 Conveyance self-test routine 53 recommended polling time: ( 2) minutes. 54 SCT capabilities: (0x50bd) SCT Status supported. 55 SCT Error Recovery Control supported. 56 SCT Feature Control supported. 57 SCT Data Table supported. 58 59 SMART Attributes Data Structure revision number: 10 60 Vendor Specific SMART Attributes with Thresholds: 61 ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 62 1 Raw_Read_Error_Rate 0x000f 080 064 044 Pre-fail Always - 97510545 63 3 Spin_Up_Time 0x0003 097 095 000 Pre-fail Always - 0 64 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 68 65 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0 66 7 Seek_Error_Rate 0x000f 090 060 045 Pre-fail Always - 946331866 67 9 Power_On_Hours 0x0032 089 089 000 Old_age Always - 9819 (198 153 0) 68 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 69 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 26 70 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 71 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 72 188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0 73 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 74 190 Airflow_Temperature_Cel 0x0022 066 056 040 Old_age Always - 34 (Min/Max 34/35) 75 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 76 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 10 77 193 Load_Cycle_Count 0x0032 097 097 000 Old_age Always - 6137 78 194 Temperature_Celsius 0x0022 034 044 000 Old_age Always - 34 (0 20 0 0 0) 79 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 80 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 81 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 82 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 9739 (200 43 0) 83 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 10045062934 84 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 77949777828 85 86 SMART Error Log Version: 1 87 No Errors Logged 88 89 SMART Self-test log structure revision number 1 90 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error 91 # 1 Extended offline Completed without error 00% 9490 - 92 # 2 Extended offline Completed without error 00% 8748 - 93 # 3 Extended offline Completed without error 00% 8027 - 94 # 4 Extended offline Completed without error 00% 7310 - 95 # 5 Extended offline Completed without error 00% 6646 - 96 # 6 Extended offline Completed without error 00% 5903 - 97 # 7 Extended offline Completed without error 00% 5159 - 98 # 8 Extended offline Completed without error 00% 4439 - 99 # 9 Extended offline Completed without error 00% 3697 - 100 #10 Extended offline Completed without error 00% 2982 - 101 #11 Extended offline Completed without error 00% 2249 - 102 #12 Extended offline Interrupted (host reset) 00% 1547 - 103 #13 Extended offline Completed without error 00% 809 - 104 #14 Extended offline Completed without error 00% 83 - 105 106 SMART Selective self-test log data structure revision number 1 107 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 108 1 0 0 Not_testing 109 2 0 0 Not_testing 110 3 0 0 Not_testing 111 4 0 0 Not_testing 112 5 0 0 Not_testing 113 Selective self-test flags (0x0): 114 After scanning selected spans, do NOT read-scan remainder of disk. 115 If Selective self-test is pending on power-up, resume after 0 minute delay. Toni Mas GPG 3F42A21D84D7E950 Sent with ProtonMail Secure Email. ‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐ En divendres 12 de febrer de 2021 a les 10:10, Josep Lladonosa <jllad...@gmail.com> va escriure: > On Fri, 12 Feb 2021 at 09:49, Joan <arboc...@calbasi.net> wrote: > > > El Sun, 3 Jan 2021 09:29:35 +0100 > > Josep Lladonosa <jllad...@gmail.com> va escriure: > > > > > Hola, Joan, > > > > > > > > > Que no sigui cosa del cable SATA. > > > A la feina hem tingut experiències similars i canviant-lo s'ha resolt. > > > > Per cert, després de canviar el cable SATA ja no ha tornat a succeir la > > "corrupció"... O sigui, dono per bona l'explicació que era el cable > > SATA. > > > > I t'agraeixo molt, Josep, que apuntessis en aquesta direcció... > > > > Pd.: sembla mentida que el que pugui fallar sigui un element estàtic > > com un cbale... O que aquest comenci a fallar "un bon dia"... > > Bé, els cables en si no acostumen a fallar si no hi ha una interrupció en el > coure. > Per diverses experiències el que puc dir és que són els connectors entre > cable i altres elements (placa base, disc dur) que fallen. El plàstic es > degrada per la calor... i molt més en cas de pujades de temperatura i > refredaments. Tot això afecta a la interconnexió del coure del connector del > mateix cable i l'altre element on resta connectat. Si l'ambient on es troba > la màquina és "brut", també hi pot haver tema de brutícia (greix, pols) entre > coures... > > També s'aplica als ventiladors, per exemple. > > És llei de vida dels materials: metall i plàstic no són flors i violes. ;-) > > > > > > > > La fiabilitat dels discs durs és poca, sempre és recomanable tenir > > > còpies de seguretat i fer-los treballar per parelles, en raid 1, per > > > exemple. > > > > > > Cada fabricant indica la seva garantia. > > > Per a mi, els pitjors, Seagate. Els millors, Hitachi (HGST que crec > > > que és de Western Digital, ara, i que també està bé). > > > > > > Bon any, > > > Josep > > > > > > El dg., 3 de gen. 2021, 9:01, Joan <arboc...@calbasi.net> va escriure: > > > > > > > El problema que tinc m'ha passat dugues vegades en dugues setmanes, > > > > i tinc dubtes de si és un tema físic del disc (un disc SATA de 4Tb) > > > > no massa vell, de potser un parell d'anys, o un problema del soft > > > > que "desgabella" el disc > > > > > > > > És un disc secundari (el sistema el tinc en un SSD) a on guardo > > > > videos, fotos, etc. Un dels meus sospitosos com a causa de tot > > > > plegat podria ser l'amule. > > > > > > > > Bé, la qüestió és que quan arrenco el sistema la cosa va malament, i > > > > queda en mode d'emergència, perquè detecta un error: > > > > > > > > de gen. 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: Inode > > > > 38666373 has an invalid extent node (blk 154697780, lblk 0) de gen. > > > > 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: UNEXPECTED > > > > INCONSISTENCY; RUN fsck MANUALLY. de gen. 02 16:21:12 pc2019 > > > > systemd-fsck[502]: (i.e., without -a or -p options) de gen. > > > > 02 16:21:12 pc2019 systemd-fsck[430]: fsck failed with exit status > > > > 4. de gen. 02 16:21:12 pc2019 systemd-fsck[430]: Running request > > > > emergency.target/start/replace de gen. 02 16:21:12 pc2019 > > > > systemd[1]: systemd-fsck@dev-disk-by > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service: > > > > Main process exited, code=exited, status=1/FAILURE de gen. 02 > > > > 16:21:12 pc2019 systemd[1]: > > > > systemd-fsck@dev-disk-by > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service: > > > > Failed with result 'exit-code'. de gen. 02 16:21:12 pc2019 > > > > systemd[1]: Failed to start File System Check on > > > > /dev/disk/by-uuid/eabfd9a3-1b1f-4144-a9d3-d514566fa3fb. de gen. 02 > > > > 16:21:12 pc2019 systemd[1]: Dependency failed for /media/magatzem. > > > > de gen. 02 16:21:12 pc2019 systemd[1]: Dependency failed for Local > > > > File Systems. de gen. 02 16:21:12 pc2019 systemd[1]: > > > > local-fs.target: Job local-fs.target/start failed with result > > > > 'dependency'. de gen. 02 16:21:12 pc2019 systemd[1]: > > > > local-fs.target: Triggering OnFailure= dependencies. de gen. 02 > > > > 16:21:12 pc2019 systemd[1]: media-magatzem.mount: Job > > > > media-magatzem.mount/start failed with result 'dependency'. > > > > > > > > I a mi em mostra aquesta pantalla: > > > > > > > > > > > > https://upload.disroot.org/r/APnYtXLB#NArCJjbVYVzxd9Hui4K9xb9xhkHzk9i1vE++Qf8BQQA= > > > > > > > > Llavors jo per sol·lucionar-ho gaig un e2fsck -c /dev/sdb1 > > > > > > > > Que em dona aquestes pantalles (les resumeixo, perquè bàsicament > > > > son 20 minuts de anar dient "yes" a tot el que em proposa, després > > > > de la revisió que dura unes 8 hores o més: > > > > > > > > > > > > https://upload.disroot.org/r/kRLsL2RX#bF9doWYguCMHAvj3APaJNb+GbUBq9zCX2mdrkLJhMAQ= > > > > > > > > https://upload.disroot.org/r/sYqhJfcy#Wv3pVBo0OuvfosT/i1LfCRx+6sTWwSkpWGDJIl4uTkI= > > > > > > > > https://upload.disroot.org/r/UTbxj19F#u5TA97h7ykB7KFj58OSPhgFLqwqFBSv00nHAQ8FoPpU= > > > > > > > > Llavors, les meves preguntes: > > > > > > > > 1) Us sembla que és un fallo de hard (el disc comença a fer el > > > > tonto, amb només 15 mesos), i ja em puc espabilar a comprar-ne un > > > > altra i fer-li un clonezilla? > > > > > > > > 2) Podria ser un problema originat pel software? (en aquest sentit > > > > no sé si actualitzar la meva Debian Testing, que no actualitzo en > > > > general de cop, sinó a bocinets). > > > > > > > > 3) No sé si al disc secundari és fa un fsck (o com es digui). Allò > > > > que es fa al primari cada nosequantes arrencades. Diria que no, i > > > > que és una opció configurable al fstab. El meu fstab és aquest: > > > > > > > > UUID=... / ext4 errors=remount-ro 0 1 > > > > # /home was on /dev/sdb6 during installation > > > > UUID=... /home ext4 defaults 0 2 > > > > # swap was on /dev/sdb5 during installation > > > > UUID=... swap sw 0 0 > > > > # Segon disc dur 4Tb > > > > UUID=e... /media/magatzem ext4 defaults 0 > > > > 2 > > > > > > > > (de fet, ara que hi penso, no sé si es fa el fsck a la partició > > > > /home, tampoc). Diria que això te a veure amb el darrer nombre de > > > > la columna, però ara he vist que systemd s'ho munta diferent i > > > > només distingeix el valor zero (o buit), i la resta: > > > > > > > > https://unix.stackexchange.com/a/248578 > > > > > > > > I per tant ja no sé quan ni com es fan el txequejos. > > > > > > > > 4) Un colega em va comentar que ell força un test SMART via script, > > > > no sé si a l'arrencar... No sé si això és una bona opció... Teniu > > > > algun suggeriment al respecte, per vetllar per la bona salut dels > > > > discs (assumint que si el disc comença a fallar per la seva > > > > obsolescència programada, no hi ha res a fer). > > > > > > > > 5) Per cert, sabeu quina garantia tenen, els discos durs? I, en cas > > > > de comprar-ne un de nou, si n'hi ha que donin més fiabilitat? > > > > > > > > Fins ara! > > > > > > > > -- > > > > Joan Cervan i Andreu > > > > http://personal.calbasi.net > > > > > > > > "El meu paper no és transformar el món ni l'home sinó, potser, el de > > > > ser útil, des del meu lloc, als pocs valors sense els quals un món > > > > no val la pena viure'l" A. Camus > > > > > > > > i pels que teniu fe: > > > > "Déu no és la Veritat, la Veritat és Déu" > > > > Gandhi > > > > > > > > > > > > -- > > Joan Cervan i Andreu > > http://personal.calbasi.net > > > > "El meu paper no és transformar el món ni l'home sinó, potser, el de > > ser útil, des del meu lloc, als pocs valors sense els quals un món no > > val la pena viure'l" A. Camus > > > > i pels que teniu fe: > > "Déu no és la Veritat, la Veritat és Déu" > > Gandhi > > -- > -- > Salutacions...Josep > --