On Sun, 21 Feb 2021 at 10:18, Toni Mas Soler <[email protected]>
wrote:
> Hola. A veure si algú m'aporta la llum.
> Molt sovint em trobo amb aquest problema:
>
> [539698.662250] ata2.00: exception Emask 0x10 SAct 0x0 SErr 0x1950000
> action 0xe frozen
> [539698.662369] ata2: SError: { PHYRdyChg CommWake Dispar LinkSeq
> TrStaTrns }
> [539698.662466] ata2.00: failed command: READ DMA EXT
> [539698.662542] ata2.00: cmd 25/00:00:00:88:b1/00:01:0a:01:00/e0 tag 0 dma
> 131072 in
> res 40/00:01:e0:4f:c2/00:00:00:00:00/00 Emask
> 0x14 (ATA bus error)
> [539698.662747] ata2.00: status: { DRDY }
> [539698.662808] ata2: hard resetting link
> [539698.662811] ata2: nv: skipping hardreset on occupied port
> [539699.534259] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> [539699.557332] ata2.00: configured for UDMA/133
> [539699.557365] sd 1:0:0:0: [sdb] tag#0 FAILED Result: hostbyte=DID_OK
> driverbyte=DRIVER_SENSE
> [539699.557370] sd 1:0:0:0: [sdb] tag#0 Sense Key : Illegal Request
> [current]
> [539699.557376] sd 1:0:0:0: [sdb] tag#0 Add. Sense: Unaligned write command
> [539699.557383] sd 1:0:0:0: [sdb] tag#0 CDB: Read(16) 88 00 00 00 00 01 0a
> b1 88 00 00 00 01 00 00 00
> [539699.557387] print_req_error: I/O error, dev sdb, sector 4474374144
> [539699.557529] ata2: EH complete
>
> Tinc 2 discos muntats amb RAID1 amb mdadm.
> El cas és que m'ha començat a aparèixer des que l'altre disc va haver-hi
> una falla general (suposadament tampoc culpa del disc ja que canviat el
> cable SATA l'altre disc va tornar a funcionar com sempre).
>
> Després del canvi de cable he provat de permutar i substituir cables i
> permutar ports i no hi ha manera que desapareguin els missatges (més
> freqüents com més feina se li exigeix al dsic).
>
> Teniu alguna idea (abans de canviar el disc)?
>
> Informació del SMART:
> 1
> 2 smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-13-amd64] (local
> build)
> 3 Copyright (C) 2002-17, Bruce Allen, Christian Franke,
> www.smartmontools.org
> 4
> 5 === START OF INFORMATION SECTION ===
> 6 Model Family: Seagate IronWolf
> 7 Device Model: ST3000VN007-2AH16M
> 8 Serial Number: ZDH7AQZ6
> 9 LU WWN Device Id: 5 000c50 0b69174f5
> 10 Firmware Version: SC60
> 11 User Capacity: 3.000.592.982.016 bytes [3,00 TB]
> 12 Sector Sizes: 512 bytes logical, 4096 bytes physical
> 13 Rotation Rate: 5980 rpm
> 14 Form Factor: 3.5 inches
> 15 Device is: In smartctl database [for details use: -P show]
> 16 ATA Version is: ACS-3 T13/2161-D revision 5
> 17 SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
> 18 Local Time is: Thu Jan 28 10:00:01 2021 CET
> 19 SMART support is: Available - device has SMART capability.
> 20 SMART support is: Enabled
> 21
> 22 === START OF READ SMART DATA SECTION ===
> 23 SMART overall-health self-assessment test result: PASSED
> 24
> 25 General SMART Values:
> 26 Offline data collection status: (0x00) Offline data collection activity
> 27 was never started.
> 28 Auto Offline Data Collection:
> Disabled.
> 29 Self-test execution status: ( 0) The previous self-test routine
> completed
> 30 without error or no self-test
> has ever
> 31 been run.
> 32 Total time to complete Offline
> 33 data collection: ( 591) seconds.
> 34 Offline data collection
> 35 capabilities: (0x73) SMART execute Offline immediate.
> 36 Auto Offline data collection
> on/off support.
> 37 Suspend Offline collection upon
> new
> 38 command.
> 39 No Offline surface scan
> supported.
> 40 Self-test supported.
> 41 Conveyance Self-test supported.
> 42 Selective Self-test supported.
> 43 SMART capabilities: (0x0003) Saves SMART data before entering
> 44 power-saving mode.
> 45 Supports SMART auto save timer.
> 46 Error logging capability: (0x01) Error logging supported.
> 47 General Purpose Logging
> supported.
> 48 Short self-test routine
> 49 recommended polling time: ( 1) minutes.
> 50 Extended self-test routine
> 51 recommended polling time: ( 502) minutes.
> 52 Conveyance self-test routine
> 53 recommended polling time: ( 2) minutes.
> 54 SCT capabilities: (0x50bd) SCT Status supported.
> 55 SCT Error Recovery Control
> supported.
> 56 SCT Feature Control supported.
> 57 SCT Data Table supported.
> 58
> 59 SMART Attributes Data Structure revision number: 10
> 60 Vendor Specific SMART Attributes with Thresholds:
> 61 ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
> UPDATED WHEN_FAILED RAW_VALUE
> 62 1 Raw_Read_Error_Rate 0x000f 080 064 044 Pre-fail
> Always - 97510545
> 63 3 Spin_Up_Time 0x0003 097 095 000 Pre-fail
> Always - 0
> 64 4 Start_Stop_Count 0x0032 100 100 020 Old_age
> Always - 68
> 65 5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail
> Always - 0
> 66 7 Seek_Error_Rate 0x000f 090 060 045 Pre-fail
> Always - 946331866
> 67 9 Power_On_Hours 0x0032 089 089 000 Old_age
> Always - 9819 (198 153 0)
> 68 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail
> Always - 0
> 69 12 Power_Cycle_Count 0x0032 100 100 020 Old_age
> Always - 26
> 70 184 End-to-End_Error 0x0032 100 100 099 Old_age
> Always - 0
> 71 187 Reported_Uncorrect 0x0032 100 100 000 Old_age
> Always - 0
> 72 188 Command_Timeout 0x0032 100 100 000 Old_age
> Always - 0
> 73 189 High_Fly_Writes 0x003a 100 100 000 Old_age
> Always - 0
> 74 190 Airflow_Temperature_Cel 0x0022 066 056 040 Old_age
> Always - 34 (Min/Max 34/35)
> 75 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age
> Always - 0
> 76 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age
> Always - 10
> 77 193 Load_Cycle_Count 0x0032 097 097 000 Old_age
> Always - 6137
> 78 194 Temperature_Celsius 0x0022 034 044 000 Old_age
> Always - 34 (0 20 0 0 0)
> 79 197 Current_Pending_Sector 0x0012 100 100 000 Old_age
> Always - 0
> 80 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age
> Offline - 0
> 81 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age
> Always - 0
> 82 240 Head_Flying_Hours 0x0000 100 253 000 Old_age
> Offline - 9739 (200 43 0)
> 83 241 Total_LBAs_Written 0x0000 100 253 000 Old_age
> Offline - 10045062934
> 84 242 Total_LBAs_Read 0x0000 100 253 000 Old_age
> Offline - 77949777828
> 85
> 86 SMART Error Log Version: 1
> 87 No Errors Logged
> 88
> 89 SMART Self-test log structure revision number 1
> 90 Num Test_Description Status Remaining
> LifeTime(hours) LBA_of_first_error
> 91 # 1 Extended offline Completed without error 00%
> 9490 -
> 92 # 2 Extended offline Completed without error 00%
> 8748 -
> 93 # 3 Extended offline Completed without error 00%
> 8027 -
> 94 # 4 Extended offline Completed without error 00%
> 7310 -
> 95 # 5 Extended offline Completed without error 00%
> 6646 -
> 96 # 6 Extended offline Completed without error 00%
> 5903 -
> 97 # 7 Extended offline Completed without error 00%
> 5159 -
> 98 # 8 Extended offline Completed without error 00%
> 4439 -
> 99 # 9 Extended offline Completed without error 00%
> 3697 -
> 100 #10 Extended offline Completed without error 00%
> 2982 -
> 101 #11 Extended offline Completed without error 00%
> 2249 -
> 102 #12 Extended offline Interrupted (host reset) 00%
> 1547 -
> 103 #13 Extended offline Completed without error 00%
> 809 -
> 104 #14 Extended offline Completed without error 00%
> 83 -
> 105
> 106 SMART Selective self-test log data structure revision number 1
> 107 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
> 108 1 0 0 Not_testing
> 109 2 0 0 Not_testing
> 110 3 0 0 Not_testing
> 111 4 0 0 Not_testing
> 112 5 0 0 Not_testing
> 113 Selective self-test flags (0x0):
> 114 After scanning selected spans, do NOT read-scan remainder of disk.
> 115 If Selective self-test is pending on power-up, resume after 0 minute
> delay.
>
> Toni Mas
> GPG 3F42A21D84D7E950
>
> Sent with ProtonMail Secure Email.
>
> ‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐
> En divendres 12 de febrer de 2021 a les 10:10, Josep Lladonosa <
> [email protected]> va escriure:
>
> > On Fri, 12 Feb 2021 at 09:49, Joan <[email protected]> wrote:
> >
> > > El Sun, 3 Jan 2021 09:29:35 +0100
> > > Josep Lladonosa <[email protected]> va escriure:
> > >
> > > > Hola, Joan,
> > > >
> > > >
> > > > Que no sigui cosa del cable SATA.
> > > > A la feina hem tingut experiències similars i canviant-lo s'ha
> resolt.
> > >
> > > Per cert, després de canviar el cable SATA ja no ha tornat a succeir la
> > > "corrupció"... O sigui, dono per bona l'explicació que era el cable
> > > SATA.
> > >
> > > I t'agraeixo molt, Josep, que apuntessis en aquesta direcció...
> > >
> > > Pd.: sembla mentida que el que pugui fallar sigui un element estàtic
> > > com un cbale... O que aquest comenci a fallar "un bon dia"...
> >
> > Bé, els cables en si no acostumen a fallar si no hi ha una interrupció
> en el coure.
> > Per diverses experiències el que puc dir és que són els connectors entre
> cable i altres elements (placa base, disc dur) que fallen. El plàstic es
> degrada per la calor... i molt més en cas de pujades de temperatura i
> refredaments. Tot això afecta a la interconnexió del coure del connector
> del mateix cable i l'altre element on resta connectat. Si l'ambient on es
> troba la màquina és "brut", també hi pot haver tema de brutícia (greix,
> pols) entre coures...
> >
> > També s'aplica als ventiladors, per exemple.
> >
> > És llei de vida dels materials: metall i plàstic no són flors i violes.
> ;-)
> >
> >
> > > >
> > > > La fiabilitat dels discs durs és poca, sempre és recomanable tenir
> > > > còpies de seguretat i fer-los treballar per parelles, en raid 1, per
> > > > exemple.
> > > >
> > > > Cada fabricant indica la seva garantia.
> > > > Per a mi, els pitjors, Seagate. Els millors, Hitachi (HGST que crec
> > > > que és de Western Digital, ara, i que també està bé).
> > > >
> > > > Bon any,
> > > > Josep
> > > >
> > > > El dg., 3 de gen. 2021, 9:01, Joan <[email protected]> va
> escriure:
> > > >
> > > > > El problema que tinc m'ha passat dugues vegades en dugues setmanes,
> > > > > i tinc dubtes de si és un tema físic del disc (un disc SATA de 4Tb)
> > > > > no massa vell, de potser un parell d'anys, o un problema del soft
> > > > > que "desgabella" el disc
> > > > >
> > > > > És un disc secundari (el sistema el tinc en un SSD) a on guardo
> > > > > videos, fotos, etc. Un dels meus sospitosos com a causa de tot
> > > > > plegat podria ser l'amule.
> > > > >
> > > > > Bé, la qüestió és que quan arrenco el sistema la cosa va malament,
> i
> > > > > queda en mode d'emergència, perquè detecta un error:
> > > > >
> > > > > de gen. 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: Inode
> > > > > 38666373 has an invalid extent node (blk 154697780, lblk 0) de gen.
> > > > > 02 16:21:12 pc2019 systemd-fsck[502]: magatzem: UNEXPECTED
> > > > > INCONSISTENCY; RUN fsck MANUALLY. de gen. 02 16:21:12 pc2019
> > > > > systemd-fsck[502]: (i.e., without -a or -p options) de gen.
> > > > > 02 16:21:12 pc2019 systemd-fsck[430]: fsck failed with exit status
> > > > > 4. de gen. 02 16:21:12 pc2019 systemd-fsck[430]: Running request
> > > > > emergency.target/start/replace de gen. 02 16:21:12 pc2019
> > > > > systemd[1]: systemd-fsck@dev-disk-by
> > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service:
> > > > > Main process exited, code=exited, status=1/FAILURE de gen. 02
> > > > > 16:21:12 pc2019 systemd[1]:
> > > > > systemd-fsck@dev-disk-by
> > > > > \x2duuid-eabfd9a3\x2d1b1f\x2d4144\x2da9d3\x2dd514566fa3fb.service:
> > > > > Failed with result 'exit-code'. de gen. 02 16:21:12 pc2019
> > > > > systemd[1]: Failed to start File System Check on
> > > > > /dev/disk/by-uuid/eabfd9a3-1b1f-4144-a9d3-d514566fa3fb. de gen. 02
> > > > > 16:21:12 pc2019 systemd[1]: Dependency failed for /media/magatzem.
> > > > > de gen. 02 16:21:12 pc2019 systemd[1]: Dependency failed for Local
> > > > > File Systems. de gen. 02 16:21:12 pc2019 systemd[1]:
> > > > > local-fs.target: Job local-fs.target/start failed with result
> > > > > 'dependency'. de gen. 02 16:21:12 pc2019 systemd[1]:
> > > > > local-fs.target: Triggering OnFailure= dependencies. de gen. 02
> > > > > 16:21:12 pc2019 systemd[1]: media-magatzem.mount: Job
> > > > > media-magatzem.mount/start failed with result 'dependency'.
> > > > >
> > > > > I a mi em mostra aquesta pantalla:
> > > > >
> > > > >
> > > > >
> https://upload.disroot.org/r/APnYtXLB#NArCJjbVYVzxd9Hui4K9xb9xhkHzk9i1vE++Qf8BQQA=
> > > > >
> > > > > Llavors jo per sol·lucionar-ho gaig un e2fsck -c /dev/sdb1
> > > > >
> > > > > Que em dona aquestes pantalles (les resumeixo, perquè bàsicament
> > > > > son 20 minuts de anar dient "yes" a tot el que em proposa, després
> > > > > de la revisió que dura unes 8 hores o més:
> > > > >
> > > > >
> > > > >
> https://upload.disroot.org/r/kRLsL2RX#bF9doWYguCMHAvj3APaJNb+GbUBq9zCX2mdrkLJhMAQ=
> > > > >
> > > > >
> https://upload.disroot.org/r/sYqhJfcy#Wv3pVBo0OuvfosT/i1LfCRx+6sTWwSkpWGDJIl4uTkI=
> > > > >
> > > > >
> https://upload.disroot.org/r/UTbxj19F#u5TA97h7ykB7KFj58OSPhgFLqwqFBSv00nHAQ8FoPpU=
> > > > >
> > > > > Llavors, les meves preguntes:
> > > > >
> > > > > 1) Us sembla que és un fallo de hard (el disc comença a fer el
> > > > > tonto, amb només 15 mesos), i ja em puc espabilar a comprar-ne un
> > > > > altra i fer-li un clonezilla?
> > > > >
> > > > > 2) Podria ser un problema originat pel software? (en aquest sentit
> > > > > no sé si actualitzar la meva Debian Testing, que no actualitzo en
> > > > > general de cop, sinó a bocinets).
> > > > >
> > > > > 3) No sé si al disc secundari és fa un fsck (o com es digui). Allò
> > > > > que es fa al primari cada nosequantes arrencades. Diria que no, i
> > > > > que és una opció configurable al fstab. El meu fstab és aquest:
> > > > >
> > > > > UUID=... / ext4 errors=remount-ro 0 1
> > > > > # /home was on /dev/sdb6 during installation
> > > > > UUID=... /home ext4 defaults 0 2
> > > > > # swap was on /dev/sdb5 during installation
> > > > > UUID=... swap sw 0 0
> > > > > # Segon disc dur 4Tb
> > > > > UUID=e... /media/magatzem ext4 defaults 0
> > > > > 2
> > > > >
> > > > > (de fet, ara que hi penso, no sé si es fa el fsck a la partició
> > > > > /home, tampoc). Diria que això te a veure amb el darrer nombre de
> > > > > la columna, però ara he vist que systemd s'ho munta diferent i
> > > > > només distingeix el valor zero (o buit), i la resta:
> > > > >
> > > > > https://unix.stackexchange.com/a/248578
> > > > >
> > > > > I per tant ja no sé quan ni com es fan el txequejos.
> > > > >
> > > > > 4) Un colega em va comentar que ell força un test SMART via script,
> > > > > no sé si a l'arrencar... No sé si això és una bona opció... Teniu
> > > > > algun suggeriment al respecte, per vetllar per la bona salut dels
> > > > > discs (assumint que si el disc comença a fallar per la seva
> > > > > obsolescència programada, no hi ha res a fer).
> > > > >
> > > > > 5) Per cert, sabeu quina garantia tenen, els discos durs? I, en cas
> > > > > de comprar-ne un de nou, si n'hi ha que donin més fiabilitat?
> > > > >
> > > > > Fins ara!
> > > > >
> > > > > --
> > > > > Joan Cervan i Andreu
> > > > > http://personal.calbasi.net
> > > > >
> > > > > "El meu paper no és transformar el món ni l'home sinó, potser, el
> de
> > > > > ser útil, des del meu lloc, als pocs valors sense els quals un món
> > > > > no val la pena viure'l" A. Camus
> > > > >
> > > > > i pels que teniu fe:
> > > > > "Déu no és la Veritat, la Veritat és Déu"
> > > > > Gandhi
> > > > >
> > > > >
> > >
> > > --
> > > Joan Cervan i Andreu
> > > http://personal.calbasi.net
> > >
> > > "El meu paper no és transformar el món ni l'home sinó, potser, el de
> > > ser útil, des del meu lloc, als pocs valors sense els quals un món no
> > > val la pena viure'l" A. Camus
> > >
> > > i pels que teniu fe:
> > > "Déu no és la Veritat, la Veritat és Déu"
> > > Gandhi
> >
> > --
> > --
> > Salutacions...Josep
> > --
>
>
Demanes per alguna idea abans de canviar disc. Jo provaria a iniciar la
màquina amb un nucli diferent. M'he trobat amb màquines que fallaven i era
per alguna cosa dels controladors de disc dur (o alguna altra cosa
relacionada) del nucli. Canviant de versió es resolien els errors de disc...
SALUT!
Josep
--
--
Salutacions...Josep
--