Re: iowait

2021-09-29 Per discussione Piviul

Il 28/09/21 21:39, Davide Prina ha scritto:

On 28/09/21 08:18, Piviul wrote:


credo di aver risolto.


ma il secondo problema che ho evidenziato non si presenta più nei log?
Secondo me questo è completamente slegato da quello che hai segnalato.
Nei log non è più presente? (può essere che appaia sporadicamente e 
quindi ti conviene controllare su più giorni; se il sistema era già 
attivo precedentemente, guarda nei log più vecchi)


no, ora va tutto molto bene. L'iowait è tornato a valori normali sotto 
il 40% nonostante stia copiando dati con rsync e inoltre la 
sincronizzazione raid è andata una scheggia rispetto a come andava 
precedentemente. Sono andato a spulciare i logs e quell'errore lo ha 
dato 4 volte in tutto, dopo aver rinominato il volume logico in raid ma 
prima di averlo eliminato (in realtà erano più di uno). Ora comunque lo 
tengo monitorato ma finora è sempre andato bene e come dicevo l'errore 
non si è più presentato.


L'unico messaggio di warning mentre sincronizzava il raid, rsync copiava 
dati e alcune procedure di backup copiavano dati in nfs erano messaggi 
del tipo:


Sep 28 22:40:59 backup-server kernel: [106438.718386] perf: interrupt 
took too long (4992 > 4936), lowering kernel.perf_event_max_sample_rate 
to 4


da quando ha finito il sync del raid non ci sono stati più messaggi e le 
performance sono buone.


Grazie mille Davide!

Piviul



Re: iowait

2021-09-28 Per discussione Davide Prina

On 28/09/21 08:18, Piviul wrote:


credo di aver risolto.


ma il secondo problema che ho evidenziato non si presenta più nei log?
Secondo me questo è completamente slegato da quello che hai segnalato.
Nei log non è più presente? (può essere che appaia sporadicamente e 
quindi ti conviene controllare su più giorni; se il sistema era già 
attivo precedentemente, guarda nei log più vecchi)


Ciao
Davide
--
Motivi per non comprare/usare ms-windows7:
http://windows7sins.org/
Non autorizzo la memorizzazione del mio indirizzo su outlook




Re: iowait

2021-09-28 Per discussione Piviul

Il 27/09/21 19:59, Davide Prina ha scritto:

On 27/09/21 11:09, Piviul wrote:
[...]
Ciao
Davide


Ciao Davide grazie, credo di aver risolto. Il problema sembrava essere 
legato al fatto che avevo creato un volume logico LVM in mirror e poi lo 
avevo rinominato con lvrename e questo deve aver incasinato le cose. 
Trasformandolo in lineare e successivamente in mirror nuovamente il 
problema sembra essere risolto.


Quindi OCHO a rinominare i LV se sono in raid!

Grazie ancora

Piviul



Re: iowait

2021-09-27 Per discussione Davide Prina

On 27/09/21 11:09, Piviul wrote:

...ora sto cercando di fare un rsync di una cartella remota con 2.7T di 
dati e le performance sono disastrose;


latenza


Che sia dovuto al fatto che il volume logico è in mirror?


può essere che anche questo influisca sull'aumento della latenza. Ma è 
software o hardware?


Sep 27 10:55:57 backup-server kernel: [10150.695843] INFO: task 
jbd2/dm-23-8:1568 blocked for more than 120 seconds.
Sep 27 10:55:57 backup-server kernel: [10150.695871] Tainted: 
G  I   5.10.0-8-amd64 #1 Debian 5.10.46-4
Sep 27 10:55:57 backup-server kernel: [10150.695892] "echo 0 > 
/proc/sys/kernel/hung_task_timeout_secs" disables this message.
Sep 27 10:55:57 backup-server kernel: [10150.695935] 
task:jbd2/dm-23-8    state:D stack:    0 pid: 1568 ppid: 2 
flags:0x4000

Sep 27 10:55:57 backup-server kernel: [10150.695939] Call Trace:
Sep 27 10:55:57 backup-server kernel: [10150.695950] 
__schedule+0x282/0x870
Sep 27 10:55:57 backup-server kernel: [10150.695955]  ? 
out_of_line_wait_on_bit_lock+0xb0/0xb0

Sep 27 10:55:57 backup-server kernel: [10150.695957] schedule+0x46/0xb0
Sep 27 10:55:57 backup-server kernel: [10150.695960] 
io_schedule+0x42/0x70

Sep 27 10:55:57 backup-server kernel: [10150.695962] bit_wait_io+0xd/0x50
Sep 27 10:55:57 backup-server kernel: [10150.695965] 
__wait_on_bit+0x2a/0x90
Sep 27 10:55:57 backup-server kernel: [10150.695968] 
out_of_line_wait_on_bit+0x92/0xb0
Sep 27 10:55:57 backup-server kernel: [10150.695973]  ? 
var_wake_function+0x20/0x20

[...]

cercando sembra che il problema possa essere dovuto al fatto che il 
sistema non riesca a scrivere su disco abbastanza velocemente tutte le 
pagine in memoria che sono state modificate...


prova a vedere cosa contengono questi due:
/proc/sys/vm/dirty_ratio
/proc/sys/vm/dirty_background_ratio

e prova a diminuirli, ad esempio dimezzarli con echo

# echo $VALORE > /proc/sys/vm/dirty_ratio

Come sempre le modifiche in sys sono temporanee fino al prossimo 
riavvio, per renderle persistenti devi inserirle nel file /etc/sysctl.conf


Quindi il tempo di latenza aumenta per questa operazione. In pratica 
stai superando la velocità massima supportata dal tuo disco in 
scrittura... rsync arriva a dover attendere che si liberi memoria per 
poter continuare a trasferire i dati.
Questo potrebbe essere dovuto anche al fatto che non è impostato 
correttamente il disco/raid/sistema (una volta potevi migliorare le 
prestazioni del disco giocando sui parametri e abilitandone altre, con i 
dischi moderni non so se sia ancora fattibile) o c'è qualche problema su 
un disco o sul raid



do_syscall_64+0x33/0x80
Sep 27 10:55:57 backup-server kernel: [10150.696387] 
entry_SYSCALL_64_after_hwframe+0x44/0xa9
Sep 27 10:55:57 backup-server kernel: [10150.696390] RIP: 
0033:0x7feeab1b0f33
Sep 27 10:55:57 backup-server kernel: [10150.696392] RSP: 
002b:7ffef85496d8 EFLAGS: 0246 ORIG_RAX: 0001
Sep 27 10:55:57 backup-server kernel: [10150.696395] RAX: 
ffda RBX: 5639ef415bc0 RCX: 7feeab1b0f33
Sep 27 10:55:57 backup-server kernel: [10150.696396] RDX: 
0004 RSI: 5639ef415bc0 RDI: 0003
Sep 27 10:55:57 backup-server kernel: [10150.696398] RBP: 
0003 R08: 8000 R09: 8000
Sep 27 10:55:57 backup-server kernel: [10150.696399] R10: 
0658aeb7 R11: 0246 R12: 8000
Sep 27 10:55:57 backup-server kernel: [10150.696401] R13: 
0004 R14: 5639f07883d0 R15: 7ffef85497c8


questi però non penso che centrino con gli altri messaggi di warning
Ma journalctl te li mostra dello stesso colore delle altre righe?

Secondo me hai due problemi e questo è il secondo.
O magari questo causa mini-freeze del sistema che causano l'altro problema.

Magari c'è qualche problema/bug sul firmware di qualche componente... o 
un bug in Linux... o un problema hardware


Ho anche visto che ti sei ricompilato Linux o hai ricompilato o usato 
moduli non ufficiali (non firmati), magari hai disabilitato qualcosa che 
ti serve o hai abilitato qualcosa che non è compatibile


ho trovato questo:
https://www.kernel.org/doc/html/v5.0/dev-tools/kasan.html
che però non mi sembra una cosa così banale da fare... e poi dopo che 
hai i risultato non mi sembra così capibile...


Ciao
Davide
--
Dizionari: http://linguistico.sourceforge.net/wiki
$
Perché microsoft continua a compiere azioni illegali?:
http://linguistico.sf.net/wiki/doku.php?id=traduzioni:ms_illegal
GNU/Linux User: 302090: http://counter.li.org
Non autorizzo la memorizzazione del mio indirizzo su outlook