Re: iowait
Il 28/09/21 21:39, Davide Prina ha scritto: On 28/09/21 08:18, Piviul wrote: credo di aver risolto. ma il secondo problema che ho evidenziato non si presenta più nei log? Secondo me questo è completamente slegato da quello che hai segnalato. Nei log non è più presente? (può essere che appaia sporadicamente e quindi ti conviene controllare su più giorni; se il sistema era già attivo precedentemente, guarda nei log più vecchi) no, ora va tutto molto bene. L'iowait è tornato a valori normali sotto il 40% nonostante stia copiando dati con rsync e inoltre la sincronizzazione raid è andata una scheggia rispetto a come andava precedentemente. Sono andato a spulciare i logs e quell'errore lo ha dato 4 volte in tutto, dopo aver rinominato il volume logico in raid ma prima di averlo eliminato (in realtà erano più di uno). Ora comunque lo tengo monitorato ma finora è sempre andato bene e come dicevo l'errore non si è più presentato. L'unico messaggio di warning mentre sincronizzava il raid, rsync copiava dati e alcune procedure di backup copiavano dati in nfs erano messaggi del tipo: Sep 28 22:40:59 backup-server kernel: [106438.718386] perf: interrupt took too long (4992 > 4936), lowering kernel.perf_event_max_sample_rate to 4 da quando ha finito il sync del raid non ci sono stati più messaggi e le performance sono buone. Grazie mille Davide! Piviul
Re: iowait
On 28/09/21 08:18, Piviul wrote: credo di aver risolto. ma il secondo problema che ho evidenziato non si presenta più nei log? Secondo me questo è completamente slegato da quello che hai segnalato. Nei log non è più presente? (può essere che appaia sporadicamente e quindi ti conviene controllare su più giorni; se il sistema era già attivo precedentemente, guarda nei log più vecchi) Ciao Davide -- Motivi per non comprare/usare ms-windows7: http://windows7sins.org/ Non autorizzo la memorizzazione del mio indirizzo su outlook
Re: iowait
Il 27/09/21 19:59, Davide Prina ha scritto: On 27/09/21 11:09, Piviul wrote: [...] Ciao Davide Ciao Davide grazie, credo di aver risolto. Il problema sembrava essere legato al fatto che avevo creato un volume logico LVM in mirror e poi lo avevo rinominato con lvrename e questo deve aver incasinato le cose. Trasformandolo in lineare e successivamente in mirror nuovamente il problema sembra essere risolto. Quindi OCHO a rinominare i LV se sono in raid! Grazie ancora Piviul
Re: iowait
On 27/09/21 11:09, Piviul wrote: ...ora sto cercando di fare un rsync di una cartella remota con 2.7T di dati e le performance sono disastrose; latenza Che sia dovuto al fatto che il volume logico è in mirror? può essere che anche questo influisca sull'aumento della latenza. Ma è software o hardware? Sep 27 10:55:57 backup-server kernel: [10150.695843] INFO: task jbd2/dm-23-8:1568 blocked for more than 120 seconds. Sep 27 10:55:57 backup-server kernel: [10150.695871] Tainted: G I 5.10.0-8-amd64 #1 Debian 5.10.46-4 Sep 27 10:55:57 backup-server kernel: [10150.695892] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. Sep 27 10:55:57 backup-server kernel: [10150.695935] task:jbd2/dm-23-8 state:D stack: 0 pid: 1568 ppid: 2 flags:0x4000 Sep 27 10:55:57 backup-server kernel: [10150.695939] Call Trace: Sep 27 10:55:57 backup-server kernel: [10150.695950] __schedule+0x282/0x870 Sep 27 10:55:57 backup-server kernel: [10150.695955] ? out_of_line_wait_on_bit_lock+0xb0/0xb0 Sep 27 10:55:57 backup-server kernel: [10150.695957] schedule+0x46/0xb0 Sep 27 10:55:57 backup-server kernel: [10150.695960] io_schedule+0x42/0x70 Sep 27 10:55:57 backup-server kernel: [10150.695962] bit_wait_io+0xd/0x50 Sep 27 10:55:57 backup-server kernel: [10150.695965] __wait_on_bit+0x2a/0x90 Sep 27 10:55:57 backup-server kernel: [10150.695968] out_of_line_wait_on_bit+0x92/0xb0 Sep 27 10:55:57 backup-server kernel: [10150.695973] ? var_wake_function+0x20/0x20 [...] cercando sembra che il problema possa essere dovuto al fatto che il sistema non riesca a scrivere su disco abbastanza velocemente tutte le pagine in memoria che sono state modificate... prova a vedere cosa contengono questi due: /proc/sys/vm/dirty_ratio /proc/sys/vm/dirty_background_ratio e prova a diminuirli, ad esempio dimezzarli con echo # echo $VALORE > /proc/sys/vm/dirty_ratio Come sempre le modifiche in sys sono temporanee fino al prossimo riavvio, per renderle persistenti devi inserirle nel file /etc/sysctl.conf Quindi il tempo di latenza aumenta per questa operazione. In pratica stai superando la velocità massima supportata dal tuo disco in scrittura... rsync arriva a dover attendere che si liberi memoria per poter continuare a trasferire i dati. Questo potrebbe essere dovuto anche al fatto che non è impostato correttamente il disco/raid/sistema (una volta potevi migliorare le prestazioni del disco giocando sui parametri e abilitandone altre, con i dischi moderni non so se sia ancora fattibile) o c'è qualche problema su un disco o sul raid do_syscall_64+0x33/0x80 Sep 27 10:55:57 backup-server kernel: [10150.696387] entry_SYSCALL_64_after_hwframe+0x44/0xa9 Sep 27 10:55:57 backup-server kernel: [10150.696390] RIP: 0033:0x7feeab1b0f33 Sep 27 10:55:57 backup-server kernel: [10150.696392] RSP: 002b:7ffef85496d8 EFLAGS: 0246 ORIG_RAX: 0001 Sep 27 10:55:57 backup-server kernel: [10150.696395] RAX: ffda RBX: 5639ef415bc0 RCX: 7feeab1b0f33 Sep 27 10:55:57 backup-server kernel: [10150.696396] RDX: 0004 RSI: 5639ef415bc0 RDI: 0003 Sep 27 10:55:57 backup-server kernel: [10150.696398] RBP: 0003 R08: 8000 R09: 8000 Sep 27 10:55:57 backup-server kernel: [10150.696399] R10: 0658aeb7 R11: 0246 R12: 8000 Sep 27 10:55:57 backup-server kernel: [10150.696401] R13: 0004 R14: 5639f07883d0 R15: 7ffef85497c8 questi però non penso che centrino con gli altri messaggi di warning Ma journalctl te li mostra dello stesso colore delle altre righe? Secondo me hai due problemi e questo è il secondo. O magari questo causa mini-freeze del sistema che causano l'altro problema. Magari c'è qualche problema/bug sul firmware di qualche componente... o un bug in Linux... o un problema hardware Ho anche visto che ti sei ricompilato Linux o hai ricompilato o usato moduli non ufficiali (non firmati), magari hai disabilitato qualcosa che ti serve o hai abilitato qualcosa che non è compatibile ho trovato questo: https://www.kernel.org/doc/html/v5.0/dev-tools/kasan.html che però non mi sembra una cosa così banale da fare... e poi dopo che hai i risultato non mi sembra così capibile... Ciao Davide -- Dizionari: http://linguistico.sourceforge.net/wiki $ Perché microsoft continua a compiere azioni illegali?: http://linguistico.sf.net/wiki/doku.php?id=traduzioni:ms_illegal GNU/Linux User: 302090: http://counter.li.org Non autorizzo la memorizzazione del mio indirizzo su outlook