Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-25 Tema obsahu Gabriel

On Wed, 25 May 2016 12:39:25 +0200, Miroslav Lachman wrote:

Dan Lukes wrote on 05/25/2016 12:00:

Kazdopadne, takovy seznam neznam. Muzu ti tak maximalne rict na cem 
to

dlouhodobe a bezproblemove bezi tak poruznu v mem okoli:

FUJITSU SIEMENS | PRIMERGY RX100 S5
HP  | ProLiant DL180 G6
Dell Inc.   | Precision WorkStation R5500
Dell Inc.   | PowerEdge 2950




Moje zkusenosti se servery:

IMB x3550 - funguje vse perfektne
IBM x3650 - funguje vse perfektne
Dell PowerEdge R720 - je tam divna RAID karta, ale opet vse funguje jak 
ma


Dokud v tom neni nekde nejaka Broadcom sitovka, tak funguji i jiny 
masiny, meli jsme Supermicro, Tyan atd. ale po spatnych zkusenostech 
jsme prevedli komplet vse na IBM a jeden Dell server a je to aktualne 
rock solid.


Gabriel

--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-25 Tema obsahu Miroslav Lachman

Dan Lukes wrote on 05/25/2016 12:00:


Kazdopadne, takovy seznam neznam. Muzu ti tak maximalne rict na cem to
dlouhodobe a bezproblemove bezi tak poruznu v mem okoli:

FUJITSU SIEMENS | PRIMERGY RX100 S5
HP  | ProLiant DL180 G6
Dell Inc.   | Precision WorkStation R5500
Dell Inc.   | PowerEdge 2950


Pridam svoje zkusenosti z toho, co je, nebo jeste nedavno bylo v provozu:

Sun Fire X2100 M2  [tech jsme meli nejvic, ale uz jsou zastaraly]
Dell PowerEdge T110 II + PERC H200A
Dell PowerEdge T20
Dell PowerEdge R610 + PERC 6/i
HP ProLiant ML110 G5
Supermicro TwinServer s Xeon E5520
Supermicro s Xeon E3-1240 a E3-1240v3 [ty mame ted jako nejpouzivanejsi]
Cisco UCS 200 M2

Zname problemy:
Sun Fire - nachylny na ATA DMA timeouty (vetsinou pomohlo vymenit SATA 
kabel)
Dell s PERC H200A - radic pro boot ukaze jen prvni disk, takze nefunguje 
ZFS RAIDZ boot, ale da se to vyresit tak, ze se systemovy pool udela 
jako 4 way mirror treba s velikosti 10GB
HP ML110 G5 - zatuhava management karta iLO100, ale da se pres ipmitool 
restartovat, funguje i se 4TB disky a ZFS RAIDZ rootem
Supermicro Twin - obcas taky zatuhle remote management, ale opet se da 
restartovat pres ipmitool
Supermicro s Xeon E3-1240v2 - pred rokem byl ten neprijemny password 
leak v IPMI, ale jinak je to slusny stroj za malo penez.


Kde neni HW RAID, tam je gmirror, nebo ZFS.

Mirek
--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-25 Tema obsahu Dan Lukes

On 05/23/16 23:29, Miroslav Prymek wrote:

Kdyz uz jsme u toho, existuje nejaky neoficialni aspon trochu
duveryhodny list kompatibility hw
s FreeBSD - podle znacky a modelu misto podle komponent jako v
oficialnich dokumentech?


Dneska je spousta sestav variantnich a stejne bys nakonec musel sestavu 
doplnit popisem komponent.


Kazdopadne, takovy seznam neznam. Muzu ti tak maximalne rict na cem to 
dlouhodobe a bezproblemove bezi tak poruznu v mem okoli:


FUJITSU SIEMENS | PRIMERGY RX100 S5
HP  | ProLiant DL180 G6
Dell Inc.   | Precision WorkStation R5500
Dell Inc.   | PowerEdge 2950

Your mileage may vary.

Dan

P.S. S ohledem na par. 2950 NOZ prohlasuju, ze tomu o cem mluvim vubec 
nerozumim.

--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-23 Tema obsahu Miroslav Prymek

Dne 23/05/16 v 16:45 Miroslav Lachman napsal(a):

Jeden stary HP ML110 G5 s 5GB RAM mam v provozu asi 7 let. ZFS je na 
nem od pocatku. Je to uloziste zaloh a podobny problem jsem na nem 
jeste nezaznamenal. I kdyz tam nepouzivam salt-ssh, tak si myslim, ze 
je to chyba jen toho konkretniho kusu, co mas.
Nemyslim si, ze by to nejak zvlast souviselo prave s tim saltem, 
pouzivam ho na vic serverech a nikde
jinde jsem na to nenarazil. Navic tenhle server byl pred cca 2ma lety 
normalne v produkci a

bez problemu. Vypada to fakt na hw zavadu starim (viz niz).
Pokud hledas nejakou levnou dobrou nahradu, tak se podivej na Dell 
PowerEdge T20 s tim Xeon procesorem (ta lacinejsi varianta je myslim s 
Celeronem).
Jsem s tim strojem spokojenej i na desktopu (PC-BSD) - jen jsem tam 
dal nVidia grafiku.
Dik moc za tip, vypada to jako presne ten typ zeleza, ktery na tohle 
pouziti potrebuju a cena je dobra.


Kdyz uz jsme u toho, existuje nejaky neoficialni aspon trochu 
duveryhodny list kompatibility hw
s FreeBSD - podle znacky a modelu misto podle komponent jako v 
oficialnich dokumentech?



Dne 23/05/16 v 17:22 Dan Lukes napsal(a):
Zaprve, mas byt pri podobnem testu prihlaseny dvakrat - pak se po 
zaseknuti prihlasovat znovu nemusis.


Za druhe, mas si, na te konzoli, kde bys ten 'kill -9 ' psal pred 
tim nez to zadreso spustit 'kill -0 '. Pak je vse potrebne v 
cache a je slusna sance, ze ten prikaz pujde spustit i nad zadrenym 
diskem neb disk potrebovat nebude.
Jo, to je dobrej tip. Moc jsem to neresil, protoze v tomhle stavu to 
stejne v produkci byt nemuze,
tak jsem to nechal bezet jenom tak mimo, nic neriskoval a moc nad tim 
nepremyslel.


Kazdopadne takhle je to aspon cenny poznatek, ktery si zapamatuju - ze 
ZFS mirror fakt rozumne
sahne na druhy disk, i kdyz je ten prvni v takhle divnem stavu (z 
pohledu ZFS vlastne "v poradku" a presto
nefunkcni). Jsem dost rad, ze jsem si to takhle nadrsno prakticky 
vyzkousel ;)

Ten "novy" disk, ktery se ti zadrel taky - to byl stejny vyrobce a model ?
Stary byl WD Black 500G, novy WD RED 3T. Sice stejny vyrobce, ale jina 
rada a navic je deli hezkych par let,

tak by ten firmware snad ani nemusel být moc stejnej.
Ale samozrejem to muzou bejt i ty kondenzatory (ostatne, zminoval jsem 
tu moznost taky) a pak ti novy server problem vyresi.
Uz se k tehle variante zacinam klonit jako k nejpravdepodobnejsi. Po 
restartu tlacitkem dneska
se mi totiz ten zasek pro zmenu zase vubec nepodarilo vyvolat stejnym 
postupem, ktery mi predtim
nekolikrat vysel kratce po sobe. A to jsem tam ten salt nechal bezet ve 
smycce nekolik hodin.
Takhle divne chovani se dvema ruznymi disky, neodhadnutelne, 
nepredvidatelne,
to mi fakt prijde jako nejaky ten kondik, ktery si dela co chce, podle 
teploty nebo kdoviceho...


Vidim to na to nove zelezo...

...a jestli se to zopakuje, tak me asi odvezou houkackou do blazince ;)

diky moc za vase rady

Mirek

--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-23 Tema obsahu Dan Lukes

On 05/23/16 14:28, Miroslav Prýmek wrote:

Takze prozatimni zaver je, ze salt-ssh dela neco



Jelikoz k tomu zaseku doslo na _novem_ disku (opet ada1), pojal
jsem podezreni, ze je vadny ATA kanal na radici nebo kabel
(ten jsem nemenil). Zkusil jsem teda ada1 z mirroru vyhodit
a znovu spustit X. A opet se to zaseklo. Tentokrat uz mi ale
watchdog nepomohl, protoze se jelo jenom z jednoho disku, ktery
se sekl a timpadem uz ani neslo spustit zadny prikaz ani se prihlasit.


Zaprve, mas byt pri podobnem testu prihlaseny dvakrat - pak se po 
zaseknuti prihlasovat znovu nemusis.


Za druhe, mas si, na te konzoli, kde bys ten 'kill -9 ' psal pred 
tim nez to zadreso spustit 'kill -0 '. Pak je vse potrebne v cache 
a je slusna sance, ze ten prikaz pujde spustit i nad zadrenym diskem neb 
disk potrebovat nebude.



1. salt-ssh dela neco netradicniho, v cem je proste ve FreeBSD chyba,
ale pri jinem provozu se neprojevi

2. nejaka hw zavada kdovikde (ale je divny, ze ji neodhali stresstesty)


Od doby co maji disky bezne NCQ je vsechno o dost komplikovanejsi. Muze 
jit klidne o to, ze disk zadrou dva konkretni requesty, ktere jdou ve 
spravnem poradi po sobe. A tobe se podarilo najit software jehoz 
aktivity k takovemu poradi vedou, zatimco jiny software, byt' by delal 
neco podobneho, nedela to uplne stejne a requesty an disk prijdou v 
trochu jinem poradi coz staci aby se interne nezadrel.


Coz je, samozrejme, jen hypoteza.

Ten "novy" disk, ktery se ti zadrel taky - to byl stejny vyrobce a model ?

Mozna by stacilo vzit podoben velky disk jineho vyrobce, nebo alespon 
jine modelove rady. Proste aby to melo pokud mozno jiny firmware.


Pokud jsem se totiz nahodou trefil, tak pri trose smuly ti to muze delat 
i ten novy server, pokud se v nem znovu nestastne sejde hardware se 
softwarem.


Ale samozrejem to muzou bejt i ty kondenzatory (ostatne, zminoval jsem 
tu moznost taky) a pak ti novy server problem vyresi.


Bohuzel, v tomhle pripade nedostanes radu, u ktere by byla jistota trefy.


Dan



--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-23 Tema obsahu Gabriel
Ahoj, resil jsem podobnou zalezitost zde na foru par let dozadu. 
Problem byl v nepatrne nafouklych kondikach kolem SATA portu. Vymena 
zakladni desky problem vyresila.


G
--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-23 Tema obsahu Miroslav Lachman

Miroslav Prýmek wrote on 05/23/2016 14:28:


Prijde mi, ze uz jsem vycerpal tu "rezervu", kterou jak jsi psal, mam
na tyhle problemy zaplacenou, a asi prijde na radu jednani se zakaznikem
o koupi noveho serveru (coz vede k otazce, jake soucasne male servery
maji dobrou kompatibilitu s FreeBSD, ale tenhle dotaz kdyztak polozim
v novem vlakne).


Jeden stary HP ML110 G5 s 5GB RAM mam v provozu asi 7 let. ZFS je na nem 
od pocatku. Je to uloziste zaloh a podobny problem jsem na nem jeste 
nezaznamenal. I kdyz tam nepouzivam salt-ssh, tak si myslim, ze je to 
chyba jen toho konkretniho kusu, co mas.
Pokud hledas nejakou levnou dobrou nahradu, tak se podivej na Dell 
PowerEdge T20 s tim Xeon procesorem (ta lacinejsi varianta je myslim s 
Celeronem).
Jsem s tim strojem spokojenej i na desktopu (PC-BSD) - jen jsem tam dal 
nVidia grafiku.


Mirek
--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-23 Tema obsahu Cejka Rudolf
Šance na úspěch jsou minimální, ale ještě bych se zkusil podívat
po různých updatech typu BIOS apod.

Miroslav Prýmek wrote (2016/05/23):
> ...
> 2. nejaka hw zavada kdovikde (ale je divny, ze ji neodhali stresstesty)
> ...

Mně to zas až tak divný nepřipadá a vůbec bych se nedivil, kdyby
šlo o problém konkrétního kusu HW v konkrétní konfiguraci a
v konkrétním prostředí.

-- 
Rudolf Cejka  http://www.fit.vutbr.cz/~cejkar
Brno University of Technology, Faculty of Information Technology
Bozetechova 2, 612 66  Brno, Czech Republic
-- 
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-23 Tema obsahu Miroslav Prýmek

Diky, Dane, minimalne jsem si diky tvym komentarum utridil myslenky a
posunul se v dalsim postupu.

Samozrejme jsem zapomnel napsat dost podstatnou informaci: doslo k tem 
samovolnym resetum, ktery jsem pricital vadne UPSce (asi opravnene, po

jeji vymene se neopakovaly), potom doslo k zaseku na disku ada1 pri
operaci X (viz dal), tak jsem disk ada1 vymenil (za jiny model jineho
vyrobce) - a pak doslo pri operaci X opet k temuz i s novym diskem.
To jsem zapomnel napsat :(

Diky moc za radu s watchdogd, nikdy jsem to zatim nepouzil a je to super
vec pro takovyhle situace!

No takze jsem watchdogd zapnul a nekolika pokusy overil, ze se zasek
opravdu da vyvolat akci X, coz je vzdalene spusteni salt-ssh
( https://docs.saltstack.com - konfiguracni management ). K zaseku
nedojde deterministicky, ale po par pokusech k nemu vzdycky doslo.
(cca dvakrat, trikrat jsem zasek + reset zopakoval, takze to fakt
vyvolat jde). Na jinych serverech se mi to nestalo ani jednou.

Takze prozatimni zaver je, ze salt-ssh dela neco, co diskove stresstesty
nedelaji. Prozatimni podezreni je, ze salt-ssh zjistuje "fakta" o
serveru a v ramci toho mj. dela treba "camcontrol identify adaX" pro
vsechny disky. A hned predtim a potom intenzivne saha na disky a sit,
tak by tam mohlo dojit k nejake situaci, kterou normalni stresstest
nenavodi.

No a ted pres vikend jsem teda zkusil jeste jednu vec:

Jelikoz k tomu zaseku doslo na _novem_ disku (opet ada1), pojal
jsem podezreni, ze je vadny ATA kanal na radici nebo kabel
(ten jsem nemenil). Zkusil jsem teda ada1 z mirroru vyhodit
a znovu spustit X. A opet se to zaseklo. Tentokrat uz mi ale
watchdog nepomohl, protoze se jelo jenom z jednoho disku, ktery
se sekl a timpadem uz ani neslo spustit zadny prikaz ani se prihlasit.
Takze vic uz jsem otestovat nestihl. Kazdopadne po tvrdem resetu
tlacitkem probehlo vraceni do mirroru + resilver v poradku, takze
samotne diskove operaci jsou asi v pohode.

Takze zaver pro me je, ze bud

1. salt-ssh dela neco netradicniho, v cem je proste ve FreeBSD chyba,
   ale pri jinem provozu se neprojevi

2. nejaka hw zavada kdovikde (ale je divny, ze ji neodhali stresstesty)

Prijde mi, ze uz jsem vycerpal tu "rezervu", kterou jak jsi psal, mam
na tyhle problemy zaplacenou, a asi prijde na radu jednani se zakaznikem
o koupi noveho serveru (coz vede k otazce, jake soucasne male servery
maji dobrou kompatibilitu s FreeBSD, ale tenhle dotaz kdyztak polozim
v novem vlakne).


Takze, Dane, jeste jednou dik moc za konzultaci.


Mirek
--
FreeBSD mailing list (users-l@freebsd.cz)
http://www.freebsd.cz/listserv/listinfo/users-l


Re: Podivne zaseky - jak dal postupovat? [dlouhe]

2016-05-20 Tema obsahu Dan Lukes

On 05/20/16 17:33, Miroslav Prýmek wrote:

zasek procesu v D stavu po pokusu o zapis na disk.



No takze jsem logicky pojal podezreni, ze je to chyba disku.


Nebo komponent s nim souvisejicich - radice, kabelu.

Dale, se sestupnou pravdepodobnosti - to taky muzou byt vysychajici 
kondenzatory na desce nebo ve zdroji a s tim souvisejici vznik ruseni - 
a disk je jen prvni, ktery na problem citlive zareagoval (a kdo vi 
jestli prvni, byl tam taky jeste ten reset).


A ruseni nemusi byt nutne interni, to muze prichazet ze site (napajeci i 
datove), kabelem od monitoru a ostatne jakymkoliv kabelem, treba i tim 
od klavesnice, pokud se tahne soubezne s necim, co zacalo rusit.



# zpool set failmode=continue zroot

ale to se zaseklo taky


To jako indicie moc nepomuze. Jakmile uz je jednou fronta pozadavku na 
disk jednou zadrena, zadre se kazdy proces, ktery si do ni neco da a 
pokusi se cekat na dokonceni. A ja predpokladam, ze si zpool tyhle 
nastaveni na disk pise "pro priste".



Stejne tak se zasekl pokus o vyhozeni disku z poolu. Ani na CAM urovni
se mi to nepodarilo:

# camcontrol eject ada1
Error received from stop unit command


Oboji ze stejneho duvodu.


Takze zbyla posledni sance ten disk natvrdo odpojit (porad za behu).


Tohle je jedina sance.


To probehlo v poradku, disk zmizel, dokonce z gstatu zmizely visici
operace, ale ne vsechny - misto tech 12 tam byla jedna :(


A to byla, zrejme, ta, ktera byla "zadrena". Ty ostatni byly jen ve 
fronte za ni a s odstranenim disku byly abortovane.


Tahle jedna uz ale zrejme byla rozjeta a cekala na nejakou reakci 
hardware - a ta reakce neprichazela.



Takze jsem dosel k nazoru, ze chyba bude v disku. Jenze SMART nerikal
nic, offline test probehl bez chyby a jakekoli stresstesty jsem se
snazil na disku poustet, vsechno bylo uplne v pohode.


Chyba (v) disku je porad nejpravdepodobnejsi, nebo v bezprostredne 
souvisejicich komponentach. Ze SMART nic nerika neni dukaz niceho, on je 
dnesni disk uz jako vsechno ostatni procesorem rizena krabicka, a kdyz 
ten firmware (kdo vi, kdo ho psal) zblbne/zdechne, neni dukazem niceho, 
ze o zdechnuti nebyl timtez firmwarem ucinen radny zapis.


Ani to, ze se ti pak vedome nepodarilo disk znovu dostat do tehoz stavu.


Jeste me napadlo, jestli by to nemohlo souviset s jinou veci - pri
pripojeni na tenhle server se mi obcas stavalo, ze jakoby na sekundu dve
zamrzl a pak jel v pohode dal. Nedoresil jsem, jestli to bylo sitovkou
nebo necim jinym. Bylo by mozny, ze by nejaka chyba v hw nebo v driveru
zpusobila nejake takove cekani


Ano. Staci aby nejaky driver zakazal veskera preruseni a z nejakeho 
duvodu nikoliv na par taktu procesoru ale na delsi dobu, a po onu delsi 
dobu se nepohne nic.



neco v diskovych operacich by spravne nevytimeoutovalo a ZFS by se tim dostalo 
do vecneho cekani?!


Zbytecne komplikovana uvaha. V diskovych operacich nemaji timeouty co 
delat - a pokud by se tam nejake objevovaly, je treba predevsim resit 
tenhle primarni problem.



Ted fakt nevim, co s tim dal :(


Jestli jsem to spravne pochopil, tak konkretni problem se objevil pouze 
jednou a nepodarilo se ho zopakovat. Takze statisticky vzorek k analyze 
je fakt hodne maly.



  - dost dobre nemuzu riskovat, ze se tohle bude se serverem stavat v
ostrem nasazeni. Uz proto, ze to vyzaduje tvrdy reset na miste...


Mozna ne - nezkusil's natvrdo sestrelit watchdogd. Pak by to mel chip 
hardwarove otocit.



  - nedokazu nijak urcit, jestli chyba byla v disku, radici nebo necem jinem a 
jestli se bude opakovat


To se u jednoho pripadu opravdu rict neda. Vime jen, ze zaseknuty proces 
cekal na dokonceni zadaneho pozadavku na cteni dat z disku a podle vseho 
nikdy neobdrzel informaci o tom, ze je operace dokoncena nebo zrusena.


Nevime ale ani, zda ta operace byla zadana s moznosti timeoutu.

Jedna vec je, ze nebyla dokoncena - za to ZFS nejspis nemuze a ma to 
nejakou, spise hardwarovou nez softwarovou, pricinu. Krome mnoha jinych 
se napriklad mohlo "ztratit" preruseni.


Zda byl pozadavek zadany s nejakym timeoutem (a jak dlouhym) je do 
znacne miry nesouvisejici otazka - ale tohle uz ZFS na triku mit muze.


Otazka zni velmi pragmaticky - jsi schopen otevrit zdrojaky, projit 
cestu od zfs_freebsd_read k sleepq_wait a zjistit, zda je cekani v te 
sleep queue timeoutovatelne a pokud ano, zda pri pruchodu touto cestou 
je nejaky timeout nastaven ( a to nejaky kratsi nez "skoro nekonecny") ?


A pokud ano a zjistis jak to funguje, jsi schopen si provest vlastni 
upravu a pouzivat vlastni upraveny kernel ?


Pokud ne, pak nema smysl, abyses "softwaorovou" casti problemu zabyval. 
Pokud ano, uvedom si, ze vysledkem bude "jen" to, ze pro vyskytu 
problemu, ktery je primarni pricinou, se ti nezadre cely system, ale 
zrejme se podela jen neco mensiho.



  - jak jsem psal, pred timhle incidentem sel server do tvrdeho resetu
asi dvakrat. Mohlo to poskodit zpool tak, aby se choval takhle divne?
Melo by smysl ho smazat a vytvorit