
Siika – Huuto
Tällä kertaa vähän teknisempää juttua niille joita kiinnostaa. Lyhyt yhteenveto: levypalvelimella on ollut pientä ajoittaista tökkimistä. Ongelmat ovat tiedossa, tarkkaa syytä selvitetään ja korjaus tehdään heti kun mahdollista. Kertokaa jos tällaisia halutaan jatkossa.
Siika-levypalvelin on toiminut pääasiassa erittäin hyvin. Sen suorituskyky on normaalitilassa havaittavasti parempi kuin aiemman levypalvelimen. Valitettavasti uusi levyjärjestelmä ei ole ollut aivan ongelmaton. Tässä artikkelissa joitain havaintoja ja teorioita. Osa asioista on vielä selvittämättä, mutta ajattelin että jäseniä saattaa kiinnostaa mitä ongelmien taustalla on ja mitä asioille on jo tehty.
Siian levyjärjestelmät:
- tank: kotihakemistot, sähköpostit ja virtuaalikoneet
- siilo: /siilo-tallennustila
Ongelmat alkoivat ilmenemään useiden viikkojen raskaan käytön jälkeen. Ensimmäisten oireiden ilmetessä tank-levyjärjestelmällä oli käynnissä rutiinitarkastus. Tarkastus oli oireiden ilmennessä kestänyt vajaan viikon ja oli edennyt 90 % asti. Yhtäkkiä kirjoitukset verkkolevylle kestivät kohtuuttoman kauan ja tästä aiheutui hidastelua www-palveluihin, lakan shelliin, irkkeihin ja muihin verkkolevyä käyttäviin palveluihin. Ylläpito keskeytti tarkastuksen kun sen epäiltiin mahdollisesti olevan häiriön aiheuttaja. Oireet lakkasivat lopetukseen.
Hetken tutkiskelun jälkeen muutama levyistä näytti SMART-tietojen perusteella olevan vaihdon tarpeessa. Virheellisiä sektoreita ei vielä ollut, mutta aiempien havaintojen mukaan jo ”pian virheelliset” sektorit enteilevät levyn rikkoutumista ja voivat aiheuttaa hidastelua. Kaksi oireilevaa levyä päätettiin vaihtaa varalevyihin (hot spare). Operaatiota kutsutaan zfs:ssä resilveriksi ja se vastaa jokseenkin RAIDin uudelleenrakennusta, mutta tapahtuu tiedostojärjestelmätasolla, ei raa’alle levypinnalle. Resilver-toiminnon aikana oireilu jatkui ja oli pahimmillaan perjantaina illalla. Asialle ei keksitty mitään helpotuksia ja oireet menivätkin ohi melko pian. Resilver kestää noin 24h. Pakassa olevissa levyissä havaittiin vielä lisää virheitä enteileviä SMART-lukuja ja kaksi levyä lisää on sittemmin vaihdettu.
Levyt
Siian levyt ovat Western Digitalin 7200 RPM Black -levyjä. Niitä on 56 kappaletta Supermicron 4 räkkiyksikön levykehikoissa, joita on Siiassa kaksi. Molemmat ovat 4x 3 Gbit/s SAS-kaapelilla kiinni levyohjaimessa.
Valitettavasti levyjen kanssa on ilmeisesti ongelmia RAID-käytössä. Levyjen firmwaren ongelmista yksi on, että jos lukemisessa sattuu virhe, niin levy yrittää lukea uudestaan useita kertoja ennen epäonnistumista. Tämä on huono ominaisuus palvelinkäytössä, sillä Siian zfs-tiedostojärjestelmä osaisi kyllä tunnistaa ja korjata vaikka virheellisen levyltä tulevan datan. Olennaisesti levyn pitäisi antaa lukuvirhe heti tai hyvin nopeasti, jotta tieto haettaisiin seuraavalta levyltä.
Vaikka ongelma on tiedostettu ja levyjä aiotaan vaihtaa Hitachin valmistamiin (olematon saatavuus hidastaa vaihtoa), esiintyneet häiriöt eivät välttämättä johdu näistä levyistä. On vielä tässä vaiheessa mahdotonta sanoa onko tällä ongelmalla mitään tekemistä esiintyvien häiriöiden kanssa.
ZFS Intent Log
Siikassa on 4 kpl HP:n 60 GB SSD-levyjä, joita käytetään muun muassa ZFS Intent Login tallentamiseen. Tällä järjestelyllä Siika toimii erittäin suorituskykyisesti. Eräs tuoreemmista havainnoista on, että jos ZIL:n ulkoinen loki poistetaan käytöstä, jolloin ZIL kirjoitetaan itse pakan levyille, niin NFS:n pätkiminen loppui.
Jos ZIL:n loki on SSD-levyillä, levyjärjestelmä toimii erittäin suorituskykyisesti, paitsi että ajoittain ainakin resilverin ja scrubin aikana on ilmennyt hidasteluja ja tökkimisiä. Jos SSD:t on poistettu käytöstä, tökkimisiä ei ole havaittu. Toisaalta suorituskyky on paljon heikompi. Ylläpito kokeili myös yhden varakovalevyn käyttämistä ZIL-lokina, mutta oireet tulivat takaisin eli vika ei välttämättä ole itse SSD-levyissä.
Ilmeisesti ZIL liittyy jollain tavalla oireiluun, mutta se miten, on vielä epäselvää. Ylläpito testailee Muikku-varmuuskopiopalvelimella, sillä siinä on vastaava levyjärjestelmä ja OpenIndiana-käyttöjärjestelmä, mutta mahdollinen tökkiminen ei näy jäsenpalveluissa.
Valitettavasti kunnes ongelmat selviävät, levyjärjestelmä toimii hieman hitaammin. Testit pyritään tekemään ilman häiriöitä jäsenpalveluille, mutta täysin niiltä ei voitane välttyä. Pahoittelut ja toivotaan että muuten hyvin toiminut Siika-levyjärjestelmä saadaan toimimaan yhtäaikaa luotettavasti ja nopeasti.