Siika-levypalvelimen häiriöt

Joonas Kuorilehto / 15. joulukuuta 2011

Siika – Huuto

Tällä kertaa vähän teknisempää juttua niille joita kiinnostaa. Lyhyt yhteenveto: levypalvelimella on ollut pientä ajoittaista tökkimistä. Ongelmat ovat tiedossa, tarkkaa syytä selvitetään ja korjaus tehdään heti kun mahdollista. Kertokaa jos tällaisia halutaan jatkossa.

Siika-levypalvelin on toiminut pääasiassa erittäin hyvin. Sen suorituskyky on normaalitilassa havaittavasti parempi kuin aiemman levypalvelimen. Valitettavasti uusi levyjärjestelmä ei ole ollut aivan ongelmaton. Tässä artikkelissa joitain havaintoja ja teorioita. Osa asioista on vielä selvittämättä, mutta ajattelin että jäseniä saattaa kiinnostaa mitä ongelmien taustalla on ja mitä asioille on jo tehty.

Siian levyjärjestelmät:

  • tank: kotihakemistot, sähköpostit ja virtuaalikoneet
  • siilo: /siilo-tallennustila

Ongelmat alkoivat ilmenemään useiden viikkojen raskaan käytön jälkeen. Ensimmäisten oireiden ilmetessä tank-levyjärjestelmällä oli käynnissä rutiinitarkastus. Tarkastus oli oireiden ilmennessä kestänyt vajaan viikon ja oli edennyt 90 % asti. Yhtäkkiä kirjoitukset verkkolevylle kestivät kohtuuttoman kauan ja tästä aiheutui hidastelua www-palveluihin, lakan shelliin, irkkeihin ja muihin verkkolevyä käyttäviin palveluihin. Ylläpito keskeytti tarkastuksen kun sen epäiltiin mahdollisesti olevan häiriön aiheuttaja. Oireet lakkasivat lopetukseen.

Hetken tutkiskelun jälkeen muutama levyistä näytti SMART-tietojen perusteella olevan vaihdon tarpeessa. Virheellisiä sektoreita ei vielä ollut, mutta aiempien havaintojen mukaan jo ”pian virheelliset” sektorit enteilevät levyn rikkoutumista ja voivat aiheuttaa hidastelua. Kaksi oireilevaa levyä päätettiin vaihtaa varalevyihin (hot spare). Operaatiota kutsutaan zfs:ssä resilveriksi ja se vastaa jokseenkin RAIDin uudelleenrakennusta, mutta tapahtuu tiedostojärjestelmätasolla, ei raa’alle levypinnalle. Resilver-toiminnon aikana oireilu jatkui ja oli pahimmillaan perjantaina illalla. Asialle ei keksitty mitään helpotuksia ja oireet menivätkin ohi melko pian. Resilver kestää noin 24h. Pakassa olevissa levyissä havaittiin vielä lisää virheitä enteileviä SMART-lukuja ja kaksi levyä lisää on sittemmin vaihdettu.

Levyt

Siian levyt ovat Western Digitalin 7200 RPM Black -levyjä. Niitä on 56 kappaletta Supermicron 4 räkkiyksikön levykehikoissa, joita on Siiassa kaksi. Molemmat ovat 4x 3 Gbit/s SAS-kaapelilla kiinni levyohjaimessa.

Valitettavasti levyjen kanssa on ilmeisesti ongelmia RAID-käytössä. Levyjen firmwaren ongelmista yksi on, että jos lukemisessa sattuu virhe, niin levy yrittää lukea uudestaan useita kertoja ennen epäonnistumista. Tämä on huono ominaisuus palvelinkäytössä, sillä Siian zfs-tiedostojärjestelmä osaisi kyllä tunnistaa ja korjata vaikka virheellisen levyltä tulevan datan. Olennaisesti levyn pitäisi antaa lukuvirhe heti tai hyvin nopeasti, jotta tieto haettaisiin seuraavalta levyltä.

Vaikka ongelma on tiedostettu ja levyjä aiotaan vaihtaa Hitachin valmistamiin (olematon saatavuus hidastaa vaihtoa), esiintyneet häiriöt eivät välttämättä johdu näistä levyistä. On vielä tässä vaiheessa mahdotonta sanoa onko tällä ongelmalla mitään tekemistä esiintyvien häiriöiden kanssa.

ZFS Intent Log

Siikassa on 4 kpl HP:n 60 GB SSD-levyjä, joita käytetään muun muassa ZFS Intent Login tallentamiseen. Tällä järjestelyllä Siika toimii erittäin suorituskykyisesti. Eräs tuoreemmista havainnoista on, että jos ZIL:n ulkoinen loki poistetaan käytöstä, jolloin ZIL kirjoitetaan itse pakan levyille, niin NFS:n pätkiminen loppui.

Jos ZIL:n loki on SSD-levyillä, levyjärjestelmä toimii erittäin suorituskykyisesti, paitsi että ajoittain ainakin resilverin ja scrubin aikana on ilmennyt hidasteluja ja tökkimisiä. Jos SSD:t on poistettu käytöstä, tökkimisiä ei ole havaittu. Toisaalta suorituskyky on paljon heikompi. Ylläpito kokeili myös yhden varakovalevyn käyttämistä ZIL-lokina, mutta oireet tulivat takaisin eli vika ei välttämättä ole itse SSD-levyissä.

Ilmeisesti ZIL liittyy jollain tavalla oireiluun, mutta se miten, on vielä epäselvää. Ylläpito testailee Muikku-varmuuskopiopalvelimella, sillä siinä on vastaava levyjärjestelmä ja OpenIndiana-käyttöjärjestelmä, mutta mahdollinen tökkiminen ei näy jäsenpalveluissa.

Valitettavasti kunnes ongelmat selviävät, levyjärjestelmä toimii hieman hitaammin. Testit pyritään tekemään ilman häiriöitä jäsenpalveluille, mutta täysin niiltä ei voitane välttyä. Pahoittelut ja toivotaan että muuten hyvin toiminut Siika-levyjärjestelmä saadaan toimimaan yhtäaikaa luotettavasti ja nopeasti.

10 vastausta käyttäjälle “Siika-levypalvelimen häiriöt”

  1. Kiitos sanoo:

    Kiitos läpinäkyyvyydestä, näitä lisää 🙂

  2. Jani sanoo:

    > Tällä kertaa vähän teknisempää juttua niille joita kiinnostaa.

    Ilman muuta kiinnostaa, kiitoksia!

  3. sampod sanoo:

    Mielenkiintoinen kirjoitus ja hieno taidepläjäys tuo kuva :>

    Ilo saada näinkin tarkka tekninen raportti tilanteesta muutenkin kuin aktiivisesti ircciä seuraamalla. Toivottavasti ongelmat selviää.

  4. hakka sanoo:

    Tieto on aina hyvästä, ja sen jakaminen 🙂

    Tämmöiset artikkelit ovat aina tervetulleita, tietää missä mennään jolloin luottamus kasvaa.

  5. Kipe sanoo:

    Kyllä, ehdottomasti tälläiset artikkelit ovat tervetulleita. Vaikkei välttämättä kaikkea tajuakaan, saa kuitenkin hyvän yleiskuvan tilanteesta, miksi näin tapahtuu ja miten ylläpito toimii asian suhteen.

    Muutenkin Kapsin toimihenkilöiden blogipostaukset ovat tähän mennessä olleet mielenkiintoisia, valottavat mukavasti (irkin ohella) toimareiden panostusta ja varmasti lisäävät jäsenistön arvostusta toimareita kohtaan.

  6. vispi sanoo:

    Komppaan yllä olevia: lisää tilannetiedotuksia ja pohdiskelua!

  7. thejoni sanoo:

    Näitä on kerrassaan mielenkiintoista luettavaa!

    Tahdon näitä lisää, ehdottomasti.

  8. Antti Niemelä sanoo:

    Onkohan WD:n Black kovoissakin se liian nopea head park -ominaisuus defaulttina päällä. Greeneissähän tuo on päällä (liian tiukalla ajoituksella) ja aiheuttaa paljon ongelmia RAID käytössä. Tuskinpa tämä kuitenkaan on syypää Siikan ongelmiin.

  9. Tm_T sanoo:

    Tämä myös kiittää oikein mainiosta selvityksestä ja taiteesta. (:

  10. Valtteri Kiviniemi sanoo:

    WD:n desktop-levyistä puuttuu tuo blogipostauksessakin mainittu TLER-ominaisuus, eli jos levy havaitsee virheen niin se voi mennä kymmeniäkin sekunteja kestävään virheenkorjaus/debug-tilaan josta ei levyohjain tai tässä tapauksessa ZFS saa tietoa.

    Tämän vuoksi raid-käytössä (edes ZFS:n kanssa) ei kannata käyttää muita kuin raid-käyttöön tarkoitettuja levyjä (WD:n RE-sarja ja Seagaten Constellation ES-sarja). Olen itse havainnut omassa työssäni työskennellessäni ZFS-levypalvelimien parissa samoja ongelmia käytettäessä muita kuin raid-käyttöön tarkoitettuja levyjä. Ongelma tuntuu kasvavan sitä suuremmaksi mitä enemmän levyjä levypakassa on käytössä, eli tuollaisella yli 50 levyn configuraatiolla ongelmat ovat todennäköisiä.

    TLER:n sai ennen enabloitua kaikkiin WD:n levyihin WDTLER.exe -työkalulla, mutta uusissa WD:n levyissä tuo on estetty. Black-sarjan levyillä ei todennäköisesti edes ole mitään eroa RE-sarjan levyihin kuin hinta ja tuo TLER.

Vastaa