Palvelimet ja katkokset – käyttökatkojen estäminen

Maailmaa mullistava digitaalinen maailma pyörii pitkälti palvelimien varassa. Palvelimet ovat niin sanottuja näkymättömiä moottoreita, jotka pitävät kaiken verkkokaupoista ja pankkijärjestelmistä sosiaaliseen mediaan ja digitaaliseen viihteeseen asti käynnissä. Kun palvelin tai palvelimia kaatuu tai yhteys katkeaa, käyttäjä huomaa tämän heti. Tällöin sivusto ei lataudu, maksutapahtuma keskeytyy tai peli pysähtyy kesken. Olipa kyse mistä ongelmasta tahansa, yksi asia on varmaa: asiakkaan tai käyttäjän luottamus kärsii. Katkokset eivät ole siis vain teknisiä häiriöitä, vaan myös todellisia liiketoiminnallisia riskejä, jotka voivat pahimmillaan maksaa miljoonia ja karkottaa asiakkaat ja käyttäjät. Tämän takia palveluntarjoajien on tärkeää panostaa järjestelmän vakauteen riippumatta muista häiriöistä.

Tässä artikkelissa tulemme sukeltamaan palvelimien ja katkosten maailmaan. Keskitymme tapoihin, millä käyttökatkoja voidaan ehkäistä ja pohdimme myös mitä tekniikoita ja menetelmiä palveluntarjoajat käyttävät pitääkseen palvelut jatkuvasti saatavilla. Lisäksi tarkastelemme myös toimialoja, jotka eivät yksinkertaisesti voi hyväksyä katkoksia, ja avaamme, miten teknologiset ratkaisut ovat mullistaneet koko palvelininfrastruktuurin käsitettä.

Alat jotka eivät siedä katkoja ja monipaikkainen rakenne

Tietyt alat eivät siedä toimikatkoja. Hyvä esimerkki on iGaming-ala, jossa pienikin viive, ongelma tai katkos voi johtaa pelaajan menettämiseen. Tämä pätee varsinkin rekisteröintivapaisiin kasinoihin, joiden koko idea on tarjota nopeutta ja vaivattomuutta poistamalla rekisteröintiin kuluva aika ja muut ylimääräiset vaiheet hyödyntämällä Pay N Play -ratkaisuja. Jos tällainen alusta kaatuu kesken pelikierroksen, pelaaja poistuu todennäköisesti välittömästi, sillä hän saattaa muutenkin pelata kiireessä (lähde: https://kasinoilmanrekisteröitymistä.net). Tätä tukee myös se, että koko alan kilpailu on kovaa, jonka takia pienikin katkos voi karkottaa pelaajan tai pelaajat kokonaan.

Juuri tämän takia palveluntarjoajien on rakennettava heidän järjestelmänsä monipaikkaisesti. Mitä tämä edes tarkoittaa? Tämä tarkoittaa käytännössä sitä, että tietoa ja laskentatehoa on sijoitettu useaan eri datakeskukseen. Tällöin kaikki ei riipu yhdestä palvelimesta tai edes yhdestä datakeskuksesta, kun aina on saatavilla niin sanottu varapalvelin ja varadatakeskus. Kun asiat on tehty oikein, käyttäjät eivät edes huomaa katkoksia, sillä palvelut pystyvät jatkamaan saumattomasti ilman pienintäkään viivettä.

Pitää myös muistaa, että tällainen monipaikkainen rakenne ei ole pelkkä varotoimenpide, vaan se on keskeinen osa jatkuvuuden hallintaa. Tämä näkyy esimerkiksi siinä, että kun kuormitus yhdessä keskuksessa kasvaa, liikennettä voidaan siirtää toiseen keskukseen. Näin estetään mahdollinen ylikuormittuminen ja varmistetaan, että järjestelmä toimii sujuvasti myös silloin, kun käyttäjien määrä kasvaa nopeasti. Näin saadaan luotua keskeyttämätön palveluverkosto.

Automaattinen kuormantasapainotus ja älykäs reititys

Monet katkokset eivät usein johdu vain yhdestä yksittäisestä viasta, vaan siitä, että palvelin ei enää vain yksinkertaisesti kestä kaikkea liikennettä. Kun tuhannet käyttäjät käyttävät tai liittyvät samanaikaisesti palveluun, se kuormittuu äkillisesti, jolloin myös ylikuormittumisen riski kasvaa. Kuten ylempänä sanottiinkin, tämä voidaan ratkaista monipaikkaisella rakenteella. Tätä rakennetta voidaan tukea automaattisella kuormantasapainotuksella, joka jakaa pyynnöt automaattisesti eri palvelimille. Näin mikään yksittäinen palvelin ei joudu liiallisen kuormituksen alle, jolloin koko palvelinverkosto on joustavampi ja kestävämpi.

Tällainen automaattisuus voidaan saavuttaa älykkään reitityksen avulla. Se ohjaa liikenteen aina sille palvelimelle, joka on nopein ja vakain. Esimerkiksi, jos yksi palvelin tai reitti on kuormittunut tai pois käytöstä, tämä teknologia ohjaa liikenteen muualle. Tässä menetelmässä myös sisällönjakeluverkot eli CDN-ratkaisut ovat keskiössä, sillä ne tuovat palvelun lähelle käyttäjää. Tämä yksinkertaisuudessaan tarkoittaa sitä, että pelit, sivustot ja sovellukset latautuvat nopeasti riippumatta siitä, missä päin maailmaa ne sijaitsevat.

Kaiken yllä mainitun teknologian merkitys korostuu varsinkin sellaisilla osa-alueilla, joissa reaaliaikaisuus toimii kaiken perustana. Hyviä esimerkkejä näistä osa-alueista ovat muun muassa live-pelaaminen, pörssi tai verkkopankin maksutapahtumat, joissa sekunnin murto-osankin viivästys voi aiheuttaa suuria ongelmia. Eikä tule yllätyksenä, että juuri tämän takia näitä järjestelmiä pidetään näkymättöminä sankareina.

Backup-järjestelmät ja katastrofipalautussuunnitelmat

Vaikka järjestelmä olisi kuinka moderni ja kestävä, mikään ei ikinä ole täysin immuuni häiriöille. Tämän takia varmuuskopiot ja palautussuunnitelmat ovat välttämättömiä asioita. Eli, palveluntarjoajien pitää ottaa varmuuskopioita tiedostoista ja järjestelmäkokonaisuuksista. Näin voidaan ehkäistä mahdollisten palvelin- tai tietokantahäiriöiden aiheuttamaa vahinkoa, kun palauttaminen voidaan suorittaa nopeasti ja luotettavasti.

Tässä kontekstissa nousee esiin termi katastrofipalautussuunnitelma. Tällä tarkoitetaan menetelmää, jolla koko palvelu voidaan palauttaa kerralla. Usein näin suuria varmuuskopiointeja ja palautuksia ladataan vain kerran kuukaudessa tai pari kertaa vuodessa. Tätä varten tehdään usein myös harjoituksia, jotta henkilöstö tietää tarkalleen, miten toimia, jos koko palvelu korruptoituu tai muuten vaan putoaa kokonaan pois pelistä. Vaikka katastrofipalautussuunnitelma voi kuulostaa liioittelulta, todellisuudessa se on nykypäivänä monilla aloilla arkea, varsinkin sellaisilla, joilla katkokset eivät vain yksinkertaisesti ole vaihtoehto.

Automaattinen valvonta ja ennakoiva analytiikka

Katkokset harvoin syntyvät tyhjästä tai tapahtuvat ilman, että niistä olisi haju. Useimmiten niitä ennen palvelimet tai datakeskukset antavat pieniä varoitusmerkkejä, jotka kertovat, että jotain on vialla. Miten tämä toimii? Tästä voidaan kiittää valvontajärjestelmiä, jotka tarkkailevat jatkuvasti palvelinten tilaa. Nämä järjestelmät mittaavat muun muassa prosessorin kuormaa, muistin käyttöä, vasteaikoja ja sovellusten suorituskykyä. Jos jokin mittari nousee yli normaalin rajan, järjestelmä antaa varoitusmerkin.

Monissa tapauksissa tällainen hälytys johtaa automaattisiin korjaustoimenpiteisiin. Jos palvelin esimerkiksi jumittuu kokonaan, se voidaan poistaa hetkeksi kuormasta ja käynnistää huollon jälkeen uudelleen. Näin vältetään se, että virhe leviää ja aiheuttaa katkoksen. Tämä on viety vielä pidemmälle ennakoivalla analytiikalla, joka tunnistaa trendejä ja ennustaa, milloin virheitä saattaa syntyä. Tällöin palveluntarjoaja voi reagoida niihin ennen kuin varsinainen virhe edes ehtii aiheuttamaan mitään.

Tällainen jatkuva valvonta on niin sanottua taustatyötä, jota käyttäjät eivät näe. Heille palvelu toimii saumattomasti ja yksinkertaisesti, vaikka todellisuudessa kaiken takana on valtava määrä koodia, automatiikkaa ja tarkkaa seurantaa. Nämä ovat niitä asioita, jotka usein erottavat jatkuvasti pystyssä olevan palvelun ja katkeilevan palvelun.

Pilvipalvelujen SLA ja korkea saatavuus

Pilvipalvelut ovat nykyisen tietoteknisen rakenteen ydin, ja ne ovat muuttaneet käsityksen ja menetelmän siitä, mitä käyttökatkojen hallinta tarkoittaa. Suuret toimijat, kuten AWS, Azure ja Google Cloud, tarjoavat palvelutasosopimuksia, joiden päämyyntivalttina on lupaus, että käyttövarmuusprosenteista yleensä 99,9 %:sta aina 99,999 %:iin saakka. Näitä sopimuksia kutsutaan myös termillä SLA. Tämä tarkoittaa käytännössä sitä, että palvelu on toiminnassa ja saatavilla lähes jatkuvasti, vain muutaman minuutin mahdollisella katkoksella vuodessa.

Tällainen korkea saatavuus toteutetaan monella tapaa. Tärkeintä on automaattisesti tehty palveluiden replikointi pilvessä ja se, että jokaisella palvelimella on omat varmistuksensa. Tällöin saadaan luotua tilanne, jossa yksi palvelimen kaatuminen ei haittaa, sillä uusi käynnistyy sekunneissa tilalle. Tässäkään tilanteessa käyttäjä ei usein edes huomaa mitään, sillä itse palvelu ei katkea. Tämä taas luo turvaa ja vahvistaa palveluntarjoajan ja käyttäjän luottamuksellista sidettä merkittävästi.

SLA ei ole kuitenkaan lupaus, vaan sen toteutumista täytyy seurata jatkuvasti, jotta mahdollisiin poikkeamiin tai puutteisiin voidaan reagoida välittömästi. Pilvipalveluntarjoajien liiketoiminta perustuu pitkälti siihen, että ne pystyvät ylläpitämään lupaustaan, jonka takia ne investoivatkin valtavia summia toimintansa niin sanottuihin elimiin, kuten valvontajärjestelmiin, automaatioon ja jatkuvaan kehitykseen.

Suunniteltu huoltokatkottomuus ja jatkuvat päivitykset

Teknologia kehittyy kovaa vauhtia ja järjestelmiä päivitetään sen myötä jatkuvasti. Perinteisesti jatkuvat päivitykset tarkoittaisivat huoltokatkoja, joiden aikana palvelu olisi poissa käytöstä. Nykyään tilanne on kuitenkin toisenlainen kiitos rolling update -mallin, joka on järjestelmä, joka mahdollistaa vaiheittain tehdyt päivitykset. Tällöin osa palvelimista päivitetään, kun toinen osa jatkaa palvelun ylläpitoa, jolloin katkosta tai muita viiveitäkään ei synny.

Tämä malli mahdollistaa sen, että päivityksiä voidaan tehdä useammin ja joustavammin ilman, että tarvitsee varautua katkoksille tai ilmoittaa niistä. Kiitos tämän, tietoturva pysyy jatkuvasti ajan tasalla ja mahdolliset uudet ominaisuudet saadaan käyttöön nopeasti. Huoltokatkot ovat siis todella jäämässä historiaan, sillä yhä useampi palveluntarjoaja on alkanut hyödyntää rolling update -mallia.

Näin palvelu pysyy aina saatavilla ja pystyy silti päivittymään jatkuvasti. Palveluntarjoajan näkökulmasta tämä on merkittävä kilpailuetu, sillä se tarkoittaa nopeampaa reagointia markkinoihin ilman riskiä käyttäjäkokemuksen häiriintymisestä.

UKK – Palvelimet ja katkokset

Miksi käyttökatkot ovat niin kriittisiä?

Käyttökatko vaikuttaa välittömästi käyttäjään, kun hän ei voi enää käyttää palvelua. Tämä voi johtaa taloudellisiin tappioihin, maineen menettämiseen ja käyttäjien siirtymiseen kilpailijoille. Erityisesti toimialoilla, joissa reaaliaikaisuus on tärkeää, katkot voivat olla kriittisiä ja kohtalokkaita.

Miten palvelu voidaan pitää lähes aina pystyssä?

Yhdistelmä useista ratkaisuista luo kokonaisuuden, joka takaa sen, että palvelu pysyy lähes aina pystyssä. Muun muassa monipaikkainen rakenne, kuormantasapainotus, varmuuskopiot, automaattinen valvonta, pilvipalvelujen korkea saatavuus ja huoltokatkottomat päivitykset yhdessä muodostavat järjestelmän, joka ei välttämättä ehkäise häiriöitä, mutta pystyy kestämään ne ilman katkoksia.

Onko täydellinen katkoksettomuus mahdollista?

Täysin virheetöntä järjestelmää ei ole olemassa. Teknologia ja ihmiset voivat aina kohdata odottamattomia ongelmia. Tavoitteena on kuitenkin minimoida katkokset niin, että ne ovat käytännössä huomaamattomia käyttäjälle. Kun palveluntarjoaja investoi vahvaan rakenteeseen ja valvontaan, katkokset pysyvät harvinaisina ja lyhytkestoisina.