Keeawayt
- Facebookin tekniset ongelmat olivat valitettavia, mutta ongelma olisi todennäköisesti ratkennut paljon nopeammin, jos se ei olisi tukeutunut niin moniin toisiinsa yhdistettyihin järjestelmiin.
- Järjestelmän vikoja ei voi estää kokonaan, mutta on tapoja vähentää niiden todennäköisyyttä.
- Varmuussuunnitelmat sille, milloin (ei jos, milloin) järjestelmä epäonnistuu, voi tehdä eron "ärsyttävän" ja "katastrofaalisen" välillä.
Äskettäinen Facebook-kriisi osoittaa, kuinka toisiinsa yhdistetyt järjestelmät epäonnistuvat ja miksi meidän ei pitäisi käyttää niitä kaikkeen.
Facebookin, WhatsAppin ja Instagramin menettäminen useiksi tunteiksi maanantaina oli hankalaa, vahingollista yrityksille ja joissain tapauksissa lähes katastrofaalista. Facebookin mukaan kaikki johtui sen verkkoa koordinoivien reitittimien konfiguraatiomuutoksista.
Se on järkevä selitys, mutta se tosiasia, että tällainen yksittäinen virhe voi pysäyttää Facebookin lisäksi myös muut Facebookin omistamat järjestelmät, on hieman hälyttävää.
Yksi väärä reitittimen asetusten muutos aiheutti sen, että useat palvelut ja jopa VR-kuulokkeet lakkasivat toimimasta kokonaan. Tämän lisäksi Facebookin oman myöntämän mukaan sillä oli myös peräkkäinen vaikutus yrityksen palvelinkeskusten kommunikointiin, mikä pysäytti kaikki heidän palvelut.
"Riittaaminen toisiinsa yhdistettyihin järjestelmiin tuo mukanaan luontaisen järjestelmän tai jopa palvelun epäonnistumisen riskin", sanoi Francesco Altomare, GlobalDotsin vanhempi tekninen myyntiinsinööri Lifewiren sähköpostihaastattelussa,.
"Tämän pelottavan riskin torjumiseksi yritykset käyttävät SRE:n (System Reliability Engineering) periaatetta sekä muita työkaluja, jotka kaikki käsittelevät järjestelmän infrastruktuurin jokaiseen kerrokseen sisäänrakennettua eritasoista redundanssia."
Mikä voi mennä pieleen
On syytä huomata, että kun tällainen järjestelmä epäonnistuu, se vaatii yleensä täydellisen myrskyn, jossa asiat menevät pieleen. Se on vähemmän kuin korttitalo, joka odottaa putoamista, vaan enemmän kuin paljas lämpöpoistoaukko pienen kuun kokoisella avaruusasemalla.
Useimmat yritykset ryhtyvät toimiin varmistaakseen, että se yksi asia, joka voi viedä kaiken kaaokseen, ei koskaan tapahdu – mutta joka tapauksessa, se voi tapahtua.
"Odottamattomat epäonnistumiset ovat osa liiketoimintaa ja voivat johtua työntekijöiden huolimattomuudesta, internet-palveluntarjoajan verkon vioista tai jopa pilvitallennuspalveluista", sanoi Sally Stevens, FastPeopleSearchin toinen perustaja. sähköpostihaastattelu.
"…Niin kauan kuin tarvittavat toimenpiteet järjestelmän suojaamiseksi, kuten varmuuskopiot, paikan päällä oleva reititin ja porrastettu käyttöoikeus, on otettu käyttöön, nämä viat ovat melko epätodennäköisiä." Vaikka turvalaitteiden armeijallakin on mahdollista, että lynchpin epäonnistuu.
Jos järjestelmä, joka ohjaa asioita, kuten ensisijaisia kosketusmuotoja, laitteita, ovia jne., epäonnistuu, tulokset voivat olla merkittäviä. Lievistä haitoista täysin katastrofaalisiin, riippuen siitä, kuinka paljon yksilöt ja yritykset luottavat siihen kaikkeen.
"On myös olemassa riski, että hakkerit pääsevät järjestelmään mistä tahansa vähiten suojatuista laitteista, kuten jääkaapeista ja uunileivänpaahteista", Stevens lisäsi, "mikä voi johtaa tietovarkauksiin ja kiristysohjelmiin."
Kuinka voimme valmistautua
Ei voida taata, että järjestelmä ei koskaan epäonnistu, mutta on olemassa toimenpiteitä, joilla voidaan joko vähentää epäonnistumisen todennäköisyyttä tai korjata vika sujuvammin. Kahden lähestymistavan yhdistelmä, joka yhdistää vikasuojat ja vastatoimenpiteet valmiussuunnitelmiin ja varajärjestelmiin, olisi ihanteellinen.
"Näiden tehokkaasti käsiteltyjen kolmansien osapuolien tuotteiden ja palvelujen aiheuttamien vaarojen eliminoimiseksi on kolmannen osapuolen riskienhallintaan liittyvät roolit ja velvollisuudet määriteltävä tarkasti", sanoi Daniela Sawyer, FindPeopleFastin perustaja ja teknologiajohtaja. sähköpostihaastattelussa: "Kukoistaakseen näissä uudessa ympäristössä riskinh altijoiden on ymmärrettävä tällaisen hienostuneen ekosysteemin olennaiset osat."
Facebookille, WhatsAppille ja Instagramille tapahtuva oli valitettavaa, mutta toivottavasti myös silmiä avaavaa. Ihmisten, jotka luottavat toisiinsa yhdistettyihin järjestelmiin, on ymmärrettävä, että oikea asia, joka menee pieleen, voi häiritä kaiken. Ja toimenpiteitä on otettava käyttöön (tai tarkasteltava ja hiottava), jotta tällaiset häiriöt vähenevät todennäköisemmin ja vaikuttaisivat vähemmän.
Facebookin tapauksessa sen ongelma ei ollut reitittimen ongelmat, vaan pikemminkin se, että melkein koko sen ekosysteemi oli yhteydessä kaikkeen muuhun. Siten Facebookin (palvelun) ollessa alhaalla Facebookin (yrityksen) täytyi käyttää paljon enemmän aikaa ja energiaa yksinkertaisesti asian järjestämiseen ja käsittelemiseen. Jos se joko ei käyttäisi niin syvälle juurtunutta, toisiinsa yhdistettyä järjestelmää tai jos sillä olisi varasuunnitelmat tällaisen katkon käsittelemiseksi, sen korjaaminen olisi todennäköisesti kestänyt paljon vähemmän aikaa.