HIKINEN ILTAPÄIVÄ

Juha Lilja on Kymen Innovaatioyhdistyksen jäsen ja Ideakymi-kilpailun palkittu innovaattori,
siviiliammatiltaan suuren kemian alan yrityksen tietoturvasta ja IT-arkkitehtuurista vastaava johtaja.
Blogissaan hän kertoo kuinka innovaatiotoiminnasta tuttuja ”hulluja ratkaisuja” tarvittiin myös
Crowdstrike-yhtiön aiheuttaman maailmanlaajuisen Windows päivitysvirheen korjaamisessa.



Katastrofin uhka


Perjantai 19.7.2024 alkoi erikoisesti. Raahustin tietokoneeni luo noin klo 7.30, mutta shift-näppäimen
painallus ei herättänyt sitä. Liikuttelin hiirtä ja painelin näppäimiä, mutta mitään ei tapahtunut. Kaivoin
koneen esiin monitorin takaa ja avasin luukun – ruudulle rävähti bluescreen. Useista uudelleenkäynnistyksistä ja vikasietotilaan siirtymisyrityksistä huolimatta tilanne ei muuttunut.


Käynnistin kotikoneeni ja yritin päästä webmailin kautta sähköposteihin, mutta sekään ei toiminut.
Yrityksen Zoomiin sentään pääsin. Juuri kun olin hakemassa kupillista kahvia, puhelimeni soi. Soittajana oli
kollegani, konsernin teknisen IT:n johtaja, joka kertoi, että tilanne on vakava ja pyysi liittymään Zoom-
kokoukseen.Yhdistin työkuulokkeet kotikoneeseen ja liityin kokoukseen.


Zoom-kokoukseen oli liittynyt kelloaikaan nähden paljon väkeä: infrastruktuuripuolen ihmisiä Saksasta ja
Intiasta. Saksalainen serveripuolen teknikko oli juuri saanut yhteyden virtuaaliympäristöjen
hallintapalvelimeen ja kävi tilannetta läpi. Arviolta 80% palvelimista oli saavuttamattomissa, ja monilla
osallistujilla oli sama ongelma omien tietokoneidensa kanssa. Muualla maailmassa työpäivä on vasta
alkamassa. Sain henkilökohtaisia yksityisviestejä kollegoilta Suomesta ja Ruotsista: ”koneet eivät aukea.
Helpdeskiin ei pääse. Kuka voi auttaa”.


Syytä selvitellään


Tilanne vaikuttaa pahalta. Käyn hajanaisia tietoja päässäni läpi. Meillä on yli 4000 työasemaa ja reilut 400
palvelinta. Suuri osa vaikuttaa olevan pimeänä ja syytä tai parannuskeinoa ei toistaiseksi tiedetä. Syy voi
olla cyberhyökkäys tai tekninen ongelma. Tekninen ongelma vaikuttaa epätodennäköiseltä koska vaikutus
on näin laaja. Palautuminen tästä voi kestää viikkoja. Hetken pohdittuani alan esittää kysymyksiä
”tiedetäänkö mikä kaatumisen aiheuttaa?”, ”miksi kaikki tietokoneet eivät ole altistuneet – mikä on
yhteinen tekijä?”, ”onko uutisissa mitään?”.


Syynä vaikuttaisi olevan Crowdstrike -tietoturvaohjelmisto, koska virheilmoituksissa toistuu sana CSagent.
Hain hakusanalla ”Crowdstrike” tietoja viestipalvelu X:ssä ja heti tuli kymmeniä viestejä samasta
ongelmasta ympäri maailmaa. Suuri helpotus – emme ole yksin. Järjestelmien palauttaminen voi silti viedä
viikkoja, mutta oli silti helpottava tietää, että olemme osa suurempaa katastrofia emmekä yksittäistapaus.
Teknisen IT:n johtaja alkoi heti soittaa Crowdstriken tukinumeroon. Jonotus oli pitkä ja loppujen lopuksi
sieltä ei tullut mitään apua. Seurasimme aktiivisesti X:ää, Reddittiä ja muita palveluita.


Kello oli tässä vaiheessa noin kahdeksan aamulla, eli seitsemän keskieuroopassa. Pyysin kollegaa
ilmoittamaan konsernin tietohallintojohtajalle, joka nopeasti saapuikin mukaan Zoom -puheluun. Alun
kaaoksen jälkeen aloimme koordinoidummin noudattamaan incident response -suunnitelmaamme. Johtoa
täytyy informoida. Myös ulkoiselle tietoturvakumppanille täytyy ilmoittaa, sillä vaikka ongelma viittasikin
Crowdstrikeen, emme vielä tienneet mitä taustalla on ja miten sen voi korjata. Myös käyttäjiä tulee
informoida ja pyytää noudattamaan kunkin tehtaan omaa business continuity plania – eli suunnitelmaa,
joka kattaa sen, kuinka tuotantoa jatketaan vakavassa häiriötilanteessa, esimerkiksi kun it -järjestelmät ovat
poissa käytöstä. Kommunikoinnissa on haasteena se, että sähköpostijärjestelmä on osittain alhaalla.
Päätimme sähköpostin lisäksi käyttää Zoomin announcement -toimintoa tavoittaaksemme mahdollisimman
monet.


Juha Lilja

unsplash