Perfect Storm in the Clouds

I helgen frågade min storasyster om det där Molnet! Storasystern är specialiserad på organiska och miljövänliga husisoleringstekniker och jag tyckte jag fick till en rimligt bra förklaring av grundläggande ”Vad, Hur och Varför” i ämnet.

Sedan kom hennes slutfråga: ”..men det låter ju inte så säkert! (tillgänglighetsmässigt)”

”Jora! Det är ju hela idén, eller bland annat i alla fall, till låg kostnad dessutom!” svarade jag och slängde ur mig en harrang om redundancy, virtualisering, mirroring och web services etc.

Lite pinsamt dagen efter så läser jag om hur “Amazon explains its cloud disaster” och deras “post-mortem assessment of the mess”

Förutom att skänka en snabb tanke till stackars drabbade företag så infann sig ju snart frågan:

Kunde det rimligen ha testats bort?

Om man orkar läsa hela Amazons förklaring så ser man att den perfekta stormen av följdeffekter startade med ett ”litet” misstag, en felrouting i samband med en uppgradering genomfört av AWS teamet på Amazon. Det var alltså inte någon kund som installerat nån skum programvara eller någon annan ”externt initierad dumhet”. Då funderar man ju kanske: Hur mycket, eller snarare kanske lite, testar vi ”baksidan” på våra system? Vi är säkert redan duktiga på att trycka in felaktiga värden på end-user sidan, klurar ut massa fiffig negativ testning, ”sabotagetestning” och kanske skjuter vi även in SQL-satser i inmatningsfält etc,

Men hur ser det ut med admingränssnitten?

”Där behöver vi inte testa, de som sitter där vet ju vad de gör!” tänker man kanske. Och så är det säkert till stora delar. Samtidigt är den potentiella effekten av en felaktig handling väldigt signifikant!

Hmm, jag har inga direkta svar i ämnet men tanken på att området kanske inte är helt genomlyst och exponerat sitter kvar i huvudet, Cloud eller inte!