こんばんは、duckです。
突然ですが、システム障害の話です。
・6月7日に発生したニフティクラウドの障害、
・6月14日に発生したAmazon(AWS)のシステム障害、
・6月20日に発生したファーストサーバの障害、
なんだか偶然とは思えぬほどに、このところ障害が連発しています。
障害レポートを見ると、ニフティやAmazonは多重で障害対策を取っていたことが分かります。(ファーストサーバはレポートを読んでいないので、詳細不明)
にも関わらず、システム停止を発生させてしまったのです。
真の原因は分かりませんが、私は「人」の問題ではないか?と思っています。
・「堅牢なシステムだから壊れることはないだろう」という油断は無かったか?
・障害発生時の対応手順は明確だったか?
・定期的に障害発生時の訓練をしていたか?
どんなに堅牢で素晴らしいシステムがあったとしても、それを継続稼動するためには、「人」(=運用体制)が最も大事だと思っています。
単なる人の数だけではなく、その組織文化を含めてです。
思えば原発の運用とかも同じことが言えるような気がします。
堅牢なハードウェアで作られているから、と安心しない。
何年、何十年に渡って安定運用する体制を作ることが大事なのかな、と。
イマイチまとまらない話ですが、この辺で・・・
今日も1日に感謝。