ブログ

堅牢さは人が作る #143

こんばんは、duckです。

突然ですが、システム障害の話です。

・6月7日に発生したニフティクラウドの障害
・6月14日に発生したAmazon(AWS)のシステム障害
・6月20日に発生したファーストサーバの障害

なんだか偶然とは思えぬほどに、このところ障害が連発しています。

障害レポートを見ると、ニフティやAmazonは多重で障害対策を取っていたことが分かります。(ファーストサーバはレポートを読んでいないので、詳細不明)
にも関わらず、システム停止を発生させてしまったのです。

真の原因は分かりませんが、私は「人」の問題ではないか?と思っています。

・「堅牢なシステムだから壊れることはないだろう」という油断は無かったか?
・障害発生時の対応手順は明確だったか?
・定期的に障害発生時の訓練をしていたか?

どんなに堅牢で素晴らしいシステムがあったとしても、それを継続稼動するためには、「人」(=運用体制)が最も大事だと思っています。
単なる人の数だけではなく、その組織文化を含めてです。

思えば原発の運用とかも同じことが言えるような気がします。
堅牢なハードウェアで作られているから、と安心しない。
何年、何十年に渡って安定運用する体制を作ることが大事なのかな、と。

イマイチまとまらない話ですが、この辺で・・・

今日も1日に感謝。

PVアクセスランキング にほんブログ村