ってわけで、しばらく前から続いている
doblogの記事。
運がわるいだけに見えるかもしれないけど、そうは思えなかったり。
なんでかってーと、「バックアップが必要になったとたん壊れた」&「RAID5の6台のうち2台が同時」ってのはそもそもの運用と設定のミスのパターンが濃厚だから。
まず 1つめの「バックアップが必要になったとたん壊れた」の話。これはおそらくバックアップドライブには書きこんではいたけどそのデータが生きているかどうかを常時チェックしていなかった可能性が大。
ディスクなんてのはいつかどっかエラーを起こすものだけど、チェックしないと見つからないもの。なので、保存用ストレージは定期的&ランダムに全体をナメてエラー部分がないか確認しないといけない。それを怠ると「必要になった時に、壊れていたことに気付く」ことが往々にしてある。
2つめの「RAID5の6台のうち2台が同時」ってのも似た話。RAIDにしても壊れた時にそれを検出できなければ意味がないのは上記のとおりだし、熱や振動や寿命の破壊が同期しないように、性能をわけたストレージを使うのが定石。(速度が必要ならそもそもRAID5なんか使うべきではない。同期型だし)
しかも、RAID5ってのはコストダウンには便利かもしれないけど、データの確実な保持を考えたら色々と面倒。diskの追加削除のときのリスクもたかいし。
というわけで、今回の doblogの事件は NTTデータ自体のサービスでありながら、その運用がヘボかった可能性が高いわけで(ってか、ある程度巻きもどるならともかく、復旧できないってのはおかしすぎ) ま、正直NTTデータも底がしれてるなってところですかね。
まさか、HDDサルベージ会社にもっていって、それで時間くってるならもっと笑いますが(笑)
ちなみに、私は自宅マシンでも本体→hourly backup(世代管理)→weekly backupと3世代バックアップして、かつ重要なものは外部マシンに同期かけてます。当然、backup storageは定期的(毎日軽く、毎月全セクタ)チェックかけてます。いつかどこかで不具合がおきる確率は多少あがっても、全ロスがなければそれでいいのです。
しかも、このあたりは全部自動化(監視ツールのおかげですが)してるのでログもとって不具合おきればすぐに携帯に連絡。一度設定すればあとは何もすることがないので運用コストはほぼ0。しかも安いデバイスで十分なので総額としても格安。
ま、google styleですな。実際、どんな激高いハードつかっても壊れるときはこわれるんすよ。鯖仕事やれば誰でもわかることですが。
ってわけで「なにやってんだか」って話ですなー。
これで運用まかせてくださいなんて仕事はふれませんな。