論理障害

Storage

71605Qのファームウェアをアップデートをした

image3.png

バックアップも取らずにファームウェアのアップデートをすることが、どれだけ無謀なことか、この時はまだ知らない

image.png

image1.png

のんきにベンチなども

Storage Manegerがらみのエラーもなくなり、快調だったのは4日ほど

 

論理障害発生

いつものようにPCの電源を入れ、ちょっと用を済ませて戻ると

謎の起動不能メッセージ!?

 

再起動すると、RAID6アレイがダメだという

アレイは認識する、構成ディスクも正しくて全て正常

別のRAID0アレイの方は正常

RAIDの強制オンラインとか試したけどダメ

 

とにかく空いてるHDDにWindowsをインストールして起動

その間、間違えて貴重なFile Historyを消失

相当なショックの中Storage Manegerもインストールして、71605Qのファームウェアを元に戻してみるも変わらずで、アレイは認識するがコンフィグがダメとか何とか、意味不明

シンプルな状態にしようなどと思い、MaxCacheをDeleteして、貴重なFile Historyを消失して不要になったRAID0アレイもDeleteしたら、全てのアレイがいなくなった

とうもRAID0アレイとの干渉があったらしい

 

この時点で、もう、悪あがきは事態を悪化させるだけと思い、おそらくDataは無傷という期待から出費覚悟で

データ復旧.com【デジタルデータリカバリー】|復旧率95.2%のデータ復旧・復元サービス
データ復旧.comは、14年連続データ復旧国内売上No.1。365日年中無休・最短即日復旧可能。トップエンジニアによる初期診断無料!累計413,491件のご相談実績、官公庁や上場企業の実績多数!HDD(ハードディスク)、RAID、NAS、サ...

なんてところに、HDD6台とRAIDカードを持って、新しい歌舞伎座に出向き半日

俺的にはなんだか妙に怪しいところだったし、対応もチャンとしてるんだか、怪しいんだか、不思議な感じで

「豊田商事」なんてのを思い出したりするのは、きっと相当な変人の感覚なんだろう

 

想定内ギリギリ、新品構成を買い直せるぐらいの見積もりだったりもしたけれど、構成データが壊れてる「論理障害」という診断で、「復旧出来る」ということなのでお願いした

 

完全復旧

壊れたのが先週の月曜日、持ち込んだのが翌火曜、上がりは予定通りで次の月曜になった

2013-08-29-002.jpg

宅配で届いた

復旧可能らしい持ち込んだ元のHDD6台とRAIDカードやケーブルに、初めから復旧見積もりに入っていた、MyBookとかいう復旧データ入りHDD1台

ほとんど完璧に復旧出来ているらしい

 

日本データテクノロジーにバックアップはない、ということらしいけれど、機密情報などの持ち合わせはないから、まあどうでも良かったりもする

もう、何が起こるかわからないから、HDDを再利用してのRAID構築前に復旧データを別のHDDに丸々コピー

2~3時間で終わると思ったけれど、復旧データにはいろんな残骸も含まれていてかなり大きく、MyBookとかが特に遅いわけでもなかったけれど、コピーに10時間程度

復活作業は翌日に持ち越したけれど、復旧データは完璧な様子

 

 

原因は何だったの

「論理障害」なんて、もしかしたら聞いたのも始めてかも知れないし、RAIDアレイの設定情報が壊れるなんてことは、「操作ミス以外あり得ない」などと思っていたけれど、そのあり得ないことが現実に起こった、何の前触れもなく突然

71605Qのファームウェア・アップデートが引き金になった可能性は相当高いから、アップデート前は常識に従って、しっかりバックアップを取るとしても、構成やHDDに問題はないのだろうか

こんなことは、滅多にはないことかと思いきやそうでもないらしく、日本データテクノロジーの人によると、複雑な構成を組んでると起こることらしい

日本データテクノロジーの人が教えてくれるのはそこまでで、考えられる原因なんかのアドバイスを求めたがダメだった

Adaptecに教わろうにも、障害時のDataなんか要求されそうだし、そんなものないし、もともと日本のサポートは頼りないから、勝手に想定してみる以外なさそうだ

 

自分で考えてみる

Constellation CSの問題はあり得るけど、情報もないし、やはりRAID6と複雑な構成が原因なんだろうか

 

複雑な構成

RAID6(Constellation CSx6)+RAID0(WD Blackx2)+RAID1EのMaxCache(Intel520x4)なんてのが複雑な構成になるとは思えないけれど、RAID0のアレイをDeleteしたら全部消えたりしたから、なにがしかの干渉があった可能性はあるだろう

問題はConstellation CSとWD Blackの混在にあるんでないか、と思ったりする

アレイが違えば混在にはならないと思っていたし、HDDのファームウェアだとか相性なんて事は、ほとんど意識しなかったけれど、71605QからはHDDのファームウェア・アップデートを簡単に出来たりする、それだけ関わりが深いということなのかもしれない

また、デスクトップ向けHDDとエンタープライズ向けのHDDの違いは、思うより大きいのかもしれない

 

RAID6

卓上計算上はダントツの冗長性を誇るRAID6だけど、複雑な構成には一役買うのだろう

障害発生時の復旧難易度は、今回痛いほど思い知らされたし、まだ経験はないけれど、単純なHDDの障害発生時のリビルドでも予想以上の負荷がかかるのかもしれない

書き込みパフォーマンスはそれなりに遅く、読みこみ時のアドバンテージもほとんど無い

あるのは容量効率のアドバンテージだけだけれど、その大容量化は、全滅時のリスクが増大する事にもなる

 

高嶺の花で、あこがれのRAID6だったけれど、素人は使わない方が良さそうだ

 

Adaptec ASR-71605Q

ファームウェアのアップデートで、ど素人でもすぐにわかるような改善があるのだから、深刻な問題が隠れていた可能性だってあるだろうから、論理障害の原因が71605Qにあった可能性もあるだろう

エンタープライズ向けの製品だからといって、完璧なデバッグなど不可能なのだから、特にリリースされたばかりの製品には、十分な用心が必要、なんて今更言うまでもないことかもしれないけれど

 

 

安全策

基本、安全策といえばバックアップしかないだろうし、論理障害の原因だって、全く見当外れなことを考えているのかもしれない

 

シンプルなRAIDを使う

RAID6は濡れ衣を着せられた可能性もあるとは思うけれど、少なくとも複雑なRAIDが障害発生時に厄介なことは確実で、パフォーマンスや容量効率にも、それほど魅力的なアドバンテージはなく、圧倒的だった冗長性も当てにはならない

ASR-71605Qなんて、一応ハイエンドなカードを使っていると、複雑なことをさせたくなるけれど、結局RAID10なんかがベストな選択になりそうで、それも4台構成なんかが無難なのだろうし、これ以上の大容量化はリスクを集中させてしまうだけ

 

デスクトップ向けHDDを、特に混在は避ける

単にASR-71605Qのバグが原因だったから、ほとんど無関係なのかもしれないけれど、複数台での使用、特にRAIDはメーカー非推奨の使い方になるのだから、出来るだけ避けた方が良いだろう

特にエントリークラスのHDDは、明らかに問題を起こしやすいと思うから、いくら安くても避けるべきだろう

 

さすがに4台構成には悲しすぎて戻れないけれど、6台のRAID10にして、ASR-71605Qにつながっていたデスクトップ向けHDDは全て外した

そして、日々のバックアップを心掛けることにした

 

 

コメント

タイトルとURLをコピーしました