VMware ESXi 物理マシンの 1台に格納されている仮想マシンが、すべて突然アクセスできなくなりました。Western Digital の HDD を交換するも、2分フリーズ問題に悩まされる日々。原因は何だったのでしょうか。



いやーびっくりした。
ある日突然、VMware ESXi マシンの 1台が反応しなくなりました。

ESXi マシン自体は複数用意してあり、別物理マシンで動いているセカンダリサーバは健在。落ちたマシン分も、バックアップしてあるイメージファイルを別のマシンに移動すれば、何事も無かったかのようにサービスは継続できますが、とりあえず片肺飛行状態なので、物理的にこのマシンを修復しなければなりません。

反応しなくなった原因は?

物理マシン上でホストしていたマシンが一斉に反応しなくなったことから、個別のゲスト OS にトラブルが発生したわけではないようです。

ESXi ハイパーバイザそのものを再起動してみますが、そもそも BIOS が HDD を見つけられなかったり、S.M.A.R.T の検出に失敗したりした挙げ句、HDD からは

「……カコッ、…..カコッ」

と何もしていないのに植物状態っぽいノイズが聞こえてきます。

どうやら、ここしばらくの猛暑でHDD が突然死したらしく。
Western Digital WD5000AAKS という、わりかし古めな 500GB HDD を使用していたので、ついに寿命を迎えたようです。

DNS やメールはもちろん二重化しており、セカンダリサーバは完全に別の ESXi マシンで稼働していますが、そちらでしのいでいる間に、死亡した ESXi マシンを復活する必要があります。

Memtest86+ を走らせてみますが、メモリに異常は見られません。

HDD を、余っていた中古 1.5TB HDD の WD15EADS に換装して、VMware ESXi 4.1.0 をインストール。インストール後の ESXi も問題なく HDD ブートするようで一安心です。

バックアップしておいた仮想マシンの vmx ファイルなどのイメージをリストアして、起動してみますが、問題なく起動しているように見えました。

HDD busy のまま 2分帰って来ない!?

ところが。メンテのため Windows Server 2008 仮想マシンにログオンして色々やっていると、仮想マシンの動作が 2分ぐらい止まります

物理マシンの青いアクセスランプが付きっぱなしになることから、何らかの HDD アクセス待ちで止まっていることは間違いなさそうです。

止まるタイミングも実にバリエーションに富んでおり、

  • 「ゲスト OS 起動中」
  • 「Win キーを押して Windows メニューが表示される直前」
  • 「エクスプローラを起動しようとした瞬間」

など、ようは HDD に負荷をかけてこれから何かしようか、って瞬間に止まりやがります。ただ HDD 交換前と違い、待たされるだけで、いずれ動作が再開するのです。

Windows Server 2008 だけかと思いきや、CentOS 仮想マシンも CUI ベースでミニマムインストールだから目立たないだけで、やっぱり 2分程度停止することが判明。

たまたま SPAM メールが大量に届いたとか、ウィルスメールのチェックに時間がかかっているのかと思いましたが、メールサーバを落としても同様なので、やはり仮想マシンに罪は無いようです。

2分フリーズの原因はもしかして…

交換に手間のかからないところから色々と疑ってみるかと。

  • S-ATA ケーブルの交換
  • マザーボード上の S-ATA 刺し位置の変更
  • 同時に使用している DVD-Multi ドライブを外す
  • マザーボード BIOS のアップデート

といった順番で試みるも、2分フリーズ現象は収まりません。

猛暑で逝ったのは HDD じゃなくてマザーボードの方だったんじゃ…

と思わずイヤーな仮説が浮上してくるのを振り払って、仮想マシンのバックアップを全て取り直し、さらに別の HDD に交換してみます。Seagate ST31500341AS Barracuda 7200.11。1

直った…..。

直りましたよ。何事も無かったかのように、フリーズもせず動作するようになりました。

HDD 交換を  2回繰り返し復旧

都合、Western Digital HDD を 2回ボツにして交換したことになります。

NG だった WD15EADS の個体チェックまでは行っていませんが、以前 RAID 5 アレイのメンバとして使っていたときは問題なかったことを考えると、VMware ESXi 4.1.0 + ASUS P7P55D + Western Digital WD15EADS の相性問題という線も捨てきれません。

ところで…..物理マシンは復旧したものの、復旧時に Active Directory サーバのトラブルがさらに。

つづく。


  1. 不具合対象製品じゃないの? と思う人はかなりの通か、たまたま同時期に買っちゃった人ですが、手持ちのシリアルは問題ないようです。 []