ネットワーク障害対応に苦戦...
先日、あるクライアント様のご担当者様から携帯に電話を頂いた。ネットワークが機能していないという。最初は、HUBの電源が抜けているんだろう...程度しか頭に浮かばなかったが、状況を電話で伺っていくうちに想定外の状況であることが分かってきた。
こうなると、現場に行かなくてはどうにもならない。丁度、お昼過ぎで、別のクライアント様との打ち合わせが終わったときだった。その後のスケジュールを全てキャンセルして、現場に急行した。
状況を整理すると、社内のDHCPサーバーが機能していないように見える。その結果、各クライアントのネットワーク情報が受け取れずに、インターネット、メール、社内DBなどのネットワーク全てがダウンしているように見えている。
DHCPサーバーをリブートしようにも、CPUが高かったのかシャットダウンできない。強制終了して、再起動し、改めてシャットダウンして再々起動してつないでみた。
数分は、正常になったと思われたが、元の障害状況に逆戻りしてしまった。
最初は、このDHCPサーバーが不安定なのが原因だろうと判断してしまった。これが、結果的には、時間的なロスを招く結果になってしまった。
他のサーバーで、DHCPサーバーを代替わりさせるために、1時間程度時間をかける。しかし、状況は良くならない。HUBを経由するとなぜかつながらないのだ。
こうなると、正常になっているエリアと異常状態のエリアの境界線を見つけていくしかない。
サーバーがつながっている大元のHUBは問題なく機能している。しかし、次の各机の島に分配するHUBになると、なぜか異常になるのである。
HUBを分けて、小口にして調査をしてみると、正常になるHUBと異常のHUBに分けられていく。そして、とうとう怪しいLAN線2本にたどり着いた。
その2本をたどってみると、何とその先も同じHUBにつながっている。どうやら、ネットワークが複線化してしまい、ループ状態になってしまったのではないかと推測。
その推測を証明するために、複線化を解消すると... 何ときれいさっぱり元通りになるではないですか!!
理由が分かれば、元の状態に戻していきます。DHCPサーバーも元の状態に戻して、動作確認。問題なく正常状態に戻りました。
18:30頃、完全復旧を確認してクライアント様を出ましたが、ネットワークSTOP時間として、5時間。作業復旧時間として4時間格闘していたことになります。
なぜ、ネットワークが、複線化していたのか。以前からだったからとすると、なぜ今障害が起きたのか。その直接的な原因は分からずじまいです。
4時間もの間、針の筵の状態での調査、復旧作業に頭はオーバーヒート気味にフラフラになっています。
5時間の障害時間が、長いのか短いのかは判断が分かれるところでしょうが、その調査している間に、代替方法を提示して最悪業務がストップしないように配慮していました。
帰り際、一杯引っ掛けていこうかとも思いましたが、まっすぐ家路につきました。




">





