フリーズ対策になるPING監視設定のコツをまとめました|開発部レポート3

開発部コラム イメージ画像

こんにちは。リブーター”ヲタク”の開発アシスタントです。

このコラムでは「お客様にリブーターを使いこなしていただきたい」という個人的な願いを込めて、

リブーターの各種機能に込められた開発者の意図をご紹介しています。

今回は3回目。

「PING監視の設定項目が色々ありすぎて難しい」という声を受けて、

PING監視設定のコツをまとめてみました。

PING監視の概要と仕組み

開発部レポート2 でご紹介した通り、「PING監視」はルータ・スイッチングハブなどの監視に向いている死活監視です。

「インターネットにつながりにくくなった…」「リモートアクセスの調子が悪い…」そんな問題の多くはルータを再起動させるだけで解消するので、ルータのフリーズ対策にPING監視を用いるのは本当にオススメです(テレワーク中の我が家でも変わらず活躍中)!

明京リブーターのPING監視は、現場の声のおかげで機能が増強され、現在はこんな仕組みになっております。

PING監視フロー

PING実行:リブーターが「元気ですか?」という通信パケット (ICMPパケット)を定期送信
受信確認:監視先から「元気です」という通信パケット(ICMPパケット)が返ってくるのを毎回待つ
送信後5秒以内に返ってきたら「OK (緑表示)」
5秒以内に返ってこなかったら「NG (赤表示)」
状態判定:PINGのNG回数をカウントして、監視先の状態を判定
指定された期間内のNGが、設定値より少ない間は「正常 (緑表示)」
指定された期間内のNGが、設定値以上になったら「異常 (赤表示)」
指定された期間 = [送信] : 設定値 = [無答]
動作判定:異常状態となっている監視先の数が設定値に到達した時、設定した動作 (リブート動作など)を実行
設定値 = [対象]
繰り返し判定:(Reboot設定時のみ)動作実行後、指定した時間以内にPINGが成功しなかった場合は、リブート動作を設定値まで繰り返す
指定した時間 = [間隔] : 設定値 = [回数]
障害回復確認:(Reboot設定時のみ)繰り返し動作実行後、PINGが成功しなかった場合、60分ごとに [5の動作] を制限値まで繰り返す
制限値 = [回数制限]

PING監視設定のコツ

初めてPING監視を取り入れる場合、設定の仕方に悩む方も多いでしょう。開発者の視点から、特に大切だと思うポイントを3つと、覚えておくと便利な知識をピックアップしてみました。

コツ1.[送信] [無答] 設定で「正常と異常の線引き」をする

PING監視 設定項目 送信/無答の場所

ルータなどのIT機器は、完全にフリーズしたわけではなくても、調子が悪い状態に陥る場合があります。そんなとき、ルータはPINGに反応したりしなかったりします。

例えば、PING10回連続でNGにはならず、そのうちの1回あるいは2回だけ応答があるような状態です。この状態を正常とみなすのか、それとも異常とみなすのかをPING監視フロー3の「状態判定」で行っています。

[送信] [無答]の数値設定で線引きを自由に調整することができます。

送信 無答 PING監視フロー3の判断基準 監視対象の応答状態
10 10 PING直近10回の内、NG10回以上で異常判定 PING応答100%なし(≒完全にフリーズ)で再起動(初期値)
10 6 PING直近10回の内、NG 6回以上で異常判定 PING応答 60%なしで再起動
10 2 PING直近10回の内、NG 2回以上で異常判定 PING応答 20%なしで再起動

★ リブーターのスケジュール機能も併用すると便利

ルータの死活監視をしながらも、深夜など業務時間外にはルータの電源をOFFしておきたい 、一度再起動させておきたいという場合もありますよね。

しかし「ルータのスケジュール機能」を利用してルータの電源をOFFにしても、死活監視が停止していなければリブーターがルータを再起動させようとしてしまいます。

「リブーターのスケジュール機能」は、リブーターは(スケジュール機能などで)ルータをつないだ Outlet を OFF にした場合、そのアウトレットに設定したPING監視を自動的に停止するように設計されています(ON動作設定時などを除く)!

ルータの死活監視中にスケジュール機能を併用したい場合は、「ルータのスケジュール機能」ではなく「リブーターのスケジュール機能」をご利用ください。

 

ただ、リブーターのスケジュール機能を併用する際に注意点が1つあります。

スケジュール機能でルータを起動(再起動)させたとき、基本的にはリブーター側の Outlet をONにした直後からPING監視が再開します。もしルータ起動時のPINGに応答できないタイミングで異常判定が下ると、延々と再起動を繰り返す設定になってしまいます。

「ルータの再起動→PING応答なし→異常判定→ルータの再起動→PING応答無い…」という具合です。リブーターのデフォルト値ならたいてい問題はないのですが、ルータや通信会社のサービスによっては、PING応答できるようになるまでの時間が大きく異なる場合があるようです。

そこでルータなどの再起動後、PING応答できるようになるまでの時間を計測して、その時間より[無答]数×[PING送信間隔(分)]が長くなるように設定します。

ただし、 [無答]数×[PING送信間隔(分)]を長くしすぎると、障害(フリーズ)が発生してから再起動するまでの時間も長くなるので、ご注意を!

コツ2. [監視先] [対象] 設定で「判断材料」を増やす

PING監視 設定項目 監視先/対象の場所

明京リブーターのPING監視は、アウトレット1つに対して4つのPING宛先(=[監視先])を設けられるように設計しています。

「ルータがフリーズしたために(外部の) インターネットにつながらなくなっているのに、ルータが内部からのPINGには応答する」というケースが生じるためです。

このようなケースではおそらく、ルータの外部向けのLANアダプタだけがフリーズしてしまったと思われます。

その場合、 [監視先1] にルータを設定しただけだと、 PING応答があるのでルータのフリーズに気づけません。しかし[監視先2] にも外部サーバのアドレスなどを設定しておけば、[監視先2] のPING応答がなくなったことでフリーズを検知できるようになります。

[監視先]の設定を使い判断材料を増やすことによって、フリーズを見逃す可能性が低くなるわけですね!

 

ただし、上記の設定にすると「外部サーバがダウンしただけでルータがフリーズしていないとき」にも、ルータを再起動させてしまうのが玉にキズ。

自社のネットワークには全く問題がないのに、[監視先2]に設定していた外部サーバがダウンしただけで、ルータを再起動されたら困ってしまいますよね。

そこで、[対象]数の設定によって、電源制御を実行する判断基準も選べます。設定の例は次の通りです。
[対象]=1:4つのPING監視先のうち「1つ」に異常が見つかったら、電源制御!
[対象]=4:4つのPING監視先のうち「4つ」異常が見つかったら、電源制御!

 

あるお客様は [監視先] 4つ全てをそれぞれ別の外部サーバのアドレスにした上で、2のように[対象]設定を「4」に変更しています。

1か所でも外部サーバへのPINGが成功すれば「外部サーバ側の問題」、全てのサーバから応答がなければ「インターネットが不通になっている(=ルータがフリーズしている可能性が非常に高い)」と判断できるのです!

例えば、「G○○.com」「A○○.jp」「F○○.com」「A○○.com」と信頼のおける外部サーバ4か所をPINGの宛先に設定して、[対象]を「=4(全て)」に設定しておきます。外部(WAN)と通信する場合は「デフォルトゲートウェイ」の設定を、ドメインを利用する場合は「DNS」の設定を忘れないでくださいね。

PING宛先は監視対象そのもの(ルータ)だけでなく、「ICMPパケットが監視対象を必ず経由しなければならないもの(外部サーバ)」を選ぶことによっても、監視対象のフリーズを確認できます。この原理を活用すれば、ONUやハブなどの監視にもPING監視を利用できますよ。

コツ3. [回数][間隔]設定などで「繰り返し動作」をコントロール

PING監視 設定項目 回数/間隔の場所

PING監視フローの5「繰り返し判定」と6「障害回復確認」では、ルータが起動段階でインターネット接続に失敗する場合があります。ルータがフリーズしていなくてもインターネットにつながらないと、困ってしまいますよね。

このような場合もルータを再起動すれば、多くのケースでは回復します。そこで活躍するのが、リブーターに備わっている「再リブート機能」です。再リブート機能とは、監視対象を一定時間間隔で複数回再起動させる機能を指します。

指定した[間隔(分)]以内に PING が成功しない場合は、[回数]で設定した回数分だけ再びReboot動作(再起動)を実行します。例えば、 [間隔]を2・[回数]を2と設定すると、初回のReboot動作では復旧しなかった場合、2分後にもう1回Reboot動作をさせられるのです。

ルータの再起動中にリブーターがReboot動作を繰り返さないよう、[間隔]を短くしすぎないことも安定運用のポイントです。

指定された [回数]だけ再起動を繰り返してもPINGに成功しなかった場合は「回復不可」扱いになります。

 

PING監視 設定項目 警告/回数制限の場所

次のようなケースも想定されます。ルータのフリーズではなく回線そのものに障害が生じてPINGは失敗、ルータを再起動してもインターネット接続は回復せず。その後回線は復旧したもののルータはインターネット接続にできない状態のままになってしまった。

こんなケースでもご安心ください。回線障害が長く続いた後にルータの接続がうまくいかなかったとしても、明京リブーターには「回復不可時の1時間ごとの繰り返し動作機能」が備わっています。「回復不可」扱いになっても1時間後にはルータを再起動し、インターネット接続の復旧が可能です(PING監視フローの6「障害回復確認」の動作)!

★ ルータが故障したときは?

ルータがフリーズではなく故障してしまった場合にも、PING応答はなくなります。このケースではルータを再起動させても復旧しないので、「回復不可時の1時間ごとの繰り返し動作」を止めなければなりません。

初期値は[回数制限 = 0]で繰り返し動作には制限がありませんが、設定値を変更して「回復不可時の1時間ごとの繰り返し動作」に制限を加えることが可能です。

合計リブート回数が[死活監視リブートによる警告]に達したとき、LEDの点灯を変化させて通知する機能も備わっています。

【おまけ】「アウトレット連動」設定でONUやハブもまとめて再起動

連動設定の場所

PING監視で障害を検知したとき、ルータと一緒にONUやハブも再起動させたいというお客様も多くいらっしゃいます。そんなときには「アウトレット連動機能」がオススメです!

例えば、アウトレット1にルータをつなぎ、PING監視の設定を施します。次にアウトレット2に ONU、アウトレット3にハブをつなぎ、アウトレット連動機能で「アウトレット1」を指定します。

アウトレット2と3はアウトレット1の動作に追従するようになるので、アウトレット1がPING監視の結果により再起動すると、アウトレット2と3も一緒に再起動するようになりますよ。

ただし、ONUなどを再起動させる場合、「PING応答ができるようになるまでの時間」が変化する可能性もあるので、ご注意を!

 

遅延設定の場所

また、遅延時間設定を活用することで、機器ごとのリブート時の再電源投入時間を変更するのもオススメです。

ONU・ルータ・ハブを同時に再起動すると、機器ごとのセッションがうまく張れず、接続が失敗する場合があります。遅延時間設定の「REBOOT」時間を調整し、ONU→ルータ→ハブと上流から正しい順番で起動させることで、スムーズな接続が実現します。

まとめ

約20年分のノウハウによって、明京リブーターのPING監視が「ルータ」の監視にどれだけ特化したのか、感じ取っていただけたかと思います。私自身、レジェンド開発者に色々なケースを教わりましたが、ノウハウが多すぎてレポートをまとめるのが大変でした。

PING監視は6つのフローでフリーズ(異常)を検知し、自動復旧を試みます。それぞれのフローで細かい設定ができるので、今回のコラムで紹介したコツを押さえておくと導入・活用がスムーズです。

「自社のニーズに合いそう!」と思われた方には無償の貸出も行っています。ぜひお気軽にお問い合わせください。

お問い合わせはこちら

おすすめ記事