死活監視とは|死活監視によるフリーズ対策を分かりやすく解説
死活監視とは
「死活監視」とはコンピューターやシステムが正常に稼働しているかどうか、外部から継続的に監視する行動や機能のことです。
最善のシステムを構築しても、設置環境やネットワーク要因などにより不測の事態が発生し、システムが停止する可能は残ります。
ITインフラがいたるところに張り巡らされた現代社会において、システムの停止は大きな障害につながりかねません。現代において、ITインフラは生活の基盤といっても過言ではないでしょう。
24時間・365日、ITシステムを自動的に監視し、稼働状態を検知する死活監視の重要性は増しているといえます。
死活監視の種類
死活監視には大きく分けて、「アクティブ監視」「パッシブ監視」という二つのタイプがあります。
監視する側が積極的に行動を起こして監視するのがアクティブ監視、監視する側が監視される側からのアクションを監視するのがパッシブ監視です。
それぞれの種類や特徴を理解して、システムに合った方法を選択しましょう。
アクティブ監視
アクティブ監視として有名なのが「PING監視」です。PING監視は監視対象の機器に「ICMPパケット(IP通信の疎通状態を確認するためのデータ。エコー要求パケット。)」を定期的に送信して、応答を確認します。
監視対象の機器から一定期間応答がなければ、異常(フリーズなど)が発生していると判断するという仕組みです。
PING監視の他に、監視対象機器のポート状態を確認する方法もアクティブ監視に当たります。障害を事前に察知し、予防的な対処をしたいシステムの運用に向くのがアクティブ監視です。
パッシブ監視
パッシブ監視には、「WATCHDOG機能(ウオッチドッグタイマー/WDT)」を利用した方法が挙げられます。
WATCHDOG機能とは、マイコン(MCU)のプログラムが暴走したり、停止したりしていないかを確認する機能です。番犬を意味する英語「watchdog」から名付けられました。
WATCHDOG機能を使ったパッシブ監視では、監視対象機器から定期的に送出されるパケット(細切れのデータ)を監視し、一定期間パケットが到着しなければ障害(フリーズなど)が発生したと判断します。
セキュリティ上,PINGの応答を止めている機器の監視に有効です。また,アプリケーションに機能を組み込めば,アプリケーションレベルでの死活監視も可能になります。
死活監視機能を持つリブーターの活用例
死活監視は、実際どのようなシーンで活用されているのでしょうか?生活の中でも身近なものとなったIT機器を例に取って紹介します。
ルーターのフリーズ検知
どんなに優秀なルーターでも、雷や停電など不測の事態によるフリーズを全て避けることはできません。
フリーズが発生して復旧しようと現地に駆けつけても、セキュリティ上の問題や高所・狭所などの理由で設置場所に入れないこともあるでしょう。
設置場所に入れても、電源のコンセントが複雑に絡み合っていて対象機器のコンセントを容易に判断できないケースも少なくありません。
このような問題は、リブーターの死活監視機能によって解決します。リブーターはPINGへの応答確認・供給電源の自動OFF・ONによる電源再起動を自動的に行うためです。
では、ルーターのフリーズはどの程度の頻度で生じるのでしょう?
フリーズは、ソフトウェアのバグ・回線のトラブル・瞬停や雷サージなどによるノイズによって生じます。多くのお客様は、こうした原因から生じるフリーズが数年に一度は発生することを想定しているようです。
仮に2年に1回フリーズが生じるルーターを365台利用しているとすると、計算上は2日に1回どこかでフリーズが発生することになります。
リブーターを導入することで、こうした障害から自動的に復旧できるようになります。
WEBカメラのフリーズ検知
近年、監視カメラを代表とするさまざまなWEBカメラが、いたるところに設置されるようになりました。重要な画像情報が日々、取得・保存されています。
しかし、実際に画像情報が必要になったときにデータを確認してみると、WEBカメラや録画装置がフリーズしており必要な映像が記録されていなかったというケースもあるようです。
リブーターを使うことで、現地に行くことなくフリーズしたWEBカメラや録画装置を遠隔再起動できます。
またPoEリブーターを活用すれば、PoEスイッチをポートごとに制御できるので、フリーズしたWEBカメラのみを再起動させることも可能です。
さらにE-mailによる遠隔電源制御機能を使うことで、ルーターのポートを開放しなくても、遠隔再起動ができます。
デジタルサイネージのフリーズ検知
サイネージプレイヤーは、OSまでは正常でもアプリケーションレベルでフリーズしていることがあります。
この場合、PING監視ではフリーズを検出できません。しかし、明京電機が開発したサイネージシステム監視用ソフトウェアを利用すれば、プレイヤーのCPU稼働率からアプリケーションレベルのフリーズを検出してプレイヤーを再起動できます。
正常時にはプレイヤー(Windowsベース)からリブーターにパケットを送出し、異常発生時にはパケット送出を停止するという仕組みです。これによりリブーターは異常を検出し、サイネージシステムの再起動を開始します。
再起動までの流れは以下の通りです。
1. サイネージプレイヤーにネットワーク経由でOSにシャットダウン命令を送る。シャットダウン実行を確認後,供給電源をOFFする
2. 供給電源をONし、WOL(Wake on LAN)機能を利用してプレイヤーを起動させる
この間、ディスプレイへの供給電源はOFFにして、一連のプロセスを表示させないようにします。
こうしてアプリケーションレベルでフリーズしたサイネージシステムも、自動的に検出して再起動による復旧ができるのです。
無線アクセスポイントのフリーズ検知
住宅や事務所・商業施設など、さまざまな場所で無線アクセスポイントが利用されています。このアクセスポイントもフリーズします。
リブーターを各アクセスポイントの配下に設置し互いにPING監視することによって、フリーズ状態を検出し、アクセスポイントの自動再起動が可能です。
しかし、接続先が不定のWi-Fiサービスのアクセスポイントだと、自動リブートを実行することが難しくなります。監視対象となるデバイスが特定できないためです。
その場合は、WIFIアクセスポイントの監視システムなどと連携し、異常発生を確認した後に遠隔リブートを利用できます。
会社のパソコンのフリーズ検知
テレワークのためにリモートアクセスツールで接続している会社のパソコンがフリーズした場合、どうすればよいのでしょうか?
リモートソフトで再起動できる場合もありますが、必ず成功するとは限りません。
リブーターを利用すれば、E-mailを送信するだけでパソコンの電源のOFF・ONが可能です(ノートパソコンの場合はバッテリーがあるため不可)。
OFF命令のメールでシャットダウンと電源OFFを、ON命令のメールで電源ONとWOLを実行できます。
シャットダウン機能付きのリブーターでは、電源OFFの前にTELNETやSSHでパソコンにログインしてシャットダウンコマンドを実行します。通信内容は、あらかじめスクリプトとして記述しておくことが可能です。明京電機では、Windows用のシャットダウンソフトも用意しています。
起動時は、電源ON後にWOL用のパケットを送出して、パソコンを起動させられる仕組みです。
注意:パソコンのフリーズの状態によっては,シャットダウン命令を実行できないことが考えられます。その場合,電源OFFと電源ONの命令をそれぞれ送る代わりに,リブート命令(電源OFF/ON)を送り,即座に電源リブートを実行する方が実際的な対処法になる可能性があります。
フリーズの解消以外にも、パソコンの起動のためだけでもリブーターは有効です。リモートソフトで操作しているパソコンからリブーターにWEB接続して、必要な電源操作を行うこともできます。
照明のON・OFFや不要な通信機器の電源OFFなど、利用状況によって幅広い活用方法が考えられるでしょう。
重要性を増す死活監視
現在社会におけるITインフラの広がりは、そのまま死活監視の重要性につながっています。
どこまでをITインフラと呼ぶかについては、業界や文脈によって変わってくるでしょう。ただ、ITを支える下部構造(インフラストラクチャー)という意味では、ルーターやスイッチ・WIFIアクセスポイント・監視カメラ・デジタルサイネージもITインフラと考えられます。
今やさまざまな場所に設置されたIT機器の健全性を確認するため、死活監視の需要が拡大を続けている時代です。ITインフラの拡大に伴い、さらに効果的・効率的な死活監視が求められるようになるでしょう。