フラッピングの検知

出典: Nagios 3翻訳プロジェクト Wiki

導入 Introduction

Nagiosはオプションで、ホストとサービスの"flapping(バタつき)"を検知する機能があります。バタつきは、ホストやサービスの状態が頻繁に変化し、障害と復旧の通知が大量に発生した時に発生します。バタつきは、設定の問題(閾値が低すぎる等)もしくは、実際のネットワーク障害を示すことができます


バタつきの検知はどのようにして動いているのか How Flap Detection Works

この説明に移る前に・・・バタつきの検知機能を実装するのは困難だったと言わざるを得ません。特定のホストやサービスの状態変化に関しては、どのようにして状態の変化が "too frequently(あまりに頻繁である)" と決めればいいのだろうか。バタツキ検知の最初に実装を始める際に、どのようにしてバタツキを検知できるか、検知すべきかについてのいくつかの情報を見つけようとしました。私は、他の人が使っていたものに関する情報(そこで何をしていたか等)は、全く見つけることができませんでした。だから、理にかなった解決であるようだった。ということで落ちつくことに決めました・・・


Nagiosがホストやサービスの状態をチェックする場合は常に、バタつきを始めたか止めたかどうかチェックするでしょう。その為には以下でこれを行います。

  • ホストまたはサービスの21回のチェックの結果を格納します
  • 過去のチェック結果を分析して、状態変化・変遷がどこに発生するかを決定します。
  • ホストやサービスのために、状態変化率(変化の測定)を測定するのために状態遷移を使用します。
  • バタつきの閾値の、上限下限に状態変化率の値を、パーセントで比較します。


状態変化率が最初に 高い 方のバタつき閾値を上回るとき、ホストやサービスがバタつきを はじめた と決定します。

バタつきが状態変化率の閾値を下回る場合は(以前からばたついていた場合も想定する)、ホストやサービスのバタつきが止まったと判断します


例 Example

では、サービスのバタつき検知がどのようにして働いているかを詳細に説明していきましょう・・・

下記の画像は、一番新しい21のサービスチェックからの、時系列順のサービス状態の履歴を示します。 OKステートは緑、WARNINGステートは黄色、CRITICALステートは赤で、UNKNOWNステートはオレンジになります。

ファイル:Statetransitions.png

個人用ツール