短時間で異常と回復を繰り返す環境における制御方法について
お世話になっております。
下記ページの「6. 異常が1分以内に回復したらアラート発生の通知が必要ない」を参考に設定を行っております。
https://support.kompira.jp/column/alerthubreverselookupsettingsguide/
当手順の場合、短時間で異常と回復を繰り返した場合にはアラートが発報されてしまうのではと考えています。
例)
00:00:00 アラート1異常 受信 (深刻度1)
00:00:30 アラート1復旧 受信 (深刻度0)
00:00:45 アラート2異常 受信 (深刻度1)
00:01:00 トリガーに合致してアラート1が発報
00:01:45 トリガーに合致してアラート2が発報
00:02:30 アラート2復旧 受信 (深刻度0)
〃 トリガーに合致してアラート2の回復が発報
問題点)アラート1が意図せず発報されてしまう
弊社の要件としては、上記例の場合でもアラート1は発報しないようにしたいと考えています。トリガーの条件式を用いて制御できればと考えていますが、なにかよい案はございませんでしょうか。
-
異常と回復が繰り返される場合については、以下の様な設定例が考えられます。
ご確認いただければと思います。ルールは以下の様に、回復した場合には完全に深刻度を下げずに、
繰り返しの発生があった場合には深刻度が増加し続けるようにして、
自動復旧で「0」にするようにします。
---
対象:異常アラートを捉えるルール
イベント:深刻度を「2」「増やす」対象:回復アラートを捉えるルール
イベント:深刻度を「1」「減らす」また、スコープの深刻度自動復旧を任意の時間で有効にしておきます。
---トリガーは以下の様にします。
深刻度の値の量でステータスを判断することが難しいため、
条件はステータスではなく深刻度の増減を条件にしています。また、変化量の合計を見ることで、繰り返しの発生が起こっていないことを確認しています。
---
対象:障害通知を行うトリガー
実行条件1:深刻度が「増えた」
実行条件2:「60」秒経過後、「深刻度変化量の合計」が「2」「と等しい」値である
アクション:障害通知対象:回復通知を行うトリガー
実行条件1:深刻度が「減った」
実行条件2:過去「60」秒間に「深刻度の変化量」が「1」「以上の」イベントが「0」「と等しい」回数発生した
アクション:回復通知
--- -
恐縮ですが変化量の合計が1になる点が理解できませんでした。
こちらの質問自体も一部誤解を招く表現がございましたので、改めて質問させてください。
下記例の場合、トリガー1の条件である60秒経過後~の判定はそれぞれアラートを受信したタイミングから60秒後に行われると考えています。
その際に基準値となる深刻度は、増減が行われる前の深刻度と考えていたのですがこの認識は合っていますでしょうか。
00:00:00 アラート1異常 受信 (深刻度2) → 60秒経過後 ①00:01:00 トリガー判定
00:00:30 アラート1復旧 受信 (深刻度1)
00:00:45 アラート2異常 受信 (深刻度3) → 60秒経過後 ②00:01:45 トリガー判定
①00:01:00 トリガー判定(基準値:深刻度0、判定値:深刻度3= 深刻度の変化量:3)
②00:01:45 トリガー判定(基準値:深刻度1、判定値:深刻度3=深刻度の変化量:2)
サインインしてコメントを残してください。
コメント
6件のコメント