システム障害について
回答済みお世話になっております。
8/12 お昼前くらいから、"HTTPError:500" が発生し、アクション・トリガーの設定が見えなくなってしまい、メール受信しても架電につながらない事象が発生しております。
通信的には以下を確認し、メンテナンス情報/障害情報にて、「kompira cloud でサービス障害が発生しています」の記載を確認いたしました。
質問【20210812_1】
今後の導入に向けて、現象の説明をいただけますでしょうか?
また、通信異常などの確認は、以下の確認でよろしいでしょうか?何か他にあればご教示ください。
curl -v https://ajs-kompira.cloud.kompira.jp/
* About to connect() to proxy keith.asahi-kasei.co.jp port 3128 (#0)
* Trying 138.212.251.225...
* Connected to keith.asahi-kasei.co.jp (138.212.251.225) port 3128 (#0)
-
正式なコメント
お世話になっております。
システム障害について、ご迷惑をおかけし大変申し訳ございません。
今回の障害は急激な処理負荷集中により受信メッセージに対するイベント発行処理に大幅な遅延が発生した、というものでございました。
またこれに対する対応としてデータベースの処理能力の増強を行った際にサーバー再起動が発生したことで、5分程度の間、画面アクセス時に500エラーが出力される事象が発生いたしました。期間内に受信したメッセージに対する処理は遅れて処理されるものと思われます。
異常の確認に関しましては提示いただいた方法では難しく(例えば今回のケースでもスペースへのアクセス自体は可能となっております)、障害ケースによって検出方法は多岐にわたりますので、お客様側で検出するのは困難かと存じます。
今回のケース含め、弊社内での監視システムにより障害は検出され、ユーザー様に対しては随時情報公開を行なっておりますので、そちらをお待ちいただくようお願いいたします。コメントアクション -
お世話になっております。
ご回答ありがとうございました。
当方では Kompira cloud の社内説明をしている最中で「HTTPError 500」が表示され、時間的には1時間近く続いたと認識しております。
最中、全てのアクションとトリガーが表示されないという事象が発生し、11:47にテストメールを送信し、ルールは一致しておりますが、いまだにアクションの起動要求はなく、Pigeon の架電も動作しておりません。
したがいまして、
「HTTPError 500」の継続時間と、「遅れて処理される」という点については食い違っております。御社の障害情報については確認しておりましたので、その点は周知いたしましたが、受信したメールのトリガー以降の動作がその時点で停止(終了)しております。
この点について、お考えをご教示いただけますでしょうか? -
お世話になっております。
事象に関する詳細調査および対応の検討を行いましたので、諸々ご報告させていただきます。事象:「HTTPError 500」の継続的な発生について
こちらの事象について、追加調査により「アクション」「トリガー」の情報取得が長期的に500エラーになっていたことが判明いたしました。
今回の障害は元々は負荷集中によりデータベースサーバーの処理能力を超え、イベント発行の遅延につながったものでございましたが、この改善を試みる過程で2回のデータベースサーバー再起動を行なっております。このときAlertHubを構成する各サーバーはデータベースとの再接続を行いますが、うち2つのサーバーにおいて再接続の確立が上手くいっておりませんでした。
結果、 11:28 ごろから 13:11 ごろにかけて、イベント発行の遅延に加えて下記のような問題が発生しておりました。
- アクション・トリガーに関する一部情報の取得に失敗する
- トリガー処理が失敗する(後述)
前者の影響により、「アクション・トリガーの設定を見ようとすると500エラーが発生する」という事象が長時間にわたり発生いたしました。
一方で弊社での障害対応時には「スコープ一覧」の表示で動作確認を行なっていたことがわかり、この画面は本事象の影響を受けていなかったことで、事象の見落としが発生してしまっておりました。
事象:後追いで行われるはずのアクション実行が行われなかったことについて
前項で触れた「データベースとの再接続に失敗した」問題はトリガー処理を行うサーバーにも影響しておりました。これが原因で、 11:47 に受信したメールに対してイベント発行は 12:34 に行われたものの、それに対するトリガー処理が立ち消えてしまっておりました。
以下、細かな経緯を記載いたします。
AlertHubではイベントの発生を契機にトリガーの処理を行いますが、この時データベースへのアクセスを行います。これに失敗すると1分の間を置いて処理のリトライが行われますが、これは10回が上限となっております。今回はデータベースとの接続が長期的に失われたことで、このリトライ上限を超過し、トリガー処理、ひいてはアクション実行が立ち消えてしまい、Pigeon連絡が行われない事態になっておりました。
本来、データベースの長期的な障害が発生した場合はイベント発行自体が行うことができないため、イベントに関しては非常に強力なリトライ機構を用意しております。
一方トリガー処理は(データベースを使用する)イベント発行の直後に行われるため、想定する接続断の最大時間としては一時的なデータベースサーバーの再起動(最大5分程度)として、上記の基準でのリトライを行なっております。この想定に対し、今回の障害にて下記の条件が揃ってしまったことで、トリガー処理では本来発生し得ない長期間の処理失敗が発生してしまっておりました。
- データベースサーバー自体は障害状態ではなく、処理可能であったこと
- イベント処理を行うサーバーはデータベースサーバーと正常に接続できており、イベント発行は(遅延は発生していたものの)成功する状態にあったこと
- トリガー処理を行うサーバーはデータベースサーバーと接続できておらず、トリガー処理が失敗する状態にあったこと
今後の対策について
上記の事象につながった根本原因としては「一部のサーバーがデータベースサーバーとの再接続に失敗した」ことにあり、別途行っていた調査にてこれはデータベース接続に使用しているライブラリの不具合によるものの可能性が高いと判明しております。
こちらについてプログラムの修正自体は完了しており、これにより事象が改善することの検証と、改善することが確認された場合の本番環境適用を明日中目処に行わせていただきます。
万が一改善が見込めない場合には別の対策を立てていく必要がございますが、その場合は改めてご報告させていただきます。また、今回発生した事象の見逃しについて、平常時の監視および障害発生時の正常性検証の観点・手順について、速やかに改善するようにいたします。
大変長くなりましたが、以上ご報告とさせていただきます。
重ね重ね、今回の障害および不正確な報告を行なってしまったことに関し、お詫び申し上げます。 -
お世話になっております。
昨日報告させていただいた事象に対する対策について検証により事象改善を確認し、先ほど本番環境のアップデートを行わせていただきました。これにより、昨日発生した継続的な500エラーおよびトリガー処理の立ち消えについて、同じ原因での発生は今後起こることがない見込みです。
昨日のインシデントに関しては事象の見逃しが発生した点、そもそも特定スペースでの処理負荷が全体に対して影響してしまった点など、サービスのつくり、社内体制などまだ改善すべき点が残っていると認識しております。本修正で満足することなく、引き続きサービス改善を進めてまいります。
何卒よろしくお願いいたします。
サインインしてコメントを残してください。
コメント
5件のコメント