kompira動作停止について

コメント

22件のコメント

  • 服部健太

    rabbitmq-serverが停止した場合、上記のようにそれに依存しているkompiradも起動できなくなってしまいます。

    以下のコマンドなどでrabbitmq-serverが起動しているかどうかご確認いただけますでしょうか?

    # systemctl status rabbitmq-server

    0
    コメントアクション Permalink
  • 井上雄一

    Active: inactive (dead)
    となっております。

    /varlog/rabbitmq/rabbit@ha-kompira1.log-20201101
    を見たところ
    ---

    =INFO REPORT==== 1-Nov-2020::00:10:30 ===
    Stopping RabbitMQ

    =INFO REPORT==== 1-Nov-2020::00:10:30 ===
    stopped TCP Listener on [::]:5672

    =ERROR REPORT==== 1-Nov-2020::00:10:30 ===
    AMQP connection <0.294.0> (running), channel 0 - error:
    {amqp_error,connection_forced,
    "broker forced connection closure with reason 'shutdown'",none}

    =ERROR REPORT==== 1-Nov-2020::00:10:30 ===
    AMQP connection <0.273.0> (running), channel 0 - error:
    {amqp_error,connection_forced,
    "broker forced connection closure with reason 'shutdown'",none}

    =INFO REPORT==== 1-Nov-2020::00:10:31 ===
    Halting Erlang VM
    ---
    となっていました。

    0
    コメントアクション Permalink
  • 服部健太

    ご確認ありがとうございます。

    基本的な情報をお伺いしたいのですが、システムは冗長構成で運用されておりますでしょうか?

    0
    コメントアクション Permalink
  • 井上雄一

    はい、冗長構成をしております。

    0
    コメントアクション Permalink
  • 服部健太

    アクティブ側で何らかの障害が発生して、自動フェールオーバで切り替わらずに、アクティブ側のKompiradが再起動を繰り返している状況でしょうか?それとも、フェールオーバで切り替わったものの、切り替わった先(元スタンバイ側)のkompiradが再起動を繰り返している状況でしょうか?

    また、冗長系の状態を確認するために、アクティブ側のkompiraサーバにsshログインして、rootユーザで下記コマンドを実行した結果を添付いただけますでしょうか?

    # crm_mon -Af1 

    0
    コメントアクション Permalink
  • 井上雄一

    フェイルオーバはしておりません。
    アクティブ側のkompiradの再起動となります。
    crm_mon -Af1 
    の結果は取れ次第、送付させていただきます。

    0
    コメントアクション Permalink
  • 井上雄一

    crm_mon -Af1の結果は以下となります。

    Stack: corosync
    Current DC: ha-kompira1 (version 1.1.21-4.el7-f14e36fd43) - partition with quorum
    Last updated: Mon Nov 9 13:33:22 2020
    Last change: Wed Sep 30 18:10:41 2020 by root via crm_attribute on ha-kompira1

    2 nodes configured
    9 resources configured

    Online: [ ha-kompira1 ha-kompira2 ]

    Active resources:

    Resource Group: webserver
    res_vip (ocf::heartbeat:IPaddr2): Started ha-kompira1
    res_httpd (ocf::heartbeat:apache): Started ha-kompira1
    res_kompirad (ocf::kompira:kompirad): Started ha-kompira1
    res_kompira_jobmngrd (ocf::kompira:kompira_jobmngrd): Started ha-kompira1
    res_lsyncd (systemd:lsyncd): FAILED ha-kompira1 (blocked)
    Master/Slave Set: ms_pgsql [res_pgsql]
    Masters: [ ha-kompira1 ]
    Slaves: [ ha-kompira2 ]
    Master/Slave Set: ms_rabbitmq [res_rabbitmq]
    Masters: [ ha-kompira2 ]

    Node Attributes:
    * Node ha-kompira1:
    + master-res_pgsql : 1000
    + res_pgsql-data-status : LATEST
    + res_pgsql-master-baseline : 0000000073DD51F8
    + res_pgsql-status : PRI
    * Node ha-kompira2:
    + master-res_pgsql : 100
    + master-res_rabbitmq : 10
    + res_pgsql-data-status : STREAMING|ASYNC
    + res_pgsql-status : HS:async

    Migration Summary:
    * Node ha-kompira1:
    res_httpd: migration-threshold=1 fail-count=3 last-failure='Sun Nov 1 00:10:23 2020'
    res_rabbitmq: migration-threshold=1 fail-count=1 last-failure='Sun Nov 1 00:10:23 2020'
    res_kompirad: migration-threshold=1 fail-count=565 last-failure='Mon Nov 9 13:30:33 2020'
    res_vip: migration-threshold=1 fail-count=1 last-failure='Sun Nov 1 00:10:23 2020'
    res_kompira_jobmngrd: migration-threshold=1 fail-count=144 last-failure='Mon Nov 9 11:17:30 2020'
    res_lsyncd: migration-threshold=1 fail-count=1000000 last-failure='Thu Oct 1 00:09:54 2020'
    * Node ha-kompira2:

    Failed Resource Actions:
    * res_httpd_monitor_5000 on ha-kompira1 'unknown error' (1): call=45, status=Timed Out, exitreason='',
    last-rc-change='Sun Nov 1 00:09:22 2020', queued=0ms, exec=0ms
    * res_rabbitmq_monitor_7000 on ha-kompira1 'unknown error' (1): call=75, status=Timed Out, exitreason='',
    last-rc-change='Sun Nov 1 00:09:51 2020', queued=0ms, exec=0ms
    * res_kompirad_monitor_5000 on ha-kompira1 'not running' (7): call=47, status=complete, exitreason='',
    last-rc-change='Mon Nov 9 13:30:33 2020', queued=0ms, exec=0ms
    * res_vip_monitor_10000 on ha-kompira1 'unknown error' (1): call=43, status=Timed Out, exitreason='',
    last-rc-change='Sun Nov 1 00:09:50 2020', queued=0ms, exec=0ms
    * res_kompira_jobmngrd_monitor_5000 on ha-kompira1 'not running' (7): call=49, status=complete, exitreason='',
    last-rc-change='Mon Nov 9 11:17:30 2020', queued=0ms, exec=0ms
    * res_lsyncd_stop_0 on ha-kompira1 'unknown error' (1): call=65, status=complete, exitreason='',
    last-rc-change='Thu Oct 1 00:09:32 2020', queued=0ms, exec=22368ms

    0
    コメントアクション Permalink
  • 服部健太

    ありがとうございます。

    頂いた結果によりますと、lsyncdという添付ファイルをアクティブ・スタンバイで同期させるサービスが失敗しているようです。

    /var/log/lsyncd.logに何かエラーメッセージは出ておりませんでしょうか?

    添付ファイルの数が8192個を超えると冗長構成でフェールオーバーが発生するという既知の問題がございますので、もしかしたら、それが原因による可能性もございます。

    0
    コメントアクション Permalink
  • 井上雄一

    Thu Oct 1 00:09:55 2020 Normal: --- TERM signal, fading ---
    と出ております。

    0
    コメントアクション Permalink
  • 服部健太

    ありがとうございます。

    ログがそれだけであれば、lsyncdは問題無さそうです。

    crm_monの結果によると、

    res_httpd_monitor_5000 on ha-kompira1 'unknown error' (1): call=45, status=Timed Out, exitreason='',
    last-rc-change='Sun Nov 1 00:09:22 2020', queued=0ms, exec=0ms

    とありますので、きっかけとしてはhttpd(Apache)が何らかの障害によって停止(監視タイムアウト)し、フェールオーバーしようとしたところ失敗して、現在のような状態になっていると考えられます。

    手動で切り替えるために、1号機側(ha-kompira1)で以下のコマンドをroot権限で実行し、pacemakerを終了させ、切り替わるか試して頂けますでしょうか?

    # systemctl stop pacemaker

    0
    コメントアクション Permalink
  • 井上雄一

     systemctl stop pacemaker
    を実行して5分以上経過いたしましたが、プロンプトが戻らず、また切り替えも発生していないようです。
    #ブラウザアクセスによる確認

    0
    コメントアクション Permalink
  • 服部健太

    ありがとうございます。

    それでは、1号機を強制的にシャットダウンして切り替えてみていただけますでしょうか?

    0
    コメントアクション Permalink
  • 井上雄一

    httpdが異常、ということのようなのですが、シャットダウン前に収集が必要な情報はないでしょうか?

    0
    コメントアクション Permalink
  • 井上雄一

    systemctl stop pacemakerが今終わりました。
    現用系/待機系、どちらのKompiraも起動しています。

     

    0
    コメントアクション Permalink
  • 服部健太

    /var/log/httpd/ 以下に httpdのログが記録されているかと思いますが、再起動後も残るはずなので、大丈夫かと思います。

    0
    コメントアクション Permalink
  • 井上雄一

    待機系のKompiraが起動し、ジョブフローは実行出来たようです。

    0
    コメントアクション Permalink
  • 井上雄一

    現用系のshutdownも実施いたしました。

     

    0
    コメントアクション Permalink
  • 井上雄一

    現在、待機系で動作しておりますが
    ・現用系のhttpdの動作停止
    ・フェイルオーバ失敗
    の原因調査を引き続きお願いしたく思います。
    よろしくお願いいたします。

    0
    コメントアクション Permalink
  • 服部健太

    調査のために、障害発生付近の以下のログ(1号機、2号機とも)を送付いただけますでしょうか?

    • /var/log/cluster/corosync.log
    • /var/log/httpd/*
    • /var/log/kompira/*
    • /var/log/lsyncd.log
    • /var/log/pacemaker.log
    • /var/log/pcsd/pcsd.log
    • /var/log/postgresql.log
    • /var/log/rabbitmq/*
    • /var/log/rsyncd.log

    また、合わせてご利用のKompiraとOSのバージョンもご連絡いただければと思います。

    なお、障害発生の状況によっては、完全に原因が解明できないこともございますが、その際はご容赦ください。

    以上、お手数をおかけしますが、どうぞよろしくお願いいたします。

    0
    コメントアクション Permalink
  • 井上雄一

    ログを送付させていただきますのでメールアドレスをいただけますか?

    よろしくお願いいたします。

    0
    コメントアクション Permalink
  • 服部健太

    ありがとうございます。

    support@kompira.jp

    まで、送付いただけますでしょうか?

    どうぞよろしくお願いいたします。

    0
    コメントアクション Permalink
  • 井上雄一

    送付させていただきました。
    よろしくお願いいたします。

    0
    コメントアクション Permalink

サインインしてコメントを残してください。