hinemosのPING監視で突然パケロスが頻発してしまった時の解決方法

#インフラ
written by ネモ

こんばんは。

近く兄の結婚式があるので、伸びに伸び切った髪を20cmほど切りました。
ネモです。

兄の結婚式も延期に延期を重ねようやく実施できます!
しかし親族の結婚式は初めてなので、どんな服を着ればいいのか考えあぐねています。。。

さてさて、今回は掲題の通り、PJ内でhinemosのPING監視でエラーになってしまった時の話をしていこうと思います。

事象について

ある日、突然1環境のみhinemosのPING監視で頻繁にエラーを吐くようになりました。
因みに、その当時のPING監視の設定値は以下の通りです。

  • PING間隔:1分
  • PING回数:1回
  • タイムアウト:5000ms
  • 応答時間:1000ms
  • パケット紛失率:99.9%
  • 備考:AWSリソースを監視しており、複数のAWSアカウントに対して同様の設定を投入

事象解決に向けた調査

それでは、実際に事象開発に向けた調査の内容を記載していきます。
順番としては、NW⇒AWS⇒hinemosと調査をしていきました。

NWの調査

NWについては比較的簡単に確認しました。
理由としては、今回の事象は3環境に対して同一のhinemosで監視していたことがあり、
該当の環境のみPING監視でパケットロスを検知していたためです。
まず他環境では出ていないことを確認できていたので、念のためhinemos managerをインストールしているEC2インスタンスから
監視対象サーバをいくつかピックアップしてPING、Tracertを実行。
⇒問題なし。。。
1時間ほどPINGを垂れ流し、パケットロスがないことを確認。

ping -t <指定のIPアドレス>

⇒全く以て問題なし。。。
NWには問題なさそうなことを確認。
#そもそも他環境では発生していないので問題は一切ないはずってこともあり、これで終了。

AWSの障害か確認

CloudWatchでNWの通信を確認。
⇒IN/OUT共に問題なし。
念のためサポートへ問合せし、PING監視でエラーを検知した時間帯すべてで障害が起きていなかったか確認。
⇒障害はなし。監視の仕様上瞬断など発生していたのではないか?との回答あり。
#タイムアウト値を設定しているため、10秒間エラー疎通が取れないのはおかしいが、AWS側ではなさそうであることは確認。

hinemosの調査

AgentもManagerも環境差分はないので、他の環境でPING監視に失敗しているかどうかを確認。
⇒他環境ではパケロスすら起きていない。。。
パケロス頻発している該当環境と他環境の設定差分確認。
⇒差分なし。
これはもう完全に手詰まりとなったので、暫定対処を行う必要がありそうだなぁ。。。
ということで、暫定対処を実施することにしました。

暫定対処内容

暫定対処の内容としては、PING実行回数、応答時間を変更する。というモノです。
変更内容としては以下の通り。

  • PING回数:5回
  • 応答時間:4999.0ms
  • 備考:パケロス頻発している環境のみを変更

これで暫定的に何日か監視を行い、正常に監視できること、同様にパケロスを起こさないかを確認することとしました。
なお、暫定対処のため他環境は設定変更は行わないこととしました。

結果

結果としては問題なく監視でき、パケロスも起こさなくなりました。
原因不明となってしまったので、如何に解決するかをサポートとやり取りしながら解決させるしかなさそうです。。。
hinemosサポート的には同様の事象はないので、暫定対処した内容を恒久対処としてください。という回答しか得られませんでしたが。。。

まとめ

突然エラーが出るようになる。という今回の事象ですが、監視ツールではよくあります。
自社の監視ツールであれば暫定対処をそのまま使い、問題なければ恒久化と簡単なフローを回せますが
顧客環境となるとそうはいかず、調査と今後の対応を検討しなくてはいけません。
とりあえず今後も調査は進めていくので、解決したら再度ブログのネタにしようかと思っています。
同じ事象で困っている方が居たら、今回解決できずで申し訳ありませんが、次のネタができるまでお待ちください。。。