無料ブログ「rentafree.net」の管理人ブログ

長時間の障害が発生しました

本日0:10頃からサービスに接続できない状況になっており、自動復旧も機能せず22:20すぎまでそのままでした。

[9月20日 追記]
この件で障害が再発しております。
最初の障害が12日の夕方辺りから発生していたようで、完全に接続できなくなる前に表面上データの更新がされた状態でディスクへの書き込みができていない期間が発生し最終的に止まっているようです。
なので12日の夕方以降に更新されたはずのデータについてデータの消失が発生している可能性があります。

[9月26日 追記]
9月20日の追記の後は今のところ障害は発生していないようです。
障害中の確認もできずログが全く記録されていなかったため原因がわかってないのですが、
9月12日から13日(24時間前後)、9月16日から9月18日(36時間前後)、9月20日(6時間前後)の3回に渡り長時間の障害が発生していたと思われます。
最初の障害の後注意してたのですが、表面上サービスが機能しているように見えたため2回目の障害に気づくのが遅れました。
9月12日はLet's Encryptの延命のためにcertbotを最新版にする作業を行ったためOSのアップデートを行い、その後障害が発生するようになっていました。
9月20日時点でOSのアップデートはありませんでしたが、kernelとかOS関連を疑ったので、いずれアップグレードが必要になるのでついでにOSアップグレードを行いました。
で、その後は今のところ障害が発生していないので、9月12日のアップデートの際になにか不具合のあるものが入ってしまったのかな?
ってな感じで考えてます。