モダンなWebアプリケーションにおけるダウンタイムの本当の原因
モダンなWebアプリケーションのダウンタイムが単一の障害によって引き起こされることは稀です。実際には、複数の小さな問題が連鎖して発生します。

モダンなWebアプリケーションにおけるダウンタイムが、単一の壊滅的な障害によって引き起こされることは稀です。
実際には、チームが能動的に監視していない場所で、複数の小さな問題が連鎖して障害が発生することがよくあります。
ダウンタイムは決して「サーバーだけの問題」ではない
アプリケーションが利用できなくなると、まずサーバーが疑われがちです。
しかし、実際の障害のほとんどで、サーバーは稼働し続けています。
- DNS解決
- ネットワークルーティング
- ロードバランサー
- アプリケーションサービス
- 外部API
- SSL証明書とドメイン
ダウンタイムの最も一般的な原因
DNS障害
DNSの問題は、最も見落とされやすい障害の原因の1つです。
内部的にはすべてが正常に見えても、ユーザーがドメインを解決できないことがあります。
SSLの期限切れ
証明書が期限切れになると、ブラウザは即座にアクセスをブロックします。
これらのインシデントは簡単に防げますが、頻繁に発生しています。
依存関係の失敗
サードパーティのサービスは、制御不可能な障害ポイントをもたらします。
認証プロバイダー、決済ゲートウェイ、APIはすべて独立して失敗する可能性があります。
おわりに
ほとんど of the outage are not mysterious.
それらは、チームが稼働し続けると思い込んでいる場所で発生します。
効果的な監視は、サーバーだけでなく、全体の配信パスに焦点を当てます。
私たちは Heimdall Observer を開発し、ユーザーが気付く前に、DNS、SSL e パフォーマンスの信頼性問題を正確に検知できるようにしました。
可用性、インシデント対応、そしてユーザーが気づく前に問題を表面化させるモニタリングシステムの構築に焦点を当てた、シニアシステム信頼性エンジニア(SRE)。
"本記事のような事象を監視するために Heimdall Observer を構築しました。"