モダンなWebアプリケーションのダウンタイムが単一の障害によって引き起こされることは稀です。実際には、複数の小さな問題が連鎖して発生します。

モダンなWebアプリケーションにおけるダウンタイムが、単一の壊滅的な障害によって引き起こされることは稀です。
実際には、チームが能動的に監視していない場所で、複数の小さな問題が連鎖して障害が発生することがよくあります。
アプリケーションが利用できなくなると、まずサーバーが疑われがちです。
しかし、実際の障害のほとんどで、サーバーは稼働し続けています。
DNSの問題は、最も見落とされやすい障害の原因の1つです。
内部的にはすべてが正常に見えても、ユーザーがドメインを解決できないことがあります。
証明書が期限切れになると、ブラウザは即座にアクセスをブロックします。
これらのインシデントは簡単に防げますが、頻繁に発生しています。
サードパーティのサービスは、制御不可能な障害ポイントをもたらします。
認証プロバイダー、決済ゲートウェイ、APIはすべて独立して失敗する可能性があります。
ほとんど of the outage are not mysterious.
それらは、チームが稼働し続けると思い込んでいる場所で発生します。
効果的な監視は、サーバーだけでなく、全体の配信パスに焦点を当てます。
私たちは Heimdall Observer を開発し、ユーザーが気付く前に、DNS、SSL e パフォーマンスの信頼性問題を正確に検知できるようにしました。
可用性、インシデント対応、そしてユーザーが気づく前に問題を表面化させるモニタリングシステムの構築に焦点を当てた、シニアシステム信頼性エンジニア(SRE)。