モダンなWebアプリケーションにおけるダウンタイムの本当の原因
モダンなWebアプリケーションのダウンタイムが単一の障害によって引き起こされることは稀です。実際には、複数の小さな問題が連鎖して発生します。
28 de fev.
読了時間 2分

可用性、インシデント対応、そしてユーザーが気づく前に問題を表面化させるモニタリングシステムの構築に焦点を当てた、シニアシステム信頼性エンジニア(SRE)。
モダンなWebアプリケーションのダウンタイムが単一の障害によって引き起こされることは稀です。実際には、複数の小さな問題が連鎖して発生します。

大企業がなぜ未だに証明書の更新漏れで壊滅的な障害を起こすのか、その技術的要因と監視の盲点を分析します。

ワイルドカード証明書は便利ですが、広範囲な障害(ブラスト半径)を引き起こします。期限切れが数十のサブドメインを同時に停止させる仕組みを学びます。


外部の障害に対して内部のメトリクスを信頼しないでください。SREチーム向けの「外部から内部(Outside-In)」のDNS監視原則を学びます。

DNSレイテンシはアプリがリクエストを記録する前に発生します。Anycastルーティングの失敗と、エッジからの真のP99測定方法を学びます。

TTLが高すぎると24時間の障害に繋がります。低すぎるとサーバーに負荷がかかります。本番管理のベストプラクティスを学びます。

DNS障害は、多くのSREチームにとって巨大な死角です。サイレントダウンタイムを防ぐための障害モード、デバッグ、監視戦略を学びます。
