SREのようにDNS名前解決の問題をデバッグする方法
ローカルキャッシュへの依存をやめましょう。連鎖的なDNS障害を隔離するためにSREが使用するワークフローとコマンドを学びます。
ダ
ダニエル・モーガン (Daniel Morgan)
8 de mar. de 2026•2 分で読めます

重大なアラートが発報し、顧客からサービスアクセス不能の報告が届いたとき、反射的にポッドを再起動しがちです。しかし内部メトリクスが正常な場合、DNS問題の可能性が高いです。
優秀なSREは憶測しません。障害ドメインを隔離します。DNSのデバッグは、インフラの外へ出てユーザーから権威ネームサーバーまでのパケットの流れを再現することです。
黄金律:ローカルキャッシュを信頼するな
エンジニアが犯しがちなミスは、ローカル環境の'ping'やブラウザによるテストです。OSが負の応答(NXDOMAIN)を受け取ったばかりの場合、キャッシュが切れるまでそれを返します。
SRE Triage:アプリケーション層のバイパス
非常に効果的な手法は、意図的にDNSを無視してバックエンドの健全性を証明することです。curlを使用して既知のIPへの接続を強制します:
curl -v --resolve yourdomain.com:443:192.0.2.1 https://yourdomain.com
これで成功すればサーバーやロードバランサーは健全です。名前解決のみが破損しています。
解決チェーンの追跡
ステップ 1:パブリックリゾルバーを確認する
dig @1.1.1.1 yourdomain.com A
ステップ 2:委任パスをトレースする
dig +trace yourdomain.com
出力を観察してください。権威サーバーまでの流れが失敗する場合、ゾーンが破損しています。
0 が参考になったと回答
ダ
DNS、ネットワーク、そしてアプリケーションが到達可能かどうかを決定する見えない層に焦点を当てたインフラストラクチャエンジニア。
"本記事のような事象を監視するために Heimdall Observer を構築しました。"