SREのようにDNS名前解決の問題をデバッグする方法

重大なアラートが発報し、顧客からサービスアクセス不能の報告が届いたとき、反射的にポッドを再起動しがちです。しかし内部メトリクスが正常な場合、DNS問題の可能性が高いです。

優秀なSREは憶測しません。障害ドメインを隔離します。DNSのデバッグは、インフラの外へ出てユーザーから権威ネームサーバーまでのパケットの流れを再現することです。

黄金律：ローカルキャッシュを信頼するな

エンジニアが犯しがちなミスは、ローカル環境の'ping'やブラウザによるテストです。OSが負の応答（NXDOMAIN）を受け取ったばかりの場合、キャッシュが切れるまでそれを返します。

非常に効果的な手法は、意図的にDNSを無視してバックエンドの健全性を証明することです。curlを使用して既知のIPへの接続を強制します：

curl -v --resolve yourdomain.com:443:192.0.2.1 https://yourdomain.com

これで成功すればサーバーやロードバランサーは健全です。名前解決のみが破損しています。

dig @1.1.1.1 yourdomain.com A

dig +trace yourdomain.com

出力を観察してください。権威サーバーまでの流れが失敗する場合、ゾーンが破損しています。