Cómo Depurar Problemas de Resolución de DNS como un SRE
Deje de confiar en la caché local. Aprenda flujos de trabajo y comandos que los SRE usan para aislar fallas de DNS en cascada.

Cuando se activan alertas críticas y los clientes informan que su servicio no es accesible, el instinto es reiniciar pods. Pero si sus métricas internas están en verde, probablemente se enfrente a un problema de DNS.
Los SRE efectivos no adivinan; aíslan el dominio de la falla. Depurar un problema de DNS requiere salir de su infraestructura e imitar el viaje de un paquete desde el dispositivo del usuario hasta el servidor de nombres autoritativo.
La Regla de Oro: Nunca Confíe en la Caché Local
El error más común de los ingenieros es probar con 'ping' usando la configuración local. Si el sistema recibió recientemente una respuesta negativa (NXDOMAIN) o una IP desactualizada, le mentirá.
SRE Triage: El Bypass de la Capa de Aplicación
Una técnica muy efectiva es demostrar que el backend está sano omitiendo intencionalmente el DNS. Use curl para forzar una conexión a la IP conocida:
curl -v --resolve tudominio.com:443:192.0.2.1 https://tudominio.com
Si esta solicitud tiene éxito, ha demostrado que sus servidores y balanceadores de carga están sanos. Solo la resolución de nombres está rota.
Rastreando la Cadena de Resolución
Paso 1: Verifique los Resolvers Públicos
dig @1.1.1.1 tudominio.com A
Paso 2: Siga la Ruta de Delegación
dig +trace tudominio.com
Observe la salida. Si el flujo hasta el servidor autoritativo falla, su zona está dañada.
Ingeniero de infraestructura enfocado en DNS, redes y las capas invisibles que determinan si las aplicaciones son accesibles.
"Creamos Heimdall Observer para monitorizar los tipos de problemas que se tratan en este artículo."