Cómo Depurar Problemas de Resolución de DNS como un SRE

Cuando se activan alertas críticas y los clientes informan que su servicio no es accesible, el instinto es reiniciar pods. Pero si sus métricas internas están en verde, probablemente se enfrente a un problema de DNS.

Los SRE efectivos no adivinan; aíslan el dominio de la falla. Depurar un problema de DNS requiere salir de su infraestructura e imitar el viaje de un paquete desde el dispositivo del usuario hasta el servidor de nombres autoritativo.

La Regla de Oro: Nunca Confíe en la Caché Local

El error más común de los ingenieros es probar con 'ping' usando la configuración local. Si el sistema recibió recientemente una respuesta negativa (NXDOMAIN) o una IP desactualizada, le mentirá.

SRE Triage: El Bypass de la Capa de Aplicación

Una técnica muy efectiva es demostrar que el backend está sano omitiendo intencionalmente el DNS. Use curl para forzar una conexión a la IP conocida:

curl -v --resolve tudominio.com:443:192.0.2.1 https://tudominio.com

Si esta solicitud tiene éxito, ha demostrado que sus servidores y balanceadores de carga están sanos. Solo la resolución de nombres está rota.

Rastreando la Cadena de Resolución

Paso 1: Verifique los Resolvers Públicos

dig @1.1.1.1 tudominio.com A

Paso 2: Siga la Ruta de Delegación

dig +trace tudominio.com

Observe la salida. Si el flujo hasta el servidor autoritativo falla, su zona está dañada.

Cómo Depurar Problemas de Resolución de DNS como un SRE

La Regla de Oro: Nunca Confíe en la Caché Local

SRE Triage: El Bypass de la Capa de Aplicación

Rastreando la Cadena de Resolución

Paso 1: Verifique los Resolvers Públicos

Paso 2: Siga la Ruta de Delegación

Posts Relacionados

Cómo Solucionar Errores SERVFAIL de DNS

¿Listo para monitorizar lo que acabas de leer?

Las Mejores Herramientas de Monitoreo de DNS

Cómo Monitorear la Latencia de Resolución de DNS