Boas Práticas de DNS TTL para Sistemas em Produção

O Time-To-Live (TTL) é o motor do cache na internet. É um inteiro único que dita o equilíbrio entre agilidade e resiliência. Configure-o muito alto, e uma migração simples se torna uma saga de vários dias. Configure-o muito baixo, e você corre o risco de sobrecarregar seu provedor DNS.

O Tradeoff entre Agilidade e Resiliência

Quando você publica um registro A com um TTL de 3600 segundos, está dizendo a cada ISP no mundo: 'Não me pergunte por este registro novamente por uma hora.' Isso fornece resiliência massiva. Se o seu provedor DNS sofrer uma queda total 5 minutos depois, seus usuários não notarão, porque seus ISPs já têm a resposta.

Mas a resiliência contrasta com a agilidade. Se o seu balanceador de carga principal falhar e você atualizar seu DNS para apontar para um backup, esse TTL de 1 hora significa que o tráfego continuará fluindo para o balanceador morto até que os caches locais expirem.

A Realidade dos Overrides de CDN

Um equívoco comum é que você controla seu TTL globalmente. Na realidade, grandes resolvers recursivos (como algumas operadoras móveis) imporão seus próprios TTLs mínimos para economizar banda. Mais importante, CDNs frequentemente anulam seu TTL autoritativo inteiramente para registros proxied.

Melhores Práticas para SREs

Operar DNS em produção exige uma abordagem escalonada para os TTLs:

Infraestrutura Estática (MX, TXT): Use 86400 (24 horas). Estes raramente mudam, e TTLs altos protegem a entrega de seus e-mails contra quedas do provedor DNS.
Endpoints Dinâmicos (A, AAAA, CNAME): Use 300 (5 minutos). Isso fornece uma janela apertada para roteiros de failover redirecionarem o tráfego durante um incidente.
Janelas de Migração: 48 horas antes de derrubar a infraestrutura antiga, reduza o TTL dinâmico para 60 segundos. Aguarde. Realize a migração. Eleve de volta para 300 segundos.

Conclusão

O gerenciamento de TTL é a base do roteamento sem downtime.

Com o Heimdall Observer, você pode auditar o TTL de seus registros críticos para garantir que eles não foram acidentalmente fixados em um valor alto, prevenindo um lockout catastrófico durante seu próximo incidente.

Boas Práticas de DNS TTL para Sistemas em Produção

O Tradeoff entre Agilidade e Resiliência

A Realidade dos Overrides de CDN

Melhores Práticas para SREs

Conclusão

Publicações Relacionadas

Como Corrigir Erros SERVFAIL de DNS

Comece a Monitorar Suas Aplicações

Melhores Ferramentas de Monitoramento de DNS para Equipes de Infraestrutura

Como Monitorar a Latência de Resolução de DNS