Contexto
Uma aplicação em produção era distribuída por 30 servidores frontend em pequenos batches. Cada rollout exigia bloquear o acesso externo, parar a aplicação, atualizar, reiniciar, testar e reabrir o serviço.
Production Reliability Advisory
Caso em destaque
Um exemplo anónimo mais profundo sobre automação de releases, redução de exposição de serviço e um modelo de deployment mais repetível sob pressão operacional.
Uma aplicação em produção era distribuída por 30 servidores frontend em pequenos batches. Cada rollout exigia bloquear o acesso externo, parar a aplicação, atualizar, reiniciar, testar e reabrir o serviço.
Isto criava uma janela total de release em torno de 2 horas e aproximadamente 30 minutos de indisponibilidade parcial. O processo dependia de múltiplas intervenções manuais, aumentando esforço operacional, inconsistência e risco de release.
Depois de analisar e mapear todo o fluxo de release, identifiquei as dependências manuais e os bottlenecks que estavam a prolongar tanto o tempo de deployment como a exposição do serviço. Redesenhei o processo em torno de blue/green deployment e implementei playbooks Ansible e automação PowerShell para normalizar deployment, smoke tests e validação funcional.
O resultado foi uma redução do tempo de release e validação de cerca de 2 horas para aproximadamente 20 minutos, enquanto a indisponibilidade parcial caiu de cerca de 30 minutos para perto de 2 minutos. O novo processo tornou os releases mais repetíveis, mais seguros e mais fáceis de executar sob pressão operacional.
Sem processo comercial longo. Apenas uma conversa técnica focada para avaliar escopo e próximos passos.