Postmortem Aprendendo com os erros V2
No post passado foi falado da importância do Postmortem como uma oportunidade de aprendizado para melhoria de processos internos e aumento da resiliência dos seus sistemas. Nesse mesmo post foi feito um rápido paralelo com as falhas acontecidas na apuração do TSE no dia 15 de Novembro. Vale ressaltar que os resultados do dia 29 de Novembro, por volta das 19:15h todas as capitais já estavam com os seus resultados publicados. Parece que dessa vez o supercomputador do TSE funcionou de verdade 👏👏👏
Em proporções bem maiores, no dia 25 de Novembro, um incidente de infraestrutura na AWS chamou a atenção repercutindo em diversos veículos de comunicação: Washingtonpost, Techcrunch, Zdnet. Esse incidente afetou até o robozinho que limpa a casa de algumas pessoas.
Depois de dar dor de cabeça para muita gente, a Amazon publicou o Postmortem do incidente, a íntegra de pode ser lido aqui. O mais interessante desse documento é notar pontos como: Time line, melhorias, causa raiz do problema. São pontos importantes que devem sempre ser buscados num processo de Postmortem. Achei esses pontos interessantes, veja!
Time line
Montar a linha do tempo dos eventos que antecedem o incidente.
Causa raiz do problema
Busca pela a causa raiz do problema.
Melhorias
Atividades que serão revistas, refeitas e melhoradas pra que não causem o mesmo problema novamente.
Resumo
Esse processo de Postmortem vai evitar que a Amazon tenha um outro incidente dessas propoções? Não, não vai, certamente vão ter outros, mas, esse incidente especificamente provavelmente não vai se repetir pois o problema foi analisado pelas equipes, as razões foram encontradas e as melhorias necessárias foram listas para serem feitas.
O Sysadmin / DEVOPS engineer / SRE tem que ter um loop infinito dentro da sua cabeça com o seguinte pensamento - “O sistema/infraestrutura sempre pode falhar em algum lugar a qualquer momento.” o seu trabalho é descobrir onde e quando antes que isso aconteça. Simples, não?
AAbraços!
Vida longa e próspera a todos!!
DICA RÁPIDA DE LIVRO
Estou lendo atualmente o livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção
Referências
- Dica rápida de livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção
- Postmortem completo - https://aws.amazon.com/message/11201/
- Washington Post - https://www.washingtonpost.com/business/economy/amazon-web-services-outage-stymies-businesses/2020/11/25/b54a6106-2f4f-11eb-860d-f7999599cbc2_story.html
- Techcrunch - https://techcrunch.com/2020/11/25/amazon-web-services-outage-takes-a-portion-of-the-internet-down-with-it/
- ZDNet - https://www.zdnet.com/article/aws-outage-impacts-thousands-of-online-services/
MENTORIA
Curtiu o blog? Quer trocar uma ideia comigo sobre algum post?
Marca Aqui! É um papo gratuito
oferecido para quem é leitor do blog, podemos falar de temas como: DevOps, SRE e carreira em TI.
Te convido a ver os outros posts do blog Infra-as-Code garanto que tem coisas legais lá!!
|