Postmortem Aprendendo com os erros V2

December 06, 2020

No post passado foi falado da importância do Postmortem como uma oportunidade de aprendizado para melhoria de processos internos e aumento da resiliência dos seus sistemas. Nesse mesmo post foi feito um rápido paralelo com as falhas acontecidas na apuração do TSE no dia 15 de Novembro. Vale ressaltar que os resultados do dia 29 de Novembro, por volta das 19:15h todas as capitais já estavam com os seus resultados publicados. Parece que dessa vez o supercomputador do TSE funcionou de verdade 👏👏👏

Em proporções bem maiores, no dia 25 de Novembro, um incidente de infraestrutura na AWS chamou a atenção repercutindo em diversos veículos de comunicação: Washingtonpost, Techcrunch, Zdnet. Esse incidente afetou até o robozinho que limpa a casa de algumas pessoas.

Depois de dar dor de cabeça para muita gente, a Amazon publicou o Postmortem do incidente, a íntegra de pode ser lido aqui. O mais interessante desse documento é notar pontos como: Time line, melhorias, causa raiz do problema. São pontos importantes que devem sempre ser buscados num processo de Postmortem. Achei esses pontos interessantes, veja!

Timeline

Montar a linha do tempo dos eventos que antecedem o incidente.

Causa raiz do problema

Busca pela a causa raiz do problema.

Melhorias

Atividades que serão revistas, refeitas e melhoradas pra que não causem o mesmo problema novamente.

Resumo

Esse processo de Postmortem vai evitar que a Amazon tenha um outro incidente dessas propoções? Não, não vai, certamente vão ter outros, mas, esse incidente especificamente provavelmente não vai se repetir pois o problema foi analisado pelas equipes, as razões foram encontradas e as melhorias necessárias foram listas para serem feitas.

O Sysadmin / DEVOPS engineer / SRE tem que ter um loop infinito dentro da sua cabeça com o seguinte pensamento - “O sistema/infraestrutura sempre pode falhar em algum lugar a qualquer momento.” o seu trabalho é descobrir onde e quando antes que isso aconteça. Simples, não?

AAbraços!

Vida longa e próspera a todos!!

DICA RÁPIDA DE LIVRO

Estou lendo atualmente o livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção

Referências

https://infraascode.com.br/postmortem-aprendendo-com-os-erros/
Dica rápida de livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção
Postmortem completo - https://aws.amazon.com/message/11201/
Washington Post - https://www.washingtonpost.com/business/economy/amazon-web-services-outage-stymies-businesses/2020/11/25/b54a6106-2f4f-11eb-860d-f7999599cbc2_story.html
Techcrunch - https://techcrunch.com/2020/11/25/amazon-web-services-outage-takes-a-portion-of-the-internet-down-with-it/
ZDNet - https://www.zdnet.com/article/aws-outage-impacts-thousands-of-online-services/

Entre em contato:

NewsLetter - https://engineeringmanager.com.br/
Linkdin - linkedin.com/in/leonardoml/
Twitter: @infraascode_br

Te convido a ver os outros posts do blog Infra-as-Code garanto que tem coisas legais lá!!

--- --- IMPORTANTE --- ---
As opiniões aqui expressas são pessoais e de responsabilidade única e exclusiva do autor, elas não refletem necessariamente a posição das empresas que eu trabalho(ei) e/ou presto(ei) serviço.