Postmortem Aprendendo com os erros V2

No post passado foi falado da importância do Postmortem como uma oportunidade de aprendizado para melhoria de processos internos e aumento da resiliência dos seus sistemas. Nesse mesmo post foi feito um rápido paralelo com as falhas acontecidas na apuração do TSE no dia 15 de Novembro. Vale ressaltar que os resultados do dia 29 de Novembro, por volta das 19:15h todas as capitais já estavam com os seus resultados publicados. Parece que dessa vez o supercomputador do TSE funcionou de verdade 👏👏👏

Em proporções bem maiores, no dia 25 de Novembro, um incidente de infraestrutura na AWS chamou a atenção repercutindo em diversos veículos de comunicação: Washingtonpost, Techcrunch, Zdnet. Esse incidente afetou até o robozinho que limpa a casa de algumas pessoas.

Depois de dar dor de cabeça para muita gente, a Amazon publicou o Postmortem do incidente, a íntegra de pode ser lido aqui. O mais interessante desse documento é notar pontos como: Time line, melhorias, causa raiz do problema. São pontos importantes que devem sempre ser buscados num processo de Postmortem. Achei esses pontos interessantes, veja!

Time line

Montar a linha do tempo dos eventos que antecedem o incidente.

Image: Linha do tempo - Infra as Code

Causa raiz do problema

Busca pela a causa raiz do problema.

Image: Causa raiz - Infra as Code

Melhorias

Atividades que serão revistas, refeitas e melhoradas pra que não causem o mesmo problema novamente.

Image: Melhorias - Infra as Code

Resumo

Esse processo de Postmortem vai evitar que a Amazon tenha um outro incidente dessas propoções? Não, não vai, certamente vão ter outros, mas, esse incidente especificamente provavelmente não vai se repetir pois o problema foi analisado pelas equipes, as razões foram encontradas e as melhorias necessárias foram listas para serem feitas.

O Sysadmin / DEVOPS engineer / SRE tem que ter um loop infinito dentro da sua cabeça com o seguinte pensamento - “O sistema/infraestrutura sempre pode falhar em algum lugar a qualquer momento.” o seu trabalho é descobrir onde e quando antes que isso aconteça. Simples, não?

AAbraços!

Vida longa e próspera a todos!!

DICA RÁPIDA DE LIVRO

Estou lendo atualmente o livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção

Referências


Eu adoraria ouvir suas outras histórias e situações semelhantes ao que acabei de escrever neste post, você pode me encontrar em @infraascode_br ou linkedin.com/in/leonardoml/ .

Te convido a ver os outros posts do blog Infra-as-Code garanto que tem coisas legais lá!!


--- --- IMPORTANTE --- ---
As opiniões aqui expressas são pessoais e de responsabilidade única e exclusiva do autor, elas não refletem necessariamente a posição das empresas que eu trabalho(ei) e/ou presto(ei) serviço.