Postmortem Aprendendo com os erros V3 final

Já vou prometendo que não haverá mais nenhuma publicação sobre Postmortem, essa vai ser a última, mesmo que tenha algum outro incidente em qualquer outra tech company 😄.

Além de ser o último, esse é especial, e por que é especial? Porque no dia 14 de Dezembro de 2020 o Google ficou fora!! Simmmm o Google ficou fora! O que isso quer dizer?? Quer dizer que a Internet parou para muitas pessoas, pois o Gmail, Google Driver, Google Keep, Hangout, YouTube entre outros serviços ficaram fora do ar.

Para quem é da área de administração de sistemas distribuídos o Google e seus serviços são sinônimos de qualidade e disponibilidades de suas aplicações para os usuários. O termo SRE e a disciplina Site Site Reliability Engineering (SRE) aplicada à infraestruturas de serviços para a web foi criada no Google por Ben Treynor, veja o vídeo.

Essa disciplina é amplamente difundida por meio de blogs, palestras e três excelentes livros que podem ser lidos on-line:

Mesmo sendo referência no tema alta disponibilidade de sistemas, “shit happens” a todo momento também no Google e como esses incidentes são tratados por eles? É justamente nesse ponto que fica bastante claro a diferença entre o e-commerce do seu Zé e uma empresa preocupada com a disponibilidade dos seus serviços.

Monitoração

Sistema público de monitoração das aplicações, no dia 14 de Dezembro estava com esses alertas.

Image: Monitoração - Infra as Code

Incidente

Sistema público de incidente com todas as informações de sistemas afetados e uma linha do tempo dos eventos acontecidos.

Image: Incidente - Infra as Code

Postmortem

O documento de Postmortem do Google segue o mesmo modelo que descrito no post passado sobre Postmortem-aprendendo-com-os-erros, esse documento possuir minimamente as seguintes sessões: avaliações dos impactos causados pelo incidente, uma linha do tempo com os eventos que levaram ao incidente e a descrição da causa raiz do problema.

OBS: Esse documento de Postmortem não é referente ao incidente do dia 14 de Dezembro.

Image: Postmortem - Infra as Code

Conclusão

Falamos bastante do assunto Postmortem, foram mostradas incidentes em grandes empresas e como elas lidam com essas situações, como eles colocam em prática a gestão de incidentes, registram os acontecimentos e criam seus documentos de Postmortem.

Essas empresas possuem infraestruturas globais bastante complexas e uma falha pode atingir usuários em diversas partes do mundo. Mesmo em momentos de crises eles utilizam essa situação de falha para corrigir deficiências em seus processos e melhorar a qualidade dos seus serviços.

Se eles do tamanho que são, com a complexidade que eles têm, conseguem fazer funcionar um processo de Postmortem, acredito que seja qual for o tamanho da empresa que você trabalhe vale muito a pena tentar fazer também.

Abraços!

Vida longa e próspera a todos!!

DICA RÁPIDA DE LIVRO

Estou lendo atualmente o livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção

Referências


Eu adoraria ouvir suas outras histórias e situações semelhantes ao que acabei de escrever neste post, você pode me encontrar em @infraascode_br ou linkedin.com/in/leonardoml/ .

Te convido a ver os outros posts do blog Infra-as-Code garanto que tem coisas legais lá!!


--- --- IMPORTANTE --- ---
As opiniões aqui expressas são pessoais e de responsabilidade única e exclusiva do autor, elas não refletem necessariamente a posição das empresas que eu trabalho(ei) e/ou presto(ei) serviço.