Postmortem Aprendendo com os erros V3 final

December 21, 2020

Já vou prometendo que não haverá mais nenhuma publicação sobre Postmortem, essa vai ser a última, mesmo que tenha algum outro incidente em qualquer outra tech company 😄.

Além de ser o último, esse é especial, e por que é especial? Porque no dia 14 de Dezembro de 2020 o Google ficou fora!! Simmmm o Google ficou fora! O que isso quer dizer?? Quer dizer que a Internet parou para muitas pessoas, pois o Gmail, Google Driver, Google Keep, Hangout, YouTube entre outros serviços ficaram fora do ar.

Para quem é da área de administração de sistemas distribuídos o Google e seus serviços são sinônimos de qualidade e disponibilidades de suas aplicações para os usuários. O termo SRE e a disciplina Site Reliability Engineering (SRE) aplicada à infraestruturas de serviços para a web foi criada no Google por Ben Treynor, veja o vídeo.

Essa disciplina é amplamente difundida por meio de blogs, palestras e três excelentes livros que podem ser lidos on-line:

Mesmo sendo referência no tema alta disponibilidade de sistemas, “shit happens” a todo momento também no Google e como esses incidentes são tratados por eles? É justamente nesse ponto que fica bastante claro a diferença entre o e-commerce do seu Zé e uma empresa preocupada com a disponibilidade dos seus serviços.

Monitoração

Sistema público de monitoração das aplicações, no dia 14 de Dezembro estava com esses alertas.

Incidente

Sistema público de incidente com todas as informações de sistemas afetados e uma linha do tempo dos eventos acontecidos.

Postmortem

O documento de Postmortem do Google segue o mesmo modelo que descrito no post passado sobre Postmortem-aprendendo-com-os-erros, esse documento possuir mínimamente as seguintes sessões: avaliações dos impactos causados pelo incidente, uma linha do tempo com os eventos que levaram ao incidente e a descrição da causa raiz do problema.

OBS: Esse documento de Postmortem não é referente ao incidente do dia 14 de Dezembro.

Conclusão

Falamos bastante do assunto Postmortem, foram mostradas incidentes em grandes empresas e como elas lidam com essas situações, como eles colocam em prática a gestão de incidentes, registram os acontecimentos e criam seus documentos de Postmortem.

Essas empresas possuem infraestruturas globais bastante complexas e uma falha pode atingir usuários em diversas partes do mundo. Mesmo em momentos de crises eles utilizam essa situação de falha para corrigir deficiências em seus processos e melhorar a qualidade dos seus serviços.

Se eles do tamanho que são, com a complexidade que eles têm, conseguem fazer funcionar um processo de Postmortem, acredito que seja qual for o tamanho da empresa que você trabalhe vale muito a pena tentar fazer também.

Abraços! Vida longa e próspera a todos!!

Referências

SRE - https://youtu.be/n4Wf14e2jxQ
Site Reliability Engineering: How Google Runs Production Systems - https://sre.google/sre-book/table-of-contents/
The Site Reliability Workbook: Practical Ways to Implement SRE - https://sre.google/workbook/table-of-contents/
Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems - https://static.googleusercontent.com/media/sre.google/en//static/pdf/building_secure_and_reliable_systems.pdf
Monitoração - http://www.google.com.br/appsstatus#hl=en&v=status

Convido você a ver os outros posts do blog Infra-as-Code.

Nossos contatos são:
Email – [email protected]
Twitter - @infraascodebr

--- --- IMPORTANTE --- ---
As opiniões aqui expressas são pessoais e de responsabilidade única e exclusiva do autor, elas não refletem necessariamente a posição das empresas que eu trabalho(ei) e/ou presto(ei) serviço.