Postmortem Aprendendo com os erros V3 final
Já vou prometendo que não haverá mais nenhuma publicação sobre Postmortem, essa vai ser a última, mesmo que tenha algum outro incidente em qualquer outra tech company 😄.
Além de ser o último, esse é especial, e por que é especial? Porque no dia 14 de Dezembro de 2020 o Google ficou fora!! Simmmm o Google ficou fora! O que isso quer dizer?? Quer dizer que a Internet parou para muitas pessoas, pois o Gmail, Google Driver, Google Keep, Hangout, YouTube entre outros serviços ficaram fora do ar.
Para quem é da área de administração de sistemas distribuídos o Google e seus serviços são sinônimos de qualidade e disponibilidades de suas aplicações para os usuários. O termo SRE e a disciplina Site Site Reliability Engineering (SRE) aplicada à infraestruturas de serviços para a web foi criada no Google por Ben Treynor, veja o vídeo.
Essa disciplina é amplamente difundida por meio de blogs, palestras e três excelentes livros que podem ser lidos on-line:
- Site Reliability Engineering: How Google Runs Production Systems
- The Site Reliability Workbook: Practical Ways to Implement SRE
- Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems
Mesmo sendo referência no tema alta disponibilidade de sistemas, “shit happens” a todo momento também no Google e como esses incidentes são tratados por eles? É justamente nesse ponto que fica bastante claro a diferença entre o e-commerce do seu Zé e uma empresa preocupada com a disponibilidade dos seus serviços.
Monitoração
Sistema público de monitoração das aplicações, no dia 14 de Dezembro estava com esses alertas.

Image: Monitoração - Infra as Code
Incidente
Sistema público de incidente com todas as informações de sistemas afetados e uma linha do tempo dos eventos acontecidos.

Image: Incidente - Infra as Code
Postmortem
O documento de Postmortem do Google segue o mesmo modelo que descrito no post passado sobre Postmortem-aprendendo-com-os-erros, esse documento possuir minimamente as seguintes sessões: avaliações dos impactos causados pelo incidente, uma linha do tempo com os eventos que levaram ao incidente e a descrição da causa raiz do problema.
OBS: Esse documento de Postmortem não é referente ao incidente do dia 14 de Dezembro.

Image: Postmortem - Infra as Code
Conclusão
Falamos bastante do assunto Postmortem, foram mostradas incidentes em grandes empresas e como elas lidam com essas situações, como eles colocam em prática a gestão de incidentes, registram os acontecimentos e criam seus documentos de Postmortem.
Essas empresas possuem infraestruturas globais bastante complexas e uma falha pode atingir usuários em diversas partes do mundo. Mesmo em momentos de crises eles utilizam essa situação de falha para corrigir deficiências em seus processos e melhorar a qualidade dos seus serviços.
Se eles do tamanho que são, com a complexidade que eles têm, conseguem fazer funcionar um processo de Postmortem, acredito que seja qual for o tamanho da empresa que você trabalhe vale muito a pena tentar fazer também.
Abraços!
Vida longa e próspera a todos!!
DICA RÁPIDA DE LIVRO
Estou lendo atualmente o livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção
Referências
- Dica de livro Engenharia de Confiabilidade do Google: Como o Google Administra Seus Sistemas de Produção
- SRE - https://youtu.be/n4Wf14e2jxQ
- Site Reliability Engineering: How Google Runs Production Systems - https://sre.google/sre-book/table-of-contents/
- The Site Reliability Workbook: Practical Ways to Implement SRE - https://sre.google/workbook/table-of-contents/
- Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems - https://static.googleusercontent.com/media/sre.google/en//static/pdf/building_secure_and_reliable_systems.pdf
- Monitoração - http://www.google.com.br/appsstatus#hl=en&v=status
Eu adoraria ouvir suas outras histórias e situações semelhantes ao que acabei de escrever neste post, você pode me encontrar em @infraascode_br ou linkedin.com/in/leonardoml/ .
Te convido a ver os outros posts do blog Infra-as-Code garanto que tem coisas legais lá!!
|
