Métricas Melancia

Image: Infra as Code

Essa expressão é uma das expressões mais engraçadas que eu li recentemente, olha que eu vi num livro técnico!! Ela é engraçada mas esconde uma das falhas que equipes de infraestrutura podem cometer ao colocar um produto em produção. É sério isso existe!!!

A monitoração de sua aplicação pode estar mostrando tudo lindo e você que está achando que está tudo certo, tudo “UP”, mas basta ver alguma outra métrica mais específica e perceber que por dentro tem algo errado, ai, cria-se o Efeito Métricas Melancia que como diz a música do Show da Luna “…Verde por fora vermelha por dentro é a melancia…” (Quem tem criança em casa vai entender a referência), na prática é uma aplicação que aparentemente está funcionando bem com algumas métricas pouco valiosas em verde mas que na prática está entregando um serviço de baixa qualidade e criando uma experiência ruim para os seus clientes.

Efeito Métricas Melancia

O Efeito Melancia acontece quando uma determinada falha acontece com um determinado grupo de usuários da sua aplicação. Vejamos um exemplo pessoal, para coisas particulares eu uso um laptop com Linux Ubuntu e três navegadores distintos: Chrome, FireFox e Brave. Para coisas do trabalho eu uso o laptop da empresa que é um MacBook e lá utilizo os mesmos e três navegadores.

Essas combinações de sistema operacional vs. navegadores me colocam em determinados grupos, alguns desses grupos são mais privilegiados que outros em termos de atenção ao desenvolvimento de um produto. Isso quer dizer que dependendo da atenção, um produto pode não funcionar para mim. Como exemplo prático , minhas interações com sites.gov.br e sites de operadoras de plano de saúde são sofridas, às vezes um botão de “enviar” e “finalizar” não aparecem, faltam campos a preencher.

O exemplo que eu usei foi um exemplo pessoal, não tem efeitos graves para mim e pelas combinações técnicas que eu utilizo me deixam num grupo esquecido lá nas últimas linhas de qualquer planilha de prioridades como pode ser visto segundo a classificação do W3counter na imagem abaixo. Agora pense, quais são os outros grupos que a sua monitoração não enxerga?!?

OBS: Esses erros não deveriam acontecer principalmente para serviços .gov.br. As pessoas não podem ter um serviço negado por não terem o sistema operacional X ou Y.

Image 01: by https://www.w3counter.com/globalstats.php

Evitando o efeito Métricas Melancia

Não basta olhar se um serviço tem a porta TCP/80 ou TCP/443 aberta ou não. Não basta o health check da aplicação responder com o código HTTP 200. É preciso mais, é preciso mais e mais!! Mas como?

  • É preciso monitorar a Latência das chamadas.
  • É preciso monitorar o tráfego para aplicação.
  • É preciso monitorar as taxas de erros e acertos 200s, 400s e 500s.
  • É necessáio combinar a monitoração com o uso de ferramentas de APM.
  • Crie testes com robôs emulando sistemas operacionais e navegadores distintos fazendo fluxos de uso da aplicação, colete as métricas, faça análise de métricas.
  • Criei SLAs e monitorar.
  • Ajustem as SLAs caso percam o sentido.

Tenha como objetivo melhorar, melhorar sempre a experiência de seus usuários.

Abraços!

Vida longa e próspera a todos!!

Referências


Eu adoraria ouvir suas outras histórias e situações semelhantes ao que acabei de escrever neste post, você pode me encontrar em @infraascode_br ou linkedin.com/in/leonardoml/ .

Te convido a ver os outros posts do blog Infra-as-Code garanto que tem coisas legais lá!!


--- --- IMPORTANTE --- ---
As opiniões aqui expressas são pessoais e de responsabilidade única e exclusiva do autor, elas não refletem necessariamente a posição das empresas que eu trabalho(ei) e/ou presto(ei) serviço.