Na Elven Platform, o processo de Postmortem é uma prática essencial para promover a melhoria contínua e a cultura de aprendizado. Após a ocorrência de incidentes, é realizada uma análise detalhada das causas raiz, impactos e respostas adotadas, documentando os principais pontos. O objetivo é identificar oportunidades para evitar recorrências e fortalecer a resiliência do sistema. A abordagem colaborativa e orientada a dados garante que as lições aprendidas sejam compartilhadas, contribuindo para a evolução da plataforma e aprimorando os processos de DevOps/SRE.
Acessando o Postmortem Center
- Acesse a aba Incident Management no menu superior.
- Em seguida, clique em Postmortems
Preencha o Formulário de Criação de Postmortem
Use um título claro e descritivo para Postmortem : “Alta Carga de CPU no Ambiente de Produção”.
Summary
Explique brevemente o que aconteceu, incluindo data e horário do incidente, impacto geral e o status final após a resolução.
Exemplo:
No dia 13 de novembro de 2024, o monitoramento detectou um aumento da carga de CPU acima de 96% no ambiente de teste. Isso gerou uma sobrecarga, potencialmente afetando o desempenho dos serviços. A equipe interveio e normalizou o uso de CPU em 30 minutos.
Root Cause
Forneça uma explicação detalhada sobre a origem do problema. Inclua o que causou o problema, como uma configuração incorreta ou agendamento inadequado de tarefas.
Exemplo:
A sobrecarga foi causada por um job de teste que foi programado erroneamente para rodar em paralelo com outras tarefas intensivas de CPU, o que resultou em uma saturação temporária dos recursos disponíveis.
Recovery
Descreva as etapas exatas tomadas para solucionar o problema, incluindo os ajustes feitos e o tempo total para recuperação.
Exemplo:
- A equipe interrompeu o job automático que causou a sobrecarga.
- Reconfigurou o cronograma de jobs para evitar sobreposição.
- Monitorou o sistema por 30 minutos após as mudanças para confirmar a estabilidade.
Corrective Actions
Liste as melhorias implementadas para evitar que o problema se repita. Esse item é essencial para mostrar aprendizado e melhorias contínuas.
Exemplo:
- Revisar o agendamento de jobs para minimizar a execução simultânea de tarefas pesadas.
- Ajustar os limites de alertas de CPU para notificar cargas intermediárias (como 75% e 85%).
- Documentar o incidente e realizar treinamento da equipe sobre melhores práticas de uso de recursos.
Correlacione o Postmortem a um Incidente específico.
Salve o formulário de Postmortem
Edite, Exclua e exporte seu Postmortem
No Postmortem Center da Elven Platform, você tem o controle total sobre os relatórios criados para documentar e aprender com os incidentes. A partir da lista de postmortems, é possível realizar ações como editar, excluir ou até mesmo exportar para PDF de maneira prática e intuitiva. Com apenas alguns cliques no menu de ações (os três pontinhos na coluna “Actions”), você pode ajustar informações importantes, remover seu postmortem ou exportar este para PDF.
Glossário de Termos Técnicos
Postmortem: Processo de análise detalhada após a resolução de um incidente, com o objetivo de identificar causas raiz, impactos, respostas adotadas e ações corretivas. O postmortem visa melhorar processos e evitar recorrências de problemas.
Postmortem Center: Área na Elven Platform dedicada à criação e visualização de postmortems. Permite documentar e compartilhar as lições aprendidas após um incidente.
Título do Postmortem: Campo onde o usuário insere um título claro e descritivo para o postmortem, facilitando a identificação do incidente analisado (ex: “Alta Carga de CPU no Ambiente de Produção”).
Summary: Seção onde é fornecido um resumo conciso do incidente, incluindo a data, horário, impacto geral e o status final após a resolução do problema. Ajuda a contextualizar o que ocorreu durante o incidente.
Root Cause: Explicação detalhada da causa raiz do incidente, identificando os fatores que levaram ao problema. Pode incluir erros de configuração, falhas no agendamento de tarefas ou outros fatores que causaram a falha.
Recovery: Descrição das etapas exatas tomadas para resolver o incidente, incluindo ajustes feitos no sistema e o tempo total para a recuperação. Esta seção detalha a resposta imediata ao problema.
Corrective Actions: Ações corretivas implementadas após a resolução do incidente para evitar que o problema ocorra novamente. Pode envolver mudanças na configuração, processos ou treinamento da equipe.
Salvar o Postmortem: Função que permite armazenar as informações do postmortem após seu preenchimento, garantindo que o relatório fique salvo e disponível para consulta futura.
Editar Postmortem: Função que permite modificar um postmortem já salvo, caso seja necessário ajustar informações ou adicionar mais detalhes após a criação inicial.
Excluir Postmortem: Função que permite remover um postmortem do sistema, caso o relatório não seja mais necessário ou precise ser corrigido substancialmente.
Exportar Postmortem: Função que permite gerar um arquivo PDF do postmortem para distribuição ou armazenamento externo. A exportação facilita o compartilhamento de informações com equipes ou stakeholders.