Na Elven Platform, o processo de Postmortem é uma prática essencial para promover a melhoria contínua e a cultura de aprendizado. Após a ocorrência de incidentes, é realizada uma análise detalhada das causas raiz, impactos e respostas adotadas, documentando os principais pontos. O objetivo é identificar oportunidades para evitar recorrências e fortalecer a resiliência do sistema. A abordagem colaborativa e orientada a dados garante que as lições aprendidas sejam compartilhadas, contribuindo para a evolução da plataforma e aprimorando os processos de DevOps/SRE.
Acessando o Postmortem Center
- Acesse a aba Incident Management no menu superior.
- Em seguida, clique em Postmortems
Documentação Eficiente, Guiada e Colaborativa
A Elven Platform oferece um editor exclusivo para a criação de Postmortems, projetado para tornar o processo de documentação de incidentes mais simples, claro e colaborativo. Com suporte à linguagem Markdown, o editor permite que as equipes relatem os acontecimentos de forma organizada e com boa legibilidade, mantendo a consistência das informações e facilitando a análise posterior. Tudo isso contribui para uma visão mais completa dos eventos, das causas aos impactos, além das ações tomadas e aprendizados gerados.
Além disso, o editor conta com guias interativos, como o campo de Summary, que orientam passo a passo o preenchimento das informações mais importantes: o que aconteceu, quando, qual foi o impacto e qual o status após a resolução. Isso ajuda a economizar tempo e evita que dados relevantes sejam esquecidos. Ao reunir tudo em um único lugar, a plataforma estimula a cultura de aprendizado contínuo, reforça boas práticas e melhora a comunicação entre times, promovendo ações mais eficazes no futuro.
Criação de Postmortem
Ao iniciar a criação de um Postmortem na Elven Platform, o primeiro passo é escolher um título claro e descritivo, que comunique de forma direta o que aconteceu, algo como “Alta Carga de CPU no Ambiente de Produção” já oferece um bom contexto logo de início. Esse cuidado facilita a leitura e compreensão, tanto para quem participou do incidente quanto para outras pessoas que vão consultar o documento no futuro.
Depois do título, usamos o editor de texto da plataforma para preencher as principais guias do Postmortem. Cada uma delas foi pensada para tornar o processo mais fluido e intuitivo. Em Summary, contamos de forma objetiva o que aconteceu e quando. Em Root Cause, explicamos a causa raiz do problema, o que realmente levou à falha. Em Recovery, detalhamos como a situação foi resolvida. E por fim, em Corrective Actions, registramos as ações que serão tomadas para evitar que o problema volte a acontecer. Esse fluxo orientado ajuda a transformar o incidente em um aprendizado valioso, promovendo melhorias reais no dia a dia da operação.
Summary
Explique brevemente o que aconteceu, incluindo data e horário do incidente, impacto geral e o status final após a resolução.
Exemplo:
No dia 13 de novembro de 2024, o monitoramento detectou um aumento da carga de CPU acima de 96% no ambiente de teste. Isso gerou uma sobrecarga, potencialmente afetando o desempenho dos serviços. A equipe interveio e normalizou o uso de CPU em 30 minutos.
Root Cause
Forneça uma explicação detalhada sobre a origem do problema. Inclua o que causou o incidente, como uma configuração incorreta ou um agendamento inadequado de tarefas.
Exemplo:
A sobrecarga foi causada por um job de teste que foi programado erroneamente para rodar em paralelo com outras tarefas intensivas de CPU, o que resultou em uma saturação temporária dos recursos disponíveis.
Recovery
Descreva as etapas exatas tomadas para solucionar o problema, incluindo os ajustes feitos e o tempo total para recuperação.
Exemplo:
- A equipe interrompeu o job automático que causou a sobrecarga.
- Reconfigurou o cronograma de jobs para evitar sobreposição.
- Monitorou o sistema por 30 minutos após as mudanças para confirmar a estabilidade.
Corrective Actions
Liste as melhorias implementadas para evitar que o problema se repita. Esse item é essencial para demonstrar aprendizado e o compromisso com melhorias contínuas.
Exemplo:
- Revisar o agendamento de jobs para minimizar a execução simultânea de tarefas pesadas.
- Ajustar os limites de alertas de CPU para notificar cargas intermediárias (como 75% e 85%).
- Documentar o incidente e realizar treinamento da equipe sobre melhores práticas de uso de
Correlacione o Postmortem a um Incidente específico
Na Elven Platform, a criação de um Postmortem não é apenas um processo de documentação, mas uma oportunidade valiosa de aprendizado contínuo e aprimoramento das estratégias. Ao correlacionar o Postmortem a um incidente específico, garantimos que cada detalhe do evento esteja conectado a um histórico claro, proporcionando insights que vão além da resolução imediata.
Salve o formulário de Postmortem
Depois de documentar cada etapa do incidente e definir estratégias preventivas, chega o momento de consolidar todo esse aprendizado. Na Elven Platform, salvar o Postmortem é mais do que apenas arquivar um relatório, é garantir que todo o conhecimento gerado seja acessível e acionável para a equipe. Para isso, basta clicar no botão SAVE POSTMORTEM e registrar oficialmente suas análises, insights e planos de melhoria.
Edite, Exclua e exporte seu Postmortem
No Postmortem Center da Elven Platform, você tem o controle total sobre os relatórios criados para documentar e aprender com os incidentes. A partir da lista de postmortems, é possível realizar ações como editar, excluir ou até mesmo exportar para PDF de maneira prática e intuitiva. Com apenas alguns cliques no menu de ações (os três pontinhos na coluna “Actions”), você pode ajustar informações importantes, remover seu postmortem ou exportar este para PDF.
Glossário de Termos Técnicos
Postmortem: Processo de análise detalhada após a resolução de um incidente, com o objetivo de identificar causas raiz, impactos, respostas adotadas e ações corretivas. O postmortem visa melhorar processos e evitar recorrências de problemas.
Postmortem Center: Área na Elven Platform dedicada à criação e visualização de postmortems. Permite documentar e compartilhar as lições aprendidas após um incidente.
Título do Postmortem: Campo onde o usuário insere um título claro e descritivo para o postmortem, facilitando a identificação do incidente analisado (ex: “Alta Carga de CPU no Ambiente de Produção”).
Summary: Seção onde é fornecido um resumo conciso do incidente, incluindo a data, horário, impacto geral e o status final após a resolução do problema. Ajuda a contextualizar o que ocorreu durante o incidente.
Root Cause: Explicação detalhada da causa raiz do incidente, identificando os fatores que levaram ao problema. Pode incluir erros de configuração, falhas no agendamento de tarefas ou outros fatores que causaram a falha.
Recovery: Descrição das etapas exatas tomadas para resolver o incidente, incluindo ajustes feitos no sistema e o tempo total para a recuperação. Esta seção detalha a resposta imediata ao problema.
Corrective Actions: Ações corretivas implementadas após a resolução do incidente para evitar que o problema ocorra novamente. Pode envolver mudanças na configuração, processos ou treinamento da equipe.
Salvar o Postmortem: Função que permite armazenar as informações do postmortem após seu preenchimento, garantindo que o relatório fique salvo e disponível para consulta futura.
Editar Postmortem: Função que permite modificar um postmortem já salvo, caso seja necessário ajustar informações ou adicionar mais detalhes após a criação inicial.
Excluir Postmortem: Função que permite remover um postmortem do sistema, caso o relatório não seja mais necessário ou precise ser corrigido substancialmente.
Exportar Postmortem: Função que permite gerar um arquivo PDF do postmortem para distribuição ou armazenamento externo. A exportação facilita o compartilhamento de informações com equipes ou stakeholders.