# Incident Management

Na **Elven Platform**, o processo de **Postmortem** é uma prática essencial para promover a **melhoria contínua** e a **cultura de aprendizado**. Após a ocorrência de **incidentes**, é realizada uma **análise detalhada** das **causas raiz**, **impactos** e **respostas adotadas**, documentando os principais pontos. O objetivo é identificar **oportunidades para evitar recorrências** e fortalecer a **resiliência do sistema**. A abordagem **colaborativa** e **orientada a dados** garante que as **lições aprendidas** sejam compartilhadas, contribuindo para a **evolução da plataforma** e aprimorando os **processos de DevOps/SRE**.&#x20;

{% embed url="<https://demo.elven.works/demo/cm3g2ft4p3mnc8hsphuipygvr>" %}

### **Acessando o Postmortem Center**

* Acesse a aba **Incident Management** no menu superior.&#x20;
* Em seguida, clique em **Postmortems.**

### **Documentação Eficiente, Guiada e Colaborativa**

A **Elven Platform** oferece um editor exclusivo para a criação de **Postmortems**, projetado para tornar o processo de documentação de incidentes mais simples, claro e colaborativo. Com suporte à **linguagem Markdown**, o editor permite que as equipes relatem os acontecimentos de forma organizada e com boa legibilidade, mantendo a consistência das informações e facilitando a análise posterior. Tudo isso contribui para uma visão mais completa dos eventos, das causas aos impactos, além das ações tomadas e aprendizados gerados.

Além disso, o editor conta com **guias interativos**, como o campo de **Summary**, que orientam passo a passo o preenchimento das informações mais importantes: o que aconteceu, quando, qual foi o impacto e qual o status após a resolução. Isso ajuda a economizar tempo e evita que dados relevantes sejam esquecidos. Ao reunir tudo em um único lugar, a plataforma estimula a **cultura de aprendizado contínuo**, reforça boas práticas e melhora a **comunicação entre times**, promovendo ações mais eficazes no futuro.

### **Criação de Postmortem**&#x20;

Ao iniciar a criação de um **Postmortem** na **Elven Platform**, o primeiro passo é escolher um **título claro e descritivo**, que comunique de forma direta o que aconteceu, algo como *“Alta Carga de CPU no Ambiente de Produção”* já oferece um bom contexto logo de início. Esse cuidado facilita a leitura e compreensão, tanto para quem participou do incidente quanto para outras pessoas que vão consultar o documento no futuro.

Depois do título, usamos o **editor de texto** da plataforma para preencher as principais **guias** do Postmortem. Cada uma delas foi pensada para tornar o processo mais fluido e intuitivo. Em **Summary**, contamos de forma objetiva o que aconteceu e quando. Em **Root Cause**, explicamos a causa raiz do problema, o que realmente levou à falha. Em **Recovery**, detalhamos como a situação foi resolvida. E por fim, em **Corrective Actions**, registramos as ações que serão tomadas para evitar que o problema volte a acontecer. Esse fluxo orientado ajuda a transformar o incidente em um aprendizado valioso, promovendo melhorias reais no dia a dia da operação.

#### **Summary**

Explique brevemente o que aconteceu, incluindo **data e horário do incidente**, **impacto geral** e o **status final após a resolução**.

**Exemplo:**\
No dia **13 de novembro de 2024**, o **monitoramento** detectou um **aumento da carga de CPU acima de 96%** no **ambiente de teste**. Isso gerou uma **sobrecarga**, potencialmente afetando o **desempenho dos serviços**. A **equipe interveio** e **normalizou o uso de CPU em 30 minutos**.

#### **Root Cause**

Forneça uma **explicação detalhada** sobre a **origem do problema**. Inclua **o que causou o incidente**, como uma **configuração incorreta** ou um **agendamento inadequado de tarefas**.

**Exemplo:**\
A **sobrecarga** foi causada por um **job de teste** que foi **programado erroneamente** para rodar em **paralelo com outras tarefas intensivas de CPU**, o que resultou em uma **saturação temporária dos recursos disponíveis**.

#### **Recovery**

**Descreva as etapas exatas** tomadas para **solucionar o problema**, incluindo os **ajustes feitos** e o **tempo total para recuperação**.

**Exemplo:**

* A **equipe interrompeu** o **job automático** que causou a **sobrecarga**.
* **Reconfigurou o cronograma** de jobs para evitar **sobreposição**.
* **Monitorou o sistema** por **30 minutos** após as mudanças para confirmar a **estabilidade**.

#### **Corrective Actions**

**Liste as melhorias implementadas** para **evitar que o problema se repita**. Esse item é essencial para demonstrar **aprendizado** e o compromisso com **melhorias contínuas**.

**Exemplo:**

* **Revisar o agendamento de jobs** para minimizar a **execução simultânea** de tarefas pesadas.
* **Ajustar os limites de alertas de CPU** para notificar cargas intermediárias (como **75%** e **85%**).
* **Documentar o incidente** e **realizar treinamento da equipe** sobre **melhores práticas.**

### **Correlacione o Postmortem a um Incidente específico**

Na **Elven Platform**, a criação de um **Postmortem** não é apenas um processo de documentação, mas uma oportunidade valiosa de aprendizado contínuo e aprimoramento das estratégias. Ao correlacionar o Postmortem a um incidente específico, garantimos que cada detalhe do evento esteja conectado a um histórico claro, proporcionando insights que vão além da resolução imediata.

### **Salve o formulário de Postmortem**

Depois de documentar cada etapa do incidente e definir estratégias preventivas, chega o momento de consolidar todo esse aprendizado. Na **Elven Platform**, salvar o **Postmortem** é mais do que apenas arquivar um relatório, é garantir que todo o conhecimento gerado seja acessível e acionável para a equipe. Para isso, basta clicar no botão **SAVE POSTMORTEM** e registrar oficialmente suas análises, insights e planos de melhoria.

### **Edite, Exclua e exporte seu Postmortem**

No **Postmortem Center** da **Elven Platform**, você tem o controle total sobre os relatórios criados para documentar e aprender com os incidentes. A partir da lista de postmortems, é possível realizar ações como **editar**, **excluir** ou até mesmo **exportar para PDF** de maneira prática e intuitiva. Com apenas alguns cliques no menu de ações (os três pontinhos na coluna “Actions”), você pode ajustar informações importantes, remover seu postmortem ou exportar este para PDF.&#x20;

### **Glossário de Termos Técnicos**

**Postmortem**: Processo de análise detalhada após a resolução de um incidente, com o objetivo de identificar causas raiz, impactos, respostas adotadas e ações corretivas. O postmortem visa melhorar processos e evitar recorrências de problemas.&#x20;

**Postmortem Center**: Área na **Elven Platform** dedicada à criação e visualização de postmortems. Permite documentar e compartilhar as lições aprendidas após um incidente.&#x20;

**Título do Postmortem**: Campo onde o usuário insere um título claro e descritivo para o postmortem, facilitando a identificação do incidente analisado (ex: “Alta Carga de CPU no Ambiente de Produção”).&#x20;

**Summary**: Seção onde é fornecido um resumo conciso do incidente, incluindo a data, horário, impacto geral e o status final após a resolução do problema. Ajuda a contextualizar o que ocorreu durante o incidente.&#x20;

**Root Cause**: Explicação detalhada da causa raiz do incidente, identificando os fatores que levaram ao problema. Pode incluir erros de configuração, falhas no agendamento de tarefas ou outros fatores que causaram a falha.&#x20;

**Recovery**: Descrição das etapas exatas tomadas para resolver o incidente, incluindo ajustes feitos no sistema e o tempo total para a recuperação. Esta seção detalha a resposta imediata ao problema.&#x20;

**Corrective Actions**: Ações corretivas implementadas após a resolução do incidente para evitar que o problema ocorra novamente. Pode envolver mudanças na configuração, processos ou treinamento da equipe.&#x20;

**Salvar o Postmortem**: Função que permite armazenar as informações do postmortem após seu preenchimento, garantindo que o relatório fique salvo e disponível para consulta futura.&#x20;

**Editar Postmortem**: Função que permite modificar um postmortem já salvo, caso seja necessário ajustar informações ou adicionar mais detalhes após a criação inicial.&#x20;

**Excluir Postmortem**: Função que permite remover um postmortem do sistema, caso o relatório não seja mais necessário ou precise ser corrigido substancialmente.&#x20;

**Exportar Postmortem**: Função que permite gerar um arquivo PDF do postmortem para distribuição ou armazenamento externo. A exportação facilita o compartilhamento de informações com equipes ou stakeholders.&#x20;
