# Guia de Gerenciamento de Insights de Incidents na Elven Platform

Este guia tem como objetivo fornecer uma visão clara e detalhada sobre como tratar incidentes, utilizando as métricas e funcionalidades disponíveis na **Elven Platform**. Tratar e responder a incidentes de maneira eficiente exige uma combinação de dados bem estruturados, análises contínuas e ajustes nos processos operacionais. Utilizando as métricas que irão ser apresentadas de forma integrada, a **Elven Platform** oferece as ferramentas necessárias para melhorar a resposta aos incidentes e aumentar a estabilidade do sistema de forma inteligente e eficiente.&#x20;

{% embed url="<https://demo.elven.works/demo/cmd36hlt2011gxk0igawgp8ws>" %}

## **Acessando o Insights Center** **na Seção Incidents**

* Navegue até o menu principal e clique em **Insights**.&#x20;
* No submenu, selecione o item, **Incidents**.

## **Entendendo as Métricas**

Na **aba de** **Incidents** da **Elven Platform**, trabalharemos com métricas cruciais para otimizar a gestão de incidents e melhorar a resposta da equipe. As informações são apresentadas de forma intuitiva e acessível, proporcionando uma visão clara e completa sobre os incidents. O **Total de Incidentes** é destacado com **Total Incidents**, permitindo uma rápida visualização da magnitude de incidentes que impactaram os sistemas.

Para um acompanhamento detalhado da resposta, as métricas de **MTTA (Tempo Médio para Acknowledgment)** e **MTTR (Tempo Médio de Resolução)** são exibidas de maneira clara, permitindo que a equipe monitore o tempo necessário para reconhecer e resolver os incidentes. Juntamente com essas métricas, é apresentado a **Average**/**Total Response Effort** com **A Média ou Total de Esforço de Resposta**, que indica o tempo necessários para resolver os incidentes, proporcionando insights importantes sobre a eficiência do time.&#x20;

Além disso, um **Combo Events/MTTs/Average** **Response Effort** oferece uma visão consolidada, facilitando a análise do impacto total dos incidentes em termos de tempo e esforço para resposta ao incidente.&#x20;

A plataforma também fornece informações sobre o **Incidents Volume per Day**, ou seja, volume de incidentes por dia, permitindo identificar padrões de ocorrência e priorizar ações. A **Acknowledgment Rate** e a **Postmortem Rate** são métricas fundamentais para garantir a rápida resposta e a aprendizagem contínua com os incidentes passados. A distribuição de incidentes ao longo do dia é detalhada através de **Incidents Time Cluster**, destacando os momentos críticos de impacto no sistema, como períodos de pico durante o expediente ou fora dele.

A análise da **Time Cluster Distribution per Month** fornece uma visão clara de como os incidentes se comportam ao longo do tempo, permitindo ajustes estratégicos nos recursos e monitoramento. As métricas de **Incidents Day of Week** ajudam a identificar dias de maior incidência, facilitando o planejamento de recursos e estratégias de mitigação. A plataforma também permite analisar a **Origem dos** **Incidentes**, com **Incidents per Origin** destacando áreas específicas que precisam de atenção, como sistemas ou integrações externas.&#x20;

Por fim, a visualização dos **Incidentes por Intervalo de Hora** com **Incidents Hour Interval** que oferece um detalhamento preciso do comportamento dos incidentes ao longo do dia, ajudando a identificar picos e a otimizar a alocação de esforços. Com essas informações organizadas de forma clara e interativa, a plataforma permite uma gestão ágil e eficiente dos incidentes, garantindo um fluxo de trabalho mais inteligente e reativo.&#x20;

Agora vamos detalhar um pouco mais e dar algumas dicas sobre cada um desses recursos que otimizam a gestão de incidentes na **Elven Platform**.

### **Total Incidents**

Para entender o real impacto dos incidentes no sistema, é importante acompanhar o **número total de incidentes registrados**. Esses dados ajudam a enxergar **padrões de comportamento** e identificar **picos de atividade** que podem sinalizar algo fora do comum. Fazer **análises periódicas** é uma boa prática, pois permite detectar **aumentos inesperados** no volume de incidentes, o que pode indicar desde **problemas escondidos** até **sobrecarga** em partes do sistema.

### **MTTA/MTTR**

O **Tempo Médio para Acknowledgment (MTTA)** e o **Tempo Médio de Resolução (MTTR)** são duas métricas essenciais para medir a eficiência do time de responder aos incidentes. Caso o MTTA ou MTTR esteja alto, considere investir em treinamento ou ajustes nos fluxos de trabalho, como maior automação nas respostas iniciais.

### **Average**/**Total Response Effort**&#x20;

Acompanhar a **Média e o Total de Esforço de Resposta** é essencial para entender quanto tempo, em média, o time leva para resolver os incidents. Essa métrica mostra não apenas a agilidade da equipe diante dos incidentes, mas também aponta para possíveis gargalos ou etapas que estão consumindo mais tempo do que o ideal.

Ao analisar o **tempo necessário para resolução**, é possível obter **insights valiosos sobre a eficiência operacional**. Com esses dados em mãos, fica mais fácil tomar decisões que otimizem os fluxos de trabalho, melhorem a alocação de recursos e, principalmente, garantam que os incidentes sejam tratados com a rapidez que o negócio exige.

### **Combo Events/MTTs/Average Response Effort**

Para ter uma **visão completa de como os incidentes estão sendo tratados**, é fundamental combinar diferentes métricas, como o **Total Incidents**, o **MTTs** e **Average Response Effort**. Essa união de dados oferece um panorama mais rico sobre a **eficiência da resposta** e ajuda a entender o real impacto de cada incidente no dia a dia da operação.

Ao cruzar essas informações, é possível **identificar padrões** em incidentes que exigem mais tempo ou esforço para serem resolvidos. Isso facilita a **detecção de gargalos**, seja em processos, times ou tecnologias específicas. Com esses insights, você pode atuar de forma mais direcionada para **otimizar fluxos**, **melhorar ferramentas** e **reduzir o tempo de resposta**, garantindo um ambiente mais estável e uma equipe mais produtiva.

### **Acknowledgment Rate e Postmortem Rate**

As métricas de **Acknowledgment Rate** e **Postmortem Rate** são grandes aliadas para avaliar como a equipe está lidando com os incidentes no dia a dia. A **Acknowledgment Rate** mede a rapidez com que os incidentes são reconhecidos, enquanto a **Postmortem Rate** mostra quantos desses incidentes resultaram em aprendizados documentados. Monitorar esses indicadores ajuda a garantir não só a resposta rápida, mas também o crescimento contínuo da equipe.

Estabelecer **metas claras** para melhorar essas taxas é fundamental. Um **acknowledgment rate baixo** pode sinalizar **sobrecarga**, **falta de priorização** ou até mesmo falhas na comunicação interna. Já uma **postmortem rate baixa** pode indicar que os incidentes estão sendo resolvidos, mas sem gerar aprendizado, o que impede melhorias reais a longo prazo. A ideia é transformar cada incidente em uma oportunidade de evolução.

### **Incidents Hour Interval or Time Cluster Distribution per Month**

As métricas de **Incidents Hour Interval** e **Time Cluster Distribution per Month** são aliadas valiosas na hora de entender **quando os incidentes mais acontecem**, seja em **determinados horários do dia** ou em **períodos específicos do mês**. Ter essa visão temporal clara é essencial para **antecipar riscos**, **planejar melhor a atuação da equipe** e garantir uma **resposta mais rápida e estratégica** nos momentos de maior impacto.\
\
Para apoiar essa análise, o tempo foi segmentado em três faixas bem definidas:

* **Sleep Hour (Madrugada)**: em **todos os dias da semana**, incluindo **fins de semana e feriados**, das **22h às 08h**.
* **Business Hour (Horário Comercial)**: de **segunda a sexta-feira**, das **08h às 18h**.
* **Off Hour (Fora do Horário Comercial)**: de **segunda a sexta-feira**, das **18h às 22h**, e também nos **fins de semana**, das **08h às 22h**.

Com essa classificação, fica muito mais fácil identificar padrões e agir de forma proativa, garantindo que os **recursos certos estejam disponíveis nos momentos certos**.

Assim, se houver **picos de incidentes** em horários recorrentes, vale a pena investigar se essas janelas coincidem com **maior volume de operações**, **deploys frequentes** ou até **cargas elevadas no sistema**. Com esses dados em mãos, é possível avaliar se a **infraestrutura precisa de reforço**, se os **processos podem ser otimizados** ou se é necessário **realocar horários de manutenção ou atendimento**. Pequenos ajustes nesse sentido podem trazer uma grande diferença na estabilidade do ambiente.

### **Incidents Time Cluster e Incidents Day of Week**

A análise dos **incidentes por Hora do Dia e Dia da Semana** traz uma visão estratégica sobre como esses eventos se distribuem ao longo do tempo. Essa perspectiva permite identificar com mais clareza **padrões recorrentes**, como horários ou dias mais críticos, ajudando a equipe a se antecipar a possíveis riscos. Com isso, torna-se possível **reforçar a operação nos momentos certos**, melhorar a **capacidade de resposta** e aplicar **ações preventivas mais eficazes**. Para tornar essa leitura ainda mais intuitiva, utilizamos a mesma divisão de tempo já mencionada, no item anterior, o que garante **consistência na análise** e facilita a tomada de decisão baseada em dados confiáveis.

Por exemplo, se houver um **aumento de incidentes na segunda-feira**, isso pode indicar uma **sobrecarga natural** após o fim de semana, seja por acúmulo de tarefas, reinício de serviços ou maior uso do sistema. Nesse caso, vale considerar o reforço da equipe ou uma revisão dos processos nesse dia. O objetivo é se antecipar aos problemas, garantindo que os recursos certos estejam disponíveis nos momentos em que eles são mais necessários.

### **Incidents per Origin**

Entender a **Origem dos incidentes** é essencial para identificar **de onde os problemas realmente estão surgindo**. Essa visibilidade permite mapear **falhas em sistemas específicos**, como **APIs**, **integrações com plataformas externas** ou partes críticas da **infraestrutura interna**. Ao conhecer a origem com clareza, as equipes podem agir com mais precisão e agilidade, focando no que realmente precisa ser corrigido.

Se uma origem específica, como **API-Auth** ou **API-Report**, estiver constantemente relacionada ao incidente, isso é um sinal claro de que essa área precisa de atenção. Nesses casos, é possível concentrar esforços em **melhorar a qualidade do código**, realizar **mais testes automatizados**, ajustar **processos de integração** ou até repensar a arquitetura da solução. Com isso, além de reduzir falhas, também se aumenta a confiança nos sistemas e nos times que os mantêm.

## **Glossário de Termos Técnicos**

**Incidentes:** um evento que tem um impacto real, como uma falha ou interrupção. Acompanhar esses incidentes de forma contínua é essencial para **prevenir problemas maiores** e garantir uma **resposta rápida e eficaz** da equipe.\
\
**Insights Center:** Módulo central da **Elven Platform** que proporciona uma análise aprofundada de dados operacionais e de negócios, ajudando na tomada de decisões estratégicas e no aprimoramento do desempenho.&#x20;

**Total Incidents:** Métrica que indica o número total de incidentes registrados em um período, fornecendo uma visão da magnitude dos incidentes impactantes.&#x20;

**Incidents Day of Week:** Métrica que mostra a distribuição diária dos incidentes, permitindo identificar picos e padrões ao longo do tempo.&#x20;

**Average/Total Response Effort:** Indicador que mede o tempo consumido para resolver incidentes, ajudando a avaliar a eficiência da equipe.&#x20;

**MTTA:** Tempo médio que a equipe leva para reconhecer um incidente após ele ser registrado.&#x20;

**MTTR:** Tempo médio necessário para resolver um incidente após seu reconhecimento.&#x20;

**Acknowledgment Rate:** Porcentagem de incidentes que foram rapidamente reconhecidos, indicando a eficácia da equipe no primeiro contato.&#x20;

**Postmortem Rate:** Porcentagem de incidentes que passaram por uma análise, visando aprendizado e prevenção de recorrência.&#x20;

**Incidents Time Cluster:** Agrupamento de incidentes com base no horário em que ocorrem, permitindo identificar períodos críticos de impacto.&#x20;

**Time Cluster Distribution per Month:** Métrica que organiza os incidentes ao longo dos meses, facilitando a identificação de tendências sazonais.&#x20;

**Incidents Day of Week:** Métrica que distribui os incidentes conforme os dias da semana, permitindo planejamento de recursos e ajustes estratégicos.&#x20;

**Incidents per Origin:** Classificação dos incidentes com base em suas fontes, como sistemas internos, APIs ou integrações externas.&#x20;

**Incidents Hour Interval:** Distribuição dos incidentes em intervalos de tempo ao longo do dia, permitindo identificar picos de atividade.&#x20;

**Combo Events/MTTs/Average Response Effort:** Visão consolidada que combina métricas de tempo de resposta, resolução e esforço, proporcionando uma análise unificada do impacto dos incidentes.&#x20;
