# Guia de Gerenciamento de Insights de Responders na Elven Platform

A funcionalidade **Insights Responders da Elven Platform** oferece uma visão completa sobre o desempenho e a eficiência dos times de resposta a eventos, ajudando a entender padrões, tempos de resposta e volume de trabalho. Essas análises trazem clareza e ação direta para otimizar as operações e garantir que sua equipe responda aos eventos com agilidade e eficiência.&#x20;

{% embed url="<https://demo.elven.works/demo/cmd36g4lu082gvm0i1yzajk5u>" %}

## **Acessando o Insights Center** **na Seção Responders**

* Navegue até o menu principal e clique em **Insights**. &#x20;
* No submenu, selecione item, **Reponders**.

## **Entendendo as Métricas**

O estudo de métricas relacionadas à gestão de eventos é fundamental para melhorar a eficiência operacional e a resiliência de sistemas em ambientes complexos. Métricas como **Total Events**, **Responder MTTA** e **Responder MTTR** e **Responder Average/Total Response Effort** fornecem informações cruciais para avaliar a eficácia das equipes na identificação, resposta e resolução de problemas. Ao analisar essas métricas, é possível identificar gargalos no processo de resposta a eventos, otimizar recursos e reduzir o impacto de falhas no ambiente de produção. Essas e outras métricas servem como uma base para tomadas de decisão informadas e para o aprimoramento contínuo das operações.

### **Total Events**

O **Total Eventos** é uma **métrica essencial** que reflete a **carga geral enfrentada pelos responders**. Por meio dessa métrica, é possível identificar **tendências ao longo do tempo**, como **aumento ou redução na quantidade de eventos**, e planejar **ações preventivas**. Além disso, o **número total de eventos** serve como um indicador direto da **demanda operacional da equipe**.

**Exemplo:**\
Se sua equipe registrou **72 eventos no mês**, é possível comparar esse número com **meses anteriores**. Em **agosto**, por exemplo, foram apenas **50 eventos**, o que representa um **aumento de 44%**. Esse crescimento pode indicar um **problema sistêmico** que merece atenção, como **falhas recorrentes** ou **mudanças na infraestrutura**.

### **Responder MTTA**

O **Responder MTTA** (**Mean Time To Acknowledge**) indica o **tempo médio necessário** para que os **responders** tomem **ciência da existência dos eventos**. Em outras palavras, representa o **período entre a detecção do evento** e o momento em que os **responders** (geralmente uma pessoa ou equipe responsável pela resolução) **reconhece formalmente** que o evento foi identificado.

**Exemplo:**\
O **Responder MTTA** está indicando **1 dia, 10 horas e 2 minutos** para um período de **uma semana**, o que significa que, em média, os **responders** levam esse tempo para **reconhecer um evento** após sua ocorrência. Esse **valor elevado** sugere uma **demora considerável na identificação e no reconhecimento** dos eventos, o que pode **afetar negativamente** a **capacidade de resposta** da equipe, especialmente em **situações críticas**.

### **Responder MTTR**

O **Responder MTTR** (**Mean Time To Resolve**) indica o **tempo médio necessário** para que os **responders** resolvam os **eventos**, considerando o período entre o **reconhecimento do evento** e sua **completa resolução**. É um **indicador importante da eficiência da equipe** na **recuperação de sistemas ou serviços afetados**. Um **Responder MTTR elevado** pode indicar **desafios na resolução rápida**, o que pode **impactar a continuidade do serviço**.

**Exemplo:**\
O **Responder MTTR** está indicando **7 horas e 10 minutos** para um período de **uma semana**, o que significa que, em média, os **responders** levam esse tempo para **resolver um evento após seu reconhecimento**. Esse valor sugere uma **capacidade razoável de resposta**, mas, em **situações críticas**, uma **resolução mais rápida** pode ser necessária para evitar **maiores impactos**.

### **Responder Average Response Effort**

O **Responder Average Response Effort** representa o **tempo médio investido** na **resolução de eventos** pelos **responders** e demonstra o **esforço médio necessário** para manter a **operação funcionando**. Essa **métrica** ajuda a avaliar a **eficiência média dos times** e a identificar **oportunidades para otimizar processos**. Em resumo, indica o **tempo médio** que os **responders dedicaram** para resolver **eventos**.

**Exemplo:**\
O **Responder Average Response Effort** indica que os times investiram, em média, **10 dias e 2 horas** no último mês para resolver eventos. Ao cruzar essa informação com o **total de eventos**, observa-se que a **média por evento** foi de aproximadamente **3 horas**. No entanto, houve um **caso específico** que demandou **5 dias** de esforço, o que sugere a presença de um **problema isolado**, com **esforço desproporcional**, que merece uma **análise mais aprofundada**.

### **Responder Total Response Effort**

O **Responder Total Response Effort** representa o **tempo total investido** pelos responders na resolução de eventos em um determinado período. Essa métrica fornece uma visão clara do **esforço agregado** dos times para manter a operação funcionando, sendo útil para mensurar a **demanda operacional**, identificar **picos de esforço** e orientar decisões sobre **alocação de recursos**.

**Exemplo:**\
O **Responder Total Response Effort** aponta que os times dedicaram, ao todo, **120 horas** no último mês para resolver eventos. Considerando um total de **40 eventos**, isso resulta em uma **média de 3 horas por evento**. No entanto, um caso específico exigiu **40 horas** de esforço contínuo, indicando um **evento atípico** que consumiu um volume significativo de tempo. Esse desvio reforça a importância de **investigar causas raízes** e buscar formas de **mitigar recorrência**.

### **Combo Events/MTTs/Average Response Effort**

O **combo Events/MTTs/Average Response Effort** permite uma **visão abrangente** da **performance operacional das equipes de resposta**. Ao cruzar o **número total de eventos** com os **tempos médios de resposta** (**MTTA** e **MTTR**) e o **esforço médio investido** (**Average Response Effort**), é possível identificar **gargalos**, **eventos atípicos** e **tendências de aumento ou redução da carga de trabalho**. Essa combinação de métricas ajuda na **priorização de ações de melhoria contínua**, no **dimensionamento adequado das equipes** e na **eficiência geral da operação**.

**Exemplo:**\
Se o **número de eventos** aumentou significativamente, mas o **MTTR** e o **Average Response Effort** se mantêm estáveis, isso pode indicar uma **boa escalabilidade da equipe**. Por outro lado, um **Average Response Effort elevado** com poucos eventos pode apontar para **eventos complexos** ou **processos ineficientes**, que exigem **atenção e revisão**.

### **Responder Event Volume**

O **Responder Event Volume** representa a **distribuição do volume de eventos** por **equipe** ou **responder individual**, ajudando a identificar como a **carga de trabalho está distribuída**. Com isso, é possível **ajustar a alocação de recursos** ou **equilibrar responsabilidades** para evitar **sobrecarga**. Essa métrica mostra de forma clara a **carga de trabalho distribuída** por **responder** ou **equipe**.

**Exemplo:**\
Em uma situação hipotética, o gráfico de **Responder Event Volume** mostra que a **equipe SRE** lidou com **64 incidentes**, enquanto a **equipe Squad Telemetria** tratou apenas **8**. Esse desequilíbrio pode indicar que os **processos de escalonamento** não estão funcionando de forma adequada e que pode ser necessário **revisar a estratégia de distribuição de eventos** entre as equipes.

### **Highest MTTA by Responder**

O **Highest MTTA by Responder** identifica quais **equipes** ou **responders** apresentam o **maior tempo médio de reconhecimento** (**MTTA – Mean Time to Acknowledge**). Essa métrica é essencial para entender **possíveis gargalos** no processo de **reconhecimento de eventos** e otimizar os **fluxos de trabalho**. Destacar os **responders** com os **maiores tempos** ajuda na **análise** e na **implementação de melhorias** na **eficiência da resposta**.

**Exemplo:**\
Se a análise de **Highest MTTA by Responder** revela que a **equipe SRE** apresentou **o maior tempo médio de reconhecimento, sendo de 1 dia, 10 horas e 2 minutos**, isso demonstra uma **demora considerável entre a detecção do evento e sua devida atenção por parte da equipe**. Esse valor elevado pode indicar **gargalos operacionais**, como **alertas mal configurados**, **priorizações inadequadas** ou até **baixa disponibilidade da equipe em horários críticos**. Para mitigar esse problema, é fundamental revisar os **processos de monitoramento**, **alocação de recursos** e **fluxos de notificação**, a fim de **aumentar a agilidade na resposta e reduzir impactos operacionais**.

### **Highest MTTR by Responder**

O **Highest MTTR by Responder** identifica quais **equipes** ou **responders** apresentam o **maior tempo médio de resolução** (**MTTR – Mean Time to Resolve**). Essa métrica é fundamental para entender **possíveis gargalos** no processo de **resolução de** eventos e aprimorar a **eficiência operacional**. Analisar o **MTTR** permite identificar onde a equipe pode melhorar na **capacidade de restaurar serviços rapidamente**, minimizando os **impactos negativos**.

**Exemplo:**\
Se a análise de **Highest MTTR by Responder** mostra que a **equipe SRE** possui o **maior tempo médio de resolução**, com **7 horas e 10 minutos**, isso indica que, entre todos os respondentes, essa equipe leva mais tempo para **restabelecer os serviços após o reconhecimento de um incidente**. Esse valor elevado pode apontar para **dificuldades na etapa de resolução**, como processos manuais, falta de automações ou desafios técnicos específicos. Embora o tempo não seja excessivamente alto, em **situações críticas**, essa demora pode resultar em **impactos significativos** para o negócio, tornando necessário revisar os **procedimentos de resposta e recuperação**.

## **Glossário de Termos Técnicos**

**Eventos**: São registros de ocorrências que podem afetar o funcionamento do sistema. Eles funcionam como **sinais de atenção**, ajudando a identificar comportamentos fora do padrão. Inicialmente, um evento pode surgir como um **alerta**, e quando confirma um impacto real, como uma falha ou interrupção, ele passa a ser tratado como um **incidente**. Acompanhar esses eventos de forma contínua é essencial para **prevenir problemas maiores** e garantir uma **resposta rápida e eficaz** da equipe.

**Insights Center:** Módulo central da **Elven Platform** que proporciona uma análise aprofundada de dados operacionais e de negócios, ajudando na tomada de decisões estratégicas e no aprimoramento do desempenho. &#x20;

**Insights Responders:** Funcionalidade da Elven Platform que fornece uma visão detalhada sobre o desempenho e a eficiência das equipes de resposta a incidentes, facilitando a análise de métricas, padrões e volumes de trabalho.&#x20;

**MTTA (Mean Time To Acknowledge):** Tempo médio entre a **detecção de um evento** e o **reconhecimento por um responder**. Mede a agilidade da equipe em perceber que um problema ocorreu.

**MTTR (Mean Time To Resolve):** Tempo médio entre o **reconhecimento de um evento** e a **sua resolução completa**. Reflete a eficiência na recuperação de sistemas ou serviços afetados.

**Responder:** Pessoa ou equipe responsável por reconhecer, analisar e resolver um evento ou incidente em sistemas operacionais.

**Total Events:** Número total de eventos (alertas/incidentes) registrados em um determinado período. Indica a **demanda operacional** enfrentada pelas equipes.

**Responder MTTA:** Tempo médio que os responders levam para **reconhecer um evento** após sua detecção. Pode variar entre equipes ou pessoas.

**Responder MTTR:** Tempo médio que os responders levam para **resolver um evento** após seu reconhecimento. Auxilia na identificação de **pontos de lentidão na resolução**.

**Responder Average Response Effort:** Tempo **médio investido** pelos responders para resolver os eventos. Ajuda a identificar se os incidentes são **rotineiros ou complexos**.

**Responder Total Response Effort:** Soma do **tempo total dedicado** pelos responders na resolução de todos os eventos em um período. Útil para analisar **carga operacional e picos de esforço**.

**Combo Events/MTTs/Average Response Effort**: Análise combinada do número total de eventos, tempos médios de resposta (MTTA e MTTR) e o esforço médio. Permite **visualizar tendências**, gargalos e eficiência operacional.

**Responder Event Volume:** Distribuição do volume de eventos por responder ou equipe. Permite avaliar **sobrecarga**, **distribuição desigual** ou ineficiência nos processos de escalonamento.

**Highest MTTA by Responder:** Indica o **maior tempo médio de reconhecimento** entre os responders. Ajuda a localizar **respostas lentas** e possíveis gargalos no reconhecimento de eventos.

**Highest MTTR by Responder:** Indica o **maior tempo médio de resolução** entre os responders. Revela **quem ou qual equipe está levando mais tempo para resolver problemas**, apontando necessidade de otimização.

**Escalonamento:** Processo de **redirecionar ou distribuir eventos/incidentes** entre diferentes responders ou níveis de suporte, com base na gravidade ou área de competência.

**Reconhecimento:** Momento em que um responder **toma ciência oficialmente** de um evento e assume a responsabilidade para investigá-lo.

**Resolução:** Momento em que o incidente é considerado **completamente resolvido**, restaurando a funcionalidade do sistema ou serviço afetado.

**Esforço (Effort):** Quantidade de tempo e energia dedicada por um responder ou equipe para **analisar, mitigar e resolver** um evento.
