Este guia tem como objetivo fornecer uma visão clara e detalhada sobre como tratar eventos (alertas e incidentes) utilizando as métricas e funcionalidades disponíveis na Elven Platform. Tratar e responder a eventos de maneira eficiente exige uma combinação de dados bem estruturados, análises contínuas e ajustes nos processos operacionais. Utilizando as métricas que irão ser apresentadas de forma integrada, a Elven Platform oferece as ferramentas necessárias para melhorar a resposta aos eventos e aumentar a estabilidade do sistema de forma inteligente e eficiente
Acessando o Insights Center na Seção Critical Events
- Navegue até o menu principal e clique em Insights
- No submenu, selecione o item, Critical events.
Entendendo as Métricas
Na aba de Critical Events da Elven Platform, trabalharemos com métricas cruciais para otimizar a gestão de eventos e melhorar a resposta da equipe. As informações são apresentadas de forma intuitiva e acessível, proporcionando uma visão clara e completa sobre os eventos. O Total de Eventos é destacado com Total Events, permitindo uma rápida visualização da magnitude de eventos que impactaram os sistemas.
Para um acompanhamento detalhado da resposta, as métricas de MTTA (Tempo Médio para Acknowledgment) e MTTR (Tempo Médio de Resolução) são exibidas de maneira clara, permitindo que a equipe monitore o tempo necessário para reconhecer e resolver os eventos. Juntamente com essas métricas, é apresentado a Average/Total Response Effort com A Média ou Total de Esforço de Resposta, que indica o tempo necessários para resolver os eventos, proporcionando insights importantes sobre a eficiência do time.
Além disso, um Combo Events/MTTs/Average Response Effort oferece uma visão consolidada, facilitando a análise do impacto total dos eventos em termos de tempo e esforço para resposta ao evento.
A plataforma também fornece informações sobre o Events Volume per Day, ou seja, volume de eventos por dia, permitindo identificar padrões de ocorrência e priorizar ações. A Acknowledgment Rate e a Postmortem Rate são métricas fundamentais para garantir a rápida resposta e a aprendizagem contínua com os eventos passados. A distribuição de eventos ao longo do dia é detalhada através de Events Time Cluster, destacando os momentos críticos de impacto no sistema, como períodos de pico durante o expediente ou fora dele.
A análise da Time Cluster Distribution per Month fornece uma visão clara de como os eventos se comportam ao longo do tempo, permitindo ajustes estratégicos nos recursos e monitoramento. As métricas de Events Day of Week ajudam a identificar dias de maior incidência, facilitando o planejamento de recursos e estratégias de mitigação. A plataforma também permite analisar a Origem dos Eventos, com Events per Origin destacando áreas específicas que precisam de atenção, como sistemas ou integrações externas.
Por fim, a visualização dos Eventos por Intervalo de Hora com Events Hour Interval que oferece um detalhamento preciso do comportamento dos eventos ao longo do dia, ajudando a identificar picos e a otimizar a alocação de esforços. Com essas informações organizadas de forma clara e interativa, a plataforma permite uma gestão ágil e eficiente dos eventos, garantindo um fluxo de trabalho mais inteligente e reativo.
Agora vamos detalhar um pouco mais e dar algumas dicas sobre cada um desses recursos que otimizam a gestão de eventos na Elven Platform:
Total Events
Para entender o real impacto dos eventos no sistema, é importante acompanhar o número total de eventos registrados. Esses dados ajudam a enxergar padrões de comportamento e identificar picos de atividade que podem sinalizar algo fora do comum. Fazer análises periódicas é uma boa prática, pois permite detectar aumentos inesperados no volume de eventos. o que pode indicar desde problemas escondidos até sobrecarga em partes do sistema.
MTTA/MTTR
O Tempo Médio para Acknowledgment (MTTA) e o Tempo Médio de Resolução (MTTR) são duas métricas essenciais para medir a eficiência do time de responder aos eventos. Caso o MTTA ou MTTR esteja alto, considere investir em treinamento ou ajustes nos fluxos de trabalho, como maior automação nas respostas iniciais.
Average/Total Response Effort
Acompanhar a Média e o Total de Esforço de Resposta é essencial para entender quanto tempo, em média, o time leva para resolver os eventos. Essa métrica mostra não apenas a agilidade da equipe diante dos eventos, mas também aponta para possíveis gargalos ou etapas que estão consumindo mais tempo do que o ideal.
Ao analisar o tempo necessário para resolução, é possível obter insights valiosos sobre a eficiência operacional. Com esses dados em mãos, fica mais fácil tomar decisões que otimizem os fluxos de trabalho, melhorem a alocação de recursos e, principalmente, garantam que os eventos sejam tratados com a rapidez que o negócio exige.
Combo Events/MTTs/Average Response Effort
Para ter uma visão completa de como os eventos estão sendo tratados, é fundamental combinar diferentes métricas, como o Total Events, o MTTs e Average Response Effort. Essa união de dados oferece um panorama mais rico sobre a eficiência da resposta e ajuda a entender o real impacto de cada incidente no dia a dia da operação.
Ao cruzar essas informações, é possível identificar padrões em eventos que exigem mais tempo ou esforço para serem resolvidos. Isso facilita a detecção de gargalos, seja em processos, times ou tecnologias específicas. Com esses insights, você pode atuar de forma mais direcionada para otimizar fluxos, melhorar ferramentas e reduzir o tempo de resposta, garantindo um ambiente mais estável e uma equipe mais produtiva.
Acknowledgment Rate e Postmortem Rate
As métricas de Acknowledgment Rate e Postmortem Rate são grandes aliadas para avaliar como a equipe está lidando com os incidentes no dia a dia. A Acknowledgment Rate mede a rapidez com que os eventos são reconhecidos, enquanto a Postmortem Rate mostra quantos desses eventos resultaram em aprendizados documentados. Monitorar esses indicadores ajuda a garantir não só a resposta rápida, mas também o crescimento contínuo da equipe.
Estabelecer metas claras para melhorar essas taxas é fundamental. Um acknowledgment rate baixo pode sinalizar sobrecarga, falta de priorização ou até mesmo falhas na comunicação interna. Já uma postmortem rate baixa pode indicar que os eventos estão sendo resolvidos, mas sem gerar aprendizado, o que impede melhorias reais a longo prazo. A ideia é transformar cada evento em uma oportunidade de evolução.
Events Hour Interval or Time Cluster Distribution per Month
As métricas de Events Hour Interval e Time Cluster Distribution per Month ajudam a identificar quando os eventos mais ocorrem, seja em determinados horários do dia ou em períodos específicos do mês. Essa visão temporal é essencial para antecipar riscos e planejar melhor os recursos da equipe. Entender os momentos de maior impacto permite uma resposta mais rápida e estratégica.
Se houver picos de eventos em horários recorrentes, vale a pena investigar se essas janelas coincidem com maior volume de operações, deploys frequentes ou até cargas elevadas no sistema. Com esses dados em mãos, é possível avaliar se a infraestrutura precisa de reforço, se os processos podem ser otimizados ou se é necessário realocar horários de manutenção ou atendimento. Pequenos ajustes nesse sentido podem trazer uma grande diferença na estabilidade do ambiente.
Events Time Cluster e Events Day of Week
A análise dos eventos agrupados por Hora do Dia e Dia da Semana oferece uma visão poderosa sobre como os eventos se comportam ao longo do tempo. Com esses dados, fica mais fácil identificar padrões recorrentes, como horários ou dias mais críticos, e agir de forma proativa para melhorar a capacidade de resposta da equipe e aplicar estratégias de mitigação mais eficientes.
Por exemplo, se houver um aumento de eventos na segunda-feira, isso pode indicar uma sobrecarga natural após o fim de semana, seja por acúmulo de tarefas, reinício de serviços ou maior uso do sistema. Nesse caso, vale considerar o reforço da equipe ou uma revisão dos processos nesse dia. O objetivo é se antecipar aos problemas, garantindo que os recursos certos estejam disponíveis nos momentos em que eles são mais necessários.
Events per Origin
Entender a Origem dos eventos é essencial para identificar de onde os problemas realmente estão surgindo. Essa visibilidade permite mapear falhas em sistemas específicos, como APIs, integrações com plataformas externas ou partes críticas da infraestrutura interna. Ao conhecer a origem com clareza, as equipes podem agir com mais precisão e agilidade, focando no que realmente precisa ser corrigido.
Se uma origem específica, como API-Auth ou API-Report, estiver constantemente relacionada ao evento, isso é um sinal claro de que essa área precisa de atenção. Nesses casos, é possível concentrar esforços em melhorar a qualidade do código, realizar mais testes automatizados, ajustar processos de integração ou até repensar a arquitetura da solução. Com isso, além de reduzir falhas, também se aumenta a confiança nos sistemas e nos times que os mantêm.
Glossário de Termos Técnicos
Eventos: São registros de ocorrências que podem afetar o funcionamento do sistema. Eles funcionam como sinais de atenção, ajudando a identificar comportamentos fora do padrão. Inicialmente, um evento pode surgir como um alerta, e quando confirma um impacto real, como uma falha ou interrupção, ele passa a ser tratado como um incidente. Acompanhar esses eventos de forma contínua é essencial para prevenir problemas maiores e garantir uma resposta rápida e eficaz da equipe.
Insights Center: Módulo central da Elven Platform que proporciona uma análise aprofundada de dados operacionais e de negócios, ajudando na tomada de decisões estratégicas e no aprimoramento do desempenho.
Total Events: Métrica que indica o número total de eventos (alertas e incidentes) registrados em um período, fornecendo uma visão da magnitude dos eventos impactantes.
Events Day of Week: Métrica que mostra a distribuição diária dos eventos, permitindo identificar picos e padrões ao longo do tempo.
Average/Total Response Effort: Indicador que mede o tempo consumido para resolver eventos, ajudando a avaliar a eficiência da equipe.
MTTA: Tempo médio que a equipe leva para reconhecer um evento após ele ser registrado.
MTTR: Tempo médio necessário para resolver um evento após seu reconhecimento.
Acknowledgment Rate: Porcentagem de eventos que foram rapidamente reconhecidos, indicando a eficácia da equipe no primeiro contato.
Postmortem Rate: Porcentagem de eventos que passaram por uma análise, visando aprendizado e prevenção de recorrência.
Events Time Cluster: Agrupamento de eventos com base no horário em que ocorrem, permitindo identificar períodos críticos de impacto.
Time Cluster Distribution per Month: Métrica que organiza os eventos ao longo dos meses, facilitando a identificação de tendências sazonais.
Events Day of Week: Métrica que distribui os eventos conforme os dias da semana, permitindo planejamento de recursos e ajustes estratégicos.
Events per Origin: Classificação dos eventos com base em suas fontes, como sistemas internos, APIs ou integrações externas.
Events Hour Interval: Distribuição dos eventos em intervalos de tempo ao longo do dia, permitindo identificar picos de atividade.
Combo Events/MTTs/Average Response Effort: Visão consolidada que combina métricas de tempo de resposta, resolução e esforço, proporcionando uma análise unificada do impacto dos evento.