Gestão centralizada de incidentes

A centralização dos incidentes permite uma busca fácil e ágil, permitindo o uso dos filtros de status, severidade, origens, identificadores e responders, trazendo total controle para que sejam acompanhados somente os incidentes ativos, ou seja consultado todo o histórico.

Métricas por incidente

Um incidente possui diversas métricas como: Horário inicial, tempo de reconhecimento (MTTA), tempo de resolução (MTTR), e horário final.

Detalhes por incidente

É possível entender a causa, e os recursos impactados.

Combate ao incidente

Os responders deixa claro quem foi acionado para combater este incidente e também é viável a leitura da correlação deste com alertas com os quais a ele são relacionados.

Status update

São registradas as ações realizadas por engenheiros dentro do seu ambiente, ficando registrado dentro deste incidente o que foi feito para reestabelecer o serviço impactado.

O update pode se tornar público, aparecendo na status page se o serviço impactado nela estiver registrado.

A origem dos incidentes

São majoritáriamente automáticos, criados e encerrados por integrações com as ferramentas de Monitoramento e Observabilidade, porém podem ser abertas manualmente em casos onde o usuário reportou um problema diretamente, sem ser reconhecido por um sistema pró-ativo.

Abrindo um Incidente Manualmente

Nome do Incidente

Escolha um nome claro e objetivo que descreva o problema. Isso ajudará sua equipe a entender rapidamente o que está acontecendo.

Exemplo: “Falha de Conexão com API do Serviço X”.

Causa do Incidente

Explique o que causou o problema para que todos saibam o contexto. Seja direto e inclua detalhes úteis.

Exemplo: “A API não conseguiu acessar o banco de dados devido a uma falha de rede.”

Hora de Início

Informe a data e a hora em que o problema começou. Isso ajudará a rastrear o impacto e a linha do tempo do incidente.

Exemplo: 12/03/2024, 01:41 PM.

Status do Incidente

  • Alarmed: O incidente foi identificado, mas ainda está aguardando ação.

  • Resolved: Se o problema já foi solucionado.

Nota: Caso o incidente seja criado como “Resolved”, as métricas de tempo de reconhecimento e resolução serão zeradas, e todos os envolvidos receberão uma notificação.

Gravidade (Severity)

Defina a gravidade com base no impacto do problema:

  • Sev 1 – Crítico: Impacto grave e urgente.

  • Sev 2 – Alto: Alta prioridade, mas não crítica.

  • Sev 3 – Médio: Impacto moderado.

  • Sev 4 – Baixo: Impacto pequeno.

  • Not classified: Não pode classificar.

Relacione Origens e Alertas

  • Origens Vinculadas: Identifique qual serviço, aplicação ou sistema está relacionado ao incidente.

  • Alertas Vinculados: Adicione os alertas associados para ajudar a equipe a entender melhor o que aconteceu.

Adicione os Responsáveis (Responders)

Inclua os membros da equipe que irão lidar com o incidente. Isso garante que todos saibam quem está cuidando do problema.

Resposta a incidentes

E possível Reconhecer (Acknowledge) o incidente, notificando a equipe de que ele foi reconhecido e está sendo investigado, ou Resolver (Resolve), finalizando o incidente e notificando todas as partes envolvidas.

Glossário de Termos Técnicos

Incident Center: Central de monitoramento e gerenciamento de incidentes na Elven Platform. Permite a visualização, busca, criação e gerenciamento de incidentes, otimizando a resposta da equipe e facilitando a resolução de problemas.

Incidents: Termo usado para se referir aos eventos ou problemas identificados nas aplicações ou sistemas, que precisam ser monitorados, investigados e resolvidos pela equipe.

Barra de Busca: Ferramenta de pesquisa na plataforma que permite localizar incidentes rapidamente, utilizando o nome ou outros critérios de pesquisa.

Filtros Avançados: Funcionalidade que permite refinar a busca por incidentes utilizando parâmetros como:

  • Status: Como “Alarmed” ou “Resolved”.

  • Severidade: Classificação da gravidade do incidente (SEV 1, SEV 2, etc.).

  • Origem: Sistema ou aplicação de onde o incidente se originou.

  • Período: Intervalo de tempo para filtrar incidentes com base em quando ocorreram.

Incidente Manual: Um incidente criado de forma manual pela equipe, geralmente para relatar um problema que não foi detectado automaticamente pela plataforma.

Nome do Incidente: Campo onde você descreve brevemente o incidente. Deve ser claro e objetivo para facilitar a compreensão rápida do problema.

Causa do Incidente: Descrição do que causou o incidente. Esse campo ajuda a fornecer contexto e detalhes para a equipe entender o problema.

Hora de Início: Data e hora em que o incidente começou, ajudando a rastrear o impacto e o tempo de resolução do problema.

Status do Incidente: Indicador que mostra o estado atual do incidente. As opções incluem:

  • Alarmed: O incidente foi identificado, mas ainda está aguardando ação.

  • Resolved: O incidente foi resolvido.

Gravidade (Severity): Classificação do impacto do incidente, que ajuda a priorizar a resolução. As opções incluem:

  • SEV 1 – Crítico: Incidente grave, com impacto significativo.

  • SEV 2 – Alto: Alta prioridade, mas não crítico.

  • SEV 3 – Médio: Impacto moderado.

  • SEV 4 – Baixo: Impacto pequeno.

  • Not classified: Incidente não classificado.

Origens Vinculadas: Campo onde você pode identificar qual serviço, aplicação ou sistema está relacionado ao incidente, ajudando a compreender sua origem.

Alertas Vinculados: Alertas associados ao incidente, oferecendo mais contexto sobre o que gerou ou contribuiu para o problema.

Responsáveis (Responders): Membros da equipe responsáveis pela resolução do incidente. Incluí-los no incidente garante que todos saibam quem está lidando com o problema.

Gerenciando Resposta de Incidentes: Ações realizadas para resolver ou monitorar o progresso do incidente, garantindo uma gestão eficiente e transparente. As principais ações incluem:

  • Reconhecer (Acknowledge): Notificar a equipe que o incidente foi identificado e está sendo investigado.

  • Resolver (Resolve): Concluir o incidente, indicando que o problema foi resolvido e notificando todos os envolvidos.

Comunicação via Slack: Integração do Incident Center com o Slack, permitindo que a equipe se comunique diretamente sobre o incidente, facilitando o gerenciamento e a resolução em tempo real.

Notificação de Resolução: Notificação enviada para todas as partes envolvidas quando um incidente é resolvido, garantindo transparência e fechamento adequado do evento.

Last updated

Was this helpful?