Gestão centralizada de incidentes
A centralização dos incidentes permite uma busca fácil e ágil, permitindo o uso dos filtros de status, severidade, origens, identificadores e responders, trazendo total controle para que sejam acompanhados somente os incidentes ativos, ou seja consultado todo o histórico.
Métricas por incidente
Um incidente possui diversas métricas como: Horário inicial, tempo de reconhecimento (MTTA), tempo de resolução (MTTR), e horário final.
Detalhes por incidente
É possível entender a causa, e os recursos impactados.
Combate ao incidente
Os responders deixa claro quem foi acionado para combater este incidente e também é viável a leitura da correlação deste com alertas com os quais a ele são relacionados.
Status update
São registradas as ações realizadas por engenheiros dentro do seu ambiente, ficando registrado dentro deste incidente o que foi feito para reestabelecer o serviço impactado.
O update pode se tornar público, aparecendo na status page se o serviço impactado nela estiver registrado.
A origem dos incidentes
São majoritáriamente automáticos, criados e encerrados por integrações com as ferramentas de Monitoramento e Observabilidade, porém podem ser abertas manualmente em casos onde o usuário reportou um problema diretamente, sem ser reconhecido por um sistema pró-ativo.
Abrindo um Incidente Manualmente
Nome do Incidente
Escolha um nome claro e objetivo que descreva o problema. Isso ajudará sua equipe a entender rapidamente o que está acontecendo.
Exemplo: “Falha de Conexão com API do Serviço X”.
Causa do Incidente
Explique o que causou o problema para que todos saibam o contexto. Seja direto e inclua detalhes úteis.
Exemplo: “A API não conseguiu acessar o banco de dados devido a uma falha de rede.”
Hora de Início
Informe a data e a hora em que o problema começou. Isso ajudará a rastrear o impacto e a linha do tempo do incidente.
Exemplo: 12/03/2024, 01:41 PM.
Status do Incidente
Alarmed: O incidente foi identificado, mas ainda está aguardando ação.
Resolved: Se o problema já foi solucionado.
Nota: Caso o incidente seja criado como “Resolved”, as métricas de tempo de reconhecimento e resolução serão zeradas, e todos os envolvidos receberão uma notificação.
Gravidade (Severity)
Defina a gravidade com base no impacto do problema:
Sev 1 – Crítico: Impacto grave e urgente.
Sev 2 – Alto: Alta prioridade, mas não crítica.
Sev 3 – Médio: Impacto moderado.
Sev 4 – Baixo: Impacto pequeno.
Not classified: Não pode classificar.
Relacione Origens e Alertas
Origens Vinculadas: Identifique qual serviço, aplicação ou sistema está relacionado ao incidente.
Alertas Vinculados: Adicione os alertas associados para ajudar a equipe a entender melhor o que aconteceu.
Adicione os Responsáveis (Responders)
Inclua os membros da equipe que irão lidar com o incidente. Isso garante que todos saibam quem está cuidando do problema.
Resposta a incidentes
E possível Reconhecer (Acknowledge) o incidente, notificando a equipe de que ele foi reconhecido e está sendo investigado, ou Resolver (Resolve), finalizando o incidente e notificando todas as partes envolvidas.
Glossário de Termos Técnicos
Incident Center: Central de monitoramento e gerenciamento de incidentes na Elven Platform. Permite a visualização, busca, criação e gerenciamento de incidentes, otimizando a resposta da equipe e facilitando a resolução de problemas.
Incidents: Termo usado para se referir aos eventos ou problemas identificados nas aplicações ou sistemas, que precisam ser monitorados, investigados e resolvidos pela equipe.
Barra de Busca: Ferramenta de pesquisa na plataforma que permite localizar incidentes rapidamente, utilizando o nome ou outros critérios de pesquisa.
Filtros Avançados: Funcionalidade que permite refinar a busca por incidentes utilizando parâmetros como:
Status: Como “Alarmed” ou “Resolved”.
Severidade: Classificação da gravidade do incidente (SEV 1, SEV 2, etc.).
Origem: Sistema ou aplicação de onde o incidente se originou.
Período: Intervalo de tempo para filtrar incidentes com base em quando ocorreram.
Incidente Manual: Um incidente criado de forma manual pela equipe, geralmente para relatar um problema que não foi detectado automaticamente pela plataforma.
Nome do Incidente: Campo onde você descreve brevemente o incidente. Deve ser claro e objetivo para facilitar a compreensão rápida do problema.
Causa do Incidente: Descrição do que causou o incidente. Esse campo ajuda a fornecer contexto e detalhes para a equipe entender o problema.
Hora de Início: Data e hora em que o incidente começou, ajudando a rastrear o impacto e o tempo de resolução do problema.
Status do Incidente: Indicador que mostra o estado atual do incidente. As opções incluem:
Alarmed: O incidente foi identificado, mas ainda está aguardando ação.
Resolved: O incidente foi resolvido.
Gravidade (Severity): Classificação do impacto do incidente, que ajuda a priorizar a resolução. As opções incluem:
SEV 1 – Crítico: Incidente grave, com impacto significativo.
SEV 2 – Alto: Alta prioridade, mas não crítico.
SEV 3 – Médio: Impacto moderado.
SEV 4 – Baixo: Impacto pequeno.
Not classified: Incidente não classificado.
Origens Vinculadas: Campo onde você pode identificar qual serviço, aplicação ou sistema está relacionado ao incidente, ajudando a compreender sua origem.
Alertas Vinculados: Alertas associados ao incidente, oferecendo mais contexto sobre o que gerou ou contribuiu para o problema.
Responsáveis (Responders): Membros da equipe responsáveis pela resolução do incidente. Incluí-los no incidente garante que todos saibam quem está lidando com o problema.
Gerenciando Resposta de Incidentes: Ações realizadas para resolver ou monitorar o progresso do incidente, garantindo uma gestão eficiente e transparente. As principais ações incluem:
Reconhecer (Acknowledge): Notificar a equipe que o incidente foi identificado e está sendo investigado.
Resolver (Resolve): Concluir o incidente, indicando que o problema foi resolvido e notificando todos os envolvidos.
Comunicação via Slack: Integração do Incident Center com o Slack, permitindo que a equipe se comunique diretamente sobre o incidente, facilitando o gerenciamento e a resolução em tempo real.
Notificação de Resolução: Notificação enviada para todas as partes envolvidas quando um incidente é resolvido, garantindo transparência e fechamento adequado do evento.
Last updated
Was this helpful?

