Guia Gerenciamento do Resource Center da Elven Platform

O Resource Center da Elven Platform foi pensado para simplificar a sua rotina e oferecer uma visão clara dos recursos da sua organização. Aqui, você acompanha em tempo real o status operacional, métricas essenciais de SRE e o histórico de eventos, tudo de forma prática e acessível. Com uma interface intuitiva e fácil de navegar, o Resource Center transforma dados em insights úteis para ajudar sua equipe a tomar decisões com agilidade e confiança. E se precisar adicionar novos recursos, basta acessar o nosso Services Hub, onde tudo fica ainda mais simples e integrado ou simplemente clicar no Botão + Resource que você será redirecionado para este.

Acessando o Resource Center

Navegue até o menu principal e clique em Monitoring.

No submenu, selecione item Resources.

Trabalhando com Resource Center

A página inicial do Resource Center foi criada para tornar sua navegação simples e eficiente. Logo de cara, você tem acesso a uma lista de recursos apresentada de forma organizada, com colunas que mostram o status atual de cada recurso e o nome correspondente. Para facilitar ainda mais, há uma barra de pesquisa prática onde você pode buscar recursos pelo nome e aplicar filtros por status (All, Inactive, Operational, Pending,In Maintenance e Not Operational), ajudando você a encontrar exatamente o que precisa de maneira rápida e descomplicada.

Ao clicar em um recurso, você será direcionado para uma página do recurso, projetada para oferecer todas as informações necessárias de forma clara e acessível. Na seção de Informações Gerais, é possível visualizar o status atual do recurso com indicadores visuais em cores para facilitar a identificação. Além disso, você pode gerenciar o monitoramento com um botão deslizante simples para ativar ou desativar o monitoramento do recurso.

Na parte de Métricas de Confiabilidade, você encontra dados importantes como o tempo médio entre falhas (MTBF), o tempo médio para reconhecer incidentes (MTTA), e o tempo médio de recuperação (MTTR), além de um histórico de uptime apresentado em gráficos interativos que mostram períodos de 1 hora, 6 horas, 24 horas, e até 365 dias.

No Resource Center da Elven Platform, você também conta com gráficos detalhados de Latências Percentil, que mostram os tempos de resposta médios (p50) e os casos de maior latência (p90 e p95). Esses gráficos são projetados para facilitar a análise, com linhas coloridas que destacam os picos de desempenho e ajudam a identificar padrões de maneira visual e intuitiva. Além disso, há também gráficos de latências em tempo real, que permitem acompanhar o desempenho do sistema no momento em que ele acontece.

Essas métricas são essenciais para entender o comportamento do sistema: picos podem sinalizar períodos de maior carga ou processamento mais intenso, enquanto valores menores indicam uma operação fluida. Esse monitoramento contínuo ajuda sua equipe de SRE a identificar gargalos ou anomalias rapidamente e a agir de forma proativa para evitar falhas ou degradações no desempenho.

E por último, na seção de Events History (Histórico de Eventos), você pode localizar incidentes pelo nome, enquanto filtros avançados por status, severidade, origem e período ajudam a refinar sua pesquisa, proporcionando uma experiência ainda mais eficiente. Cada evento apresenta detalhes como status atual, descrição, data e hora, e um link para acessar a página do incidente, com informações técnicas detalhadas, garantindo que você tenha tudo o que precisa para agir com rapidez e eficiência.

Glossário de Termos Técnicos

Resource Center: Área centralizada na Elven Platform dedicada à gestão e monitoramento dos recursos da organização. Permite visualizar o status operacional, métricas essenciais de SRE, e histórico de eventos, tudo em tempo real e com uma interface intuitiva.

SRE (Site Reliability Engineering): Prática de engenharia focada em melhorar a confiabilidade, desempenho e escalabilidade dos sistemas. O Resource Center oferece métricas essenciais para monitoramento contínuo e resolução de incidentes relacionados à SRE.

Services Hub: Módulo que centraliza os serviços disponíveis para integração, permitindo adicionar novos recursos de forma simples e organizada.

Status Operacional: Indicador que mostra a condição atual de um recurso, se ele está operacional, com falhas ou em manutenção.

Filtros: Funcionalidade que permite refinar a pesquisa de recursos com base em critérios como status.

All (Todos): Exibe todas as entradas, independentemente do status atual.

Inactive (Inativo): O recurso está configurado, mas não está ativo no momento.

Operational (Operacional): O recurso está funcionando normalmente, sem incidentes ou problemas detectados.

Pending (Pendente): O recurso está em processo de ativação ou aguardando uma ação antes de entrar em operação.

In Maintenance (Em Manutenção): O recurso está passando por manutenção planejada, podendo apresentar indisponibilidade temporária.

Not Operational (Não Operacional): O recurso está fora do ar ou enfrentando falhas, impactando sua funcionalidade

Incidentes: Eventos críticos que afetaram a operação do sistema e precisam de ação corretiva.

Métricas de Confiabilidade: Conjunto de métricas relacionadas à confiabilidade do sistema, como:

MTBF (Mean Time Between Failures): Tempo médio entre falhas, medindo a confiabilidade do sistema.

MTTA (Mean Time To Acknowledge): Tempo médio para reconhecer um incidente.

MTTR (Mean Time To Recovery): Tempo médio para recuperar um recurso após uma falha.

Uptime: Percentual de tempo que o sistema esteve operacional, visualizado em gráficos interativos.

Gráficos Interativos de Uptime: Gráficos que mostram o tempo de atividade (uptime) de um recurso em diferentes períodos (1 hora, 6 horas, 24 horas e 365 dias). Esses gráficos ajudam a analisar a continuidade de operação do recurso ao longo do tempo.

Gráficos de Latência Percentil: Gráficos que mostram os tempos de resposta de um recurso, divididos em percentis. Incluem:

p50 (percentil 50): Tempo médio de resposta.

p90 (percentil 90) e p95 (percentil 95): Casos de maior latência ou tempos de resposta mais altos.

Gráficos de Latência em Tempo Real: Visualizações que mostram o desempenho de latência de um recurso em tempo real, permitindo monitorar os tempos de resposta à medida que ocorrem.

Análise de Latência: A análise dos tempos de resposta, com o objetivo de identificar padrões de comportamento do sistema. Picos de latência podem indicar sobrecarga ou problemas, enquanto valores baixos sugerem um desempenho estável.

Histórico de Eventos: Seção onde são listados todos os eventos e incidentes ocorridos, com detalhes como descrição, status atual, data e hora. Filtros avançados podem ser aplicados para buscar eventos por status, severidade, origem e período.

Filtros Avançados: Funcionalidade que permite refinar a pesquisa de eventos e recursos com base em critérios como status, severidade, origem (ex: sistema ou serviço afetado), e período (ex: último mês, última semana).

Severidade de Incidentes: Classificação dos incidentes de acordo com seu impacto no sistema. A severidade ajuda a priorizar a resposta a eventos mais críticos.

Origem de Incidentes: A origem de um incidente indica o local ou serviço que causou o evento, podendo ser uma falha no sistema, erro humano, ou problema em um serviço externo.

Acessando o Resource Center

Trabalhando com Resource Center

Glossário de Termos Técnicos

Deixe um comentário Cancelar resposta