Guia Gerenciamento do Resouce Center da Elven Platform 

O Resource Center da Elven Platform foi pensado para simplificar a sua rotina e oferecer uma visão clara dos recursos da sua organização. Aqui, você acompanha em tempo real o status operacional, métricas essenciais de SRE e o histórico de eventos, tudo de forma prática e acessível. Com uma interface intuitiva e fácil de navegar, o Resource Center transforma dados em insights úteis para ajudar sua equipe a tomar decisões com agilidade e confiança. E se precisar adicionar novos recursos, basta acessar o nosso Services Hub, onde tudo fica ainda mais simples e integrado ou simplemente clicar no Botão + Resource que voce será redirecionado para este. 

Acessando o Resource Center

  • Navegue até o menu principal e clique em Monitoring.  
  • No submenu, selecione item Resources.

Trabalhando com Resource Center

A página inicial do Resource Center foi criada para tornar sua navegação simples e eficiente. Logo de cara, você tem acesso a uma lista de recursos apresentada de forma organizada, com colunas que mostram o status atual de cada recurso e o nome correspondente. Para facilitar ainda mais, há uma barra de pesquisa prática onde você pode buscar recursos pelo nome e aplicar filtros por status, ajudando você a encontrar exatamente o que precisa de maneira rápida e descomplicada. 
 
 
Ao clicar em um recurso, você será direcionado para uma página do recurso, projetada para oferecer todas as informações necessárias de forma clara e acessível. Na seção de Informações Gerais, é possível visualizar o status atual do recurso com indicadores visuais em cores para facilitar a identificação. Além disso, você pode gerenciar o monitoramento com um botão deslizante simples para ativar ou desativar o recurso. 

Na parte de Métricas de Confiabilidade, você encontra dados importantes como o tempo médio entre falhas (MTBF), o tempo médio para reconhecer incidentes (MTTA), e o tempo médio de recuperação (MTTR), além de um histórico de uptime apresentado em gráficos interativos que mostram períodos de 1 hora, 6 horas, 24 horas, e até 365 dias. 

No Resource Center da Elven Platform, você também conta com gráficos detalhados de Latências Percentil, que mostram os tempos de resposta médios (p50) e os casos de maior latência (p90 e p95). Esses gráficos são projetados para facilitar a análise, com linhas coloridas que destacam os picos de desempenho e ajudam a identificar padrões de maneira visual e intuitiva. Além disso, há também gráficos de latências em tempo real, que permitem acompanhar o desempenho do sistema no momento em que ele acontece. 

Essas métricas são essenciais para entender o comportamento do sistema: picos podem sinalizar períodos de maior carga ou processamento mais intenso, enquanto valores menores indicam uma operação fluida. Esse monitoramento contínuo ajuda sua equipe de SRE a identificar gargalos ou anomalias rapidamente e a agir de forma proativa para evitar falhas ou degradações no desempenho. 

E por último, na seção de Histórico de Eventos, você pode localizar incidentes pelo nome, enquanto filtros avançados por status, severidade, origem e período ajudam a refinar sua pesquisa, proporcionando uma experiência ainda mais eficiente. Cada evento apresenta detalhes como status atual, descrição, data e hora, e um link para acessar a página do incidente, com informações técnicas detalhadas, garantindo que você tenha tudo o que precisa para agir com rapidez e eficiência. 

Glossário de Termos Técnicos 

Resource Center: Área centralizada na Elven Platform dedicada à gestão e monitoramento dos recursos da organização. Permite visualizar o status operacional, métricas essenciais de SRE, e histórico de eventos, tudo em tempo real e com uma interface intuitiva. 

SRE (Site Reliability Engineering): Prática de engenharia focada em melhorar a confiabilidade, desempenho e escalabilidade dos sistemas. O Resource Center oferece métricas essenciais para monitoramento contínuo e resolução de incidentes relacionados à SRE. 

Services Hub: Módulo que centraliza os serviços disponíveis para integração, permitindo adicionar novos recursos de forma simples e organizada. 

Status Operacional: Indicador que mostra a condição atual de um recurso, se ele está operacional, com falhas ou em manutenção.. 

Métricas de Confiabilidade: Conjunto de métricas relacionadas à confiabilidade do sistema, como: 

  • MTBF (Mean Time Between Failures): Tempo médio entre falhas, medindo a confiabilidade do sistema. 
  • MTTA (Mean Time To Acknowledge): Tempo médio para reconhecer um incidente. 
  • MTTR (Mean Time To Recovery): Tempo médio para recuperar um recurso após uma falha. 
  • Uptime: Percentual de tempo que o sistema esteve operacional, visualizado em gráficos interativos. 

Gráficos Interativos de Uptime: Gráficos que mostram o tempo de atividade (uptime) de um recurso em diferentes períodos (1 hora, 6 horas, 24 horas e 365 dias). Esses gráficos ajudam a analisar a continuidade de operação do recurso ao longo do tempo. 

Gráficos de Latência Percentil: Gráficos que mostram os tempos de resposta de um recurso, divididos em percentis. Incluem: 

  • p50 (percentil 50): Tempo médio de resposta. 
  • p90 (percentil 90) e p95 (percentil 95): Casos de maior latência ou tempos de resposta mais altos. 

Gráficos de Latência em Tempo Real: Visualizações que mostram o desempenho de latência de um recurso em tempo real, permitindo monitorar os tempos de resposta à medida que ocorrem. 

Análise de Latência: A análise dos tempos de resposta, com o objetivo de identificar padrões de comportamento do sistema. Picos de latência podem indicar sobrecarga ou problemas, enquanto valores baixos sugerem um desempenho estável. 

Histórico de Eventos: Seção onde são listados todos os eventos e incidentes ocorridos, com detalhes como descrição, status atual, data e hora. Filtros avançados podem ser aplicados para buscar eventos por status, severidade, origem e período. 

Filtros Avançados: Funcionalidade que permite refinar a pesquisa de eventos e recursos com base em critérios como status, severidade, origem (ex: sistema ou serviço afetado), e período (ex: último mês, última semana). 

Incidentes: Eventos críticos que afetaram a operação do sistema e precisam de ação corretiva. No Resource Center, é possível visualizar detalhes completos do incidente e acompanhar sua resolução. 

Severidade de Incidentes: Classificação dos incidentes de acordo com seu impacto no sistema. A severidade ajuda a priorizar a resposta a eventos mais críticos. 

Origem de Incidentes: A origem de um incidente indica o local ou serviço que causou o evento, podendo ser uma falha no sistema, erro humano, ou problema em um serviço externo. 

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Nesta página
Rolar para cima