O Resource Center da Elven Platform foi pensado para simplificar a sua rotina e oferecer uma visão clara dos recursos da sua organização. Aqui, você acompanha em tempo real o status operacional, métricas essenciais de SRE e o histórico de eventos, tudo de forma prática e acessível. Com uma interface intuitiva e fácil de navegar, o Resource Center transforma dados em insights úteis para ajudar sua equipe a tomar decisões com agilidade e confiança. E se precisar adicionar novos recursos, basta acessar o nosso Services Hub, onde tudo fica ainda mais simples e integrado ou simplemente clicar no Botão + Resource que voce será redirecionado para este.
Acessando o Resource Center
- Navegue até o menu principal e clique em Monitoring.
- No submenu, selecione item Resources.
Trabalhando com Resource Center
A página inicial do Resource Center foi criada para tornar sua navegação simples e eficiente. Logo de cara, você tem acesso a uma lista de recursos apresentada de forma organizada, com colunas que mostram o status atual de cada recurso e o nome correspondente. Para facilitar ainda mais, há uma barra de pesquisa prática onde você pode buscar recursos pelo nome e aplicar filtros por status, ajudando você a encontrar exatamente o que precisa de maneira rápida e descomplicada.
Ao clicar em um recurso, você será direcionado para uma página do recurso, projetada para oferecer todas as informações necessárias de forma clara e acessível. Na seção de Informações Gerais, é possível visualizar o status atual do recurso com indicadores visuais em cores para facilitar a identificação. Além disso, você pode gerenciar o monitoramento com um botão deslizante simples para ativar ou desativar o recurso.
Na parte de Métricas de Confiabilidade, você encontra dados importantes como o tempo médio entre falhas (MTBF), o tempo médio para reconhecer incidentes (MTTA), e o tempo médio de recuperação (MTTR), além de um histórico de uptime apresentado em gráficos interativos que mostram períodos de 1 hora, 6 horas, 24 horas, e até 365 dias.
No Resource Center da Elven Platform, você também conta com gráficos detalhados de Latências Percentil, que mostram os tempos de resposta médios (p50) e os casos de maior latência (p90 e p95). Esses gráficos são projetados para facilitar a análise, com linhas coloridas que destacam os picos de desempenho e ajudam a identificar padrões de maneira visual e intuitiva. Além disso, há também gráficos de latências em tempo real, que permitem acompanhar o desempenho do sistema no momento em que ele acontece.
Essas métricas são essenciais para entender o comportamento do sistema: picos podem sinalizar períodos de maior carga ou processamento mais intenso, enquanto valores menores indicam uma operação fluida. Esse monitoramento contínuo ajuda sua equipe de SRE a identificar gargalos ou anomalias rapidamente e a agir de forma proativa para evitar falhas ou degradações no desempenho.
E por último, na seção de Histórico de Eventos, você pode localizar incidentes pelo nome, enquanto filtros avançados por status, severidade, origem e período ajudam a refinar sua pesquisa, proporcionando uma experiência ainda mais eficiente. Cada evento apresenta detalhes como status atual, descrição, data e hora, e um link para acessar a página do incidente, com informações técnicas detalhadas, garantindo que você tenha tudo o que precisa para agir com rapidez e eficiência.
Glossário de Termos Técnicos
Resource Center: Área centralizada na Elven Platform dedicada à gestão e monitoramento dos recursos da organização. Permite visualizar o status operacional, métricas essenciais de SRE, e histórico de eventos, tudo em tempo real e com uma interface intuitiva.
SRE (Site Reliability Engineering): Prática de engenharia focada em melhorar a confiabilidade, desempenho e escalabilidade dos sistemas. O Resource Center oferece métricas essenciais para monitoramento contínuo e resolução de incidentes relacionados à SRE.
Services Hub: Módulo que centraliza os serviços disponíveis para integração, permitindo adicionar novos recursos de forma simples e organizada.
Status Operacional: Indicador que mostra a condição atual de um recurso, se ele está operacional, com falhas ou em manutenção..
Métricas de Confiabilidade: Conjunto de métricas relacionadas à confiabilidade do sistema, como:
- MTBF (Mean Time Between Failures): Tempo médio entre falhas, medindo a confiabilidade do sistema.
- MTTA (Mean Time To Acknowledge): Tempo médio para reconhecer um incidente.
- MTTR (Mean Time To Recovery): Tempo médio para recuperar um recurso após uma falha.
- Uptime: Percentual de tempo que o sistema esteve operacional, visualizado em gráficos interativos.
Gráficos Interativos de Uptime: Gráficos que mostram o tempo de atividade (uptime) de um recurso em diferentes períodos (1 hora, 6 horas, 24 horas e 365 dias). Esses gráficos ajudam a analisar a continuidade de operação do recurso ao longo do tempo.
Gráficos de Latência Percentil: Gráficos que mostram os tempos de resposta de um recurso, divididos em percentis. Incluem:
- p50 (percentil 50): Tempo médio de resposta.
- p90 (percentil 90) e p95 (percentil 95): Casos de maior latência ou tempos de resposta mais altos.
Gráficos de Latência em Tempo Real: Visualizações que mostram o desempenho de latência de um recurso em tempo real, permitindo monitorar os tempos de resposta à medida que ocorrem.
Análise de Latência: A análise dos tempos de resposta, com o objetivo de identificar padrões de comportamento do sistema. Picos de latência podem indicar sobrecarga ou problemas, enquanto valores baixos sugerem um desempenho estável.
Histórico de Eventos: Seção onde são listados todos os eventos e incidentes ocorridos, com detalhes como descrição, status atual, data e hora. Filtros avançados podem ser aplicados para buscar eventos por status, severidade, origem e período.
Filtros Avançados: Funcionalidade que permite refinar a pesquisa de eventos e recursos com base em critérios como status, severidade, origem (ex: sistema ou serviço afetado), e período (ex: último mês, última semana).
Incidentes: Eventos críticos que afetaram a operação do sistema e precisam de ação corretiva. No Resource Center, é possível visualizar detalhes completos do incidente e acompanhar sua resolução.
Severidade de Incidentes: Classificação dos incidentes de acordo com seu impacto no sistema. A severidade ajuda a priorizar a resposta a eventos mais críticos.
Origem de Incidentes: A origem de um incidente indica o local ou serviço que causou o evento, podendo ser uma falha no sistema, erro humano, ou problema em um serviço externo.