Guia Configuração do Monitor SQS na Elven Platform

O Monitor SQS da Elven Platform permite verificações baseadas em consultas chaves em fila do SQS. Essa funcionalidade ajuda a configurar verificações contínuas, definir alertas e criar limites para abertura de incidentes automáticos, garantindo que você seja informado rapidamente sobre quaisquer irregularidades na conectividade ou desempenho dos serviços.

O Amazon SQS (Simple Queue Service) é um serviço de filas de mensagens gerenciado pela AWS, projetado para facilitar a comunicação entre sistemas distribuídos. Ele permite o envio, recebimento e armazenamento de mensagens entre componentes de forma assíncrona e escalável, garantindo a entrega confiável e a separação de responsabilidades em aplicações modernas. Ideal para cenários como integração de sistemas, arquiteturas de microsserviços e processamento de tarefas em segundo plano, o SQS elimina a complexidade de gerenciar filas.

Acessando o Monitoramento SQS

Navegue até o menu principal e clique em Services Hub.

Em Queue, selecione o item SQS(AWS).

Configuração do Monitoramento

Monitorar seus serviços nunca foi tão fácil! Para configurar o monitoramento do AWS SQS na Elven Platform, comece atribuindo um nome claro ao recurso no campo Resource Name. Escolha algo que facilite sua identificação, especialmente em ambientes com múltiplos serviços sendo monitorados. Em seguida, ajuste o intervalo entre as verificações (Interval) e o tempo limite para respostas (Timeout), garantindo que o monitoramento esteja alinhado à importância e à criticidade do serviço.

No campo Checkpoint Cloud, selecione o ambiente onde o agente de monitoramento será executado. Caso não tenha um ambiente configurado, você pode criar um novo clicando em + Checkpoint. Depois, no Form Type, opte pelo formato de autenticação que melhor se aplica ao seu cenário. Caso escolha User and Password, insira as credenciais da AWS nos campos Access Key e Secret Access Key, e configure a AWS Region correspondente à região onde a fila do SQS está localizada. Essas informações são fundamentais para autenticar e estabelecer a conexão com o serviço.

Agora, preencha os campos Test Queue e Queue Size. No campo Test Queue, especifique uma fila de teste que será usada para validar se a configuração de monitoramento está funcionando corretamente. Já o campo Queue Size exibe automaticamente o número de mensagens presentes na fila, ajudando você a identificar gargalos ou sobrecargas e a otimizar o processamento de mensagens.

Se optar por monitorar um recurso utilizando apenas uma URL, escolha o Form Type como Healthcheck URL e insira o endereço do recurso no campo correspondente. É importante lembrar que os campos Host e Healthcheck URL aceitam apenas URLs. Caso precise usar um endereço IP, será necessário armazená-lo em um secret para manter a segurança e a organização das informações.

Abertura de Incidentes Automáticos

Você pode configurar a abertura automática de incidentes para garantir uma resposta rápida a problemas críticos. Para começar, defina a severidade do incidente, permitindo que você priorize de acordo com a urgência. Em seguida, ajuste o Check Interval, especificando o intervalo de checagem em segundos para monitorar continuamente o recurso. Isso ajuda a garantir que você esteja sempre um passo à frente, detectando problemas assim que eles surgem.

Além disso, selecione o time que será notificado sempre que um incidente ocorrer e ative a opção Enable to set up automatic incidents opening para garantir que a configuração esteja habilitada. Com essa configuração, a plataforma automatiza a gestão de incidentes, tornando o processo de resposta mais ágil e eficiente, sem a necessidade de intervenção manual. Isso garante que sua equipe esteja sempre pronta para resolver qualquer questão com rapidez e precisão.

Maintenance Window

Ainda temos Maintenance Window que é uma funcionalidade essencial para gerenciar períodos de manutenção planejada na sua aplicação. Durante esse intervalo, as verificações são temporariamente pausadas, evitando que o monitoramento, alertas e notificações sejam acionados enquanto você realiza ajustes ou atualizações. Isso permite que a manutenção ocorra de maneira tranquila, sem gerar notificações desnecessárias ou alarmes falsos, garantindo que sua operação siga de forma ordenada e sem interrupções inesperadas nos relatórios de desempenho.

Por exemplo, imagine que você precise atualizar o sistema de pagamento de um e-commerce, realizando ajustes no backend, como a instalação de novos certificados de segurança. Para isso, você pode configurar a Maintenance Window para um horário específico, como 13/12/2024, das 14:00 às 14:30. Durante esse período, a Elven Platform suspende as verificações, evitando que o monitoramento registre falhas temporárias ou dispare alertas falsos. Assim, você consegue fazer as alterações necessárias com calma, sabendo que o sistema de monitoramento não será impactado durante a manutenção. Essa abordagem garante que a atualização seja feita de maneira organizada, sem afetar a experiência dos usuários ou gerar notificações indesejadas.

Application Opening Hours

Ainda, você pode contar com a funcionalidade Application Opening Hours, que permite configurar os horários de funcionamento da sua aplicação. Essa funcionalidade é essencial para personalizar o monitoramento com base nos períodos em que sua aplicação está realmente ativa, evitando alertas e notificações fora do horário de operação. Assim, o monitoramento se torna mais alinhado com as necessidades reais do seu negócio, garantindo relatórios mais precisos e uma gestão eficiente.

Por exemplo, imagine que sua aplicação funcione apenas de segunda a sexta-feira, das 09:00 às 18:00. Você pode configurar o Application Opening Hours para refletir esse horário, especificando os dias e períodos de funcionamento. Com isso, a Elven Platform desativa automaticamente as verificações fora desses horários, evitando registros de falhas que não afetam os usuários finais e prevenindo alertas desnecessários. Essa abordagem otimiza a análise de desempenho, focando somente nos períodos relevantes e proporcionando uma visão mais clara sobre a saúde da sua aplicação durante seu horário de operação.

Glossário de Termos Técnicos

SQS: Serviço de filas de mensagens gerenciado da AWS, projetado para comunicação assíncrona e confiável entre sistemas distribuídos. Permite o desacoplamento de componentes de software e o processamento de mensagens em alta escala. Oferece alta disponibilidade, escalabilidade automática e suporte a modelos de fila padrão e FIFO. Ideal para integração de sistemas, microsserviços e processamento de tarefas em segundo plano, com a simplicidade de uma solução completamente gerenciada.

Interval: Intervalo de tempo entre as verificações automáticas realizadas no monitoramento.

Timeout: Tempo limite para que o monitoramento receba uma resposta do recurso monitorado antes de registrar uma falha.

Checkpoint Cloud: Local onde o agente de monitoramento está localizado, podendo ser um ambiente preexistente ou criado pelo usuário.

Secret: Recurso utilizado para armazenar informações sensíveis, como endereços IP ou credenciais, garantindo segurança e organização.

Access Key: Campo para inserir a chave de acesso da AWS. Essa chave faz parte das credenciais necessárias para autenticar e acessar a fila do SQS.

Secret Access Key: Campo para inserir a chave secreta associada à chave de acesso da AWS. Junta com Access Key essas chaves autenticam sua conta e fornecem acesso a fila do SQS.

AWS Region: Uma lista suspensa onde você seleciona a região da AWS em que está localizada a fila do SQS.
Test Queue: Campo usado para especificar uma fila de testes no Amazon SQS, com o objetivo de validar se a configuração de monitoramento está funcionando corretamente.
Queue Size: O número de mensagens presentes na fila do Amazon SQS. Essa métrica ajuda a identificar gargalos ou sobrecargas, permitindo ajustes para otimizar o processamento de mensagens e garantir o desempenho do sistema.

Healthcheck URL: URL utilizada para verificar a saúde do servidor RabbitMQ, um método alternativo de autenticação e monitoramento.

Enable to set up automatic incidents opening: Opção que, quando ativada, habilita a abertura automática de incidentes na detecção de problemas críticos.

Severity (Severidade): Grau de criticidade atribuído a um incidente, permitindo sua priorização conforme a urgência.

Check Interval:
Intervalo de tempo, em segundos, para realizar verificações contínuas do recurso monitorado.

Maintenance Window: Funcionalidade que pausa temporariamente o monitoramento, alertas e notificações durante os períodos de manutenção planejada.

Application Opening Hours: Configuração que define os horários de funcionamento da aplicação, alinhando o monitoramento aos períodos ativos e evitando alertas fora desses horários.