Este documento explica o recurso de auto-healing do Segura, que automatiza a detecção, isolamento e remediação de falhas em nodes e serviços críticos do cluster. Além disso, detalha as capacidades nativas de monitoramento, integração com sistemas externos e exemplos práticos de uso, visando garantir a continuidade e a estabilidade operacional.
Definição de auto-healing
O auto-healing consiste em rotinas automatizadas que identificam, isolam e tentam corrigir falhas, reduzindo o tempo de indisponibilidade e a necessidade de intervenção manual. O objetivo é assegurar rápida recuperação do ambiente diante de eventos inesperados.
Funcionamento do auto-healing
- Health checks automatizados: Monitoramento constante de nodes e serviços essenciais, verificando conectividade, performance, disponibilidade e integridade dos dados.
- Detecção de falhas: Identificação automática de problemas de hardware, software, recursos do sistema (CPU, RAM, disco) ou perda de comunicação.
- Isolamento de nodes problemáticos: Nodes considerados “unhealthy” são retirados do pool ativo para evitar impactos em sessões críticas.
- Tentativas de remediação: Procedimentos automáticos como reinício de serviços, limpeza de cache ou restart de containers. Nodes recuperados retornam automaticamente ao cluster.
- Notificação e escalonamento: Falhas não corrigidas são reportadas imediatamente via dashboards, alertas (e-mail, webhook, SIEM/SOAR) e logs detalhados.
Monitoramento nativo
- Dashboards integrados: Painéis em tempo real com status dos nodes, métricas de saúde (CPU, RAM, latência), sessões ativas, alarmes e eventos críticos.
- Alertas personalizáveis: Configuração de thresholds para recursos, falhas e latência, acionando alertas automáticos para administradores.
- Registro de eventos: Logs auditáveis de todos os eventos de auto-healing, falhas e recuperações.
- Monitoramento externo: Integração com Prometheus, Zabbix, Grafana, SIEM/SOAR para centralização da observabilidade e resposta a incidentes.
- Visualização de health/status: Indicação clara do estado de cada node (healthy, degraded, unhealthy, manutenção).
Exemplos práticos e logs de eventos
-
Evento: Falha de comunicação em node X.
Ação: Node isolado e tentativa de restart automático do serviço. -
Evento: Consumo de memória acima do threshold em node Y.
Ação: Alerta gerado e sessão redistribuída para outros nodes. -
Evento: Falha persistente em node Z.
Ação: Notificação enviada e logs exportados para SIEM.
Integração com SIEM/SOAR
Todos os eventos críticos e logs de auto-healing podem ser enviados automaticamente para sistemas externos via syslog, webhook ou API, permitindo que equipes SOC/NOC centralizem o monitoramento do Segura junto a outros sistemas críticos da organização.