Sobre failover e continuidade de serviço

Prev Next

Este documento apresenta os mecanismos de failover e continuidade de serviço do Segura, detalhando como a plataforma mantém alta disponibilidade operacional diante de falhas em nodes ou componentes do cluster. São descritos os processos automáticos, recuperação de sessões, procedimentos para falhas parciais ou totais, além de recomendações para testes e manutenção.

Mecanismos de failover automático

  • Monitoramento contínuo: Todos os nodes do cluster passam por health checks frequentes para garantir sua disponibilidade.
  • Detecção de falhas: Nodes com falhas de hardware, software, comunicação ou desempenho são automaticamente removidos do pool ativo.
  • Redistribuição automática de sessões: Sessões afetadas são transferidas para nodes saudáveis sem intervenção manual.
  • Failover transparente: A experiência do usuário final é preservada, com reconexão automática e manutenção do contexto e dados da sessão sempre que possível.

Recuperação de sessão

  • Persistência de sessão: O cluster mantém o contexto e o estado das sessões para permitir retomada rápida em caso de falhas parciais.
  • Rebalanceamento de carga: Após failover, o balanceador redistribui novas sessões entre os nodes restantes para evitar sobrecarga.
  • Sincronização de logs e eventos: Atividades de sessão, comandos e ações são registradas e sincronizadas entre nodes, garantindo integridade dos registros de auditoria.

Procedimentos em caso de falha total ou parcial

Falha de node isolado

  • Node é isolado automaticamente.
  • Sessões ativas são migradas ou encerradas conforme políticas definidas.
  • Notificações e logs são gerados para a equipe de operações.

Falha de múltiplos nodes ou falha regional

  • O cluster mantém operação desde que haja pelo menos um node saudável.
  • Em configurações multi-região, sessões podem ser direcionadas automaticamente para outras regiões.

Recuperação

  • Nodes recuperados são reintegrados automaticamente ou via aprovação administrativa.
  • Auditoria completa dos eventos permanece disponível para compliance e investigação.

Testes e recomendações

  • Realizar testes periódicos de failover para assegurar o funcionamento dos mecanismos.
  • Manter backups atualizados da configuração do cluster.
  • Documentar e atualizar contatos e responsáveis pela resposta a incidentes de disponibilidade.