Confira o status da Plataforma Neoassist

Incident Report for NeoAssist.com

Postmortem

Relatório de Incidente

Camada de Cache e Mensageria

Data: 30 de Janeiro de 2026

Status: Resolvido

Impacto: Instabilidade no envio/recebimento de mensagens e erros na usabilidade da plataforma.

Resumo Executivo

No período recente, nossa plataforma enfrentou dois eventos distintos na camada de cache (banco de dados em memória), que atua como suporte crítico para o processamento de mensagens em tempo real. O primeiro evento foi causado por um pico de demanda que atingiu o limite de conexões simultâneas, enquanto o segundo deveu-se a um gargalo de transmissão de rede que impactou a utilização de memória. A primeira situação foi mitigada com expansão de hardware e a segunda com otimização de parâmetros de segurança.

Evento 1: Saturação de Conexões e Expansão de Cluster

Descrição: Identificamos uma degradação no serviço de mensageria (WhatsApp e Bots), onde as requisições não conseguiam estabelecer comunicação com a camada de dados devido ao esgotamento de recursos de conexão.

Ocorrência e Diagnóstico: Nas primeiras horas da manhã, nosso sistema de monitoramento detectou intermitências no envio e recebimento de mensagens (WhatsApp e Bots). As equipes de engenharia atuaram de imediato realizando reinícios controlados nos serviços, o que restabeleceu o fluxo momentaneamente.

No entanto, à medida que o volume de usuários na plataforma crescia conforme o horário comercial avançava, a instabilidade retornou. A investigação técnica aprofundada identificou que o problema não era falta de processamento (CPU) ou memória, mas sim a saturação do limite de conexões simultâneas. O cluster de cache havia atingido o teto físico de aplicações conectadas ao mesmo tempo, impedindo que novas mensagens fossem processadas.

Solução Aplicada: Uma vez isolada a causa raiz, a equipe de infraestrutura executou uma expansão horizontal da arquitetura (Sharding). Esta ação consistiu na adição de novos nós de processamento ao cluster, dobrando efetivamente a capacidade de conexões da plataforma. Após a expansão, todos os indicadores de performance se normalizaram e o incidente foi encerrado com a garantia de que o ambiente agora suporta uma volumetria superior à anterior.

Evento 2: Gargalo de Transmissão e Otimização de Buffers

Descrição: Ocorreu um aumento súbito na utilização de memória do cluster de cache de controle de eventos de protocolos, levando a erros pontuais de escrita pela aplicação. Diferente do primeiro evento, a quantidade de dados armazenados não mudou, mas sim a forma como eles eram transmitidos.

Análise Técnica: A causa raiz foi identificada como um congestionamento na saída de rede. Um volume elevado de requisições simultâneas por dados de configuração (pacotes de dados maiores que a média) excedeu a capacidade de vazão da rede. O servidor, não conseguindo enviar os dados na velocidade exigida, começou a reter essas informações na memória RAM (em filas de espera chamadas buffers), levando ao consumo total dos recursos e acionando mecanismos de proteção que causaram desconexões pontuais.

Ações Corretivas e Preventivas: Para solucionar este cenário e blindar a plataforma contra recorrências, implementamos:

Proteção de Recursos: Configuramos limites inteligentes para os buffers de saída. Agora, o sistema possui regras estritas para impedir que conexões lentas ou excessivamente pesadas comprometam a memória global do servidor, garantindo a estabilidade para a maioria dos usuários mesmo em situações de estresse de rede.

Conclusão e Compromisso

As ações tomadas resultaram em uma infraestrutura significativamente mais robusta. Hoje, operamos com maior capacidade de conexões e com mecanismos de segurança que protegem a plataforma contra picos de tráfego de dados.

Continuamos monitorando o ambiente em tempo real e trabalhando em melhorias contínuas, para garantir a máxima disponibilidade e a confiança que nossos clientes depositam em nossos serviços.

Atenciosamente,

Equipe de Tecnologia e Infraestrutura

Posted Feb 02, 2026 - 17:00 GMT-03:00

Resolved

Notamos uma melhora significativa nos sintomas da plataforma. Seguiremos acompanhando e caso notem algum sintoma atípico, não hesite em acionar nosso canal de suporte.

Posted Jan 30, 2026 - 16:56 GMT-03:00

Monitoring

Realizamos uma atualização e estamos acompanhando o sintoma para garantir assertividade na correção.

Posted Jan 30, 2026 - 16:05 GMT-03:00

Identified

Identificamos uma oscilação em nossos serviços e estamos trabalhando na correção. Você pode experienciar lentidão, ou sintomas atípicos. Assim que possível retornamos com uma atualização.

Posted Jan 30, 2026 - 15:59 GMT-03:00

This incident affected: Plataforma Omnichannel (Chat NeoLive, Gerenciador de E-mail, Telefonia, WhatsApp, Registro Manual, Mídias Sociais, Vídeo Chat, Workflow, ChatBot).