Na data de ontem, 18/01/2021, ás 15:00 um de nossos servidores apresentou falha e parou de responder, fazendo com que a comunicação entre os cliente e nós fosse interrompida. Após nossos sistemas identificarem que a aplicação estava indisponível, nossos servicos de redundância tentaram colocar os serviços secundários no ar, porém sem sucesso. Com isso nossa equipe de infra teve que recriar essas imagens em outra infra. Por volta 17:15 nossos serviços estavam restabelecidos, e a plataforma estava operacional novamente. Alguns clientes sentiram demora no restabelecimento da funcionalidade de atendimento automático, atendendo manualmente por aproximadamente 25 minutos além do horário supracitado.
Como plano de ação estamos recriando a estrutura falhada em mais servidores, primeiro para ter mais opções de salves e outra para que possamos fazer uma manutenção preventiva no que apresentou falha. Em paralelo, as redundâncias e monitoracoes de todos os serviços estão sendo revalidados e serão testadas de maneira pro ativa durante as próximas 2 semanas para garantir um fail over automático em quaisquer próximo evento. Desta maneira antecipamos que não teremos mais indisponibilidade externa por estes fatores.