Uma semana de interrupção da rede leva à migração da nuvem no Amherst College
Não são apenas as redes corporativas que estão sentindo o impacto da transformação digital. De agências governamentais ao ensino superior, a migração da nuvem e a adoção de SaaS estão mudando a rede de cima para baixo e, como resultado, colocando uma pressão sem precedentes nos departamentos de TI.
Um incidente recente no Amherst College em Massachusetts ilustrou perfeitamente o que pode acontecer quando a TI fica soterrada por uma avalanche de problemas de rede, à medida que as faculdades em todo o país tornam-se cada vez mais dependentes de tecnologias conectadas. Uma sequência de interrupções de rede de uma semana ocorreu no campus no início de 11 de fevereiro que afetou tudo, desde o WiFi em todo o campus até o acesso ao e-mail, deixando a escola em uma desordem de uma semana.
Enquanto a faculdade ainda estava diagnosticando o que exatamente aconteceu uma semana depois, muitos dos problemas foram atribuídos a falhas de equipamento, incluindo problemas de cabeamento e incidentes de flap MAC que saturaram a rede com ondas ilimitadas de tráfego de mensagens, resultando em uma sequência de travamentos. Junto com um problema de configuração em um dos servidores centrais da escola, havia um terceiro problema ainda não identificado que a TI estava trabalhando para descobrir, de acordo com o jornal da escola, The Amherst Student.
Resumindo, depois de quase uma semana de queda de conectividade quase completa, a TI do campus ainda estava lutando para localizar o que estava afetando sua rede, embora pareça que o Amherst College possui e controla a maior parte de sua arquitetura de rede. Ao contrário das redes que foram movidas pelo menos em parte para a nuvem, a Amherst College IT controlava a maior parte de seu hardware de rede, ao contrário de organizações que aproveitam o acesso direto à Internet (DIA) ou SD-WAN (que é reconhecidamente mais comum em ambientes empresariais do que educacionais redes, pelo menos por enquanto).
O diretor de informações do Amherst College, David Hamilton, disse ao jornal estudantil que nunca teve conhecimento de incidentes semelhantes em seus 12 anos na escola e que foi "uma confluência de acidentes que os causou".
Existem algumas conclusões iniciais aqui.
Em primeiro lugar, o impacto da rede inativa ao longo da semana foi extenso; não apenas o e-mail e o WiFi caíram, mas os sistemas de digitalização de cartão que mantêm os dormitórios e corredores do campus seguros foram essencialmente "desbloqueados". Os alunos foram forçados a usar seus próprios dados de celular para acessar materiais online para as aulas, os sistemas de folha de pagamento ficaram inacessíveis e até mesmo os cartões de lavanderia do campus ficaram sem uso. Não apenas os administradores do campus foram incapazes de dar uma resposta clara sobre o que causou a interrupção até o final da semana, mas também como eles reembolsariam os alunos e professores pela inconveniência era outro fator que eles ainda precisavam considerar, de acordo com The Amherst Student .
Um alerta de 15 de fevereiro para os alunos em todo o campus dizia:
“A TI está trabalhando para restaurar os serviços, movendo-os para a nuvem. Isso está demorando mais do que o esperado devido à instabilidade da rede existente. ”
Então, o que a TI do campus poderia ter feito para evitar isso? Para começar, se a TI do campus realmente esperava que as condições não mudassem de forma significativa na rede ao longo da última década - mais como suas declarações indicaram, então uma grande interrupção como essa era inevitável.
Uma pergunta que imediatamente vem à mente é se o campus estava conduzindo algum monitoramento de rede antes do incidente.
Para que “uma confluência de acidentes” aconteça de uma só vez, seria necessário alguns pontos cegos de rede importantes por parte da TI antes do incidente. Mesmo para redes que não dependem de arquiteturas de nuvem significativas, deve-se usar ferramentas de diagnóstico e monitoramento de desempenho de rede para alertá-los sobre armadilhas em potencial de forma ativa, não apenas depender de hardware de rede para manter o desempenho devido a um bom histórico.
Essas mesmas soluções de monitoramento devem ter sido implantadas durante a interrupção para ajudar na identificação do problema. A abordagem de desligar servidores de rede e realizar testes de hardware custava caro para alunos e funcionários, mas não produzia respostas claras. Se a equipe tivesse se antecipado ao monitoramento do desempenho da rede, a TI provavelmente teria acelerado o tempo médio de resolução (MTTR), se não tivesse chegado à raiz do problema com mais rapidez.
De acordo com a resposta de Hamilton à interrupção da rede, a Amherst irá aposentar sua infraestrutura de rede centrada em hardware e migrará seus sistemas de negócios centrais para a nuvem na esperança de fornecer conectividade mais segura e confiável para funcionários e alunos.
Enquanto as coisas estão se acomodando, este foi um incidente muito demorado no final do dia que provavelmente poderia ter sido evitado - se não melhorado mais rápido - com tecnologia de rede mais moderna, bem como monitoramento de desempenho de rede confiável.
Computação em Nuvem
- SaaS, IaaS ou PaaS:qual opção de migração em nuvem é a certa para você?
- Não fique cego pela luz da migração para a nuvem
- Vá para a nuvem ou vá para casa
- 5 métricas de rede para um mundo em nuvem
- Benefícios e estratégias de migração para a nuvem para empresas em 2020
- Por que mudar para a nuvem? 10 benefícios da computação em nuvem
- Introdução à arquitetura de rede na nuvem AWS
- Como planejar uma migração de nuvem bem-sucedida
- Um guia para uma migração de nuvem bem-sucedida
- A monetização de dados da rede móvel aumenta a eficiência