Ponto único de falha | Uma visão geral simples

No campo da Tecnologia da Informação, o projeto de sistemas envolve o processo de determinar a arquitetura, as interfaces, os módulos e os dados de um sistema para atender a certos requisitos. É um processo crucial para melhorar a eficiência de desenvolvimento de produtos / serviços e permitir uma ótima experiência do usuário.

Digamos que você tenha um aplicativo que atende milhões de usuários todos os dias. No lado do servidor, você precisa de uma engenharia excelente para lidar com um grande volume de solicitações. As solicitações do servidor nunca devem falhar, mesmo se houver um problema com o banco de dados ou uma falha de hardware.

No entanto, se o back-end ou front-end não for projetado corretamente, um simples erro pode desligar o aplicativo inteiro - tudo, desde o servidor até a rede de todo o computador. Uma das principais fontes de tais erros é o Ponto Único de Falha (SPOF).

Neste artigo de visão geral, explicamos por que SPOF é o pior problema para profissionais de TI, sua fonte comum e como mitigar essas falhas. Vamos começar com uma pergunta básica.

Qual é o único ponto de falha?

Definição: Um único ponto de falha é qualquer parte de um sistema que faz com que todo o sistema pare de funcionar se falhar. Em termos simples, se alguma coisa quebrar, tudo vai abaixo.

SPOFs surgem devido a projetos defeituosos e técnicas de implementação inadequadas. Eles são indesejáveis em qualquer sistema, seja um aplicativo de software, módulo de hardware, sistema de manufatura ou prática comercial.

Por exemplo, se você estiver executando um site que está hospedado em apenas um servidor em um determinado local, então esse servidor seria um único ponto de falha. Se o servidor falhar, os visitantes não conseguirão acessar o site. Esse único ponto pode interromper todas as atividades relacionadas ao seu site. Se esse risco existe em sua empresa, você precisa tomar medidas para mitigar esse risco.

Qual é a solução?

A maneira mais eficaz de reduzir o risco potencial de SPOFs é adicionar redundância. Isso envolve a instalação de componentes de hardware e aplicativos de software redundantes.

Por exemplo, pode-se usar Redundant Arrays of Independent Disks (RAID) para armazenar bancos de dados do Directory Server ou implantar várias instâncias duplicadas de Directory Servers em diferentes hosts.

A redundância pode ser adicionada em diferentes níveis. Vejamos o exemplo de um motorista de táxi independente. Em um nível baixo, ele pode ter ferramentas e peças de reposição para consertar o veículo, caso ele quebrar. No nível médio, ele pode pedir emprestado o táxi de seu amigo para fazer o trabalho. No nível mais alto, ele pode ter outro carro e componentes suficientes para substituir completamente as peças defeituosas no caso de várias falhas.

Agora, vamos ver o exemplo simples de redundância em computação.

1.) Em uma configuração simples, pode haver vários pontos únicos possíveis de falha.

Figura 1

2.) Alguns pontos únicos de falha podem ser evitados adicionando componentes de hardware duplicados.

Figura 2

3). Zero SPOF pode ser alcançado construindo um sistema totalmente redundante, embora esta configuração seja muito mais cara do que a configuração simples mostrada na figura 1.

Figura 3 | Zero SPOF

No nível do sistema, um balanceador de carga pode ser implementado para garantir alta disponibilidade para um cluster de servidores. Nesse caso, cada servidor pode ter vários discos rígidos, fontes de alimentação e outros módulos. Um nível mais alto de redundância pode ser alcançado adicionando servidores extras que podem assumir uma carga de servidores ativos se eles falharem.

O próprio data center oferece suporte a muitas operações, como lógica de negócios. Portanto, é em si um SPOF potencial para o negócio, se seus recursos não puderem ser replicados em outro lugar.

No nível do site (mais alto), todo o data center pode ser replicado em diferentes configurações e acessado quando o servidor primário deixa de responder. Esse tipo de redundância geralmente é o foco de um programa de resiliência ou recuperação de desastres de TI.

Para não ter SPOF, as grandes redes - incluindo a Internet e a ARPANET - usam comutação de pacotes, uma técnica de roteamento e transferência de dados por uma rede digital em pacotes. Ele utiliza os vários caminhos entre dois hosts nas redes e usa de forma otimizada a capacidade do canal.

Leia:10 organizações que controlam a Internet

Quando há uma falha em qualquer nó entre os dois hosts, os dados são transferidos por meio de um nó alternativo. A comutação de pacotes também minimiza a latência de transmissão e aumenta a robustez da comunicação.

Existem três protocolos de rede que são amplamente usados para evitar o ponto único de falha:

Sistema intermediário para sistema intermediário move informações de forma eficiente dentro de uma rede de computadores, determinando a melhor rota para os dados.
Abrir o caminho mais curto primeiro distribui informações de roteamento entre roteadores pertencentes a um único sistema autônomo. Ele usa o primeiro algoritmo de caminho mais curto (algoritmo de Dijkstra) para transmitir dados.
Ponte do caminho mais curto simplifica o desenvolvimento e a configuração de uma rede enquanto permite o roteamento de caminhos múltiplos.

Avaliando SPOF

Os três lugares comuns que o SPOF tende a aparecer são hardware, software e serviços / provedores de terceiros. Os seres humanos também são um ponto único de falha na maioria das organizações, mas muitas vezes são esquecidos. As pessoas em uma empresa podem ser SPOFs por vários motivos, como erros, fraude, desonestidade, falta de conhecimento e experiência limitada.

Depois de detectar o SPOF, a próxima etapa é classificá-lo em termos de dificuldade de consertá-lo. Pode haver três categorias:

Fácil: Pode ser corrigido dentro de um tempo e custo razoáveis.
Moderado: Não pode ser corrigido diretamente; no entanto, uma solução alternativa confiável pode ser desenvolvida.
Difícil: A falha é complicada e muito cara de corrigir.

Além disso, os SPOFs podem ser classificados em termos de probabilidade de ocorrência (baixo, médio e alto risco) e seu impacto no negócio (baixo, médio e alto impacto).

Prevenção de ponto único de falhas

Uma vez que tantos processos de missão crítica dependem da conectividade de rede, as interrupções do data center não podem ser simplesmente toleradas. Ainda assim, mais de 30% de todos os data centers passam por uma paralisação anualmente. Cerca de 34% das empresas afirmam que uma hora de inatividade custa mais de US $ 1 milhão.

Independentemente das perdas que ocorreram devido ao tempo de inatividade do data center, a realidade é que até 80% das interrupções podem ser evitadas. Embora qualquer ferramenta na rede possa ser um risco de SPOF, a maioria das interrupções é causada por malware e outras ameaças cibernéticas.

Leia:13 tipos diferentes de vírus de computador

Ferramentas modernas de proteção contra ameaças, incluindo balanceadores de carga, sistemas de prevenção de intrusão, firewalls de aplicativos da web e soluções de proteção avançada contra ameaças, estão sempre em risco durante falhas de energia ou falha do controlador de interface de rede ou quando filtram o tráfego da Internet.

Essas ferramentas são vulneráveis a ameaças comuns, como ataques de força bruta, e ameaças complexas, como a implementação de entidades externas XML ou falsificação de solicitação entre sites. Como eles não podem proteger a rede o tempo todo, é necessário tomar medidas de segurança redundantes.

Existem vários métodos para implementar a arquitetura de firewall de aplicativo da web que minimiza a eficácia e a frequência de uma ampla gama de ataques. Firewalls de aplicativos da web de várias camadas, por exemplo, separam diferentes módulos de aplicativos com base em suas operações em várias camadas.

Como cada camada é executada em um sistema individual, não há SPOF. Da mesma forma, a implementação adequada de vários balanceadores de carga pode reduzir o ponto único de falha em uma rede.

Não coloque todos os ovos na mesma cesta

Embora muitas empresas forneçam sua própria versão de backups em nuvem, não é aconselhável confiar apenas em um backup para proteger os dados de sua empresa. Mesmo os serviços em nuvem de gigantes da tecnologia como Amazon, Microsoft e Google falham várias vezes ao ano.

Leia:25 maiores invenções em ciência da computação

Se você dirige uma empresa, precisa levar em consideração todos os cenários prováveis ao construir a redundância. Não presuma que alguém pode fornecer um tempo de atividade 100% e estar sempre pronto com o Plano B se as coisas derem errado.

Estudos aprofundados

SPOF dentro de sistemas de sistemas

Pesquisadores da Liverpool John Moores University, no Reino Unido, destacam os principais desafios enfrentados ao integrar sistemas individuais para formar sistemas de sistemas heterogêneos e complexos.

Muitas abordagens modernas tendem a se concentrar em uma pequena área vulnerável específica. Alguns deles são altamente teóricos ou não escalonáveis devido a um grande número de componentes colaborativos. O estudo descreve como um único ponto de falha pode impactar fortemente os sistemas de colaboração e causar perdas financeiras significativas às empresas.

Eliminando SPOF em redundância baseada em software

A redundância baseada em software é geralmente considerada uma forma eficaz e barata de aumentar a confiabilidade. A execução redundante em termos de redundância modular tripla (TMR) é bastante popular, mas deixa SPOFs desprotegidos.

Esta pesquisa apresenta uma abordagem holística, denominada Redundância Combinada, que protege os componentes críticos de segurança de um sistema contra esforços suaves, ao mesmo tempo que elimina a vulnerabilidade causada por SPOFs. Ele aproveita a execução redundante junto com o processamento codificado e pode ser facilmente integrado a projetos existentes.

Leia:9 tipos diferentes de teste de penetração

Minimizando SPOFs no roteamento de árvore

O Tree Routing (TR) utiliza links pai-filho para transmitir pacotes. Esses links requerem mais saltos quando os nós de origem e destino pertencem a ramos de árvore diferentes. Os nós mais próximos do coordenador podem transmitir mais pacotes, levando a um maior consumo de energia e mais congestionamento. Isso pode criar um problema de SPOF.

Uma equipe de pesquisadores da Universidade Nacional de Ciências Aplicadas de Kaohsiung, em Taiwan, desenvolveu um algoritmo de roteamento de árvore SPOF de alívio para transmitir pacotes pelo caminho mais curto e evitar congestionamento. O algoritmo diminui a contagem média de saltos, minimiza o atraso de ponta a ponta, aumenta o rendimento e prolonga a vida útil dos nós da árvore.

5 tipos diferentes de data center [com exemplos] 8 tipos diferentes de tecnologia em 2021 [com exemplos]

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial