Quantas camadas e nós ocultos uma rede neural precisa?

Este artigo fornece diretrizes para configurar a parte oculta de um Perceptron multicamadas.

Até agora, nesta série sobre redes neurais, discutimos NNs de Perceptron, NNs multicamadas e como desenvolver tais NNs usando Python. Antes de prosseguirmos para a discussão de quantas camadas e nós ocultos você pode escolher para empregar, considere acompanhar a série abaixo.

Como realizar a classificação usando uma rede neural:o que é o Perceptron?
Como usar um exemplo de rede neural simples Perceptron para classificar dados
Como treinar uma rede neural Perceptron básica
Compreendendo o treinamento de rede neural simples
Uma introdução à teoria de treinamento para redes neurais
Compreendendo a taxa de aprendizagem em redes neurais
Aprendizado de máquina avançado com o Multilayer Perceptron
A função de ativação sigmóide:ativação em redes neurais multicamadas Perceptron
Como treinar uma rede neural multicamadas Perceptron
Noções básicas sobre fórmulas de treinamento e retropropagação para percepções multicamadas
Arquitetura de rede neural para uma implementação Python
Como criar uma rede neural multicamadas Perceptron em Python
Processamento de sinais usando redes neurais:validação no projeto de redes neurais
Conjuntos de dados de treinamento para redes neurais:como treinar e validar uma rede neural Python
Quantas camadas e nós ocultos uma rede neural precisa?

Recapitulação da camada oculta

Primeiro, vamos revisar alguns pontos importantes sobre nós ocultos em redes neurais.

Perceptrons consistindo apenas de nós de entrada e nós de saída (chamados de Perceptrons de camada única) não são muito úteis porque não podem aproximar os relacionamentos de entrada-saída complexos que caracterizam muitos tipos de fenômenos da vida real. Mais especificamente, os Perceptrons de camada única são restritos a separáveis linearmente problemas; como vimos na Parte 7, mesmo algo tão básico como a função Booleana XOR não é linearmente separável.
Adicionando uma camada oculta entre as camadas de entrada e saída transforma o Perceptron em um aproximador universal , o que significa essencialmente que ele é capaz de capturar e reproduzir relações extremamente complexas de entrada e saída.
A presença de uma camada oculta torna o treinamento um pouco mais complicado porque o método input-to-oculto pesos têm um efeito indireto no erro final (este é o termo que uso para denotar a diferença entre o valor de saída da rede e o valor alvo fornecidos pelos dados de treinamento).
A técnica que usamos para treinar um Perceptron multicamadas é chamada de retropropagação :propagamos o erro final de volta para o lado de entrada da rede de uma forma que nos permite modificar efetivamente os pesos que não estão conectados diretamente ao nó de saída. O procedimento de retropropagação é extensível, ou seja, o mesmo procedimento nos permite treinar pesos associados a um número arbitrário de camadas ocultas.

O diagrama a seguir resume a estrutura de um Perceptron multicamadas básico.

Quantas camadas ocultas?

Como você pode esperar, não há uma resposta simples para essa pergunta. No entanto, o mais importante a entender é que um Perceptron com uma camada oculta é um sistema computacional extremamente poderoso. Se você não está obtendo resultados adequados com uma camada oculta, tente outras melhorias primeiro - talvez você precise otimizar sua taxa de aprendizado ou aumentar o número de períodos de treinamento ou aprimorar seu conjunto de dados de treinamento. Adicionar uma segunda camada oculta aumenta a complexidade do código e o tempo de processamento.

Outra coisa a se ter em mente é que uma rede neural superpotente não é apenas um desperdício de esforço de codificação e recursos do processador - ela pode realmente causar danos positivos ao tornar a rede mais suscetível a overtraining.

Falamos sobre overtraining na Parte 4, que incluiu o diagrama a seguir como uma forma de visualizar a operação de uma rede neural cuja solução não é suficientemente generalizada.

Um Perceptron com superpotência pode processar dados de treinamento de uma forma que é vagamente análoga a como as pessoas às vezes “pensam demais” em uma situação.

Quando nos concentramos muito nos detalhes e aplicamos um esforço intelectual excessivo a um problema que na realidade é bastante simples, perdemos o “quadro geral” e terminamos com uma solução que se revelará abaixo do ideal. Da mesma forma, um Perceptron com poder de computação excessivo e dados de treinamento insuficientes pode se estabelecer em uma solução excessivamente específica em vez de encontrar uma solução generalizada (como mostrado na próxima figura) que classificará com mais eficácia as novas amostras de entrada.

Então, quando realmente precisamos de várias camadas ocultas? Eu não posso te dar nenhuma orientação por experiência pessoal. O melhor que posso fazer é transmitir a experiência do Dr. Jeff Heaton (consulte a página 158 do texto vinculado), que afirma que uma camada oculta permite que uma rede neural se aproxime de qualquer função envolvendo “um mapeamento contínuo de um espaço finito para outro . ”

Com duas camadas ocultas, a rede é capaz de "representar um limite de decisão arbitrário com precisão arbitrária".

Quantos nós ocultos?

Encontrar a dimensionalidade ideal para uma camada oculta exigirá tentativa e erro. Conforme discutido acima, ter muitos nós é indesejável, mas você deve ter nós suficientes para tornar a rede capaz de capturar as complexidades do relacionamento de entrada-saída.

Tentativa e erro é muito bom, mas você precisará de algum tipo de ponto de partida razoável. No mesmo livro vinculado acima (na página 159), o Dr. Heaton menciona três regras básicas para escolher a dimensionalidade de uma camada oculta. Vou desenvolver isso oferecendo recomendações com base em minha vaga intuição de processamento de sinal.

Se a rede tem apenas um nó de saída e você acredita que a relação entrada-saída necessária é bastante direta, comece com uma dimensionalidade da camada oculta que é igual a dois terços da dimensionalidade de entrada.
Se você tiver vários nós de saída ou acreditar que a relação entrada-saída necessária é complexa, torne a dimensionalidade da camada oculta igual à dimensionalidade de entrada mais a dimensionalidade de saída (mas mantenha-a menor que o dobro da dimensionalidade de entrada).
Se você acredita que a relação entrada-saída exigida é extremamente complexa, defina a dimensionalidade oculta para um a menos do que o dobro da dimensionalidade de entrada.

Conclusão

Espero que este artigo tenha ajudado você a entender o processo de configuração e refinamento da configuração da camada oculta de um Perceptron multicamadas.

No próximo artigo, exploraremos os efeitos da dimensionalidade da camada oculta usando minha implementação Python e alguns exemplos de problemas.

Como aumentar a precisão de uma rede neural de camada oculta Conjuntos de dados de treinamento para redes neurais:como treinar e validar uma rede neural Python

Robô industrial

Máquina cnc

Robô industrial

Equipamento industrial