O foco do hardware AI atual está equivocado, diz o pioneiro da AI
“É realmente difícil ter sucesso com hardware exótico”, disse o cientista chefe de IA do Facebook, Yann Le Cun, ao público em seu discurso principal no NeurIPS. Dirigindo-se ao encontro global de especialistas em IA em Vancouver, Canadá, em dezembro, Le Cun pesquisou a história dos chips de computação especializados para processamento de cargas de trabalho de rede neural, ofereceu um vislumbre do que o Facebook está trabalhando e fez algumas previsões para o futuro da rede neural. hardware de aprendizagem.
História antiga
Le Cun é um renomado visionário no campo da IA, tendo estado na vanguarda da pesquisa de redes neurais nas décadas de 1980 e 1990. Como pesquisador do Bell Labs no final dos anos 1980, ele trabalhou com os primeiros tipos de processadores de rede neural dedicados, que compreendiam conjuntos de resistores e eram usados para realizar a multiplicação de matrizes. À medida que as redes neurais caíram em desuso no final dos anos 1990 e no início dos anos 2000, Le Cun foi um dos poucos cientistas que continuaram a trabalhar no campo. Em sua palestra, ele compartilhou algumas das coisas que aprendeu sobre hardware para aprendizado profundo durante esse tempo.
Cientista-chefe de IA do Facebook, Yann Le Cun
Primeiro, as ferramentas são realmente importantes. O que matou as redes neurais (temporariamente) nos anos 90 foi que apenas algumas pessoas - incluindo Le Cun - tinham ferramentas para treiná-las. Le Cun e seus colegas passaram muito tempo construindo o que agora seria chamado de framework de aprendizado profundo:um software flexível que interpretava linguagens front-end, permitindo que os pesquisadores treinassem e experimentassem redes neurais. O trabalho dos pesquisadores desenvolveu o conceito de que os sistemas de aprendizagem profunda podem ser montados a partir de módulos diferenciáveis e, em seguida, diferenciados automaticamente. Embora fosse uma novidade na época, essa é uma prática comum agora.
As ferramentas certas deram à equipe do Le Cun seu "superpoder" e também foram um fator importante na produção de resultados reproduzíveis, disse ele. “Bons resultados não são suficientes ... mesmo que você obtenha bons resultados, as pessoas continuarão céticas”, disse ele. “Tornar esses resultados reproduzíveis é quase tão importante quanto realmente produzir os resultados em primeiro lugar.”
Junto com as ferramentas certas, o desempenho do hardware é crucial para a comunidade de pesquisa, pois as limitações do hardware podem influenciar direções inteiras da pesquisa, disse Le Cun.
“[O que] a comunidade de hardware constrói para pesquisa ou treinamento realmente influencia nas ideias que as pessoas pensam”, disse ele. “Idéias inteiras podem ser abandonadas apenas porque o hardware não é poderoso o suficiente, embora fossem boas idéias.”
A resposta pode não estar nas novas e inovadoras formas de computação, disse ele, observando que muitas tecnologias de fabricação exóticas não conseguiram decolar quando não se encaixavam no ambiente de computação existente.
Uma das frustrações de Le Cun com as soluções de hardware de hoje para aceleração de IA é que a maioria é construída para multiplicação de matrizes, não convolução, que é a principal operação matemática usada na maioria das redes neurais de processamento de imagem e reconhecimento de voz hoje. “[A abordagem prevalecente] se tornará cada vez mais errada, no sentido de que teremos requisitos cada vez maiores de energia”, disse ele. “Se construirmos uma peça genérica de hardware onde 95% dos ciclos são gastos em convoluções, não estaremos fazendo um bom trabalho.”
Aplicativo assassino
O futuro, como Le Cun o descreveu, verá redes neurais convolucionais (CNNs) usadas em tudo, desde brinquedos a aspiradores de pó e equipamentos médicos. Mas o aplicativo matador - aquele que provará o valor da IA para dispositivos de consumo - é o fone de ouvido de realidade aumentada.
O Facebook está atualmente trabalhando em hardware para óculos AR. É um grande desafio de hardware devido à quantidade de processamento necessária em baixa latência, alimentado apenas por baterias. “Quando você se move, os objetos sobrepostos no mundo devem se mover com o mundo, não com você, e isso requer um pouco de computação”, disse Le Cun.
O Facebook prevê óculos AR que são operados por voz e interagem por meio de gestos por meio de rastreamento manual em tempo real. Embora esses recursos sejam possíveis hoje, eles estão além do que podemos fazer em termos de consumo de energia, desempenho e formato. Le Cun observou alguns “truques” que podem ajudar.
Por exemplo, ao executar a mesma rede neural em cada quadro de um vídeo - talvez para detectar objetos - não importa se o resultado de um quadro está errado, porque podemos olhar os quadros antes e depois dele e verificar a consistência .
“Então, você pode imaginar o uso de hardware de consumo extremamente baixo que não é perfeito; em outras palavras, você pode [tolerar] mudanças de bits de vez em quando ”, disse Le Cun. “É fácil fazer isso reduzindo a tensão da fonte de alimentação.”
Desenvolvimentos de rede neural
A rápida evolução das redes neurais é um grande desafio para o projeto de hardware. Por exemplo, redes dinâmicas - aquelas com memória que podem ser treinadas para aprender padrões sequenciais ou variáveis no tempo - estão ganhando popularidade, especialmente para processamento de linguagem natural (PNL). No entanto, eles se comportam de maneira diferente de muitas suposições feitas pelo hardware atual. O gráfico de computação não pode ser otimizado em tempo de compilação; isso tem que ser feito em tempo de execução. Também é bastante difícil implementar lotes, uma técnica popular por meio da qual mais de uma amostra é processada de uma vez para melhorar o desempenho.
“Todo o hardware mais comum que temos à nossa disposição pressupõe que você pode lote, porque se você tiver um lote com mais de uma amostra, então você pode transformar cada operação em uma multiplicação de matriz, incluindo convoluções e redes totalmente conectadas”, disse Le Cun. “[É] um desafio para a comunidade de hardware criar arquiteturas que não percam desempenho usando tamanho de lote =1. Isso se aplica ao treinamento, é claro; o tamanho ideal de lote para treinamento é 1. Usamos mais porque nosso hardware nos força a fazê-lo. ”
Aprendizagem autossupervisionada
Outro desafio para o hardware é que os paradigmas de aprendizagem que usamos atualmente vão mudar, e isso vai acontecer em breve, de acordo com Le Cun.
“Há muito trabalho [sendo feito] em tentar fazer com que as máquinas aprendam mais como humanos e animais, e humanos e animais não aprendem por aprendizado supervisionado ou mesmo por aprendizado de reforço”, disse ele. “Eles aprendem por algo que chamo de aprendizagem autossupervisionada, que é principalmente por observação.”
Le Cun descreveu uma abordagem comum para a aprendizagem autossupervisionada em que uma parte da amostra é mascarada e o sistema é treinado para prever o conteúdo da peça mascarada com base na parte da amostra que está disponível. Isso é comumente usado com imagens, em que parte da imagem é removida, e texto, com uma ou mais palavras em branco. O trabalho até agora mostrou que é particularmente eficaz para PNL; o tipo de rede utilizada, transformadores, tem uma fase de treinamento que utiliza aprendizagem autossupervisionada.
O problema da perspectiva do hardware é que as redes de transformadores para PNL podem ser enormes:as maiores hoje têm 5 bilhões de parâmetros e estão crescendo rapidamente, disse Le Cun. As redes são tão grandes que não cabem nas memórias da GPU e precisam ser quebradas em pedaços.
“A aprendizagem autossustentada é o futuro - não há dúvida [sobre isso]”, disse ele. “Mas este é um desafio para a comunidade de hardware porque os requisitos de memória são absolutamente gigantescos. Como esses sistemas são treinados com dados não rotulados, que são abundantes, podemos treinar redes muito grandes em termos de dados. Os requisitos de hardware para o sistema final serão muito, muito maiores do que são atualmente. A corrida pelo hardware não vai parar tão cedo. ”
Tendências de hardware
Novas ideias de hardware que usam técnicas como computação analógica, spintrônica e sistemas ópticos estão no radar de Le Cun. Ele citou as dificuldades de comunicação - problemas de conversão de sinais entre o novo hardware e o resto da infraestrutura de computação necessária - como uma grande desvantagem. As implementações analógicas, disse ele, dependem de fazer ativações extremamente esparsas para obter vantagens no consumo de energia e questionou se isso sempre será possível.
Le Cun se descreveu como “cético” em relação a novas abordagens futurísticas, como redes neurais de spiking e computação neuromórfica em geral. É necessário provar que os algoritmos funcionam antes de construir chips para eles, disse ele.
“Conduzir o projeto de tais sistemas por meio de hardware, esperando que alguém venha com um algoritmo que use esse hardware, provavelmente não é uma boa ideia”, disse Le Cun.
Uma linha do tempo de processamento de rede neural
Final da década de 1980 :Matrizes de resistores são usadas para fazer a multiplicação de matrizes. No final da década de 1980, os arrays ganharam amplificadores e conversores em torno deles, mas ainda são bastante primitivos para os padrões de hoje. A limitação é a rapidez com que os dados podem ser inseridos no chip.
1991 :O primeiro chip projetado para redes neurais convolucionais (CNNs) é construído. O chip é capaz de 320 giga-operações por segundo (GOPS) em dados binários, com registradores de deslocamento digital que minimizam a quantidade de tráfego externo necessária para realizar uma convolução, acelerando a operação. O chip não vê uso além da academia.
1992 :ANNA, um chip ALU de rede neural analógica, é lançado. Projetado para CNNs com pesos de 6 bits e ativações de 3 bits, ANNA contém 180.000 transistores em CMOS de 0,9 μm. É usado para reconhecimento óptico de caracteres de texto manuscrito.
1996 :DIANA, uma versão digital de ANNA, é lançada. Mas com as redes neurais caindo em desuso em meados da década de 1990, DIANA é eventualmente reaproveitada para processamento de sinal em torres de telefonia celular.
2009–2010 :Pesquisadores demonstram um acelerador de rede neural de hardware em um FPGA (o Xilinx Virtex 6). Ele roda um demo para segmentação semântica para direção automatizada e é capaz de 150 GOPS por volta de 0,5 W. A equipe, da Purdue University, tenta fazer um ASIC baseado neste trabalho, mas o projeto não tem sucesso. (Fonte:Yann Le Cun / Facebook)
Integrado