Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Industrial Internet of Things >> Integrado

O chip Edge AI abandona a matriz multiplicar-acumular para alcançar 55 TOPS / W


Uma startup do Vale do Silício afirma que reinventou a matemática das redes neurais e produziu um chip de AI de borda complementar, já em amostragem, que não usa a grande variedade usual de unidades de multiplicação-acumulação. O chip pode rodar o equivalente a 4 TOPS, com consumo de energia impressionante de 55 TOPS / W e, de acordo com a empresa, atinge inferência de classe de data center em menos de 20mW (YOLOv3 a 30fps).

A Perceive, de San Jose, tem estado em modo super-furtivo até agora - como um spin-out do Xperi, foi inteiramente financiado por sua controladora desde que foi oficialmente formado há dois anos. A equipe é de 41 pessoas, com um número semelhante dentro do Xperi trabalhando em aplicativos para o chip. O CEO fundador Steve Teig também é CTO da Xperi; ele foi fundador e CTO da Tabula, a startup de lógica programável 3D que fechou suas portas há cinco anos, e antes disso, CTO da Cadence.

Teig explicou que a ideia inicial era combinar o conhecimento clássico do Xperi em processamento de imagem e áudio com aprendizado de máquina. O Xperi possui marcas como DTS, IMAX Enhanced e HD Radio - seu portfólio de tecnologia inclui software de processamento de imagem para recursos como foto olhos vermelhos e estabilização de imagem, que são amplamente usados ​​em câmeras digitais, além de software de processamento de áudio para reprodutores de disco Blu-Ray.

Steve Teig (Imagem:Perceber)
“Começamos com uma folha de papel em branco e usamos a teoria da informação para perguntar:quais cálculos as redes neurais estão realmente fazendo? E há uma maneira diferente de abordar esse cálculo que poderia mudar o que é possível [na borda]? ” Disse Teig. “Depois de alguns anos fazendo este trabalho, descobrimos que era, e então decidimos ... deveríamos fazer um chip que incorporasse essas ideias.”

A ideia que Teig apresentou à placa do Xperi foi criar uma empresa para fazer um chip que pudesse fazer inferências significativas em dispositivos de ponta com um orçamento de energia de 20mW. O resultado, um chip de 7x7mm chamado Ergo, pode rodar 4 TOPS sem RAM externa (na verdade, está rodando o equivalente ao que uma GPU avaliada em 4 TOPS pode alcançar, Teig explicou). Ergo suporta muitos estilos de redes neurais, incluindo redes convolucionais (CNNs) e redes recorrentes (RNNs), em contraste com muitas soluções no mercado que são feitas sob medida para CNNs. Ergo pode até mesmo executar várias redes heterogêneas simultaneamente.

“A única coisa que limita quantas redes podemos executar é a memória total necessária para a combinação”, disse Teig, acrescentando que a Perceive demonstrou executar YOLOv3 ou M2Det simultaneamente - com 60 ou 70 milhões de parâmetros - mais ResNet 28 com vários milhões parâmetros, além de um LSTM ou RNN para fazer fala e processamento de áudio. Em um aplicativo, isso pode corresponder à inferência de imagem e áudio ao mesmo tempo.

A Perceive também afirma que seu chip Ergo é extraordinariamente eficiente em termos de energia, atingindo 55 TOPS / W. Este número é uma ordem de magnitude acima do que alguns concorrentes afirmam. Os números da Perceive mostram que ele está executando YOLOv3, uma grande rede com 64 milhões de parâmetros, a 30 quadros por segundo, consumindo apenas 20mW.


A Perceive afirma que a eficiência do seu chip Ergo é de até 55 TOPS / W, executando YOLOv3 a 30fps com apenas 20mW (Imagem:Perceive)

Essa eficiência de energia se deve a algumas técnicas agressivas de power gating e clock gating, que exploram a natureza determinística do processamento da rede neural - ao contrário de outros tipos de código, não há ramificações, portanto, os tempos são conhecidos no momento da compilação. Isso permite que o Perceive seja preciso sobre o que precisa ser ligado e quando.

“Em uma configuração alimentada por bateria, [o chip] pode estar literalmente desligado - zero miliwatts - e ter algum tipo de sensor de movimento de microwatt ou microfone analógico para detectar algo que pode ser de interesse”, disse Teig. “Podemos acordar, carregar uma rede neural gigante de classe de data center e executá-la em cerca de 50 milissegundos, incluindo a descriptografia. Portanto, deixamos apenas cerca de dois quadros de vídeo no chão. ”

Mas o design cuidadoso do hardware é apenas parte da imagem.

Teoria da informação

“Criamos uma maneira diferente de representar o próprio cálculo subjacente e a aritmética que o acompanha”, disse Teig. “Estamos representando a própria rede de uma nova maneira, e é daí que vem nossa vantagem.”

O Perceive começou com a teoria da informação - um ramo da ciência que inclui maneiras matemáticas de distinguir o sinal do ruído - e usou seus conceitos para verificar quanta computação é necessária para extrair o sinal do ruído. Teig usa uma rede de detecção de objetos como exemplo.

“Você entrega à rede milhões de pixels e tudo o que quer saber é se há um cachorro nesta foto ou não?” ele disse. “Todo o resto na imagem é ruído, exceto dog-ness [o sinal]. A teoria da informação torna-o quantificável - quanto você precisa saber [para saber se há um cachorro na foto]? Você pode realmente torná-lo preciso, matematicamente. ”

Como Teig descreve, as redes neurais convencionais são capazes de generalizar com base na visualização de muitas fotos de cães porque encontraram pelo menos parte do sinal no ruído, mas isso foi feito de maneira empírica, e não com uma abordagem matematicamente rigorosa. Isso significa que o ruído é transportado com o sinal, tornando as redes neurais convencionais muito grandes e suscetíveis a exemplos adversários e outros truques.

“Quanto mais você puder ser matemático para descobrir quais partes precisam ser mantidas e quais partes são apenas ruído, melhor será o trabalho de generalização e menos sobrecarga terá de carregar com você”, disse Teig. “Eu diria que mesmo as redes neurais atuais estão extraindo sinal do ruído, mas não o fazem de maneira tão rigorosa e, como resultado, carregam consigo um peso extra”.

Este ponto de vista teórico da informação é a base para a estratégia de aprendizado de máquina da Perceive, que representa as redes neurais de uma nova maneira.

“Na verdade, este é um casamento entre uma perspectiva teórica da informação sobre como fazer o aprendizado de máquina e um chip que incorpora essas ideias”, disse Teig.

Arquitetura do Chip

Com o histórico de Teig como CTO da Tabula, você pode esperar hardware baseado em lógica programável, mas esse não é o caso aqui.

“Fui fortemente influenciado por pensar sobre lógica programável por uma década e como construir arquiteturas de interconexão ricas para permitir computação de alto desempenho e muito paralela, porque muito do que acontece em um FPGA também é maciçamente paralelo e muito intensivo em sua interação entre computação e memória ”, disse Teig. “Esse trabalho definitivamente influenciou meu trabalho na Perceive, mas o que temos não é lógica programável per se . Foi influenciado por essa maneira de pensar, mas a arquitetura em si gira em torno de redes neurais. ”

A malha de rede neural da Perceive é escalável, com o chip inicial Ergo tendo quatro clusters de computação, cada um com sua própria memória. Embora os detalhes exatos ainda estejam em segredo, Teig disse que esses clusters são significativamente diferentes de qualquer coisa encontrada em outros aceleradores de IA, que normalmente usam matrizes de unidades de multiplicação-acumulação (MACs) para calcular produtos escalares de vetores e matrizes.


A tecnologia da Perceive é baseada na reinvenção da matemática das redes neurais usando técnicas da teoria da informação (Imagem:Perceive)

“Não estamos fazendo isso”, disse Teig. “Não temos uma variedade de MACs. Como resultado ... somos 20 a 100 vezes mais eficientes em termos de energia do que qualquer outra coisa no mercado, a razão para isso é que todo mundo está fazendo a mesma coisa e nós não. Nossa representação das redes é bastante nova e é isso que nos permitiu alcançar uma eficiência tão grande. Isso, mais a tecnologia de aprendizado de máquina que é capaz de encontrar essa representação das redes e treinar as redes de uma forma que as torne compatíveis com o que o chip deseja ver. ”

Imagem e Áudio

Ergo pode suportar duas câmeras e inclui uma unidade de processamento de imagem que funciona como um pré-processador, lidando com coisas como dewarping de fotos com lentes olho de peixe, correção de gama, equilíbrio de branco e corte.

“Não é nada sofisticado, mas o pré-processamento, que obviamente é útil para fazer em hardware, fazemos no hardware”, disse Teig. “E também temos o equivalente de áudio - podemos pegar vários microfones estéreo e fazer a formação de feixe, por exemplo.”

Há também um microprocessador Synopsis ARC com um bloco DSP que também pode ser usado para pré-processamento, além de um bloco de segurança, também da Synopsis.

“Uma das coisas que fizemos foi criptografar absolutamente tudo para manter um nível de segurança em uma configuração de IoT. Nós criptografamos as redes, criptografamos o código que roda no microprocessador, criptografamos as interfaces, criptografamos tudo ”, disse Teig.

O chip possui I / Os apropriados para sensores externos de imagem e áudio e suporta uma memória Flash externa e / ou microprocessador que permite atualizações over-the-air. Isso pode ser usado para atualizar as redes neurais carregadas no chip ou carregar redes diferentes conforme necessário.

Ergo está experimentando agora junto com um quadro de referência que o acompanha. A produção em massa é esperada para o segundo trimestre de 2020.





Integrado

  1. Projetando com Bluetooth Mesh:Chip ou módulo?
  2. A arquitetura do chip AI visa o processamento do gráfico
  3. Módulo Tiny Bluetooth 5.0 integra antena de chip
  4. Módulo de IA pequeno construído no Google Edge TPU
  5. Os pesquisadores criam uma pequena etiqueta de identificação de autenticação
  6. Processador de radar de imagem automotiva de 30 fps estreia
  7. Chip de radar de baixa potência usa redes neurais com pico
  8. A placa do sensor inteligente acelera o desenvolvimento de IA de borda
  9. Câmera inteligente oferece visão de máquina de ponta turnkey AI
  10. Relatório:Escassez de chips e borda / IoT irão impulsionar a mudança de TI em 2022