Chip de inferência de hardware visa aplicações automotivas

A AImotive, sediada na Hungria, desenvolvedora de tecnologias de direção automatizada baseada em software e hardware, começou a enviar sua propriedade intelectual (IP) de mecanismo de inferência de hardware de rede neural (NN) aiWare3 para seus principais clientes.

Seu núcleo IP aiWare3P, anunciado no ano passado, oferece um acelerador NN de hardware para aplicações de visão automotiva de alta resolução e como um componente dentro do ISO26262 ASIL A, B e subsistemas certificados acima. O núcleo, que pode ser implantado em um sistema no chip (SoC), ou como um acelerador NN autônomo, é fornecido como RTL totalmente sintetizável; sua microarquitetura de baixo nível é projetada para usar muito menos CPU host ou recursos de memória compartilhada do que outros aceleradores NN de hardware.

Aceleradores NN dedicados, como o IP aiWare3P usado em várias partes da plataforma eletrônica do veículo (Fonte:AImotive)

Em declarações ao EE Times Europe sobre como a oferta da AIMotive é diferente de outras soluções, Tony-King Smith, o consultor executivo da empresa, disse que a maioria dos jogadores de chips falam em termos acadêmicos sobre aceleradores baseados em GPUs e SoCs, testados em um ambiente de laboratório, o que realmente não traduz bem para o mundo real. “A diferença crucial é que é necessário entender os princípios das redes neurais em vez do acelerador. Em nossa solução não há DSPs, nem NOCs (rede no chip). aiWare foi projetado apenas para inferência automotiva, portanto, somos capazes de fornecer baixa latência da entrada à saída. ” Ele acrescentou que as melhorias na saída RTL do novo núcleo significa que ele libera o subsistema da CPU principal, e o núcleo pode então ser conectado a qualquer acelerador SoC.

O núcleo IP aiWare3P incorpora recursos que resultam em melhor desempenho, menor consumo de energia, maior descarregamento da CPU do host e layout mais simples para designs de chips maiores. Cada núcleo oferece até 16 TMAC / s (> 32 TOPS) a 2 GHz, com implementações multi-core e multi-chip capazes de fornecer até 50+ TMAC / s (> 100 INT8 TOPS) - útil para câmeras múltiplas ou heterogêneos aplicações ricas em sensores. O núcleo é projetado para operação em temperatura estendida AEC-Q100 e inclui recursos para permitir que os usuários obtenham a certificação ASIL-B e superior.

A escalabilidade de desempenho do núcleo IP para mais de 50 TMAC / s (> 100 TOPS) por chip e a inferência sustentada de baixa latência é um resultado de sua microarquitetura de baixo nível. Ele usa um design patenteado para gerenciamento de fluxo de dados altamente determinístico, com arquitetura centrada em memória altamente paralela apresentando até 100x mais largura de banda de memória on-chip do que outros aceleradores NN de hardware, garantindo até 95% de eficiência sustentada para DNNs complexos usados com grandes entradas, como várias câmeras HD.

Compatível com NNEF Khronos, bem como entradas ONNX de padrão aberto, o SDK aiWare compila binários diretamente sem a necessidade de programação de baixo nível de DSPs ou MCUs. Inclui ferramentas automatizadas para quantização de FP32 a INT8 com pouca ou nenhuma perda de precisão, ao lado de um portfólio crescente de ferramentas sofisticadas de análise de desempenho de DNN. Os últimos são projetados para ajudar engenheiros de software e IA a migrar e transformar NNs treinados em um laboratório em soluções eficientes em tempo real executadas em plataformas de hardware automotivo de produção com aiWare.

Os blocos de construção de um acelerador de IA automotivo, incluindo o IP de hardware aiWare (Fonte:AImotive)

Marton Feher, vice-presidente sênior de engenharia de hardware da AImotive, disse:“Nosso lançamento aiWare3P pronto para produção reúne tudo o que sabemos sobre a aceleração de redes neurais para aplicativos de inferência de IA automotiva baseados em visão. Agora temos uma das soluções de aceleração NN mais eficientes e atraentes da indústria automotiva para produção de volume L2 / L2 + / L3 AI. ”

O IP de hardware aiWare3P está sendo implantado em uma variedade de soluções de produção L2 / L2 +, bem como sendo adotado para estudos de aplicações de sensores heterogêneos mais avançados. Os clientes incluem Nextchip para seu futuro processador Apache5 Imaging Edge, e ON Semiconductor para seu projeto colaborativo com a AImotive para demonstrar capacidades avançadas de fusão de sensores heterogêneos.

A AImotive disse que lançará uma atualização completa de seus resultados de benchmark públicos no primeiro trimestre de 2020 com base no núcleo IP aiWare3P. Isso é parte de seu compromisso com benchmarking aberto usando benchmarks bem controlados que refletem aplicações reais, como entradas de alta resolução para câmeras, em vez de benchmarks públicos irrealistas usando entradas 224 × 224.

Nenhuma intervenção da CPU do host necessária

Os novos recursos do IP de hardware aiWare3P incluem suporte para um portfólio muito maior de ativação integrada pré-otimizada e funções de pool, garantindo que 100% da maioria dos NNs sejam executados dentro do núcleo aiWare3P sem qualquer intervenção da CPU do host; compressão de dados em tempo real, reduzindo os requisitos de largura de banda de memória externa - especialmente para tamanhos de entrada maiores e redes mais profundas; e acoplamento cruzado avançado entre os motores de convolução C-LAM e os motores de função F-LAM, para aumentar a eficiência de execução sobreposta e intercalada.

A microarquitetura física baseada em blocos permite uma implementação física mais fácil de grandes núcleos aiWare, minimizando as restrições de tempo difíceis em qualquer nó de processo; e o gerenciamento de dados baseado em blocos lógicos permite escalabilidade de carga de trabalho eficiente até o máximo de 16 TMAC / s por núcleo, sem a necessidade de caches, NOCs ou outras abordagens baseadas em processador multi-core complexas que criam gargalos, reduzem determinismo e consomem mais energia e área de silício O aiWare3P RTL será enviado a todos os clientes a partir de janeiro de 2020, e um SDK atualizado inclui compilador aprimorado e novas ferramentas de análise de desempenho para estimativa offline e análise de hardware de destino em tempo real.

Chip AI lida com cargas de trabalho simultâneas O sensor indutivo configurável suporta motores elétricos automotivos e industriais de alta velocidade.

Integrado

Sensor

Computação em Nuvem

Tecnologia da Internet das Coisas