Processadores especializados aceleram cargas de trabalho de IA de endpoint

Embora a aceleração de aplicativos de IA e ML ainda seja um campo relativamente novo, há uma variedade de processadores surgindo para acelerar quase qualquer carga de trabalho de rede neural. Desde os gigantes do processador até algumas das mais novas startups do setor, todos oferecem algo diferente - seja visando diferentes mercados verticais, áreas de aplicação, orçamentos de energia ou faixas de preço. Aqui está um instantâneo do que está no mercado hoje.

Processadores de aplicativos

Intel Movidius Myriad X
Desenvolvido pela startup irlandesa Movidius que foi comprada pela Intel em 2016, o Myriad X é a unidade de processamento de visão de terceira geração da empresa e a primeira a apresentar um mecanismo de computação de rede neural dedicado, oferecendo operações de 1 tera por segundo (TOPS) de computação de rede neural profunda (DNN). O mecanismo de computação neural faz interface direta com uma malha de memória inteligente de alto rendimento para evitar qualquer gargalo de memória ao transferir dados. Ele suporta cálculos FP16 e INT8. O Myriad X também apresenta um cluster de 16 núcleos SHAVE proprietários e aceleradores de visão atualizados e expandidos.

O Myriad X está disponível no Neural Compute Stick 2 da Intel, efetivamente uma plataforma de avaliação na forma de um pen drive USB. Ele pode ser conectado a qualquer estação de trabalho para permitir que aplicativos de IA e de visão por computador sejam instalados e executados no hardware Movidius dedicado muito rapidamente.

NXP Semiconductors i.MX 8M Plus
O i.MX 8M Plus é um processador de aplicativo heterogêneo com acelerador de rede neural dedicado IP da VeriSilicon (Vivante VIP8000). Oferece 2,3 TOPS de aceleração para inferência em dispositivos endpoint na Internet das coisas de consumo e industrial (IIoT), o suficiente para identificação de múltiplos objetos, reconhecimento de voz de 40.000 palavras ou até imagens médicas (MobileNet v1 a 500 imagens por segundo).

Além do processador de rede neural, o i.MX 8M Plus também apresenta um subsistema Arm Cortex-A53 quad-core rodando a 2 GHz, além de um subsistema Cortex-M7 em tempo real.

Para aplicações de visão, existem dois processadores de sinal de imagem que suportam duas câmeras de alta definição para visão estéreo ou uma única câmera de 12 megapixels (MP). Para voz, o dispositivo inclui um processador de sinal digital de áudio HiFi4 de 800 MHz (DSP) para pré e pós-processamento de dados de voz.

O i.MX 8M Plus da NXP é o primeiro processador de aplicativos da empresa com um acelerador de rede neural dedicado. Ele é projetado para aplicativos IoT. (Imagem:NXP Semiconductors)

XMOS xcore.ai
O xcore.ai foi projetado para habilitar o controle de voz em aplicativos de inteligência artificial das coisas (AIoT). Um processador cruzado (com o desempenho de um processador de aplicativo e operação de baixo consumo de energia em tempo real de um microcontrolador), este dispositivo é projetado para inferência de aprendizado de máquina em sinais de voz.

É baseado na arquitetura Xcore proprietária do XMOS, ela própria construída em blocos de construção chamados núcleos lógicos que podem ser usados para I / O, DSP, funções de controle ou aceleração de IA. Existem 16 desses núcleos em cada chip xcore.ai e os projetistas podem escolher quantos alocar para cada função. O mapeamento de diferentes funções para os núcleos lógicos no firmware permite a criação de um “SoC virtual”, inteiramente escrito em software. O XMOS adicionou capacidade de pipeline de vetor ao Xcore para cargas de trabalho de aprendizado de máquina.

O xcore.ai suporta redes de 32 bits, 16 bits, 8 bits e 1 bit (binarizadas), fornecendo 3.200 MIPS, 51,2 GMACCs e 1.600 MFLOPS. Possui 1 Mbyte de SRAM incorporada mais uma interface DDR de baixa potência para expansão.

O xcore.ai do XMOS é baseado em uma arquitetura proprietária e é projetado especificamente para cargas de trabalho de IA em aplicativos de processamento de voz. (Imagem:XMOS)

SoC automotivo

Texas Instruments Inc. TDA4VM
Parte da série Jacinto 7 para sistemas automotivos avançados de assistência ao motorista (ADAS), o TDA4VM é o primeiro sistema em chip (SoC) da TI com um acelerador de aprendizado profundo dedicado no chip. Este bloco é baseado no C7x DSP mais um acelerador múltiplo de matriz (MMA) desenvolvido internamente, que pode atingir 8 TOPS.

O SoC pode lidar com um fluxo de vídeo de uma câmera frontal de até 8 MP ou uma combinação de quatro a seis câmeras de 3 MP mais radar, LiDAR e sensores ultrassônicos. O MMA pode ser usado para realizar a fusão de sensores nessas entradas em um sistema de estacionamento com manobrista automatizado, por exemplo. O TDA4VM é projetado para sistemas ADAS entre 5 e 20 W.

O dispositivo ainda está em pré-produção, mas os kits de desenvolvimento já estão disponíveis.

O TI TDA4VM destina-se a sistemas ADAS automotivos complexos que permitem que os veículos percebam seus ambientes. (Imagem:Texas Instruments Inc.)

GPU

Nvidia Corp. Jetson Nano
O conhecido Jetson Nano da Nvidia é um módulo de unidade de processamento gráfico (GPU) pequeno, mas poderoso, para aplicações de IA em dispositivos terminais. Construída na mesma arquitetura Maxwell de membros maiores da família Jetson (AGX Xavier e TX2), a GPU no módulo Nano tem 128 núcleos e é capaz de 0,5 TFLOPS, o suficiente para executar várias redes neurais em vários fluxos de dados de alta sensores de imagem de resolução, de acordo com a empresa. Consome apenas 5 W quando em uso. O módulo também possui uma CPU Quad-core Arm Cortex-A57.

Como outras peças da linha da Nvidia, o Jetson Nano usa CUDA X, a coleção da Nvidia de bibliotecas de aceleração para redes neurais. Kits de desenvolvimento Jetson Nano baratos estão amplamente disponíveis.

O módulo Jetson Nano da Nvidia abriga uma GPU poderosa com 128 núcleos para IA na extremidade. (Imagem:Nvidia Corp.)

Coprocessadores de consumo

Kneron Inc. KL520
A primeira oferta da startup americana-taiwanesa Kneron é o processador de rede neural KL520, projetado para processamento de imagem e reconhecimento facial em aplicações como casas inteligentes, sistemas de segurança e dispositivos móveis. Ele é otimizado para executar redes neurais convolucionais (CNNs), o tipo comumente usado no processamento de imagens hoje.

O KL520 pode executar 0,3 TOPS e consumir 0,5 W (equivalente a 0,6 TOPS / W), o que a empresa disse ser suficiente para o reconhecimento facial preciso, visto que a eficiência MAC do chip é alta (mais de 90%). A arquitetura do chip é reconfigurável e pode ser adaptada a diferentes modelos de CNN. O compilador complementar da empresa também usa técnicas de compressão para ajudar a executar modelos maiores dentro dos recursos do chip para ajudar a economizar energia e custos.

O KL520 já está disponível e também pode ser encontrado em uma placa aceleradora do fabricante AAEON (M2AI-2280-520).

O KL520 de Kneron usa uma arquitetura reconfigurável e compactação inteligente para executar o processamento de imagem em dispositivos móveis e de consumo. (Imagem:Kneron Inc.)

Gyrfalcon Lightspeeur 5801
Projetado para o mercado de eletrônicos de consumo, o Lightspeeur 5801 da Gyrfalcon oferece 2,8 TOPS com consumo de energia de 224 mW (equivalente a 12,6 TOPS / W) com latência de 4 ms. A empresa usa uma técnica de processador na memória que é especialmente eficiente em termos de energia, em comparação com outras arquiteturas. O consumo de energia pode, na verdade, ser compensado com a velocidade do clock, variando a velocidade do clock entre 50 e 200 MHz. Lightspeeur 5801 contém 10 MB de memória, portanto, modelos inteiros podem caber no chip.

Esta parte é o quarto chip de produção da empresa e já é encontrada no smartphone de gama média Q70 da LG, onde lida com inferência para efeitos de câmera. Um kit de desenvolvimento de pen drive USB, o 5801 Plai Plug, já está disponível.

Ultra-baixo consumo de energia

Eta Compute ECM3532
O primeiro produto de produção da Eta Compute, o ECM3532, é projetado para aceleração de IA em projetos alimentados por bateria ou de coleta de energia para IoT. Aplicações sempre ativas em processamento de imagem e fusão de sensores podem ser alcançadas com um orçamento de energia tão baixo quanto 100 µW.

O chip tem dois núcleos - um microcontrolador Arm Cortex-M3 e um NXP CoolFlux DSP. A empresa usa uma técnica proprietária de escala de tensão e frequência, que ajusta cada ciclo de clock, para extrair até a última gota de energia de ambos os núcleos. As cargas de trabalho de aprendizado de máquina podem ser processadas por qualquer um dos núcleos (algumas cargas de trabalho de voz, por exemplo, são mais adequadas ao DSP).

Amostras do ECM3532 já estão disponíveis e a produção em massa está prevista para começar no segundo trimestre de 2020.

Syntiant Corp. NDP100
O processador NDP100 do Syntiant de inicialização dos EUA foi projetado para inferência de aprendizado de máquina em comandos de voz em aplicativos nos quais a energia é insuficiente. Seu silício baseado em processador em memória consome menos de 140 µW de energia ativa e pode executar modelos para detecção de palavras-chave, detecção de wake word, identificação de alto-falantes ou classificação de eventos. A empresa diz que este produto será usado para permitir a operação viva-voz de dispositivos de consumo, como fones de ouvido, aparelhos auditivos, smartwatches e controles remotos. Os kits de desenvolvimento já estão disponíveis.

O dispositivo NDP100 da Syntiant é projetado para processamento de voz em aplicativos de ultra-baixo consumo de energia. (Imagem:Syntiant Corp.)

GreenWaves Technologies GAP9
GAP9, o primeiro processador de aplicativo de ultra-baixo consumo de energia da startup francesa GreenWaves, tem um poderoso cluster de computação de nove núcleos RISC-V cujo conjunto de instruções foi altamente customizado para otimizar a energia consumida. Possui interfaces de áudio multicanais bidirecionais e 1,6 MB de RAM interna.

O GAP9 pode lidar com cargas de trabalho de rede neural para imagens, sons e detecção de vibração em dispositivos IoT alimentados por bateria. Os números do GreenWaves têm GAP9 executando MobileNet V1 em imagens de 160 × 160, com uma escala de canal de 0,25 em apenas 12 ms e com um consumo de energia de 806 μW / quadro / segundo.

Silicon Labs para reforçar o portfólio sem fio O sensor de temperatura / umidade oferece resposta linear estrita

Integrado

Sensor

Computação em Nuvem

Tecnologia da Internet das Coisas