O benchmark de aprendizado de máquina expande o suporte para cargas de trabalho de data center e borda

A organização de benchmarking ML Commons lançou uma nova rodada de pontuações de inferência MLPerf. Esta última rodada é separada em classes de dispositivos para facilitar a comparação. Os resultados também apresentam uma variedade de novos modelos de IA, que se destinam a representar uma variedade de cargas de trabalho diferentes implantadas comercialmente, mas ainda consideradas de última geração.

Os sistemas com aceleração Nvidia foram responsáveis por cerca de 85% do total de inscrições, vencendo todas as categorias em que se inscreveram. No entanto, não houve inscrições da Nvidia nas classes Mobile ou Notebook (a Nvidia não está presente nesses mercados com produtos de aceleração de IA). Também houve vários envios interessantes de startups e, em geral, uma tendência maior de ter números em várias colunas, tornando as comparações mais fáceis.

Mudanças da última rodada

A primeira grande mudança nos resultados desta rodada é que os sistemas foram separados em classes:data center, edge, mobile e notebook. Os telefones celulares e notebooks têm fatores de forma e perfis de desempenho muito específicos, o que os torna fáceis de separar da lista de bordas mais ampla.

“Se você está falando sobre um notebook, provavelmente está executando o Windows; se você está falando sobre um smartphone, provavelmente está executando iOS ou Android”, disse David Kanter, diretor executivo da ML Commons ao EE Times . “Separar esses resultados do conjunto maior de pontuações de inferência é muito útil para tornar as coisas mais claras.”

Os benchmarks para esta segunda rodada de pontuações de inferência também foram reformulados para incluir modelos de IA que representam casos de uso modernos. Enquanto a rodada anterior se concentrava em modelos de visão e processamento de imagem, desta vez o data center e as classes de ponta incluem o modelo de recomendação DLRM, o modelo de imagens médicas 3D-UNet que é usado para procurar tumores em exames de ressonância magnética, o modelo de fala para texto RNN- T e modelo de processamento de linguagem natural (NLP) BERT.

“[A seleção do modelo] é impulsionada pela opinião do cliente, mas não queremos cair na armadilha de ter os alunos definindo seus próprios testes”, disse Kanter, explicando que o objetivo era identificar modelos de ponta que estão em produção, não apenas na fase de pesquisa. “DLRM e 3D-UNet, essas foram [escolhas] muito informadas conduzidas por nosso conselho consultivo, pessoal do mundo médico, pessoal que faz recomendações em escala ... Esse tipo de construção de carga de trabalho informada é tremendamente valioso.”

As classes mobile e notebook usam MobileNetEdge para classificação de imagens, SSD-MobileNetv2 para detecção de objetos, Deeplabv3 para segmentação de imagens e Mobile BERT para NLP.

Em geral, as metas de precisão também foram aumentadas para refletir as implantações do mundo real.

A análise abaixo refere-se apenas à divisão “fechada” para comparação justa.

Resultados do data center

Como esperado, a maioria dos envios na classe de data center usou aceleradores de GPU da Nvidia. O restante usava CPUs Intel para o processamento de IA, com algumas exceções (veja abaixo). Nenhum envio do Google para seu TPU neste momento, e nenhum envio de ninguém da comunidade vocal de startups que estão se estabelecendo neste espaço (Graphcore, Cerebras, Groq, etc).

“A liderança de desempenho [da Nvidia] sobre as CPUs aumentou de cerca de 6X para 30X em um modelo de visão computacional básico chamado ResNet e em modelos de sistema de recomendação avançados ... O Nvidia A100 é 237 vezes mais rápido do que a CPU Cooper Lake [da Intel]”, disse Paresh Kharya , diretor sênior de gerenciamento de produto e marketing da Nvidia. “Um único DGX-A100 oferece o mesmo desempenho em sistemas de recomendação de 1000 servidores de CPU e valor surpreendente para os clientes.”

A Mipsology foi o único concorrente sem CPU e sem GPU disponível comercialmente nesta divisão. A empresa possui uma tecnologia de acelerador chamada Zebra que roda em FPGAs Xilinx (neste caso, um Xilinx Alveo U250). Sua tecnologia pode lidar com 4096 consultas ResNet por segundo no modo de servidor (em comparação com cerca de 5563 para um Nvidia T4) ou 5011 amostras por segundo no modo offline (em comparação com cerca de 6112 para o Nvidia T4).

A empresa taiwanesa Neuchips submeteu uma pontuação na categoria Pesquisa, Desenvolvimento ou Interno, o que significa que o dispositivo usado não está disponível comercialmente e provavelmente não estará por pelo menos mais 6 meses. RecAccel foi projetado especificamente para acelerar DLRM, o modelo de recomendação usado neste benchmark. Ele usa um design massivamente paralelo rodando em um Intel Stratix FPGA para inferência de IA. Seus resultados na categoria DRLM foram comparáveis ou piores do que os CPUs Intel Cooper Lake e não foram páreo para os da Nvidia.

Resultados de ponta

A categoria de ponta foi dominada por pontuações aceleradas por A100, T4, AGX Xavier e Xavier NX da Nvidia.

A Centaur Technology inseriu os resultados de seu sistema de design de referência disponível comercialmente que usa o processador de servidor Centaur baseado em sua microarquitetura x86 interna, além de um acelerador de IA interno separado como um co-processador. Este design de referência é um sistema de classe de servidor para aplicativos locais ou privados de data center e é otimizado para custo e fator de forma (em vez de consumo de energia ou desempenho de pico), de acordo com Centaur.

Na classificação de imagem ResNet (latência de fluxo único), o sistema da Centaur foi mais rápido do que os próprios envios da Nvidia para sistemas de servidor equipados com o Tesla T4. No entanto, o T4 superou o design do Centaur nas amostras off-line ResNet processadas por segundo. No entanto, o Centaur não se saiu tão bem na detecção de objetos, chegando em algum lugar entre os dois módulos de borda incorporados da Nvidia, o Xavier NX e o AGX Xavier.

A consultora de engenharia britânica dividiti, que se especializou em avaliar objetivamente sistemas de hardware e software de ML, apresentou uma série de pontuações em sistemas que variam de Fireflys e Raspberry Pis ao Nvidia AGX Xavier. Pontuações aparentemente idênticas para as entradas do Raspberry Pi estão, na verdade, usando sistemas operacionais diferentes (Debian de 32 bits versus Ubuntu de 64 bits - o Ubuntu foi aproximadamente 20% mais rápido). Os resultados da empresa diferiram dos resultados da própria Nvidia para o AGX Xavier, uma vez que a Nvidia usou a GPU do AGX Xavier e dois aceleradores de aprendizado profundo no chip para suas pontuações ResNet Offline e Multistream, onde a dividiti usou apenas a GPU.

Um porta-voz da dividiti também disse ao EE Times que enquanto a empresa conseguiu reproduzir "mais ou menos" as pontuações da Nvidia para a rodada de inferência anterior, os resultados mais recentes introduziram uma regressão de desempenho no equipamento de teste que só foi percebida minutos antes do prazo de envio (corrigir esse erro posteriormente melhorou algumas latências em 10-20%). Isso serve para ilustrar a importância da combinação de hardware / software nos resultados.

A categoria de ponta foi dominada por resultados acelerados por GPUs Nvidia, incluindo o Jetson Xavier NX (Imagem:Nvidia)

Novas entradas nesta categoria incluem IVA Technologies e Mobilint, ambas na categoria Pesquisa, Desenvolvimento ou Interno.

IVA Technologies, um designer e fabricante russo de equipamentos de TI, tem trabalhado em um chip acelerador de IA que suporta modelos convolucionais, 3D-convolucionais e LSTM. A empresa enviou uma pontuação denominada “FPGA”, que pode ser um protótipo do acelerador ASIC implementado em um FPGA. A latência de stream único do ResNet foi de 12,23 ms, cerca de 4x mais lento do que o Xavier NX, e processou 89 amostras offline por segundo, menos de um décimo do Xavier NX. No entanto, a categoria Edge é ampla e não se sabe muito sobre o design - ele pode ser destinado a dispositivos menores do que o Xavier NX.

Mobilint, uma startup ASIC aceleradora de IA da Coreia, enviou uma pontuação para seu projeto Mobilint Edge, que EE Times suspeitos foi implementado como um protótipo em uma placa FPGA Xilinx Alveo U250. No ResNet, sua latência era muito mais longa do que o design da IVA Technologies a 37,46 ms, mas processou mais amostras offline por segundo (107). A empresa também enviou pontuações para detecção de objetos.

Embora nem a IVA Technologies nem a Mobilint tenham produzido pontuações inovadoras, certamente há valor em fazer benchmarking de protótipos, uma vez que prova que as pilhas de software que os acompanham estão prontas.

Resultados para celular

Na nova categoria de SoC móvel, houve três inscrições que foram bastante bem combinadas, sem um vencedor claro.

A MediaTek enviou pontuações para seu Dimensity 820 (no smartphone Xiaomi Redmi 10X 5G). Este dispositivo usa a própria unidade de processamento AI (APU) 3.0 da MediaTek, que é um acelerador com FP16 e INT16 otimizado para funções de câmera / imagem. O SoC também possui uma GPU de 5 núcleos.

O Qualcomm Snapdragon 865+ usa o processador Hexagon 698 da empresa, projetado para aceleração de IA, que atinge 15 TOPS, junto com a GPU Adreno 650. Os benchmarks foram executados em um Asus ROG Phone 3.

O Exynos 990 da Samsung foi avaliado como parte do Galaxy Note 20 Ultra. Este dispositivo contém uma NPU (unidade de processamento neural) dual-core e uma GPU Arm Mali-G77 ao lado de vários núcleos de CPU Arm.

O Exynos 990 da Samsung se saiu melhor em classificação de imagem e PNL; o MediaTek Dimensity 820 foi muito próximo na classificação de imagens, mas a Samsung teve uma liderança mais clara em PNL. A MediaTek teve uma clara liderança na detecção de objetos, com o Qualcomm Snapdragon 865+ em segundo lugar. A MediaTek também ganhou o benchmark de segmentação de imagem, à frente da Qualcomm por uma margem estreita.

Resultados do Notebook

Houve apenas uma entrada na categoria Notebook - um design de referência da Intel que usa a próxima GPU Intel Xe-LP como um acelerador. O Xe-LP é a versão de baixo consumo de energia do Xe-HP e Xe-HPC, que são para aceleração de IA de data center e HPC; nenhum dos dispositivos maiores foi avaliado.

Como havia apenas uma entrada nesta classe, é complicado interpretar os resultados do Xe-LP. No entanto, a categoria de notebooks usou os mesmos modelos de IA da categoria móvel, portanto, algumas comparações são inevitáveis. A maior vantagem do Xe-LP sobre os SoCs móveis estava na segmentação de imagem (DeeplabV3), onde superou o vencedor móvel por um fator de 2,5 na taxa de transferência (quadros por segundo). Seu desempenho mais fraco foi na detecção de objetos (SSD - MobileNetv2) onde sua vantagem foi 1,15x sobre o vencedor móvel em termos de taxa de transferência (frames por segundo).

Comparativos de mercado futuros

Seguindo em frente, Kanter está esperançoso de que futuras rodadas de benchmarks incluam mais entradas de CPU não-Nvidia e não-Intel, dizendo que a organização tem feito tudo para encorajar startups e empresas menores a enviar resultados.

“Temos uma divisão aberta, onde você pode enviar qualquer rede que quiser”, disse ele. “Uma das coisas boas sobre isso é se um cliente disser que eu quero X e você fizer toda a habilitação para isso, poderá usar X, desde que possa inserir o código para que possamos ver o que está executando. ”

As empresas podem enviar resultados para apenas um modelo de IA para manter baixo o esforço de engenharia e podem até enviar seus próprios modelos para a categoria aberta.

Kanter também mencionou que é intenção da organização introduzir uma dimensão de medição de poder para a próxima rodada de pontuação. O trabalho já está em andamento.

“Uma das coisas com que adoraríamos envolver as pessoas é ajudar a construir a infraestrutura de medição de energia - ajude-nos a construir as ferramentas para fazer essas medições”, disse Kanter.

A lista completa dos resultados da Inferência de MLPerf em detalhes está disponível aqui.

>> Este artigo foi publicado originalmente em nosso site irmão, EE Times.

Renesas e Altran desenvolvem chipset vestível usando 3db Access UWB A plataforma de desenvolvimento de radar de imagem oferece resolução 2K

Integrado

Sensor

Computação em Nuvem

Tecnologia da Internet das Coisas