Chip AI fica online através do serviço em nuvem

O silício do processador de streaming tensor (TSP) da Groq agora está disponível para acelerar as cargas de trabalho de IA dos clientes na nuvem. O provedor de serviços de nuvem Nimbix agora oferece aceleração de aprendizado de máquina em hardware Groq como um serviço sob demanda apenas para “clientes selecionados”.

Embora existam várias startups construindo silício de IA para o data center, a Groq agora se junta à Graphcore como a única com aceleradores disponíveis comercialmente para os clientes usarem como parte de um serviço em nuvem. A Graphcore anunciou anteriormente que seus aceleradores estão disponíveis como parte do Microsoft Azure.

“A arquitetura de processamento simplificada do Groq é única, fornecendo desempenho determinístico sem precedentes para cargas de trabalho de computação intensiva e é uma adição empolgante à nossa IA baseada em nuvem e plataforma de Deep Learning”, disse Steve Hebert, CEO da Nimbix.

Groq é apenas a segunda inicialização do acelerador de IA a disponibilizar seu hardware na nuvem (Imagem:Groq)

O chip TSP da Groq, lançado no outono passado, é capaz de enormes 1.000 TOPS (operações de 1 peta por segundo). Resultados recentes publicados pela empresa mostram que o chip pode atingir 21.700 inferências por segundo para inferência ResNet-50 v2, o que de acordo com Groq mais do que dobra o desempenho dos sistemas atuais baseados em GPU. Esses resultados sugerem que a arquitetura do Groq é um dos mais rápidos, senão o mais rápido, processador de rede neural disponível comercialmente.

“Esses resultados do ResNet-50 são uma validação de que a arquitetura exclusiva da Groq e a abordagem de aceleração de aprendizado de máquina oferecem um desempenho de inferência substancialmente mais rápido do que nossos concorrentes”, disse Jonathan Ross, cofundador e CEO da Groq. “Esses pontos de prova do mundo real, com base em benchmarks padrão da indústria e não em simulações ou emulação de hardware, confirmam os ganhos de desempenho mensuráveis para aplicativos de aprendizagem de máquina e inteligência artificial possibilitados pelas tecnologias da Groq.”

Groq diz que sua arquitetura pode atingir o paralelismo massivo necessário para aceleração de aprendizagem profunda sem a sobrecarga de sincronização das arquiteturas tradicionais de CPU e GPU. Os recursos de controle foram removidos do silício e fornecidos ao compilador, como parte da abordagem baseada em software da Groq. Isso leva a uma operação determinística e completamente previsível orquestrada pelo compilador, permitindo que o desempenho seja totalmente compreendido no momento da compilação.

Outro recurso importante a ser observado é que a vantagem de desempenho do Groq não depende de lote - uma técnica comum no data center onde várias amostras de dados são processadas ao mesmo tempo, para melhorar o rendimento. De acordo com o Groq, sua arquitetura pode atingir o desempenho máximo mesmo em lote =1, um requisito comum para aplicativos de inferência que podem estar trabalhando em um fluxo de dados que chega em tempo real. Embora o chip TSP da Groq ofereça uma vantagem de latência moderada de 2,5x sobre as GPUs em lotes grandes, em lotes =1 a vantagem está próxima de 17x, disse a empresa.

A placa Linux combina segurança baseada em hardware com pacote de segurança abrangente Ferramenta de medição auxilia na otimização de energia de sistemas embarcados

Integrado

Sensor

Computação em Nuvem

Tecnologia da Internet das Coisas