Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Industrial Internet of Things >> Tecnologia da Internet das Coisas

Usando DSPs para IA de áudio na extremidade


Antes confinado a servidores em nuvem com recursos praticamente infinitos, o aprendizado de máquina está mudando para dispositivos de ponta por vários motivos, incluindo menor latência, custo reduzido, eficiência de energia e privacidade aprimorada. O tempo necessário para enviar dados à nuvem para interpretação pode ser proibitivo, como o reconhecimento de pedestres em um carro que dirige sozinho. A largura de banda necessária para enviar dados para a nuvem pode ser cara, sem mencionar o custo do serviço em nuvem em si, como reconhecimento de voz para comandos de voz.

Energia é uma compensação entre o envio de dados para o servidor e o processamento localizado. Os cálculos de aprendizado de máquina são complexos e podem facilmente drenar a bateria de um dispositivo de ponta se não forem executados com eficiência. As decisões de ponta também mantêm os dados no dispositivo, o que é importante para a privacidade do usuário, como e-mails confidenciais ditados por voz em um smartphone. A IA de áudio é um exemplo rico de inferência no limite; e um novo tipo de processador de sinal digital (DSP) especializado para casos de uso de aprendizado de máquina de áudio pode permitir melhor desempenho e novos recursos na borda da rede.

O despertar de voz sempre ativo é um dos primeiros exemplos de aprendizado de máquina no limite:ouvir uma palavra-chave como “Ei Siri” ou “OK Google” antes de despertar o resto do sistema para determinar a próxima ação. Se essa detecção de palavra-chave for executada em um processador de aplicativo genérico, pode levar bem mais de 100mW. Ao longo de um dia, isso esgotaria a bateria do smartphone. Portanto, os primeiros telefones a implementar esse recurso tinham algoritmos portados para um pequeno DSP que podia rodar a menos de 5mW. Hoje em dia, esses mesmos algoritmos podem ser executados em um DSP especializado de áudio e aprendizado de máquina em um microfone inteligente com menos de 0,5mW.

Depois que um dispositivo de borda é habilitado para aprendizado de máquina de áudio sempre ligado, ele pode fazer mais coisas do que reconhecimento de fala em baixa potência:consciência contextual, como se o dispositivo está em um restaurante lotado ou em uma rua movimentada, reconhecimento de música ambiente, reconhecimento de sala por ultrassom, e até mesmo reconhecer se alguém por perto está gritando ou rindo. Esses tipos de recursos permitirão novos casos de uso sofisticados que podem melhorar o dispositivo de ponta e beneficiar o usuário.

O melhor desempenho e eficiência energética para inferência de aprendizado de máquina no limite requer ampla personalização de hardware. Algumas das técnicas mais impactantes são coletadas na Tabela 1. A implementação desses recursos aumentará a eficiência de inferência do aprendizado de máquina no limite.

A maioria das operações aritméticas necessárias para a inferência da rede neural são multiplicações de vetores de matriz. Isso ocorre porque os modelos de aprendizado de máquina são normalmente representados como matrizes, que são aplicadas a novos estimulantes representados como vetores. A técnica mais comum para melhorar a inferência de aprendizado de máquina de borda é tornar a multiplicação de vetores de matriz muito eficiente. Uma multiplicação fundida seguida por um acumulado (MAC) é uma maneira comum de resolver isso.



Tabela:Técnicas impactantes para criar um AI DSP de ponta.


Embora a fase de treinamento seja sensível à precisão numérica, a fase de inferência pode alcançar resultados quase equivalentes com baixa precisão (por exemplo, 8 bits). Limitar a precisão pode reduzir muito a complexidade do cálculo da borda. Por esse motivo, empresas de processadores como Intel e Texas Instruments adicionaram MACs de precisão limitada. O TMS320C6745 da Texas Instruments pode executar 8 MACs de 8 bits cada por ciclo. Além disso, o DSP de áudio da Knowles suporta 16 MACS de 8 bits cada por ciclo.

As fases de treinamento e inferência colocam pressão no subsistema de memória. O suporte do processador para grandes larguras de palavras geralmente é melhorado para acomodar isso. Os processadores de alto desempenho mais recentes da Intel têm AVX-512, que suporta a transferência de 512 bits por ciclo em uma matriz de 64 multiplicadores. O Texas Instruments 6745 usa um barramento de 64 bits para aumentar a largura de banda da memória. Os processadores de áudio avançados da Knowles usam um barramento de 128 bits atingindo um bom equilíbrio entre grande área de chip e alta largura de banda. Além disso, as arquiteturas de aprendizado de máquina de áudio (como RNN ou LSTM) geralmente exigem feedback. Isso impõe requisitos adicionais à arquitetura do chip, uma vez que a dependência de dados pode paralisar arquiteturas com muitos pipelines.

Embora o aprendizado de máquina tradicional possa funcionar com dados brutos, os algoritmos de aprendizado de máquina de áudio normalmente realizam análise espectral e extração de recursos para alimentar redes neurais. A aceleração das funções tradicionais de processamento de sinal, como FFTs, filtros de áudio, funções trigonométricas e logaritmos, são necessários para a eficiência energética. As operações subsequentes geralmente utilizam uma variedade de operações vetoriais não lineares, como um sigmóide, implementado como uma tangente hiperbólica ou unidade linear retificada (função de valor absoluto com todos os números negativos alterados para zero). Essas operações não lineares sofisticadas levam muitos ciclos nos processadores tradicionais. As instruções de ciclo único para essas funções também melhoram a eficiência energética dos DSPs de áudio de aprendizado de máquina.

Em resumo, os processadores avançados especializados para aprendizado de máquina e processamento de áudio permitem inferência de borda sempre ativa em tempo real a baixo custo e, ao mesmo tempo, mantém a privacidade. O consumo de energia é mantido baixo por meio de decisões arquitetônicas sobre o suporte do conjunto de instruções para permitir várias operações por ciclo e barramentos de memória mais amplos para manter o alto desempenho com baixo consumo de energia. À medida que as empresas continuam a inovar em computação especializada na ponta, os casos de uso de aprendizado de máquina que a utilizam só aumentam.



Jim Steele é vice-presidente de estratégia de tecnologia da Knowles Corp.

>> Este artigo foi publicado originalmente em nosso site irmão, EE Times:“Machine Learning on DSPs:Enabling Audio AI at the Edge.”

Tecnologia da Internet das Coisas

  1. A Cadeia de Suprimentos e o Aprendizado de Máquina
  2. É hora de mudar:uma nova era no limite
  3. NXP duplica o aprendizado de máquina no limite
  4. As tendências continuam a levar o processamento até o limite para IA
  5. Dicas para escolher a máquina CNC certa
  6. Diretrizes para lidar com DSP usando
  7. Aprendizado de máquina em campo
  8. Intel alista Udacity para conceder diploma por IA na borda
  9. A necessidade de código aberto na borda (eBook)
  10. No Limite da Glória:Habilitando uma Nova Era da Máquina da Internet