Algoritmos e aumento de potência do hardware do controle de voz

O controle de voz e as interfaces de voz começaram sua infiltração inexorável em praticamente todas as categorias de dispositivos de ponta do consumidor. Avanços nos algoritmos de reconhecimento de voz e no hardware do acelerador de IA significam que a tecnologia é acessível até mesmo para aplicativos com restrição de energia e custo, como dispositivos domésticos inteligentes (e até mesmo alguns burros).

Os motivadores por trás do controle de voz em dispositivos domésticos inteligentes do lado do usuário são claros.

Alireza Kenarsari-Anhari (Fonte:PicoVoice)
“Facilidade de uso e conveniência são os principais motivadores neste momento”, disse Alireza Kenarsari-Anhari, CEO da PicoVoice ao EE Times. É fácil imaginar gritar de sua mesa para uma cafeteira em seu escritório em casa quando você quer um café ou ditar pedidos para uma secadora enquanto segura uma cesta de roupa molhada.

Presumimos que dispositivos inteligentes como esses, que não são portáteis, tenham acesso permanente à conexão WiFi da casa - então por que não fazer esse processamento de voz na nuvem?

A tendência de IA de ponta nessa situação é principalmente impulsionada pela privacidade, que Kenarsari-Anhari diz ser uma preocupação para os consumidores, mas um item obrigatório para algumas empresas. A confiabilidade é outro fator:“Faz sentido que sua máquina de lavar roupas pare de funcionar se seu WiFi não estiver funcionando?” ele disse.

A latência também é importante em certas situações; alguns aplicativos precisam de garantias em tempo real para processamento de carga de trabalho de voz, como jogos.

O custo é outro grande impulsionador para o processamento de ponta de voz, uma vez que custa dinheiro processar esses dados de voz na nuvem. O modelo de negócios de pagar cada vez que você usa uma API em nuvem não funciona para casos de uso como eletrodomésticos e eletrônicos de consumo, que têm um ponto de custo baixo e podem ser usados muitas vezes ao dia.

O PicoVoice, cujo mecanismo de inferência de voz para texto de IA foi projetado para funcionar independentemente da nuvem em microcontroladores abaixo de US $ 1, visa habilitar o controle de voz em aplicativos onde de outra forma não seria viável. Isso pode incluir vestíveis e auditivos de consumo, que estão em um ponto crítico de precisar de eficiência de energia e custo-benefício que poderia ser possibilitada por uma solução de voz baseada em microcontrolador. Uma solução com otimização de energia e custo também pode abrir oportunidades em aplicações industriais, de segurança e médicas, diz Kenarsari-Anhari.

A empresa lançou recentemente o Shepherd, uma plataforma sem código para construir aplicativos de voz em microcontroladores, que funciona com o software de criação de modelos da empresa, o PicoVoice Console. Shepherd suporta microcontroladores Arm Cortex-M populares de ST e NXP com suporte para outros dispositivos no caminho.

“Eu penso em voz como uma interface - se você pode construir sua GUI ou site sem codificação, talvez usando WordPress, construir interfaces de voz de maneira semelhante é o próximo passo lógico”, disse Kenarsari-Anhari. “Shepherd está capacitando gerentes de produto e designers de UX para construir protótipos e iterar rapidamente, mas nosso objetivo é ampliar sua base de usuários-alvo. E se todos pudessem construir seu próprio assistente? Nomeie como eles querem - não Alexa! - e dar-lhe a personalidade que eles querem. ”

Embora seja perfeitamente possível desenvolver modelos de processamento de linguagem natural e implementá-los sem um software especializado, esse caminho não é para todos.

“Certamente pode-se - Apple, Amazon, Google e Microsoft fizeram isso”, disse ele. “Na verdade, trata-se de saber se uma empresa tem os recursos, está comprometida em construir uma organização em torno disso e pode se dar ao luxo de esperar alguns anos”.

Tendências futuras

A voz está se tornando a interface preferida para a próxima geração de usuários de tecnologia, Kurt Busch, CEO da Syntiant, disse ao EE Times em uma entrevista no verão passado.

Kurt Busch (Fonte:Syntiant)
Busch descreveu como seu filho mais novo, que sabia ler, mas ainda era um pouco pequeno para escrever e soletrar, podia enviar mensagens de texto para seus amigos usando a interface de voz de um smartphone.

“Seus irmãos mais velhos mandam mensagens de texto, mas sua geração recebeu telefones alguns anos antes deles”, disse Busch. “Com o passar do tempo, para a geração dele e para os mais jovens, a interface padrão é conversar com ele.”

A visão de Busch é que a voz se tornará "a tela de toque do futuro", com o processamento no dispositivo fornecendo interfaces rápidas e responsivas, primeiro em dispositivos que têm um teclado ou mouse e, em seguida, em produtos da linha branca.

Os chips da Syntiant são aceleradores de IA especializados projetados para lidar com cargas de trabalho de IA de voz em dispositivos eletrônicos de consumo com orçamentos de energia baixos a extremamente baixos. A startup já vendeu mais de 10 milhões de seus chips globalmente até agora, a maioria dos quais foram para telefones celulares para permitir a detecção de palavras-chave sempre ativa. O mais recente chip Syntiant, NDP120, pode reconhecer palavras quentes como “OK Google” para ativar o assistente do Google em menos de 280 µW.

No futuro, Busch também vê o controle de voz permitindo conectividade e acesso à tecnologia para todos.

“Vemos a voz como o grande democratizador da tecnologia”, disse Busch. “Existem 3 bilhões de pessoas no mundo que vivem com US $ 2 por dia. Minha suposição é que essas pessoas não têm acesso à Internet e podem não ter passado pelo sistema educacional. A interface natural aqui é [fala]. É assim que você leva a tecnologia ao terceiro mundo que não está interagindo com a tecnologia hoje. Vimos muito interesse em países em desenvolvimento sobre os aplicativos de voz em primeiro lugar, para conseguir aqueles segmentos da sociedade que talvez não tivessem acesso antes, não apenas do ponto de vista das despesas, mas também do ponto de vista do conforto. ”

Fragmentação do mercado

O perigo de um mercado que está crescendo tão rapidamente quanto o de voz é que ele pode rapidamente se tornar extremamente fragmentado, disse Vikram Shirastava, diretor sênior de IoT da Knowles ao EE Times - e não apenas ao longo das linhas de hardware.

Vikram Shrivastava (Fonte:Knowles)
“O mercado fica fragmentado com base, digamos, em qual mecanismo de reconhecimento de voz está sendo usado?” Shirastava disse. “O mercado fica fragmentado dependendo se você está integrando com um SoC de TV ou se é um simples MCU dentro, digamos, um micro-ondas. Você obtém fragmentação com base em sistemas operacionais ou com base no ambiente acústico - é apenas a casa? É uma campainha lá fora? Não pode haver uma solução única para todos. Você tem que descobrir quais são os denominadores comuns em cada uma dessas verticais e tentar abordar a integração de voz de acordo. ”

A Knowles tem uma solução de controle de voz baseada em DSP da qual pretende apresentar versões para diferentes verticais. Sua abordagem é agrupar fragmentos do mercado naqueles com um denominador comum - controles domésticos, soundbars de TV e controles remotos podem cair no mesmo grupo, por exemplo - e então desenvolver uma solução que seja otimizada para esse grupo de aplicativos. Shirastava chama essa abordagem de "um nível abaixo da chave na mão", que oferece escalabilidade chave na mão, mas com alguma flexibilidade adicional.

“Precisamos de alguns lançamentos diferentes que abordem um certo aspecto dessa fragmentação para nos permitir cobrir as verticais que queremos perseguir”, disse ele.

O lançamento recente da Knowles, o AISonic Bluetooth Standard Solution, é um kit de desenvolvimento para reconhecimento de voz em dispositivos conectados por Bluetooth, como alto-falantes inteligentes, dispositivos domésticos inteligentes, wearables e assistentes de voz no veículo. O kit é baseado no silício DSP dual-core IA8201 da Knowles, que é projetado especificamente para processamento de rede neural com uma potência muito menor do que um processador de aplicativo. Por exemplo, o chip pode lidar com modelos de AI separados para localização de palavras-chave, classificação de fonte, formação de feixe, cancelamento de eco acústico (AEC) e estimativa de direção de fonte simultaneamente, em menos de 50 mW. Isso é habilitado por uma extensão de conjunto de instruções de quase 400 instruções personalizadas para processamento de áudio e AI nos núcleos Tensilica DSP, que por sua vez permite que a frequência do clock seja reduzida para economizar energia.

O suporte para smartphone veicular iOttie Aivo Connect da Sugr usa IA8201 da Knowles para recursos de voz no carro. Possui capacidade de assistente de voz Alexa embutida. (Fonte:Knowles)

A voz acabará se tornando a interface de usuário padrão para a maioria das classes de produtos eletrônicos de consumo? Certamente parece assim. Uma combinação de algoritmos de controle de voz de IA avançados e eficientes, ambientes de desenvolvimento que permitem aos desenvolvedores integrar facilmente a voz e um ecossistema crescente de soluções de hardware de baixo custo e energia surgiu para tornar tudo isso possível.

>> Este artigo foi publicado originalmente em nosso site irmão, EE Vezes.

Design de referência do emblema inteligente apresenta Bluetooth SoC Minimizando a energia em espera do dispositivo

Tecnologia da Internet das Coisas

Integrado

Sensor

Computação em Nuvem

Tecnologia da Internet das Coisas