Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Industrial Internet of Things >> Tecnologia da Internet das Coisas

Como os processadores de borda de áudio permitem a integração de voz em dispositivos IoT

Processadores de borda de áudio dedicados com foco na fidelidade de áudio e com o aprendizado de máquina, os núcleos otimizados são a chave para fornecer aos dispositivos IoT interfaces de usuário de voz sem a necessidade de uma conexão de Internet de alta largura de banda.
As capacidades de processamento de voz estão emergindo rapidamente em produtos de consumo, como o iOttie Aivo Connect. (Fonte:Knowles)
De automação residencial e comércio eletrônico a saúde e automotivo, mais setores estão combinando recursos de IoT com integração de voz para atender às demandas em constante mudança e desbloquear vantagens de negócios. No entanto, a voz ainda está nas fases iniciais de adoção e apenas começando a se expandir além dos dispositivos móveis e alto-falantes. A voz se tornará o método padrão de interação entre os usuários e seus dispositivos IoT. Essa mudança para a voz em primeiro lugar é sustentada por mais do que apenas a ideia de que aumenta os níveis de conforto do consumidor com a tecnologia. A mobilidade global de dispositivos habilitados para voz para pesquisa de voz em movimento, progresso no processamento de linguagem natural (PNL) e avanços em inteligência artificial e aprendizado de máquina permitirão que novos aplicativos evoluam rapidamente.

A interação de voz agradável e envolvente é limitada pela qualidade de som consistente na presença de ruído e outras distrações. A capacidade do seu dispositivo de gerenciar o som de forma inteligente é o que faz ou prejudica a sua capacidade de comunicação. Espera-se que a interface de usuário de voz sempre ativa (VUI) se torne um lugar comum em mais produtos de consumo, incluindo dispositivos de áudio e vídeo, linha branca e também em uma ampla gama de dispositivos alimentados por bateria, como controles remotos, wearables, Bluetooth alto-falantes, câmeras de segurança e de atividades externas. Embora haja desafios de design a serem superados, há uma grande oportunidade para os fornecedores de componentes e OEMS fornecerem produtos que atendam a essas necessidades de aplicação.

Para aproveitar ao máximo as oportunidades de integração de voz à medida que amadurecem, mais tecnologias de processamento estão se movendo para a borda, longe da nuvem. Os resultados são interfaces de usuário aprimoradas com menor latência e custo reduzido, tanto em dólares quanto em largura de banda. Os fabricantes que projetam soluções CE habilitadas para IoT para o futuro devem considerar a integração de voz como um pré-requisito de recurso do produto. Os OEMs que podem implantar processamento de voz dedicado na borda serão capazes de dimensionar esses aplicativos e expandir seus portfólios.

Este artigo discute os desafios mais comuns com a implementação de VUIs para dispositivos IoT sempre ligados / sempre ouvindo. O artigo analisa os requisitos associados e os recursos de design necessários para atender a esses requisitos de maneira eficaz, incluindo integração com interfaces de controle, pilhas de software, desenvolvimento de algoritmo e desenvolvimento de aplicativo no espaço do usuário.

Integrando processadores Audio Edge em dispositivos IoT

Processadores de ponta de áudio dedicados com foco na fidelidade de áudio e com núcleos otimizados de aprendizado de máquina são a chave para oferecer suporte a dispositivos de comunicação de áudio de alta qualidade. Esses processadores podem fornecer potência de computação suficiente para processar áudio usando algoritmos tradicionais e de ML, usando uma pequena porcentagem da energia de um processador genérico. E, como o processamento ocorre no dispositivo, é significativamente mais rápido do que enviar essas informações para a nuvem e vice-versa.

Os dispositivos IoT integram processadores de áudio para adicionar recursos ricos, como o Voice Wake. Embora a nuvem possa oferecer alguns grandes benefícios, o processamento de borda permite que os usuários aproveitem a capacidade total de seu dispositivo a qualquer momento, sem a necessidade de uma conexão de internet de alta largura de banda. Por exemplo, os processadores de áudio de ponta permitem uma experiência de usuário superior em comunicação virtual por meio de processamento de áudio de baixa latência com dados contextuais, ao mesmo tempo que mantém os dados contextuais locais e seguros.

Desafios com a integração de voz

As oportunidades de aplicativos para chamadas de voz, controle e interação continuam aumentando. No entanto, com mais dispositivos, mais fragmentação é introduzida, tornando mais difícil integrar a voz. A maneira como você integra o controle de voz a cada aplicativo - sejam alto-falantes Bluetooth, eletrodomésticos, fones de ouvido, wearables ou elevadores - será diferente. Adicionar um gatilho de ativação por voz pode ser simples, mas projetar um alto-falante e fone de ouvido Bluetooth de nível empresarial é muito mais complexo. Se esse alto-falante incluir a verdadeira integração estéreo sem fio (TWS), a complexidade aumenta mais uma vez.

Além disso, vários aplicativos requerem integrações de voz com diferentes ecossistemas. Por exemplo, você precisa trabalhar em um ecossistema Linux para implementar voz na maioria das TVs inteligentes, mas para obter voz em um aparelho doméstico, será necessário trabalhar em um ecossistema de microcontrolador (MCU). Para todas essas integrações, há uma maneira comum e recomendada de fazer, mas sempre há variações, o que aumenta a complexidade.

Soluções de desenvolvimento de mercado de massa de alta qualidade são essenciais para superar esses desafios e trazer novas tecnologias para o mercado rapidamente para apoiar a maneira em rápida evolução com que trabalhamos, vivemos e nos comunicamos. Para atender a esses desafios, as soluções adequadas precisam atender a vários requisitos de design.

Atendendo aos principais requisitos de design

Consumo de energia

Para que um dispositivo VUI receba comandos, ele deve estar sempre ligado / sempre ouvindo os comandos. Quer esses dispositivos estejam conectados, e especialmente se forem operados por bateria, a restrição no consumo de energia pode ser um grande desafio de projeto.

Em um sistema de comando de voz, pelo menos um microfone deve estar sempre ativo, e o processador encarregado de reconhecer a palavra de despertar também deve estar ativo. Processadores de ponta de áudio projetados com arquiteturas proprietárias, aceleradores de hardware e conjuntos de instruções especiais podem executar áudio e algoritmos de ML de maneira ideal. Essas otimizações ajudam a reduzir o consumo de energia.

Latência

Não há tolerância para latência com dispositivos ativados por voz. Mesmo se houver um atraso percebido de mais de 200 milissegundos, os humanos começam a falar uns com os outros nas chamadas de voz ou repetem seus comandos para o assistente de voz. Para desenvolver dispositivos integrados de voz que obterão a aceitação necessária do consumidor, os engenheiros e designers de produto devem fornecer cadeias de áudio otimizadas em todo o sistema para cumprir as especificações da indústria e as melhores experiências do usuário. O processamento de baixa latência em processadores de ponta é, portanto, um requisito crítico para garantir a comunicação de voz de alta qualidade.

Integração

Como há muitas opções quando se trata de escolha de hardware e software para diferentes implementações de VUI, há requisitos que podem se tornar um desafio em vários pontos do estágio de integração. Algumas considerações importantes de design a serem consideradas ao longo do caminho incluem as discutidas abaixo.

Integração de Hardware

Existem várias arquiteturas de hardware para implementar um sistema VUI, dependendo do uso do dispositivo, do aplicativo e do ecossistema. Cada dispositivo VUI incluirá microfones, um único microfone ou um conjunto de microfones, conectado a um processador de áudio para captura e processamento de áudio. Neste recente artigo Embedded de Knowles, meu colega analisa as considerações de arquitetura de hardware para implementar um sistema VUI e os benefícios e desvantagens de cada um.

Integração de software de host

Conforme mencionado acima, existem vários sistemas operacionais e drivers para você escolher. O ideal é que o processador de áudio venha com firmware e um conjunto de drivers que podem ser configurados para se conectar ao processador host. O sistema operacional, como Android ou Linux, geralmente é executado no processador host.

Os componentes do software do driver que são executados no espaço do kernel interagem com o firmware pela interface de controle e os dados de áudio do processador de borda de áudio podem ser lidos no espaço do usuário por meio da interface padrão Advanced Linux Sound Architecture (ALSA).

Para integrar o software com o resto do sistema host, pode se tornar um trabalho complexo conectar o driver do processador de áudio fornecido no pacote de lançamento do software à imagem do kernel. Isso envolve copiar o código-fonte do driver na árvore de origem do kernel, atualizar alguns arquivos de configuração do kernel e adicionar entradas da árvore de dispositivos de acordo com a configuração de hardware relevante.

Uma solução para isso seria usar designs de referência padrão pré-integrados com configurações exatas ou semelhantes.

Em uma situação ideal, o processador de borda de áudio forneceria pilhas de software otimizadas para integração e viria com algoritmos pré-integrados e verificados como uma solução de nível de sistema para simplificar ainda mais o processo.

Integração de algoritmo

Já que estamos no tópico de integração de algoritmos. Normalmente, existem vários algoritmos em cascata para alternar entre diferentes casos de uso a qualquer momento. Mesmo para ativação de voz, um projeto precisa de formadores de feixe de múltiplos microfones, um mecanismo de ativação de voz de ponta e verificação baseada em nuvem. Isso significa pelo menos três algoritmos trabalhando juntos para otimizar o desempenho. Para qualquer dispositivo que se integre com palavras-chave Alexa ou Google Home, deve haver vários algoritmos, geralmente provenientes de fornecedores diferentes, que devem ser otimizados juntos em um dispositivo.

Uma solução é escolher um processador de áudio de ponta que vem pré-integrado com algoritmos verificados, desenvolvidos e testados independentemente do sistema host.

Integração do fator de forma

Existem muitos fatores de forma que os dispositivos podem assumir hoje. Cada um tem sua própria configuração de vários microfones instalados. A distância e o posicionamento dos microfones e alto-falantes desempenham um grande papel no desempenho. O ajuste e a otimização do desempenho precisam mudar com base no fator de forma final e nos casos de uso de destino. Existem também variações de fabricação que afetam o desempenho, como vedação do microfone, tratamentos acústicos no dispositivo, amortecimento de vibração e muito mais.

Privacidade

Muitos processadores de áudio detectam a palavra de ativação e enviam imediatamente as informações para a nuvem, onde são interpretadas e aplicadas. Um grande problema é que, uma vez que os dados de áudio estão na nuvem, o usuário não tem controle sobre os dados, portanto, fica exposto a um alto risco de privacidade. A solução para este desafio é escolher processadores de IA de ponta que possam realizar a interpretação do comando e a lógica de resposta no dispositivo, localmente, "na borda".

Isso permite que dados pessoais de áudio sensíveis permaneçam locais, sem serem enviados para a nuvem, onde podem ser usados ​​contra nossa vontade. A implementação de VUI agora não é apenas muito mais privada, mas pode responder mais rapidamente, tornando as interações dos usuários muito mais naturais. Este é um ótimo exemplo de como os processadores de IA de ponta podem aprimorar os casos de uso existentes para maximizar a utilidade dos dispositivos que usamos e confiamos todos os dias.

A interface de hardware e software

Os requisitos de design para implementações de VUI podem ser complexos e podem dificultar o lançamento de dispositivos com integração de voz no mercado rapidamente. OEMs e integradores de sistema podem reduzir drasticamente o risco trabalhando com kits de desenvolvimento de solução padrão, como o Knowles AISonic Bluetooth Standard Solution Kit. Esses kits oferecem pontos de partida pré-configurados para protótipos que permitem aos designers desenvolver suas próprias inovações sem ter que se preocupar com os desafios de design que discutimos acima. Os projetistas devem procurar kits de desenvolvimento que tenham algoritmos pré-integrados e verificados, microfones e drivers pré-configurados que sejam compatíveis com o processador host e os sistemas operacionais.

Os processadores de ponta de áudio que abrem suas arquiteturas e ambientes de desenvolvimento aceleram a inovação, fornecendo aos desenvolvedores de aplicativos de áudio as ferramentas e o suporte para criar novos dispositivos e aplicativos. Dispositivos de áudio futuros serão um esforço colaborativo.

Tecnologia da Internet das Coisas

  1. Como o 5G acelerará a IoT industrial
  2. Por que a computação de borda para IoT?
  3. Como a IoT está conectando locais de trabalho
  4. IoT fornecendo benefícios em todo o mundo
  5. Como a IoT está moldando a mobilidade empresarial?
  6. Fazendo pagar a IoT:Como construir um modelo de negócios IoT lucrativo
  7. Quão perigosa é a ameaça de ataques em cadeia de destruição na IoT?
  8. Como a IoT está revolucionando a segurança no local de trabalho?
  9. Como a IoT está aprimorando a experiência do cliente
  10. Superando os desafios de desenvolvimento de IoT