Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Industrial Internet of Things >> Sensor

Considerações de design para sistemas de comando de voz sempre ligados e de baixo consumo


Assistentes de voz e integração estão sendo implementados na maioria dos produtos, aparelhos e tecnologia introduzidos no mercado. Dito isso, não é nenhum segredo que esses assistentes de voz úteis estão sempre ligados para ouvir palavras de ativação / despertar (como “ok Google” ou “Alexa”), que costumam usar uma grande quantidade de energia. Em um mundo onde a tecnologia está avançando rapidamente, é imperativo considerar o impacto que isso tem no consumo de energia.

Este artigo fornece considerações de design para sistemas de comando de voz sempre ativos e de baixo consumo usando detecção de atividade de voz (VAD). Ele explora vantagens e desvantagens e considerações ao escolher os componentes necessários para criar uma interface de usuário de voz (VUI) fácil de usar e com baixo consumo de energia.

A função VAD detecta voz humana no ambiente antes de ouvir uma palavra de despertar, o que significa que quando não há ninguém em casa, seu assistente de voz não estará desperdiçando energia desnecessária. Estima-se que existam 4,2 bilhões de assistentes de voz digital sendo usados ​​em todo o mundo, e esse número deve dobrar até 2024. Implementar essa tecnologia em software de assistente de voz e outros produtos que dependem de integração de voz reduziria drasticamente o consumo de energia daqueles que usam assistentes de voz.

Existem várias arquiteturas de hardware para implementar um sistema VUI. Em geral, uma implementação típica de interface de usuário de voz consiste em microfones, um único microfone ou um conjunto de microfones conectado a um processador de áudio para capturar e processar voz.

O fluxo de áudio de entrada pode ser processado em um processador de borda de áudio de ponta, um microfone inteligente com processador de borda de áudio integrado ou em um processador de aplicativos padrão (AP). Os processadores de áudio Edge são otimizados para processamento de baixa potência e baixa latência de sinais de áudio. Além de fornecer processamento especializado do áudio de entrada, um processador de áudio de borda também pode ser usado para pós-processamento de sinais de saída de áudio. Se o sistema VUI estiver conectado à nuvem, o processador de borda de áudio também pode se comunicar com a interface VUI da nuvem por meio do sistema principal em um chip (SoC) com conectividade sem fio. Duas implementações diferentes para sistemas VUI são apresentadas neste documento, juntamente com suas respectivas compensações.

VAD de ultrabaixa energia (detecção de atividade de voz)

A arquitetura mostrada na figura 1 oferece suporte a VUI de potência ultrabaixa usando um caminho de sinal analógico, incluindo microfone analógico e um comparador analógico para fornecer um gatilho de ativação. Quando uma atividade acústica é detectada, a cadeia de sinal analógico gera uma interrupção para despertar o processador de áudio para captura de voz. O dispositivo também pode incluir um recurso “push-to-talk”, em que o usuário pressiona um botão para ativar o processador de áudio.

O microfone analógico de ativação deve estar sempre ouvindo o ambiente e, portanto, este microfone, junto com o comparador, deve consumir muito pouca energia. Um exemplo de processador de áudio eficiente com consumo de energia inferior a 1mW em seu modo de ativação de despertar mais simples e 1 MB de memória para processamento de áudio avançado é o Knowles IA8201. Embora a abordagem ilustrada na figura 1 forneça uma abordagem simples de AAD (detecção de atividade acústica) de baixa potência para VUI sempre ligado em dispositivos como controles remotos e vestíveis, ela tem limitações. Essa implementação ativa o processador de áudio para qualquer sinal acústico e pode levar a um alto consumo geral de energia do sistema em situações ruidosas. Além disso, os sistemas de interface de usuário de voz conectados à nuvem exigem que os dados de áudio por um período imediatamente anterior à palavra de ativação sejam capturados para aumentar a precisão da detecção de palavra de ativação. Isso é comumente referido como precedente e é um requisito obrigatório para dispositivos habilitados para Alexa e outros dispositivos de alto-falante inteligente.

A Figura 2 mostra uma arquitetura que oferece suporte ao buffer pre-roll para dispositivos como alto-falantes inteligentes. Esses dispositivos normalmente têm baterias maiores e / ou podem não ter a necessidade de vários meses de vida útil da bateria com uma única carga. O sistema VUI está sempre ligado, ouvindo o ambiente e gravando o pré-lançamento em um buffer circular. O comprimento do pre-roll é normalmente da ordem de 500ms de dados de áudio e é usado para calibrar o nível de ruído ambiente.

Existem algumas abordagens diferentes para projetar a arquitetura de front-end sempre ativa. A escolha do processador de áudio depende do número de microfones usados ​​e se são analógicos ou digitais.

A arquitetura mostrada acima usa um Knowles IA611 para detecção de atividade de voz, microfones digitais SPH0655LM4H-1 Cornell II para formação de feixes e Knowles IA8201 para processamento de áudio. O Knowles IA611 é um microfone inteligente que oferece benefícios para um projetista de sistema, conforme discutido na seção a seguir.

Seleção de microfone

Para a arquitetura mostrada na figura 1, um único microfone analógico e comparador é usado como uma entrada de disparo para despertar o processador de áudio quando uma atividade acústica é detectada. O wake-mic deve ser um microfone analógico de baixa potência com relação sinal-ruído (SNR), de preferência superior a 62 dB. O portfólio de microfones Knowles SiSonic MEMS oferece várias opções para o microfone de ativação. Por exemplo, o microfone analógico SPV1840LR5H-B Kaskade é uma boa escolha consumindo apenas 45 µA quando LIGADO. O caminho analógico sempre ativo, incluindo um microfone, amplificador e o comparador, consome menos de 67 µA. Existem microfones piezoelétricos disponíveis no mercado com potência sempre muito baixa e sempre ligada (10µA), mas eles normalmente têm SNR baixo, o que pode afetar o desempenho do sistema.

Para a arquitetura com capacidade de buffer pre-roll mostrada na figura 2, microfones com processador de áudio embutido e memória suficiente para capturar dados de voz continuamente em um buffer circular de 2 segundos, como o Knowles IA611, são opções viáveis ​​para atividade de voz sempre ativa detecção. Ele também vem com um ecossistema de gatilhos e comandos de voz portados, como o Alexa, da Amazon. Quando a palavra-chave é detectada, o buffer pre-roll e o áudio de voz emitido são enviados para o mecanismo de reconhecimento automático de fala (ASR) em nuvem. A potência de ativação por voz sempre ligada do IA611 é de 0,39 mA com bateria de 1,8 V e 90 por cento de eficiência, tornando-o uma boa escolha para interface de usuário de voz em dispositivos operados por bateria, como alto-falantes Bluetooth. O dispositivo também aceita entrada PDM de um microfone digital e pode ser usado para oferecer suporte à formação de feixes no processador BT-SoC host, passando pelo áudio assim que o sistema for ativado.

Embora essa alimentação sempre ligada seja aceitável para aplicativos de pré-rolagem, também vale a pena considerar uma arquitetura não pré-rolagem, conforme ilustrado na figura 1. Conforme descrito anteriormente, um microfone analógico de ativação será acionado para qualquer som de entrada e liga o processador de áudio. Isso pode ser problemático em um ambiente barulhento, como quando a TV está LIGADA, onde haverá muitos despertares espúrios, levando a uma perda significativa de energia. Se a detecção de atividade de voz for usada em vez do microfone de ativação analógico de baixa potência, o sistema ligará apenas quando uma palavra-chave for detectada. É lógico ver por que usar um microfone de detecção de atividade de voz pode ser mais eficiente do que um simples microfone analógico de ativação em ambiente ruidoso.

A Figura 3 mostra os dados de simulação que comparam o número de dias de vida da bateria para um controle remoto de TV típico usando VAD no IA611 versus um microfone AAD piezoelétrico concorrente de baixa potência e um processador de áudio para duração variável de tempo ON de atividade acústica. A atividade acústica pode estar presente quando a TV ou outros eletrodomésticos estão LIGADOS, ou em outras situações quando há murmúrios, etc. Como visto na figura 3, há um ponto de cruzamento em cerca de 3 horas, em que a vantagem de energia de usar o AAD analógico no microfone de um concorrente vs detecção de atividade de voz em IA611 desaparece.

Com cinco horas de atividade acústica LIGADA, a solução de detecção de atividade de voz oferece oito dias extras de vida útil da bateria em relação à solução concorrente baseada em AAD. Para colocar essa vantagem em contexto, os adultos norte-americanos assistiam a quase oito horas de TV por dia, de acordo com um estudo da Nielsen publicado em 2017. Com a crescente demanda por dispositivos conectados à Internet, como smart TVs, consoles de jogos e outros dispositivos multimídia, o as horas de atividade acústica em uma casa típica dos Estados Unidos provavelmente continuarão a aumentar também. O uso de um wake-up baseado em VAD inteligente ajudará os projetistas de sistemas a desenvolver sistemas VUI mais eficientes em termos de energia.

Conclusão

De casa inteligente, hospitalidade, locais de trabalho digitais, pagamentos de voz, gerenciamento inteligente de energia, voz na extremidade e saúde, até aplicações industriais de IoT alterando o chão de fábrica, a voz adiciona flexibilidade, eficiência, sustentabilidade e aceitação da adoção de novas tecnologias.

As várias arquiteturas de hardware para design de uma interface de usuário de voz, junto com a seção de microfone, cada uma atende a uma necessidade ligeiramente diferente, dependendo dos aplicativos do dispositivo final e das preferências do designer; Por exemplo, dispositivos habilitados para Alexa e alto-falantes inteligentes exigem uma arquitetura com capacidade de buffer de pré-rolagem.

É importante que os engenheiros e designers de eletrônicos avaliem cuidadosamente como o dispositivo final aproveitará a voz, os recursos que desejam acessar e, a partir daí, determinem a arquitetura correta e os componentes do microfone de acordo.


Raj Senguttuvan tem mais de 15 anos de experiência no desenvolvimento de novas tecnologias para aplicações industriais e de consumo, desenvolvimento de negócios em estágio inicial e gerenciamento de projetos para empresas como Analog Devices e Texas Instruments. Em sua função como diretor de marketing estratégico da Knowles, ele dirige o desenvolvimento em nível de sistema, direciona investimentos e parcerias de risco e estratégia de marketing para IoT e tecnologias de consumo, incluindo processadores de áudio, algoritmos, microfones, sensores e receptores. Raj possui MBA pela Cornell University e PhD em engenharia elétrica pelo Georgia Institute of Technology.


Conteúdos Relacionados :
Para obter mais informações sobre o Embedded, assine o boletim informativo semanal da Embedded por e-mail.

Sensor

  1. 6 Considerações importantes de projeto para impressão 3D em metal
  2. Vantagens Tecnologias incorporadas para projeto modular
  3. Considerações de layout de PCB
  4. Projeto para fabricação de PCBs
  5. Considerações de design de iluminação para sistemas de visão de cirurgia robótica
  6. Por que a rastreabilidade é uma base essencial para sistemas de manufatura habilitados para IIoT
  7. Um design inspirado na aranha abre caminho para melhores fotodetectores
  8. Considerações importantes para montagem de PCB
  9. Considerações de projeto de impedância para PCB flexível
  10. Considerações de design de antena no design de IoT