Processamento de voz-dados mais inteligente resulta em melhor vida útil da bateria
Dispositivos que estão sempre ouvindo tornaram infinitamente mais fácil tocar música, ligar a smart TV, desligar o termostato e até mesmo nos alertar quando alguém está invadindo a casa. Mas eles nos pedem para conectá-los à alimentação CA ou substituir as baterias com frequência.
Embora às vezes pareça que os assistentes de voz estão em nossas vidas há décadas, foi apenas no final de 2014 que a Amazon lançou o primeiro alto-falante inteligente, o Amazon Echo. Cinco anos depois, agora temos centenas de milhões de assistentes de voz digital instalados em alto-falantes inteligentes, sistemas domésticos inteligentes, wearables e outros dispositivos inteligentes que estão sempre ouvindo uma palavra de ativação. Com base em suas pesquisas mais recentes, o SAR Insight &Consulting prevê que, em 2023, a base instalada de dispositivos de voz sempre ligados saltará para quase 1 bilhão.
Os primeiros sensores que possibilitaram a escuta constante e a voz em primeiro lugar - microfones de sistemas microeletromecânicos ultraminiatura (MEMS) do tamanho de uma ponta de lápis - capturam dados de som ambiental. A princípio, parecia uma boa solução processar esses dados na nuvem, analisando o som em busca de palavras de ativação e comandos. Mas o crescimento exponencial em assistentes de voz e outros dispositivos IoT sempre ligados está produzindo tantos dados - 41,6 bilhões de dispositivos IoT gerando 79,4 zetabytes de dados em 2025, de acordo com a International Data Corp. 1 - que estamos sobrecarregando a largura de banda coletiva e criando ineficiências de custo e energia como uma consequência não intencional. Isso está levando a indústria de semicondutores a encontrar novas maneiras de trazer um pouco dessa poderosa computação em nuvem para o dispositivo - um recurso chamado processamento de borda.
Desafios no limite
O sucesso da computação de ponta depende muito da rápida proliferação de processadores e microcontroladores de sinal digital de baixa potência - alguns dos quais incluem uma rede neural incorporada, ou seja, um minúsculo chip de aprendizado de máquina (TinyML). Esses chips de processamento, em sua maioria digitais, podem lidar com a análise complexa de dados, como decidir se uma palavra de alerta foi falada, diretamente no dispositivo. Mas embora esses chips possam agora ser tão inteligentes quanto um cérebro, eles ainda contam com a arquitetura do sistema original que foi usada no primeiro dispositivo de detecção sempre ligado, que requer a conversão imediata de todo o som - que é naturalmente analógico - em um sinal digital. Isso é verdade mesmo quando o som, como um cachorro latindo ou um bebê chorando, não poderia conter uma palavra de alerta. Desperdiçando energia e dados, essa mesma velha abordagem sempre atenta coloca os OEMs em rota de colisão com a insatisfação do consumidor.
Os consumidores ainda esperam o mesmo ou melhor desempenho de dispositivos inteligentes cada vez menores que sempre ouvem e que podem caber no bolso ou até mesmo dentro do ouvido, mas sem perder a vida da bateria. Isso coloca os OEMs em uma posição difícil porque se eles permanecerem com a arquitetura legada, eles continuarão desperdiçando 80% a 90% da vida útil da bateria no processamento de dados sem sentido. Eles serão forçados a fazer os consumidores escolherem o menor de dois males:um assistente de voz não portátil que precisa ser conectado à parede ou um assistente de voz portátil que pode ir a qualquer lugar, mas é prejudicado pela curta duração da bateria.
Como mover dados por meio de um sistema custa energia, a maneira mais eficiente de economizar energia é reduzir a quantidade de dados ao que é importante o mais rápido possível. Se realmente queremos resolver o desafio do poder de escuta sempre atenta, precisamos de um novo paradigma que imite mais de perto a capacidade do cérebro de processar com eficiência as vastas quantidades de dados provenientes do sistema sensorial humano a qualquer momento. Gaste um pouco de energia inicial para determinar o que é relevante e economize a maioria dos recursos para processar apenas os dados mais importantes.
O som é naturalmente analógico
Melhorar a vida da bateria em dispositivos que sempre ouvem exige a adoção de uma tecnologia que muitos dos engenheiros de hoje consideram antiquada e intimidante: analógica . Trabalhar com sinais analógicos brutos e não estruturados da palavra real - ou seja, toque, visão, audição e vibração - é difícil. Desde a introdução do primeiro circuito integrado digital, tem sido muito mais simples criar produtos que processam sinais de sensor, com os familiares ou zeros, do que processar diretamente os dados analógicos que são detectados. (É por isso que os dispositivos sempre ligados transformam a entrada analógica em sinais digitais imediatamente, antes de fazer quase qualquer outra coisa.)
Embora o digital tenha resolvido efetivamente os desafios de processamento nos últimos 50 anos, ele pode ter finalmente atingido um obstáculo nas leis da física. A desaceleração no dimensionamento do dispositivo digital fez com que os tecnólogos fossem criativos com os chips dentro do dispositivo. Nesse caso, essa criatividade passou por duas mudanças fundamentais:usar o digital de forma mais estratégica, para que os chips digitais façam processamento pesado apenas quando necessário; e usar a baixa potência inerente do circuito analógico, combinado com o aprendizado de máquina, para fazer uma primeira rodada de análise que determina se a voz está presente enquanto os dados de som ainda estão em seu estado analógico natural. Isso mantém os chips de processamento digital no modo de espera de baixa energia até que sejam realmente necessários para “ouvir” uma palavra-chave.
O caminho para uma maior eficiência de energia em dispositivos sempre ligados não está em fazer com que cada chip "pense como um cérebro", mas em reimaginar uma arquitetura de sistema que seja mais parecida com o sistema sensorial humano, analisando progressivamente o som em camadas para que o máximo de energia seja concentrado sobre o que é mais importante.
O processamento de bordas bioinspirado (parte inferior) concentra o poder de processamento digital nos dados sensoriais mais pertinentes. (Imagem:Aspinity)
Todos ganham
A busca por uma vida útil mais longa da bateria encorajará os projetistas de sistemas a adotar um novo paradigma arquitetônico no qual menos processamento de dados significa mais vida útil da bateria. Residindo na borda, um chip ML analógico pode agir como um gerenciador de tráfego inteligente que permite que os chips de processamento digital permaneçam adormecidos, a menos que sejam necessários. Esta abordagem de processamento de ponta bioinspirada permite que os processadores analógicos e digitais executem as tarefas em que são mais eficientes, tornando o consumidor o vencedor final. Afinal, quem não gostaria de um controle remoto de TV ativado por voz que funciona por um ano com um único conjunto de baterias?
Referência
1
International Data Corp. Worldwide Global DataSphere IoT Device and Data Forecast, 2019–2023. Junho de 2019
>> Este artigo foi publicado originalmente em nosso site irmão, EE Times Europe.
Sensor
- Examinando IoT celular:custo, bateria e dados
- Manutenção no mundo digital
- Seguro digital:5 tendências digitais que moldam o setor de seguros
- Medidas para garantir uma experiência digital segura
- Para financiamento da cadeia de suprimentos, o dinheiro digital é apenas melhor
- Capacitando equipes de manufatura digital com conhecimento
- Processo + Dados Mestres e Transformação Digital, Parte II
- Gêmeos Digitais:O que você quer dizer com isso?
- Acelere a transformação digital na fabricação
- A transformação digital na Norbord melhora a produtividade