Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Industrial Internet of Things >> Tecnologia da Internet das Coisas

A democratização da interface de voz

Os livros de história podem muito bem ver o controle de voz como o avanço mais importante feito na Interface Homem-Máquina. Chega de digitar, de apontar, apenas dizemos o que queremos. O progresso inicial nesta área diminuiu até o advento dos alto-falantes inteligentes, quando começamos a perceber o que poderia ser possível. Agora a corrida começou com melhorias em reconhecimento, recursos e aplicativos em telefones, fones de ouvido, aparelhos auditivos e casa inteligente. As soluções mais conhecidas hoje dependem de plataformas e serviços controlados por um pequeno número de provedores, mas isso está mudando. A ativação por voz pode ser incorporada em qualquer lugar, com personalização, imunidade a ruídos aprimorada, menor potência, maior alcance e, ainda assim, ser tão eficaz quanto as grandes plataformas de reconhecimento de voz.

(Fonte:CEVA / Shutterstock)
O mercado consumidor de áudio, onde essa capacidade desempenha um papel importante, tem uma história interessante. A FutureSource mostra que de 2008 a 2012, o volume em dólares diminuiu à medida que as experiências de áudio se consolidaram principalmente em smartphones. De 2012 a 2014, o mercado permaneceu essencialmente estável. Então, de 2015 a 2018, cresceu novamente a um CAGR de 15%, impulsionado principalmente pela ativação de voz. Olhando para o futuro, a Yole Développement antecipa um mínimo de 30% CAGR até 2023, impulsionado predominantemente pelo reconhecimento de voz . A maior parte desse crescimento continuará sendo em smartphones, seguido por fones de ouvido e aparelhos auditivos, assistentes pessoais e recursos de casa inteligente (TVs, eletrodomésticos, etc.). O mesmo relatório conclui que agora estamos entrando em uma segunda fase no áudio inteligente, em que o controle de voz se tornará muito mais difundido, à medida que os consumidores ficarem mais confortáveis ​​com esse método de controle.

Onde quer que sejam implantados, o objetivo é aumentar a diferenciação. Em um smartphone ou qualquer outro dispositivo operado por bateria, uma vantagem óbvia é oferecer suporte à escuta contínua; não há necessidade de apertar um botão antes de dar um comando. Isso requer detecção de palavra-gatilho de potência ultrabaixa, o que, como sabemos, significa hardware com software muito próximo, de modo a minimizar o poder de espera. Naturalmente, você deseja personalizar palavras-gatilho ou frases para sua marca, e em vários idiomas, a fim de obter forte penetração em sua região e talvez no mercado internacional também. Você ainda pode passar comandos subsequentes para um dos principais provedores de reconhecimento de voz para desempacotar a solicitação. Ou talvez não. Se o seu aparelho só precisa de suporte para um vocabulário limitado, talvez você não precise da ajuda de terceiros, se o seu mecanismo de reconhecimento de voz puder ser estendido para esse objetivo.

Outra necessidade crítica é o reconhecimento e talvez autenticação, em um ambiente barulhento. O reconhecimento de voz apresenta desafios diferentes dos existentes no reconhecimento de objetos. Em uma sala de estar ou em um carro, por exemplo, pode haver várias fontes de som:pessoas falando, TV e fontes independentes de música / rádio, ruídos internos e externos e ecos de todos esses nas superfícies de um quarto ou no interior de um carro. Isolar a fonte de um comando, cancelar ecos e reduzir o ruído de fundo requer alguma tecnologia sofisticada, dependendo de vários microfones, formação de feixe e cancelamento de eco, junto com a supressão de ruído.

Essas são as necessidades e, naturalmente, as soluções disponíveis, como a CEVA, estão prontas para atender a essas necessidades. Soluções como o produto de reconhecimento de frase CEVA WhisPro ™, recentemente apresentado, usam software baseado em rede neural executado em plataformas CEVA DSP. O WhisPro já suporta “Alexa” e “OK Google” como gatilhos de voz e pode ser personalizado no treinamento para oferecer suporte a qualquer gatilho solicitado pelo cliente. Ele suporta vários idiomas e pode lidar com vários gatilhos de voz. O treinamento é realizado com vários fundos de ruído, portanto, o reconhecimento possui imunidade a ruído embutida, oferecendo reconhecimento> 95% e falsa aceitação de menos de 1 por hora, sem a necessidade de verificação na nuvem.

Ao adicionar uma solução de captação de voz especializada, o CEVA ClearVox ™, os desenvolvedores podem obter suporte a vários microfones e formação de feixe para captação de voz em campo distante aprimorada, juntamente com cancelamento de eco e maior redução de ruído. O emparelhamento do WhisPro com o ClearVox oferece reconhecimento competitivo de gatilho a uma distância melhor (até 7 metros), especialmente em ambientes ruidosos.



Youval Nachum atua como Gerente Sênior de Marketing de Produto da CEVA para a linha de produtos de áudio e voz. Youval traz mais de 20 anos de experiência multidisciplinar, abrangendo marketing, arquitetura de sistema, ASIC e domínios de software em empresas líderes de tecnologia. Ele é apaixonado por antecipar tendências de longo prazo e liderar programas técnicos para sua conclusão bem-sucedida. Altamente proficiente na combinação de requisitos de mercado, definições de produtos, padrões da indústria e inovações de design em produtos revolucionários. Youval possui um B.Sc. e M.Sc. Mestre em Engenharia Elétrica pelo Technion - Instituto de Tecnologia de Israel.

Tecnologia da Internet das Coisas

  1. A interface da linha de comando
  2. Interface C#
  3. Interface Java
  4. O que eu faço com os dados ?!
  5. Interface vs classe abstrata em Java:qual é a diferença?
  6. Comunique-se:Tecnologia de voz aumenta as inspeções de produto
  7. C# - Interfaces
  8. Como a tecnologia de reconhecimento de voz pode melhorar os processos de fabricação?
  9. A realidade aumentada está se tornando a interface do usuário para IoT
  10. Fluent.ai x BSH:Automatizando a linha de montagem por voz