SonicSense:permitindo que robôs ouçam como humanos para uma interação mais inteligente

Uma nova pesquisa da Duke University detalha um sistema denominado SonicSense, que permite que robôs interajam com o ambiente de maneiras anteriormente limitadas aos humanos.

“Os robôs hoje dependem principalmente da visão para interpretar o mundo”, explicou o autor principal Jiaxun Liu, Ph.D. aluno do laboratório de Boyuan Chen, professor de Engenharia Mecânica e Ciência de Materiais na Duke. “Queríamos criar uma solução que pudesse funcionar com objetos complexos e diversos encontrados diariamente, dando aos robôs uma capacidade muito mais rica de ‘sentir’ e compreender o mundo.”

SonicSense apresenta uma mão robótica com quatro dedos, cada um equipado com um microfone de contato embutido na ponta do dedo. Esses sensores detectam e registram vibrações geradas quando o robô bate, agarra ou sacode um objeto. E como os microfones estão em contato com o objeto, permite que o robô desligue os ruídos ambientais.

Com base nas interações e nos sinais detectados, o SonicSense extrai recursos de frequência e usa seu conhecimento anterior, combinado com avanços recentes em IA, para descobrir de que material o objeto é feito e sua forma 3D. Se for um objeto que o sistema nunca viu antes, podem ser necessárias 20 interações diferentes para que o sistema chegue a uma conclusão. Mas se já for um objeto em seu banco de dados, ele poderá identificá-lo corretamente em apenas quatro.

Aqui está um Tech Briefs exclusivo entrevista, editada para maior extensão e clareza, com Chen.

Resumos técnicos :Qual foi o maior desafio técnico que você enfrentou durante o desenvolvimento do SonicSense?

Chen :Acho que a primeira é que realmente não houve estudos extensos sobre o uso de vibrações acústicas para a percepção de robôs. A maior parte do trabalho anterior foi feita com um único dedo ou foi muito preliminar. Mas, colocar isso em uma mão robótica real e poder interagir com uma variedade de objetos possíveis não é uma tarefa fácil.

Resumos técnicos :Como surgiu esse projeto? Qual foi o catalisador do seu trabalho?

Chen :Esta é uma história muito interessante. A primeira parte do meu trabalho se chamava boombox, isso foi durante o COVID. Eu estava pensando em trabalhar com robôs e visão. Então, eu já estava interessado, há alguns anos, em trazer vibrações acústicas para a detecção, porque usamos muito vibrações sonoras acústicas.

Na neurociência, a pele humana possui neurônios vibratórios. Então, li sobre essas coisas e fiquei pensando em como podemos trazer isso para os robôs. Mas, durante o COVID, não tive acesso a robôs. Eu fiz meu doutorado. na Columbia, então morei em um pequeno dormitório na cidade de Nova York, mas queria muito fazer essa pesquisa. Certo dia, tive uma ideia aleatória:‘O que posso fazer sem robôs para mostrar que isso é útil?

Eu tinha uma caixa de brinquedos no meu quarto. Ao jogar objetos aleatoriamente ali, percebi:‘Ei, preciso ir buscar esse objeto, mas não sei onde ele está. Que objeto joguei dentro?’ Essa foi uma pergunta de pesquisa perfeita.

Comecei com três caixas de madeira diferentes, com formatos diferentes, e joguei-as no lixo. Treinei um sistema de IA que previu a forma do objeto que joguei e onde o objeto foi parar depois que o joguei, porque não consegui vê-lo. Então esse foi o projeto.

A ideia era basicamente ter quatro microfones de contato. Você os fixa na parede da lixeira. Você grava apenas vibrações acústicas dos quatro canais de microfones. Usei microfones que são usados para captar o som de uma guitarra. Coloquei-os na lixeira e treinei um sistema que vai do som à previsão dessa operação 3D. E esse foi o início desse projeto.

Então, é claro, eu queria fazer isso para robôs. Esse foi praticamente o berço do SonicSense.

Resumos técnicos :Você pode explicar em termos simples como funciona?

Chen :É um sistema integrado de hardware e software. A parte de hardware possui uma pinça robótica com quatro dedos, e cada uma das pontas dos dedos possui um microfone de contato embutido. Este microfone de contato não percebe o que estamos dizendo, mas sente as vibrações do contato físico.

O lado do software basicamente permite que o robô exporte ambientes de forma autônoma por meio de um simples toque ou agarrando um objeto com um recipiente e sacudindo-o. O software coletará os sinais dos quatro microfones de contato e os sinais do motor juntos.

Treinamos uma rede de inteligência artificial para prever coisas como ‘Quantos dados você tem em um contêiner? Quantas arestas tem esse dado? Quanto líquido você tem nesta garrafa de água? Quanto você está colocando em outro recipiente?’

Resumos técnicos :Quais são seus próximos passos?

Chen :Estamos analisando algumas ideias novas em termos, em primeiro lugar, de quais outras modalidades de detecção são necessárias para alcançarmos a destreza de manipulação de nível humano. Mas, ainda mais para conteúdos mais amplos para robótica, não apenas para manipulação. Mas também para locomoção, navegação e tudo mais. Existem outras modalidades de detecção de que precisamos? Portanto, explorar novas modalidades que possam permitir aos robôs ou capacitar os robôs a terem capacidades que nem mesmo os humanos ou os animais têm, é uma direção.

Outra direção que estamos olhando são outras modalidades que já temos em robôs. Por exemplo, visão – e como fundimos todas as modalidades para ter uma compreensão coerente do mundo em vez de apenas uma perspectiva? Assim, fazendo com que muitas modalidades de detecção se unam e aprendam uma compreensão unificada.

Uma terceira direção que estamos buscando é trazer isso para os verdadeiros vetores humanos de capacidade de manipulação – o design atual é basicamente um protótipo. Queremos fazer isso ampliando a morfologia e a capacidade de detecção da mão para uma escala muito maior. Isso significa colocar muitos sensores em uma mão muito mais humana e realmente mostrar capacidade de manipulação hábil. No momento, estamos apenas fazendo percepção de objetos, mas queremos ser capazes de manipular objetos com capacidades muito mais avançadas.

Transcrição

00:00:00 apresentamos o Sonic Sense, uma estrutura integrada de hardware e software para permitir a detecção de vibração acústica para percepção rica de objetos de robôs. O trabalho recente alavancou a detecção de vibração acústica para material de objeto e previsão de posição de classificação de categoria, estimando a quantidade e o fluxo de material granular e realizando coletivamente o raciocínio espacial do objeto para

00:00:23 reconstrução visual, no entanto, trabalhos anteriores focaram em um pequeno número de objetos primitivos com configurações restritas de composição de material homogênea para coleta de dados e testes de dedo único, portanto, não está claro se a detecção de vibração acústica pode ser útil para a percepção de objetos sob condições ruidosas e menos controladas.

00:00:44 apresentam o Sonic Sense um design holístico em avanços de hardware e algoritmo para percepção de objetos por meio de detecção de vibração acústica aprimorada, nossa mão robótica tem quatro dedos ap O microfone de contato elétrico está embutido dentro de cada ponta do dedo e ao redor do contrapeso é montado na superfície externa do invólucro para aumentar o impulso do movimento do dedo nosso design mecânico intuitivo

00:01:07 permite uma variedade de movimentos interativos Primitivos para a percepção de objetos, incluindo movimentos de tocar, agarrar e agitar o microfone de contato incorporado é capaz de coletar vibrações acústicas de alta frequência criadas pelo contato entre objetos ou interações manuais de objetos nosso robô pode inferir a geometria e o status do inventário de vários objetos dentro de um contêiner a partir de

00:01:31 suas assinaturas de vibração acústica exclusivas durante as interações derivamos 12 recursos interpretáveis com base em métodos tradicionais de processamento de sinal acústico para ajudar a distinguir essas diferentes assinaturas de vibração acústica Realizamos uma redução de dimensionalidade não linear não supervisionada com tne neste vetor de recursos de 12 dimensões agitando o contêiner que nosso robô pode

00:01:54 distinguir com sucesso diferentes números de dados ou dados com diferentes formatos dentro do recipiente ao despejar água dentro da garrafa segurada por nosso robô, podemos detectar as diferenças sutis nas assinaturas acústicas com base nas diferentes quantidades existentes de água dentro da garrafa, nosso robô também pode detectar diferentes quantidades de água dentro da garrafa ao agitá-la mais

00:02:15 tarefas desafiadoras de percepção de objetos, desenvolvemos um conjunto de dados com 83 objetos diversos do mundo real, nossos objetos cobrem nove categorias de materiais e uma variedade de geometrias, desde primitivos simples até formas complexas, ao contrário do trabalho anterior que usa humanos para segurar manualmente a mão do robô para interagir com objetos ou projetar poses de interação fixas e forças para repetição, derivamos um método simples, mas eficaz

00:02:40 política de interação baseada em heurística para coletar autonomamente a resposta de vibração acústica de objetos nossa política funciona bem para todos os nossos objetos do mundo real cobrindo tamanhos e geometrias variáveis treinamos um modelo de classificação de material que pega o espectrograma Mel de nosso sinal de vibração acústica coletado do som de impacto e aprende a prever o

00:03:02 rótulo de material, a rede assume a forma de três camadas de rede neural convolucionais seguidas por duas camadas MLP, o resultado inicial de nosso método leva a uma pontuação F1 de 0,523, no entanto, observamos que os materiais dos objetos são relativamente uniformes e suaves em torno das regiões locais com base nesta suposição, podemos refinar iterativamente nossa previsão, nossa média final F1

A pontuação 00:03:25 chega a 0,763, nosso modelo de construção Recon de forma pega os pontos de contato esparsos e barulhentos para gerar uma forma 3D densa e completa do objeto, empilhamos duas camadas pontiagudas para codificar a entrada e, em seguida, alimentamos o vetor de recurso global em uma rede decodificadora com camadas totalmente conectadas para produzir a nuvem de pontos final, nossos resultados obtiveram uma média de z. Z

00:03:50 Z 876 M campeão em pontuação de distância a previsão em objetos com formas primitivas geralmente tem desempenho quase perfeito além disso nosso método exibe a capacidade de reconstruir objetos com formas complexas apenas por meio de longarinas e contato ruidoso Estimativas de pontos quando um objeto foi interagido pelo robô com suas respostas de vibração acústica que pretendemos

00:04:13 fazemos com que nosso robô reidentifique o objeto por meio de um conjunto de 15 novas interações de toque inserimos 15 da coleção de espectrogramas Mel e seus pontos de contato associados na rede para prever o rótulo deste objeto entre 82 objetos em nosso conjunto de dados nosso robô pode reidentificar o mesmo objeto com mais de 92% de precisão nosso robô tem uma forte resistência contra o ambiente

00:04:37 ruídos e concentra-se apenas em sinais de vibração por meio de contato físico, isso garante dados de detecção confiáveis e de alta qualidade sob condições ambientais desafiadoras, toda a nossa mão robótica custa US$ 215 com componentes disponíveis comercialmente e impressão 3D, nossos resultados experimentais demonstram a versatilidade e a eficácia do nosso design em variedades de percepção de objetos

00:05:01 tarefas, incluindo estimativa de status de inventário de objetos sólidos e líquidos dentro de contêineres, classificação de materiais, reconstrução de formas 3D e reidentificação de objetos em geral, nosso método apresenta contribuições únicas para a percepção tátil com vibrações acústicas e abre novas oportunidades para futuros projetos de robôs para construir um sistema completo mais robusto

00:05:23 modelo perceptual versátil e holístico do mundo

Robô de mesa compacto revoluciona o fornecimento de fisioterapia Propulsores elétricos desenvolvidos pela NASA permitem que satélites comerciais mantenham a órbita e estendam a vida útil da missão

Sensor

Integrado

Sensor

Computação em Nuvem

Tecnologia da Internet das Coisas