Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

A nova IA do Google identifica vozes individuais em ambientes lotados


Os humanos são excepcionalmente bons em escolher uma voz específica em uma área lotada, silenciando todos os outros sons. No entanto, este continua a ser um desafio difícil para as máquinas. Eles ainda não são bons em separar a fala individual quando duas ou mais pessoas conversam ou na presença de ruído de fundo.

Agora, o Google desenvolveu um modelo audiovisual baseado em aprendizagem profunda que pode se concentrar em um único sinal de áudio a partir de uma mistura de vozes e ruído de fundo. A IA pode analisar o vídeo e melhorar as vozes de certas pessoas enquanto suprime todos os outros sons.

Não requer nenhum formato especial de áudio ou vídeo; funciona em todos os formatos de vídeo comuns com uma trilha de áudio. O usuário pode selecionar um rosto específico em um vídeo que deseja ouvir ou deixar que o algoritmo faça isso com base no contexto.

A tecnologia usa uma combinação de sinais visuais e auditivos de um vídeo para separar as vozes. Algoritmos podem identificar qual pessoa está falando no momento com base nos movimentos de sua boca. Esses sinais visuais melhoram significativamente a qualidade da separação da fala na fala mista e associam trilhas sonoras a alto-falantes visíveis.

Como é feito?


Os engenheiros coletaram uma enorme quantidade de vídeos de talk shows e palestras de qualidade no YouTube para produzir amostras de treinamento. Depois filtraram 2.000 horas de clipes desses vídeos. O vídeo filtrado que tinha uma voz limpa – sem ruído do público, música mixada e interferência de fundo.



Em seguida, eles usaram esse conteúdo para criar uma combinação de vídeos faciais com fala associada e ruído de fundo de diferentes fontes. Eles treinaram uma rede neural convolucional multistream para separar as vozes de alto-falantes individuais do vídeo de fala mista.

Tanto a representação do espectrograma da trilha sonora quanto as miniaturas dos rostos dos alto-falantes em cada quadro (extraídos do vídeo) são inseridas na rede neural. A rede aprende gradualmente (período de treinamento) como codificar sinais auditivos e visuais e fundi-los para criar um único conteúdo audiovisual.

Enquanto isso, a rede também aprende a fornecer máscaras de tempo-frequência para falantes individuais. Em seguida, ele multiplica os espectrogramas de entrada ruidosos em máscaras, a fim de produzir uma fala limpa, ao mesmo tempo que elimina interferências e ruídos.



Detalhes da implementação

A rede é implementada no TensorFlow (estrutura de aprendizado de máquina de código aberto) e suas operações são usadas para realizar formas de onda e transformadas de Fourier de curto prazo. Todas as camadas da rede, excluindo a camada de máscara, são seguidas por ativações da Unidade Linear Retificada.

A normalização em lote é realizada para todas as camadas convolucionais. Para fazer isso, eles usaram um tamanho de lote de 6 amostras e treinaram para 5 milhões de lotes (etapas). Os áudios são reamostrados para 16 KHz e o áudio estéreo é transformado em mono para calcular a transformada de Fourier de curta duração.

Referência: arXiv:1804.03619 | Pesquisa do Google

Todas as incorporações faciais são reamostradas para 25 quadros por segundo antes do treinamento, o que resultou em um fluxo visual de entrada de 75 incorporações faciais. Eles usaram vetores zero quando quadros ausentes foram encontrados em uma amostra específica.

Aplicativos


A tecnologia pode ter inúmeras aplicações, desde reconhecimento de áudio em vídeos até aprimoramento de fala, especialmente onde várias pessoas estão falando. Ampliaria os tipos de microfones que podem ser usados ​​em vários ambientes de áudio. Mas, por enquanto, o YouTube e o Hangouts parecem dois lugares fáceis para começar. Em última análise, ele poderia ser aplicado a fones de ouvido amplificadores de voz e óculos Google.



Leia:Google desenvolve IA de voz que é indistinguível dos humanos | Tacotron 2

Além disso, a técnica tem potencial para fornecer um melhor sistema de legendagem de vídeo para alto-falantes sobrepostos, por meio do pré-processamento do reconhecimento de fala. Esse recurso tornaria mais fácil para pessoas surdas participarem de teleconferências e assistirem a vídeos de filmes.

Tecnologia industrial

  1. The NOT Gate
  2. Acabamento fosco x acabamento brilhante em PCBs
  3. Como lidar com problemas práticos de desempenho em sistemas de fluido e amostragem
  4. Fabricação de peças usinadas:quais são as vantagens da usinagem de alta velocidade?
  5. O amplificador de fonte comum (JFET)
  6. A ascensão dos PCBs de interconexão de alta densidade
  7. 9 soluções perfeitas para os defeitos de fundição de alumínio
  8. Moldagem por injeção e impressão 3D se combinam para criar peças "impossíveis"
  9. Certificação NADCAP e como ela se aplica à indústria de usinagem de precisão
  10. Fabricação de plataformas industriais personalizadas