A nova IA do Google identifica vozes individuais em ambientes lotados

O Google desenvolve uma nova IA que pode focar em uma voz específica em uma área lotada.
Ele usa uma combinação de sinais visuais e auditivos para separar as vozes.
A tecnologia também tem potencial para fornecer um melhor sistema de legendagem de vídeo para alto-falantes sobrepostos, por meio do pré-processamento do reconhecimento de fala.

Os humanos são excepcionalmente bons em escolher uma voz específica em uma área lotada, silenciando todos os outros sons. No entanto, este continua a ser um desafio difícil para as máquinas. Eles ainda não são bons em separar a fala individual quando duas ou mais pessoas conversam ou na presença de ruído de fundo.

Agora, o Google desenvolveu um modelo audiovisual baseado em aprendizagem profunda que pode se concentrar em um único sinal de áudio a partir de uma mistura de vozes e ruído de fundo. A IA pode analisar o vídeo e melhorar as vozes de certas pessoas enquanto suprime todos os outros sons.

Não requer nenhum formato especial de áudio ou vídeo; funciona em todos os formatos de vídeo comuns com uma trilha de áudio. O usuário pode selecionar um rosto específico em um vídeo que deseja ouvir ou deixar que o algoritmo faça isso com base no contexto.

A tecnologia usa uma combinação de sinais visuais e auditivos de um vídeo para separar as vozes. Algoritmos podem identificar qual pessoa está falando no momento com base nos movimentos de sua boca. Esses sinais visuais melhoram significativamente a qualidade da separação da fala na fala mista e associam trilhas sonoras a alto-falantes visíveis.

Como é feito?

Os engenheiros coletaram uma enorme quantidade de vídeos de talk shows e palestras de qualidade no YouTube para produzir amostras de treinamento. Depois filtraram 2.000 horas de clipes desses vídeos. O vídeo filtrado que tinha uma voz limpa – sem ruído do público, música mixada e interferência de fundo.

Em seguida, eles usaram esse conteúdo para criar uma combinação de vídeos faciais com fala associada e ruído de fundo de diferentes fontes. Eles treinaram uma rede neural convolucional multistream para separar as vozes de alto-falantes individuais do vídeo de fala mista.

Tanto a representação do espectrograma da trilha sonora quanto as miniaturas dos rostos dos alto-falantes em cada quadro (extraídos do vídeo) são inseridas na rede neural. A rede aprende gradualmente (período de treinamento) como codificar sinais auditivos e visuais e fundi-los para criar um único conteúdo audiovisual.

Enquanto isso, a rede também aprende a fornecer máscaras de tempo-frequência para falantes individuais. Em seguida, ele multiplica os espectrogramas de entrada ruidosos em máscaras, a fim de produzir uma fala limpa, ao mesmo tempo que elimina interferências e ruídos.

Detalhes da implementação

A rede é implementada no TensorFlow (estrutura de aprendizado de máquina de código aberto) e suas operações são usadas para realizar formas de onda e transformadas de Fourier de curto prazo. Todas as camadas da rede, excluindo a camada de máscara, são seguidas por ativações da Unidade Linear Retificada.

A normalização em lote é realizada para todas as camadas convolucionais. Para fazer isso, eles usaram um tamanho de lote de 6 amostras e treinaram para 5 milhões de lotes (etapas). Os áudios são reamostrados para 16 KHz e o áudio estéreo é transformado em mono para calcular a transformada de Fourier de curta duração.

Referência: arXiv:1804.03619 | Pesquisa do Google

Todas as incorporações faciais são reamostradas para 25 quadros por segundo antes do treinamento, o que resultou em um fluxo visual de entrada de 75 incorporações faciais. Eles usaram vetores zero quando quadros ausentes foram encontrados em uma amostra específica.

Aplicativos

A tecnologia pode ter inúmeras aplicações, desde reconhecimento de áudio em vídeos até aprimoramento de fala, especialmente onde várias pessoas estão falando. Ampliaria os tipos de microfones que podem ser usados em vários ambientes de áudio. Mas, por enquanto, o YouTube e o Hangouts parecem dois lugares fáceis para começar. Em última análise, ele poderia ser aplicado a fones de ouvido amplificadores de voz e óculos Google.

Leia:Google desenvolve IA de voz que é indistinguível dos humanos | Tacotron 2

Além disso, a técnica tem potencial para fornecer um melhor sistema de legendagem de vídeo para alto-falantes sobrepostos, por meio do pré-processamento do reconhecimento de fala. Esse recurso tornaria mais fácil para pessoas surdas participarem de teleconferências e assistirem a vídeos de filmes.

Números aleatórios gerados por quântica estabelecem novo padrão de precisão Técnica PRISM rompe limites de difração de luz para imagens de células vivas no espaço e no tempo

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial