A IA do Facebook transforma a música em vários gêneros e instrumentos
- A equipe de pesquisa de IA do Facebook constrói uma rede universal de tradução de música.
- Ele replica o áudio que ouve e o reproduz em vários estilos, gêneros e instrumentos.
- Ele pode processar fontes musicais não ouvidas, como palmas ou assobios, e produzir áudio de alta qualidade.
Quando se trata de música, os humanos sempre foram criativos ao replicar canções e transformá-las em várias outras formas, batendo palmas, assobiando ou tocando-as em diferentes instrumentos.
Embora a música seja uma das primeiras áreas a ser digitalizada e processada por máquinas de computação e algoritmos, a inteligência artificial atual ainda é muito inferior aos humanos na imitação de áudios.
Agora, a equipe de pesquisa de IA do Facebook desenvolveu uma rede universal de tradução de música que pode converter música de um formato para outro. Ele replica a música que ouve e a reproduz em diferentes estilos, gêneros e instrumentos.
Como eles fizeram isso?
Este sistema de IA é baseado em 2 tecnologias mais recentes
- Sintetizando áudio de alta qualidade por meio de modelos auto-regressivos
- Transformação entre domínios sem supervisão
Os modelos auto-regressivos são treinados como decodificadores e podem produzir áudios realistas e de alta qualidade. A 2ª tecnologia é responsável por tornar as coisas mais práticas, uma vez que o gerenciamento de problemas de aprendizagem em ambientes supervisionados exigiria um grande conjunto de dados de inúmeros instrumentos musicais.
Os pesquisadores desenvolveram e aplicaram um codificador universal para cada entrada. Isto eliminou o fardo de treinar toda a rede e permitiu a conversão de domínios musicais não ouvidos em quaisquer outros domínios encontrados.
Arquitetura de rede | A confusão de domínio é aplicada apenas durante o treinamento
Eles treinaram o codificador universal [por meio da rede de confusão de domínios], garantindo ao mesmo tempo que os dados específicos do domínio não fossem codificados. O codificador universal não memoriza os dados de entrada, mas os codifica de forma semântica. Para fazer isso, os pesquisadores distorceram o sinal de entrada (formato de áudio) por meio de modulação de tom local aleatória.
Referência: arXiv:1805.07848
Como a rede é treinada como um codificador automático com eliminação de ruído, ela é capaz de recuperar a forma não distorcida do sinal de entrada original. O sistema aprende gradualmente a projetar sinais de entrada fora do domínio para o domínio de saída apropriado.
Os pesquisadores treinaram sua rede em 6 tipos de domínios de música clássica, incluindo milhares de amostras desses domínios. Eles executaram a estrutura de aprendizado profundo PyTorch acelerada por cuDNN em 8 GPUs NVIDIA Tesla V100. Eles levaram 8 dias para treinar totalmente a rede.
Resultados
A IA não é tão boa quanto a dos músicos profissionais, mas muitas vezes os ouvintes têm dificuldade em saber qual é o áudio original e qual é gerado artificialmente.
O sistema pode processar com eficácia fontes musicais não ouvidas, como palmas ou assobios, e produzir áudio de qualidade superior. Pode-se integrar novos instrumentos musicais sem ter que retreinar toda a rede.
Leia:Robôs de IA do Facebook desligados – o que realmente aconteceu?
Segundo os desenvolvedores, seu trabalho pode abrir novas portas para outras tarefas complexas, como composição automática e transcrição de música. Além disso, pode-se tornar os decodificadores mais “criativos”, diminuindo o tamanho do espaço latente, o que permite gerar saídas naturais emocionantes, no sentido de que a associação com o áudio original é perdida.
Tecnologia industrial
- Engenharia Aero Spec:Usinagem CNC de Precisão para Fabricação Moderna
- 3 razões para investir em automação de manuseio de materiais
- Coisas que você deve saber sobre serigrafia de PCBs
- Obsoleto vs. avançado:as chaves para construir uma cadeia de suprimentos melhor
- PCB de 4 camadas:o que você precisa saber
- Juntas de encaixe e espiga:definição, diagrama e guia de construção passo a passo
- Aproveite seu 4º eixo envolvendo caminhos de ferramenta 2D no Fusion 360
- Como usinar peças de titânio em tamanho grande com perfeição?
- Integração perfeita com gRPC:conecte scripts Python a projetos do PLCnext Engineer
- BigStitcher:Um mapa do Google para tecidos