Facebook desenvolve IA capaz de copiar a voz de qualquer pessoa com precisão sem precedentes

O novo modelo de aprendizado profundo chamado MelNet pode produzir entonação humana com precisão incrível.
Uma vez treinado, ele pode regenerar a voz de qualquer pessoa em alguns segundos.
Pesquisadores demonstram com que precisão ele pode clonar a voz de Bill Gates.

Houve enormes avanços nas técnicas de aprendizado de máquina nos últimos anos. Essas técnicas têm funcionado muito bem no reconhecimento de objetos, rostos e na geração de imagens realistas.

No entanto, quando se trata de áudio, a inteligência artificial é uma decepção. Mesmo os melhores sistemas de conversão de texto em voz carecem dos recursos básicos, como mudanças na entonação. Você já ouviu a voz gerada por máquina de Stephen Hawking? Às vezes, fica muito difícil entender suas frases.

Agora, os cientistas do Facebook AI Research desenvolveram um método para superar as limitações dos sistemas de conversão de texto em voz existentes. Eles construíram um modelo generativo - denominado MelNet - que pode produzir entonação humana com precisão incrível. Na verdade, ele pode falar fluentemente com a voz de qualquer pessoa.

Qual é a diferença entre o MelNet e a fala de máquina existente?

A maioria dos algoritmos de aprendizado profundo são treinados em grandes bancos de dados de áudio para regenerar padrões de fala reais. O principal problema dessa metodologia é o tipo de dados. Normalmente, esses algoritmos são treinados em gravações de formas de onda de áudio, que têm estruturas complexas em escalas de tempo drasticamente variáveis.

Essas gravações representam como a amplitude do som varia com o tempo:um segundo de áudio contém dezenas de milhares de intervalos de tempo. Essas formas de onda refletem padrões específicos em várias escalas diferentes.

Os modelos generativos existentes de formas de onda (como SampleRNN e WaveNet) só podem retropropagar por uma fração de segundo. Portanto, eles não podem capturar a estrutura de alto nível que surge na escala de vários segundos.

O MelNet, por outro lado, usa espectrogramas (em vez de formas de onda de áudio) para treinar redes de aprendizagem profunda. Os espectrogramas são representações de frequência de tempo 2D que mostram todo o espectro de frequências de áudio e como elas variam com o tempo.

Espectrograma e padrões de forma de onda do mesmo conteúdo de áudio de 4 segundos

Enquanto as formas de onda 1D no domínio do tempo capturam a mudança ao longo do tempo de uma variável (amplitude), os espectrogramas capturam a mudança em diferentes frequências. Assim, as informações de áudio são compactadas de forma mais densa em espectrogramas.

Isso permite que o MelNet produza fala incondicional e amostras de música com consistência por vários segundos. Ele também é capaz de geração de voz condicional e síntese de texto para fala, totalmente de ponta a ponta.

Referência:arXiv:1906.01083 | GitHub

Para reduzir a perda de informações e limitar a suavização excessiva, eles modelaram espectrogramas de alta resolução e usaram um modelo autoregressivo altamente expressivo, respectivamente.

Os resultados são impressionantes

Os pesquisadores treinaram a MelNet em inúmeras conversas Ted, e ela foi então capaz de regenerar a voz do locutor dizendo frases aleatórias durante alguns segundos. Abaixo estão dois exemplos de MelNet usando a voz de Bill Gates para dizer frases aleatórias.

https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

“O Porto é um vinho forte com sabor a fumado.”

https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

“Franzimos a testa quando os eventos vão mal.”

Mais exemplos estão disponíveis no GitHub.

Embora o MelNet crie clipes de áudio incrivelmente realistas, ele não pode gerar frases ou parágrafos mais longos. No entanto, o sistema pode melhorar a interação humano-computador.

Muitas conversas de atendimento ao cliente envolvem frases curtas. O MelNet pode ser usado para automatizar tais interações ou substituir o sistema de voz automatizado atual para melhorar a experiência do chamador.

Leia:Facebook AI converte música de um estilo para outro

Em uma nota negativa, a tecnologia levanta o espectro de uma nova era de conteúdo de áudio falso. E, como outros avanços na inteligência artificial, levanta mais questões éticas do que respostas.

Nova capa eletrônica pode ter um senso de toque semelhante ao de um humano Cientistas desenvolvem um novo método para tornar as telas mais brilhantes e mais eficientes

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial