Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

Facebook desenvolve IA capaz de copiar a voz de qualquer pessoa com precisão sem precedentes


Houve enormes avanços nas técnicas de aprendizado de máquina nos últimos anos. Essas técnicas têm funcionado muito bem no reconhecimento de objetos, rostos e na geração de imagens realistas.

No entanto, quando se trata de áudio, a inteligência artificial é uma decepção. Mesmo os melhores sistemas de conversão de texto em voz carecem dos recursos básicos, como mudanças na entonação. Você já ouviu a voz gerada por máquina de Stephen Hawking? Às vezes, fica muito difícil entender suas frases.

Agora, os cientistas do Facebook AI Research desenvolveram um método para superar as limitações dos sistemas de conversão de texto em voz existentes. Eles construíram um modelo generativo - denominado MelNet - que pode produzir entonação humana com precisão incrível. Na verdade, ele pode falar fluentemente com a voz de qualquer pessoa.

Qual é a diferença entre o MelNet e a fala de máquina existente?


A maioria dos algoritmos de aprendizado profundo são treinados em grandes bancos de dados de áudio para regenerar padrões de fala reais. O principal problema dessa metodologia é o tipo de dados. Normalmente, esses algoritmos são treinados em gravações de formas de onda de áudio, que têm estruturas complexas em escalas de tempo drasticamente variáveis.

Essas gravações representam como a amplitude do som varia com o tempo:um segundo de áudio contém dezenas de milhares de intervalos de tempo. Essas formas de onda refletem padrões específicos em várias escalas diferentes.

Os modelos generativos existentes de formas de onda (como SampleRNN e WaveNet) só podem retropropagar por uma fração de segundo. Portanto, eles não podem capturar a estrutura de alto nível que surge na escala de vários segundos.

O MelNet, por outro lado, usa espectrogramas (em vez de formas de onda de áudio) para treinar redes de aprendizagem profunda. Os espectrogramas são representações de frequência de tempo 2D que mostram todo o espectro de frequências de áudio e como elas variam com o tempo.

Espectrograma e padrões de forma de onda do mesmo conteúdo de áudio de 4 segundos

Enquanto as formas de onda 1D no domínio do tempo capturam a mudança ao longo do tempo de uma variável (amplitude), os espectrogramas capturam a mudança em diferentes frequências. Assim, as informações de áudio são compactadas de forma mais densa em espectrogramas.

Isso permite que o MelNet produza fala incondicional e amostras de música com consistência por vários segundos. Ele também é capaz de geração de voz condicional e síntese de texto para fala, totalmente de ponta a ponta.

Referência:arXiv:1906.01083 | GitHub

Para reduzir a perda de informações e limitar a suavização excessiva, eles modelaram espectrogramas de alta resolução e usaram um modelo autoregressivo altamente expressivo, respectivamente.

Os resultados são impressionantes


Os pesquisadores treinaram a MelNet em inúmeras conversas Ted, e ela foi então capaz de regenerar a voz do locutor dizendo frases aleatórias durante alguns segundos. Abaixo estão dois exemplos de MelNet usando a voz de Bill Gates para dizer frases aleatórias.
  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

“O Porto é um vinho forte com sabor a fumado.”
  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

“Franzimos a testa quando os eventos vão mal.”

Mais exemplos estão disponíveis no GitHub.

Embora o MelNet crie clipes de áudio incrivelmente realistas, ele não pode gerar frases ou parágrafos mais longos. No entanto, o sistema pode melhorar a interação humano-computador.

Muitas conversas de atendimento ao cliente envolvem frases curtas. O MelNet pode ser usado para automatizar tais interações ou substituir o sistema de voz automatizado atual para melhorar a experiência do chamador.

Leia:Facebook AI converte música de um estilo para outro

Em uma nota negativa, a tecnologia levanta o espectro de uma nova era de conteúdo de áudio falso. E, como outros avanços na inteligência artificial, levanta mais questões éticas do que respostas.

Tecnologia industrial

  1. Circuito com interruptor
  2. Os kits de desenvolvimento aceleram a integração do Alexa
  3. Dispositivos de baixo consumo de energia podem ouvir com uma cóclea de silício
  4. Como os processadores de borda de áudio permitem a integração de voz em dispositivos IoT
  5. Quando o áudio sobre BLE encontra a ativação de voz sempre ativa
  6. Renesas desenvolve MCU de 28 nm com funções assistidas por virtualização
  7. Considerações de design para sistemas de comando de voz sempre ligados e de baixo consumo
  8. KB Components desenvolve sua logística com o especialista em automação Swisslog
  9. Torno capaz de operação manual com assistência CNC
  10. Transportes autônomos de plataforma móvel com precisão e segurança