A nova IA do Google pode criar um vídeo apenas com os frames inicial e final

A nova rede neural convolucional 3D pode preencher as sequências entre o quadro inicial e final.
Ele usa um gerador de representação latente para produzir uma variedade de sequências de vídeo.

Avanços recentes em arquiteturas de redes neurais artificiais e redes adversárias geradoras impulsionaram o desenvolvimento de métodos de síntese de imagem / vídeo. A maioria das pesquisas existentes concentra-se em duas operações:geração incondicional de vídeo e previsão de vídeo. Ambos envolvem gerar / prever novos vídeos plausíveis usando um número limitado de frames anteriores.

Recentemente, uma equipe de pesquisa do Google se concentrou no problema de criar sequências de vídeo diversas e plausíveis, quando existem apenas dois quadros (um inicial e um final) disponíveis. O processo, denominado inbetweening, é geralmente realizado treinando / executando redes neurais recorrentes, usando unidades recorrentes com portas ou memória de longo prazo.

No entanto, neste estudo, os pesquisadores mostraram que esse problema (intermediário) pode ser resolvido por meio de uma rede neural convolucional 3D. Uma grande vantagem desse método é a simplicidade. Uma vez que não usa nenhum elemento recorrente, os caminhos de gradiente mais curtos podem permitir redes mais profundas e um treinamento mais estável.

Modelo totalmente convolucional

Em uma rede convolucional, é muito fácil impor consistência temporal com os quadros inicial e final (fornecidos como entradas). O modelo tem 3 componentes principais -

Um codificador de imagem convolucional 2D para mapear quadros-chave de entrada para um espaço latente.
Um gerador de representação latente convolucional 3D para incorporar os dados dos quadros de entrada com resolução temporal progressivamente crescente.
Um gerador de vídeo para decodificar a representação latente em quadros de vídeo.

Referência:arXiv:1905.10240 | NVIDIA

A equipe tentou criar o vídeo diretamente a partir das representações codificadas dos quadros inicial e final, mas os resultados não foram adequados. É por isso que eles projetaram o gerador de representações latentes, que estocasticamente funde as representações do quadro principal e aumenta de forma constante a resolução temporal do vídeo final.

Teste

A equipe testou seu modelo em vários conjuntos de dados disponíveis publicamente, incluindo UCF101 Action Recognition, BAIR e KTH Action Database.

Exemplos de quadros criados pelo novo modelo | Cortesia de pesquisadores

Os resultados finais:cada amostra no conjunto de dados continha um total de 16 quadros, dos quais 14 foram gerados por redes neurais convolucionais. O modelo foi executado mais de cem vezes para cada par de quadros-chave e todo o processo foi repetido 10 vezes para cada variante do modelo.

Leia:A nova IA converte vídeos em preto e branco em cores em tempo real

Em todos os casos, o modelo foi capaz de criar sequências de vídeo realistas, uma vez que os quadros principais estão separados por cerca de 1/2 segundo. Além disso, os pesquisadores mostraram que é possível criar uma variedade de sequências, simplesmente alterando o vetor de ruído de entrada que conduz o processo generativo. Este novo método pode fornecer uma perspectiva alternativa valiosa para estudos futuros sobre criação de vídeo.

Microsoft alcança novo avanço no campo da IA de conversação Mais forte que o aço, a mais recente madeira de alta tecnologia pode resfriar edifícios

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial