Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

A nova IA do Google pode criar um vídeo apenas com os frames inicial e final


Avanços recentes em arquiteturas de redes neurais artificiais e redes adversárias geradoras impulsionaram o desenvolvimento de métodos de síntese de imagem / vídeo. A maioria das pesquisas existentes concentra-se em duas operações:geração incondicional de vídeo e previsão de vídeo. Ambos envolvem gerar / prever novos vídeos plausíveis usando um número limitado de frames anteriores.

Recentemente, uma equipe de pesquisa do Google se concentrou no problema de criar sequências de vídeo diversas e plausíveis, quando existem apenas dois quadros (um inicial e um final) disponíveis. O processo, denominado inbetweening, é geralmente realizado treinando / executando redes neurais recorrentes, usando unidades recorrentes com portas ou memória de longo prazo.

No entanto, neste estudo, os pesquisadores mostraram que esse problema (intermediário) pode ser resolvido por meio de uma rede neural convolucional 3D. Uma grande vantagem desse método é a simplicidade. Uma vez que não usa nenhum elemento recorrente, os caminhos de gradiente mais curtos podem permitir redes mais profundas e um treinamento mais estável.

Modelo totalmente convolucional


Em uma rede convolucional, é muito fácil impor consistência temporal com os quadros inicial e final (fornecidos como entradas). O modelo tem 3 componentes principais -
  1. Um codificador de imagem convolucional 2D para mapear quadros-chave de entrada para um espaço latente.
  2. Um gerador de representação latente convolucional 3D para incorporar os dados dos quadros de entrada com resolução temporal progressivamente crescente.
  3. Um gerador de vídeo para decodificar a representação latente em quadros de vídeo.

Referência:arXiv:1905.10240 | NVIDIA

A equipe tentou criar o vídeo diretamente a partir das representações codificadas dos quadros inicial e final, mas os resultados não foram adequados. É por isso que eles projetaram o gerador de representações latentes, que estocasticamente funde as representações do quadro principal e aumenta de forma constante a resolução temporal do vídeo final.

Teste


A equipe testou seu modelo em vários conjuntos de dados disponíveis publicamente, incluindo UCF101 Action Recognition, BAIR e KTH Action Database.

Exemplos de quadros criados pelo novo modelo | Cortesia de pesquisadores

Os resultados finais:cada amostra no conjunto de dados continha um total de 16 quadros, dos quais 14 foram gerados por redes neurais convolucionais. O modelo foi executado mais de cem vezes para cada par de quadros-chave e todo o processo foi repetido 10 vezes para cada variante do modelo.

Leia:A nova IA converte vídeos em preto e branco em cores em tempo real

Em todos os casos, o modelo foi capaz de criar sequências de vídeo realistas, uma vez que os quadros principais estão separados por cerca de 1/2 segundo. Além disso, os pesquisadores mostraram que é possível criar uma variedade de sequências, simplesmente alterando o vetor de ruído de entrada que conduz o processo generativo. Este novo método pode fornecer uma perspectiva alternativa valiosa para estudos futuros sobre criação de vídeo.

Tecnologia industrial

  1. Fácil início no mundo da IoT com MQTT
  2. Prototipagem rápida de SLA com a nova resina de rascunho
  3. A nova IA do Google pode criar um vídeo apenas com os frames inicial e final
  4. Como podemos facilitar a educação com a Internet das coisas?
  5. Comece com o Fim (Cibersegurança) em mente
  6. Como a automação do pedido de vendas pode criar estabilidade durante a pandemia
  7. O fim das cadeias de suprimentos de fonte única
  8. Repensando sua cadeia de suprimentos? Comece com o armazém
  9. Como os varejistas podem atenuar o impacto de novas sobretaxas de envio
  10. O fim de uma era, início de um novo capítulo no DVIRC