Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

Google AI consegue rastreamento de objetos por meio da colorização de vídeo – uma abordagem autosupervisionada


Ensinar máquinas a rastrear objetos em um vídeo é uma das tarefas mais difíceis em visão computacional, principalmente porque requer um enorme conjunto de dados de treinamento rotulado para rastreamento. É claro que gravar e rotular tudo o que acontece na Terra seria impraticável.

É por isso que é necessário construir um sistema que aprenda a rastrear sem supervisão humana, em vez de utilizar uma enorme quantidade de clipes brutos e sem rótulos. Por que isso importa tanto, você perguntou? Bem, rastrear objetos em vídeos pode ser útil para inúmeras aplicações, como interação de objetos, reconhecimento de atividades, estilização de vídeo e muito mais.

Agora, pesquisadores do Google desenvolveram uma rede convolucional que aprende a copiar cores de um único referencial. Em vez de tentar estimar as cores diretamente de um quadro em tons de cinza, o modelo é obrigado a usar as cores do primeiro quadro de referência do vídeo.

Para copiar as cores corretas, a rede precisa aprender como apontar internamente para a região correta. Este novo modelo pode seguir diferentes objetos e rastrear oclusões sem precisar ser treinado em grandes conjuntos de dados rotulados.

Vídeos de recolorização


Para desenvolver este sistema de inteligência artificial, os pesquisadores aproveitaram a coerência temporal da cor, que oferece uma enorme quantidade de dados de treinamento para ensinar redes convolucionais para rastrear partes específicas do vídeo. Existem alguns casos excepcionais em que a cor não é temporalmente coerente, por exemplo, acender as luzes instantaneamente. No entanto, em geral as cores permanecem estáveis ​​ao longo do tempo.

Cores previstas a partir de referência de quadro único colorido | Crédito:Google

Primeiramente, o vídeo é descolorido e depois a rede realiza etapas de colorização porque uma cena pode conter objetos diferentes da mesma cor. Ao fazer isso, a máquina pode aprender como rastrear regiões ou objetos específicos.

Treinamento

Os pesquisadores usaram o conjunto de dados Kinetics (contém meio milhão de videoclipes que retratam atividades diárias) para treinar seu modelo. Eles converteram todos os quadros de vídeo, exceto o primeiro, em tons de cinza e treinaram a rede para estimar as cores corretas nos quadros seguintes.

Para copiar as cores originais de um único quadro, a rede convolucional aprendeu a apontar internamente para as cores certas. Isto forçou a rede a seguir um mecanismo explícito, que pode ser usado para rastreamento de objetos.

A rede rastreia objeto sem supervisão | Crédito:Google 

Apesar de o modelo não ser treinado em identidades sólidas, ele aprende a rastrear qualquer objeto ou parte visual do vídeo usando apenas um único (primeiro) quadro. Ele pode rastrear um único ponto ou entidade delineada no vídeo.

Referência: arXiv:1806.09594 | Blog de IA do Google

Para rastrear objetos ao colorir o vídeo, os pesquisadores fizeram apenas uma alteração:propagar rótulos representando regiões alvo, em vez de propagar cores por todo o clipe.

Rastreamento de pose


Rastreando movimentos do esqueleto humano | Crédito:Google

A rede também é capaz de rastrear poses humanas:requer um quadro inicial rotulado com pontos-chave e faz o resto do trabalho. No entanto, prever pontos-chave nos quadros a seguir não é tão fácil quanto parece, porque é necessário ter uma localização refinada de cada ponto-chave quando as pessoas no vídeo sofrem deformação.

Os pesquisadores demonstraram o recurso de rastreamento de pose da rede no conjunto de dados JHMDB (um conjunto de dados totalmente anotado para poses e ações humanas), onde rastrearam um esqueleto articular humano.

A rede obtém desempenho semelhante ao fluxo óptico, indicando que pode estar aprendendo algumas características de movimento. Ele aprende a rastrear poses humanas e segmentos de vídeo bem o suficiente para superar ligeiramente as mais recentes técnicas baseadas em fluxo óptico.

Leia:Google AI pode criar clipes de vídeo curtos a partir de duas imagens estáticas

O modelo ainda não é perfeito. Em alguns experimentos, ele não conseguiu colorir vídeos e rastrear segmentos. Portanto, os pesquisadores planejam melhorar ainda mais o processo de colorização de vídeo, o que pode, em última análise, se traduzir em um rastreamento auto-supervisionado aprimorado.

Tecnologia industrial

  1. Os 50 principais blogs de confiabilidade do site
  2. Óculos embaçados
  3. Circuito Monitor de Frequência Cardíaca:Um Guia Bem Detalhado
  4. Benefícios de escolher uma negociação vs. Indo para a faculdade
  5. Manual do fabricante para mudar para venda direta ao cliente
  6. Tamanhos menores, custo mais alto:o que está acontecendo com a redução de fluxo?
  7. Lei de Disputas Industriais de 1947 - Objetivos, Propósito, Pdf, Notas
  8. De volta ao básico:o guia definitivo do CMMS, parte 3
  9. Avaliações da bateria
  10. O que é iluminação com eficiência energética e técnicas para implementá-la