Google AI consegue rastreamento de objetos por meio da colorização de vídeo – uma abordagem autosupervisionada

Nova rede convolucional aprende a copiar cores de um quadro de referência para os quadros subsequentes.
Ao fazer isso, ele pode seguir diferentes objetos e rastrear oclusões.
Ele também pode rastrear poses humanas.

Ensinar máquinas a rastrear objetos em um vídeo é uma das tarefas mais difíceis em visão computacional, principalmente porque requer um enorme conjunto de dados de treinamento rotulado para rastreamento. É claro que gravar e rotular tudo o que acontece na Terra seria impraticável.

É por isso que é necessário construir um sistema que aprenda a rastrear sem supervisão humana, em vez de utilizar uma enorme quantidade de clipes brutos e sem rótulos. Por que isso importa tanto, você perguntou? Bem, rastrear objetos em vídeos pode ser útil para inúmeras aplicações, como interação de objetos, reconhecimento de atividades, estilização de vídeo e muito mais.

Agora, pesquisadores do Google desenvolveram uma rede convolucional que aprende a copiar cores de um único referencial. Em vez de tentar estimar as cores diretamente de um quadro em tons de cinza, o modelo é obrigado a usar as cores do primeiro quadro de referência do vídeo.

Para copiar as cores corretas, a rede precisa aprender como apontar internamente para a região correta. Este novo modelo pode seguir diferentes objetos e rastrear oclusões sem precisar ser treinado em grandes conjuntos de dados rotulados.

Vídeos de recolorização

Para desenvolver este sistema de inteligência artificial, os pesquisadores aproveitaram a coerência temporal da cor, que oferece uma enorme quantidade de dados de treinamento para ensinar redes convolucionais para rastrear partes específicas do vídeo. Existem alguns casos excepcionais em que a cor não é temporalmente coerente, por exemplo, acender as luzes instantaneamente. No entanto, em geral as cores permanecem estáveis ao longo do tempo.

Cores previstas a partir de referência de quadro único colorido | Crédito:Google

Primeiramente, o vídeo é descolorido e depois a rede realiza etapas de colorização porque uma cena pode conter objetos diferentes da mesma cor. Ao fazer isso, a máquina pode aprender como rastrear regiões ou objetos específicos.

Treinamento

Os pesquisadores usaram o conjunto de dados Kinetics (contém meio milhão de videoclipes que retratam atividades diárias) para treinar seu modelo. Eles converteram todos os quadros de vídeo, exceto o primeiro, em tons de cinza e treinaram a rede para estimar as cores corretas nos quadros seguintes.

Para copiar as cores originais de um único quadro, a rede convolucional aprendeu a apontar internamente para as cores certas. Isto forçou a rede a seguir um mecanismo explícito, que pode ser usado para rastreamento de objetos.

A rede rastreia objeto sem supervisão | Crédito:Google

Apesar de o modelo não ser treinado em identidades sólidas, ele aprende a rastrear qualquer objeto ou parte visual do vídeo usando apenas um único (primeiro) quadro. Ele pode rastrear um único ponto ou entidade delineada no vídeo.

Referência: arXiv:1806.09594 | Blog de IA do Google

Para rastrear objetos ao colorir o vídeo, os pesquisadores fizeram apenas uma alteração:propagar rótulos representando regiões alvo, em vez de propagar cores por todo o clipe.

Rastreamento de pose

Rastreando movimentos do esqueleto humano | Crédito:Google

A rede também é capaz de rastrear poses humanas:requer um quadro inicial rotulado com pontos-chave e faz o resto do trabalho. No entanto, prever pontos-chave nos quadros a seguir não é tão fácil quanto parece, porque é necessário ter uma localização refinada de cada ponto-chave quando as pessoas no vídeo sofrem deformação.

Os pesquisadores demonstraram o recurso de rastreamento de pose da rede no conjunto de dados JHMDB (um conjunto de dados totalmente anotado para poses e ações humanas), onde rastrearam um esqueleto articular humano.

A rede obtém desempenho semelhante ao fluxo óptico, indicando que pode estar aprendendo algumas características de movimento. Ele aprende a rastrear poses humanas e segmentos de vídeo bem o suficiente para superar ligeiramente as mais recentes técnicas baseadas em fluxo óptico.

Leia:Google AI pode criar clipes de vídeo curtos a partir de duas imagens estáticas

O modelo ainda não é perfeito. Em alguns experimentos, ele não conseguiu colorir vídeos e rastrear segmentos. Portanto, os pesquisadores planejam melhorar ainda mais o processo de colorização de vídeo, o que pode, em última análise, se traduzir em um rastreamento auto-supervisionado aprimorado.

IA detecta doenças, incluindo câncer, na respiração humana IA impulsiona renderização de cabelo 3D em tempo real com 30.000 fios

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial