IA transforma dançarinos amadores em profissionais com transferência de movimento de aprendizagem profunda

Um sistema inovador de aprendizagem profunda pode replicar a coreografia das principais estrelas da dança em qualquer vídeo.
Requer apenas entrada de vídeo comum (não são necessários equipamentos 3D caros ou trajes de captura de movimento) para produzir resultados com qualidade de estúdio.

A Inteligência Artificial está a remodelar indústrias, desde a eletrónica de consumo até à exploração espacial, e esta última inovação mostra o seu poder transformador nas artes. Pesquisadores da Universidade da Califórnia desenvolveram um algoritmo de transferência de movimento que mapeia os movimentos de um dançarino fonte para um artista alvo, fazendo com que até mesmo um participante casual pareça uma bailarina experiente ou um ícone pop.

A ideia central é direta:“Faça como eu”. Em questão de minutos, o sistema pode sobrepor movimentos de dança profissionais a um tema alvo, abrindo novas possibilidades criativas para artistas, educadores e criadores de conteúdo.

Como funciona a tecnologia

O processo começa com a extração de esqueletos de pose baseados em pontos-chave dos vídeos de origem e de destino. Esses bonecos palito fornecem uma representação leve e independente da posição do corpo, permitindo que o modelo se concentre apenas no movimento.

IA transforma dançarinos amadores em profissionais com transferência de movimento de aprendizagem profunda

IA transforma dançarinos amadores em profissionais com transferência de movimento de aprendizagem profunda

A pose de cada quadro é gerada por um algoritmo de estimativa de pose supervisionado, produzindo bonecos precisos. O modelo de transferência de movimento então ingere esses esqueletos, gerando imagens alvo que imitam a pose da fonte, preservando a aparência do alvo. O resultado final é refinado através da fusão do módulo de transferência de pose com uma rede de refinamento generativo, proporcionando quadros mais nítidos e realistas.

O fluxo de trabalho é dividido em três etapas:

Detecção de pose – extraia pontos-chave 2D da filmagem de origem e de destino.
Normalização global da pose – alinhe os esqueletos entre os assuntos.
Mapeamento de pose – sintetize quadros de destino que correspondam à pose de origem.

Para garantir suavidade temporal, o algoritmo combina a pose do quadro atual com o quadro gerado anteriormente, reduzindo drasticamente o jitter. Para entradas com baixa taxa de quadros, um filtro mediano é aplicado; para vídeos com alta taxa de quadros (até 120 fps), é usada a suavização gaussiana de pontos-chave.

Resultados de alta fidelidade são alcançados integrando Redes Adversariais Generativas Condicionais (cGANs) treinadas em mais de 20 minutos de imagens de dança amadora com alta taxa de quadros por sujeito. A arquitetura pix2pixHD, desenvolvida pela NVIDIA, serve como espinha dorsal para o pipeline de tradução de imagens.

Referência:arXiv:1808.07371

O treinamento e a inferência foram realizados nas GPUs NVIDIA GeForce GTX1080Ti e TITANXp usando PyTorch com aceleração CUDA.

Direções Futuras

O algoritmo atualmente suporta transferência de movimento em uma ampla variedade de assuntos sem a necessidade de hardware especializado. No entanto, a instabilidade ocasional permanece, especialmente quando a velocidade de movimento da fonte excede o alcance observado durante o treinamento. A pesquisa em andamento concentra-se na otimização dos métodos de estimativa de pose e na expansão do repertório de movimentos para mitigar esses artefatos.

Para avanços relacionados, consulte:NVIDIA AI pode converter vídeos de 30fps em 240fps

Impressão acústica:ondas sonoras criam gotículas precisas de qualquer líquido Novas córneas de biotinta impressas em 3D podem reduzir a escassez de doadores – fabricação em 10 minutos alcançada

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial