IA transforma dançarinos amadores em profissionais com transferência de movimento de aprendizagem profunda
- Um sistema inovador de aprendizagem profunda pode replicar a coreografia das principais estrelas da dança em qualquer vídeo.
- Requer apenas entrada de vídeo comum (não são necessários equipamentos 3D caros ou trajes de captura de movimento) para produzir resultados com qualidade de estúdio.
A Inteligência Artificial está a remodelar indústrias, desde a eletrónica de consumo até à exploração espacial, e esta última inovação mostra o seu poder transformador nas artes. Pesquisadores da Universidade da Califórnia desenvolveram um algoritmo de transferência de movimento que mapeia os movimentos de um dançarino fonte para um artista alvo, fazendo com que até mesmo um participante casual pareça uma bailarina experiente ou um ícone pop.
A ideia central é direta:“Faça como eu”. Em questão de minutos, o sistema pode sobrepor movimentos de dança profissionais a um tema alvo, abrindo novas possibilidades criativas para artistas, educadores e criadores de conteúdo.
Como funciona a tecnologia
O processo começa com a extração de esqueletos de pose baseados em pontos-chave dos vídeos de origem e de destino. Esses bonecos palito fornecem uma representação leve e independente da posição do corpo, permitindo que o modelo se concentre apenas no movimento.
A pose de cada quadro é gerada por um algoritmo de estimativa de pose supervisionado, produzindo bonecos precisos. O modelo de transferência de movimento então ingere esses esqueletos, gerando imagens alvo que imitam a pose da fonte, preservando a aparência do alvo. O resultado final é refinado através da fusão do módulo de transferência de pose com uma rede de refinamento generativo, proporcionando quadros mais nítidos e realistas.
O fluxo de trabalho é dividido em três etapas:
- Detecção de pose – extraia pontos-chave 2D da filmagem de origem e de destino.
- Normalização global da pose – alinhe os esqueletos entre os assuntos.
- Mapeamento de pose – sintetize quadros de destino que correspondam à pose de origem.
Para garantir suavidade temporal, o algoritmo combina a pose do quadro atual com o quadro gerado anteriormente, reduzindo drasticamente o jitter. Para entradas com baixa taxa de quadros, um filtro mediano é aplicado; para vídeos com alta taxa de quadros (até 120 fps), é usada a suavização gaussiana de pontos-chave.
Resultados de alta fidelidade são alcançados integrando Redes Adversariais Generativas Condicionais (cGANs) treinadas em mais de 20 minutos de imagens de dança amadora com alta taxa de quadros por sujeito. A arquitetura pix2pixHD, desenvolvida pela NVIDIA, serve como espinha dorsal para o pipeline de tradução de imagens.
Referência:arXiv:1808.07371
O treinamento e a inferência foram realizados nas GPUs NVIDIA GeForce GTX1080Ti e TITANXp usando PyTorch com aceleração CUDA.
Direções Futuras
O algoritmo atualmente suporta transferência de movimento em uma ampla variedade de assuntos sem a necessidade de hardware especializado. No entanto, a instabilidade ocasional permanece, especialmente quando a velocidade de movimento da fonte excede o alcance observado durante o treinamento. A pesquisa em andamento concentra-se na otimização dos métodos de estimativa de pose e na expansão do repertório de movimentos para mitigar esses artefatos.
Para avanços relacionados, consulte:NVIDIA AI pode converter vídeos de 30fps em 240fps
Tecnologia industrial
- Cobots e manufatura:3 maneiras de automação colaborativa ajudar sua loja
- A importância da visibilidade na última milha nos EUA
- Fabricação de correias transportadoras
- Três dicas para melhorar a aquisição de frete no impasse da cadeia de suprimentos
- O edifício inteligente sem COVID (Parte 1)
- O que é Multímetro? Funcionamento de multímetros analógicos e digitais
- Desenvolvimento de tecnologia de controle numérico e máquinas-ferramentas CNC
- A lista definitiva de recursos do software CMMS
- Guia passo a passo:Instalando o Node-RED no PLCnext usando Podman
- O que é manutenção periódica?