Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas

O AttnGAN da Microsoft pode gerar imagens de alta fidelidade a partir de texto simples e legendas.
O sistema emprega uma arquitetura de dois modelos:um gerador que cria a imagem e um discriminador que avalia seu realismo.
Ele adiciona detalhes contextualmente relevantes além do prompt, demonstrando uma camada interna de “imaginação”.
Possíveis aplicações futuras incluem produção de animação totalmente automatizada guiada por scripts.

Embora os esforços anteriores tenham melhorado a síntese de texto para imagem, o AttnGAN da Microsoft avança neste campo ao gerar imagens fotorrealistas a partir de instruções textuais concisas, aproveitando uma extensa biblioteca de imagens rotuladas.

Desenvolvido na Microsoft Research, o AttnGAN analisa palavras individuais em um prompt para orientar a construção da imagem. De acordo com a equipe, a abordagem oferece qualidade de imagem cerca de três vezes maior do que os modelos de última geração anteriores.

O processo criativo do bot

Imagine que lhe pedissem para desenhar um pássaro azul com asas vermelhas e bico curto. Você começaria com um esboço e depois preencheria cores e detalhes. AttnGAN segue a mesma lógica, analisando cada palavra para construir uma imagem detalhada e coerente.

O bot pode renderizar qualquer assunto – desde gadgets até vida selvagem – e muitas vezes adiciona elementos de fundo contextualmente apropriados que não foram mencionados explicitamente, mostrando sua capacidade de detalhes “imaginados”.

As imagens são sintetizadas pixel a pixel a partir do zero, permitindo ao modelo criar cenas que podem não existir na realidade. Esta tarefa generativa é inerentemente mais complexa do que simplesmente rotular uma foto existente.

Como AttnGAN gera imagens

Gerador: Cria imagens com base na descrição textual.
Discriminador: Avalia a autenticidade da imagem gerada em relação à descrição.

Ambos os modelos são treinados em conjunto, permitindo que o gerador aprenda com o feedback do discriminador e alcance uma fidelidade progressivamente maior.

O treinamento envolveu milhares de conjuntos de dados de legendas de fotos emparelhados, ensinando o AttnGAN a mapear palavras específicas em padrões visuais. Por exemplo, a palavra “elefante” aciona o modelo para produzir uma imagem que corresponda à aparência típica de um elefante.

O sistema divide frases complexas em palavras individuais, alinhando cada palavra com uma região da imagem. Durante o treinamento, ele também aprende o “senso comum artificial” para preencher os detalhes que faltam, garantindo uma composição realista.
Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas

Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas

Neste exemplo, o prompt mencionou apenas um pássaro. A AttnGAN colocou o pássaro de forma inteligente em um galho, um contexto comum do mundo real aprendido com seus dados de treinamento. Isso demonstra a capacidade do modelo de aplicar conhecimento contextual.

arXiv:1711.10485 – Artigo de pesquisa da Microsoft detalhando AttnGAN.
Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas

Quando desafiado a representar um autocarro de dois andares a flutuar num lago, o modelo produziu uma cena desfocada, mas reconhecidamente mista, destacando a sua luta para reconciliar elementos conflitantes no prompt.

Desempenho e casos de uso

AttnGAN supera os benchmarks anteriores, alcançando uma melhoria de 170,25% na pontuação inicial do conjunto de dados COCO e um ganho de 14,14% no conjunto de dados CUB.

As aplicações potenciais incluem assistentes de esboço para designers de interiores, refinamento de fotos ativado por voz e, com desenvolvimento adicional, produção de animação totalmente automatizada a partir de roteiros.

Outros geradores de arte de IA

A Microsoft não está sozinha na fusão de arte e IA. O DeepDream do Google criou imagens psicodélicas apresentadas em 2016, enquanto sua IA produziu música e síntese de fala, como o Tacotron2. Facebook e Nvidia também lançaram modelos generativos para carros, navios, animais e até avatares sintéticos de celebridades.

Leia sobre a IA de voz semelhante à humana do Google Tacotron2 .

Avanço na propulsão elétrica acelera nanorrobôs 100.000 vezes mais rápido Rússia aprova usina nuclear flutuante de 70 MW para abastecer Chukotka

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial