Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas
- O AttnGAN da Microsoft pode gerar imagens de alta fidelidade a partir de texto simples e legendas.
- O sistema emprega uma arquitetura de dois modelos:um gerador que cria a imagem e um discriminador que avalia seu realismo.
- Ele adiciona detalhes contextualmente relevantes além do prompt, demonstrando uma camada interna de “imaginação”.
- Possíveis aplicações futuras incluem produção de animação totalmente automatizada guiada por scripts.
Embora os esforços anteriores tenham melhorado a síntese de texto para imagem, o AttnGAN da Microsoft avança neste campo ao gerar imagens fotorrealistas a partir de instruções textuais concisas, aproveitando uma extensa biblioteca de imagens rotuladas.
Desenvolvido na Microsoft Research, o AttnGAN analisa palavras individuais em um prompt para orientar a construção da imagem. De acordo com a equipe, a abordagem oferece qualidade de imagem cerca de três vezes maior do que os modelos de última geração anteriores.
O processo criativo do bot
Imagine que lhe pedissem para desenhar um pássaro azul com asas vermelhas e bico curto. Você começaria com um esboço e depois preencheria cores e detalhes. AttnGAN segue a mesma lógica, analisando cada palavra para construir uma imagem detalhada e coerente.
O bot pode renderizar qualquer assunto – desde gadgets até vida selvagem – e muitas vezes adiciona elementos de fundo contextualmente apropriados que não foram mencionados explicitamente, mostrando sua capacidade de detalhes “imaginados”.
As imagens são sintetizadas pixel a pixel a partir do zero, permitindo ao modelo criar cenas que podem não existir na realidade. Esta tarefa generativa é inerentemente mais complexa do que simplesmente rotular uma foto existente.
Como AttnGAN gera imagens
- Gerador: Cria imagens com base na descrição textual.
- Discriminador: Avalia a autenticidade da imagem gerada em relação à descrição.
Ambos os modelos são treinados em conjunto, permitindo que o gerador aprenda com o feedback do discriminador e alcance uma fidelidade progressivamente maior.
O treinamento envolveu milhares de conjuntos de dados de legendas de fotos emparelhados, ensinando o AttnGAN a mapear palavras específicas em padrões visuais. Por exemplo, a palavra “elefante” aciona o modelo para produzir uma imagem que corresponda à aparência típica de um elefante.
O sistema divide frases complexas em palavras individuais, alinhando cada palavra com uma região da imagem. Durante o treinamento, ele também aprende o “senso comum artificial” para preencher os detalhes que faltam, garantindo uma composição realista.
Neste exemplo, o prompt mencionou apenas um pássaro. A AttnGAN colocou o pássaro de forma inteligente em um galho, um contexto comum do mundo real aprendido com seus dados de treinamento. Isso demonstra a capacidade do modelo de aplicar conhecimento contextual.
arXiv:1711.10485 – Artigo de pesquisa da Microsoft detalhando AttnGAN.
Quando desafiado a representar um autocarro de dois andares a flutuar num lago, o modelo produziu uma cena desfocada, mas reconhecidamente mista, destacando a sua luta para reconciliar elementos conflitantes no prompt.
Desempenho e casos de uso
AttnGAN supera os benchmarks anteriores, alcançando uma melhoria de 170,25% na pontuação inicial do conjunto de dados COCO e um ganho de 14,14% no conjunto de dados CUB.
As aplicações potenciais incluem assistentes de esboço para designers de interiores, refinamento de fotos ativado por voz e, com desenvolvimento adicional, produção de animação totalmente automatizada a partir de roteiros.
Outros geradores de arte de IA
A Microsoft não está sozinha na fusão de arte e IA. O DeepDream do Google criou imagens psicodélicas apresentadas em 2016, enquanto sua IA produziu música e síntese de fala, como o Tacotron2. Facebook e Nvidia também lançaram modelos generativos para carros, navios, animais e até avatares sintéticos de celebridades.
Leia sobre a IA de voz semelhante à humana do Google Tacotron2 .
Tecnologia industrial
- Os 10 melhores laptops da Consumer Electronics Show (CES) – 2020
- Plataformas de rede digital:as oportunidades futuras
- Recursos financeiros disponíveis para fabricantes de PPE no Missouri
- Como a energia sem fio está transformando a manufatura
- Cinco dicas para otimizar cadeias de suprimentos de saúde
- Tense está penetrando na Ásia-Pacífico – Tense Elektroniks-Review 2019
- Manufatura aditiva é impressão 3D?
- Corte e polimento de uma roda de moagem | Indústrias | Metalurgia
- Compare os preços do software CMMS e escolha o melhor para sua empresa
- Por que um plano de recuperação de incêndio é importante para oficinas mecânicas