Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas


Embora os esforços anteriores tenham melhorado a síntese de texto para imagem, o AttnGAN da Microsoft avança neste campo ao gerar imagens fotorrealistas a partir de instruções textuais concisas, aproveitando uma extensa biblioteca de imagens rotuladas.

Desenvolvido na Microsoft Research, o AttnGAN analisa palavras individuais em um prompt para orientar a construção da imagem. De acordo com a equipe, a abordagem oferece qualidade de imagem cerca de três vezes maior do que os modelos de última geração anteriores.

O processo criativo do bot


Imagine que lhe pedissem para desenhar um pássaro azul com asas vermelhas e bico curto. Você começaria com um esboço e depois preencheria cores e detalhes. AttnGAN segue a mesma lógica, analisando cada palavra para construir uma imagem detalhada e coerente.

O bot pode renderizar qualquer assunto – desde gadgets até vida selvagem – e muitas vezes adiciona elementos de fundo contextualmente apropriados que não foram mencionados explicitamente, mostrando sua capacidade de detalhes “imaginados”.

As imagens são sintetizadas pixel a pixel a partir do zero, permitindo ao modelo criar cenas que podem não existir na realidade. Esta tarefa generativa é inerentemente mais complexa do que simplesmente rotular uma foto existente.

Como AttnGAN gera imagens

  1. Gerador: Cria imagens com base na descrição textual.
  2. Discriminador: Avalia a autenticidade da imagem gerada em relação à descrição.

Ambos os modelos são treinados em conjunto, permitindo que o gerador aprenda com o feedback do discriminador e alcance uma fidelidade progressivamente maior.

O treinamento envolveu milhares de conjuntos de dados de legendas de fotos emparelhados, ensinando o AttnGAN a mapear palavras específicas em padrões visuais. Por exemplo, a palavra “elefante” aciona o modelo para produzir uma imagem que corresponda à aparência típica de um elefante.

O sistema divide frases complexas em palavras individuais, alinhando cada palavra com uma região da imagem. Durante o treinamento, ele também aprende o “senso comum artificial” para preencher os detalhes que faltam, garantindo uma composição realista.
Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas
Neste exemplo, o prompt mencionou apenas um pássaro. A AttnGAN colocou o pássaro de forma inteligente em um galho, um contexto comum do mundo real aprendido com seus dados de treinamento. Isso demonstra a capacidade do modelo de aplicar conhecimento contextual.

arXiv:1711.10485 – Artigo de pesquisa da Microsoft detalhando AttnGAN.
Microsoft revela AttnGAN:IA que transforma descrições de texto em imagens fotorrealistas
Quando desafiado a representar um autocarro de dois andares a flutuar num lago, o modelo produziu uma cena desfocada, mas reconhecidamente mista, destacando a sua luta para reconciliar elementos conflitantes no prompt.

Desempenho e casos de uso


AttnGAN supera os benchmarks anteriores, alcançando uma melhoria de 170,25% na pontuação inicial do conjunto de dados COCO e um ganho de 14,14% no conjunto de dados CUB.

As aplicações potenciais incluem assistentes de esboço para designers de interiores, refinamento de fotos ativado por voz e, com desenvolvimento adicional, produção de animação totalmente automatizada a partir de roteiros.

Outros geradores de arte de IA


A Microsoft não está sozinha na fusão de arte e IA. O DeepDream do Google criou imagens psicodélicas apresentadas em 2016, enquanto sua IA produziu música e síntese de fala, como o Tacotron2. Facebook e Nvidia também lançaram modelos generativos para carros, navios, animais e até avatares sintéticos de celebridades.

Leia sobre a IA de voz semelhante à humana do Google Tacotron2 .

Tecnologia industrial

  1. Os 10 melhores laptops da Consumer Electronics Show (CES) – 2020
  2. Plataformas de rede digital:as oportunidades futuras
  3. Recursos financeiros disponíveis para fabricantes de PPE no Missouri
  4. Como a energia sem fio está transformando a manufatura
  5. Cinco dicas para otimizar cadeias de suprimentos de saúde
  6. Tense está penetrando na Ásia-Pacífico – Tense Elektroniks-Review 2019
  7. Manufatura aditiva é impressão 3D?
  8. Corte e polimento de uma roda de moagem | Indústrias | Metalurgia
  9. Compare os preços do software CMMS e escolha o melhor para sua empresa
  10. Por que um plano de recuperação de incêndio é importante para oficinas mecânicas