AI gera imagens de uma refeição acabada a partir de uma receita simples baseada em texto

Novo sistema baseado em aprendizagem profunda pode gerar automaticamente imagens a partir de uma longa descrição baseada em texto.
Os pesquisadores demonstraram uma rede que usa uma receita como entrada e constrói uma imagem do zero.

Gerar imagens a partir de uma breve descrição visual é uma tarefa desafiadora e possui inúmeras aplicações em visão computacional. Estudos recentes provaram que Generative Adversarial Networks (GAN) pode efetivamente sintetizar imagens realistas de alta qualidade com baixa resolução e baixa variabilidade.

Uma contribuição recente feita por uma equipe de pesquisa da Universidade de Tel Aviv, em Israel, pode ajudar a acelerar a pesquisa neste campo. Eles construíram um modelo baseado em aprendizado profundo que pode criar automaticamente imagens a partir de uma descrição baseada em texto.

Em particular, eles demonstraram seu sistema gerando imagens de uma refeição acabada a partir de uma receita escrita simples. Para fazer isso, o sistema usa uma combinação de GAN Stacked de última geração e incorporação de modos transversais de aprendizagem para receitas de culinária e imagens de alimentos.

Redes adversárias geradoras condicionais

Basicamente, os GANs são compostos por dois modelos (gerador e discriminador) que são treinados para competir entre si. O gerador é projetado para sintetizar imagens semelhantes à distribuição de dados original, enquanto o trabalho do discriminador é diferenciar entre as imagens originais e sintéticas.

Neste trabalho, os pesquisadores usaram GANs condicionais em que tanto o gerador quanto o discriminador são obrigados a considerar uma condição específica. Eles propuseram dois tipos de técnicas de embedding:regularização semântica e não semântica. Essas técnicas são compostas de três etapas:

Incorporação inicial dos ingredientes e instruções de cozimento.
Incorporação neural combinada de toda a receita.
Integração de uma perda de regularização semântica usando um objetivo de classificação de alto nível.

O GAN condicional é treinado em 52.000 receitas baseadas em texto e suas imagens correspondentes. Ele é treinado usando GPUs NVIDIA TITAN X com a biblioteca CUDA Deep Neural Network. Uma vez treinado, o sistema construiu imagens de como a receita poderia ser a partir de uma longa descrição (que não continha nenhuma informação visual).

Referência:arXiv:1901.02404 | Universidade de Tel-Aviv

Avaliação Humana

A rede pega uma receita como entrada e cria uma imagem (do zero) que melhor reflete a descrição baseada em texto da comida. O que é realmente impressionante aqui é que o sistema não tem nenhum acesso ao título da receita - caso contrário, o trabalho se tornaria muito fácil - e o texto da receita é bastante longo. Isso torna a tarefa difícil até para os humanos.

Cortesia de pesquisadores

Para avaliar melhor as imagens sintetizadas, a equipe pediu a 30 pessoas que julgassem as imagens mais atraentes em uma escala de 1 a 5. Eles apresentaram 10 pares correspondentes de imagens resultantes (escolhidas aleatoriamente) geradas por cada técnica de incorporação.

Os resultados mostraram que o método de regularização não semântica supera a regularização semântica ao produzir imagens mais vívidas com detalhes fotorrealísticos. Na verdade, algumas pessoas acharam muito difícil diferenciar entre imagens reais e sintéticas.

Leia:IA pode gerar milhões de combinações artísticas para resultados fotorrealísticos

Além disso, ambas as técnicas de incorporação tiveram sucesso na produção de imagens de alimentos "semelhantes a mingaus" (como salada, sopas e arroz), mas lutam para criar imagens de alimentos que tenham uma forma distinta (como frango, hambúrguer e bebidas).

AI agora pode detectar e mapear assentamentos informais no mundo 15 piores vírus de computador de todos os tempos | Explicou

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial