AI gera imagens de uma refeição acabada a partir de uma receita simples baseada em texto
- Novo sistema baseado em aprendizagem profunda pode gerar automaticamente imagens a partir de uma longa descrição baseada em texto.
- Os pesquisadores demonstraram uma rede que usa uma receita como entrada e constrói uma imagem do zero.
Gerar imagens a partir de uma breve descrição visual é uma tarefa desafiadora e possui inúmeras aplicações em visão computacional. Estudos recentes provaram que Generative Adversarial Networks (GAN) pode efetivamente sintetizar imagens realistas de alta qualidade com baixa resolução e baixa variabilidade.
Uma contribuição recente feita por uma equipe de pesquisa da Universidade de Tel Aviv, em Israel, pode ajudar a acelerar a pesquisa neste campo. Eles construíram um modelo baseado em aprendizado profundo que pode criar automaticamente imagens a partir de uma descrição baseada em texto.
Em particular, eles demonstraram seu sistema gerando imagens de uma refeição acabada a partir de uma receita escrita simples. Para fazer isso, o sistema usa uma combinação de GAN Stacked de última geração e incorporação de modos transversais de aprendizagem para receitas de culinária e imagens de alimentos.
Redes adversárias geradoras condicionais
Basicamente, os GANs são compostos por dois modelos (gerador e discriminador) que são treinados para competir entre si. O gerador é projetado para sintetizar imagens semelhantes à distribuição de dados original, enquanto o trabalho do discriminador é diferenciar entre as imagens originais e sintéticas.
Neste trabalho, os pesquisadores usaram GANs condicionais em que tanto o gerador quanto o discriminador são obrigados a considerar uma condição específica. Eles propuseram dois tipos de técnicas de embedding:regularização semântica e não semântica. Essas técnicas são compostas de três etapas:
- Incorporação inicial dos ingredientes e instruções de cozimento.
- Incorporação neural combinada de toda a receita.
- Integração de uma perda de regularização semântica usando um objetivo de classificação de alto nível.
O GAN condicional é treinado em 52.000 receitas baseadas em texto e suas imagens correspondentes. Ele é treinado usando GPUs NVIDIA TITAN X com a biblioteca CUDA Deep Neural Network. Uma vez treinado, o sistema construiu imagens de como a receita poderia ser a partir de uma longa descrição (que não continha nenhuma informação visual).
Referência:arXiv:1901.02404 | Universidade de Tel-Aviv
Avaliação Humana
A rede pega uma receita como entrada e cria uma imagem (do zero) que melhor reflete a descrição baseada em texto da comida. O que é realmente impressionante aqui é que o sistema não tem nenhum acesso ao título da receita - caso contrário, o trabalho se tornaria muito fácil - e o texto da receita é bastante longo. Isso torna a tarefa difícil até para os humanos.
Cortesia de pesquisadores
Para avaliar melhor as imagens sintetizadas, a equipe pediu a 30 pessoas que julgassem as imagens mais atraentes em uma escala de 1 a 5. Eles apresentaram 10 pares correspondentes de imagens resultantes (escolhidas aleatoriamente) geradas por cada técnica de incorporação.
Os resultados mostraram que o método de regularização não semântica supera a regularização semântica ao produzir imagens mais vívidas com detalhes fotorrealísticos. Na verdade, algumas pessoas acharam muito difícil diferenciar entre imagens reais e sintéticas.
Leia:IA pode gerar milhões de combinações artísticas para resultados fotorrealísticos
Além disso, ambas as técnicas de incorporação tiveram sucesso na produção de imagens de alimentos "semelhantes a mingaus" (como salada, sopas e arroz), mas lutam para criar imagens de alimentos que tenham uma forma distinta (como frango, hambúrguer e bebidas).
Tecnologia industrial
- Um Circuito Muito Simples
- Um computador muito simples
- Op-Amp simples
- Bloqueio de combinação simples
- Ressonância de série simples
- Primeiras imagens 3D de rachaduras microscópicas em ligas
- Nova máquina gera eletricidade a partir de bola de neve
- Adquirindo um software CMMS simples
- Um guia simples para benchmark de manutenção
- Uma biblioteca simples baseada em REST para usar variáveis em PLCnext AXC F 2152 PLC de Python