Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

AI gera imagens de uma refeição acabada a partir de uma receita simples baseada em texto


Gerar imagens a partir de uma breve descrição visual é uma tarefa desafiadora e possui inúmeras aplicações em visão computacional. Estudos recentes provaram que Generative Adversarial Networks (GAN) pode efetivamente sintetizar imagens realistas de alta qualidade com baixa resolução e baixa variabilidade.

Uma contribuição recente feita por uma equipe de pesquisa da Universidade de Tel Aviv, em Israel, pode ajudar a acelerar a pesquisa neste campo. Eles construíram um modelo baseado em aprendizado profundo que pode criar automaticamente imagens a partir de uma descrição baseada em texto.

Em particular, eles demonstraram seu sistema gerando imagens de uma refeição acabada a partir de uma receita escrita simples. Para fazer isso, o sistema usa uma combinação de GAN Stacked de última geração e incorporação de modos transversais de aprendizagem para receitas de culinária e imagens de alimentos.

Redes adversárias geradoras condicionais


Basicamente, os GANs são compostos por dois modelos (gerador e discriminador) que são treinados para competir entre si. O gerador é projetado para sintetizar imagens semelhantes à distribuição de dados original, enquanto o trabalho do discriminador é diferenciar entre as imagens originais e sintéticas.

Neste trabalho, os pesquisadores usaram GANs condicionais em que tanto o gerador quanto o discriminador são obrigados a considerar uma condição específica. Eles propuseram dois tipos de técnicas de embedding:regularização semântica e não semântica. Essas técnicas são compostas de três etapas:
  1. Incorporação inicial dos ingredientes e instruções de cozimento.
  2. Incorporação neural combinada de toda a receita.
  3. Integração de uma perda de regularização semântica usando um objetivo de classificação de alto nível.

O GAN condicional é treinado em 52.000 receitas baseadas em texto e suas imagens correspondentes. Ele é treinado usando GPUs NVIDIA TITAN X com a biblioteca CUDA Deep Neural Network. Uma vez treinado, o sistema construiu imagens de como a receita poderia ser a partir de uma longa descrição (que não continha nenhuma informação visual).

Referência:arXiv:1901.02404 | Universidade de Tel-Aviv

Avaliação Humana


A rede pega uma receita como entrada e cria uma imagem (do zero) que melhor reflete a descrição baseada em texto da comida. O que é realmente impressionante aqui é que o sistema não tem nenhum acesso ao título da receita - caso contrário, o trabalho se tornaria muito fácil - e o texto da receita é bastante longo. Isso torna a tarefa difícil até para os humanos.

Cortesia de pesquisadores

Para avaliar melhor as imagens sintetizadas, a equipe pediu a 30 pessoas que julgassem as imagens mais atraentes em uma escala de 1 a 5. Eles apresentaram 10 pares correspondentes de imagens resultantes (escolhidas aleatoriamente) geradas por cada técnica de incorporação.

Os resultados mostraram que o método de regularização não semântica supera a regularização semântica ao produzir imagens mais vívidas com detalhes fotorrealísticos. Na verdade, algumas pessoas acharam muito difícil diferenciar entre imagens reais e sintéticas.

Leia:IA pode gerar milhões de combinações artísticas para resultados fotorrealísticos

Além disso, ambas as técnicas de incorporação tiveram sucesso na produção de imagens de alimentos "semelhantes a mingaus" (como salada, sopas e arroz), mas lutam para criar imagens de alimentos que tenham uma forma distinta (como frango, hambúrguer e bebidas).

Tecnologia industrial

  1. Um Circuito Muito Simples
  2. Um computador muito simples
  3. Op-Amp simples
  4. Bloqueio de combinação simples
  5. Ressonância de série simples
  6. Primeiras imagens 3D de rachaduras microscópicas em ligas
  7. Nova máquina gera eletricidade a partir de bola de neve
  8. Adquirindo um software CMMS simples
  9. Um guia simples para benchmark de manutenção
  10. Uma biblioteca simples baseada em REST para usar variáveis ​​em PLCnext AXC F 2152 PLC de Python