O poder da IA na automação industrial

As abordagens mais avançadas para sistemas robóticos totalmente inteligentes

AI (inteligência artificial) permite a automação de um número crescente de processos de negócios e aplicações industriais. O escopo e o ritmo da automação inteligente dependem diretamente dos avanços na IA e, como tal, experimentaram saltos gigantescos nos últimos anos. Combinada com uma poderosa visão de máquina 3D, a IA permite que os robôs reconheçam, localizem e manipulem qualquer tipo de objeto e, assim, automatizem tarefas que seriam muito perigosas, monótonas ou exigentes para os humanos.

Mas o que significa IA na automação industrial, como funciona e que possibilidades abre para fábricas e empresas que buscam modernidade, inovação e aumento de produtividade? Em primeiro lugar, vamos dar uma olhada nos primórdios da IA e seu desenvolvimento gradual.

Das primeiras arquiteturas às redes neurais convolucionais

O termo IA pode representar uma série de capacidades e processos da máquina – desde estatísticas simples até árvores de decisão até redes neurais, como redes neurais convolucionais, ou abordagens ainda mais avançadas, como aprendizado por reforço.

A história do desenvolvimento da IA testemunhou várias abordagens, mas as redes neurais se mostraram as mais promissoras e interessantes graças à sua capacidade de generalização.

Na década de 1990 e início dos anos 2000, as redes neurais receberam grande atenção graças às primeiras aplicações bem-sucedidas de reconhecimento de caracteres que incluíam a leitura de números manuscritos em cheques bancários e CEPs de cartas. Essas redes neurais foram treinadas em um chamado conjunto de dados MNIST (representando Instituto Nacional Modificado de Padrões e Tecnologia ), que é uma coleção de dígitos manuscritos de 0 a 9 usados em aprendizado de máquina e visão de máquina para sistemas de processamento de imagem de treinamento. O conjunto de dados MNIST serviu como base para algoritmos de classificação de benchmarking e ainda é usado hoje para fins de treinamento e teste.

Embora essas redes neurais clássicas sejam capazes de aprender praticamente qualquer coisa, elas representam uma arquitetura antiga e totalmente conectada e treiná-los requer muito tempo e esforço . Isso ocorre porque todos os neurônios em uma camada estão totalmente conectados aos neurônios na próxima camada – o que significa um grande número de parâmetros para aprender, aumentando com o tamanho de uma imagem. Embora o desempenho dos computadores tenha melhorado com o tempo, ainda leva muito tempo para treinar o reconhecimento até mesmo de imagens pequenas.

Um ponto de virada no desenvolvimento da IA  foi marcado pela introdução de redes neurais convolucionais (CNNs) . As CNNs são usadas principalmente para analisar imagens visuais, incluindo classificação de imagens ou reconhecimento de padrões , e formam a espinha dorsal de muitos sistemas modernos de visão de máquina. Outro campo principal de aplicação é o processamento de linguagem natural.

Uma CNN é, falando de maneira muito vaga, inspirada no sistema de córtex visual do cérebro. A ideia principal por trás das CNNs não é conectar todos os neurônios entre si, como é o caso das redes totalmente conectadas, mas apenas com neurônios vizinhos para criar proximidade, já que entradas vizinhas, como pixels, carregam informações relacionadas. Isso significa que as CNNs podem ter várias camadas e os neurônios de uma camada estão conectados apenas aos neurônios da próxima camada que estão espacialmente próximos a eles . Isso reduz a complexidade, o número de neurônios na rede e, consequentemente, também o número de parâmetros a serem aprendidos. Graças a isso, as CNNs são mais rápidas de treinar, precisam de menos amostras e também podem ser aplicadas a imagens maiores.

O termo “convolucional” refere-se ao processo de filtragem através do qual as CNNs detectam padrões. As camadas individuais convolvem , ou seja, combinar , a entrada e passar o resultado para a próxima camada.

O progresso no desenvolvimento de CNNs também foi acelerado pelos avanços nas unidades de processamento gráfico (GPUs). Seu desempenho e poder de cálculo melhoraram imensamente nos últimos anos, abrindo novas possibilidades para o treinamento de CNNs.

Um dos líderes mais reconhecidos no campo da IA, muitas vezes referido como o “Padrinho da IA”, é Geoffrey Hinton . É formado em psicologia experimental e inteligência artificial. Essa combinação deu a ele uma grande visão sobre como treinar redes neurais artificiais.

Em 2012, seu aluno Alex Krizhevsky marcou outro ponto de virada na IA quando ele criou uma CNN capaz de imitar a maneira como o cérebro humano reconhece objetos. A CNN foi nomeada a AlexNet e pela primeira vez na história permitiu que uma máquina identificasse objetos como uma pessoa.

Esse avanço popularizou as redes neurais convolucionais e mostrou a enorme variedade de aplicações em que as CNNs poderiam ser usadas.

Treinando uma rede neural convolucional

No reconhecimento de objetos, é importante que uma CNN tenha uma propriedade chamada invariância . Isso significa que é invariável à tradução, ponto de vista, tamanho ou iluminação para poder interpretar padrões de entrada e classificar objetos independentemente de onde e como eles são colocados em uma imagem. Para conseguir isso, a CNN precisa ser treinada em uma certa quantidade de exemplos. Uma das práticas recomendadas para aumentar a quantidade de dados relevantes em um conjunto de dados é o aumento de dados .

O aumento é a prática de modificar os dados de entrada, ou seja, a imagem original, para gerar várias outras versões ligeiramente alteradas dela. As técnicas de aumento incluem inversão horizontal ou vertical, rotação, dimensionamento, corte, movimentação da imagem ao longo da direção X ou Y e outras.

Treinar uma CNN em dados alterados torna seus neurônios imunes a tais aumentos e a impede de aprender padrões irrelevantes. Um papagaio invertido ainda será reconhecido como um papagaio.

O que é muito útil aqui é o chamado aprendizado por transferência . Para eliminar a quantidade de dados de treinamento, pode-se usar uma rede existente e já treinada e aplicar alguns de seus filtros para o reconhecimento de novos tipos de objetos. Por exemplo, uma rede treinada para o reconhecimento de cães também pode ser utilizada para o reconhecimento de gatos mantendo alguns de seus filtros e modificando apenas uma parte deles. Isso significa que a rede se adaptará ao reconhecimento de gatos.

Benefícios das redes neurais convolucionais modulares

O grande valor das CNNs reside em sua arquitetura e no fato de que os módulos individuais olham para blocos de imagem únicos. Os módulos não precisam ser treinados simultaneamente e podem ser facilmente unidos. A combinação desses módulos bem treinados deu origem a arquiteturas complexas que podem ser usadas para segmentação .

Em contraste com o AlexNet, que só pode reconhecer o que está na imagem, essas CNNs complexas podem segmentar objetos e definir a localização do objeto na imagem .

Essa modularidade permite usar vários canais de entrada, o que significa que se o CNN foi usado para dados em preto e branco, também pode ser usado para dados em cores e, se foi usado para dados em cores, pode ser estendido por informações de profundidade. Adicionar informações adicionais aumenta o desempenho da CNN , que inclui maior precisão e melhor reconhecimento de objetos e suas posições.

Do reconhecimento de objetos a soluções de automação inteligentes

Com base nos recursos e características acima de redes neurais convolucionais, Photoneo tomou CNNs como base para seus sistemas avançados de inteligência robótica e soluções de automação .

Photoneo’s CNN works with black &white data, color data, as well as depth information. The algorithms are trained on a large dataset of objects and if they come across new types of items, they can quickly generalize, that is, recognize and classify objects which it has not “seen” before.

Let’s take the concept of a box, for instance. The algorithms were trained on a large dataset of boxes so they understand that a box has a certain amount of faces, edges, and vertices. This principle will also work for boxes that the algorithms have not come across before, even squeezed or damaged ones. The greatest value of AI lies in the fact that it can generalize concepts that it was trained on without further retraining.

This enables Photoneo systems to recognize items of various shapes, sizes, colors, or materials – a robotic ability used for the localization and handling of mixed objects, including organic items such as fruit or fish, sorting of parcels, unloading of pallets laden with boxes, and many other industrial applications.

It might also happen that the algorithms come across objects with features that are fundamentally different from those the algorithms were trained on. This might confuse the CNN and cause a decrease in its performance. What can be done to solve this problem is either to prevent it by expecting exotic objects or to have a good retraining system. In the latter case, the performance will be temporarily lower but the CNN will be retrained to reach full performance rather quickly.

In case a customer needs to pick unusual items or non-commercial products such as industrial components, the CNN can be trained on a specific dataset containing these exotic items .

When it comes to the realization of a customer project, the customer receives Photoneo’s CNN for pilot testing and a feasibility study to ensure that the network can be used for that particular application. This CNN can then be improved and further trained on images from the pilot phase of the project, which will provide greater variability.

The greatest challenge in AI-powered object recognition and picking

The greatest challenge could also be described as the last puzzle piece that was missing in the range of pickable objects. This last piece was bags .

The difficulty lies in the nature of bags since they are extremely deformable and full of wrinkles, folds, and other irregularities. Despite the challenges that bags pose to AI, Photoneo developed a system that is able to recognize and pick bags, may they be full, half-empty, colored, transparent, or semi-transparent. This task is often challenging even for the human eye, which may find it difficult to recognize boundaries between bags that are chaotically placed in a container, especially if they are transparent.

However, good recognition and localization of bags are only part of the precondition for successful object picking. The other part relates to the mechanical side of an application – the robot gripper. The fact that bags are full of folds and wrinkles increases the risk that they will fall off the gripper. This risk can be prevented by using an appropriate vacuum gripper with feedback.

Future developments of AI

Despite significant advancements that have been made in AI in recent years, the field still offers a vast space for new achievements. For instance, so-called reinforcement learning receives great attention as it seems to be very promising in suggesting complex movements, for instance allowing a robot to adjust the position of an item before grasping it.

Reinforcement learning is not only able to cope with object recognition but also with mechanical problems of an application. This means that it not only enables a system to recognize items but also assess the individual steps of a robot action on the basis of rewards and punishments and “calculate” the chance of success or failure . In other words, AI algorithms are trained to make a sequence of decisions that will lead to actions maximizing the total reward. An example of the power of reinforcement learning is mastering and winning the board game of Go.

Despite its immense potential, reinforcement learning is closely linked to the environment it is set in and to the limitations it may pose. For example, the deployed gripper and its functionalities and limitations will always influence a system’s overall performance.

AI is the main driver of emerging technologies and its developments will be very dependent on a number of factors, including market demands, customer expectations, competition, and many others.

Sistemas de visão 3D – qual é o certo para você? Paletizador robótico – ótima solução de fim de linha

Sistema de controle de automação

Processo de manufatura

impressao 3D