A evolução da visão 3D

A visão 3D está no centro da automação moderna que melhora os processos industriais de inúmeras maneiras e facilita nossas vidas. Ele nos ajuda a classificar produtos, inspecionar objetos em aplicativos de controle de qualidade e encontrar defeitos neles, além de concluir as mais variadas tarefas com mais rapidez e eficiência do que os humanos jamais poderiam fazer. Robôs guiados por visão são comumente usados para realizar tarefas perigosas e manusear objetos pesados, portanto, eles também aumentam a segurança e eliminam o risco de lesões.

As tecnologias de detecção 3D percorreram um longo caminho para oferecer todos esses benefícios que podemos desfrutar hoje - e ainda avançam. Da primeira fotografia à imagem digital, do 2D ao 3D, e da digitalização 3D de objetos estáticos à captura de cenas dinâmicas. O que vem a seguir?

Juntamente com Tomas Kovacovsky, cofundador e CTO do Photoneo Group, analisamos a história da visão de máquina 3D até os últimos avanços que dominam as tendências atuais, como a Indústria 4.0. Vamos dar uma breve olhada nisso.

A fotografia e as primeiras tecnologias de captação de imagens

Desde os primórdios da fotografia, as pessoas ficaram fascinadas com a possibilidade de capturar e registrar eventos. A primeira foto conhecida foi tirada em algum lugar entre 1826 e 1827 pelo inventor francês Joseph Nicéphore Niépce. Embora seu processo fotográfico exigisse pelo menos oito horas, senão vários dias de exposição na câmera, seu associado Louis Daguerre desenvolveu o primeiro processo fotográfico anunciado publicamente (conhecido como Daguerreótipo) que levou apenas alguns minutos de exposição. A invenção foi apresentada ao público em 1839 – um ano que geralmente é considerado o nascimento da fotografia prática.

Por muito tempo, a fotografia serviu apenas como um meio para registrar eventos. Como o processamento da imagem demorava bastante, a tecnologia analógica não era ideal para ser usada em visão de máquina ou tarefas de tomada de decisão.

Em 1969, William Boyle e George E. Smith do Americal Bell Laboratories inventou o Sensor CCD (charge-coupled device) para gravação de imagens , que foi um marco importante no desenvolvimento da imagem digital. Um sensor CCD captura imagens convertendo fótons em elétrons – ou seja, ele pega a luz e a traduz em dados digitais. Embora os CCDs não pudessem competir com o filme padrão para captura de imagens na época, eles começaram a ser usados para determinadas aplicações e a bola começou a rolar.

De 2D para 3D

A detecção 2D lançou a era da automação e foi a abordagem predominante na automação do setor industrial por muito tempo. A visão 2D é usada em algumas aplicações simples até hoje, incluindo as seguintes:

Reconhecimento óptico de caracteres (OCR) – leitura de textos digitados, manuscritos ou impressos; leitura de código de barras
Controle de qualidade – geralmente usado em combinação com iluminação especial para garantir que as qualidades óticas do objeto digitalizado permaneçam as mesmas
Contando
Seleção de itens em condições bem definidas

No entanto, a principal limitação das tecnologias 2D é que elas não podem reconhecer formas de objetos ou medir distâncias na dimensão Z.

Aplicações 2D requerem condições boas e bem definidas com iluminação adicional, o que também limita aplicações como coleta de lixo. Esta tarefa robótica pode ser realizada com um sistema de visão 2D, mas geralmente é problemática devido à posição aleatória dos objetos em uma lixeira e uma grande quantidade de informações na cena que os sistemas de visão 2D não podem manipular.

As pessoas reconheceram a necessidade de informações 3D para poder automatizar tarefas mais complexas. Eles entenderam que os humanos podiam ver seus arredores em uma visão 3D e contar a distância dos objetos porque tinham dois olhos – visão estereoscópica.

Na década de 1960, Larry Roberts , que é aceito como o Pai da Visão Computacional , descreveu como derivar informações geométricas 3D de fotografias 2D de desenhos de linha e como um computador pode criar um modelo 3D a partir de uma única fotografia 2D.

Na década de 1970, um curso de “Machine Vision” começou no Laboratório de Inteligência Artificial do MIT para lidar com tarefas de visão de máquina de baixo nível. Aqui, David Marr desenvolveu uma abordagem única para a compreensão da cena por meio da visão computacional, onde ele tratou a visão como um sistema de processamento de informações. Sua abordagem começou com um esboço 2D, que foi construído pelo computador para obter uma imagem 3D final.

A pesquisa em visão de máquina se intensificou na década de 1980 e trouxe novas teorias e conceitos. Isso deu origem a várias tecnologias distintas de visão de máquina 3D, que foram gradualmente adotadas em ambientes industriais e de fabricação para automatizar a mais ampla gama de processos.

Primeiras tecnologias de visão 3D

O esforço para imitar a visão estereoscópica humana resultou no desenvolvimento de uma das primeiras tecnologias de detecção 3D – estéreo passivo . Este método de triangulação observa uma cena de dois pontos de vista e calcula o triângulo câmera – objeto digitalizado – câmera , procurando correlações entre as duas imagens. Com base na disparidade entre as imagens, calcula a distância (profundidade) do objeto digitalizado. No entanto, essa abordagem depende de encontrar detalhes idênticos nas imagens, portanto, não funciona bem com paredes brancas ou cenas sem padrões. A confiabilidade do estéreo passivo é pequena e a saída 3D geralmente tem alto ruído e requer muito poder de computação.

Para compensar essa desvantagem, os pesquisadores começaram a experimentar projetar padrões de luz na cena para criar uma textura artificial na superfície e identificar mais facilmente as correspondências na cena. Este método é chamado de estéreo ativo . Embora esse método seja mais confiável do que o estéreo passivo, a qualidade da reconstrução é frequentemente comprometida por requisitos rígidos de tempo de processamento, o que o torna insuficiente para muitas aplicações.

Um dos métodos mais antigos e ainda muito populares para adquirir informações 3D é a perfilometria a laser . Essa técnica projeta uma faixa estreita de luz (ou um ponto) em uma superfície 3D, que produz uma linha de iluminação que aparece distorcida de um ângulo diferente daquele do projetor. Esse desvio codifica informações de profundidade. Os scanners de linha capturam um perfil de profundidade de cada vez em rápida sucessão, para o que exigem que o objeto digitalizado ou a câmera se movam constantemente. A perfilometria a laser foi um dos primeiros métodos de escaneamento 3D adotado para uso industrial e ainda é muito popular em aplicações metrológicas, por exemplo.

Outro método inventado pela projeção de padrões de luz estruturados em uma cena é a luz estruturada . Um dos trabalhos mais citados discutindo o uso de luz estruturada com códigos binários para restauração digital foi The Digital Michelangelo Project liderado por Marc Levoy e sua equipe na Universidade de Stanford. O projeto começou em 1998 para digitalizar as estátuas de Michelangelo com o uso de um projetor e um sensor de câmera. Os dados da varredura a laser do David de Michelangelo foram então usados para a restauração da estátua que começou em 2002. Embora o método usado neste projeto não fosse rápido o suficiente para ser usado em aplicações em tempo real, ele forneceu uma precisão muito alta necessária para a digitalização de vários artefatos e objetos. Graças a isso, a tecnologia encontrou seu nicho em aplicações metrológicas e outras tarefas robóticas e de visão de máquina que exigem alta precisão de escaneamento.

Gradualmente, a tecnologia de luz estruturada se expandiu além da metrologia e penetrou em todos os tipos de aplicações online usando robôs guiados por visão. A vantagem dos scanners 3D de luz estruturada é que eles não requerem movimento. Como eles podem fazer um instantâneo de toda a área de digitalização e não é necessário percorrer todo o objeto com o scanner, eles são mais rápidos do que os dispositivos baseados em perfilometria a laser e não requerem tanto pós-processamento de dados.

Das cenas estáticas às dinâmicas

A captura de movimento é muito mais desafiadora do que a digitalização 3D de cenas estáticas e desqualifica métodos que exigem tempos de aquisição mais longos.

Porque estéreo passivo é um método passivo que não usa nenhuma iluminação adicional, pode ser usado para capturar cenas dinâmicas, mas somente se certas condições forem atendidas. Ainda assim, os resultados não seriam bons.

Perfilometria a laser não é um método muito mais bem-sucedido do que o estéreo passivo a esse respeito. Como ele captura um perfil de cada vez, para fazer um instantâneo completo da cena, a câmera ou a cena precisam se mover. No entanto, a tecnologia não pode capturar um evento dinâmico. Para reconstruir a profundidade de um único perfil, é necessária a captura de uma imagem de varredura de área estreita, em que seu tamanho limita a taxa de quadros e, conseqüentemente, também a velocidade de varredura.

Luz estruturada os sistemas, por outro lado, projetam vários padrões de luz na cena em uma sequência, um após o outro. Para isso, a cena precisa ser estática. Se o objeto digitalizado ou a câmera se mover, o código será quebrado e a nuvem de pontos 3D será distorcida.

A necessidade de fazer uma reconstrução 3D de objetos dinâmicos levou ao desenvolvimento do Time-of-Flight (ToF) sistemas. Semelhante à tecnologia de luz estruturada, o ToF é um método ativo que envia sinais de luz para a cena e depois interpreta os sinais com a câmera e seu software. Em contraste com a luz estruturada, ToF estrutura a luz no tempo e não no espaço. Ele funciona com base no princípio de medir o tempo durante o qual um sinal de luz emitido pela fonte de luz atinge o objeto digitalizado e retorna ao sensor.

Os primeiros sistemas ToF tinham qualidade bastante baixa. Os grandes players nesse campo incluíam empresas como Canesta, 3DV Systems ou Microsoft (que mais tarde adquiriu ambas as empresas). Um dos primeiros e conhecidos projetos foi o ZCam – uma câmera Time-of-Flight desenvolvida pela 3DV e posteriormente comprada pela Microsoft para ser usada para a aquisição de informações 3D e interação com objetos virtuais no console de videogame Xbox da Microsoft.

Em 2010, a Microsoft lançou seu sistema de sensor Kinect para Xbox, uma câmera com sensor de movimento baseada na tecnologia PrimeSense. A tecnologia PrimeSense usou um padrão estruturado para codificar certos pixels (não todos eles) e obter informações 3D. Embora o método não pudesse fornecer alta resolução e contornos detalhados nas bordas dos objetos digitalizados, foi amplamente adotado porque sua velocidade de processamento era bastante rápida e a tecnologia também era muito acessível. Tem sido usado principalmente no campo acadêmico, mas dificilmente pode ser encontrado também no ambiente industrial para picking robótico e outras tarefas.

Ao contrário do Kinect 1, o Kinect 2 foi baseado na tecnologia ToF. Os avanços no ToF fizeram com que o método se tornasse cada vez mais popular e amplamente adotado – ele poderia fornecer qualidade superior à tecnologia PrimeSense, mas a resolução das varreduras 3D de cenas dinâmicas ainda não era suficiente.

Os sistemas ToF de hoje são bastante populares em aplicações de visão 3D graças à sua velocidade de digitalização rápida e aquisição quase em tempo real. No entanto, sua resolução ainda é um problema e eles também lutam com níveis de ruído mais altos.

Em 2013, a Photoneo teve uma ideia revolucionária de como capturar objetos em movimento rápido para obter informações 3D em alta resolução e precisão submilimétrica.

A tecnologia patenteada de Luz Estruturada Paralela é baseado em um sensor CMOS especial e proprietário com um obturador multitap com um padrão de pixel em mosaico, que muda fundamentalmente a maneira como uma imagem pode ser capturada.

Essa nova abordagem de instantâneo utiliza luz estruturada, mas troca o papel da câmera e do projetor:enquanto os sistemas de luz estruturada emitem vários padrões do projetor em uma sequência, a tecnologia Parallel Structured Light envia uma varredura de laser muito simples, sem padronização, pela cena e constrói os padrões do outro lado – no sensor CMOS. Tudo isso acontece em uma única instância de tempo e permite a construção de múltiplas imagens virtuais dentro de uma janela de exposição. O resultado é uma imagem 3D de alta resolução e alta precisão de cenas em movimento sem artefatos de movimento.

Uma cena dinâmica capturada pela tecnologia Parallel Structured Light .

A tecnologia Parallel Structured Light é implementada na câmera 3D MotionCam-3D da Photoneo. O desenvolvimento da câmera e seu lançamento no mercado marcaram um marco na história da visão de máquina, uma vez que redefiniu a robótica guiada por visão e expandiu as possibilidades de automação em um grau sem precedentes. A nova abordagem foi reconhecida com muitos prêmios, incluindo o Vision Award 2018 , Prêmio Platina para Inovadores de Design de Sistemas de Visão 2019 , Principais inovações da inVision 2019 , Prêmio IERA 2020 , Robotics Business Review’s RBR50 Robotics Innovation Awards 2021 , Principais inovações da inVision 2021 e Prêmio Breakthrough da SupplyTech 2022 .

Digitalização 3D em movimento e cor

Em 2022, a Photoneo ampliou os recursos da MotionCam-3D equipando-a com uma unidade de cores para a captura de dados de cores. A MotionCam-3D Color é considerada a próxima bala de prata em visão de máquina, pois finalmente permite a criação de nuvens de pontos 3D coloridas em tempo real de cenas em movimento com qualidade perfeita. Graças à combinação única de geometria 3D, movimento e cor, a câmera abre as portas para aplicativos de IA exigentes e tarefas robóticas que não dependem apenas de informações de profundidade, mas também de dados de cores.

Criação de nuvem de pontos 3D colorida em tempo real de uma cena em movimento usando MotionCam-3D Color .

Áreas de aplicação habilitadas por inovações de visão de máquina

As possibilidades oferecidas pelas últimas inovações em visão de máquina 3D nos permitem automatizar tarefas que eram inviáveis até recentemente. Essas aplicações podem ser encontradas na manufatura, logística, automotiva, mercearia, agricultura, medicina e outros setores e incluem:

Manipulação robótica de objetos em movimento constante ou aleatório
Separação de correias transportadoras e transportadores aéreos
Manipulação mão-olho
Criação de modelo 3D para inspeção e controle de qualidade
Limpeza e pintura de objetos grandes
Operações de manutenção em VR/AR
Classificação e colheita na agricultura
E muito mais

O que vem a seguir?

A visão de máquina continua a se desenvolver para trazer novos avanços com novas possibilidades. A direção das inovações é sempre influenciada pelas demandas do mercado, expectativas dos clientes, concorrência e outros fatores.

Podemos esperar que a tendência de implantar IA em todas as áreas da visão de máquina definitivamente continue com o objetivo de eliminar o desenvolvimento de algoritmos feitos sob medida. Podemos ver um enorme potencial na área de inteligência artificial (IA) e sua combinação com a tecnologia Parallel Structured Light. Por um lado, a IA depende de bons dados. Por outro lado, a nova tecnologia de visão de máquina pode fornecer uma grande quantidade de dados 3D reais de alta qualidade. A combinação dessas duas abordagens pode transformar a robótica inteligente e permitir uma nova esfera de possibilidades.

Outra direção promissora de desenvolvimentos futuros é a computação de ponta. É provável que os fabricantes continuem seus esforços para integrar IA diretamente aos sensores e especializá-los para uma finalidade definida (por exemplo, contagem de pessoas, dimensionamento ou detecção automatizada de recursos de objetos definidos), facilitando a implantação para integradores e minimizando a necessidade de componentes adicionais. Novas soluções de hardware capazes de capturar cenas em movimento combinadas com algoritmos avançados de IA ampliarão os campos de aplicação cada vez mais amplos, mesmo em áreas mais desafiadoras, como robótica colaborativa ou automação logística completa.

Mercado de visão de máquina 3D nos EUA:entrevista com Dave Sexton da North Coast Technical Como os robôs podem ajudar as empresas a atender ao aumento da demanda?

Sistema de controle de automação

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial