As câmeras aprendem e entendem o que estão vendo

Roboticistas e pesquisadores de inteligência artificial (IA) sabem que há um problema em como os sistemas atuais detectam e processam o mundo. Atualmente, eles ainda estão combinando sensores – como câmeras digitais projetadas para gravar imagens – com dispositivos de computação como unidades de processamento gráfico (GPUs) projetadas para acelerar gráficos para videogames.

Isso significa que os sistemas de IA percebem o mundo somente depois de gravar e transmitir informações visuais entre sensores e processadores. Mas muitas coisas que podem ser vistas geralmente são irrelevantes para a tarefa em questão, como o detalhe das folhas nas árvores à beira da estrada quando um carro autônomo passa. No momento, todas essas informações são capturadas por sensores em detalhes minuciosos e enviadas entupindo o sistema com dados irrelevantes, consumindo energia e demorando o processamento.

Os pesquisadores se inspiraram na maneira como os sistemas naturais processam o mundo visual – os olhos e o cérebro de um humano trabalham juntos para dar sentido ao mundo e, em alguns casos, os próprios olhos realizam o processamento para ajudar o cérebro a reduzir o que não é relevante. Os pesquisadores implementaram Redes Neurais Convolucionais (CNNs), uma forma de algoritmo de IA para permitir a compreensão visual, diretamente no plano da imagem. As CNNs podem classificar quadros milhares de vezes por segundo sem precisar gravar essas imagens ou enviá-las pelo pipeline de processamento. Os pesquisadores consideraram demonstrações de classificação de números manuscritos, gestos com as mãos e até plâncton.

A pesquisa sugere um futuro com câmeras inteligentes de IA dedicadas – sistemas visuais que podem simplesmente enviar informações de alto nível para o resto do sistema, como o tipo de objeto ou evento que ocorre na frente da câmera. Essa abordagem tornaria os sistemas muito mais eficientes e seguros, pois nenhuma imagem precisa ser gravada.

O trabalho incorpora o SCAMP, um chip de processador de câmera que a equipe descreve como um Pixel Processor Array (PPA). Um PPA tem um processador embutido em cada pixel que pode se comunicar entre si para processar de forma verdadeiramente paralela. Isso é ideal para CNNs e algoritmos de visão.

A integração de detecção, processamento e memória no nível de pixel não apenas permite sistemas de alto desempenho e baixa latência, mas também promete hardware de baixo consumo de energia e alta eficiência. Os dispositivos SCAMP podem ser implementados com dimensões semelhantes aos sensores de câmera atuais, mas com a capacidade de ter um processador massivamente paralelo de uso geral no ponto de captura da imagem.

Sensores eliminam faíscas em veículos de hidrogênio Tomografia de raios-X permite que pesquisadores observem baterias de estado sólido carregando e descarregando

Sensor

Integrado

Sensor

Computação em Nuvem

Tecnologia da Internet das Coisas