Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Industrial Internet of Things >> Tecnologia da Internet das Coisas

Preparando os dados do arquivo para o Cloud Data Lakes


Uma estratégia de data lake na nuvem é uma evolução natural para organizações de TI corporativas com muitos dados que migram para a nuvem, pois eleva a nuvem de um armário de armazenamento de dados barato para um local onde os dados podem ser aproveitados para obter um novo valor e monetizados.

Se 2020 e 2021 foram os anos de rápida aceleração da nuvem, 2022 será o ano em que as empresas começarão a levar a sério os dados de arquivos não estruturados para os data lakes na nuvem. Existem algumas razões por trás dessa tendência. Primeiro, as organizações estão sentadas em petabytes de dados não estruturados, que compreendem pelo menos 80% dos 64 zetabytes de dados (e em crescimento) em armazenamento em todo o mundo hoje. A maior parte disso são dados de arquivos – de imagens médicas a streaming de vídeo, dados de sensores de carros elétricos e produtos de IoT e os documentos que as pessoas usam em todos os setores para colaborar e fazer negócios.

Em segundo lugar, os dados de arquivos estão se tornando incontroláveis, caros para armazenar e os CIOs sabem que estão sentados em uma potencial mina de ouro de insights se pudessem determinar como colocá-los nos lugares certos para análise. Por fim, as principais plataformas de nuvem estão investindo pesadamente em ferramentas de análise de dados/ML/IA e camadas de armazenamento de objetos de baixo custo para dar suporte a projetos de data lake.

Veja também: Data Lakes, Dados de Séries Temporais e Análise Industrial

O amadurecimento dos data lakes para a nuvem

Habilitar data lakes é um dos principais objetivos que os gerentes de TI estão priorizando, juntamente com segurança, gerenciamento de custos e visibilidade, de acordo com um estudo recente que realizamos. A nuvem superou as estratégias tradicionais de data lake, que começaram quando as empresas queriam analisar dados semiestruturados, como CSV e arquivos de log. Em 2006, o Hadoop nasceu e ganhou ampla adoção justamente no momento em que as conversas sobre Big Data estavam começando a circular. No entanto, o Hadoop acabou se mostrando mais lento e mais caro do que o esperado, complicado de configurar, dimensionar e gerenciar e projetado principalmente para processamento em lote. Para resolver esses problemas, o Apache Spark entrou em cena, executando até 100 vezes mais rápido para algumas cargas de trabalho e adequado para análises em tempo real. É importante ressaltar que o foco de empresas como a Databricks era executar o Spark na nuvem, enquanto o Hadoop foi implementado principalmente no local.

Nos últimos anos, as plataformas de data lake baseadas em nuvem amadureceram e agora estão prontas para o horário nobre. O armazenamento de objetos escalável mais barato dos provedores de nuvem oferece uma plataforma para projetos massivos em escala de petabytes que simplesmente não são viáveis ​​no local. Os data lakes de última geração são criados no Apache Spark para dar suporte ao S3 ou ao armazenamento de dados de objetos, possibilitando a ingestão e o processamento de dados semiestruturados e não estruturados. O armazenamento de arquivos também está em transição para a nuvem e precisa ser aproveitado como parte de um data lake na nuvem, para que nem todos os dados estejam no armazenamento de objetos.

Uma estratégia de data lake na nuvem é uma evolução natural para organizações de TI corporativas com muitos dados que migram para a nuvem, pois eleva a nuvem de um armário de armazenamento de dados barato para um local onde os dados podem ser aproveitados para obter um novo valor e monetizados.

Como domar o data lake na nuvem

Embora ainda sejam os primeiros dias para data lakes na nuvem, incluir dados de arquivo em seu data lake é imperativo, pois os modelos de aprendizado de máquina exigem grandes quantidades para gerar resultados significativos. No entanto, esses dados não estruturados não são padronizados entre os tipos de arquivos:arquivos de vídeo, arquivos de áudio, dados de sensores, logs não compartilham uma estrutura comum. E despejar todos esses dados de arquivos na plataforma de data lake em nuvem não é uma estratégia sábia, mas uma bagunça para limpar mais tarde. Apesar de sua promessa, há muitos riscos com data lakes, que vão desde altos custos de gerenciamento, lacunas de habilidades, preocupações de segurança e governança, problemas de portabilidade ao mover dados entre nuvens e plataformas de armazenamento e a preocupação de longa data de o data lake se tornar um pântano quando os dados fica muito grande e emaranhado para pesquisar e analisar.

Aqui estão algumas considerações ao embarcar em trazer dados de arquivos para um data lake na nuvem para evitar ou minimizar o conflito .
  1. Otimize o data lake. Antes que qualquer dado possa ser analisado, ele deve ser limpo, normalizado e classificado, o que pode ser um processo altamente manual, contribuindo para custos excessivos e tempo de retorno lento. Isso sempre foi um desafio para uma iniciativa de data warehouse e o mesmo se aplica a data lakes e data lakehouses. Os data lakes são atraentes porque podem ingerir dados em seu formato nativo; exigir otimização antes de colocar dados no lago destrói essa facilidade de uso. Como você pode otimizar automaticamente os dados do arquivo sem exigir uma alteração no comportamento do usuário? A chave para otimizar os dados dos arquivos são os metadados:as informações sobre tipos de arquivos, datas de criação e último acesso, proprietários, projetos e localização. A capacidade de indexar e marcar arquivos automaticamente nas propriedades de metadados evitará problemas de pântano de dados e facilitará a pesquisa e a segmentação posteriormente, em vez de deixar os data lakes sem gerenciamento.
  2. Use a indexação de metadados para encontrar conjuntos de dados precisos para necessidades específicas. Ferramentas que podem indexar arquivos e pesquisar metadados no armazenamento (incluindo locais, locais de borda e na nuvem) podem reduzir bilhões de arquivos a alguns milhares para que você envie apenas os arquivos precisos que deseja analisar para a nuvem.
  3. Marque os dados à medida que avança para melhorar a capacidade de pesquisa e a usabilidade . Depois de encontrar os arquivos necessários, você pode usar um sistema de aprendizado de máquina para refinar ainda mais a pesquisa com mais tags. Esse processo deve ser contínuo e automatizado, portanto, com o tempo, uma estrutura adicional é desenvolvida e a capacidade de pesquisa mais fácil chega ao seu data lake, além de uma qualidade geral mais alta.
  4. Acomode a borda. À medida que a computação de borda cresce devido a novos casos de uso de dados de sensores, o streaming de dados da borda se tornará insustentável. Como você pode processar mais dados na borda e levar exatamente o que você precisa para um data lake na nuvem? O pré-processamento de borda se tornará mais crítico à medida que os volumes de dados de borda aumentarem.
  5. Crie taxonomias por setor. Não há nomenclatura de marcação padrão para cada setor. Ter algumas classificações comuns de marcação por setor facilitará a pesquisa e a extração de dados, especialmente em ambientes colaborativos, como pesquisa e ciências da vida.
  6. Aborde a mobilidade de dados. Para serem realmente móveis, os dados devem poder residir em diferentes sistemas em ambientes de nuvem híbrida e, ao mesmo tempo, acessar nativamente os serviços nesses ambientes. O desbloqueio de dados de sistemas de armazenamento proprietários devolve o controle à TI e elimina taxas e aborrecimentos de mover dados de uma plataforma para outra. A forma como os dados são usados ​​e acessados ​​e seu valor muda ao longo do tempo. Ao preparar seus dados para o futuro, você pode se adaptar às mudanças e aos novos requisitos. Soluções independentes de mobilidade e gerenciamento de dados podem ajudar aqui.
  7. Crie a cultura certa. As principais organizações de TI continuam a identificar a cultura – pessoas, processos, organização, gerenciamento de mudanças – como o maior impedimento para se tornarem organizações orientadas por dados, de acordo com a pesquisa de 2021 da New Vantage Partners. Uma cultura orientada a dados precisa abranger não apenas os analistas e as linhas de negócios, mas também as equipes de infraestrutura de TI. Os líderes de TI precisarão ajudar os profissionais de armazenamento de dados, servidores e redes a reorientar suas responsabilidades e tarefas diárias para uma estrutura de tomada de decisão centrada em dados. Ferramentas e processos devem ser multifuncionais, permitindo uma visão holística dos ativos de dados da organização e colaboração em torno de estratégias para gerenciar esses ativos para ganho organizacional.

Os data lakes em nuvem ganharam popularidade porque os dados podem ser ingeridos em seu formato nativo sem o extenso pré-processamento necessário para data warehouses. O outro lado é que os data lakes se tornaram pântanos de dados, especialmente para dados de arquivos não estruturados, pois esses dados não têm uma estrutura comum. A análise de dados de arquivos está se tornando mais crítica com o aumento dos mecanismos de IA/ML que dependem deles. Os data lakes em nuvem podem ser otimizados para dados não estruturados sem destruir seu apelo de ingestão de dados em formato nativo, automatizando a indexação, pesquisa, coleta e otimização de dados de arquivo.

Tecnologia da Internet das Coisas

  1. Construa sua infraestrutura de nuvem para desempenho e eficiência
  2. Sua carreira de TI está pronta para a nuvem?
  3. As 5 principais práticas de segurança para backup da AWS
  4. Como definir a estratégia de dados para um mundo com várias nuvens
  5. Como você se prepara para IA usando IoT
  6. GE apresenta serviço em nuvem para dados industriais, Analytics
  7. Seu sistema está pronto para a IoT?
  8. O que é computação em névoa e o que isso significa para a IoT?
  9. A nuvem na IoT
  10. Benefícios de usar a computação em nuvem para armazenar dados de IoT