Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

The Modern Data Estate:Data Lake vs. Data Warehouse

  27 de julho de 2021  

Fonte:MCA Connect | Fabricação Amanhã

Os dados chegam até nós rapidamente e de várias formas. Esses diferentes formulários podem incluir dados estruturados, semiestruturados e não estruturados, e muitas pessoas não percebem que um data warehouse e um data lake tratam os dados de maneira diferente.


Uma propriedade de dados moderna deve fornecer vários métodos de ingestão e armazenamento de vários dados que as empresas geram. Os dados chegam até nós rapidamente e de várias formas. Essas formas diferentes podem incluir dados estruturados, semiestruturados e não estruturados e muitas pessoas não percebem que um data warehouse e um data lake tratam os dados de maneira diferente. Vamos examinar mais detalhadamente esses diferentes tipos de dados:
  1. Estruturado - bancos de dados tradicionais, como o banco de dados transacional para seu sistema ERP ou CRM com colunas formais e definições de tabela
  2. Semiestruturado - arquivos como XML ou JSON que são autodescritivos com tags para elementos e hierarquias
  3. Não estruturado - imagens, vídeo, áudio e outros dados binários

Os projetos tradicionais de data warehouse já existem há muitas décadas, enquanto o conceito, ou pelo menos o termo, data lake é uma construção um pouco mais recente. Cada um deles tem um lugar no acervo de dados da sua organização.

O data warehouse


Como podemos ver acima, as fontes de dados podem ser muito diversas e ter diferentes representações de dados, o que pode levar a informações divergentes. Além disso, a grande variedade de esquemas e estruturas em fontes de dados torna difícil obter informações consolidadas quando um instantâneo completo dos dados é necessário de todos os subsistemas de negócios. Em geral, esse é o principal motivo do surgimento das soluções de Data Warehouse.

Um data warehouse é um design formal, frequentemente baseado em diretrizes de design que implementa o processo formal de ETL (Extract-Transform-Load) para consumir conjuntos de dados estruturados e brutos e carregá-los em um modelo projetado para relatórios. Os data warehouses são construídos em bancos de dados relacionais como o Azure Synapse, anteriormente Microsoft SQL Server. O Azure Synapse foi projetado para armazenar dados estruturados em tabelas com linhas e colunas tradicionais, mas tem a capacidade de armazenar dados semiestruturados como XML e JSON.

O Data Lake


Um data lake inverte o conceito de ETL e implementa um processo ELT (Extract-Load-Transform). Ingerir dados no data lake é basicamente jogar tudo o que você acha que pode ser valioso em algum ponto em uma grande área de armazenamento, independentemente do tipo de dados ou estrutura. Data lakes podem armazenar dados estruturados, semiestruturados e não estruturados. Data lakes entregues no Microsoft Azure são construídos em contas de armazenamento com Data Lake Storage Gen2 habilitado ao criar a conta de armazenamento.

O pensamento por trás de um data lake é que você deseja consumir todos os dados e irá classificá-los posteriormente, enquanto o data warehouse requer a identificação do valor inicial com investimento significativo no desenvolvimento da ingestão. Devido ao grande investimento inicial normalmente necessário para desenvolver um data warehouse, se for determinado posteriormente que você precisa de dados que não foram introduzidos inicialmente, há o risco de os dados de origem não estarem mais disponíveis e, potencialmente, desaparecerem para sempre.

Objetivo:indeterminado vs em uso


A finalidade das partes de dados individuais em um data lake não é fixa. Os dados brutos fluem para um data lake, às vezes com um uso futuro específico em mente e às vezes apenas para ter à mão. Isso significa que os data lakes têm menos organização e menos filtragem de dados do que suas contrapartes.

Os dados processados ​​são dados brutos que foram utilizados para um uso específico. Como os data warehouses só hospedam os dados processados, todos os dados em um data warehouse foram usados ​​para uma finalidade específica dentro da organização. Isso significa que o espaço de armazenamento não é desperdiçado em dados que nunca podem ser usados.

Acessibilidade


Acessibilidade e facilidade de uso referem-se ao uso do repositório de dados como um todo, não aos dados dentro dele. A arquitetura de data lake não tem estrutura e, portanto, é de fácil acesso e fácil alteração. Além disso, todas as alterações feitas nos dados podem ser feitas rapidamente, pois os data lakes têm muito poucas limitações.

Os data warehouses são, por design, mais estruturados. Um grande benefício da arquitetura do data warehouse é que o processamento e a estrutura dos dados tornam os próprios dados mais fáceis de decifrar, as limitações da estrutura tornam os data warehouses difíceis e caros de manipular.

Os benefícios de ambos


Data lakes são uma forma econômica de armazenar grandes quantidades de dados de muitas fontes. Permitir dados de qualquer estrutura reduz o custo porque os dados são mais flexíveis e escalonáveis, pois não precisam se ajustar a um padrão específico. No entanto, os dados estruturados são mais fáceis de analisar porque são mais limpos e têm um esquema uniforme para consulta. Ao restringir os dados a um esquema, os data warehouses são muito eficientes para analisar dados históricos para decisões de dados específicas. Tanto um data warehouse adequado quanto um data lake são essenciais para o sucesso futuro de sua organização e pertencem ao seu moderno acervo de dados.

O que é um Data Estate?


Estabelecer um acervo de dados moderno é um passo fundamental para a transformação digital. Uma propriedade de dados moderna permite insights oportunos e tomada de decisões em todos os seus dados e define a base para a IA. Uma propriedade de dados são todos os dados que uma organização possui. Ao migrar esses dados para a nuvem ou modernizar seu ambiente local, você pode obter insights importantes para fomentar a inovação.


Data Warehouse pré-construído do Microsoft Dynamics 365, DataCONNECT


Construir um data warehouse pode ser muito caro e demorado para revisar adequadamente seus sistemas de origem, projetar um modelo de dados e criar o ETL necessário para processá-lo. A MCA Connect desenvolveu nossa solução de Data Warehouse DataCONNECT para Microsoft Dynamics AX, Dynamics 365 Finance e Customer Engagement. Essa solução acelera muito o cronograma de entrega de uma solução abrangente de data warehouse, ao mesmo tempo que reduz os custos de implementação. Também é uma ótima maneira de começar a construir seu amplo acervo de dados.

O DataCONNECT pode abastecer as organizações com informações rápidas e precisas, dando-lhes a capacidade de prever, adaptar e modelar operações com precisão. Você será capaz de extrair rapidamente dados validados em modelos de previsão, para que possa iniciar seus ciclos de planejamento para áreas de seu negócio. Se você quiser saber mais sobre como o DataWarehouse DataCONNECT ou um data lake pode ajudar sua empresa a armazenar Big Data, entre em contato conosco. Um de nossos especialistas terá prazer em orientá-lo na direção certa.

O conteúdo e as opiniões neste artigo são do autor e não representam necessariamente as visões da Fabricação do Amanhã.





Tecnologia industrial

  1. A Quarta Revolução Industrial
  2. Manter os dados em conformidade com a IoT
  3. O que eu faço com os dados ?!
  4. O Desenvolvimento de Plásticos Modernos
  5. Manutenção no mundo digital
  6. Democratizando a IoT
  7. Maximizando o valor dos dados IoT
  8. O valor da medição analógica
  9. Sourcing estratégico de dados é a maneira moderna de evitar interrupções
  10. Como obter o máximo do seu sistema de digitalização de depósito