Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

Como evitar armadilhas com projetos de análise de dados


Um estudo recente da Capgemini descobriu que 15% das iniciativas de big data na Europa falham. Para garantir que seu projeto pertença aos 85% bem-sucedidos, resumi as quatro principais armadilhas a serem observadas. (Esta postagem de blog contém as duas primeiras armadilhas, as outras duas serão publicadas em uma postagem de blog diferente. )


Estar ciente disso e levá-los em consideração aumentará significativamente as chances de seu projeto de análise de dados ser um sucesso. Não se preocupe:você não é de forma alguma o único que enfrenta esses desafios e armadilhas. Em nosso workshop inicial de análise de dados, vemos regularmente participantes que os encontram, até o final do projeto. Aqui, gostaria de compartilhar minhas idéias com você de muitos workshops e projetos de sucesso, apontar as principais armadilhas e ilustrá-las com exemplos de casos de uso.

1. O iniciador - TI vs. departamento


A análise de dados e o big data não são a mesma coisa - mesmo que sejam frequentemente usados ​​de forma intercambiável.

Os departamentos de TI costumam ver os projetos por meio de “óculos de big data”. Eles fornecem a infraestrutura para coletar grandes quantidades de dados; por exemplo, na forma de clusters de banco de dados. Esses bancos de dados armazenam grandes volumes de dados, o que por si só não cria valor agregado para a empresa. É por isso que o projeto de análise de dados deve sempre ter uma meta tecnológica e comercial claramente definida. Coletar dados apenas pelo fato de eles não trazerem nenhum benefício para a empresa.

O valor agregado só surge quando a empresa aproveita os dados e os insights resultantes. É aí que entram seus departamentos (não administrativos). Eles definem quais metas desejam atingir com a análise de dados - não com big data. Eles fornecem o conhecimento técnico que permite aos cientistas de dados trabalhar com os dados de uma forma direcionada. A cooperação estreita entre o fornecedor de ideias (departamento) e os cientistas de dados é, portanto, uma necessidade absoluta para atingir o objetivo do projeto definido.

Em outras palavras:o sucesso ou o fracasso de um projeto de analítica de dados depende de como e quanto conhecimento técnico do processo é repassado aos cientistas de dados. Os engenheiros de análise de dados também desempenham um papel importante aqui. Apoiam a “tradução” e transferência de conhecimento entre as diferentes disciplinas. Os engenheiros de análise de dados contam com sua experiência operacional em manufatura ou logística e um conhecimento básico sólido das abordagens de análise de dados. Os especialistas em dados devem não apenas compreender o objetivo do projeto, mas também e em particular as correlações nos dados. Mais importante, eles devem ver sua relação com o mundo real (máquinas, sensores, etc.) e as etapas de processo relacionadas.

Como mostra o estudo da Capgemini, os departamentos de TI costumam ser os iniciadores de projetos de análise de dados. Isso não é um problema em si, desde que os outros departamentos estejam intimamente envolvidos e definam os objetivos técnicos do projeto.

2. Nem todos os dados são criados iguais


Projeto iniciado, objetivo definido - vá!

Pare!

Antes que os cientistas de dados possam começar, você precisa verificar a qualidade e a quantidade dos dados.

a) Qualidade dos dados


Aqui, é importante considerar em qual formato os dados estão disponíveis, onde procurar quais dados e se os dados são transparentes em diferentes fontes.

Exemplo:


Para integrar um conjunto de dados de várias fontes, você precisa de um identificador exclusivo que permite que os dados sejam agrupados corretamente. Pode ser um carimbo de hora ou um número de peça, por exemplo. Usar um carimbo de hora torna a integração mais complicada se diferentes formatos de data / hora forem usados ​​nas fontes de dados individuais (formato de data alemão vs. americano, hora em UTS, etc.); no entanto, ainda é possível. Em contraste, é virtualmente impossível se diferentes bases de tempo forem usadas. Esse é o caso em que não há sincronização de horário uniforme que gere os timestamps para todas as fontes de dados.

b) Quantidade de dados


Quanto mais, melhor - diz o ditado. Mas com respeito à análise de dados, isso é apenas parcialmente verdadeiro. De um modo geral, é claro, quanto mais dados você tiver, melhor. No entanto, também aqui há uma série de aspectos-chave a serem considerados.

Dependendo da definição do objetivo técnico, pode, por exemplo, ser importante que os dados subjacentes contenham não apenas resultados positivos, mas também um número suficiente de resultados negativos.

Exemplo:previsão de um resultado negativo


Se o objetivo do projeto é desenvolver um modelo para prever um resultado negativo, o conjunto de dados de treinamento usado para treinar o modelo de previsão deve conter um número suficiente de resultados negativos. Caso contrário, o modelo não é capaz de aprender esses resultados negativos e, portanto, será incapaz de prevê-los - conseqüentemente, você não pode atingir a meta do projeto com este conjunto de dados! Por esse motivo, ao compilar o conjunto de dados de treinamento, você deve certificar-se de que ele contém uma quantidade suficiente do parâmetro a ser previsto (variável de destino) - no exemplo acima, resultados negativos. Uma forma de o conseguir é expandir o período de tempo a partir do qual os dados estão a ser recolhidos.

c) Os dados “certos”


Portanto, está claro que a quantidade de dados não é o único critério. Acima de tudo, você precisa dos dados certos!

O que queremos dizer com “dados corretos”?


Os dados devem conter as informações relevantes exigidas para atingir o objetivo técnico do projeto. Se, por exemplo, você deseja desenvolver um modelo para prever a qualidade do produto conforme definido por uma medição de rugosidade da superfície, esta variável deve ser representada no conjunto de dados. Se você realizar a medição sem armazenar posteriormente o valor medido, não será capaz de desenvolver um modelo correspondente. Isso também não é um problema insolúvel, mas pode atrasar o progresso porque uma base de dados adequada primeiro deve ser gerada (por exemplo, com a ajuda de tecnologia de sensor adicional, salvando os dados relevantes, etc.).

Quem garantirá o sucesso de seu projeto de análise de dados?


Fonte:Bosch.IO
Para ajudar os especialistas a alcançar a), b) ec), pegamos a experiência adquirida em muitos projetos bem-sucedidos e a agrupamos em diretrizes de qualidade de dados, que fornecemos no início de um projeto. Também lidamos com esse tópico nos workshops iniciais, identificando os casos de uso que proporcionarão ganhos rápidos. Dessa forma, aumentamos a conscientização dos especialistas em manufatura sobre esses tópicos, o que sempre se mostra uma clara vantagem para as próximas etapas do processo.

Tecnologia industrial

  1. Atualizando Indústria 4.0 com análise de borda
  2. Otimizando a fabricação com Big Data Analytics
  3. Como evitar problemas com máquinas CNC usadas
  4. Gerando resultados de negócios com projetos de Big Data e IA
  5. Três armadilhas da entrega na última milha - e como evitá-las
  6. Como a ciência de dados ajudou a combater o surto do Coronavírus
  7. Data Mining, AI:Como as marcas industriais podem acompanhar o comércio eletrônico
  8. Como o Cloud Analytics pode acelerar a transformação da cadeia de suprimentos digital
  9. 5 razões pelas quais os projetos de IoT falham e como evitá-los
  10. Desenvolvendo projetos de aprendizado de máquina industrial:3 erros comuns a serem evitados