Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Industrial Internet of Things >> Tecnologia da Internet das Coisas

O jargão dos ases:termos comuns para o entusiasta de big data

Big data é carregada de palavras grandes. Ter um bom conhecimento dos termos de dados comuns ajuda você não apenas a entender, mas também a participar e influenciar as conversas sobre iniciativas de dados. Confira as discussões vitais sobre a evolução e revolução dos dados em www.datamakespossible.com.

Ok, vamos começar e desmistificar alguns termos que você já ouviu antes e apresentar alguns que podem ser novos.

Cientista de dados

Combinando partes iguais de ciência, negócios e arte, o cientista de dados usa o conhecimento de algoritmos, ferramentas e processos para extrair algum valor dos dados. Um cientista de dados geralmente executa aprendizado de máquina ou inteligência artificial para extrair, agrupar ou analisar conjuntos de dados.

Dados de heterocedasticidade e heterocedasticidade

Hetero O QUÊ ? Este pode ser um novo termo para você, então vamos examinar um exemplo muito básico do que isso significa.

Alguns dados são constantes e nunca muda. Os weblogs de ontem são uma constante. Até que inventemos a viagem no tempo, você não será capaz de voltar e mudar o que alguém fez ontem.

O próximo nível de complexidade dos dados é linear . Uma fila ou correio de voz é um exemplo de crescimento linear. Se um trabalhador pode processar dez mensagens por hora, então precisaríamos de cinco trabalhadores para lidar com 50 mensagens por hora. Dados que crescem em quadráticos a moda cresceria 4x (ou mais) a taxa. Um exemplo disso pode ser a mídia social. Quando você escreve uma postagem, 4, 10, 100 ou até milhões de pessoas podem lê-la. Essas pessoas podem compartilhar sua postagem, comentá-la ou de outra forma gerar alguns metadados que mudam a cada segundo. É aqui que começamos a entrar na heterocedasticidade. É definido por alta velocidade (ele se move e muda rapidamente) com alta variabilidade (ou seja, nenhuma maneira fácil de prever quem comenta, compartilha e gosta de uma postagem, ou qual será a velocidade de resposta).

Outra ótima analogia é cozinhar. Ao cozinhar uma refeição, estamos combinando ingredientes de maneiras diferentes para tentar criar algo que seja (felizmente) delicioso. Como qualquer pessoa que já tentou cozinhar sabe, qualquer número de pequenas mudanças - adicionar um pouco de sal, cozinhar por 2 minutos a mais, picar tomates muito grandes ou pequenos - pode ter um impacto profundo no resultado e na convergência da receita final para aquele prato de assinatura.

Mesmo que você nunca tenha usado esse termo antes, heterocedasticidade é algo que você encontrará cada vez mais com cargas de trabalho de IoT industriais. Isso é especialmente verdadeiro ao lidar com dados de alta velocidade (como streaming) ou frequentemente ao lidar com dados não estruturados e que mudam rapidamente, como páginas HTML que o rastreador da web do Google atravessa.

Aprendizado de máquina

Aprendizado de máquina (ML) é um campo da ciência da computação que permite que os computadores reconheçam e extraiam padrões de dados brutos por meio de um treinamento rigoroso de modelos de dados.

ML permite “os três Cs do big data” - classificação, armazenamento em cluster e filtragem colaborativa.

Classificação é o problema de identificar a qual conjunto de categorias / subcategorias ou população / subpopulação um novo padrão pertence aos conjuntos de dados de treinamento que contêm esse padrão ou instâncias onde a categoria já está identificada e conhecido. Por exemplo, a classificação pode envolver treinar um algoritmo para dizer, reconhecer tumores em um conjunto de exames de ressonância magnética e, em seguida, pedir ao algoritmo para identificar outros exames que têm tumores.

Clustering envolve o agrupamento de pontos de dados brutos em conjuntos ou “clusters”. Um exemplo aqui pode ser um algoritmo de ML que executa logs da web em tempo real, agrupando o tráfego válido (para permitir) em uma categoria e possíveis ataques (para bloquear) em outra.

Filtragem colaborativa é apenas uma palavra chique para “recomendações”. Um exemplo é determinar e exibir produtos que mostram alguma afinidade entre si.

Muito do que fazemos no ML é chamado de “aprendizado superficial”. O aprendizado profundo é geralmente um componente da verdadeira Inteligência Artificial.

Inteligência artificial

A Inteligência Artificial (IA) abrange e se expande em ML, fornecendo aos computadores a capacidade de realizar uma análise cognitiva profunda.

Enquanto o ML normalmente envolve algum tipo de intervenção humana inicial na forma de criação, ajuste ou treinamento de algoritmos (como varreduras de tumores no computador), a IA permite que o computador selecione, ajuste e treinar-se para desempenhar alguma função específica. Em última análise, a IA usa o aprendizado profundo para emular os processos de aprendizagem e tomada de decisões humanas.

Você pode não perceber, mas a IA provavelmente faz parte da sua vida diária. Mais sobre isso na definição de PNL abaixo.

Realidade virtual

A realidade virtual (VR) permite que os usuários entrem em mundos virtuais que parecem e soam completamente diferentes de seus arredores físicos.

VR permite experiências de entretenimento como montanhas-russas virtuais, mas também tem aplicações comerciais significativas. VR normalmente requer um fone de ouvido com display digital.

Realidade aumentada

A Realidade Aumentada (AR) se esforça para sobrepor artefatos digitais no mundo real, permitindo a interação. Recentemente, a AR tornou-se um grande sucesso com a popularidade dos aplicativos de jogo.

Processamento de linguagem natural

O Processamento de Linguagem Natural (PNL) permite que os computadores analisem e entendam a linguagem humana escrita ou falada. Se você fala ao telefone ou em casa, provavelmente já experimentou a PNL.

PNL é um ótimo lugar para explicar a diferença entre aprendizado profundo e superficial. A PNL de primeira geração (aprendizado superficial) focava em quebrar uma frase em tokens (palavras) e, em seguida, aplicar algumas regras aos tokens. O aprendizado profundo de PNL de hoje, no entanto, olha para todo o contexto de uma declaração e analisa o verdadeiro significado.

Imagine uma resenha escrita na web. O aprendizado superficial seria simplesmente olhar para um número limitado de tokens de dados como “número de estrelas de avaliação de avaliação” e “análise de sentimento” básica. Isso pode envolver a contagem do número de palavras positivas e negativas. Esses pontos de dados são alimentados por um conjunto de regras muitas vezes frágil para chegar a uma conclusão sobre se a revisão foi positiva ou negativa.

Um mecanismo de aprendizado profundo aplica mais inteligência a essa análise - quase como o que um humano poderia supor se lesse a mesma crítica. Por exemplo, se uma revisão teve muitos resultados "positivos", como classificações de cinco estrelas, boa proporção de contagem positiva para negativa, etc., um mecanismo de PNL superficial pode concluir que foi uma revisão positiva. Um mecanismo de PNL de aprendizado profundo, no entanto, pode interpretar (como um ser humano faria) que a análise foi na verdade negativa ao ler "Eu nunca vou comprar este produto novamente." Essa frase por si só nega qualquer sentimento positivo que um usuário possa ter fornecido.

Reconhecimento de imagem

O reconhecimento de imagem dá aos computadores a capacidade de descobrir o significado de uma imagem visual simples. Freqüentemente, é empacotado nas ofertas de ML ou IA de um provedor (junto com a PNL).

O reconhecimento de imagem permite que os computadores identifiquem objetos como a linguagem escrita usando o reconhecimento óptico de caracteres ou OCR (texto em outdoors), objetos de tags (como “montanha”, “árvore”, “carro”, “arranha-céu”) e até mesmo realizar análises faciais (como desenhar caixas delimitadoras ao redor de rostos).

O reconhecimento de imagem está sendo levado a um nível totalmente novo pela indústria automotiva com a aplicação de análise facial para detectar e alertar os motoristas que podem estar se sentindo cansados.

Dados estruturados, não estruturados e semiestruturados

Historicamente, muitos dos dados com os quais trabalhamos eram fortemente estruturados. Isso significa que ele se encaixa perfeitamente em um formato de linha / coluna (como bancos de dados). Como resultado, muitos sistemas de computador foram projetados para ingerir e gerar essa forma de dados.

Os humanos são uma fera diferente. Somos excelentes em gerar e consumir dados não estruturados, como texto, voz e imagens de fluxo livre, como instantâneos de câmera. Todos esses dados inerentemente não têm “estrutura” para eles. Não podemos “depender” de certos idiomas, palavras, entonações, etc.

Os dados semiestruturados ficam em algum lugar no meio. Um bom exemplo é o e-mail. Ele tem alguma estrutura como “assunto”, “para”, “de”, “data”, mas a carga útil principal é um blob de texto não estruturado no “corpo” do e-mail.

Somente nos últimos 10 anos, nossos sistemas de computador se tornaram poderosos o suficiente para realizar análises em dados não estruturados.

Lago de dados

Qualquer mecanismo de análise, como o Hadoop, fornecerá armazenamento e computação, muitas vezes, em um arranjo totalmente acoplado. Cada vez que você adiciona mais processamento, você inerentemente adiciona mais armazenamento.

Muitas organizações, entretanto, estão sentadas em montanhas (petabytes) de dados que desejam reter de maneira duradoura, mas não analisar imediatamente. Um motivo para o atraso é o pré-processamento e a limpeza dos dados que podem ser necessários antes da análise.

Um data lake fornece um armazenamento de baixo custo, altamente durável e acessível de qualquer lugar com computação limitada. Ele permite uma retenção de dados muito maior do que o que é processado de uma vez.

Olhando para um paradigma de receita, um data lake é como sua despensa de ingredientes crus (vegetais, arroz, caldo). Somente quando você quer cozinhar, você pega o subconjunto correto de ingredientes, de acordo com a receita, e os prepara para aquela refeição.

Banco de dados

O que comumente chamamos de “banco de dados” também é conhecido como sistema de gerenciamento de banco de dados relacional (RDBMS) ou OLTP (processamento de transações online). Oracle, MySQL, SQL Server são exemplos comuns disso.

Muitas pequenas “transações” que (normalmente) vêm de usuários finais caracterizam RDBMSes.

Pense em sites de comércio eletrônico de varejo. A qualquer momento, várias centenas de milhares de usuários estão realizando pequenas leituras (consultas) e gravações (inserções) ao navegar por produtos, ler avaliações, gerar pedidos, etc. Há uma expectativa de que esses sistemas executem essas consultas muito rapidamente.

Data warehouse

Um data warehouse (também conhecido como data warehouse empresarial ou EDW) é onde a empresa executa análises para responder a várias questões importantes de negócios. Qual é a nossa linha de produtos de crescimento mais rápido? Quais categorias de produtos têm o melhor ROI? Quais são as nossas regiões, categorias, vendedores e outros com pior desempenho?

EDWs são normalmente usados ​​por um punhado (talvez uma dúzia ou algumas dezenas) de usuários internos, executando consultas de longa duração em conjuntos de dados massivos (possivelmente centenas de TB ou dezenas de PB).

Visualização

Uma ferramenta de visualização fornece um front end visual para fazer análises complexas.

Usando simples arrastar e soltar, até mesmo estagiários não qualificados podem construir uma grande quantidade de relatórios complexos, como vendas trimestrais, produtos mais vendidos, crescimento, etc.

Esses sistemas normalmente exigem que o mecanismo que você está conectando tenha uma interface SQL, que (não por coincidência) todo RDBMS e EDW fornece. Se você é como muitos analistas de dados, 95% de sua interação com seus sistemas será por meio de uma dessas ferramentas de visualização.

Espero que você tenha gostado deste rápido passo a passo de termos comuns que encontramos em Big Data. Sinta-se à vontade para impressionar o pessoal do bebedouro discutindo como a visualização do crescimento de dados sem precedentes, as vantagens de criar um data lake, desbloquear os dados heterocedásticos de valor por meio de ML e IA está mudando completamente o mundo. Curioso sobre o impacto dos dados no mundo? Agora que você fala o jargão, participe das discussões em datamakespossible.com.

Este artigo foi produzido em parceria com a Western Digital.

O autor é Fellow e Chief Data Scientist da Western Digital e está moldando, impulsionando e implementando a plataforma, produtos e tecnologias de Big Data, usando análises avançadas e correspondência de padrões com fabricação de semicondutores dados na empresa.

Tecnologia da Internet das Coisas

  1. Os benefícios da adaptação de IIoT e soluções de análise de dados para EHS
  2. Perspectivas para o desenvolvimento de IoT Industrial
  3. O trilema:Três dicas para a operação eficaz da subestação
  4. Quatro grandes desafios para a Internet das Coisas industrial
  5. O potencial para integrar dados visuais com a IoT
  6. Realidade aumentada - a próxima grande novidade para RH?
  7. É hora de mudar:uma nova era no limite
  8. Preparando o cenário para o sucesso da ciência de dados industriais
  9. As tendências continuam a levar o processamento até o limite para IA
  10. O Big Data fornecerá uma cura para tudo para orçamentos de saúde enfermos?