Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

Microsoft alcança novo avanço no campo da IA ​​de conversação


As representações de linguagem robusta e universal são importantes para a obtenção de resultados decentes em várias tarefas de Processamento de Linguagem Natural (PNL). O aprendizado de conjunto é uma das abordagens mais eficientes para aprimorar a generalização do modelo. Até agora, os desenvolvedores o usaram para obter resultados de última geração em uma variedade de tarefas de compreensão de linguagem natural (NLU), que vão desde compreensão de leitura em máquina até respostas a perguntas.

No entanto, esses modelos de conjunto contêm centenas de modelos de redes neurais profundas (DNN) e são muito caros de implementar. Modelos pré-treinados, como GPT e BERT, também são muito caros para implantar. O GPT, por exemplo, consiste em 48 camadas de transformador com 1,5 bilhão de parâmetros, enquanto o BERT possui 24 camadas de transformador com 344 milhões de parâmetros.

Em 2019, a Microsoft lançou seu próprio algoritmo de processamento de linguagem natural (NLP), denominado Multi-Task DNN. Eles agora atualizaram este algoritmo para obter resultados impressionantes.

Estendendo a destilação de conhecimento


A equipe de pesquisa comprimiu vários modelos agrupados em um DNN multitarefa, usando a destilação de conhecimento. Eles usaram o modelo de conjunto [de maneira offline] para gerar alvos fáceis para cada tarefa no conjunto de dados de treinamento. Em comparação com alvos difíceis, eles oferecem dados mais úteis por amostra de treinamento.

Vejamos uma frase por exemplo, "Tive uma boa conversa com John na noite passada", o sentimento nesta frase provavelmente não será negativo. No entanto, a frase “Tivemos uma conversa intrigante na noite passada” pode ser negativa ou positiva, com base no contexto.

Referência:arXiv:1904.09482 | Blog de Pesquisa da Microsoft

Os pesquisadores usaram os alvos corretos e os alvos fáceis em várias tarefas para treinar um único MT-DNN. Eles utilizaram a estrutura de aprendizado profundo PyTorch com aceleração cuDNN para treinar e testar o novo modelo em GPUs NVIDIA Tesla V100.

Resultados


Eles compararam o MT-DNN destilado com o MT-DNN e o BERT normais. Os resultados mostram que o MT-DNN destilado supera ambos os modelos por uma margem significativa, em termos de pontuação geral no benchmark General Language Understanding Evaluation (GLUE), que é usado para testar o desempenho do sistema em uma ampla gama de fenômenos linguísticos.

Pontuação do benchmark GLUE

O benchmark compreende 9 tarefas NLU, incluindo similaridade de texto, vinculação textual, análise de sentimento e resposta a perguntas. Os dados contêm várias centenas de pares de frases extraídas de fontes diferentes, como textos acadêmicos e enciclopédicos, notícias e mídias sociais.

Todos os experimentos realizados nesta pesquisa mostram claramente que a representação da linguagem aprendida por meio do MT-DNN destilado é mais universal e robusta do que o MT-DNN e o BERT normais.

Leia:Bosque:a nova linguagem de programação da Microsoft sem loops

Nos próximos anos, os pesquisadores tentarão encontrar melhores maneiras de combinar alvos corretos rígidos e alvos fáceis para o aprendizado multitarefa. E, em vez de compactar um modelo complicado em um mais simples, eles explorarão melhores maneiras de usar a destilação de conhecimento para aprimorar o desempenho do modelo, independentemente de sua complexidade.

Tecnologia industrial

  1. O surgimento de uma nova espécie de TI:O profissional híbrido de TI / OT
  2. O Escritório está fechado? Microsoft anuncia nova incubadora de pesquisa de IA
  3. GLTR:Um novo método para detectar linguagem gerada por computador
  4. A Microsoft constrói o maior modelo de geração de linguagem com 17 bilhões de parâmetros
  5. Bosque:a nova linguagem de programação da Microsoft sem loops
  6. 9 Novas linguagens de programação para aprender em 2021
  7. Na Logística Global, Orquestração é a Nova Visibilidade
  8. O impacto dos novos comportamentos de compra no comércio eletrônico
  9. 5G, IoT e os novos desafios da cadeia de suprimentos
  10. O novo cenário do comércio eletrônico está redefinindo o marketing de sucesso