Manufaturação industrial
Internet das coisas industrial | Materiais industriais | Manutenção e reparo de equipamentos | Programação industrial |
home  MfgRobots >> Manufaturação industrial >  >> Manufacturing Technology >> Tecnologia industrial

A Microsoft constrói o maior modelo de geração de linguagem com 17 bilhões de parâmetros


Modelos de linguagem de aprendizagem profunda em grande escala (como GPT-2 e BERT), com bilhões de parâmetros treinados em todo o texto disponível na internet, aprimoraram várias tarefas de processamento de linguagem natural (PNL), como compreensão de documentos, agentes de conversação e perguntas respondendo.

Foi observado que modelos maiores com dados de pré-treinamento mais diversificados e abrangentes têm melhor desempenho, mesmo com menos amostras de treinamento. Assim, é mais eficiente treinar um modelo centralizado massivo e compartilhar seus recursos em diferentes tarefas em vez de treinar um novo modelo para cada tarefa individualmente.

Seguindo essa tendência, os pesquisadores da Microsoft apresentaram o Turing Natural Language Generation (T-NLG), o maior modelo do mundo com 17 bilhões de parâmetros. Ele supera os modelos start-of-the-art existentes em diferentes benchmarks de modelagem de linguagem.

O T-NLG pode gerar palavras para completar frases inacabadas, resumos de documentos de entrada e respostas diretas a perguntas. Ao contrário de outros sistemas de PNL que dependem da extração de conteúdo de documentos para criar um resumo ou responder a perguntas, o novo modelo gerador responde com tanta precisão, direta e fluência quanto os humanos podem em diferentes situações.

Em vez de copiar a passagem, o T-NLG responde diretamente à pergunta com uma frase completa.

Treinamento T-NLG


Como uma GPU (mesmo com 32 GB de memória) não pode processar bilhões de parâmetros, você precisa paralelizar o próprio modelo ou dividi-lo em fatias para treiná-lo em várias GPUs.

Neste estudo, os pesquisadores aproveitaram a configuração de hardware NVIDIA DGX-2 (para tornar a comunicação entre GPUs mais rápida) e o fatiamento de tensor (para quebrar o modelo em 4 GPUs NVIDIA V100). Usando a biblioteca DeepSpeed ​​e o otimizador Zero, eles foram capazes de treinar o T-NLG de forma muito eficiente com menos GPUs.

Desempenho em relação às tarefas padrão



Eles então compararam o desempenho do T-NLG pré-treinado com outros poderosos modelos de linguagem de transformador em duas tarefas padrão:precisão de predição da próxima palavra LAMBADA (quanto maior, melhor) e perplexidade do Wikitext-103 (quanto menor, melhor). Em ambos os casos, o T-NLG teve melhor desempenho.

Referência:Microsoft | GitHub

Desempenho em resposta a perguntas



Para testar qualidades como correção gramatical e exatidão factual, os pesquisadores buscaram a ajuda de anotadores humanos. Eles compararam o novo modelo com o modelo LSTM (semelhante ao CopyNet).

Desempenho na sumarização ativa



O T-NLG pode escrever resumos abstrativos semelhantes aos humanos para uma variedade de documentos de texto (incluindo documentos do Word, postagens de blogs, e-mails, apresentações do PowerPoint e até planilhas do Excel), mas como é bom, em comparação com outros modelos de PNL existentes.

Para tornar o novo modelo mais versátil para que possa resumir todos os tipos de texto, os pesquisadores o treinaram em conjuntos de dados de resumo disponíveis publicamente. Eles então o compararam com outro grande modelo de linguagem baseado em transformador chamado PEGASUS e sua versão anterior. Desta vez, eles relataram a pontuação ROUGE - um conjunto de métricas usado para avaliar a sumarização automática no processamento de linguagem natural.

Aplicativos


A Microsoft alcançou um avanço na inteligência artificial conversacional. Nos próximos anos, eles integrarão o T-NLG ao pacote Microsoft Office, o que não só economizará o tempo dos usuários ao resumir e-mails e documentos, mas também oferecerá assistência na redação e responderá a perguntas que os leitores possam fazer sobre o conteúdo.

Leia:Microsoft cria um armazenamento de dados de DNA totalmente automatizado

Além disso, as descobertas abrem caminho para assistentes digitais e chatbots mais precisos e fluentes, ajudando as empresas com vendas e gerenciamento de relacionamento com o cliente.

Tecnologia industrial

  1. O que eu faço com os dados ?!
  2. Microsoft alcança novo avanço no campo da IA ​​de conversação
  3. Comece com o Fim (Cibersegurança) em mente
  4. Plataformas de rede digital:o modelo de maturidade em cinco estágios
  5. Otimizando a cadeia de suprimentos de saúde com um WMS
  6. Protegendo a cadeia de suprimentos global com dados sem fronteiras
  7. Navegando na limitação de capacidade com sistemas de manutenção digital
  8. Preparando os negócios para o futuro com tecnologias de compradores digitais
  9. Como faço para obter o máximo do meu investimento em geração de leads?
  10. SSI Schaffer fornece à Coop 'uma das maiores soluções de automação do mundo'