A Microsoft constrói o maior modelo de geração de linguagem com 17 bilhões de parâmetros

A Microsoft apresenta o Turing Natural Language Generation, o maior modelo do mundo com 17 bilhões de parâmetros.
Gera resumos abstratos de documentos de texto, respostas diretas a perguntas e palavras para completar frases.
O modelo responde de forma tão precisa, direta e fluente quanto os humanos em diferentes situações.

Modelos de linguagem de aprendizagem profunda em grande escala (como GPT-2 e BERT), com bilhões de parâmetros treinados em todo o texto disponível na internet, aprimoraram várias tarefas de processamento de linguagem natural (PNL), como compreensão de documentos, agentes de conversação e perguntas respondendo.

Foi observado que modelos maiores com dados de pré-treinamento mais diversificados e abrangentes têm melhor desempenho, mesmo com menos amostras de treinamento. Assim, é mais eficiente treinar um modelo centralizado massivo e compartilhar seus recursos em diferentes tarefas em vez de treinar um novo modelo para cada tarefa individualmente.

Seguindo essa tendência, os pesquisadores da Microsoft apresentaram o Turing Natural Language Generation (T-NLG), o maior modelo do mundo com 17 bilhões de parâmetros. Ele supera os modelos start-of-the-art existentes em diferentes benchmarks de modelagem de linguagem.

O T-NLG pode gerar palavras para completar frases inacabadas, resumos de documentos de entrada e respostas diretas a perguntas. Ao contrário de outros sistemas de PNL que dependem da extração de conteúdo de documentos para criar um resumo ou responder a perguntas, o novo modelo gerador responde com tanta precisão, direta e fluência quanto os humanos podem em diferentes situações.

Em vez de copiar a passagem, o T-NLG responde diretamente à pergunta com uma frase completa.

Treinamento T-NLG

Como uma GPU (mesmo com 32 GB de memória) não pode processar bilhões de parâmetros, você precisa paralelizar o próprio modelo ou dividi-lo em fatias para treiná-lo em várias GPUs.

Neste estudo, os pesquisadores aproveitaram a configuração de hardware NVIDIA DGX-2 (para tornar a comunicação entre GPUs mais rápida) e o fatiamento de tensor (para quebrar o modelo em 4 GPUs NVIDIA V100). Usando a biblioteca DeepSpeed e o otimizador Zero, eles foram capazes de treinar o T-NLG de forma muito eficiente com menos GPUs.

Desempenho em relação às tarefas padrão

Eles então compararam o desempenho do T-NLG pré-treinado com outros poderosos modelos de linguagem de transformador em duas tarefas padrão:precisão de predição da próxima palavra LAMBADA (quanto maior, melhor) e perplexidade do Wikitext-103 (quanto menor, melhor). Em ambos os casos, o T-NLG teve melhor desempenho.

Referência:Microsoft | GitHub

Desempenho em resposta a perguntas

Para testar qualidades como correção gramatical e exatidão factual, os pesquisadores buscaram a ajuda de anotadores humanos. Eles compararam o novo modelo com o modelo LSTM (semelhante ao CopyNet).

Desempenho na sumarização ativa

O T-NLG pode escrever resumos abstrativos semelhantes aos humanos para uma variedade de documentos de texto (incluindo documentos do Word, postagens de blogs, e-mails, apresentações do PowerPoint e até planilhas do Excel), mas como é bom, em comparação com outros modelos de PNL existentes.

Para tornar o novo modelo mais versátil para que possa resumir todos os tipos de texto, os pesquisadores o treinaram em conjuntos de dados de resumo disponíveis publicamente. Eles então o compararam com outro grande modelo de linguagem baseado em transformador chamado PEGASUS e sua versão anterior. Desta vez, eles relataram a pontuação ROUGE - um conjunto de métricas usado para avaliar a sumarização automática no processamento de linguagem natural.

Aplicativos

A Microsoft alcançou um avanço na inteligência artificial conversacional. Nos próximos anos, eles integrarão o T-NLG ao pacote Microsoft Office, o que não só economizará o tempo dos usuários ao resumir e-mails e documentos, mas também oferecerá assistência na redação e responderá a perguntas que os leitores possam fazer sobre o conteúdo.

Leia:Microsoft cria um armazenamento de dados de DNA totalmente automatizado

Além disso, as descobertas abrem caminho para assistentes digitais e chatbots mais precisos e fluentes, ajudando as empresas com vendas e gerenciamento de relacionamento com o cliente.

Pesquisadores do MIT constroem fraldas inteligentes que detectam umidade Inteligência Artificial prevê o comportamento de sistemas quânticos

Tecnologia industrial

Processo de manufatura

impressao 3D

Sistema de controle de automação

Tecnologia industrial