A Microsoft constrói o maior modelo de geração de linguagem com 17 bilhões de parâmetros
- A Microsoft apresenta o Turing Natural Language Generation, o maior modelo do mundo com 17 bilhões de parâmetros.
- Gera resumos abstratos de documentos de texto, respostas diretas a perguntas e palavras para completar frases.
- O modelo responde de forma tão precisa, direta e fluente quanto os humanos em diferentes situações.
Modelos de linguagem de aprendizagem profunda em grande escala (como GPT-2 e BERT), com bilhões de parâmetros treinados em todo o texto disponível na internet, aprimoraram várias tarefas de processamento de linguagem natural (PNL), como compreensão de documentos, agentes de conversação e perguntas respondendo.
Foi observado que modelos maiores com dados de pré-treinamento mais diversificados e abrangentes têm melhor desempenho, mesmo com menos amostras de treinamento. Assim, é mais eficiente treinar um modelo centralizado massivo e compartilhar seus recursos em diferentes tarefas em vez de treinar um novo modelo para cada tarefa individualmente.
Seguindo essa tendência, os pesquisadores da Microsoft apresentaram o Turing Natural Language Generation (T-NLG), o maior modelo do mundo com 17 bilhões de parâmetros. Ele supera os modelos start-of-the-art existentes em diferentes benchmarks de modelagem de linguagem.
O T-NLG pode gerar palavras para completar frases inacabadas, resumos de documentos de entrada e respostas diretas a perguntas. Ao contrário de outros sistemas de PNL que dependem da extração de conteúdo de documentos para criar um resumo ou responder a perguntas, o novo modelo gerador responde com tanta precisão, direta e fluência quanto os humanos podem em diferentes situações.
Em vez de copiar a passagem, o T-NLG responde diretamente à pergunta com uma frase completa.
Treinamento T-NLG
Como uma GPU (mesmo com 32 GB de memória) não pode processar bilhões de parâmetros, você precisa paralelizar o próprio modelo ou dividi-lo em fatias para treiná-lo em várias GPUs.
Neste estudo, os pesquisadores aproveitaram a configuração de hardware NVIDIA DGX-2 (para tornar a comunicação entre GPUs mais rápida) e o fatiamento de tensor (para quebrar o modelo em 4 GPUs NVIDIA V100). Usando a biblioteca DeepSpeed e o otimizador Zero, eles foram capazes de treinar o T-NLG de forma muito eficiente com menos GPUs.
Desempenho em relação às tarefas padrão
Eles então compararam o desempenho do T-NLG pré-treinado com outros poderosos modelos de linguagem de transformador em duas tarefas padrão:precisão de predição da próxima palavra LAMBADA (quanto maior, melhor) e perplexidade do Wikitext-103 (quanto menor, melhor). Em ambos os casos, o T-NLG teve melhor desempenho.
Referência:Microsoft | GitHub
Desempenho em resposta a perguntas
Para testar qualidades como correção gramatical e exatidão factual, os pesquisadores buscaram a ajuda de anotadores humanos. Eles compararam o novo modelo com o modelo LSTM (semelhante ao CopyNet).
Desempenho na sumarização ativa
O T-NLG pode escrever resumos abstrativos semelhantes aos humanos para uma variedade de documentos de texto (incluindo documentos do Word, postagens de blogs, e-mails, apresentações do PowerPoint e até planilhas do Excel), mas como é bom, em comparação com outros modelos de PNL existentes.
Para tornar o novo modelo mais versátil para que possa resumir todos os tipos de texto, os pesquisadores o treinaram em conjuntos de dados de resumo disponíveis publicamente. Eles então o compararam com outro grande modelo de linguagem baseado em transformador chamado PEGASUS e sua versão anterior. Desta vez, eles relataram a pontuação ROUGE - um conjunto de métricas usado para avaliar a sumarização automática no processamento de linguagem natural.
Aplicativos
A Microsoft alcançou um avanço na inteligência artificial conversacional. Nos próximos anos, eles integrarão o T-NLG ao pacote Microsoft Office, o que não só economizará o tempo dos usuários ao resumir e-mails e documentos, mas também oferecerá assistência na redação e responderá a perguntas que os leitores possam fazer sobre o conteúdo.
Leia:Microsoft cria um armazenamento de dados de DNA totalmente automatizado
Além disso, as descobertas abrem caminho para assistentes digitais e chatbots mais precisos e fluentes, ajudando as empresas com vendas e gerenciamento de relacionamento com o cliente.
Tecnologia industrial
- O que eu faço com os dados ?!
- Microsoft alcança novo avanço no campo da IA de conversação
- Comece com o Fim (Cibersegurança) em mente
- Plataformas de rede digital:o modelo de maturidade em cinco estágios
- Otimizando a cadeia de suprimentos de saúde com um WMS
- Protegendo a cadeia de suprimentos global com dados sem fronteiras
- Navegando na limitação de capacidade com sistemas de manutenção digital
- Preparando os negócios para o futuro com tecnologias de compradores digitais
- Como faço para obter o máximo do meu investimento em geração de leads?
- SSI Schaffer fornece à Coop 'uma das maiores soluções de automação do mundo'