Como Word Embeddings descobre novos termoelétricos
Fale com qualquer um hoje e eles lhe dirão que a Inteligência Artificial é a próxima grande novidade – a batata quente que todo mundo quer um pedaço, mas ninguém pode mastigar.
Uma boa maioria deles também lhe dirá que muito do que acontece como IA é realmente apenas um hype – uma glorificação do bom e velho aprendizado de máquina e matemática vestida em Powerpoint. E, na maioria das vezes, eles estariam certos.
No entanto, uma área em que a aplicação de ferramentas de IA, como o Deep Learning, foi nada menos que revolucionária é no Processamento de Linguagem Natural.
Um exemplo fácil são os chatbots que controlam os sites. Eles são executados por arquiteturas de aprendizado profundo relativamente complicadas chamadas redes neurais de Long Short Term Memory (LSTM). Esses algoritmos podem “compreender” o que dizemos a eles e reunir frases coerentes e legíveis em resposta. Claro, este bot não é Sócrates, mas não vomita uma confusão aleatória de palavras. Há a inegável sugestão de alguma inteligência de baixo nível.
Incorporação de palavras
A era moderna do aprendizado profundo no processamento de linguagem começou com a publicação em 2013 do artigo word2vec de Tomas Mikolov. Seu triunfo foi desenvolver um método computacionalmente viável para gerar incorporação de palavras ou vetores de palavras usando redes neurais.
Considere as palavras homem, mulher, rei erainha . Se você foi solicitado a agrupar essas palavras, você tem várias opções de bom senso. Costumo ver [homem, mulher ] e [rei, rainha ]. Você pode estar vendo [homem, rei ] e [mulher, rainha ].
A incorporação de palavras captura relações semânticas entre palavras em um texto. De https://samyzaf.com/ML/nlp/nlp.html
Também sei que a palavra rei e homem estão relacionados exatamente da mesma maneira que 'mulher ' e 'rainha '.
homem:rei =mulher:rainha
Mesmo que eu nunca tivesse ouvido essas palavras antes, posso aprender essas relações observando as frases que encontro. ‘Este homem é um rei ' , 'A rainha era uma mulher piedosa ', 'Ela reinou como a rainha da tela de prata ’, ‘Seu reino virá '. Essas frases sugerem, pela proximidade das palavras, que o rei é principalmente um homem e que uma rainha é provavelmente uma mulher .
Incorporações de palavras fazem a mesma coisa, mas para milhões de palavras de milhares de documentos. A chave aqui é que as palavras são aprendidas a partir do contexto . O que permite esse jogo de analogia matemática são os poderes da computação moderna e a magia do aprendizado profundo.
Incorporação de palavras de aprendizado profundo
Digamos que queremos encontrar as incorporações de todas as palavras em Harry Potter .
Primeiro, criamos uma espécie de câmara-biblioteca-abóbada matemática. Um monstruoso gigante multidimensional que é grande o suficiente para conter todas as palavras que precisamos. Este é o espaço vetorial .
O objetivo é passar por Harry Potter palavra por palavra e coloque cada palavra em um cofre na câmara. Palavras semelhantes como Vestido e Manto ir no mesmo cofre. Quadribol e Denunciar estão em cofres adjacentes. Carro e Centauro estão tão longe quanto Banana e Voldemort .
A palavra incorporação de uma palavra é o endereço do cofre no qual ela deve ser encontrada. Matematicamente, isso o torna um vetor no espaço vetorial .
Você pode ver por que nenhum humano jamais iria querer este trabalho. Há muitas palavras e muito movimento envolvido.
Uma rede neural, no entanto, faz isso excepcionalmente bem. Ele faz isso, bem, mágica.
A Deep Neural Net é uma espécie de máquina enorme com milhões de engrenagens e alavancas. No começo é tudo caos e nada combina com nada, mesmo que haja confusão por toda parte. Então, lentamente, algumas das engrenagens começam a travar. As alavancas se encaixam – e a ordem emerge do caos. A máquina começa a se mover. Frankenstein está vivo!
A linguagem aqui é deliberadamente vaga. Quero levá-lo às aplicações de incorporação de palavras, em vez de como elas são derivadas. Dito isto, em um nível fundamental, não sabemos bem como as redes neurais fazem o que fazem. Assim, em nossos experimentos, temos que brincar com o número de camadas, as funções de ativação, o número de neurônios em cada camada, etc., antes de chegarmos à nossa tarefa. Mas isso é assunto para outro dia.
Termoelétricas
Em um artigo publicado em 2019, uma equipe de pesquisadores do Lawrence Berkeley Lab gerou as incorporações de palavras de todos os resumos em cerca de 3,3 milhões de artigos publicados em 1.000 periódicos. Esta lista é obviamente enorme e cobre quase todos os tópicos publicados na ciência dos materiais nas últimas duas décadas.
Quando se trata de um texto científico, fórmulas e símbolos químicos também são ‘palavras’. Portanto, existe um vetor de palavras para LiCoO 2 – que é um cátodo de bateria comum. Você pode então fazer perguntas como:quais são os vetores de palavras mais próximos do LiCoO2?
Sabemos que LiCoO2 é um vetor no espaço vetorial. Então, tudo o que precisamos fazer é encontrar vetores próximos.
A resposta sai como LiMn 2 O 4 , LiNi 0,5 Mn 1,5 O 4 , LiNi 0,8 Co 0,2 O 2 , LiNi 0,8 Co 0,15 Al 0,05 O 2 e LiNiO 2 - todos os quais também são materiais catódicos de íons de lítio.
A via de relação de compostos químicos selecionados para a palavra 'termoelétrica'. Li2CuSb não está diretamente relacionado a ‘termoelétrica’, mas está próximo de outras palavras que são indicadores desta propriedade como ‘banda indireta’ e ‘optoeletrônica’. De [2]
Viu o que fizemos aqui?
Estávamos realmente tentando explorar outros materiais que fossem semelhantes ao nosso cátodo favorito. Em vez de ler mil papéis, fazer anotações e apresentar uma lista de compostos de lítio, a palavra embeddings resolveu a tarefa em poucos segundos.
Este é o poder da incorporação de palavras. Ao converter consultas semânticas em operações matemáticas vetoriais, essa abordagem nos permite consultar e compreender grandes bancos de dados de texto de forma melhor e mais eficiente.
Como outro exemplo, os pesquisadores estudaram a frequência com que um composto químico foi encontrado perto do vetor para 'termoelétricos '. (São materiais que convertem energia elétrica em calor ou vice-versa).
Você pode fazer isso por meio de uma operação vetorial direta chamada produto escalar. Vetores que são semelhantes têm um produto escalar se aproximando de um. Os vetores dissimilares têm produto escalar próximo de zero.
Ao realizar a mesma operação em compostos químicos no banco de dados e a palavra ‘termoelétrico ', os autores encontraram todos os produtos químicos que provavelmente seriam termoelétricos .
A palavra embeddings do banco de dados abstrato pode responder a perguntas como:Se Zr é Hexagonal, Chromium é...? (Centro do Corpo) De [2]
Os autores continuam mostrando que relações semelhantes podem ser demonstradas para várias propriedades de materiais, como estrutura cristalina e ferroeletricidade. Além disso, eles mostram que, usando essa técnica, várias das termoelétricas atuais poderiam ter sido previstas anos atrás a partir da literatura existente.
A análise é uma expressão muito bonita, elegante, mas enganosamente simples da pergunta 'De todos os materiais estudados pelo homem, quais provavelmente são termoelétricos' .
Bancos de dados de materiais são a necessidade do momento
Você assumiria que já temos essa lista – claramente alguém está anotando todo o trabalho que temos feito? Compilando manuais de materiais e bancos de dados eletrônicos?
A resposta é um surpreendente não. A grande quantidade de conhecimento que acumulamos ao longo dos anos está trancada em textos como livros, periódicos e jornais. Há tantos deles que é impossível para nós digitalizá-los manualmente.
É exatamente por isso que a incorporação de palavras e as técnicas demonstradas neste artigo são nada menos que revolucionárias.
Eles prometem mudar a maneira como interagimos com o texto e acelerar rapidamente nosso banco de dados de materiais.
Quais são alguns dos materiais que foram estudados para piezoeletricidade? Existe um supercondutor que perdemos na literatura? Existe um novo medicamento que pode curar a doença de Alzheimer?
Pergunte a palavra embeddings. Eles saberiam.
Tecnologia industrial
- Como não ser péssimo em ensinar um novo software
- Python New Line:Como imprimir SEM Newline em Python
- Como um novo padrão de contabilidade de leasing impactará o transporte e a logística
- Como a indústria de alimentos está respondendo ao novo comportamento do consumidor
- Como um exportador de carne da Nova Zelândia está navegando na pandemia
- Como ter sucesso em uma nova era para o comércio eletrônico transfronteiriço
- Como os varejistas podem atenuar o impacto de novas sobretaxas de envio
- Como comercializar para novos clientes quando os pedidos estão lentos
- Pensilvânia oferece novo financiamento para ajudar os alunos da Filadélfia a descobrirem oportunidades de manufatura
- Como o padrão MTConnect está ajudando a moldar uma nova era na manufatura