狂读150万篇论文摘要后,他们发了这篇Nature
御风行 纳米人 2019-07-11

本文与奇物论联合发布

奇物论

(ID:numan2018)



对自己的科研课题妄自菲薄,可能也是一种无知。很多人一边苦逼地通宵实验,一边自以为是对自己的体系进行批判。“我做的这个材料有什么用?根本没用,大家都是在为了混口饭吃而已。”这话可能没毛病,但是更多可能并不是这个材料没用,而是你没有能力找到他的用途而已。

 

不信?这篇Nature告诉你,如果你想说自己或别人做的东西没用,可能需要先好好看完150万篇论文。

 

1.jpg

 

近日,美国劳伦斯伯克利国家实验室的Tshitoyan及其同事在1922年至2018年间材料科学,物理和化学领域发表的论文中收集了330万篇论文摘要。通过对这些摘要进行必要的处理,例如删除不是英文的文本,排除“勘误”或“纪念”等不适合的摘要,最终得到了包括500,000个单词词汇形成的150万篇摘要。

 

研究团队使用称为Word2vec的无监督机器学习算法对这些文本记性分析, Word2vec将大量文本传递给人工神经网络(一种机器学习算法),并将词汇表中的每个单词映射到数字向量,通常具有几百个维度。得到的单词向量称为嵌入,用于将表示为数据点的每个单词定位在词汇表的多维空间中,具有共同意义的词语在该空间内形成群集。因此,Word2vec可以根据原始文本中单词的使用方法,对单词的含义或它们之间的功能关系做出准确的估计。重要的是,这些含义和关系并非由人类明确编码,而是以无人监督的方式从分析的文本中学习。

 

研究人员发现,即使该算法没有使用任何特定的标签来识别或解释化学概念,所获得的材料和科学术语的嵌入词也会产生反映化学规则的词汇联想,嵌入识别出与“化学元素”,“氧化物”,“晶体结构”等概念相对应的单词关联。

 

3.jpg


上面的话都没看懂?

没关系

下面的内容才是重点

 

更重要的是,除了建立单词之间的关系之外,研究团队还发现,这种方法可以用于发现已知材料的未知性能

 

以热电材料为例,他们首先对机器学习模型记性训练,来预测材料名称与文本中的“热电”一词共同出现的可能性。然后,通过搜索文本找到尚未报道具有热电特性,但其名称与“热电”一词具有很高的语义关系的词语。作者发现,使用这种方法挑选的前50种材料,在发表5年内作为热电研究的可能性是随机选择材料的8倍。目前,这种方法已经从材料科学拓展到蛋白质鉴定和癌症生物学等领域。

 

4.jpg


 材料数据库的不断增长,催生了材料信息学领域的火热。20年前,随着化学数据库的建立而出现,化学信息学的蓬勃发展与此同出一辙。当然,这种无监督方法通常不如从监督学习获得的模型准确。然而,这些方法可用于找到现有材料的未知属性,然后加以重新研究。或许,下一个重大发现,就是来自一个被人遗忘的旧材料。

 

“天生我才必有用”,不可谓不是千古名句,至理名言!


热电材料学术QQ群:699166559


参考文献:

VaheTshitoyan et al. Unsupervised word embeddings capture latent knowledge frommaterials science literature. Nature 2019, 571, 95–98.

https://www.nature.com/articles/s41586-019-1335-8

https://www.nature.com/articles/d41586-019-01978-x

加载更多
268

版权声明:

1) 本文仅代表原作者观点,不代表本平台立场,请批判性阅读! 2) 本文内容若存在版权问题,请联系我们及时处理。 3) 除特别说明,本文版权归纳米人工作室所有,翻版必究!
纳米人
你好测试
copryright 2016 纳米人 ICP备16031428号

关注公众号