文献分享 | 《NATURE BIOTECHNOLOGY:知识图谱动态学习预测高影响力科研成果》

生命传感小组文献分享

NATURE BIOTECHNOLOGY:知识图谱动态学习预测高影响力科研成果

1.摘要

一项刚发表的研究成果在未来是否真的具有重大价值?出版商如何更公正地接收投稿者的工作?政府如何通过候选人信息更合理地分配科研资源?这些判断的准确性无疑会直接或间接地对科学甚至社会发展带来极大影响。最近,美国麻省理工学院计算与系统生物学系的研究者们开发了一个名为DELPHI (Dynamic Early-warning by Learning to Predict High Impact)的人工智能模型,可以对真正具有响力的科研成果在发表初期提供预警。这一模型是由从19802019年发表在42个生物技术相关期刊上的文献建成的一张知识图谱,它包含7800万个节点,2亿条边,以及38亿个计算指标。这项研究将主要用于科研资源的优化与分配。

2.研究背景

目前的科研生态系统很大程度上依赖于各种基于引用的指标,其中不可避免地包含了偏向性和不一致性,甚至容易被人为操纵。虽然全世界拥有庞大的科研群体和相关机构,但事实上,科学及相关产业的进步很大程度上是得益于一小部分极具潜力的研究者和科研项目。准确有效地甄别一个科研工作或者研究者的价值,将影响到政府的资源分配是否合理,高校对科研人员的雇佣是否恰当,企业对科研项目的投入是否会带来回报等等。以往,这种判断往往是由专家基于人工设定的一些规则进行评估而决定。然而,随着数字科学语料库的爆炸式增长,我们可以建立一种新的、数据驱动的方法,用以辅助优化科研项目甄别,经费投入,以及项目商业化等,以优化科研资源分配来达到最大回报。

目前学术成果的评价标准主要是基于引用的,从简单的引用次数、h-indexIF到一些其他通过时间、领域标准化的度量。事实上这些指标不仅是质量的次优衡量,而且对影响力的衡量也存在滞后性。因此这些标准的使用可能导致学术招聘、晋升和资助上的次优决策。在这些情况下,将人工智能方法应用于现代科学企业所产生的海量数据,可以为科学影响和创新提供新的、更早的或更有意义的信号,使我们能够以机器辅助的方式通过学习科学史而主动设计改进的科学研究和资助策略。

3.知识图谱的建立

数据库是使用从Lens Labs API检索的元数据构建的(见图一),其中包括来自PubMedCrossrefMicrosoft AcademicCOREPubMed Central收集和消歧后的数据。检索数据包括所有可获得的出版物及其相关元数据,包括42种生物技术期刊的论文之间的引用。截至作者的检索日期(20204),共有3078897份独特出版物,文献的唯一性由其LensID来确定。

然后,利用这些过滤后的数据集,创建异构知识图网络。在该网络中,论文为节点,引用表示为边。类似地,期刊、年份也表示为节点,每篇文章与年份、期刊之间也形成边。其他属性诸如作者身份等均作为节点加入。

接着是指标计算。通过上一步构建和消歧之后的生物技术知识图谱来计算文献和作者时间序列指标。这些指标可分为论文、期刊、作者、和网络4个层面。对于每个指标,作者均实现一个单独的算法以高效计算的方式通过知识图谱的结构得到所需要的值,然后,对于每一篇计算其从发表年份到2019年关于该论文本身、作者以及期刊的全套指标。关于每个层面的具体规则,感兴趣的读者可以在原文中找到更多信息。

图一. 知识网络建立流程图

4.主要结论

4.1 基于29个指标发现“具有影响力的研究”

首先,高影响被定义为那些自发表当年到发表后5年之内,在知识图谱网络上具有前5%影响力的工作。作者使用所有从知识图谱中计算得到的指标和学习到的表示来训练预测模型。在此基础之上,DELPHI能够在某一论文发表之初正确的预测其在未来是否是高影响的。值得注意的是,DELPHI的预测表现要明显优于那些仅仅使用前面提到的基于引用的模型(如图二,紫色实线与黑色实线对比)。更有意思的是,计算结果表明,有相当大一部分潜力股在它们发表前一两年具有非常少的应用量,DELPHI能够通过所提取出的29个特征正确识别它们,而这些论文基本会被基于引用的模型排除在外。另外,作者发现提供更多的时间序列数据能明显提升模型的表现。例如,使用一年的数据时,DELPHI对于高影响论文的预测平均准确率为77%,而数据增加为两年时,准确率上升至87%

图二. DELPHI利用时间动力学能及早识别高影响的研究,且在生物技术出领域的研究论文上表现出目前能达到的最好性能。

4.2 ‘预警’突破性技术和有意思的研究方向

为了验证DELPHI对突破性技术的准确区分性,作者收集了一系列潜在的生物技术创新(包括技术突破和治疗方法创新)以及一系列相关的论文。在知识网络上去掉目标技术后重新训练模型,结果表明DELPHI可以正确的识别数据库中所有的技术创新,而且是时间节点是在这些工作发表的第一年(如图三)。另外,通过对论文给出预警分DELPHI可以准确预测多个领域某些工作在未来几年是否会称为有意思的研究。

图三.DELPHI在盲测实验中正确识别出历史性的生物技术突破。其中横坐标为该技术首次出现后的年份计时,纵坐标为DELPHI打分。

5 讨论

这一工作通过收集大量生物技术领域的论文数据,进行数据消歧、规范化、网络构建等步骤构建该领域一个庞大的知识图谱,形成一个高影响研究工作的预警框架。这一框架的图结构本身是抽象的,因此可以很容易迁移至其他领域或其他类型的数据场景。实际上,从网络数据中提取出特征并非所有都与影响力正相关。这暗示着模型试图提取所有真正能够预测未来影响力的因素,所提取的信息不同于人为设定的一些规则,如单纯基于引用的指标。

虽然这项研究的重点是生物技术相关期刊上发表的论文的科学影响,且影响限制为论文在发表后的5年时间窗口内,但也有一些长期的科学趋势没有被这个时间窗口捕捉到——例如,单克隆抗体在20世纪70年代中期被发现,但直到20世纪90年代初才作为一个领域加速发展。DELPHI的时间序列分析和网络级度量的组合可能包含捕捉和帮助理解这些趋势所必需的表达能力。同样地,尽管本工作是通过论文、作者和期刊来整合这项研究中的指标,当然也可以用研究思想或观念来作为指标。一种可能是,应用现有的自然语言处理方法提取科学概念(例如,人造器官”)或同一概念的不同应用(例如,人造肾脏人造肝脏”)。这种分析可能需要大量的数据和计算资源,但可以帮助区分仅仅时髦和真正革命性的想法,或发现有前途、但被低估的隐藏成果。

知识图谱将不同种类的信息整合到一个关系网络,提供了一个种从关系角度系统分析问题的平台。虽然目前通用知识图谱的研究仍处于起步阶段,但在各个专用领域的应用已经显示出巨大的潜力。

原文链接:https://www.nature.com/articles/s41587-021-00907-6

参考文献:J. W. Weis et al., Nature Biotechnology 2021

撰稿人:潘志超(2019级博士后)

校稿人:胡勇(2018级博士后)