生命传感小组文献分享
NATURE MACHINE INTELLIGENCE:机器学习预测金属有机框架(MOF)的水稳定性

0 摘要
金属有机框架(MOF)由于其高度可微调的结构,被认为在吸附、分离、传感和催化等领域具有广泛的应用前景。然而,MOF必须在水蒸气中稳定才被认为是工业上可行的。目前要预测MOF的水稳定性具有挑战性:实验上涉及耗时的MOF合成过程,而建模技术也不能可靠地捕捉其水稳定行为。在这一工作中,作者建立了基于机器学习的模型,根据目标应用或暴露水的量,准确即时地将MOF分类为稳定或不稳定。该模型使用超过200种MOF水稳定性的经验测量数据集进行训练,并使用一套综合的化学特征来捕获其金属节点、有机配体以及金属-配体摩尔比率的信息。除了为将来的实验筛选稳定的MOF,训练好的模型也可以用来提取MOF中一些简单的水稳定特征。该方法也可以用于筛选符合其它设计标准的MOF。
1 研究背景
金属有机框架(MOF)是一类多孔晶体材料,在气体分离、储存和催化等方面得到了越来越多的研究。它们由无机金属离子或团簇通过配位键与有机配体连接而成,整体形成高孔隙的三维晶体结构。以其易于调整的结构而闻名——可以对金属、有机连接剂、相关官能团或金属-配体键进行修改,以定制其内在的支柱来适应各种应用。然而,从理论角度来看,金属离子和有机配体之间的无限组合使得快速筛选具有期望性能的MOF变得困难。
要在工业上应用,候选MOF的一个关键特性是它的水稳定性。因为许多工业过程,如气体分离和储存都涉及一定数量的水。然而,大多数MOF(例如MOF-5和MOF-508)在水蒸气中不稳定,对其商业化是不利的。在这一工作中,作者开发了一种高效、即时的基于机器学习的策略(如图一所示)来筛选水稳定MOF。使用包含超过200种经实验确定水稳定性MOF的数据集来构建一个机器学习模型,该模型能够将给定的MOF分为稳定或不稳定。从分子式开始,利用化学特征向量唯一地表示每一种MOF,这些化学特征捕获了金属节点、有机连接剂、金属离子与配体的摩尔比,以及相关的H2O、OH和O位点的信息。以这些MOF指纹特征作为输入,构建了两种类型的分类模型来表征不同水暴露量的情况。第一种是二分类模型,区分稳定和不稳定的MOF,而第二种是三分类模型,将MOF分为动力学稳定、热力学稳定和不稳定三类。作者测试了三种不同的机器学习算法,并选择那些表现最好的,使用学习曲线和混淆矩阵分析未曾见过的MOF类型以进行预测。利用该模型和可用的实验数据推导出了指示MOF水稳定性的多重化学准则。例如,原子半径大、电离势低的金属离子,或六元环数少、环二价节点数高的配体,都与水稳定性增强有关。

图一. 构建MOF水稳定性预测机器学习模型的工作流程。
2 数据准备及机器学习方法
2.1 MOF水稳定性数据集。图二总结了在这项工作中使用的MOF水稳定性数据集,包括207个MOF。每个MOF分为四类稳定性之一:稳定(S)、高动力学稳定(HK)、低动力学稳定(LU)或不稳定(U)。分类是基于测试的水暴露类型(水的、潮湿的或干燥的)、每次暴露的时长、用于确定材料降解的表征技术,以及其他一些暴露条件(酸性/基本环境或沸点)。从应用的角度来看,最重要的设计标准是MOF保持稳定时可以暴露的水量。在化学多样性方面,数据集由22个不同的金属节点和128个不同的配体组成。这个数据集根据其来源被称为Burtch数据集。

图二. MOF水稳定性训练数据。详细介绍了四种不同类型的MOF,以及与稳定性相关的湿度条件和一对示例案例。包括组成这个数据集的一些具有代表性的金属节点及配体。
值得注意的是,每个稳定级别的MOF数据量都略有不均衡:类别为S、HK、LK和U的MOF数量分别为25、118、42和22。
2.2 MOF特征集和降维。为了建立准确可靠的机器模型,一个重要步骤是要抓取相关的特征,这些特征可以综合不同MOF体系的水稳定趋势。这些特性应该唯一地表示一种MOF,并且可以泛化到新的实例。作者根据MOF的化学定义使用了三套化学描述符:(1)金属集,捕捉信息的金属节点,(2)连接剂集,代表有机配体,(3)摩尔集,它反映连接子和O,OH和H2O等相对于金属节点的分子比率。表1提供了每个集合中包含的不同描述符的子类型及其计数。

表1. 用于定量描述MOF并用作预测MOF水稳定性的化学描述子。
从已活化MOF(去除溶剂)分子式单元(通常可以通过各种经验方法得到并且经常在文献中报道)出发,提取出它们的组成金属离子、有机配体和摩尔比。常用的化学性质被用来描述金属离子,而有机配体则利用经典的SMILES表示,一系列的特征由此导出。使用了分级描述符来捕获关于配体在多个长度尺度上的不同几何和化学信息。在原子尺度上,包含了一组预定义的由原子三联组成的基序(例如,C3 - O1 - N1,其中C3、O1和N1分别定义了三个配位C(两个单键和一个双键)和单配位O(双键)和N(三键)原子)。
2.3 机器学习算法。本文测试了三种机器学习分类方法,包括支持向量机(SVM)、随机森林(random forest, RF)和梯度提升(gradient boosting, GB)。每种方法都被用于训练两个MOF水稳定性分类模型(两类和三类)使用Burtch数据集,并使五重交叉验证确定各自的超参数。在这项工作中,我们使用了在scikit-learn Python包中实现的SVM、RF和GB模型。
2.4 模型表现及验证。图三展示了两类和三类MOF分类模型的性能结果。学习曲线使用最初的149维特征集(标记为“-Full”)和减少的特征集(标记为“-RFE”),在训练集和测试集上提供了类加权精度。从学习曲线可以看到RFE降维方案通过消除冗余的情况获得更好的特征。

图三. 预测MOF水稳定性的分类模型性能。
为了进一步验证水稳定性模型的一般性和准确性,作者使用了利用整个Burtch数据集训练的二分类和三分类模型来预测2014年之后10个MOF的水稳定性。使用与Burtch数据集相同的分类标准来确定这10个MOF的真实水稳定性值(S, HK, LK或U)。从表2所示的结果可以看出,两种模型都表现良好。

表2. 通过新和成的MOF进行模型验证。
3 机器学习模型中的化学洞见
过去的研究已经提出了一些促进MOF水稳定性的化学规律。而本工作通过发展机器学习方法来挖掘更多这样的化学趋势。作者首先使用二分类RF模型确定了最重要的特征。在RF模型中,当特征做完树的一个决策节点时,其相对重要性可以用相对排名的方法确定,因为用在树顶部的特征对输入样本的最终预测有更大比例的贡献。在此基础上,图四给出了不同特征对MOF水稳定性预测的相对重要性。原子半径和金属离子的电离势以及配体与金属的比例被发现是相当重要的。配体的各种分子量子数也被发现是重要的描述符;拓扑特征,如环二价节点数(MQNs30)或六元环数(MQNs36),以及基于极化的描述符,如氢键受体位点数(MQNs20),都是最重要的特征。

图四. 发掘化学趋势。利用重要特征通过二分类随机森林模型所获得的Burtch数据集中MOF水稳定性趋势。
4 总结
综上所述,这一工作利用几种机器学习模型来预测MOF的水稳定性。两种分类模型(二分类和三分类)用207种MOF实验确定的水稳定性数据进行训练。模型提供了对MOF水稳定性的一种快速评估。为了对模型进行训练,作者编写了一套全面的化学特征提取程序,以获取关于MOF金属节点、有机连接剂及其摩尔比的信息。这些特征集使用降维方案进一步细化。使用随机森林和支持向量机算法对分类模型进行训练,通过类加权正确率、每类正确率和召回率对分类模型的性能进行评估。这些模型不仅用于预测最近报道的10种MOF的水稳定性,而且还用于筛选在水条件下稳定的新候选MOF。总的来说,这项工作可以用于辅助合理设计和筛选具有理想水稳定性的新MOF,以及获得对MOF降解过程的更好的基本理解。
原文链接:https://www.nature.com/articles/s42256-020-00249-z
参考文献:R. Batra et al., Nature Machine Intelligence. 2020, 2:704-710
撰稿人:潘志超(2019级博士后)
校稿人:徐晓晖(2019级博士后)