投稿心得|厦门大学洪文晶/刘俊扬/刘豪杰团队:基于无监督多原型聚类的单分子电子学小概率事件检测

前言与背景

单分子电子学表征方法逐渐发展成为探索分子尺度上独特物理化学现象的重要工具和研究平台。单分子动态裂结技术通过驱动电极进行周期性往复运动来不断抓取溶液中的分子,在重复构建分子结的同时实施高通量电学测量。这一技术不仅实现了单分子电学信号的高效采集,还通过大样本数据的统计分析显著提升了表征结果的可信度,进而实现了单分子电学性质的高重现性、高灵敏度和高稳定性表征,是单分子电输运特性表征的重要手段之一。

然而在单分子尺度的物理化学研究中,不同分子事件的发生概率可能存在显著差异:常见的分子构型和稳定的分子-电极连接通常具有较高的发生概率,而一些特殊事件,如分子-电极间通过非经典键合形式连接,以及分子间存在的微弱相互作用等,其发生概率则较低,甚至低于10%。

尽管这些小概率事件的发生频率不高,但它们往往蕴含着重要的物理和化学信息,对于深入理解单分子结的复杂电荷传输机制至关重要。遗憾的是,早期对这些小概率事件的识别主要依赖手工筛选或基于专家经验的复杂规则,这种方法不仅效率低下,还容易引入主观偏差,难以满足无偏差的大规模数据分析和精准检测的需求。

近年来,将人工智能方法应用于分子电子学为解决这一问题提供了新的途径。通过机器学习算法对实验数据进行精细挖掘和模式识别,可以有效提取和检测不同分子事件。其中,无监督学习算法无需先验知识,能够自动发现数据中的隐藏模式,在处理小概率事件时具有独特的优势。

尽管无监督学习算法在单分子电子学中已经取得了一定的应用和进展,但现有的算法仍存在一些局限性。例如,在处理实验数据时,算法会受到“均匀效应”的影响,导致小概率事件被掩盖或误分类,使得原本发生概率低的某些分子结构型或输运模式等事件被忽视或合并到概率高的其他事件中。这种效应使得算法无法准确反映单分子实验的真实电导性质分布,限制了对小概率事件的检测和分析。

成果简介

在这里,我们提出了一种多原型聚类算法(multi-prototype clustering, MPC),通过多个原型代表一个簇来建模数据分布,从而克服“均匀效应”,有效检测单分子电子学中的小概率事件。

该算法采用先分裂后合并的二阶段聚类策略:首先通过充分分裂生成大量原型以覆盖数据中的各种电导变化模式。这一过程能够确保小概率事件的数据被分离出来,但同时也可能导致多数类数据的过度分裂。因此,我们进一步根据原型特征及其所在子簇的电导分布相似性,对子簇进行层次聚类,并自适应确定最终聚类数,从而恢复真实的数据分布。为了验证该方法的有效性,我们在多个数据集上进行了对比实验。

结果显示,MPC在这些数据集上均取得了最优性能,并且对噪声数据表现出一定的鲁棒性。特别是在单分子酮-烯醇互变异构反应的电导数据中,MPC算法能够精准识别不同偏压下反应物与产物的比例,为偏压对反应热力学的影响提供了定量参考。MPC算法为单分子电子学领域提供了更细致和精确的分析手段。

此外,MPC算法的另一特点是并未对电导序列进行传统的特征转换,而是直接将序列数据作为算法输入,并在聚类过程中,考虑了序列的时序特征,从而避免了因特征转换而导致的信息丢失。这种处理方式不仅保留了数据的原始信息和内在结构,还使得MPC算法具有更广泛的适用性,有望被推广应用于其他领域的时序数据分析中。

图文导读

图1 小概率事件检测的当前挑战及MPC算法的概述。

(a)小概率事件被传统统计分析掩盖。(b)小概率事件被现有聚类算法误分类产生“均匀效应”。(c)MPC算法的示意图。

图2 成结率量化实验结果。

(a)纯隧穿(标记为T)和MPP分子隧穿(标记为M)的典型事件。(b)MPP分子的电导数据统计结果。左侧:二维电导 - 距离直方图;右侧:一维电导直方图,插图显示了纯隧穿(蓝色)和分子隧穿(橙色)的单个电导轨迹。(c)在不同成结率场景下,每种聚类算法的调整兰德指数(ARI)。(d)JFP = 5%时,四种聚类算法与真实标签的对比结果。(e)JFP = 95%时,四种聚类算法与真实标签的对比结果。

基于人工标注的纯隧穿/分子隧穿数据构建了具有不同分子事件比例的11个数据集,以模拟不同成结率的场景。在全部数据上,MPC算法均取得了最优的ARI评分,平均分高达0.998(图2c)。与K-means、谱聚类(SC)和多参数向量聚类(MPVC)算法相比,MPC算法的平均ARI分别提高了15.4%、13.4%和16.2%。特别是在数据不平衡的情况下(少数类占比不足20%),MPC算法的平均ARI提升更为显著,分别达到51.5%、38.4%和45.5%。

图3 IDT-T分子多锚定构型事件分析的实验结果。

(a) 三种IDT-T单分子事件的示意图。A表示电极间未捕获分子,B表示电极通过硫原子连接(对应高电导),C表示在拉伸过程中锚定位置发生变化(对应从低电导到高电导的变化)。(b) 整个数据集的统计结果。左侧:二维电导-距离直方图;右侧:一维电导直方图;插图:三种典型的电导轨迹。(c) MPC聚类结果中簇1、簇2和簇3的二维电导-距离直方图和一维电导直方图。(d) 四种算法的ARI得分。(e) 四种聚类算法与真实标签的对比结果,每种颜色代表一种分子事件。

从大量电导表征数据中区分不同分子事件的信号是电导数据挖掘的典型应用场景。图3展示了对IDT-T分子电导表征数据的聚类结果。其中,由于锚定位置变化引起的电导跳跃特征轨迹(C类数据)在整个数据中仅占7%。如图3c所示,MPC算法将数据划分为三类,并成功识别出了C类数据。其ARI分数高达0.94,显著优于其他方法,分别比K-means、SC和MPVC高出236%、348%和135%。

图4 电场驱动的酮-烯醇互变异构反应事件的实验结果。

(a) 在电场下酮式化合物和烯醇式化合物的结构示意图。(b) 酮式化合物(蓝色,低电导平台)和烯醇式化合物(橙色,高电导平台)的典型电导轨迹。(c) 基于MPC算法聚类结果,在不同偏压下低电导态数据和高电导态数据的占比。(d) 在不同偏压下,每种聚类算法中高电导数据的百分比。(e) 基于MPC聚类结果,吉布斯自由能变化(ΔG)与偏压之间的线性拟合。

单分子电子学表征方法还可以用于表征化学反应过程。在第三个实验中,我们展示了MPC方法在这一领域的应用。实验所用数据为在不同偏压条件下获得的酮-烯醇互变异构反应的单分子表征数据。已有研究表明,烯醇形式的化合物在低偏压下出现的概率较低,但随着偏压的增加,其占比逐渐增加。然而,传统的电导直方图方法只能进行定性观察,无法定量描述这一转变过程。

图4展示了MPC算法在这些数据上的聚类结果。结果显示,MPC能够精准识别并提取出在低偏压下仅占1.5%的烯醇形式化合物信号。此外,我们还通过理论计算证明了该反应的吉布斯自由能变(ΔG)与偏压之间近似呈线性关系。与其他方法相比,MPC计算所得的ΔG与偏压的线性关系最为显著,这进一步证明了MPC算法的有效性,为利用单分子电子学表征方法实现化学反应过程的定量分析提供了有力支持。

课题组和作者简介

文章的第一作者为厦门大学的商驰,通讯作者为厦门大学的洪文晶,刘俊扬以及郑州大学的刘豪杰。

洪文晶,国家杰出青年科学基金获得者,美国化学会Langmuir副主编,厦门大学化学化工学院/材料学院/人工智能研究院教授,化学化工学院副院长,嘉庚创新实验室副主任,智慧储能大型科研基础设施建设组组长,高端电子化学品国家工程研究中心重组工作组组长。主要从事单分子电子学、芯片制造电子化学材料和复杂分子系统科学智能研究。洪文晶教授作为通讯作者和共同通讯作者发表论文百余篇,包括Nat. Mater. 3篇、Nat. Chem. 1篇、Nat. Catal. 1篇,以及J. Am. Chem. Soc. 18篇、Angew. Chem. Int. Ed. 18篇、Chem / Matter / Sci. Adv. / Nat. Commun. / PNAS 18篇等,论文总他引10000余次,在科学仪器和科学智能领域授权发明专利50余项。

刘俊扬,厦门大学副教授,博士生导师,南强青年拔尖人才 B 类,福建省“雏鹰计划”人才,基于微纳芯片方法研究单分子尺度受限空间中强物理场效应诱导的电子、能量转移和化学反应及其动力学过程,并以此为基础发展单分子器件及其阵列集成。主持基金委青年、面上和福建省科技厅产学合作项目,作为第一参与人参与基金委原创探索、重点和面上项目各一项,作为第一或通讯作者(含共同)在 Chem、J. Am. Chem. Soc.、Angew. Chem.、Sci. Adv.、Nat. Commun.、Acc. Chem. Res.等期刊发表论文30篇,授权发明专利6项。

刘豪杰,厦门大学博士后,嘉庚创新实验室副研究员,现为郑州大学特聘教授(青年拔尖),主要从事AI驱动的单分子电子学和智慧储能技术研究,参与建设智慧储能大型科研基础设施。目前以第一作者或通讯作者(含共同)在Nat. Mater.、Trends in Chem.、ACS Appl. Mater. Inter.、Nano Res.等期刊发表论文十余篇。获得国家发明专利4项,软件著作权3项。主持了国家自然科学青年项目、广东省自然科学面上项目、厦门市自然科学青年项目,并参与了多项国家重点研发计划、国自然重点和原创探索等重要项目。


论文链接:

https://www.sciopen.com/article/10.26599/NR.2025.94907276


编辑:李雅宁