校友动态丨潘志超《Rare Metals》:任务导向性表示学习驱动的单分子电导信号自动化聚类


前言与背景

        在单分子电子学领域中,单分子裂结技术为研究单分子电输运性质、开发新型电子器件提供了有力手段。然而,随着对实验表征精度与广度的要求不断提升,如何从大规模无标签的高维电导信号中充分解析单分子体系的有用信息,成为该领域的关键挑战。

        近期,桂林电子科技大学人工智能学院的潘志超副教授课题组在Rare Metals上发表了题为“Automatic clustering of single-molecule break junction data through task-oriented representation learning”的研究文章,提出了一种基于任务导向性表示学习的深度聚类方法(CTRL)。通过神经架构搜索(NAS)自动优化网络结构,并结合联合训练策略,实现了单分子裂结数据的端到端自动聚类。为解决传统方法依赖专家知识及特征提取盲目性的问题提供了全新的解决方案。


研究内容

        CTRL由表示学习(RepL)模块和聚类模块组成。如图1。RepL模块首先基于输入的裂结数据使用NAS寻找一个最优的自动编码器(AE)结构,然后AE表示学习输入数据的低维特征(z)。接下来,z 作为输入传递给聚类模块,该模块采用k-means算法进行聚类。完成一轮聚类分配后,计算k-means与AE重构误差的联合损失,并用其指引下一轮表示学习与聚类趋向更小的联合损失。该流程(图中使用黑色加粗箭头构成一个完整的循环)将迭代更新,直到满足停止条件。最后,CTRL根据轮廓系数(SC)与戴维森堡丁指数(DBI)评价指标确定一个最优聚类数,并返回聚类结果。

图1. CTRL结构示意图


        在验证聚类方法的有效性时,需使用标签明确可控的模拟数据。传统的模拟信号制备可采用函数模拟方法生成电导迹线,但会丢失了真实信号的细节特征,无法充分验证聚类方法对真实信号的特征提取能力。因此,作者在这项研究中创新地使用变分自动编码器(VAE)进行模拟数据生成(图2)。



图2. 使用变分自编码器(VAE)生成裂结数据的示意图。编码器将真实实验数据作为训练集输入(x)。模型学习到与输入数据特征一致的连续潜在数据分布(正态分布,zμ 和 zσ 分别表示均值和方差),然后将从中采样出的潜在向量 z 经由解码器生成新的数据x'。


        在使用CTRL方法聚类数据之前,作者采用NAS自动搜索RepL模块中最优的自编码器结构,以便后续更好地学习数据的低维表示。NAS包含三个核心模块:搜索空间、搜索策略和模型评估。如图3。搜索空间是超参数取值的集合,其组合代表网络结构。搜索策略用于在搜索空间中寻找最优网络结构,确定候选结构的超参数组合H。模型评估通过训练候选网络并测试其性能,反馈结果以指导搜索策略继续寻找新的候选结构,重复“搜索—评估”过程直至满足停止条件。最终,NAS从候选结构中选出最优性能的网络结构作为结果。

图3. NAS 流程图。NAS 根据所评估模型的性能反馈(重构损失),尝试从搜索空间中选择 AE 的最佳超参数集 H。


        在后续的实验中,作者分别使用CTRL方法对模拟数据与实验数据进行了分类,实验结果表明,其方法在生成数据和实际实验数据上均表现优异,能够准确地识别出不同的断裂结模式。

图4. 模拟数据集的自动化聚类实验结果。(a)平台、倾斜和纯溶剂隧穿子集的代表性单条迹线。(b)到(d),经由 CTRL 得到的生成数据集聚类结果。(e)生成数据集的二维频次统计直方图。(f)到(h),缺少NAS的情况下得到的生成数据集聚类结果。


        首先,研究者通过模拟实验验证了CTRL方法的有效性,并设置对照试验来证实NAS的必要性。如图4。实验中,模拟数据集包含三类信号(每类2000条样本),其中两类信号电导平台特征相似,聚类难度较大。结果显示,CTRL以100%准确率区分了三类信号,证明其有效性。在对照试验中,省略NAS并使用手动设置的自编码器结构后,两类相似信号出现分类错误,表明NAS能够确保自编码器提取有效特征。

图5(a)TD34+TD44的二维频次统计直方图。(b),(c)CTRL 的聚类结果,其中(b)是 TD34 的聚类结果,(c)是 TD44 的聚类结果。


        接下来,作者使用结构及为相似的TD34与TD44混合分子体系数据来验证CTRL方法,还设置了基于传统方法的对照实验。如图5。相比于使用传统机器学习方法得到的特征空间分布(图f)与使用联合训练前AE输出的潜在向量空间分布(图e),使用联合训练后的分布(图d)中各类之间呈现清晰的边界并且内部分布紧凑,这显著的降低了k-means误聚类的可能性。最后使用SC与DBI,对过程中各聚类数下的聚类结果进行评估,选择出最优聚类数(线箱图g, h中以红色标出)作为结果。

图6(a)OPE2+OPE3 分子系统裂结数据的二维直方图。


        最后,作者选取了更具挑战性的OPE2+OPE3 分子系统来应用CTRL,其数据不仅包含较为相似的平台特征,而且采取非等量混合。CTRL搜索得出最优聚类数为3(线箱图b, c中以红色标出),RepL中AE输出的潜在向量空间分部(图d)紧凑规则,可以使用k-means聚类进行有效区分。将聚类结果进行一维与二维频次统计可视化(图e-h,含台阶统计),表明了CTRL区分出了不同比例的OPE2、OPE3以及纯隧穿信号。


总结


        CTRL方法的优势不仅体现在聚类结果的准确性上,更在于其能够自动学习到有利于聚类任务的低维特征表示,无需人工干预进行特征选择或参数优化。这种端到端的自动聚类方案,极大地提高了单分子断点连接数据分析的效率和客观性,为深入研究单分子电学特性、开发新型单分子器件提供了强大的数据支持和技术保障。

        本研究工作以Automatic clustering of single-molecule break junction data through task-oriented representation learning为题发表于Rare Metals,文章第一作者为桂林电子科技大学人工智能学院硕士研究生赵易恒, 通讯作者为桂林电子科技大学人工智能学院副教授潘志超。本研究得到了广西科技计划项目(No. GuiKeAD23026291)和广西科技重大专项(No.AA22068057)的资助。


原文链接:https://doi.org/10.1007/s12598-024-03089-7

作者信息:

潘志超

简介:潘志超,男,桂林电子科技大学人工智能学院副教授。2010年毕业于武汉轻工大学应用化学专业,2016年博士毕业于中国科学技术大学物理化学系,并先后在厦门大学、天津大学从事博士后研究工作。目前主要从事人工智能驱动的分子科学研究,近五年在单分子领域发表SCI论文10余篇,包括Small, J. Am. Chem. Soc., Sci. China Chem., Rare Metals等。