研究背景
共价有机框架是一类由有机分子通过强共价键连接形成的晶态多孔材料,具有高比表面积、可调结构和在大孔体积等优点,在气体存储、分离、催化、传感等领域应用前景广阔。然而,COF的结构多样性近乎无限,传统实验方法耗时耗力,难以快速筛选出具有特定电子性质的COF,尤其是带隙这一关键电子特性。使用密度泛函理论进行高通量计算虽然可行,但计算成本极高,尤其对于包含数百甚至数千原子的大晶胞COF结构。
共价有机框架(COFs)是一类结构可能性近乎无限的材料,这使得快速识别具有特定性质(尤其是电子性质)的COF极具挑战性,为解决数据稀缺和计算成本高的问题,本研究应用迁移学习技术,通过在各类COF数据集上对预训练模型(PMTransformer)进行微调,克服了上述限制,实现了COF带隙的快速预测。最终模型可准确预测COF带隙,平均绝对误差为0.23 eV,R²值达0.89,性能优于晶体图卷积神经网络模型。通过在独立的COF数据集上使用密度泛函理论(DFT)计算验证模型预测结果,证实了预测带隙与DFT计算值的一致性。将模型应用于大型COF数据库时,筛选出了具有潜在(半)导电性的COF,表明该模型有望成为高效筛选工具,用于发现具有优化电子性质的COF,文章发布于《The Journal of Physical Chemistry C》,DOI:10.1021/acs.jpcc.5c01307
研究过程与结果
本研究采用迁移学习的机器学习策略,对“PMTransformer”的预训练模型进行微调,能够快速、准确地预测COF的带隙,PMTransformer是一个专门为多孔材料设计的 multimodal Transformer多模态模型,最初使用PORMAKE程序生成的190万个假设性多孔材料结构(如MOF、COF、沸石等),在这个数据库上进行预训练。
用于预测共价有机框架材料带隙的机器学习模型示意图
基于CGCNN方法进行修改,将晶体结构转化为图(原子为节点,化学键为边),提取局部化学键和原子环境信息,PMTransformer 只使用CGCNN的输出向量,去除了池化层,以保留更完整的原子级信息;随后使用GRIDAY程序,以一个甲烷分子作为探针,计算其在材料结构空间中的相互作用能,形成一个3D能量网格。这个网格被视作一幅3D图像,输入到类似于Vision Transformer的架构中,以捕捉材料的全局特征(如孔道形状和尺寸)。
(a)四种不同用于预测COF材料带隙的微调模型示意图;(b) 四种微调模型的平均绝对误差(MAE,单位为eV)与R²评分对比;(c) 以MAE为评估目标的PMTransformer与CGCNN模型学习曲线
为了让模型理解材料结构的内在规律,设计了三个任务:拓扑结构预测、孔隙率预测、金属节点与有机配体分类,使用训练好的模型对一个包含约69,840个COF结构的大型数据库(Mercado数据库)进行带隙预测,最终有效预测了41,579个结构,其结果显示,大多数COF的带隙集中在约1.5 eV附近,因PWmat对大规模体系(>500原子)的高效GPU加速能力,使用其对部分COF进行DFT计算验证,为与训练数据保持一致,设置了PBE 泛函、Norm-conserving 赝势、50 Ryd的高截断能和3x3x3 k-poin。结果显示:对于带隙在1–3 eV的COF,预测值与DFT值相差0.1–0.3 eV,与模型测试误差一致;对于带隙极低(0.6–0.7 eV)的COF,模型存在轻微高估,原因是训练数据中低带隙样本较少,导致模型对这一区间的预测能力不足。
(a) 基于Mercado COF数据库中41,579种COF材料的预测带隙汇总图,展示了晶胞体积与原子数量函数关系下的带隙分布;(b) 通过概率密度曲线对比预测数据与训练数据集中的带隙值分布特征;(c) COF材料带隙值、晶胞体积及原子数量三个参数的统计分布规律;(d) 模型预测带隙与密度泛函理论计算值的相关性对比分析
研究识别出四种具有极低带隙(<0.3 eV)的三维COF结构,计算了它们的投影态密度(PDOS),发现在费米能级附近,氮原子对态密度的贡献占主导地位,这与通常碳主导的情况不同。随即使用更精确的HSE06泛函对其中两种COF重新进行计算,得到结果带隙分别为0.389 eV和0.283 eV,确认其具有半导电性。这些发现为设计新型导电三维COF提供了新思路,为后续在电子学、光电子学和能源存储等领域的应用提供了有力工具。
低带隙共价有机框架的投影态密度(PDOS)
PWmat在该工作中的重要作用
PWmat可以通过GPU加速,使大规模COF的DFT计算变得可行,提供了可靠的 DFT带隙值,作为评估机器学习模型准确性的“真理标准”,同时作为机理探索工具计算PDOS,揭示低带隙的电子结构根源,PWmat还执行了更精确的HSE06计算,纠正 PBE的系统性误差,最终确认了候选材料的导电潜力,使研究发现更加坚实。可以说,机器学习模型(PMTransformer)负责“大海捞针”式的高通量初筛,而PWmat则负责对捞出的“针”进行权威的鉴定和深入分析。两者结合,共同构成了一个完整且强大的材料发现工作流程。
预测值与参考值的散点图
处理大规模COF体系
COF的晶胞通常非常庞大,包含数百甚至数千个原子。使用传统的第一性原理计算软件的默认设置对这些体系进行电子结构计算,计算成本极高,甚至由于内存和计算资源的限制而难以完成。PWmat专门针对GPU进行了优化,实现20倍的速度提升,这种加速使得研究团队能够处理超过4000个电子的大型系统,这正好匹配了COF结构原子数多的特点。没有PWmat这个工具,对筛选出的候选COF进行DFT验证几乎是不可行的。
作为模型预测的“真理标准”
在机器学习研究中,需要一个独立且可靠的基准来评估模型的预测准确性。在模型微调阶段,虽然使用了已有的DFT数据进行训练和测试,但为了最终证明模型的泛化能力,必须在它从未见过的全新数据上进行验证,因此创建“黄金测试集”成了必不可少得一环,研究团队挑选了两组结构,使用PWmat计算这些结构的带隙,并将其结果作为“真实值”,与机器学习模型的预测值进行对比。这个对比是证明模型有效性的最有力证据。
确保计算的一致性
因为微调模型所使用的训练数据是基于PBE泛函计算的,所以为了公平比较,验证性 DFT计算也必须使用相同的PBE泛函。PWmat设置了非常高的精度执行计算,确保了数据基准的统一性、精准度,足以作为可靠的评判标准。
对关键发现进行深入机理分析
PWmat 的作用不仅仅是提供一个数字(带隙值),它还用于深入理解材料的电子特性。对于筛选出的最有前途的低带隙 COF,研究者使用PWmat计算了它们的PDOS。通过分析 PDOS,发现了费米能级附近的电子态主要由氮原子贡献,而非通常的碳原子,PWmat 提供的详细电子结构信息,对未来设计导电COF提供了多引入氮元素的新的分子设计思路。
提供更高级别的理论验证
众所周知,PBE泛函会系统性低估半导体和绝缘体的带隙。为了获得更接近实验真实值的带隙,研究者对两个最有希望的COF使用了计算成本高出数个量级的HSE06杂化泛函,得到的结果虽然比PBE结果大,但依然属于窄带隙半导体范畴。这最终确认了这些材料确实是具有潜在导电性的COF,极大地增强了研究结论的说服力。
/ END /