首页/文章/ 详情

中科院一区TOP期刊论文分享| 自主学习进化图神经网络驱动的软测量模型

4月前浏览160
本期给大家推荐的文章是《自主学习进化图神经网络驱动的软测量模型》。本文提出了一种由自学习图生成模块,进化模块和节点感知模块组成的自学习进化与节点感知图学习框架,学习短期和长期依赖关系。在发电过程、造纸过程烧结过程做了充分实验,证明所提出框架在性能上均优于现有的先进软测量方法。

论文基本信息

论文题目:SENGraph: A Self-Learning Evolutionary and Node-Aware Graph Network for Soft Sensing in Industrial Processes

论文期刊:IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS

论文日期:2025年

作者:

Feng Yan, Cong Wang, Zichen Wang, Yuhao Shen, and Chunjie Yang

机构:
The State Key Laboratory of Industrial Control Technology, College of Control Science and Engineering, Zhejiang University, Hangzhou 310000, China
第一作者简介:
严锋,浙江大学控制科学与工程学院,2021级博士生,研究方向为工业过程建模与智能感知,目前以第一作者身份在IEEE TCYB、TNNLS、TII、TIE等权威期刊上发表学术论文10余篇;以第一发明人授权或公开发明专利10余项,其中美国专利1项。博士期间参加国家自然科学基金重大项目课题。曾获得2023年和2024年博士研究生国家奖学金、浙江大学五好研究生称号、浙江大学优秀研究生称号、湖南省优秀硕士学位论文、硕士研究生国家奖学金等。联系方式:yanfeng555@zju.edu.cn

目录

摘要
1 引言
2 方法理论  
2.1 问题描述  
2.2 SENGraph总体框架  
2.3 自学习图生成模块  
2.4 自主进化模块  
2.5 节点感知模块  
3 实验案例  
3.1 案例一:发电过程  
3.2 案例二:造纸过程  
3.3 案例三:烧结过程  
4 结论

摘要

目前已有的软测量模型多数基于欧几里得空间规则数据进行学习,但这种方式忽略了过程变量之间复杂的拓扑耦合关系。为了解决该问题,本文提出了一种自学习进化节点感知图神经网络用于工业软测量。首先,本文提出了自学习图生成模块,通过融合粗粒度图和细粒度图,旨在捕捉过程数据中的全局趋势和局部动态性。其次,构建了自主进化图模块,采用变异和交叉策略以更新图网络中的节点特征表达。最后,设计了节点感知模块,以量化各节点的重要性,从而进一步提升下游软测量模型的建模能力。在三个工业数据集上的实验结果验证了所提方法的优越性和先进性。

关键词:拓扑耦合、自主进化、自学习图结构

1 引言

基于深度学习的软测量建模已得到广泛应用,包括自编码器、卷积神经网络和递归神经网络等深度模型。与传统的欧几里得空间建模技术不同,新的研究表明过程变量具有非欧几里得潜在特征空间的拓扑结构。传统的欧几里得空间建模方法无法有效捕捉过程变量之间的复杂依赖关系。因此,有必要进一步探索更有效的方法,以提升软测量的建模性能。

图神经网络凭借其强大的特征提取能力,已在多个领域取得了成功的应用,例如社交网络、蛋白质相互作用、交通预测和知识图谱。在软测量任务中,图的节点和边分别代表过程变量及其空间耦合关系,其主要目标是通过信息传递机制提取过程变量之间的内在特征。图网络的学习过程包含三个步骤:聚合、组合和读取函数。 

图神经网络通过信息的迭代与传递,能够高效地整合来自邻近节点的高阶信息,因而非常适合捕捉过程变量之间的相互依赖关系。最新研究探讨了基于图的软测量在工业过程建模中的有效性,实验结果证明了图网络在非欧几里得数据结构中的建模能力。尽管目前已有一些开创性的研究,但图网络在软测量领域仍面临若干特定领域的问题:

(1)在边层面上(图网络中的边会随着时间粒度的变化而发生变化),由于原材料的波动和工况条件的变化,过程变量之间的动态关系也随之变化。目前的图网络建模研究主要依赖于局部图或全局图结构。然而,在实际工业过程中,由于工况的变化,过程变量之间的关系在不同时间尺度上存在差异。因此,需要同时考虑局部特征与全局特征。

(2)在节点层面上(节点特征随时间动态变化),现有的图网络建模软测量方法并未充分考虑过程变量中的动态性。工业过程涉及大量复杂的物理和化学反应,例如,高炉炼铁过程中在高温和高压条件下会发生一系列物化反应,如水分解和氧化还原反应。因此,有必要捕捉这些时间动态性,以增强图网络的特征表达能力。

(3)在任务层面上(不同节点对软测量任务的重要性存在差异),现有研究通常通过对图中所有节点特征进行简单加权来聚合节点特征,而未能量化各节点的重要性。由于软测量属于回归任务,特征的重要性与质量变量的软测量精度之间存在紧密的关联。因此,有必要深入研究图神经网络中节点特征与软测量任务之间的相关性。

为了解决上述问题,本文提出了一种自学习进化与节点感知图学习框架(Self-learning Evolutionary and Node-aware Graph learning framework, SENGraph)。SENGraph包括三个模块:自学习图生成模块(Self-Learning Graph Generation, SLG)、进化模块(Evolutionary Graph Module, EGM)和节点感知模块(Node-Aware Modules, NAM)。SLG模块从不同时间粒度的视角揭示了过程变量之间的全局和局部依赖关系。该模块的主要目标是识别过程变量之间是否存在边及其连接强度。其中,全局图代表工业过程的长期运行状态,局部图则自适应生成以适应不同工况条件的短期图结构。在此基础上,进化模块利用传播和进化机制捕获节点特征,从而在节点层面学习工业过程的动态变化趋势。为了区分不同节点的重要性,NAM模块通过参数学习增强重要特征的权重,减小次要特征的重要性。为了验证SENGraph的优越性,本研究在三个典型工业应用案例(发电过程、造纸过程和烧结过程)上开展了广泛的对比实验与分析。实验结果表明,所提方法相较于目前最先进的软测量方法具有显著的提升。同时,消融实验也验证了三个设计模块的必要性。此外,关于自学习图结构和节点权重的可视化分析与讨论也进行了详细阐述。SENGraph在真实工业系统中的实时运行时间得到了验证。总体而言,本文节工作的主要贡献如下:

(1)自学习图结构:构建了一种融合粗粒度与细粒度的自学习图结构,以捕获工业过程的全局趋势和局部动态特性,生成符合实际工业特性的图结构。

(2)自主进化模块:设计了一种自主进化策略,用于更新图节点特征的表达,采用交叉和变异操作以增加节点特征的多样性,从而提升图学习框架的表征能力。

(3)节点感知模块:开发了自适应节点感知模块,将可学习的权重嵌入图神经网络架构,通过反向传播算法实现对节点重要性的学习。

2 方法理论

2.1 问题描述

图1 过程变量之间图结构生成方法

为了捕获工业过程变量之间的复杂拓扑耦合关系,本文建立了基于图神经网络的软测量模型,如图1所示。过程变量之间的拓扑结构可视作一张图    ,其中    代表所有节点集 合,    代表所有边的集 合,    代表邻接矩阵。假设    代表    时刻的过程变量,历史时间步    的过程变量表示为    。基于图神经网络的软测量目标是根据历史过程变量    和图结构预测质量变量    ,数学表达如下:

   
 

其中,    表示时刻    的质量变量,    表示可学习的映射模型。

2.2 SENGraph总体框架

图2 SENGraph的总体框架图

如图2所示,SENGraph模型由三个核心模块组成:自学习图模块、进化图模块和节点感知模块。为了捕捉过程变量之间的潜在空间依赖关系,本文提出了一种自学习图结构生成模块,用于计算邻接矩阵,并将其作为图上消息传播阶段的输入。随后,构建了EGM模块,在消息传递阶段自适应地更新节点特征。EGM通过变异、交叉和更新操作生成新的节点表示。最后,NAM模块用于识别不同节点对目标变量的贡献度,从而提高下游软测量的预测准确性。

2.3 自学习图生成模块

图结构的生成是图神经网络构建中的一个关键步骤,它直接决定了图网络的表达能力。对于工业过程而言,过程变量之间的空间耦合关系极为复杂,并且会随着时间而发生变化。由于工业过程涉及复杂的物理和化学反应,事先预定义的图往往无法准确反映变量之间的动态依赖关系。因此,如何进行有效的图结构学习成为下游软测量任务的首要任务。通过机理分析,图结构生成模块需要研究两类信息:全局信息和局部信息。前者表示工业过程在较长时间尺度内的趋势,而后者则指示每个样本在短期内所呈现的独特信息。

 

图3 过程变量之间的全局和局部依赖性可视化(以发电过程为例)

在实际工业生产过程中,由于复杂的物化反应,往往存在全局特征和局部特征。为了详细阐述它们的物理意义,图3以发电过程中为例可视化了的两个过程变量的依赖性。全局特征是指长时间段    内不同过程变量之间的总体趋势和共享信息。实际工业生产中存在外部因素如温度和湿度的变化,导致实际工况和化学反应发生变化,从而带来短期局部特征。从图3观察到,两个变量的总体趋势相似(全局),但    和    时间段内的局部变化存在较大差异。

本文从宏观和微观层面分别考虑了工业过程的全局特征和局部特征。由于图结构在较长时间段内相对稳定,本文采用粗粒度图结构以获得历史时间序列中的宏观特性。另一方面,通过细粒度邻接矩阵捕捉外部扰动带来的短期动态性。为此,融合全局信息与局部信息能够充分反映多工况条件下变量之间的依赖关系,从而有助于生成过程变量之间的图拓扑结构。

 

图4 自学习图生成模块的构造示意图

基于上述分析,本文提出了一种自学习图模块,旨在利用粗粒度图和细粒度图挖掘在不同时间粒度下过程变量之间的全局和局部相互依赖关系。如图4所示,SLG模块由三个部分组成:粗粒度图、细粒度图和门控融合模块。 (1)粗粒度图结构生成方法 

粗粒度图通过距离度量的方法从数据中学习过程变量之间的全局依赖关系。鉴于欧式距离无法准确测量非欧几里德空间中过程变量之间的相关性,本文采用度量学习来评估变量之间的相似性。首先提出了可学习的马氏距离来计算过程变量(节点)    和    之间的相似性:

   
 

其中,    表示可学习的权重矩阵。由于    是一个半正定对称矩阵,可以分解为    ,其中    是模型中的可训练参数。然后,使用高斯核距离公式对马哈拉诺比斯距离进行归一化,具体如下:

   
 

其中,    是欧式距离的标准差,    是邻接矩阵的阈值。根据以上公式求得粗粒度邻接矩阵     。

(2)细粒度图结构生成方法 

在实际工业过程中,由于原材料的波动和工作模式的切换,过程变量之间的依赖关系通常会随时间动态变化。为此,本文构建了细粒度图,以捕捉节点的局部相似性。假定输入表示为    ,首先通过两个函数    和    将其投影到潜在空间,然后使用经典的时间卷积网络(Temporal Convolutional Networks, TCN)进行特征变换,从而得到两个特征矩阵(    和    )。最后,点乘两个矩阵并归一化后获得权重矩阵    

   
   
 

其中,    是进化图模块的随机参数。对于邻接矩阵,权重矩阵是对称的。因此,细粒度邻接矩阵    采用如下公式对称化处理:

   
 

(3)门控融合方法 

为了有效融合两类图结构,本文提出了一种新的门控函数自主学习全局和局部特征的权重系数。该函数旨在平衡粗粒度矩阵    和细粒度矩阵    的比例:

   
 

其中,    表示两个张量的拼接操作。    和    是可学习的权重和偏置参数。门控函数    旨在探索粗粒度矩阵和细粒度矩阵与输出之间的线性关系,并通过 sigmoid 函数激活,从而控制信息流。融合图的表达式如下:

   
 

其中,    表示元素级乘积,    表示自学习邻接矩阵。    的目标是动态平衡    和    的权重。对于工业过程,门控融合用于揭示过程变量之间的联系,考虑到全局和局部的重要性。自学习图生成的详细步骤如算法1所示。 

表1 SLG模块的构造步骤

 

2.4 自主进化模块

在工业过程中,由于恶劣的生产环境所带来的随机干扰,过程变量存在较大的不确定性。例如,在烧结过程中,不同工人的操作习惯存在差异,导致操作参数不断变化,从而引发过程变量的分布漂移现象。因此,仅仅学习静态特征已无法充分表征外部环境的动态特性。为此,本文提出了一种新颖的自进化图模块,旨在捕捉节点特征的动态性。EGM受生物基因进化的启发,采用变异、交叉和更新等操作生成优越的后代,即新的节点特征。EGM的目标在于生成具有多样化的特征表示,以降低模型陷入局部最优解的可能性,同时鼓励图神经网络模型获取最优节点特征,从而提升模型的泛化性能。EGM包括两个主要步骤:消息传播和节点进化。

(1)消息传播机制

在图结构生成之后,下一步是建立消息传播机制。前向传播过程有两个功能函数:消息函数    和更新函数    。节点之间的消息传播计算公式如下: 其中,    、    、    、    和    是可学习的参数。对于更新函数,EGM使用门控循环单元(Gated Recurrent Unit)来结合每个节点的邻域信息和自身信息。具体的计算过程如下:

   
 

其中,重置门    用于控制前一层邻域信息量,而更新门    的目标是结合当前节点和候选节点    ,进而控制下一层的信息量。

(2)节点进化机制

图5 自主进化模块计算过程

受到生物进化计算的启发,本文提出了一种自主进化策略来更新节点特征,该策略包括四个操作:初始化、变异、交叉和更新。变异操作旨在产生新的后代,以增加个体的多样性。根据“适者生存”原则,低质量个体的基因将被淘汰,而高质量个体的基因则得以保留。交叉操作通过比较父代个体和子代个体的相似性,有选择性地继承父代的优点。更新操作通过对所有生成个体的加权平均,选择总能性能较优的后代,为后续的自主进化奠定基础。在此过程中,损失函数被视作适应度函数,用于优化节点特征。在模型训练过程中,适应度函数通过反向传播算法学习新的基因表达,从而有助于模型跳出局部最小值,加速模型的收敛精度和速度。

如图5所示,节点特征    和图结构    共同作为传播模块    的输入,新的节点特征    表示为:

   
 

首先,通过随机初始化方法生成一组邻接矩阵    ,其中    表示种群数量。在传播操作之后,节点特征可以表示为:

   
 

假设    表示图进化中的个体基因,其中    表示第    个子代个体    。然后,使用变异策略生成相应的变异个体    

   
   
 

其中,    表示变异因子;变异概率是    一个均匀分布在 [0,1] 之间的随机参数;    是一个超参数;    和    是可学习参数。变异向量    用于权衡当前个体与所有个体平均值之间的差异,用于指引变异操作的进化方向。该变异策略不仅继承了父代个体的信息,还引导模型生成更多未知个体,实现节点特征多样化。 为了进一步提高种群的多样性,EGM采用交叉操作将父代基因与子代基因结合,从而淘汰一些无法生存的劣质个体。新一代种群    是根据以下公式生成的:

   
 

其中,    是交叉因子,使用余弦相似度计算,以量化旧个体与新生成个体之间的差异性。如果    接近-1,则说明新个体与父代个体差异性较大。在此情况下,新个体被视为劣质变异,那么交叉操作主要由父代个体决定。特别地,如果    接近1,则新个体仍然是原始父代个体。交叉操作的目的是保留旧种群和新种群中的优秀基因。最后,EGM使用加权求和来确定图网络最终的输出:

   
 

新生成的个体正在进化以适应新的环境,从而获得较优的节点特征。通过多次迭代优化损失函数,EGM学习到最佳的权重参数,生成的节点特征有助于模型朝着最优轨迹运行。在一系列进化操作之后,新的节点特征 被用于下游软测量任务。具体计算过程见表2。 

表2 EGM模块的构造步骤

 

2.5 节点感知模块

对于图层面任务,节点对预测目标的贡献度往往是未知的,因此很难量化不同过程变量的重要性。原始图节点特征提取假定每个节点的重要性是相同的,导致提取的特征存在冗余信息,进而进一步削弱图模型的有效性。为了解决该问题,本文设计了一个具有可学习权重的节点感知模块,迫使图网络能够识别不同节点的重要度。假设    表示所有节点的权重向量,节点感知模块的计算过程为:

   
   
 

其中,    表示节点特征,等于    与    之间的逐元素乘积。表示批归一化层。表示门控线性单元,用于控制非线性贡献的程度。

   
 

其中,    代表指数线性单元激活函,    表示可学习的参数。最后,优化后的特征被输入到全连接层,并使用均方误差损失:

   
 

3 实验案例

本节开展了大量的对比和消融实验分析,以验证所提SENGraph模型在三个真实工业过程案例中的有效性和优越性。第一个发电过程的数据集用于比较SENGraph模型与其他先进软测量模型的精度和效率,并通过可视化技术验证SENGraph中关键模块的必要性。第二个造纸过程的数据集用于检验模型的普适性,并采用PDP方法对模型输出结果进行了解释。第三个烧结过程的案例则用于评估SENGraph在实时工业系统中的计算性能。

实验设置:所有深度学习模型均采用PyTorch框架实现,使用Adam优化器进行反向传播以更新权重参数,超参数通过网格搜索确定。学习率设置为0.0015,批量大小为32,训练轮次为15。输入长度设定为40,隐藏维度为20,图神经网络(Graph Neural Networks, GNN)的阈值设置为0.6。在进化模块中,种群个体数量设置为5,设置为1。

基线模型:本文选取8种先进软测量模型对比,包括经典的自编码器和先进的图神经网络,比如SAE、VWSAE、GCN、DCGNet、MCDGCN、DGDL、S-GCN和DMRI-Former。

3.1 案例一:发电过程

图6 锅炉发电工艺流程

锅炉是一种广泛应用于发电厂的热反应器。如图6所示,锅炉发电过程是一个复杂的综合过程系统,涵盖燃料系统、供给水系统及空气预热器等多个组成部分。首先,水被预热并泵送至锅炉炉膛,以产生过热蒸汽。在燃烧过程中,锅炉内的焦炭燃烧,借助预热空气来加热水。然后,高温高压的蒸汽进入涡轮以产生电力。一般而言,蒸汽流量是影响电能的重要指标,因此需要通过调整过程参数来增加蒸汽流量。由于现场测试耗时且成本高昂,数据驱动的软测量提供了一种有效的替代方案,以实时预测蒸汽流量。该数据集的样本以分钟为单位进行采样,目标是基于一组控制参数和工作条件来预测蒸汽流量。根据机理分析,选择了20个过程变量作为软测量传感模型的输入,包括给水流量、空气流量、炉温和压力等。沿时间轴划分,前6000个样本用于训练模型,接下来的1000个样本用于超参数优化,剩余的1000个样本则用于测试。

(1)模型性能对比与讨论 

表3 不同模型的蒸气预测结果比较

 

图7 发电过程蒸汽流量预测对比

表3展示了SENGraph与其他模型在锅炉发电数据集上的预测性能对比结果。为简洁起见,图7提供了前四种方法的预测值与真实值的拟合效果。从图中可以直观地看出,SENGraph模型在性能上表现最佳。SAE模型由于在捕捉过程数据中的耦合特征方面能力有限,其预测性能在所有对比模型中是最低的。GCN的表现优于SAE和VWSAE,表明GCN在学习变量之间的依赖关系方面具有天然优势。然而,GCN仅考虑变量之间的静态空间依赖性,忽略了过程变量之间的动态耦合性。因此,改进后的GNN模型,如MCDGCN、DGDL和S-GCN,其预测性能均优于GCN。其他先进的图神经网络软测量方法,如S-GCN和DGDL,仅解决了局部动态性问题,无法捕捉工业过程的全局趋势。DCGNet利用卷积神经网络捕捉过程变量之间的关系,但由于其建模方法基于欧氏空间假设,无法提取非欧氏空间中的复杂耦合关系。在工业过程中,过程变量的拓扑结构往往为非欧几里得的,而SENGraph能够明确地捕捉这种拓扑关系。此外,DMRI-Former在长期预测方面表现良好,但在捕捉短期关系时则显得不足,其性能略低于SENGraph。综上所述,SENGraph得益于自主进化和节点感知模块的设计,能够有效挖掘动态空间依赖性并关注重要节点。同时,自适应图学习模块可以同时学习基于距离的空间依赖和不同时间尺度下的潜在空间依赖。

(2)消融实验

为了验证SENGraph中各个组件的有效性,本文通过移除或替换某些组件,与三个变体模型的预测性能进行比较。变体模型的构造如下:

  • w/o SLG:仅使用基于距离的图结构,去除自学习图生成模块。

  • w/o EGM:缩减进化图模块,仅使用消息传递机制,并用简单的求和操作(如Graph Convolutional Networks, GCN)替换。

  • w/o NAM:移除节点感知模块,使模型无法区分节点对质量变量的贡献。

表4 各种消融变体模型准确率和计算效率对比

表4提供了SENGraph及其变体模型在测试集上的R²、RMSE和MAE指标。从表中结果可以看出,移除SGL模块会显著降低模型的性能。这是因为SGL能够在模型训练过程中自动学习过程变量之间的动态空间耦合关系。其次,通过对w/o EGM的性能进行比较分析可知,进化模块在搜索全局最优解中同样发挥了关键作用。最后,NAM模块有助于提高模型的准确性,因为该模块在模型训练优化过程中重点关注权重较大的节点,从而减少冗余信息的干扰。在实际工业过程中,不同过程变量确实对质量变量的贡献度存在差异,这进一步表明理论结果与实际工程应用的吻合程度。综上所述,消融实验结果验证了SENGraph中各个集成组件的有效性。 

表5 不同对比模型的运行时间对比

此外,表5比较了消融实验中各个模块的执行时间百分比。对于SLG模块,除了来自时间卷积网络特征提取器的计算外,主要的计算复杂度源于自学习模块中的矩阵乘法,在CPU和GPU上的时间占比分别约为19%和23%。EGM模块占用了大部分执行时间,约为65%-70%,其原因主要有两个方面:1)消息传播机制包含多个并行性较低的递归操作;2)一些带有逻辑操作的变异在CPU上执行,可能导致GPU上的进程停滞。最后,NAM模块由于仅包含4个矩阵操作,因此占总执行时间的11%。

(3)自学习图生成模块分析

 

图8 不同图结构可视化对比

为了验证自学习图结构的有效性,图3.8对SENGraph模型中粗粒度图和细粒度图的结果进行了可视化比较。为检验图神经网络中邻接矩阵的必要性,图8(a)中采用高斯分布的随机图初始化邻接矩阵。图8(b)和(c)展示了基于距离的邻接矩阵所生成的粗粒度图和基于动态学习的细粒度图,其中前者捕捉了长期趋势,而后者则学习了短期依赖关系。图8(d)展示了本文提出的自学习图结构,它综合了粗粒度图和细粒度图的优势,能够充分反映工业过程的多工况特性。

首先,图8(a)中的随机邻接矩阵表现出较高的稠密性,而在实际工业过程中,过程变量之间的关系通常较为稀疏,因为它们之间并未表现出显著的相关性。相比之下,图8(b)和(c)所展示的短期依赖性和长期依赖性与实际工程情况保持一致。然而,从图8(b)和(c)可以观察到,过程变量之间的连接与图6中的锅炉发电系统是一致的,即过程变量与其周边子系统之间的关系相对较为紧密,而与远端组件的关系则相对较弱。例如,空气进气对空气预热器和磨煤机的影响较为直接,而对锅炉炉膛后的水墙的影响则较小。

特别地,本文以图8(b)和(c)中蓝色方框变量为例进行阐述 和 之间的依赖关系。从图(b)和(c)中不难发现, 和 没有明显的长期依赖性,但在短期内,它们之间表现出较强的相关性。基于这种分析,粗粒度图和细粒度图均存在一定的偏差,而本文所提出的自学习图结构生成方法成功地结合了两者的优势,从而对系统中的过程变量进行了较为全面的建模。此外,图8(e)比较了不同图结构下模型的训练损失。结果表明,所提出的自学习图结构获得了最小的训练损失和最佳的收敛性能。从图8(f)可观察到,四种图结构的RMSE/MAE呈下降趋势(R²值则相反),进一步验证了自学习图结构的合理性。

(4)模型运行时间对比

最后,本研究在RTX3050 GPU上评估了每个训练和测试周期的时间,如表5所示。结果表明,GCN凭借其并行计算能力取得了最高的运行效率,其运行速度比SAE提升了约2倍。由于SAE和VWSAE存在多个全连接层的神经元计算,其耗时较GCN更长,未能充分发挥GPU资源的优势。SENGraph的性能瓶颈主要集中在进化模块,该模块在进行变异、交叉和更新时消耗了大量时间,且无法进行并行处理。为了解决这一问题,工业界通常采用GPU加速进化模块的计算速度。鉴于模型训练一般采用离线或定期更新的方式,SENGraph提供了更高的性能,其计算增量在工程应用中是合理的。前文的消融研究也表明,进化模块是该框架中不可或缺的一部分。另一方面,GPU的测试时间约为0.14秒,这一性能指标能够满足大多数工业应用的需求。

3.2 案例二:造纸过程

制浆造纸过程是一个典型的过程工业。造纸生产是一个长链的过程,涉及硝化、洗涤、筛选、漂白、精炼、脱水等多个环节。原材料如木片通过机械和化学方法加工转化为纸浆,随后纸浆经过清洗、筛选和漂白等步骤。最后,进行一系列配料准备,在纸机上生产高质量的纸产品。纸张的强度是衡量其质量的最重要指标之一,而离线测试纸张强度的成本通常较高。为了解决这一问题,采用数据驱动的软测量方法,根据一些关键过程变量(如纤维长度、纤维宽度等)来估计纸张强度。我们从纸张强度数据集中收集了10,000个样本,使用14个过程变量作为软测量模型的输入。在数据预处理后,数据集按照8:1:1的比例划分为训练集、验证集和测试集。

(1)模型性能对比与讨论 

表6 不同对比模型的运行时间对比

 

图9 造纸过程纸张抗拉强度预测对比

表6和图9展示了不同模型在造纸过程数据集上的性能比较结果。与发电过程数据集的结果一致,传统方法SAE的性能逊色于图神经网络软测量模型。与静态自编码器模型相比,DCGNet由于集成了递归神经网络,在捕捉过程数据的动态特征方面表现较为出色。然而,由于造纸过程中过程变量与目标变量之间的相关性并不强,导致DCGNet的整体性能有所下降。相对而言,基于图的软测量模型MCDGCN通过图卷积探索不同通道的过程变量之间的相关性,其预测性能优于DCGNet。尽管如此,MCDGCN未能考虑过程变量之间的动态耦合特性,这限制了其表达能力。图神经网络如DGDL和S-GCN考虑了动态机制,因此在性能上优于MCDGCN。本文所提出的SENGraph不仅在消息传递阶段有效捕捉节点表示的动态性,还量化了不同节点对质量预测的重要性。因此,SENGraph的性能超越了现有的最先进软测量模型。

表7 造纸过程数据集上的消融实验性能对比

 

为了进一步研究SENGraph中几个核心模块的影响,本文在造纸过程数据集上进行了消融实验。从表7中可以观察到,自学习图的性能优于基于距离的图(w/o SLG),这主要是由于自学习图能够在小时间尺度上有效学习过程变量的局部动态性。此外,根据SENGraph与其变体模型(w/o EGM)的对比结果,EGM带来的性能提升同样显著。命名注意力机制能够选择与质量变量更相关的信息节点,对模型性能贡献较大。两个数据集上的消融实验进一步验证了SENGraph各模块对预测性能具有积极的影响。

(2)PDP模型可解释性分析

图10 造纸过程PDP依赖性分析

为了提高模型的可解释性,本文根据注意力机制计算的特征重要性排序,如图10(a)所示。为简化分析,本文选择了重要性排名前三的特征进行详细探讨。图10(b)至(d)中的部分依赖图展示了这些特征如何影响预测结果。从图10(a)可以看出,变量纸张厚度是最重要的特征,它与制造过程中纸张强度密切相关。图10(b)显示,随着纸张厚度的增加,预测的纸张强度逐渐提升,这一规律符合造纸过程的机理。一般而言,纸张厚度与纸张强度之间存在正相关性;较大的纸张厚度能够承受更大的负荷,从而提高纸张的抗拉强度。

此外,变量细小纤维含量 与模型预测之间的相关性在不同区间表现出波动,如图10(c)所示。例如,当细纤维的百分比在 [0, 0.2] 范围内时,纸张强度急剧下降,随后开始回升并达到峰值。随着细纤维含量的持续增加,类似的波动现象再次出现。根据造纸的工程实践经验,细纤维的百分比通常依赖于操作工人的经验,而操作习惯的不可预测性导致纸张抗拉强度的波动性。相比之下,当工人增加长纤维的百分比时,纸张强度则呈现持续上升的趋势,如图10(d)所示。长纤维能够提供较大的粘结面积和更为密集的应力分布,从而在纤维之间形成更多的连接。因此,长纤维有助于形成强大的纤维网络,使纸张具备更高的抗拉强度。通过以上的部分依赖图分析,我们可以观察到过程变量与纸张强度之间的依赖关系,从而为SENGraph模型的预测结果提供了可靠的解释。同时,PDP可视化分析也提升了模型的可靠性,为造纸生产过程中的操作工人提供了建设性的指导意见。

(3)模型超参数分析

图11 造纸过程数据集上超参数分析 

为了研究超参数的敏感性,本文分析了四个关键参数对SENGraph性能的影响。输入长度和图网络的阈值分别从候选集 [20, 30, 40, 50, 60] 和 [0.5, 0.6, 0.7, 0.8, 0.9, 1.0] 中进行选择。如图11(a)所示,SENGraph的性能随着输入序列长度的增加先上升后下降。当输入长度设置为40时,模型性能最佳。从图11(b)可以看出,过大或过小的阈值都会对性能产生负面影响。较大的阈值会减少每个节点的邻居数量,进而切断相关节点之间的信息传播;而如果阈值过小,邻接矩阵则会变得过于稠密,从而降低模型的性能。通常情况下,稠密的邻接矩阵可能导致梯度消失或爆炸现象的出现。如图11(c)所示,增大学习率能够加快收敛速度。然而,当学习率超过0.003时,模型可能因过度学习而遭受过拟合,从而导致性能逐渐下降。如图11(d)所示,将批量大小从8调整到128时,由实验结果得知,最优批量大小为32。在这些参数的调整中,可以明显看出不同超参数对SENGraph模型性能的显著影响。

3.3 案例三:烧结过程

图12 烧结过程工业系统部署平台 

表8 基于工业互联平台的烧结过程实时计算效率对比

本文根据现场情况进行了初步测试:1)边缘设备,包括Raspberry Pi5和Nvidia Jetson Xavier NX;2)Intel多核CPU;3)Nvidia RTX GPU。实验平台如图12所示。本文基于与中国南方一家大型钢铁公司的合作,建立了工业互联网平台,以监测烧结过程中的硫含量排放。研究的目标是利用软测量方法对二氧化硫的排放进行建模。根据现场调研,操作工人主要通过离线测试和经验估算二氧化硫的浓度。SENGraph软测量方法则提供了一种新颖的解决方案,能够有效降低劳动成本并实现实时计算。在工业互联网平台中,各种传感器收集到的数据被存储在InfluxDB数据库中。本文根据现场情况进行了初步测试,实验条件包括:1)边缘设备,如Raspberry Pi 5和Nvidia Jetson Xavier NX;2)Intel多核CPU;3)Nvidia RTX GPU。实验平台的配置如图12所示。

不同设备上的执行时间如表8所示。配备Cortex-A72 CPU的Raspberry Pi 5在处理多线程CPU推理时,每批次的响应时间为0.5秒。尽管NVIDIA Jetson的速度提升约为1.6倍,但其每台设备的费用约为Raspberry Pi 5的7倍。除了在边缘设备上进行计算,本文还将模型加载到工作站进行测试。例如,RTX 3090 GPU的实时响应效率较高,但由于工作站的WiFi连接可能受到现场干扰的影响,其表现受到限制。在推理速度方面,CPU和GPU之间的实际差距并不显著,这主要是因为工业数据的维度相对较低,导致GPU资源未能得到充分利用。因此,本文的初步测试结果表明,SENGraph能够在现有设备(如Raspberry Pi)上进行有效部署,满足工业现场对于实时性的需求。

结论

本文提出了一种基于图神经网络的新型软测量框架SENGraph。其关键创新在于设计了三个组件并将其有效集成,通过进化方法提高特征多样性,以学习短期和长期依赖关系。同时,SENGraph采用差异化的节点重要性进行自适应加权,使模型能够聚焦于重要节点。在三个工业案例研究中进行的大量实验结果表明,SENGraph在性能上均优于现有的先进软测量方法,包括最先进的图神经网络。为了测试SENGraph模型的实时计算效率,本文在烧结工业系统中进行了部署,结果表明该模型的计算效率达到秒级,满足了工程应用的要求。


编辑:曹希铭

校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、Tina、陈宇航、海洋、陈莹洁、王金、赵诚、肖鑫鑫

该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除



来源:故障诊断与python学习
ACTSystemFlux非线性燃烧化学电力ANSA海洋参数优化理论电机化机爆炸材料控制
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-06-30
最近编辑:4月前
故障诊断与python学习
硕士 签名征集中
获赞 87粉丝 137文章 253课程 0
点赞
收藏
作者推荐

通过输入空间过参数化改进一维卷积神经网络的航空发动机轴间轴承故障诊断

本期给大家推荐的文章是《ISONet:通过输入空间过参数化改进一维卷积神经网络的航空发动机轴间轴承故障诊断》。本文提出了一种新型一维卷积神经网络变体——ISONet,旨在解决传统1DCNN在航空发动机系统轴间轴承故障诊断中性能不足的问题。 作者写作思路清晰,实验丰富,结果分析详实且开源代码,小编建议阅读公 众号简介推文后对全文仔细研究。开源代码: https://gitee.com/frontxiang/torch_isonet.git 论文基本信息8论文题目:ISONet: Reforming 1DCNN for aero-engine system inter-shaft bearing fault diagnosis via input spatial over-parameterization论文期刊:Expert Systems with Applications论文日期:2025年作者:Qian Xiang(a), Xiaodan Wang(b), Yafei Song(b), Lei Lei(c)机构: a:Laboratory of Intelligent Control, PLA Rocket Force University of Engineering, Xian, 710025, China b:College of Air and Missile Defense, Air Force Engineering University, Xi'an, 710051, Chinae c:College of information and Navigation, Air Force Engineering University, Xi'an, 710077, China 第一作者简介:向前,男,火箭军工程大学“装备智能应用”教育部重点实验室讲师,主要研究兴趣为深度学习在故障诊断中的应用。以第一作者在Pattern Recognition, Expert Systems with Applications等杂志发表学术论文13篇,其中SCI一区Top论文4篇。申请国家发明专利13项、软件著作权1项。参与国家自然科学基金项目3项、省级项目3项。Journal of Artificial Intelligence and Control Systems杂志青年编委(2025.04-2027.04)。IEEE transactions on cybernetics, Engineering applications of artificial intelligence, Applied Soft Computing, Neurocomputing, Measurement Science and Technology, Applied Intelligence等人工智能和工程领域SCI杂志审稿人。 邮箱: qianxljp@126.com; ORCID: https://orcid.org/0000-0001-6810-8446 目录0 摘要 1 引言 2 ISONet模型架构 2.1 整体结构 2.2 1D-ISOConv层设计 3 理论分析:过参数化的隐式优化机制 3.1 关键定理与证明 3.2 理论意义 4 ISONet训练策略 5 实验验证 5.1 数据集与实验设置 5.2 关键实验结果与分析 5.2.1 超参数敏感性测试 5.2.2 优化器对比 5.2.3 激活函数选择 5.2.4 与SOTA模型对比 5.2.5 不同有限样本条件下分类效果 6 结论 摘要本文提出了一种新型一维卷积神经网络(One-Dimensional Convolutional Neural Networks, 1DCNN)变体——ISONet,旨在解决传统1DCNN在航空发动机系统轴间轴承故障诊断中性能不足的问题。ISONet通过引入输入空间过参数化技术,在训练阶段卷积层的优化能力得到了提升,同时保持测试阶段的计算效率。理论分析表明,这种过参数化等效于从动态微分的角度隐式集成特定的预处理方案,显著提升了模型收敛速度和稳定性。实验采用真实航空发动机振动数据集验证,结果显示ISONet在有限样本条件下诊断准确率超过99%,优于当前主流深度学习模型(如LSTM、Transformer等)。该研究为复杂机械系统的故障诊断提供了一种高效且鲁棒的新方法。关键词:航空发动机系统;故障诊断;一维卷积神经网络;过参数化;预处理方案1 引言航空发动机是飞行安全的核心部件,其轴间轴承需在高转速、高温、高负载下工作,易发生内圈、外圈等故障。故障的早期精准诊断可避免重大事故,但传统方法依赖人工特征提取,难以适应复杂工况下的信号变化。现有方法的局限性包括如下三方面:传统信号处理(如傅里叶变换、稀疏表示)依赖专家经验,泛化能力差;深度学习方法(如CNN、LSTM)虽能自动提取特征,但标准1DCNN在复杂振动信号中收敛慢、小样本性能不足;改进模型(如多尺度卷积、注意力机制)虽提升性能,但结构复杂且缺乏理论解释。 针对1DCNN优化不足的问题,提出通过输入空间过参数化增强模型训练能力,同时保持测试阶段的高效性,为工业诊断提供可解释、低成本的解决方案。2 ISONet模型架构2.1 整体结构图1 模型整体结构 ISONet由输入层、1D-ISOConv层(过参数化卷积)、批量归一化(Batch Normalization, BN)、Mish激活函数、池化层、展平层和Softmax分类器组成。核心创新在于1D-ISOConv层。2.2 1D-ISOConv层设计过参数化核:将标准卷积核分解为两个张量 和 ,其中 初始化为零矩阵叠加单位矩阵, 采用Kaiming初始化。图2 卷积核的输入空间训练阶段过参数化策略:将标准卷积核分解为两个张量 和 ,其组合形式为: 其中, 为过参数化核, 为传统卷积核。初始化与训练机制: 采用Kaiming正态分布初始化,与标准卷积一致; 初始化为零矩阵叠加单位矩阵,零矩阵对应可训练参数,确保训练初期行为与标准卷积一致。训练时, 的零矩阵部分通过梯度更新学习信号特征,单位矩阵部分保持固定,防止初始阶段参数剧烈波动。测试阶段:将 和 折叠为等效标准卷积核,确保计算效率。维度选择理由与优势: 选择输入通道( )和卷积核空间维度( )进行过参数化,而非输出通道。原因包括: 1.减少参数量:每个输出通道共享同一组 ,避免参数爆炸(若选择输出通道过参数化,参数量为 ,远超输入通道方案)。 2.矩阵运算友好:输入通道作为连续内存存储,便于高效矩阵乘法加速。3 理论分析:过参数化的隐式优化机制图3 将输入通道过参数化卷积的张量计算过程转化为矩阵计算过程 动态微分方程视角分析:由于卷积运算是张量运算,无法从理论上对输入通道过参数化进行解释,因此本文按照图3的方式将卷积的张量操作转化为矩阵形式,通过矩阵运算和微分动力学证明,输入空间过参数化等效于隐式引入动量项和自适应学习率。3.1 关键定理与证明定理1(动态微分方程视角):假设参数 ,其连续时间梯度下降动态满足: 其中, 为梯度在 方向上的投影。 动态调整学习率,实现自适应步长。第二项隐含动量效应,沿历史梯度方向加速收敛。定理2(离散时间更新规则):通过离散化定理的微分方程,得到参数更新规则: 该式表明,过参数化通过以下机制加速优化:1、自适应学习率: 随参数范数增大而提升步长,增强远离初始点的探索能力。2、动量机制:投影项 继承历史梯度方向,抑制震荡。3.2 理论意义预条件梯度下降:过参数化等价于对损失函数引入预条件矩阵 ,调整梯度方向以绕过鞍点。隐式正则化:单位矩阵初始化约束参数空间,避免过拟合。4 ISONet训练策略图4 ISONet训练和测试流程 优化器:采用Adan优化器(Nesterov加速的Adan变体,TPAMI2024发表的优化器),结合动态学习率调整和梯度投影,过程如图4所示。 损失函数:交叉熵损失,通过小批量随机梯度下降优化。5 实验验证5.1 数据集与实验设置HIT数据集:来源于哈尔滨工业大学航空发动机测试台包含2412组航空发动机振动信号,涵盖健康、内圈故障、外圈故障三种状态,采样频率25 kHz,数据划分按70%训练、30%测试。硬件环境:8块NVIDIA Tesla T4 GPU,PyTorch框架,固定超参数(学习率 ,批量大小32,训练200轮)。5.2 关键实验结果与分析5.2.1 超参数敏感性测试通道数与卷积核尺寸: ISONet在通道数 和卷积核 时达到最高准确率(98.92%),表明深层、大核结构更适应复杂振动模式。标准1DCNN在相同配置下准确率为98.55%,差距源于过参数化的隐式优化效应。 批量大小影响:ISONet在 时表现最优,过大( )导致梯度估计偏差,过小( )增加更新方差。表1 不同通道配置和批量大小的1DCNN和ISONet性能比较5.2.2 优化器对比通过与不同的训练方法对比,由论文图6可知,Adan训练器效果最优。论文图7展示了在不同优化器下标准1DCNN与ISONet的对比实验,可知ISONet都优于标准1DCNN,证明了输入通道过参数化的通用性。另外,不同优化器都引入了一定加速机制,而输入通道过参数化在此基础上仍然可以进一步加速,说明其对于网络的加速机制具有不可替代性。图6 ISONet在不同优化器下的精度曲线:(a)训练精度曲线,(b)测试精度曲线图7 使用不同优化器的ISONet和1DCNN的损失曲线:(a)Adadelta,(b)Adamax,(c)AdaBelief,(d)CAME,(e)Adan。5.2.3 激活函数选择论文对比了不同激活函数对结果的影响,由论文表2可知,Mish在各个指标上综合来看效果最优。表2 不同激活函数的结果5.2.4 与SOTA模型对比由论文表3可知,ISONet分类效果优于主流模型,Transformer-C准确率仅70.56%,CA-1DCNN(通道注意力)准确率98.03%,弱于ISONet的99.92%,表明过参数化比注意力更有效。 表3 比较SOTA模型在加权平均精确度、召回率和F1分数方面的性能 图14 各种模型在PQS-FP坐标系中的定位作者引入参数量变化-拟合性能坐标系坐标系(Parameter Quantity Shifting-Fitting Performance coordinate system,PQS-FP)旨在解决传统模型评估中参数量与性能关系难以量化的问题。通过将模型的参数量作为横轴、拟合性能作为纵轴,该坐标系能够直观展示模型在增加复杂度时性能的变化趋势:若模型随参数量增加持续提升性能位于欠拟合衰减区(UAR, Underfitting Attenuation Region)则表明其尚未充分利用容量,适合进一步优化;反之,若性能停滞或下降位于过拟合加剧区(Overfitting Exacerbation Region, OER),则需抑制冗余参数。例如,ISONet在UAR区呈现参数量与准确率的正向关联(从87%提升至99.9%),验证了过参数化技术通过隐式正则化平衡学习能力与泛化的有效性,而Transformer等模型因陷入OER区揭示了结构对小样本振动信号的不适应性。这一坐标系为模型设计提供了动态权衡参数效率与性能的理论工具,尤其在资源受限的工业场景中,可指导工程师避免盲目增加复杂度,实现高效诊断。5.2.5 不同有限样本条件下分类效果由论文表4可知,ISONet通过不同比列的训练集训练之后,在各个指标上绝大多数都优于其它方法,展现了较好的有限样本分类效果。表4 各种模型在不同训练样本量条件下的性能6 结论本文提出了一种提升1DCNN在航空发动机轴间轴承故障诊断中性能的新方法。所提出的ISONet架构通过引入输入空间过参数化,在诊断准确率上展现出显著提升,尤其在小样本条件下优势明显。这一进步归因于创新的1D-ISOConv层设计,其为模型引入了额外的可学习参数。通过矩阵和向量操作分析,本文阐明了输入空间过参数化的理论基础,为观察到的性能提升提供了坚实的理论支撑。1D-ISOConv层将张量操作转化为矩阵/向量操作,形成了一种特定的预处理方案,有效融合了动量和自适应学习率的优势。通过航空发动机试验台的真实振动数据验证,ISONet的性能优于现有深度学习模型。对比分析表明,即使在数据稀缺的挑战下,ISONet仍展现出强大的故障诊断鲁棒性,满足航空发动机维护和可靠性领域的关键需求。研究结果不仅丰富了神经网络优化的理论理解,还为提升航空发动机诊断系统的可靠性和性能提供了实用解决方案。ISONet的变革潜力标志着预测性维护领域的重要进展,对更广泛的工程诊断领域具有借鉴意义。编辑:曹希铭校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、Tina、陈宇航、海洋、陈莹洁、王金、赵诚、肖鑫鑫该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈