首页/文章/ 详情

自适应收敛可视化图神经网络 | ACVGN:一种可解释的智能滚动轴承故障诊断方法

4月前浏览612
     本期分享一项面向机械故障诊断的智能图神经网络研究成果:传统图神经网络(GNN)虽然已被用于时间序列驱动的故障诊断任务中,但在图构建过程中往往会丢失关键的时间动态信息,同时计算效率不高,难以满足工业现场对高效性与精度的双重要求。为此,本文提出了一种全新的端到端智能诊断框架——自适应收敛可视化图网络(Adaptive convergent visibility graph network,ACVGN)。该方法以ACVG算法为核心,创新性地将时间序列高效映射为兼具局部与全局动态特征的图结构,同时结合增强型DiffPool模块,显著提升了图表示的表达能力和故障类型的判别性能。本研究不仅强化了GNN在时间序列分析中的适用性,也为图结构建模与智能诊断技术的融合开辟了新路径。

    论文基本信息

    论文题目:

    Adaptive Convergent Visibility Graph Network: An interpretable method for intelligent rolling bearing diagnosis

    论文期刊:Mechanical Systems and Signal Processing

    论文日期:2025年

    论文链接:

    https://www.sciencedirect.com/science/article/pii/S0888327024006599

    作者:Xinming Li (a), Yanxue Wang (a,b), Shuangchen Zhao (c), Jiachi Yao (a,b), Meng Li (a)

    机构:

    a: School of Mechanical-Electronic and Vehicle Engineering, Beijing University of Civil Engineering and Architecture, Beijing, 100044, China;

    b: Beijing Key Laboratory of Performance Guarantee on Urban Rail Transit Vehicles, Beijing University of Civil Engineering and Architecture, Beijing, 100044, China;

    c: College of Education, Capital Normal University, Beijing, 100048, China

    团队带头人简介:王衍学教授,北京建筑大学机电与车辆工程学院执行院长,博士生导师,入选北京市百千万人才工程,青年北京学者,德国洪堡学者,广西海外高层次人才计划,主要从事机械系统动力学建模分析、动态信号处理与特征提取、装备故障自诊断与智能维护、剩余寿命预测与健康管理、无损检测与嵌入式系统方向的研究工作。主持包括5项国家自然科学基金,德国洪堡基金,广西自然科学杰出青年基金等在内的多项省部级以上课题10余项。(来源: https://jdxy.bucea.edu.cn/dtxw/6674668781d94e2da33d81f463730fac.htm

    目录

    1 摘要

    2 引言

    3 相关研究内容

    3.1 图神经网络

    3.2 时间序列数据的图表示构建

    所提方法

    4.1 ACVG算法

    4.2 具有可微分池化机制的图分类模型

    4.3 ACVGN算法

    4.4 基于ACVGN的智能机械故障诊断框架

    5 实验验证

    5.1 数据集描述

    5.2 数据集预处理

    5.3 实验分析

    6 结论

    1 摘要

    在机械设备维护领域,故障诊断的高效性和准确性至关重要。传统的图神经网络(GNN)方法已被应用于利用时间序列数据进行故障诊断,并取得了一定效果,但仍存在不足。这些方法的主要问题在于将时间序列数据映射为图数据,通常会导致重要的时间信息丢失,且计算效率较低。这些局限性可能导致诊断结果不尽如人意,从而影响机械系统的使用寿命和整体性能。

    为克服这些问题,提出了一种新的端到端智能诊断框架——ACVGN,该框架结合了自适应收敛可视化图Adaptive Convergent Visibility Graph Network, ACVG)算法与增强版DiffPool模型的优势。ACVG算法作为该方法的核心,通过巧妙地将时间序列数据转化为图格式,能够有效地保留数据中的局部和全局动态信息。该表示随后由改进后的DiffPool模型处理,该模型专为高精度分类任务设计,并具备强大的GNN能力。实验结果表明,在广泛应用的滚动轴承数据集上,ACVGN框架在图数据映射效率和故障诊断准确性方面均显著优于现有方法。上述成果不仅验证了所提方法的有效性,还突显了其在涉及时间序列数据分析和图基机器学习任务中的潜在应用前景。本研究推动了更智能、高效、精确的机械设备诊断工具的发展,确保了故障检测和诊断的有效性,从而有望延长机械系统的使用寿命,并提升其整体功能。

    关键词:深度学习,智能诊断图神经网络,自适应收敛可视化图网络,可解释性框架

    2 引言

    传统机械故障诊断主要依赖操作人员在特征提取与模式识别方面的经验知识,然而,随着人工智能的发展以及深度学习技术的快速进步,智能故障诊断开辟了新的研究路径。

    现有的故障诊断方法大致可分为数据驱动方法与物理模型驱动方法。由于机械设备本身的复杂性,基于物理建模的方法在机械设备中的应用受到了较大限制。机械系统所涉及的物理过程通常表现出非线性与动态特性,因此准确建模与预测系统行为具有相当大的挑战性。相较之下,近年来数据驱动方法获得了更广泛的关注。基于数据挖掘的方法可通过多种神经网络架构自动提取故障特征并完成特征分类,例如卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)以及自编码器。这些研究充分展示了数据驱动方法在故障诊断领域中的发展与成效。然而,尽管上述深度学习方法在特征提取和故障分类方面取得了显著进展,但它们普遍忽视了数据样本之间的关联性,从而难以充分挖掘数据所蕴含的结构信息与几何特征

    随着物联网与多种信息感知技术的不断进步,工业系统所产生的数据规模日益庞大,这些数据往往具有非规则空间拓扑特征,例如网络结构与流动模式。监测系统中使用大量传感器采集多通道、多维度的信号,生成大量具有图结构特征的数据。面对这一挑战,近年来兴起了一类基于非规则图结构建模的数据依赖性深度学习方法。图结构作为一种典型的非欧几里得数据表示形式,由节点(样本)与边(关系)组成,能够保留丰富的结构信息。通过构建样本之间的关联图,可以有效刻画样本间的关系。尽管图结构数据具有极高的表达潜力,但传统深度学习模型在处理非欧几里得数据时存在困难,如图 1 所示。在图 1(a) 中,卷积计算以二维或三维张量为输入,采用固定卷积核对欧几里得数据执行卷积操作;而图 1(b) 中的图卷积计算则以节点特征向量为输入,卷积核随节点邻接关系变化,从而能够对非欧几里得数据进行卷积运算。

     1 传统卷积操作与图卷积操作之间的区别

    图神经网络(GNNs)在处理图结构数据方面展现出强大的能力,广泛应用于多个领域,大量研究进一步印证了GNN的多样化应用潜力。然而,将时间序列数据高效转换为图数据依然是一项关键挑战。因此,近年来大量研究聚焦于开发高效的图构建方法,并进一步利用GNN架构提升故障诊断性能。  

    为了将时间序列数据转换为图数据,已有多种技术被提出。这些方法涵盖了基于阈值、相似性、重构以及深度学习的转换策略。尽管相关方法日益丰富,但近年来通过将时间序列数据映射为图结构,并借助GNN进行故障分类的研究方向,被认为具有广阔的发展前景。该领域的首次重要突破是由研究者提出的可视图Visibility Graph, VG算法,该方法通过固定映射规则将时间序列转换为图结构。其有效性促使一系列后续优化方法的提出。例如,为应对噪声干扰问题,Gao 等人提出了有限穿透可视图 Limited Penetrable Visibility Graph, LPVG,通过引入不满足可视性标准的有限边,提高了油气水等领域的分类性能。在进一步优化VG算法的趋势下,Xuan等人结合圆形系统与图嵌入技术,提出了圆形有限穿透可视图( Circle Limited Penetrable Visibility Graph, CLPVG),在无线电信号分类任务中取得了优异效果。  

    在这些可视图及其变体算法中,每一个采样点被视为图中的一个节点,节点间关系依据特定的映射规则构建,如图 2 所示。尽管该类算法为时序图构建领域作出了重要贡献,但它们存在一个共性问题:由于映射规则基本固定,图结构在训练过程中也是固定的。在面对如故障监测数据这类复杂任务时,这种刚性结构限制了模型对复杂动态场景的适应能力。因此,亟需进一步研究能够自适应学习与动态调整的图结构模型。  

     2 可视图(VG)及其衍生算法的图映射规则示意图

    在当前智能诊断技术的发展中,深度学习模型的可解释性问题已成为关键关注点,尤其是在基于图的分析方法中表现尤为突出。GNN在处理复杂数据集与挖掘深层模式方面具有强大能力,但其模型结构通常被视为“黑箱”,缺乏足够的透明度,使用户难以全面理解并信任其决策过程。因此,近年来研究重点逐渐转向开发既具高精度又具可解释性与可靠性的诊断方法。当前的研究工作主要集中在将可解释性嵌入到模型结构中或通过事后分析技术实现模型解释。这些方法既确保了模型在预测性能方面的有效性,又能够提供与人类专家知识及直观推理相契合的可理解性结果。其中,事前可解释性注重模型结构本身的设计,使模型在建模阶段就具备可分析性与透明性;而事后可解释性则指在模型训练完成后,通过特征重要性评分、偏依赖图(partial dependence plots)以及特征可视化等手段,对其复杂内部机制进行解析。可解释性作为智能诊断方法的基础特性之一,对于推动故障诊断方法的发展,并确保其满足真实工业场景中的高标准应用需求具有重要意义。  

    本文提出了一种新颖的自适应收敛可视图神经网络框架(ACVGN),用于实现机械设备的智能诊断。这一方法在将时间序列数据映射为图结构的过程中引入了神经网络层级建模,显著提升了结构转换的灵活性与效率。该框架结合了自适应可视图算法与改进型DiffPool结构(后者是GNN中常用的图分类模型)构建了一个完整的端到端智能诊断系统。ACVGN的自适应特性使其能够同时聚合样本的局部与全局信息,从而在分类精度方面表现出显著优势。本研究的主要贡献包括以下几个方面:  

    • 首次提出了自适应收敛可视图算法(ACVG)与自适应收敛可视图神经网络框架(ACVGN)。ACVG算法突破了传统可视图算法的局限性,能够动态地将时间序列数据转换为图结构;同时,ACVGN框架充分利用该算法的自适应特性,在显著减少图映射时间的同时,提升了分类精度。    

    • 构建了一种面向机械设备的智能诊断框架,该框架将改进型DiffPool技术与自适应可视图算法无缝融合。该创新组合在总体性能方面相较于现有诊断方法有显著提升。    

    • 探讨了图学习的可解释性问题,通过对ACVGN映射结果的图结构可视化,深入分析了不同图结构类型之间的差异。这一过程为理解结构差异如何影响机械设备智能诊断任务提供了新的视角与理论支撑

    3 相关研究内容

    3.1 图神经网络  

    根据图论,图结构数据可表示为     ,其中      表示节点(或顶点)集 合,     为边集 合,     表示节点      与      之间的边。图      的邻接矩阵      被定义为如下元素组成的矩阵:

       

    因此,在一个具有      个节点的图中,二值邻接矩阵      表示节点      与      之间是否存在边:若节点之间存在边,则     ;反之,则     。除邻接矩阵      外,图结构还可由拉普拉斯矩阵      与度矩阵      表示。这三者之间的关系如图 3 所示。通常,图结构数据还包含一个节点特征矩阵     ,其中      表示节点数量,     为节点特征向量的维度。

     

    图3 拉普拉斯矩阵的计算

    在模型训练过程中,邻接矩阵      与特征矩阵      被作为输入送入GNN,并通过以下公式所示的前向传播过程得到输出结果。在公式中,     表示图神经网络操作,     表示神经网络框架中的层数。

       

    最经典的图神经网络算法之一是图卷积网络(GCN)。受 CNN 的启发,GCN将传统的数据分析方法扩展到图结构数据,通过聚合、更新与循环三个步骤完成特征提取。其核心思想是通过反复聚合某一节点及其邻居节点的特征,生成新的节点表示。节点更新规则如公式所示:

       

    其中,    表示包含自连接的图的邻接矩阵,    为单位矩阵。     表示第      层更新后的节点表示,等同于该层的特征矩阵。第      层的可训练权重矩阵记为     ,而      表示施加于矩阵乘积输出上的非线性激活函数,例如 Sigmoid、ReLU、tanh 等。在GCN中,每一层的计算过程通过将邻接矩阵      与节点表示      相乘得到,每个节点的邻域特征被聚合后,再与权重矩阵      相乘。最终结果经由激活函数      处理,得到新的特征矩阵     ,该矩阵融合了所有邻居节点的特征信息。

    3.2 时间序列数据的图表示构建  

    本文主要介绍了四种将时间序列数据映射到图结构数据的常用方法。

    3.2.1 KNN图(KNN Graph)

    若节点        是节点        的        个最近邻之一,则在节点        与        之间建立一条边,从而构成所谓的      -近邻图(      -Nearest Neighbor Graph, KNNG)。参数        决定了每个节点的最大邻居数,是影响图结构稠密度的重要超参数。在        维空间中,每个节点的 top-       邻居通常通过其与其他点之间的距离来定义,最常用的度量方法为欧几里得距离(Euclidean distance),其定义如下:

         

    因此,当给定一个        维空间中的点集        时,可以通过计算各节点对之间的距离       ,构建该点集上的      -近邻图(KNNG)。具体做法是将每个点与其        个最近邻连接,以获得节点        的邻居,其表示如下:

         

    其中,      表示节点        的邻居集 合,       表示点集        上节点        的前        个最近邻。本文设置       

    在采用KNNG方法构建图数据时,节点之间所形成的边权重通过高斯核函数(Gaussian kernel function)进行计算,其表达式如下:

         

    其中,       表示节点        与节点        之间的边权重,       为高斯核函数中的带宽参数。需要特别注意的是,在使用高斯核函数计算边权重时,距离        需进行归一化处理,以确保不同维度的特征在距离计算中具有相同的影响力。通过此过程,KNNG可用于构建包含边权信息的邻接矩阵       ,从而实现将时间序列数据        映射为图结构       

    3.2.2 半径图(Radius Graph)

    在        算法中,采用余弦相似度(cosine similarity)度量节点之间的距离,以判断两个节点之间是否应建立边连接。第一步是计算点集        中两个节点        与        之间的余弦相似度,其计算公式如下:

         

    其中,       表示节点        与         的点积,       与        分别表示节点        与        的模长,       表示两节点之间的余弦相似度。

    为了判断两个节点之间是否存在边连接,假设点集        中任意两个节点        和        的余弦相似度为       ,在给定阈值        的情况下,若       ,则在节点        与        之间建立一条边;否则,不建立连接。由此,节点的邻居可通过以下公式表示:

         

    本文中假设阈值       。需要注意的是,在该算法中,边权重通常并非直接由余弦相似度计算获得。这是因为余弦相似度的取值范围为       ,而边权重一般需定义在区间        内。因此,在算法中,通常需要将余弦相似度值映射至        区间,该映射过程可通过以下方式实现:

         

    其中,       表示将        映射至区间        后的归一化值。最终,节点集 合之间的距离可通过以下公式计算得到:

         

    其中,       表示节点        与        之间的距离,该距离值等价于边权重       。通过上述数据预处理步骤,即可获得带权邻接矩阵       ,从而构建出图结构数据       

    3.2.3 可视图(Visibility Graph, VG)

    由 Lacasa 提出的可视图(Visibility Graph, VG)算法,实现了将时间序列数据映射为复杂图结构数据的转换过程。该算法的基本原理是:将离散时间序列中的时间数据点定义为图结构中的节点,若任意两个数据点之间满足可视性准则,则在它们之间建立连接线,作为图中的边。其可视性映射规则可描述如下:

         

    其中,       与        分别表示节点        与        的坐标,任意位于节点        与        之间的数据点的坐标定义为       ,其中时间满足        的条件。

    当两个数据点之间的柱顶满足可视性映射规则时,即视为两点之间存在连接。在图结构中,该连接为无向边,节点之间不可自连,且任意两柱状图之间的连线不得穿越其他柱状图。上述映射过程将时间序列数据转换为图神经网络可处理的格式,即图结构数据。

    3.2.4 有限穿透可视图(Limited Penetrable Visibility Graph, LPVG)

    为提升图构建方法的灵活性,并在将时间序列数据映射为图结构数据时引入更多连接,研究者在VG算法的基础上提出了有限穿透可视图(LPVG)算法。与VG算法的映射规则不同,LPVG引入了一个超参数——有限穿透距离       ,并规定:当节点        与节点        之间的连线被其间最多        个其他柱状图穿越,且        时,视为节点        与节点        之间存在一条可穿透边。该规则意味着节点        与        之间存在一条边,且可确保每个节点至少具有        条边。由于连接性更强,LPVG还表现出更优的抗噪能力。

    所提方法

    本节将详细介绍新颖的时间序列到最优图数据映射算法——自适应收敛可视图神经网络(ACVGN)。此外,针对大规模图数据计算复杂度高的问题,提出了一种改进型DiffPool算法。最终,通过将ACVGN与改进型DiffPool算法相结合,构建了一个创新的端到端图分类智能诊断框架。

    4.1 ACVG算法

    为解决现有    及其衍生算法在映射灵活性差与映射效率低方面存在的问题,本文首次提出了一种新方法——自适应收敛可视图算法(ACVG)。该算法旨在尽可能保留原始时间序列数据的结构特征,同时提升图构建的效率。ACVG算法通过将时间序列数据转换为图结构,并结合一维卷积算子对图进行训练,从而实现图分类模型的构建,如图 4 所示。具体而言,目标是将给定的时间序列数据映射为由节点与边构成的图     

     

    图4 将时间序列数据映射到图结构的ACVG算法

    然而,实际采集的时间序列数据通常维度较高,若直接进行图建模将导致计算复杂度显著上升。因此,有必要通过时间窗机制对原始数据进行截断,并对子样本进行聚合,以降低计算负担。这一策略有助于避免信息损失,并提升模型的泛化能力。在ACVG算法的第一步中,长度为      的原始时间序列数据      被划分为多个长度为      的子样本,每个子样本对应一个标签。若任意两个子样本之间无重叠,则该子样本集 合可表示为:

       

    其中,     表示子样本,     表示子样本对应的标签,     为获得的子样本数量,     为每个子样本中的采样点数。所得子样本集 合      随后将进行聚合操作:

       

    假设      表示子样本      中的数据点,     表示聚合函数,该函数可以为最大值、最小值或均值等操作。通过聚合操作后,子样本集 合可表示为:

       

    其中,     表示对子样本      应用聚合函数      所得到的结果;同时,     表示样本点      处的信号值。为了更有效地捕捉时间序列的局部信息与全局动态特征,本文引入了一维卷积算子,该算子采用      个不同的卷积核长度      对结果子集      进行处理。     的特征序列可通过下式获得:

       

    其中,     表示一维卷积层,该层采用长度为     、步长为 1 的卷积核进行操作。超参数      用于控制两个时间采样点之间的距离,从而有助于提取局部信息。通过调整      的取值,可从时间序列数据中提取不同层次的局部信息,进而捕捉数据中存在的多样化模式与特征。

    为减弱噪声干扰、提升模型的准确性与性能,本文采用 ReLU 激活函数 对进行处理,该过程可表示为:

         

    最后,通过将经过一维卷积与去噪处理后的特征序列以对角平行方式排列,构建出一个带权的        邻接矩阵       ,从而实现对给定时间序列数据        的图结构映射,生成图       

     

    其中,       表示连接节点        与节点        之间边的权重。本文提出的ACVG算法通过对子样本的聚合以及借助一维卷积层生成不同复杂度的图结构,有效捕捉了信号值中的局部与全局信息特征。该卷积层充分利用了原始信号值及卷积核长度       ,最终构建出带权邻接矩阵       ,实现了将原始时间序列数据        映射为图的过程。邻接矩阵        是通过对时间跨度敏感的卷积操作动态生成的,它不仅表示节点之间是否存在连接,更基于底层数据模式量化了关系的强度与特征。这种邻接矩阵构建方法,使模型能够捕捉并融合图结构中更为细腻的关系差异,从而为数据动态特征提供更丰富、具解释性的图表示。

    4.2 具有可微分池化机制的图分类模型

    一旦通过ACVG算法将信号数据映射为图结构后,通常采用图卷积网络(GCN)执行分类任务。然而,在处理大规模图数据时,直接使用GCN会对模型的计算复杂度构成显著挑战。为了解决这一问题,DiffPool算法被提出,作为应对大规模图数据高计算复杂度的可行方案。

    DiffPool是一种可微的图池化模块,利用深度图神经网络为每一层节点学习可微分的软聚类分配,将节点映射到一组聚类中。关键在于,DiffPool利用GNN模型的输出学习节点的聚类分配矩阵,使用由GNN生成的第      层嵌入矩阵作为第      层的输入。这使得每个GNN模块能够接收来自前一层的节点嵌入,并聚合特征以生成新的节点嵌入,再传递至下一层,如图 5 所示。

     

    图 5 Diffpool算法示意图

    该架构不仅可提取有利于图分类的节点嵌入,还可用于执行图的层次池化,从而实现出色的模型训练性能。假设在第        层学习到的簇分配矩阵表示为      。其中,       的每一行表示第        层中的一个节点        或簇,而每一列对应于下一层        的一个节点簇       。简而言之,      对第        层中的每个节点进行了软分配,将其归属于第        层的一个或多个簇。这种软分配特性使得每个节点可以被分配到多个不同的簇中,从而提供一种更为灵活和细致的图结构表示。DiffPool 的输入定义为       ,其中       表示第        层的邻接矩阵,       表示该层的节点嵌入矩阵。

    DiffPool层对输入图进行粗化:      。从而生成新的粗化邻接矩阵        以及粗化图中每个节点或簇的嵌入矩阵       。这通过接下来的两个公式来实现:

       

       

    矩阵          和          是由两个独立的图神经网络(GNN)生成的,这两个网络分别对输入的邻接矩阵          和簇节点身份矩阵          进行处理。第          层通过嵌入标准的 GNN 模块来计算上述输入

       

    将邻接矩阵与聚类节点身份矩阵输入至标准      层,得到聚类节点的新嵌入矩阵。同时,通过结合      函数与第      层的池化      进行计算,从而生成聚类分配矩阵:

       

    通过该操作,生成了最终的嵌入向量,该向量表示整个图的全局表示。随后,该全局表示向量被输入至分类器,用于执行图分类任务。

    4.3 ACVGN算法

    本文的ACVG算法可实现将时间序列数据映射为图数据,并与DiffPool图分类模型结合,构建用于机械设备智能诊断的神经网络架构。该网络利用一维卷积提取数据特征,从而提升映射效率,并取得优异的分类性能。 需要指出的是,该模型除了图的邻接矩阵外,还需为每个节点提供特征向量。对于单通道时间序列数据,可通过ACVG获取邻接矩阵,聚合操作所得的信号值可作为每个节点的特征序列,从而实现ACVG与DiffPool的集成,构建分类网络。对于多通道数据序列,本文以双通道数据为例进行说明,其中两个通道表示如下:

       

       

       算法将每个通道的时间序列数据映射为对应的图      和     。接下来,在不使用全连接层的情况下,分别对图      和      应用 DiffPool 进行处理,依据公式(获得对应的特征向量      和     ,以生成最终的节点特征向量       

       

    随后,将该特征向量输入至连接层进行分类。由此,构建出一个可用于机械设备故障智能诊断的完整框架,称为ACVGN框架。与现有的VG及其衍生方法相比,ACVG通过卷积与去噪操作,从时间序列中同时提取局部信息与全局特征,进而将故障数据映射为最优图结构,显著提升了模型训练效率。借助该映射技术并结合基于图的分类方法,数据中的时间信息得以完整保留。

    4.4 基于ACVGN的智能机械故障诊断框架

    图 6 展示了ACVGN模型的整体框架。首先,在机械设备运行过程中,利用加速度传感器采集振动信号。采集到的振动信号被划分为两类:单通道序列数据与多通道序列数据。对于多通道数据      与     ,ACVG算法分别将其映射为图        

     

    图 6 提出的ACVGN分类框架结构

    随后,改进后的DiffPool模型分别处理        ,得到对应的特征向量。将这特征向量拼接后生成最终的节点特征向量,并将其输入至全连接层进行处理与分类。对于单通道数据,其处理流程与双通道数据基本一致,唯一区别在于无需进行特征拼接。即:时间序列数据通过      算法转换为图数据,再通过DiffPool获得对应的特征向量,并将其输入至全连接层实现分类。值得注意的是,在模型训练过程中,同时训练图映射过程与图分类过程,以确保所映射构建的图结构更适配原始数据,同时充分挖掘潜在信息,提升模型的图映射速度与分类精度。

    5 实验验证

    5.1 数据集描述    

    1CWRU 数据集:本研究所采用的第一个数据集为凯斯西储大学故障数据集,该数据集已被广泛用于轴承故障诊断研究中。本研究中选取了缺陷尺寸为 0.1778 mm 0.5334 mm 的内圈故障、外圈故障与滚动体故障数据子集作为分析对象。    

    2MFPT 数据集:第二个数据集为机械故障预防技术(Mechanical Failure Prevention Technology, MFPT)数据集。其中,前 20 个数据集来自轴承测试平台,包括:组正常状态数据、3组恒定载荷下的外圈故障数据、组变载荷下的外圈故障数据以及 7 组变载荷下的内圈故障数据;其余 3 组数据来自实际机器,包括:油泵轴承、中速轴承与行星齿轮轴承。在本研究中,选取了其中 13 组工况信号数据:包括组正常运行数据、组在不同载荷下的外圈故障数据,以及 6 组在不同载荷下的内圈故障数据。实验期间,输入轴转速为 25 Hz,数据采样频率为48,828 Hz    

    3DIRG_Bearing 数据集:由意大利都灵理工大学的 DIRG 实验室采集,该数据集主要用于高速航空轴承的故障分析,采样频率为 51,200 Hz。实验过程中,研究人员在轴承内圈上人为诱导局部损伤,形成锥形凹陷,根据凹陷直径将其分为 0A(无损)至6A 共七种类型。在本研究中,选取了在轴转速为 200 Hz、两种不同负载条件下采集的振动信号数据,共构成 14 组不同工况的信号数据,用于实验与分析。    

    4XJTU_Gearbox 数据集:该数据集为西安交通大学开源的故障数据集,实验用电机为 3P。实验中故意制造了四种轴承故障状态和四种行星齿轮故障模式。本研究中,选取了四种轴承故障状态的数据集,包括外圈故障、内圈故障、滚动体故障和复合故障,采样频率为 20,480 Hz

    5.2 数据集预处理  

    在本研究中,整合了来自五个不同的故障数据集,每种故障类型共采集了 320,000 条数据点。为高效处理该数据,采用了长度为 1280 的滑动时间窗口,并设置聚合步长为 10。该处理流程即每隔 10 行进行一次聚合操作(如最大值、最小值、均值),从而为新的采样点生成一个特征值,最终形成由 128 个节点组成的图结构。为确保样本量均衡,将每类故障信号数据中 70% 分配至训练集,剩余 30% 用于测试集。最终,训练集包含 224,000 个数据点(约合 175 个图),测试集包含96,000 个数据点(约合 75 个图)。具体的模型结构详见 1  

    1 ACVGN的具体模型架构  

    5.3 实验分析    

    例一:ACVGN 的参数优化。在案例一中,研究了三种聚合技术(最大值、最小值、均值与超参数 m ACVGN 模型分类精度的影响。图 7 中的实验结果表明,超参数 m 的引入使ACVGN 算法能够灵活地将时间序列数据映射为图结构,增强了模型的适应性与分类能力。特别地,当 m = 7 时,ACVGN算法在所有五个数据集上均获得了最高的分类准确度,证明该参数设置可通过控制节点邻居数量有效提取相关特征。

     

     7 ACVGN 在五个数据集上分别采用不同超参数 m 和不同聚合方法下的分类准确率变化曲线图。其中:(aCWRU,(bBUCEA,(cXJTU,(dDIRG,(eMFPT    

    研究还发现,在三种聚合操作中,最大值(max)聚合使 ACVGN 模型实现了最佳分类效果。这主要是由于最大值聚合能够提取信号数据中的峰值特征,关键于故障识别,并对一定类型的噪声具备鲁棒性,能在噪声环境中保持峰值检测能力。这进一步凸显了通过合适的聚合方式与超参数 m 调整,ACVGN算法在时间序列数据处理与分类性能方面的潜力。    

    最后,评估了 ACVGN 算法在不同通道数量下的诊断框架性能,并在四种数据类型下的八个子数据集上均取得了优异的分类结果。模型在多种通道数据类型中展现出较强的通用性与可靠性。如图 8 所示,比较了单通道与多通道数据的实验结果:多通道输入相比单通道输入,分类准确度提升约1%。例如,在BUCEAXJTU  DIRG 数据集中,当使用单通道数据时,ACVGN 的最高准确率分别为 97.68%96.57% 99.18%;而使用多通道数据时,准确率进一步提升至 98.82%97.65% 100%。这表明多通道数据可提供更多信息,有助于模型进行更有效的特征抽取,提升分类性能。

     

    不同通道数据对模型分类准确率的影响(实线表示单通道数据,虚线表示多通道数据)

        

    综上,研究结果突显了 ACVGN 在处理单通道与多通道数据时均具有卓越的分类效果与通用性,显示其在智能诊断与分析中具有重要的应用价值。

    案例二:不同图构建方法对模型性能的影响在基于图神经网络的时间序列数据分析中,将时间序列数据映射为图结构数据是关键步骤。为验证所提出的ACVG算法的有效性,将其与几种常用的图构建方法进行了对比分析。具体而言,选取了两种通用构建方法:KNN 图与半径图,以及两种领域特定方法:可视图(VG)与有限可穿透可视图(LPVG),用于将时间序列数据转换为图结构数据。    

    随后,利用上述五种图构建方法所生成的图数据,分别应用于七种图分类算法进行实验: GraphSage、图注意力网络(Graph Attention Network, GAT)、GCN、简化图卷积网络(Simplified Graph Convolutional Network, SGCN)、切比雪夫图卷积网络(Chebyshev Graph Convolutional Network, ChebyNet)、图同构网络(Graph Isomorphism Network, GIN),以及高阶图卷积网络(Higher-Order Graph Convolutional Network, HO-GCN)。通过对比不同图构建方法在相同分类算法下的分类准确率,验证了本文提出的ACVG算法的优越性。实验结果如图 9 所示,ACVG算法在多种图分类算法下均展现出更高的分类准确率,表明其在捕捉时间序列数据间关系方面具有更强的能力,从而显著提升了图分类模型的性能。该优势在不同数据集上均得到了验证,进一步突显了ACVG图构建方法的泛化能力。


     


       

     9 五种图构建方法在不同数据集上的实验结果表现。其中:(aCWRU,(bBUCEA,(cXJTU,(dDIRG,(eMFPT    

     9 展示了在相同图分类算法下采用不同图构建方法时模型性能的显著差异。例如,当采用KNNGLPVG所映射的图数据作为GAT的输入时,其分类准确率相较于使用RadiusGVG映射数据有明显提升。而ChebyNet在所有五种图构建方法下均获得了最优结果。

     2 展示了案例二中七种图分类算法与五种图构建方法在 BUCEA_Bearing 数据集上的分类结果,并标注了每种图分类算法下的最优结果。

    2 ACVG与其他图映射方法的比较          

           

    研究结果表明,当采用ACVG算法将时间序列数据映射为图数据作为输入时,七种分类算法的分类准确率均优于其余四种图构建方法。这主要归因于其余四种构建方法的刚性特征,限制了它们对不同数据分布及噪声条件的适应能力,进而影响了其泛化性能。相比之下,ACVG算法具备更强的灵活性,能够更有效地捕捉信号的深层特征,从而显著提升分类精度。这一发现表明,图拓扑结构的先验知识对模型性能具有显著影响,强调了在智能诊断任务中选择恰当拓扑结构的重要性。相比之下,ACVG算法具备更强的灵活性,能够更有效地捕捉信号的深层特征,从而显著提升分类精度。这一发现表明,图拓扑结构的先验知识对模型性能具有显著影响,强调了在智能诊断任务中选择恰当拓扑结构的重要性。

    最后,对三种可见域图构建方法VG、LPVG 和 ACVG的时间复杂度进行了分析。对于一个含有          个节点的图,         通过引入超参数          来限定每个节点的邻居数量,其时间复杂度为         。相比之下,VG在图构建过程中需要计算每个节点与          个节点之间的边关系,其时间复杂度为         而 LPVG 在 VG 的基础上引入了可穿透距离的限制,使其时间复杂度显著高于 VG。值得注意的是,VG 与 LPVG 都需要通过条件语句判断节点之间的边关系,而 ACVG 为矩阵操作,因此可以加载至 GPU 上运行,提升图映射效率并降低映射耗时。在相同数据集输入条件下,分别记录了三种构建方法映射出的十个图,并测量了图数据输入 GCN 算法并完成一个训练周期所需的时间。结果如图 10 所示,ACVG 的图映射时间与单周期迭代时间远短于 VG 与 LPVG,分别仅为 3.17 秒与 1.2 秒。该结果归因于 ACVG 构建方式的灵活性。实验结果表明,ACVG 算法不仅具备较低的时间复杂度,同时在提升图映射效率与分类准确率方面表现优异。因此,在可见域应用中选择合适的图构建方法至关重要。

     

    10 三种图映射方法的图构建时间与单周期迭代时间对比图    

    案例三:ACVGN 的分类性能评估。在案例三中,通过与三类典型基线模型对比,验证了ACVGN在智能诊断领域的性能表现。首先,采用传统的神经网络模型 LSTM 对故障数据进行分类。接着,使用具有 18 层神经网络结构的 ResNet 模型执行故障分类。最后,将案例二中提到的七种图分类算法(包括 GraphSageGATGCNSGCNChebyNetGIN HO‑GCN)作为对比基线模型。各方法在五个数据集上的分类准确率结果详见 3

    表3 不同方法在五个数据集上的分类性能

     

    首先,将 ACVGN 与深度学习模型 LSTM 和 ResNet 进行对比。如表 3 所示,ACVGN 在所有五个数据集上都优于 LSTM 和 ResNet 的分类准确率。需要指出的是,LSTM 和 ResNet 分别是时间序列和图像领域的典型深度学习分类模型,在多种任务中表现良好。因此,可以推断:将时间序列数据映射为图结构,有助于捕捉信号间潜在关联特征,并结合图分类模型实现更优分类效果。

    其次,将ACVGN与图分类算法 ChebyNet、GCN、SGCN、GraphSage、GIN、GAT、HO‑GCN 进行对比。上述七种图分类算法的嵌入结构列于表 4。

    图分类算法的嵌入          

         

    对比结果显示,ACVGN在不同数据集上均表现出明显的分类优势,反映出其卓越的泛化能力。这主要归因于 ACVGN模型设计中:其不仅持续提取有助于图分类的节点嵌入,也能融合原始信号的局部与全局信息(通过超参数控制),从而实现优异的训练表现。综上所述,实验结果证实:ACVGN 相比其他基线模型具备显著优势,突显了本文提议方法在智能诊断领域的有效性

    案例四:ACVGN 的可解释性说明。作为一种图分类模型,ACVG能挖掘并可视化从时间序列数据映射而来的图结构,对理解模型的预测与决策过程尤为重要。因此,为增强 ACVGN算法的可解释性,对不同工况下映射出的图进行可视化与对比分析,以示例方式提升模型的可解释能力。        

    为此,使用生成的加权邻接矩阵对时间序列映射成的图进行可视化。图绘制通过 Gephi 实现,并采用OpenOrd 布局。为突出不同工况图结构间的差异,去除了权重特别微小的边,将边按权重值使用渐变色着色——颜色越深表示边权重越大,即两个节点之间关系越紧密,如图 11 所示。

           

         

    11 不同数据集中通过 ACVGN 映射得到的图结构可视化结果        

    通过对节点连接关系分析,可得到以下结果,横向比较:同一数据集中不同工况下的图结构明显不同,有助于故障类型的识别与分类。纵向比较:不同数据集中相同工况对应的图结构表现相似。例如,NC(正常)工况下的图呈现类似英文字母S的结构,而IF(内圈故障)工况的图结构则更像大写字母U”。这是由于不同故障引发的故障频率与振动特征存在差异,映射后的图结构也随之变化。此外,尽管某些工况(如IF OF)的图结构相似,但由于ACVGN DiffPool 模型不仅输入图结构(邻接矩阵),还结合每个节点的特征向量,因此仍能有效区分它们,实现高精度分类。        

    通过对ACVGN 所生成图的可视化分析,该方法不仅增强了模型本身的可解释性,还加深了对其决策机制与预测结果的理解,为模型在实际应用场合的验证与解释提供了助力。总体而言,本研究为深度模型处理复杂数据集、实现结果可解释性方面提供了新思路,并对未来模型设计与应用具有参考价值。      

    6 结论

    本文提出了一种先进的的机械设备智能诊断框架——ACVGN。该框架融合了自适应收敛可视图(ACVG)算法与改进的 DiffPool 模型,具备完备的数据处理能力,能够对时间序列数据进行自适应处理,将其映射为最优图结构,并实现局部与全局信息的融合,从而显著提升分类准确率

    所提出的 ACVG 算法能够高效地将时间序列数据转换为图结构,有效克服了传统可视图算法在构图刚性与效率方面的不足。同时,结合经过优化的 DiffPool 模型进行图分类,与自适应可视图算法协同作用,构建出功能强大的 ACVGN 智能诊断框架。该框架在处理时间序列数据时具有良好的适应性,不仅能够生成最优图结构,还能显著缩短映射时间;同时,通过聚合样本中的局部与全局信息,有效提高了故障分类性能

    实验结果表明,ACVGN 框架在泛化能力与分类精度方面均优于现有主流方法。此外,通过对 ACVGN 所映射图结构的可视化分析,揭示了不同图结构之间的差异性,为图学习的可解释性研究提供了新思路。


    编辑:Jin
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除


    来源:故障诊断与python学习
    MechanicalSystem振动非线性旋转机械通用航空建筑油气CONVERGE海洋参数优化理论电机控制人工智能数控DAP
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-06-27
    最近编辑:4月前
    故障诊断与python学习
    硕士 签名征集中
    获赞 87粉丝 133文章 247课程 0
    点赞
    收藏
    作者推荐

    增量学习故障诊断方法 | 基于卷积-注意力融合网络的齿轮箱小样本多类增量故障诊断方法

    本期分享一篇增量故障诊断方法的论文投稿:在工业设备运行过程中,故障类别不断演化,而数据样本却常常稀缺。如何在“少样本”和“多类别”场景中实现高效、稳定的故障诊断,是智能维护中的核心难题。本文提出了一种基于卷积-注意力融合网络(CAFNet)的齿轮箱增量故障诊断方法,旨在克服灾难性遗忘、提升模型对环境变化的适应能力。核心创新包括:构建知识库以持续学习并保留历史信息;设计自适应权重更新算法提升模型泛化能力;引入L2正则化有效防止过拟合,该方法为面向工业应用的智能故障诊断提供了新思路。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Few-shot sample multi-class incremental fault diagnosis for gearbox based on convolutional-attention fusion network论文期刊:Expert Systems With Applications论文日期:2025年3月论文链接:https://www.sciencedirect.com/science/article/pii/S0957417424027854?via%3Dihub作者:Zhen Guo (a), Wenliao Du (b), Zhiping Liu (a), Tao Hu (b), Yannan Yu (a), Chuan Li (b,c)机构:a: School of Transportation and Logistics Engineering, Wuhan University of Technology, Wuhan 430063, China;b: College of Mechanical and Electrical Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002, China;c: Research Center for System Health Maintenance, Chongqing Technology and Business University, Chongqing 400067, China目录1 摘要2 引言3 相关工作3.1 知识库的构建与预处理3.2 面向增量任务的卷积-注意力融合网络3.3 齿轮箱类别增量故障诊断应用4 实验验证4.1 案例4.2 实验设置5 结果与讨论5.1 模型性能评估5.2 训练过程评估5.3 正则化参数对模型性能的影响分析6 结论1 摘要增量故障诊断是指通过不断从所采集的数据流中学习新知识,以克服灾难性遗忘问题,从而确保模型能够适应不断变化的环境。然而,在实际应用中,尤其是在小样本和故障类别不断增加的情况下,齿轮箱故障诊断在学习稳定性方面面临显著挑战。为应对这些问题,本文提出了一种基于卷积-注意力融合网络(CAFNet)的方法,以优化齿轮箱故障诊断能力。首先,构建了一个知识库,用于持续存储来自数据流的信息。该知识库不仅保留历史数据,还包含数据预处理模块,以确保数据的质量与一致性。其次,设计了一种自适应权重更新算法,能够根据模型的实际表现动态调整权重,从而提升模型的适应能力。同时,在损失函数中引入了L2正则化项,以有效防止模型过拟合。本方法通过两个数据集的验证,证实了其有效性和可靠性,为机械故障诊断提供了一种新的解决方案。关键词:增量故障诊断,小样本,卷积-注意力融合网络,齿轮箱2 引言齿轮箱的健康状况对于机械设备的可靠运行至关重要。在正常工况下,设备通常处于稳定的工作状态。然而,随着设备的持续运行,在其寿命受限的条件下可能出现不稳定状态,这将影响设备的可靠运行,甚至导致重大经济损失,乃至停机。因此,如何保障设备的可靠运行,是当前乃至未来亟需解决的重要挑战。目前,基于深度学习的故障诊断方法所采用的数据集,大多用于静态工况下的设备状态分析。然而,在实际工业环境中,数据是持续动态生成的,这使得难以及时全面地收集设备的所有故障模式。当出现新的故障类别时,原有的训练模型将难以适应新的工况条件,导致模型性能迅速下降,甚至出现灾难性遗忘。通常,最直接有效的解决方案是收集所有状态数据并重新训练模型,但受限于存储空间等条件的限制,在设备运行过程中难以保存全部数据。此外,使用大量数据进行训练过程也极为耗时,会带来显著的计算负担。因此,针对数据流环境中故障诊断任务,开发具备增量学习能力的模型,以有效应对灾难性遗忘问题,具有重要的研究意义与实际价值。近年来,基于深度学习的智能故障诊断取得了一定进展。针对电机驱动系统中的故障,Jiang 等人提出并研究了一种基于模糊逻辑的故障诊断策略,以解决间歇性故障问题。为提升特征的可解释性,Yan 等人设计了一种新的面向权重优化模型,可兼顾初始故障检测与故障诊断。针对开放集故障诊断中的跨域迁移所导致的性能下降问题,Wang 等人提出了一种自监督的开放集跨域诊断方法,用于适应多工况下的故障诊断需求。Du 等人则基于稀疏孤立编码森林,对风力发电机齿轮箱实现了异常检测与新故障识别。为应对电池运行中实际故障数据不足的问题,Liu 等人提出了一种基于特征增强的随机配置网络与非均衡电池故障数据的智能诊断方法,用以适应不同域扩展情形。Lin 等人设计了一种基于信息融合的模型无关元学习的小样本迁移诊断方法,提升了元学习在迁移故障诊断领域的应用效果。此外,Zhu 等人提出了一种结合时间预测与相似性对比学习的自监督故障诊断方法,可从未标注的振动信号中提取潜在故障特征,从而在标注数据有限和工况变化复杂的环境下显著提升诊断性能。在深度学习的基础上,基于小样本学习的智能故障诊断方法得到了发展。Wang 等人设计了一种新型小样本学习模型,用于解决从大量未标注样本中提取信号特征的问题。实验验证表明,该模型在有限标签条件下,在两个数据集上均表现出良好的性能。Li 等人提出了一种自监督元学习生成对抗网络算法,以应对小样本数据量不足的问题。该方法通过混合真实与生成数据,并在数据集上进行验证,结果显示该算法在小样本故障诊断任务中具有良好的效果。Hu 等人提出了一种新的基于元学习的领域对抗图卷积网络方法,用于应对小样本与多工况下的故障诊断问题。实验结果表明,该方法在多个测试条件下取得了最优性能。为降低小样本在跨域故障诊断中的分布差异,Hu 等人提出了一种联合迁移细粒度度量网络,用于跨域小样本故障诊断。该方法引入了混合注意力机制以增强特征提取能力,并通过联合迁移函数实现领域自适应。在三个数据集上的验证结果表明,该方法具有良好的诊断效果。在复杂工况下,机械设备可能不断产生新的故障类型,从而影响其可靠运行。因此,研究者开始探索基于增量学习的智能故障诊断方法,以应对这一现象。Zhu 等人提出了一种用于新兴轴承故障与机械故障持续学习的新型故障类型保持嵌入空间方法。Hu 等人针对增量任务,提出了一种基于特征扩展与重构的有限样本模型增量更新方法。Ding 等人设计了一种用于列车传动系统的进化式系统级故障诊断框架,以实现增量样本学习。Zhu 等人还提出了一种带可调伪增量阶段的小样本类别增量学习方法,以解决在引入新故障样本时,由于数据不足导致的过拟合与模型稳定性问题。Zhou 等人设计了一种具备自适应能力的增量诊断模型,可适应不断变化的工业工况。此外,Zhu 等人还提出了一种结合分类信息与特征层信息的新型增量学习方法,在噪声条件下有效提升模型的鲁棒性。卷积神经网络(Convolutional neural networks, CNN)在故障模式识别的特征提取方面表现良好,但在小样本学习和模式变化较大的场景中,其特征捕捉能力存在一定局限。注意力机制能够帮助模型聚焦关键信息,提升特征表示的鲁棒性,从而弥补CNN的不足。为此,本文提出的卷积-注意力融合网络(Convolutional-attention fusion network, CAFNet)将二者有效结合,在小样本学习和增量学习任务中均能够准确捕捉关键特征。本研究的主要贡献体现在以下三个方面:本研究的主要创新点与贡献如下:(1)构建数据知识库:用于存储和处理数据流,以保障数据质量与一致性,为后续的数据处理和模型训练提供可靠的数据基础;(2)设计自适应权重更新算法:根据模型的实际性能动态调整权重,以提升模型的自适应能力。同时,在损失函数中引入正则化参数,有效防止模型过拟合,增强其在不同场景下的泛化能力。(3)提出适用于小样本与类别增量诊断场景的学习方法:实验结果表明,所提模型在两个数据集上均能在小样本与类别增量条件下准确识别不同类型的故障,并能灵活应对故障类别的变化。3 相关工作3.1 知识库的构建与预处理 知识库主要用于数据存储与预处理,如图1所示。该数据库由传感器连续采集的数据流构建而成,同时对数据进行预处理。 图1 知识库构建与预处理流程图在此过程中,从中随机选取长度为 l 的 k 条等长数据,用于后续分析: 其中, 表示由一系列连续数据流 构成的已构建数据库; 为整数,用于表示数据索引, 为数据总量与数据长度 之和,用于限定 的取值范围; 表示数据类别, 表示类别 中第 条数据,数据长度为 。因此, 表示所有数据的总量。知识库用于存储和管理数据,以支持后续的分析与模型训练。最终形成的知识库表示所有类别数据的总体集 合,可通过对所有类别 的数据进行合并获得。 3.2 面向增量任务的卷积-注意力融合网络所采集的类别 的数据将依据图2所示的增量诊断任务用于模型分析。 图2 增量任务流程图 增量任务源自增量学习或持续学习思想,当出现新的任务时,模型能够在学习新知识的同时优化已有知识。同时,增量任务可表示为: 其中, 表示第 个增量任务, 表示所有增量任务的总集 合。由所采集的数据流构建的数据库在经过预处理后,将用于模型的自适应特征提取。模型的具体结构如图3所示。 图3 提出的卷积-注意力融合网络模型 卷积数据表示为: 其中,卷积核的权重为 , 表示卷积操作, 表示 ReLU 激活函数。将卷积输出 转换为查询矩阵 、键矩阵 和值矩阵 : 其中, 、 和 分别表示查询(query)、键(key)和值(value)对应的权重矩阵。随后,通过查询向量与键向量计算注意力得分。 其中, 表示权重矩阵, 表示双曲正切激活函数。注意力得分通过 softmax 函数 进行计算,以获得注意力权重。其表示形式为: 最后,将注意力权重 与值矩阵 相乘并求和,得到上下文向量 : 其中, 表示层归一化操作, 表示经过残差连接后再经层归一化处理的输出结果。 其中, 表示最大池化操作, 表示Dropout 操作, 表示展平层。最终,全连接层的输出表示为: 其中, 表示全连接层的输出,同时也是各类别的评分值; 为全连接层的权重矩阵, 为偏置项。预测输出 通过Softmax 函数计算得到。对于多分类模型,采用交叉熵损失函数。此外,为防止模型过拟合,在损失函数中加入正则化项。其表达式为: 其中, 表示损失函数,用于衡量预测概率 与真实标签 之间的差异; 表示真实类别的One-hot 编码,通常为 0 或 1, 表示模型输出的该类别的预测概率; 为正则化参数, 为其对应的权重项。模型参数通过反向传播进行更新。 其中, 表示模型的参数,包括 、 、 、 、 、 ; 表示学习率,用于控制每次迭代的步长。3.3 齿轮箱类别增量故障诊断应用在介绍了所提出的卷积-注意力融合网络模型后,应用步骤如图4所示。 图4 增量诊断框架 步骤1:在齿轮箱上安装振动加速度传感器,通过计算机采集振动信号,并对数据进行初步分类。步骤2:在初始阶段,将采集到的数据进行预处理,随后划分为训练集与测试集。步骤3:将训练集数据输入模型,对模型权重进行迭代更新。步骤4:在模型训练完成后,使用测试集数据验证模型在小样本任务中的诊断有效性。步骤5:初始阶段的数据经过步骤2至步骤4处理后,进入增量阶段。此时,对增量阶段2采集的数据进行预处理,并仅将增量数据输入模型,重复步骤3和步骤4,从而完成一次增量阶段的学习过程。步骤6:根据实际需要,可重复步骤2至步骤5,获得各增量阶段的故障诊断结果。4 实验验证4.1 案例为了验证所提出方法在小样本条件下的增量故障诊断有效性,在齿轮箱测试平台上进行了相关实验。具体实验设置如图5所示。振动信号由安装在齿轮箱上的加速度传感器采集,通过UtekL采集卡传输至计算机。齿轮的转速由电机控制,负载通过控制与显示装置进行调节。图5 实验装置示意图 在数据采集过程中,所有信号采样时间为 10 秒,采样频率为 12.8 kHz,每个样本的长度设置为 1024。由于使用了三轴加速度传感器,每个样本长度为3072。每种工况下共采集 1000 个样本,共涉及 10 种工况。在实验中,随机选取400个正常样本,以及每种故障类型各130个样本。故障类型包括:正常、单齿点蚀、单齿裂纹、双齿点蚀、双齿裂纹。详细的故障程度与数据集设置如表1所示,各故障类型的位置分布如图6所示。本实验数据覆盖 9 种工况组合,包括转速 25 Hz、40 Hz 和 50 Hz,以及负载 0A、0.1A 和 0.2A 的组合。本文选取转速为 50 Hz 且负载为 0.1A 的工况数据进行分析与验证。表1 实验的操作配置图6 故障类型的位置信息4.2 实验设置为评估所提出方法的性能,在两组实验中对六种不同模型进行了比较,包括:i)仅使用CNN;ii)CNN与残差网络(ResNet)的组合;iii)CNN与压缩激励注意力机制的组合;iv)SEResNet;v)CNN与改进残差网络的组合;vi)本文提出的卷积-注意力融合网络(CAFNet)模型。关于各方法的详细对比及模型参数设置,如表2所示。在图示分析中加入了逐步对比实验,以展示 CAFNet 关键设计对模型性能的影响。表2 方法的参数设置通过对比不同模型,如不含注意力机制的模型(方法1与2),以及不同注意力机制之间的性能差异(方法3、4、5 与 CAFNet),验证了所提方法的有效性。所提出方法的网络结构如表3所示,每个组件代表一个不同的网络层。该结构包括:一维卷积层,自注意力机制层,最大池化层,由Dropout 层组成的主要网络结构,以及 Flatten 层与全连接层(Dense Layer)。在第14层中,并未指定特定的分类类别,而是引入可调参数,以适应自动分类类别数量的需求,并通过新类别表示机制,提升模型的自适应能力。表3 所提方法的网络架构5 结果与讨论为全面评估各方法在小样本增量故障诊断任务中的性能,本文采用了多种评估指标,包括:模型损失值(Loss),平均诊断准确率,F1 分数,混淆矩阵,遗忘率,L2 正则化参数分析。5.1 模型性能评估 首先,对模型在训练集与测试集上的性能进行了可视化分析,如图7所示。图中横轴表示迭代次数,纵轴表示模型损失值。横轴区间被划分为四个阶段:0–100轮 为初始训练阶段,101–150轮 为增量学习阶段1,151–200轮 为增量学习阶段2,201–250 轮为增量学习阶段3。图7 迭代损失从图中可以明显看出,随着迭代次数的增加,所有模型在训练与测试过程中的损失值整体呈下降趋势,说明模型逐步学习并提升了对故障模式的识别能力。在初始阶段(0–100轮),大多数模型的损失值下降较快,因为模型在该阶段得到了充分训练,能够有效学习基本故障模式的特征。然而,不同模型在下降速度与最终损失值方面存在差异,其中所提出的模型在该阶段表现尤为突出,损失值下降更平稳且更具稳定性。在增量学习阶段1(101–150轮),所有模型开始引入新的故障类别数据进行学习。可以观察到,部分模型在引入新数据时出现较大的损失波动,尤其是部分传统增量学习方法,在面对新任务时表现出较大的不稳定性。相比之下,本文提出的模型在该阶段表现出显著的稳定性,损失波动幅度明显小于其他模型,能够迅速适应新任务数据,并保持较低的损失水平。在增量学习阶段2(151–200轮)与增量学习阶段3(201–250轮)中,进一步验证了各模型在面对更多增量数据时的性能表现。尽管所有模型的整体损失值持续下降,但提出的方法在这两个阶段依然表现出良好的稳定性与快速收敛性。与其他方法相比,本模型在这些阶段的损失曲线更加平滑,说明其在处理增量数据时对旧任务的遗忘率更低,并能有效地融合新知识。进一步分析表明,在损失波动幅度方面,提出的模型显著优于其他方法,尤其是在增量学习阶段,展现出更强的适应性与鲁棒性。通过对迭代过程中的损失曲线进行分析可以清晰地看出,本模型在处理新数据时的稳定性和收敛速度均优于对比方法,这表明本方法不仅能够更好地保留已学知识,还能在不显著降低性能的前提下快速学习新任务。上述结果验证了所提出模型在小样本增量故障诊断中的优势,尤其是在面对新故障模式时,其低损失波动性与快速收敛能力为故障诊断的实际应用提供了可靠保障。为了更全面地评估各方法在小样本增量诊断中的表现,对每种方法的诊断准确率进行了可视化分析,结果如图8所示。图8 各方法的诊断准确度从图中可以明显看出,提出的方法在初始阶段已展现出优异的诊断性能,超过了其他对比方法。更重要的是,在随后的增量学习阶段中,该方法仍持续展现出显著优势。随着新增量数据的引入,尽管所有方法的诊断性能均有所下降,但本模型的准确率始终保持领先,特别是在增量阶段1、2、3中,准确率持续高于其他方法。从平均诊断效果来看,本方法在各阶段的性能均显著优于其他方法。具体而言,与方法1、方法2 和方法3 相比,本方法分别提升了 29.52%、16.72% 和 23.35%。这一显著的提升不仅验证了模型的有效性,也展现了其在应对小样本增量故障诊断任务中的优越泛化能力。尽管相对于方法4和方法5的提升不如前三种方法明显,但本方法依然具有绝对优势。与方法4相比,准确率提升了 5.66%,与方法5相比提升了 2.37%。这一在多种方法中体现出的全面优势,尤其是相较于传统方法的显著提升,进一步验证了本模型在小样本增量学习场景中的鲁棒性与有效性。通过上述对比与分析可见,所提出的模型不仅在初始阶段表现优异,在增量学习过程中亦展现出较强的适应性与稳定性,在准确率方面显著优于其他对比方法。在性能评估中,F1 分数是一种综合考虑模型准确率与召回率的调和平均值,因此非常适用于应对类别不平衡问题。在本研究中,采用 F1 分数对所提出模型的分类性能进行评估,特别是在小样本增量故障诊断任务中。表4展示了各类别在三个阶段测试样本上的性能表现,包括每个阶段的准确率、召回率、F1 分数和平均准确率,以及宏平均(Macro Average)和加权平均(Weighted Average)。表4 模型三个阶段的F1分数在初始阶段,模型在各类型样本上均表现最优,准确率达到了 100%。在第一个增量阶段,准确率超过 98%。在第二个阶段,尽管新类型数据的数量翻倍,模型准确率仍保持在 98% 以上,显示出较强的泛化能力。而在第三个增量阶段,准确率仍超过 94%,进一步说明本模型在持续学习过程中的稳定性和适应性。为了更详细地展示各类别的预测结果,本文引入了混淆矩阵。该矩阵有助于更深入地理解模型在各阶段的诊断效果,揭示模型在处理不同类别时的表现差异。如图9所示,展示了模型在各阶段的平均准确率。图9 诊断模型在各阶段的混淆矩阵从图中可以看出,在初始阶段,模型的平均准确率达到了 100%,说明模型在该阶段对所有类别的预测均完全正确。在增量阶段1,平均准确率为 98.33%,虽略有下降,但反映出模型在引入新类别数据后仍能保持较高的准确率。在增量阶段2,平均准确率略微回升至 98.37%,表明模型在处理增量数据时的适应性与稳定性有所提升。在增量阶段3,平均准确率下降至 94.4%,虽然有所下降,但依然维持在较高水平,说明模型在面对更多增量数据时,仍具备良好的诊断性能。从混淆矩阵的分类效果来看,个别样本边界模糊的原因可能在于样本数量过少或特征提取效果不佳,从而导致模型在分类时出现困难,难以准确区分不同类别。为进一步验证所提出模型的有效性,本文设计了消融实验,以分析模型中不同组件对整体性能的贡献。这些消融实验主要聚焦于以下几个方面:模型组件消融,损失函数消融,模型深度消融,超参数消融。相关的模型设置及准确率变化如表5所示。表5 模型三个阶段的F1分数在本研究的消融实验中,分别对模型的不同组件、深度结构、损失函数与超参数进行了详细分析,以评估其对模型平均准确率的影响:(1)移除 Dropout 层使平均准确率下降至 95.22%,说明 Dropout 层对提升模型性能具有显著作用。(2)移除第9至第12层使平均准确率大幅下降至 87.88%,表明这些层在提高模型准确性方面起到了关键作用。(3)将损失函数替换为均方误差(MSE)后,平均准确率略有提升至 97.78%,表明 MSE 在本任务中表现良好。(4)将批量大小设置为较小值(batch size = 16)使平均准确率显著下降至 87.78%,进一步强调了当前批量大小设置对模型性能的重要性。基于以上分析,所提出的方法在完整配置下取得了最高平均准确率 97.78%,验证了其性能的优越性与鲁棒性。5.2 训练过程评估 遗忘率用于评估模型在学习新知识的过程中保留旧知识的能力,尤其适用于增量学习或持续学习场景。在初始阶段,由于模型尚未开始增量学习,因此不存在遗忘率的概念。对增量阶段中的遗忘率进行了可视化分析,如图10所示。图10 增量诊断中每种方法的遗忘率从图中可以看出,五种对比方法的平均遗忘率分别为15.75%;7.08%;13.21%;3.34%;2.25%。相比之下,本文所提出的方法表现出更低的遗忘率,平均仅为 1.89%。这一结果表明,在小样本增量故障诊断场景下,本模型在学习新任务时能够有效保留已学知识,避免性能大幅下降。特别地,在对比方法中,方法1与方法3的遗忘率较高,反映出这类方法在面对增量数据时对旧任务存在明显的遗忘现象,从而导致模型整体性能不稳定。相比之下,我们提出的方法显著降低了遗忘率,表现出更强的知识保持能力。这种在模型稳定性与对新任务适应性之间的平衡,使得本方法在应对小样本增量诊断任务时表现出色。总体而言,较低的遗忘率不仅验证了本方法在适应新任务方面的有效性,也体现出其在应对小样本增量学习挑战中的鲁棒性与高效性。这一结果进一步验证了本方法在增量学习场景中的稳定性与可持续性,确保模型在不断学习新知识的同时,不会显著遗忘已有知识,从而持续提升性能。5.3 正则化参数对模型性能的影响分析为降低模型复杂度并防止过拟合,在损失函数中引入了正则化参数 。通过对不同正则化参数对模型泛化性能的影响进行比较,从中选择最优的正则化参数。图11展示了对6种不同的 L2 正则化参数取值(从 0 到 10)下模型性能的对比结果。图11 正则化参数分析分析结果表明,当正则化参数 时,模型表现出最佳的诊断效果。在该设置下,模型在各个阶段的分类性能均优于其他参数取值。说明当 时,模型的复杂度与泛化能力得到了良好的平衡,从而提升了其在训练数据与测试数据上的整体表现。进一步分析还表明,尽管其他参数值也在一定程度上改善了模型性能,但均未达到 所呈现的最优效果。这验证了 的正则化设置能够在维持模型简洁性的同时,最大程度地抑制过拟合,并提升模型在不同阶段下的分类稳定性与准确率。因此,最终选定正则化参数 作为模型的最终配置,以确保模型在实际应用中的最优诊断性能。 6 结论本研究提出了一种卷积-注意力融合网络(CAFNet),以解决齿轮箱在小样本条件下的增量故障诊断难题。通过知识库系统对诊断数据流进行持续管理,使得模型能够实时利用最新数据。在数据采集与预处理阶段,对输入数据进行标准化处理,以满足模型训练需求。模型训练过程中引入了自适应权重更新算法,使其能够在每个阶段有效适应新数据,同时引入 L2 正则化以防止过拟合,从而在小样本条件下提升模型的泛化能力。实验结果表明,CAFNet 在诊断准确率、F1 分数和混淆矩阵指标方面均优于对比方法,同时具有较低的遗忘率,展现出出色的知识保持能力。进一步分析还发现,当L2 正则化参数设置为 1 时,模型分类效果最佳,有效降低了模型复杂度与过拟合风险。未来的研究工作将进一步扩展CAFNet在多工况、多部件增量故障诊断中的应用,以验证其广泛适用性。同时,计划对模型结构进行优化,并探索参数压缩方法,以降低计算复杂度,提升其在资源受限环境下的实用性。此外,还将CAFNet应用于实际小样本任务与跨领域数据集中,验证其泛化能力与迁移能力,确保其在复杂设备多故障环境下的稳定性与高效性。编辑:Jin校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈