论文题目:
VKCNN: An interpretable variational kernel convolutional neural network for rolling bearing fault diagnosis
论文期刊:Advanced Engineering Informatics
论文日期:2024年10月
论文链接:
https://www.sciencedirect.com/science/article/pii/S1474034624003537?via%3Dihub
作者:Guangyi Chen, Gang Tang, Zhixiao Zhu
机构:
a: College of Mechanical and Electrical Engineering, Beijing University of Chemical Technology, Beijing 100029, China
团队带头人简介:唐刚教授,北京化工大学博士生导师。现为中国振动工程学会动态信号分析专委会常务理事、故障诊断专委会理事,中国人工智能学会青年工作委员会委员。入选北化青年英才百人计划,被评为“全国石油和化工教育青年教学名师”。长期从事机械故障诊断和智能运维技术等研究工作。近年来发表高水平论文50余篇,参与起草国家标准4项;主持国家重点研发计划“揭榜挂帅”课题、特殊计划项目、国家自然科学基金和企业合作项目等,相关成果应用于航天航空等多个领域高端装备的智能化运维。(来源: https://mech.buct.edu.cn/2018/0227/c3107a46844/page.htm)
1 摘要
2 引言
3 理论基础
3.1 变分模态分解
3.2 卷积神经网络
4 所提方法
4.1 变分核卷积神经网络
4.2 数据驱动参数更新
4.3 基于残差连接的通道注意力机制
4.4 基于变分核卷积神经网络的故障诊断
5 实验验证
5.2 案例二
6 模型可解释性分析
6.2 诊断模型的学习机制
7 结论
随着CNN的发展,滚动轴承的智能故障诊断取得了显著进展。然而,特征提取过程缺乏物理可解释性,严重削弱了其可信度,从而极大地限制了其在工业中的实际应用。为解决这一问题,本文提出了一种可解释的变分核卷积神经网络(Variational Kernel CNN,VKCNN)用于滚动轴承故障诊断。首先,在CNN的初始层中精心引入一种新型的近似滤波器,用以有效提取分布于不同频带、具有明确物理意义及故障相关信息的幅度调制和频率调制成分。其次,引入模块化操作,以构建变分核中两个等比例实参数与复数梯度之间的反向传播关系。随后,提出一种基于残差连接的通道注意力机制,能够为来自不同频带的故障相关特征动态分配通道级权重。此外,引入注意力加权谱,从后验可解释性的角度探索模型的学习机制。最后,本文在两个滚动轴承数据集上验证了所提VKCNN模型,实验结果表明该模型在抗过拟合能力上表现出较强的鲁棒性,并在噪声场景中优于其他对比模型。
关键词:卷积神经网络,变分核,变分模态分解,注意力机制,滚动轴承,智能故障诊断
作为“工业关节”,滚动轴承具备良好的传动性能和承载能力,因而被广泛应用于航空发动机、工业机器人、风力发电机等各类旋转机械设备中。作为现代旋转机械中的重要基础部件之一,滚动轴承同时也是故障高发的关键部件。一旦在运行过程中发生严重故障,极易引发重大的安全事故。因此,发展面向滚动轴承的智能故障诊断与健康监测方法具有重要意义 [1-3]。
据文献[4]报道,传统的智能故障诊断方法通常遵循“滤波器组–特征提取–决策判断”三阶段流程。其中,“滤波器组”阶段旨在借助稀疏编码、小波变换、模态分解等先进信号处理技术,对测得信号进行去噪处理,并提取故障信号的内在特征 [5-7]。尽管基于信号处理的特征提取方法能够结合专家知识与物理信息,使故障轴承的特征表示具备一定可解释性,但此类方法通常需要针对不同数据样本进行特定的预处理,同时需对若干参数进行精细调整,以获得期望的故障特征。这种依赖精心设计特征的方式通常仅适用于特定场景,限制了传统智能故障诊断模型的泛化能力。此外,在面对大规模异构数据时,由人工提取与选择故障特征不仅工作量繁重,而且极为耗时。
近年来,深度学习模型因其能够直接从原始数据中挖掘具有代表性的特征,并将所学习的特征映射到目标轴承的健康状态,在国内外研究者中引起了广泛关注 [8,9]。该类方法跳过了繁琐的人工特征提取与选择流程,能够以端到端的方式处理海量监测数据。因此,各类深度学习模型中的神经网络结构被广泛应用于滚动轴承的智能故障诊断中,包括自编码器 [10]、循环神经网络(Recurrent Neural Network, RNN)[11] 以及CNN [12,13]。其中,CNN因其具备局部感受野的高效利用、本地权重共享以及多卷积核融合等显著优势,在故障诊断领域中得到了更广泛的应用。尽管基于CNN的智能故障诊断方法在近年来取得了重要进展,但其学习到的特征缺乏可解释性的问题依然存在。这一问题增加了评估模型可信度的难度,从而限制了其在工业环境中的实际部署。
如果能够掌握CNN所学习的典型故障特征所遵循的客观规律,就可以通过调整模型参数来实现对网络学习过程的引导与优化,进一步提升其对领域知识的学习能力以及模型本身的可靠性。因此,围绕CNN的智能故障诊断方法开展可解释性研究具有重要意义。一种可行的路径是通过可视化权重或特征图,对已训练CNN进行后验解释。例如,Grezmak 等人 [14] 利用逐层相关传播方法,在输入信号的时频图中可视化不同区域对诊断结果的贡献值,实验结果表明所设计的CNN能够通过学习特定频带来区分故障类型。Jia 等人 [15] 则通过神经元激活最大化(Neuron Activation Maximization, NAM)算法分析了深度归一化CNN的工作机制,发现网络的第一卷积层实质上扮演着多通道滤波器组的角色。
另一种解决思路是将可解释的信号处理方法引入模型结构中,这种方式不仅提升了深度学习模型的内在可解释性,还充分发挥了其数据驱动的参数学习优势,使得信号处理方法的参数能够实现自动更新 [16]。例如,Li 等人 [17] 在CNN的首层中引入了连续小波卷积层,不仅简化了网络结构,还利用数据驱动的小波基函数提取与冲击相关的周期性成分,实验表明该方法在滚动轴承与齿轮的智能故障诊断中具有良好效果。Liu 等人 [18] 提出了时域散射卷积网络模型,基于小波散射原理构建,实现了完全可解释的轴承故障诊断。Ye 等人 [19] 构建了一种基于形态学滤波的神经网络,用于从振动信号中分离冲击成分并抑制噪声。然而,正如文献 [17] 所指出的,小波核CNN的诊断性能高度依赖于小波基函数的形状。其与故障信号中冲击成分匹配度越高,诊断精度也越高。因此,在使用小波核方法时应更加重视小波基的设计。而对于形态学滤波器,由于不同故障类型所引起的冲击信号在形态上的差异不明显,构建有效的形态学字典存在困难,从而限制了判别性特征的学习能力 [20]。
众所周知,由故障冲击激发的系统共振通常会导致冲击信号出现幅度调制与频率调制(AM-FM)现象 [21]。因此,AM-FM信号往往包含可用于区分不同故障类型的重要特征。变分模态分解(Variational Mode Decomposition, VMD)已被证明在处理复杂调制信号方面具有良好效果 [22]。与前述传统信号处理方法不同,VMD方法不依赖于预定义的小波基函数或形态学字典,而是能够对待分析信号进行自适应分解。VMD将任何信号视为多个在频域中相互正交的AM-FM子信号的集 合,每个子信号在某一中心频率附近具有紧凑的带宽。在VMD中,提取这些子信号的过程被定义为一种引入Tikhonov正则化的改进Wiener滤波器模型,其本质类似于在频域中对不同频段进行带通滤波操作。随后,从定位到的频带中提取AM-FM子信号 [23]。Song 等人 [24] 提出一种智能多通道谱结构扫描器,用于检测多通道轴承信号中有效频段的中心频率,并通过一步计算获得相应的通道子信号。Zheng 等人 [25] 则基于二分法对频带进行划分,以识别AM-FM子信号所在的具体频率区间。Jiang 等人 [26] 提出一种逐步分解信号的方法,通过峭度准则及中心频率对目标子信号进行定位。由此可见,VMD在提取AM-FM子信号时,实质上是寻找与故障密切相关的频率区间。
上述方法表明,在不同滚动轴承故障诊断场景或任务中,充分的先验知识对于频带划分至关重要。然而,目前尚无一种权威且具鲁棒性的频带选择策略可适用于所有诊断场景,这在面对未知场景或新任务时,会引入较大的不确定性,同时增加频带选择的时间与经济成本。此外,需要注意的是,局部故障不仅可能激发轴承本体的共振,还可能激发邻近部件的共振,从而进一步复杂化信息的调制过程。因此,实际测得信号的频谱中通常包含多个分布在不同频段的频谱簇,导致故障信息在频域中呈现明显的多尺度分布特征 [27]。然而,现有方法往往仅关注有限频带内的故障特征,而忽略其他可能包含有效信息的频段,这可能导致特征提取过程中的信息丢失,从而影响故障诊断结果的准确性与可靠性。因此,如何在缺乏充分先验知识的条件下,实现多尺度故障信息的自适应提取,仍是当前亟待解决的重要挑战。
得益于深度学习模型强大的参数学习能力,基于多尺度故障信息提取原理的近似滤波器可被嵌入至深度网络中,应用于各种故障诊断任务,并将其关键超参数集成到诊断模型的参数体系中。通过反向传播算法,可以在保持深度网络所提取特征固有可解释性的同时,自适应优化近似滤波器的超参数。为实现对分布于不同频带的AM-FM分量的自适应提取,本文提出了一种基于VMD信号分解原理构建的新型近似滤波器,并将其集成至一维卷积神经网络中,用于滚动轴承故障诊断。通过构建变分核卷积神经网络(VKCNN),有效提升了特征提取阶段的事中(ad-hoc)可解释性。此外,考虑到不同频带的变分核所提取的AM-FM特征在诊断任务中的重要性存在差异,本文进一步引入通道注意力机制以增强事后(post-hoc)可解释性,从而有助于理解深度学习“黑箱”中的知识学习机制。
本研究的主要创新点与贡献如下:
(1)引入模块化操作以解决反向传播过程中复梯度的虚部无法参与变分核实数参数动态更新的问题。该方法充分利用虚部信息进行参数学习。同时,将具备自主学习能力的变分核嵌入网络首层,以提取稀疏的、具判别性的AM-FM特征,不仅实现了对原始信号的简洁表达,还增强了深度网络中 特征提取的可解释性。
(2)提出一种基于残差连接的通道注意力机制,可对不同频带中提取的AM-FM特征赋予动态通道权重,从而强化关键信息。通过对不同频带上所学习到的注意力权重进行可视化,为理解诊断模型的学习机制提供途径。
(3)实验结果表明,VKCNN在高噪声环境下的故障识别精度显著优于其他对比模型,表现出较强的抗过拟合能力与鲁棒的泛化性能。
VMD是一种常用的自适应提取准正交AM-FM信号的方法。由于其在抑制噪声方面表现出色,该算法被广泛应用于机械故障诊断领域。在VMD中,所提取的准正交AM-FM信号被定义为带限的本征模函数(Intrinsic Mode Function, IMF):
其中, 表示第 个模态分量, 和 分别表示该分量的瞬时幅度和瞬时相位。在重构输入信号时,IMF分量还应具有一定的稀疏性。每个模态的稀疏先验被选为其在频域中的带宽,进而可得到如下的约束变分问题:
其中,
其中,
3.2 卷积神经网络
CNN通过卷积运算、非线性激活与池化操作实现了稀疏连接、参数共享和等效表示。在卷积层中,第
其中
随后,通过非线性函数对特征映射进行激活操作,以增强CNN的表达能力。该非线性激活过程可表示为:
池化层用于降低特征图的维度并保留主要特征,以防止模型过拟合。本文主要采用最大池化层,定义为:
其中
其中
4.1 变分核卷积神经网络
传统CNN模型中随机初始化的第一层卷积核所提取的特征往往缺乏实际的物理意义,这将严重影响整个诊断模型的性能。通常情况下,故障信号的频谱上存在多个分布在不同频率范围内的单频簇,并且在复杂信号调制下,频域中的机械故障信息通常呈现多尺度分布的特性。VMD可以通过频域上的乘法运算将信号分解为一系列具有不同中心频率的模态分量,从而实现对多尺度分布下故障特征的分离。因此,引入变分核作为传统CNN模型中随机初始化的第一层卷积核的替代,用作可解释的特征提取范式。
不同于VMD的原始解析解,所提出的近似滤波器在分解原始信号时不需要考虑重构约束,而是更加关注识别原始信号中与故障相关的特征,从而使每个模态分量仅作为特定频带内调幅-调频(AM-FM)成分的近似表达。此外,由于实际采集的信号大多包含噪声,拉格朗日乘子在保真项约束中的作用不大。因此,拉格朗日乘子通常设为较小的数值或为零。与此同时,变分核的构建引入了抗混叠约束,以确保每个滤波核都能最优地提取不同频率的信息。该约束的实质在于,在执行当前卷积核操作前,消除已被提取的频率成分。遵循这一策略,第
其中
图1展示了在不同参数下变分核滤波器的频率响应特性。从图1(a)中可以明显看出,通过调节平衡参数可以有效控制滤波器的带宽。考虑到与故障相关的模态分量的AM-FM信息各不相同,合理的带宽选择能够避免附着在目标频带上的冗余噪声成分。因此,通过调整平衡参数可以有效减弱噪声的影响。从图1(b)可以观察到,中心频率的设定能够控制滤波器提取所需的频率信息。然而,如果无法将其设定在最优频率范围内,故障特征信息的有效传递可能会受到阻碍,从而导致诊断结果的误判。因此,该参数的确定对特征提取结果也具有重要影响。
图1 变分核在不同参数下的频率响应特性:(a) 不同的平衡参数
4.2 数据驱动参数更新
在大多数情况下,参数
图2 变分核在不同参数下的频率响应特性:(a) 不同的平衡参数
由于
其中,
对
因此,
接下来,可以分别求出
在使用梯度下降和反向传播更新
其中,
其中,
4.3 基于残差连接的通道注意力机制
变分核通过从输入信号中提取多频段的AM-FM信息,显著提升了网络在特征提取方面的丰富性与可靠性。然而,不同频段的故障特征并不均匀。如果直接舍弃那些包含较少故障信息的频段,可能会导致相应的梯度反向传播被中断。因此,本节引入了一种基于残差连接的通道注意力机制,以动态地增强内在的故障相关特征,同时抑制无关或错误的信息。通过这种方式,诊断模型能够更有效地从输入信号中的多个频段中识别并获取具有判别性的故障特征。
图3 基于残差连接的注意力机制结构
如图3所示,基于残差连接的通道注意力机制包含一个全局平均池化层、两个核大小为
聚合后的信息
其中,
其中,
其中,
因此,通道注意力机制的最终输出结果可表示为:
4.4 基于变分核卷积神经网络的故障诊断
为了使网络第一层所提取的特征具备明显的物理意义,将前述所提出的变分核(Variational Kernel)嵌入至传统CNN的初始卷积层中,替代原先随机初始化的卷积核。随后,本文提出了一种用于滚动轴承智能故障诊断的新型方法,即基于变分核卷积神经网络(VKCNN)。该故障诊断方法的流程如图4所示,其具体实现过程如下:
图4 基于VKCNN的智能故障诊断方法流程图
(1)第一层变分核的设计:为网络第一层中的每个通道设计具有不同中心频率与平衡参数的变分核滤波器。类似于VMD,频率被归一化到区间
(2)通道注意力机制的引入:通过多通道注意力机制实现对变分核所提取的各频段模态分量的自适应权重分配。随后,得到的通道重标定特征图被输入到与标准CNN结构相同的主干网络中。网络的结构参数详见表1。
表1 网络的结构参数
(3)全连接层的映射:使用全连接层将特征映射到标签空间,实现训练样本故障类型标签的预测。
(4)基于分类误差的反向传播:根据预测标签与真实标签计算分类误差的损失函数,并在反向传播(BP)过程中用于更新变分核的中心频率
为验证所提VKCNN方法的有效性,本文与传统CNN模型进行了对比。此外,为体现基于数据驱动、可更新参数策略的信号处理方法在特征提取方面的优势,本文还将其与结合不可训练的VMD与CNN的组合方法进行对比。后者采用启发式优化算法在信号预处理阶段优化VMD参数。
此外,本文还在相同故障数据集上应用了将第一层CNN卷积核重新定义为小波核网络(Wavelet Kernel Network)的方式进行对比,所使用的小波包括Morlet小波核与拉普拉斯小波核(Laplace Wavelet Kernel)。为确保比较的公平性,本文所有用于对比的方法均使用相同的网络主干结构。
为探讨VKCNN的特性并验证其有效性,本文分别在案例一和案例二的滚动轴承数据集上进行了实验验证。此外,本文还将所提出方法的结果与其他基于深度学习的智能故障诊断方法进行了对比分析。
5.1 案例一
案例一中所采用的数据集来自凯斯西储大学轴承数据中心。图5展示了本实验所使用的测试平台结构。实验中选用的是6205-2RS JEM 型驱动端轴承的振动数据。振动信号采集条件如下:电机负载为 0 至 3 马力(HP),对应的转速分别为 1797 r/min、1772 r/min、1750 r/min 和 1730 r/min。每种故障类型对应的加工直径分别为 0.178 mm、0.356 mm 和 0.533 mm。因此,在每一种工况下,共设定了包括正常状态在内的十种轴承健康状态标签。此外,依据不同的工作条件,振动信号被划分为四个数据集,分别为 D1、D2、D3 和 D4。
图5 CWRU试验台
在数据预处理过程中,采用非重叠滑动窗口采样方法对振动信号进行截取,每个故障样本包含 1024 个数据点。随后,将整个数据集按照 4:1 的比例随机划分为训练集与测试集。在样本标准化阶段,对每个样本进行零均值归一化,并引入少量高斯白噪声,以防止模型训练过程中的过拟合现象。
在分类任务中,本文所提出的方法(VKCNN)将与四种其他智能诊断方法进行对比:传统卷积神经网络(CNN);基于拉普拉斯小波核的卷积网络(LapCNN);基于Morlet小波核的卷积网络(MorCNN);不可训练参数的VMD与CNN组合方法(VMD + CNN)。为验证网络的稳定性并减少随机因素对结果的影响,每组实验均重复进行10次,并在相同任务下统计各网络的平均分类准确率与标准差。实验结果如图6所示。
图6 不同模型基于CWRU数据集的识别结果
结果显示,本文提出的 VKCNN 模型在不同工况下的分类任务中表现出色,其平均准确率接近 100%。此外,其标准差在所有模型中最小,说明该网络在故障特征的识别与提取方面表现出最强的稳定性。就CNN模型而言,虽然其诊断准确率仅次于VKCNN,但其标准差较大,表明诊断性能波动性较强,存在一定程度的过拟合问题。通过比较LapCNN与MorCNN的诊断结果发现,LapCNN的性能优于MorCNN,可能是因为其波形更适合匹配故障信号中的冲击成分。因此,在实际应用中为小波核网络选择合适的小波核是十分关键的。相较而言,VMD + CNN方法的平均准确率较低,主要原因在于该方法的网络第一层不含可训练参数,导致该层提取的特征为固定形式,从而影响后续层的特征学习,造成整体性能下降。
为了对模型的性能进行更深入的评估,本文在0 HP 工况条件下展示了各模型的训练过程,如图7所示。
图7 训练集的准确率与损失曲线
首先,从图7(a)可以看出,在初始迭代阶段,CNN 与 VMD + CNN 由于第一层卷积核采用随机初始化,其分类准确率较低。相比之下,VKCNN、LapCNN 和 MorCNN 在第一层引入了领域知识,因而准确率更高,说明这类模型能够更快地提取具有代表性的特征。其次,从结果中可以发现,VKCNN 具有更快的收敛速度,且能够收敛到更高的准确率,而 VMD + CNN 和 MorCNN 的收敛速度最慢,且准确率较低。尽管CNN在最终也能达到较高准确率,但由于其特征提取过程中的不稳定性,收敛后的准确率仍存在局部波动,这一现象也与图6中的结论一致。类似地,从图7(b)所示的损失函数曲线也可以得出相同的结论。
图8 训练前后结果对比:(a) 变分核3的频率响应;(b) 变分核3的输出特征图;(c) 变分核7的频率响应;(d) 变分核7的输出特征图
图8展示了所提出模型中变分核3和变分核7在训练前后各自的频率响应与输出特征图,输入数据为内圈故障信号。可以明显看出,训练前后变分核的频率响应与输出结果存在显著差异。如图8(a)所示,变分核3在训练前后的频率响应差异主要体现在中心频率的变化上。由图8(b)可以观察到,通过调整中心频率,该频段的幅度信息被更加清晰地突出出来。变分核7的变化则主要体现在频率响应曲线的带宽方面,如图8(c)所示。由图8(d)可以看到,训练后由于带宽减小,除了主频成分外,输出特征图中其余频率成分被有效抑制。综上所述,本文提出的变分核不仅能够自适应地在频域中搜索主频成分,还能有效抑制所提取模态分量中的噪声成分。
图9 不同模型在噪声数据集 D1 上的识别结果
从图9可以看出,在所有测试的信噪比条件下,所提出模型的平均诊断准确率均优于其他四种同样基于CNN的诊断模型。尤其在 SNR 分别为约 2 dB 和 −4 dB 的情况下,VKCNN 的诊断准确率仍可达到 94.86% 和 90.35%。相比于四个对比模型中表现最好的 CNN,其准确率分别提升了 22.94% 和 42.06%。这表明,通过对 VKCNN 中平衡参数的迭代更新,模型展现出了强大的抗噪能力。此外,尽管噪声强度的增加会导致诊断模型的故障识别准确率下降,但具有良好抗噪鲁棒性的模型仍能有效抑制噪声干扰。例如,在信噪比为 −4 dB 的强噪声情况下,噪声强度比原始振动信号高出 2.5 倍,CNN、MorCNN、LapCNN 以及 VMD + CNN 的诊断准确率分别下降了 34.13%、28.76%、30.45% 和 32.29%,而 VKCNN 仅下降了 7.45%,进一步证明了其优异的抗噪性能。
作为模型的消融实验,本文还测试了去除通道注意力机制的变分核模型(VKCNN1)在同一噪声数据集下的表现,结果亦展示于图9中。与本文中其他四种对比模型相比,VKCNN1 在所有SNR条件下的故障识别准确率均为最高。尤其在 SNR 为 −4 dB 的强噪声场景中,VKCNN1 的准确率相比 CNN、MorCNN、LapCNN 以及 VMD + CNN 分别提高了 40.11%、63.56%、53.82% 和 54.04%。这说明所提出的变分核滤波器能够在强噪声中有效提取深层嵌入的判别性特征,从而在复杂噪声环境下仍能保持较高的诊断精度。同时,将本文提出的诊断模型与 VKCNN1 的结果进行比较可发现,引入通道注意力机制的 VKCNN 模型准确率略高于未引入注意力机制的 VKCNN1。这一差异归因于注意力机制能够对不同频带中的故障特征进行通道级别的动态权重分配,增强故障相关特征、抑制冗余特征。因此,通道注意力机制的设计对于提升模型的诊断性能具有显著作用。
5.2 案例二
在如图10所示的滚动轴承故障测试平台上进行实验验证。测试所使用的轴承型号为 NTN-NU204,故障类型为通过线切割方式造成的单点损伤,包含外圈故障与内圈故障两种。缺陷的深度分别为 0.05 mm、0.15 mm 和 0.25 mm,分别对应轴承失效的不同严重程度,缺陷宽度统一为 0.5 mm。
图10 滚动轴承试验台
本实验在三个不同的运行工况下采集振动数据,转速从 500 rpm 逐步提升至 1300 rpm,采样频率为 100 kHz。因此,在每个工作条件下,包含正常状态在内,共有 7 类标签。该数据集的具体说明见表2。
表2 轴承数据集的具体说明
实验结果如表3所示。结果表明,在多种工况下,所设计的 VKCNN 在诊断性能上明显优于其他对比模型。
表3 案例二中的分类结果
特别是在第一工况中,尽管该工况下由转速所引起的振动与冲击相对其他工况较弱,但所提出的模型在诊断准确率上仍明显优于其他模型中表现最好的 CNN,表明 VKCNN 能够有效提取有助于提升诊断精度的 AM-FM 信息。同时,表3还列出了各模型在训练与测试过程中的时间消耗。可以观察到,由于变分核在单次操作中需执行较复杂的数据处理,VKCNN 相较于 CNN 在训练与测试阶段耗时略长。然而,其出色的诊断精度与稳定的网络性能完全值得投入额外的时间。相比之下,VMD + CNN 模型的计算成本最高,其额外计算主要来自于自适应信号处理中的迭代求解过程。作为一种依赖大数据的智能故障诊断方法,这种模型显然在实际应用中面临较大挑战。
此外,本文还对所有对比模型的模型复杂度进行了说明,包括其参数数量(Params)与每秒浮点运算次数(FLOPs)。图11展示了各诊断模型在三种工况下的平均准确率与其模型复杂度之间的对比。可以看出,CNN 模型具有最高的参数规模与FLOPs,是所有模型中复杂度最高的,然而,较大的参数数量也意味着其更易发生过拟合。另外,从 MorCNN 与 LapCNN 的情况来看,其模型复杂度与训练时间基本相近。但如 VKCNN 与 CNN 的对比所揭示,模型复杂度与计算时间并不总是呈正相关关系。
图11 平均准确率与模型复杂度对比:(a) 准确率与参数数量(Params)的关系;(b) 准确率与每秒浮点运算次数(FLOPs)的关系
为了进一步分析各模型对不同故障类型的分类准确率,图12给出了各模型在数据集 S1 实验中的混淆矩阵,图13则绘制了各诊断模型的测试损失曲线,以辅助实验结果分析。从 VKCNN 的混淆矩阵可以看出,除标签3略高的识别错误率外,其他类别的识别准确率均超过 90%。标签3多被误判为标签2。根据表2,标签2与标签3均为内圈故障数据,但缺陷尺寸不同。由于这两类数据在故障严重程度上的差异较小,特征具有较高相似性,因而对诊断模型提出了较高的区分能力要求。
图12 诊断模型的混淆矩阵:(a) VKCNN;(b) CNN;(c) LapCNN;(d) VMD + CNN
从图13可以明显观察到,VKCNN 的损失曲线收敛最稳定,表明其训练过程更加平稳、收敛效果更优。相比之下,CNN 的收敛最不稳定,表明其可能存在明显的过拟合问题。而 MorCNN 与 VMD + CNN 的测试损失值普遍较高,可能是由于特征提取能力不足所导致的欠拟合问题。
图13 诊断模型的测试损失
表4展示了各诊断模型第一层参数数量的对比情况。对于 CNN 的第一层卷积结构,其可训练参数数量等于卷积核长度L与卷积核数量N的乘积。因此,如果该层使用较长的卷积核,将会显著增加需要训练的参数量。相比之下,VKCNN 的第一层仅包含N个可训练参数,大大减少了模型的复杂度与过拟合风险。因此,从模型结构角度分析,CNN 更容易受到过拟合的影响,而 VKCNN 在保持特征表达能力的同时,有效控制了模型复杂度,展现出更强的泛化能力。
表4 不同诊断模型第一层结构对比
此外,为验证所提出模型的鲁棒性,本文还使用噪声数据集 S2 进行测试,实验结果如表5所示。从结果可以看出,在四种不同噪声水平下,VKCNN 的诊断准确率始终优于其他对比模型,且随着噪声强度的增加,其在抗噪性能方面的优势愈发明显。具体而言,当 SNR 为 2 dB 时,VKCNN 在测试准确率上相较于 CNN、MorCNN、LapCNN 和 VMD + CNN 分别提升了 7.93%、7.45%、9.64% 和 10.02%。而在 强噪声条件下,VKCNN 的诊断准确率相较于上述基线模型分别提升了 28.53%、13.89%、37.4% 和 26.81%,表现出显著的抗噪性能提升。上述分析进一步表明,VKCNN 在抗噪鲁棒性方面具有突出的优势,能够在强噪声干扰环境中保持良好的故障识别能力。
表5 不同模型在噪声数据集 S2 上的诊断准确率
本部分从两个方面对 VKCNN 的模型可解释性进行分析,包括网络第一层的特征提取形式以及模型学习机制。第一个方面旨在通过可视化网络第一层的特征图来直观描述模型的特征提取形式,并进一步分析稀疏特征图对模型泛化能力的影响;第二个方面则尝试通过注意力权重的可视化,探讨深度学习模型学习机制与人工故障诊断知识之间的潜在联系。
6.1 网络第一层的特征提取形式
不同诊断模型第一层的特征图可视化结果如图14所示。可以观察到,VKCNN 的第一层特征图将提取到的特征映射为由多个单尺度模态组成的多通道滤波模态映射,该结构充分融合了来自不同模态、不同尺度下的判别性信息,包括中心频率、带宽与幅度等因素。提取特征之间不存在混叠现象,使得特征映射具有高度简洁与稀疏性,这不仅有利于后续的快速识别,还为模型的决策过程提供了事后可解释的特征表示。同时还可以发现,与变分核相比,其余三种类型卷积核对应的特征映射明显更加复杂,不同卷积核之间提取到的频率成分也非常相似。本质上,正是由于引入了基于抗混叠约束的模态滤波机制,使得变分核能够有效挖掘具有判别特性的模态成分,进而形成具有良好区分能力的稀疏特征映射。
图14 不同核的特征映射:(a) 变分核;(b) 卷积核;(c) 拉普拉斯小波核;(d) Morlet 小波核
为说明第一层特征图的稀疏性对诊断模型泛化性能的影响,表6列出了不同诊断模型的 Gini 指数 和 损失比值
表6 诊断模型的 Gini 指数与损失比值
从表6可以看出:变分核具有最大的 Gini 指数和最大的损失比值,说明其特征图最为稀疏,且模型的泛化性能最优;卷积核与拉普拉斯小波核的 Gini 指数较小,对应的损失比值也较小,且两者的数值接近,表明其稀疏性和泛化性能相对较弱;此外,Morlet 小波核的 Gini 指数和损失比值也显著高于卷积核与拉普拉斯小波核,说明其在稀疏性与泛化能力方面表现更优。综上可见,特征图的稀疏性对模型的泛化能力有正向影响,而变分核凭借其稀疏性优势在建模过程中展现出更好的鲁棒性与诊断性能。
以上分析充分说明了特征图稀疏性与损失比值之间存在正相关关系,据此可以推断:增强网络第一层特征图的稀疏性,有助于显著提升模型的抗过拟合能力。需要指出的是,尽管 Morlet 小波核的特征图具备良好的稀疏性,但从图14(d)中的幅度信息可见,其特征提取能力较弱,无法充分提取某些频段中的频率成分。综上所述,变分核通过专注提取特定频段的信息,不仅在一定程度上避免了特征间的重叠,还提升了网络第一层对输入信号的稀疏表达能力,最终有效增强了模型的泛化性能。
6.2 诊断模型的学习机制
为了更好地理解诊断模型在整个训练过程中的学习机制,本文对模型从频率域中学习到的注意力权重进行可视化,得到如图15所示的注意力权重谱图。图中不同颜色代表不同的注意力权重值,其中红色表示权重最高的区域。
图15 注意力权重谱图:(a) 训练前;(b) 训练后
从谱图中可以观察到,频谱中的明显峰值被注意力机制有效捕捉到,这一结果与人脑对信息处理的认知机制高度一致。通过对比训练前后的注意力权重谱图还可以发现,一些初始权重较低的频段在训练后其权重显著上升,表明网络能够通过训练自适应地增强与故障相关的激活映射,从而提取更具判别性的故障特征。同时,图15(b)中以玫红色圆圈标出的频段在原始幅度信息中并不明显,但其对应颜色显示该频段在训练过程中触发了注意力机制。这说明模型在某些频段中学习到了潜在的、有用的诊断信息,即使这些信息在幅值上并不突出。为了进一步验证这一现象的合理性,本文引用了 Infogram 分析方法。Infogram 是一种有效的工具,可用于寻找信号的最优共振频带。该方法通过频谱负熵指标来表征故障重复瞬态在频率域中的循环平稳性。如图16(a)所示,利用 Infogram 分析可以定位出信号的共振频带为 [4500, 6000] Hz。进一步通过图16(b)中的包络谱分析可以发现,该频段确实包含了与故障相关的重复瞬态特征。更为重要的是,Infogram 所定位的频带与图15(b)中注意力机制标记的频段基本一致。这一结果说明,深度神经网络模型的学习机制与人工轴承故障诊断知识高度契合,具有良好的物理可解释性与诊断逻辑一致性。
图16 基于 Infogram 方法的分析结果:(a) 共振频带的确定;(b) 包络谱分析
考虑到在复杂信号调制条件下,轴承故障信息在频域中呈现出多尺度分布特性,本文提出了一种可解释的变分核(Variational Kernel),能够自适应地提取有用的 AM-FM 信息。将该变分核的先验知识嵌入到 VKCNN 网络结构中,为模型提供了一个数据驱动且具有可解释性的特征提取方案。将所提出的 VKCNN 应用于两个不同轴承数据集的故障诊断实验,得出以下结论:
(1)解决了忽略虚部及不同尺度可训练参数协同更新的问题,通过建立复数梯度与实际可训练参数在同一尺度下的映射关系,确保了数据驱动机制在变分核中对可学习参数的有效更新,从而避免了以往忽略虚部信息或尺度失衡带来的误差。
(2)采用反向传播算法实现变分核参数的自动学习,通过使用 BP 算法对变分核的两个核心参数进行更新,有效规避了现有信号预处理与深度学习网络两阶段方法中存在的参数固化问题。具备自学习能力的变分核能够聚焦于物理上具有意义的 AM-FM 成分,增强了其可解释性。
(3)引入通道注意力机制实现跨频带特征的自适应增强,通道注意力机制可根据不同频带模态特征对诊断结果的贡献程度,自适应地为各频带分配通道级别的权重。
(4)特征图可视化验证了稀疏 AM-FM 特征对模型泛化能力的提升,通过可视化第一层特征图,可以发现 VKCNN 所提取的 AM-FM 特征具有良好的稀疏性,从而显著提升了诊断模型的泛化性能。进一步结合注意力权重谱与 Infogram 方法的结果,可知模型学习机制与人类对轴承故障的认知模式高度一致,增强了模型诊断结果的可靠性与可解释性。