论文题目:
An interpretable multiscale lifting wavelet contrast network for planetary gearbox fault diagnosis with small samples
论文期刊:Reliability Engineering and System Safety
论文日期:2024年
论文链接:
https://doi.org/10.1016/j.ress.2024.110404
作者:Yutong Dong, Hongkai Jiang, Xin Wang, Mingzhe Mu, Wenxin Jiang
机构:
团队带头人简介:姜洪开老师,西北工业大学民航学院教授、博士生导师。现任中国振动工程学会故障诊断专业委员会委员、中国振动工程学会转子动力学专业委员会委员、西北工业大学校学术委员会委员。作为活跃的学术研究者,姜教授长期担任《Mechanical Systems and Signal Processing》等多种国际知名期刊的审稿人,学术影响力广泛,连续入选2021年、2022年、2023年和2024年斯坦福大学发布的“全球前2%顶尖科学家榜单”。研究方向包括:飞行器故障诊断与健康管理、新一代人工智能与智能飞行器、飞行器大数据分析与智能运维和无人机综合测试与自主控制等。(来源: https://teacher.nwpu.edu.cn/jianghongkai.html)
1 摘要
2 引言
3 相关研究内容
3.1 监督式对比学习
3.2 离散小波变换
4 基于所提方法的故障诊断
4.1 可解释的多尺度提升小波网络
4.2 交互式通道注意力机制
4.3 时间-频率对比学习
4.4 所提方法概述
5 实验验证
5.2 案例2:齿轮箱数据2
6 结论
传统的行星齿轮箱故障诊断深度学习方法存在训练样本需求量大和模型不可解释等问题。为解决小样本条件下特征挖掘能力不足及模型“黑盒”问题,本文提出了一种具有可解释性的小样本多尺度提升小波对比网络。该模型首先利用可解释的多尺度提升小波网络从原始信号中挖掘关键特征;其次引入交互通道注意力机制,以有效选择包含不同频率信息的特征图,在提升识别精度的同时增强了模型可解释性;最后设计时频对比损失函数,从时域与频域联合优化特征分布。通过多种可视化实验验证了模型的准确性与可解释性。实验证明该方法在两个行星齿轮箱数据集上均取得了优异表现,具备较强的工程实用性。
关键词:故障诊断,小样本,可解释的提升小波层,交互式通道注意力机制
作为现代机械设备的重要组成部分,行星齿轮箱的健康状态直接影响整个系统的正常运行。然而,行星齿轮箱在高压、高温、高转速和重载等恶劣工况下,容易发生多种故障,进而影响机械设备的生产效率甚至导致安全事故。因此,开发有效的行星齿轮箱故障诊断技术对降低生产成本和提升生产效率具有重要意义。
基于信号处理的故障诊断方法因其有效性而受到广泛关注。小波变换作为一种高效的信号处理技术,在过去几十年中被广泛应用于故障诊断领域。Yan等人提出了优化的小波包变换以提取故障信号的有效特征。Chen等人提出了一种自适应冗余多小波方法,用于机械复合故障识别。但这些方法高度依赖专家经验,难以实现端到端的自动诊断。机械设备作为复杂工业系统,由多个复杂部件组成。相较于滚动轴承,行星齿轮箱结构及运行方式更为复杂,导致其故障特征的频谱调制更加复杂,给故障诊断带来了挑战。行星齿轮箱一般包括固定的齿圈、绕轴旋转的太阳轮及四个绕自身轴和太阳轮轴同时旋转的行星轮,齿轮间相互啮合产生包含多种复合频率成分的振动信号。此外,多传动路径及其时变特性,加之恶劣工况下背景噪声的干扰,进一步削弱了信号中的故障特征信息,使传统基于信号处理的诊断方法难以满足实际工业需求。
为应对上述问题,基于深度学习的智能诊断技术日益受到关注。Chen等人提出了一种融合物理信息的长短时记忆网络(LSTM)以提升齿轮箱故障识别性能。Shi等人采用卷积神经网络(CNN)实现了有效的齿轮箱故障识别。Dong等人提出动态归一化对比网络用于故障诊断,但现有研究普遍将深度学习视为黑盒,缺乏对特征提取及决策过程的解释,难以说明模型诊断结果的依据。在实际工业生产中,错误判断可能导致严重损失,因此模型的可解释性对于技术推广应用至关重要。只有具备可解释性的模型,其诊断结果才能被广泛接受。为此,许多研究关注深度学习的可解释性。Li等人设计了WaveletKernelNet,引入连续小波卷积层替换模型首层卷积层,实现部分可解释性。Wang等人提出注意力机制以增强模型可解释性,但依然基于传统卷积核,缺乏物理意义。Liu等人提出可解释变分自编码器用于滚动轴承故障数据生成,尽管在数据生成阶段具有可解释性,但后续识别仍需额外深度模型,增加了决策不确定性和不可解释性。
综上所述,目前齿轮箱故障诊断的可解释性仍存在若干问题:(1)模型中仅部分层具备可解释性;(2)采用交叉熵作为损失函数,导致故障信号的特征提取效果不足;(3)基于深度学习的故障诊断方法通常需要大量故障样本进行训练,这对于机械设备相关各方而言难以接受。因此,开发一种可解释且适用于小样本的故障诊断方法显得尤为必要。受提升小波启发,本研究提出了一种用于小样本行星齿轮箱故障诊断的可解释多尺度提升小波对比网络。以下为本研究的主要贡献:
设计了一种可解释的多尺度提升小波网络,该网络由交替的多尺度卷积融合层和提升小波层组成,实现对故障信号的全面且可信特征挖掘。
开发了一种交互式通道注意力机制,用于选择分解后最重要频率的特征,以指导模型训练,提升诊断结果的性能与可解释性。
提出了一种时频监督对比学习方法,通过同时优化样本在时间域和频率域的分布,提高网络在小样本条件下的特征挖掘能力。
采用两个行星齿轮箱故障数据集验证了方法的性能及可解释性,结果表明该方法能够逐层提取有效的故障信号特征,从而提供可靠的诊断结果
对比学习是一种近年来备受关注的自监督学习方法,其基本思想是将锚点样本与负样本区分,并拉近其与正样本的距离。但原始的对比学习方法不使用标签信息,容易导致同一类别内的样本被误分离。为了解决这一问题,研究人员提出了监督对比学习(Supervised contrast learning,SupCon),该方法在引入标签监督后,性能优于传统的监督学习模型。然而,目前SupCon在小样本故障识别领域的应用尚未被充分探讨。
3.2 离散小波变换
离散小波变换(Discrete wavelet transform,DWT)是一种在多分辨率下进行信号分析的强大工具,能够在降低数据维度的同时有效保留重要的频率信息。通过将特征图分解为低频部分与高频部分,DWT使网络能够保留关键信息并剔除冗余内容。其过程可表示如下:
其中, 与 分别表示所分解得到的低频与高频分量; 和 分别表示低通滤波器和高通滤波器。
通过将DWT集成到CNN架构中,网络能够在特征表示中保持更高的细节保真度与准确性,从而有效提升其故障诊断能力。
4.1 可解释的多尺度提升小波网络
传统卷积神经网络(CNN)中的特征提取和决策过程完全未知,难以满足工业实际需求。为此,本节借鉴提升小波技术,设计了一种可解释的多尺度提升小波网络(Multiscale lifting wavelet network,MLW-CNN),以实现对故障信号的全面且可信特征提取。
4.1.1 多尺度卷积融合层
采用单一尺寸卷积核的卷积神经网络(CNN)在从原始信号中有效提取特征方面常存在局限。较大的卷积核可能无法准确捕捉局部特征,而较小的卷积核又可能无法覆盖完整的故障周期。因此,设计了一种多尺度卷积融合层,使网络能够在不显著增加计算复杂度的情况下扩展感受野。对于给定的输出位置 ,膨胀卷积可表示为:
其中, 表示输入特征, 表示输出特征, 和 分别为膨胀系数和卷积核。如图1展示,采用尺寸为 、膨胀系数分别为1、3、5、7的卷积核同时提取特征。
图1 多尺度卷积融合层原理示意图
所得特征映射被拼接,具体计算如下:
其中, 、 、 和 是四个卷积,拥有不同的膨胀系数,并且各自处理输入的1/4通道。在每次卷积后,都应用批量归一化和ReLU激活函数,以防止梯度消失问题,保证多尺度特征的鲁棒提取。借助该多尺度卷积融合层,网络可以有效捕获局部与全局特征,从而提升故障诊断的准确度。
4.1.2 提升小波层
在传统CNN架构中,池化层通常用于下采样卷积提取的特征,但这会带来频率混淆和信息损失,降低网络性能。为解决这些问题,学者们尝试用离散小波变换(DWT)替代传统池化层。尽管DWT取得良好效果,但由于小波基是人工预定义的,限制了其对不同故障数据的泛化能力,因此提出了提升小波。
本研究受提升小波启发,设计了一种可解释的提升小波层,通过梯度训练获得层的最优参数,而非采用固定小波基分解特征图的低频和高频成分。首先,信号通过分离操作被划分为奇数分量 和偶数分量 ,其表示如下:
鉴于 和 之间高度相关,采用训练得到的预测器 基于 预测 时,二者的差值能够较好地表征高频部分,具体表达如下:
其中, 表示高频成分,可通过奇分量 与预测结果 的差异得到。接着, 被用于函数 以进一步修正偶分量 。更新后的 对低频成分进行有效逼近,具体表达如下:
其中,可学习的函数 和 均采用图2所示的残差层表示。
图2 改进残差结构原理示意图
在获得低频和高频成分后,将其进行拼接,以替代CNN中的池化层。该过程可表示如下:
此外,采用正则化损失约束训练过程,以便输入特征能够更好地分解为低频和高频部分,具体过程如下:
其中, 和 为用于约束训练过程的两项正则化损失。
4.1.3 整体框架
MLW-CNN 的整体结构如图3所示,主要由以下几个关键模块组成:三个多尺度卷积融合层、一个全局平均池化层以及一个分类器。各部分在网络中各司其职。
图3 MLW-CNN 的原理示意图
多尺度卷积融合层与提升小波层共同实现对故障信号的可解释且全面的特征挖掘;而GAP层与分类器则负责将提取到的特征映射到对应的故障类别维度。注意力层的原理与作用将在下一小节中详细说明。表1展示了MLW-CNN架构中各层的具体设置。
表1 MLW-CNN 的网络结构
4.2 交互式通道注意力机制
虽然提升小波能够良好地分解特征并减小其尺寸,但不同于传统DWT中将高频部分直接舍弃,本文将其与低频特征拼接以减少信息丢失。但这种方法也引入了较高的冗余性。为此,引入交互式通道注意力机制(Interactive channel attention mechanism,ICAM),用于从提升小波层的输出中选择出最有助于故障类型识别的关键信息。
诸如Squeeze-and-Excitation(SE)之类的通道注意力机制能够有效解决这一问题。本文对SE机制进行了改进,以生成更合理的特征权重。研究表明,全局最大池化(GMP)层和全局平均池化层能产生两种不同的特征表示,二者结合有助于生成更合理的特征权重。然而,现有方法通常将这两种池化操作独立使用后再进行拼接或求和。本文设计了一种跨分支加权求和策略,以促进两个不同池化分支的特征表示的进一步融合。具体实现过程如下所示:
式中, 为输入特征, 和 为两个分支的输出, 与 是可训练的权重参数。各分支的结果特征映射被送入多层感知机,之后通过Sigmoid函数将两分支输出的加权和映射到[0,1]区间,从而计算通道权重。表达式如下:
其中, 表示 Sigmoid 函数, 是不同通道的权重。此外,引入了残差拼接机制,用于保证模型性能不会下降。具体机制示意如图4所示。
图4 交互式通道注意力机制(ICAM)的基本原理
4.3 时间-频率对比学习
在工业实际应用中,训练样本数量通常非常有限,稀疏的故障信号限制了网络的特征挖掘能力,进而降低故障识别的准确性。监督对比学习(SupCon)能够通过增大不同类别样本特征间的距离,并缩小相似样本的距离,有效提升模型性能。不过,已有研究多仅从时间域视角优化样本特征分布,忽视了频率域上的差异。因此,本文提出时频监督对比学习,同时优化样本特征在时域和频域的分布,从小样本故障信号中挖掘更全面的特征。
数据增强被首先采用以生成对比学习所需的正负样本,显著缓解有限数据引起的过拟合。本文采用加噪声、数据翻转及随机调整幅值等增强方法。随后,将样本送入特征提取器以提取时间域特征 ,频域特征则利用快速傅里叶变换(FFT)来获取:
其中,FFT 表示傅里叶变换算子, 为第 个频域特征。随后,我们将时域特征与频域特征拼接,得到时频特征表示:
通过这种方式,模型可通过计算相似度进行训练:
其中, 代表样本间的相似度度量方法。本文选择余弦相似度作为衡量标准,其特点是非线性、高效计算以及良好鲁棒性。具体计算公式为:
其中, 是第 个时频特征。为在时频特征空间中增大负样本对距离并减小正样本对距离,本文设计了以下时频对比学习损失函数:
其中, 表示与样本 具有相同标签的正样本对, 和 分别代表样本数量和温度系数。为解决对比学习通常仅训练特征提取器的局限性,本文进一步采用交叉熵(CE)损失函数,同时训练特征提取器和分类器,其计算公式如下:
其中, 指交叉熵损失, 与 分别表示模型的预测概率与实际标签。整体损失函数可表达为:
其中, 、 和 代表时频对比学习损失( )、低频正则化损失( )及高频正则化损失( )的权重。
4.4 所提方法概述
本研究提出了一种适用于有限样本条件下的行星齿轮箱故障诊断的可解释多尺度提升小波对比网络。其流程框架如图5所示,具体步骤如下:
图5 所提方法流程图
步骤1:通过传感器在多个位置采集行星齿轮箱振动信号。
步骤2:将数据集分为训练集和测试集,并对训练集进行数据增强以支持对比学习。
步骤3:设计具有可解释性的提升小波层,并基于该层构建多尺度提升小波网络。
步骤4:设计交互式通道注意力机制,以选取提升小波层分解后的重要特征。
步骤5:提出时频监督对比损失,协同优化时频域特征分布。
步骤6:使用交叉熵损失训练分类器。
步骤7:通过测试集验证所提方法的效果。
5.1 案例1:齿轮箱数据1
5.1.1 数据概述
本节采用北京交通大学风力发电机传动系统试验台的行星齿轮箱数据集(WT-Planetary Gearbox Dataset),用于验证所提方法的优越性。表2详细介绍了数据集中包含的五种工况:正常工况(NC)、断齿(BT)、磨损齿(WT)、裂纹齿(CT)及缺齿(MT)。训练集与测试集的划分情况亦如表2所示,得到三个不同样本比例的小样本数据集。
表2 案例1数据集具体信息
数据采样频率为48 kHz,实验装置及各工况齿轮状态如图6所示,齿轮箱信号的时域波形展示于图7。
图6 (a) 试验台整体示意图;(b) 齿轮箱五种状态类别示意图
图7 齿轮箱信号时域波形图
5.1.2 对比结果及分析
为了系统性地验证所提方法的性能,进行了广泛的对比试验与分析。本文将所提出的架构与五种具备可解释性的模型进行对比,包括融合离散小波变换的 MMA-CNN,利用双重注意力机制解释决策依据的 MA1DCNN,以及嵌入三种连续小波卷积核的多尺度网络 Mexhat-Inception、Morlet-Inception 和 Laplace-Inception。此外,还将先进的多尺度 CNN 模型 MAFEN 作为基线参考。所有方法均以交叉熵作为损失函数,训练轮次均为100。参数λ、η 和 μ 分别设定为0.005、0.00015和0.001。为降低实验波动,重复进行了10次实验。
表3及图8综合展示了三组小样本数据集在不同样本数量下的诊断准确率。显而易见,随着训练样本数量的降低,各模型准确率均呈现明显下滑趋势。特别是当训练样本数量缩减到8个时,MAFEN的识别率仅为75.48%。相比之下,六种具有可解释性的架构表现出较大提升,MLW-CNN、MWA-CNN、MA1DCNN、Mexhat-Inception、Morlet-Inception和 Laplace-Inception的识别率分别为92.68%、90.96%、71.44%、62.48%、62.96%和63.16%。
表3 各对比方法在故障数据集上的诊断准确率
图8 不同对比方法的诊断准确率比较
这一显著的性能差异充分体现了MLW-CNN架构的优越性。其高准确率和稳定性主要源自于MLW-CNN中多尺度卷积对多尺度特征的有效挖掘,以及提升小波层从频率域对特征的分解与融合。基于此,交互式通道注意力机制(ICAM)通过生成合理的特征权重,优化提升小波层输出,有效提升了网络的整体性能。
图9展示了在使用16个训练样本情况下,若干准确率最高的方法的混淆矩阵。显著的是,尽管MWA-CNN和Laplace-Inception的准确率低于MLW-CNN,但它们在识别某些特定故障状态时表现不佳。相反,MLW-CNN在准确识别大多数故障类别方面表现优异。结合时间频率监督对比学习(TF-SupCon)后,MLW-CNN在裂纹齿(CT)和磨损齿(MWT)故障的识别率达到了100%。
图9 诊断方法对应的混淆矩阵
此外,图10展示了采用t-SNE技术对数据集2中若干模型学习特征的可视化结果。显然,本方法有效地增强了不同类别样本之间的区分度,同时保持了同类别样本的紧密聚集,充分体现了本方法在提取各类数据判别特征方面的能力。
图10 基于t-SNE的特征提取可视化
接下来,对MLW-CNN的可解释性进行进一步分析。Grad-CAM++是一种通过可视化网络梯度来解释深度网络的工具。本节利用Grad-CAM++技术对各注意力层的梯度进行可视化与分析,结果如图11所示。不同特征的权重值以颜色表现,颜色越偏红代表权重值越大,表征该特征的重要性。可以观察到,网络能够有效捕捉原始信号中最能反映故障特征的冲击信号,且随着网络层数的加深,对脉冲的捕捉更加精准,充分说明网络已充分学习了原始信号中的故障特征。
图11 基于Grad-CAM++技术的特征可视化分析
此外,图12展示了注意力权重的可视化分析。图左侧为提升小波层分解出的低频特征权重,右侧为高频特征权重。可以明显看出,交互通道注意力机制(ICAM)主要保留了低频特征部分,并辅以少量高频特征,以实现故障特征的全面挖掘。随着网络层数的增加,低频部分的权重显著提升,进一步验证了ICAM在特征选择和过滤中的作用。
图12 交互通道注意力机制(ICAM)权重的可视化
5.2 案例2:齿轮箱数据2
5.2.1 数据说明
本节采用齿轮箱数据集2对所提方法进行验证。实验采样频率为20 kHz,故障模拟试验台见图13所示。该实验设置了六种行星齿轮箱工况,包括正常、点蚀、裂纹以及三种磨损程度,具体如图14所示。每个样本由1024个采样点构成。齿轮箱的时域波形如图15所示。本文方法在三个小样本数据集上的性能与其他多种方法进行了对比,具体信息详见表4。
图13 行星齿轮箱故障模拟试验台
图14 五种故障齿轮类型示意图
图15 齿轮箱信号时域信号波形
表4 案例2数据集具体信息
5.2.2 对比结果分析
各方法参数配置与上一节一致。表5和图16展示了不同模型在三个不同样本比例的小样本数据集上的诊断表现。MLW-CNN分别达到98.81%、94.65%和89.63%的最高准确率,明显优于其它方法。结合时间-频率监督对比学习(TF-SupCon)后,识别准确率进一步提升,彰显了本方法的优势及实际应用潜力。
表5 对比方法在故障数据集上的诊断准确率
图16 不同对比方法的诊断准确率比较
图17为准确率最高方法的混淆矩阵。结果显示,除齿面点蚀(Pitting tooth,PT)类别外,本方法在所有故障类别中均表现最佳。特别是严重磨损齿(Severely wear teeth,SWT)类别,各方法表现普遍较弱,而本方法是唯一超过90%的方案。这可能归因于SWT与齿断裂(Cracked tooth,CT)特征相似,导致网络在样本有限时难以有效区分。
图17 诊断方法对应的混淆矩阵
图18利用t-SNE对数据集2中各方法提取的特征进行可视化。结果显示,MWA-CNN和Laplace-Inception部分类别的特征存在重叠,而本方法能显著拉开各类别间距离,同时保证同类样本紧密聚合,体现了良好的判别能力及清晰的决策边界。
图18 基于t-SNE的特征提取可视化
图19和图20分别展示注意力层的梯度及权重可视化。与前述实验一致,梯度图中的亮区与原始信号冲击脉冲高度吻合,验证了网络的可解释性。且随着网络层级增加,低频特征的注意力权重显著增强,进一步证明了本方法在不同数据集上的泛化可解释能力。
图19 基于Grad-CAM++技术的特征可视化分析
图20 交互通道注意力机制(ICAM)权重的可视化
针对小样本条件下实现可解释故障识别的需求,本文提出了一种多尺度提升小波对比网络模型。该模型首先构建了具备可解释性的多尺度小波结构,实现了对故障信号深层次且可靠的特征提取;其次,融合交互式通道注意力机制,有效筛选关键频率特征,进一步增强了小波分解层的可解释性;最后,设计了时频监督对比损失函数,以提升模型在小样本环境下对时频联合特征的学习能力。模型的可解释性通过梯度可视化(Grad-CAM++)与注意力权重分析等手段得到了直观验证。在今后的研究中,本文将尝试引入稀疏表示、DCT(离散余弦变换)、STFT(短时傅里叶变换)等先进信号处理方法,与深度模型融合,以解决机械设备在非平稳运行、频繁变负载、强噪声干扰等实际工况下的诊断问题,从而提升故障识别的准确性与工程可靠性。