首页/文章/ 详情

小样本可解释诊断新路径 | 基于多尺度提升小波对比网络的齿轮箱故障识别方法

17小时前浏览1
     本期聚焦于小样本条件下的智能诊断新突破:在实际工业应用中,传统深度学习方法不仅对大量标注数据依赖严重,还普遍缺乏可解释性,难以满足对行星齿轮箱等关键设备高效、透明的故障识别需求。为破解这一技术瓶颈,本文提出了一种创新的多尺度提升小波对比网络模型。该模型融合可解释的小波特征提取机制交互式通道注意力结构以及时频对比损失函数三大模块,在精准提取关键故障特征的同时,有效提升了诊断过程的可解释性。大量实验结果表明,该方法在多个行星齿轮箱数据集上实现了高精度识别,表现出极强的工程实用潜力,为实现小样本、高透明度的智能故障诊断提供了坚实支撑。

    论文链接:通过点击本文左下角阅读进行在线阅读及下载

    论文基本信息

    论文题目:

    An interpretable multiscale lifting wavelet contrast network for planetary gearbox fault diagnosis with small samples

    论文期刊:Reliability Engineering and System Safety

    论文日期:2024年

    论文链接:

    https://doi.org/10.1016/j.ress.2024.110404

    作者:Yutong Dong, Hongkai Jiang, Xin Wang, Mingzhe Mu, Wenxin Jiang

    机构:

    a: School of Civil Aviation, Northwestern Polytechnical University, 710072 Xi’an, PR China

    团队带头人简介:姜洪开老师西北工业大学民航学院教授、博士生导师现任中国振动工程学会故障诊断专业委员会委员、中国振动工程学会转子动力学专业委员会委员、西北工业大学校学术委员会委员。作为活跃的学术研究者,姜教授长期担任《Mechanical Systems and Signal Processing》等多种国际知名期刊的审稿人,学术影响力广泛,连续入选2021年、2022年、2023年和2024年斯坦福大学发布的“全球前2%顶尖科学家榜单”研究方向包括:飞行器故障诊断与健康管理、新一代人工智能与智能飞行器、飞行器大数据分析与智能运维和无人机综合测试与自主控制等。(来源: https://teacher.nwpu.edu.cn/jianghongkai.html

    目录

    1 摘要

    2 引言

    相关研究内容

    3.1 监督式对比学习

    3.2 离散小波变换

    基于所提方法的故障诊断

    4.1 可解释的多尺度提升小波网络

    4.2 交互式通道注意力机制

    4.3 时间-频率对比学习

    4.4 所提方法概述

    5 实验验证

    5.1 案例1:齿轮箱数据1

    5.2 案例2:齿轮箱数据2

    6 结论

    1 摘要

    传统的行星齿轮箱故障诊断深度学习方法存在训练样本需求量大和模型不可解释等问题。为解决小样本条件下特征挖掘能力不足及模型“黑盒”问题,本文提出了一种具有可解释性的小样本多尺度提升小波对比网络。该模型首先利用可解释的多尺度提升小波网络从原始信号中挖掘关键特征;其次引入交互通道注意力机制,以有效选择包含不同频率信息的特征图,在提升识别精度的同时增强了模型可解释性;最后设计时频对比损失函数,从时域与频域联合优化特征分布。通过多种可视化实验验证了模型的准确性与可解释性。实验证明该方法在两个行星齿轮箱数据集上均取得了优异表现,具备较强的工程实用性。

    关键词:故障诊断小样本可解释的提升小波层交互式通道注意力机制

    2 引言

    作为现代机械设备的重要组成部分,行星齿轮箱的健康状态直接影响整个系统的正常运行。然而,行星齿轮箱在高压、高温、高转速和重载等恶劣工况下,容易发生多种故障,进而影响机械设备的生产效率甚至导致安全事故。因此,开发有效的行星齿轮箱故障诊断技术对降低生产成本和提升生产效率具有重要意义

    基于信号处理的故障诊断方法因其有效性而受到广泛关注。小波变换作为一种高效的信号处理技术,在过去几十年中被广泛应用于故障诊断领域。Yan等人提出了优化的小波包变换以提取故障信号的有效特征。Chen等人提出了一种自适应冗余多小波方法,用于机械复合故障识别。但这些方法高度依赖专家经验,难以实现端到端的自动诊断。机械设备作为复杂工业系统,由多个复杂部件组成。相较于滚动轴承,行星齿轮箱结构及运行方式更为复杂,导致其故障特征的频谱调制更加复杂,给故障诊断带来了挑战。行星齿轮箱一般包括固定的齿圈、绕轴旋转的太阳轮及四个绕自身轴和太阳轮轴同时旋转的行星轮,齿轮间相互啮合产生包含多种复合频率成分的振动信号。此外,多传动路径及其时变特性,加之恶劣工况下背景噪声的干扰,进一步削弱了信号中的故障特征信息,使传统基于信号处理的诊断方法难以满足实际工业需求

    为应对上述问题,基于深度学习的智能诊断技术日益受到关注。Chen等人提出了一种融合物理信息的长短时记忆网络(LSTM)以提升齿轮箱故障识别性能。Shi等人采用卷积神经网络(CNN)实现了有效的齿轮箱故障识别。Dong等人提出动态归一化对比网络用于故障诊断,但现有研究普遍将深度学习视为黑盒,缺乏对特征提取及决策过程的解释,难以说明模型诊断结果的依据。在实际工业生产中,错误判断可能导致严重损失,因此模型的可解释性对于技术推广应用至关重要。只有具备可解释性的模型,其诊断结果才能被广泛接受。为此,许多研究关注深度学习的可解释性。Li等人设计了WaveletKernelNet,引入连续小波卷积层替换模型首层卷积层,实现部分可解释性。Wang等人提出注意力机制以增强模型可解释性,但依然基于传统卷积核,缺乏物理意义。Liu等人提出可解释变分自编码器用于滚动轴承故障数据生成,尽管在数据生成阶段具有可解释性,但后续识别仍需额外深度模型,增加了决策不确定性和不可解释性

    综上所述,目前齿轮箱故障诊断的可解释性仍存在若干问题:(1)模型中仅部分层具备可解释性;(2)采用交叉熵作为损失函数,导致故障信号的特征提取效果不足;(3)基于深度学习的故障诊断方法通常需要大量故障样本进行训练,这对于机械设备相关各方而言难以接受。因此,开发一种可解释且适用于小样本的故障诊断方法显得尤为必要。受提升小波启发,本研究提出了一种用于小样本行星齿轮箱故障诊断的可解释多尺度提升小波对比网络。以下为本研究的主要贡献

    • 设计了一种可解释的多尺度提升小波网络,该网络由交替的多尺度卷积融合层和提升小波层组成,实现对故障信号的全面且可信特征挖掘。

    • 开发了一种交互式通道注意力机制,用于选择分解后最重要频率的特征,以指导模型训练,提升诊断结果的性能与可解释性。

    • 提出了一种时频监督对比学习方法,通过同时优化样本在时间域和频率域的分布,提高网络在小样本条件下的特征挖掘能力。

    • 采用两个行星齿轮箱故障数据集验证了方法的性能及可解释性,结果表明该方法能够逐层提取有效的故障信号特征,从而提供可靠的诊断结果

    3 相关研究内容

    3.1 监督式对比学习  

    对比学习是一种近年来备受关注的自监督学习方法,其基本思想是将锚点样本与负样本区分,并拉近其与正样本的距离。但原始的对比学习方法不使用标签信息,容易导致同一类别内的样本被误分离。为了解决这一问题,研究人员提出了监督对比学习(Supervised contrast learning,SupCon),该方法在引入标签监督后,性能优于传统的监督学习模型。然而,目前SupCon在小样本故障识别领域的应用尚未被充分探讨。

    3.2 离散小波变换

    离散小波变换Discrete wavelet transform,DWT)是一种在多分辨率下进行信号分析的强大工具,能够在降低数据维度的同时有效保留重要的频率信息。通过将特征图分解为低频部分与高频部分,DWT使网络能够保留关键信息并剔除冗余内容。其过程可表示如下

         

    其中,       与        分别表示所分解得到的低频与高频分量;       和        分别表示低通滤波器和高通滤波器。

    通过将DWT集成到CNN架构中,网络能够在特征表示中保持更高的细节保真度与准确性,从而有效提升其故障诊断能力。

    基于所提方法的故障诊断

    4.1 可解释的多尺度提升小波网络

    传统卷积神经网络(CNN)中的特征提取和决策过程完全未知,难以满足工业实际需求。为此,本节借鉴提升小波技术,设计了一种可解释的多尺度提升小波网络(Multiscale lifting wavelet network,MLW-CNN),以实现对故障信号的全面且可信特征提取。

    4.1.1 多尺度卷积融合层

    采用单一尺寸卷积核的卷积神经网络(CNN)在从原始信号中有效提取特征方面常存在局限。较大的卷积核可能无法准确捕捉局部特征,而较小的卷积核又可能无法覆盖完整的故障周期。因此,设计了一种多尺度卷积融合层,使网络能够在不显著增加计算复杂度的情况下扩展感受野。对于给定的输出位置    ,膨胀卷积可表示为:

       

    其中,     表示输入特征,     表示输出特征,     和      分别为膨胀系数和卷积核。如图1展示,采用尺寸为     、膨胀系数分别为1、3、5、7的卷积核同时提取特征。

       

    图1 多尺度卷积融合层原理示意图

    所得特征映射被拼接,具体计算如下:

       

    其中,             和      是四个卷积,拥有不同的膨胀系数,并且各自处理输入的1/4通道。在每次卷积后,都应用批量归一化和ReLU激活函数,以防止梯度消失问题,保证多尺度特征的鲁棒提取。借助该多尺度卷积融合层,网络可以有效捕获局部与全局特征,从而提升故障诊断的准确度。

    4.1.2 提升小波层

    在传统CNN架构中,池化层通常用于下采样卷积提取的特征,但这会带来频率混淆和信息损失,降低网络性能。为解决这些问题,学者们尝试用离散小波变换(DWT)替代传统池化层。尽管DWT取得良好效果,但由于小波基是人工预定义的,限制了其对不同故障数据的泛化能力,因此提出了提升小波。

    本研究受提升小波启发,设计了一种可解释的提升小波层,通过梯度训练获得层的最优参数,而非采用固定小波基分解特征图的低频和高频成分。首先,信号通过分离操作被划分为奇数分量    和偶数分量    ,其表示如下:

       

       

       

    鉴于        之间高度相关,采用训练得到的预测器    基于    预测    时,二者的差值能够较好地表征高频部分,具体表达如下:

       

    其中,     表示高频成分,可通过奇分量      与预测结果      的差异得到。接着,     被用于函数      以进一步修正偶分量     。更新后的      对低频成分进行有效逼近,具体表达如下:

       

    其中,可学习的函数      和      均采用图2所示的残差层表示。

     

    图2 改进残差结构原理示意图

    在获得低频和高频成分后,将其进行拼接,以替代CNN中的池化层。该过程可表示如下:

       

    此外,采用正则化损失约束训练过程,以便输入特征能够更好地分解为低频和高频部分,具体过程如下:

       

       

    其中,     和      为用于约束训练过程的两项正则化损失。

    4.1.3 整体框架

    MLW-CNN 的整体结构如图3所示,主要由以下几个关键模块组成:三个多尺度卷积融合层、一个全局平均池化层以及一个分类器。各部分在网络中各司其职。

     

    图3 MLW-CNN 的原理示意图

    多尺度卷积融合层与提升小波层共同实现对故障信号的可解释且全面的特征挖掘;而GAP层与分类器则负责将提取到的特征映射到对应的故障类别维度。注意力层的原理与作用将在下一小节中详细说明。表1展示了MLW-CNN架构中各层的具体设置。

    表1 MLW-CNN 的网络结构

     

    4.2 交互式通道注意力机制

    虽然提升小波能够良好地分解特征并减小其尺寸,但不同于传统DWT中将高频部分直接舍弃,本文将其与低频特征拼接以减少信息丢失。但这种方法也引入了较高的冗余性。为此,引入交互式通道注意力机制(Interactive channel attention mechanism,ICAM),用于从提升小波层的输出中选择出最有助于故障类型识别的关键信息。

    诸如Squeeze-and-Excitation(SE)之类的通道注意力机制能够有效解决这一问题。本文对SE机制进行了改进,以生成更合理的特征权重。研究表明,全局最大池化(GMP)层和全局平均池化层能产生两种不同的特征表示,二者结合有助于生成更合理的特征权重。然而,现有方法通常将这两种池化操作独立使用后再进行拼接或求和。本文设计了一种跨分支加权求和策略,以促进两个不同池化分支的特征表示的进一步融合。具体实现过程如下所示:

       

       

    式中,     为输入特征,     和      为两个分支的输出,     与      是可训练的权重参数。各分支的结果特征映射被送入多层感知机,之后通过Sigmoid函数将两分支输出的加权和映射到[0,1]区间,从而计算通道权重。表达式如下:

       

    其中,     表示 Sigmoid 函数,     是不同通道的权重。此外,引入了残差拼接机制,用于保证模型性能不会下降。具体机制示意如图4所示。

     

    图4 交互式通道注意力机制(ICAM)的基本原理

    4.3 时间-频率对比学习

    在工业实际应用中,训练样本数量通常非常有限,稀疏的故障信号限制了网络的特征挖掘能力,进而降低故障识别的准确性。监督对比学习(SupCon)能够通过增大不同类别样本特征间的距离,并缩小相似样本的距离,有效提升模型性能。不过,已有研究多仅从时间域视角优化样本特征分布,忽视了频率域上的差异。因此,本文提出时频监督对比学习,同时优化样本特征在时域和频域的分布,从小样本故障信号中挖掘更全面的特征。

    数据增强被首先采用以生成对比学习所需的正负样本,显著缓解有限数据引起的过拟合。本文采用加噪声、数据翻转及随机调整幅值等增强方法。随后,将样本送入特征提取器以提取时间域特征    ,频域特征则利用快速傅里叶变换(FFT)来获取:

       

    其中,FFT 表示傅里叶变换算子,     为第      个频域特征。随后,我们将时域特征与频域特征拼接,得到时频特征表示:

       

    通过这种方式,模型可通过计算相似度进行训练:

       

    其中,     代表样本间的相似度度量方法。本文选择余弦相似度作为衡量标准,其特点是非线性、高效计算以及良好鲁棒性。具体计算公式为:

       

    其中,     是第      个时频特征。为在时频特征空间中增大负样本对距离并减小正样本对距离,本文设计了以下时频对比学习损失函数:

       

    其中,     表示与样本      具有相同标签的正样本对,     和      分别代表样本数量和温度系数。为解决对比学习通常仅训练特征提取器的局限性,本文进一步采用交叉熵(CE)损失函数,同时训练特征提取器和分类器,其计算公式如下:

       

    其中,     指交叉熵损失,     与      分别表示模型的预测概率与实际标签。整体损失函数可表达为:

       

    其中,         和      代表时频对比学习损失(    )、低频正则化损失(    )及高频正则化损失(    )的权重。

    4.4 所提方法概述    

    本研究提出了一种适用于有限样本条件下的行星齿轮箱故障诊断的可解释多尺度提升小波对比网络。其流程框架如图5所示,具体步骤如下:

     

    所提方法流程图    

    步骤1:通过传感器在多个位置采集行星齿轮箱振动信号。    

    步骤2:将数据集分为训练集和测试集,并对训练集进行数据增强以支持对比学习。    

    步骤3:设计具有可解释性的提升小波层,并基于该层构建多尺度提升小波网络。    

    步骤4:设计交互式通道注意力机制,以选取提升小波层分解后的重要特征。    

    步骤5:提出时频监督对比损失,协同优化时频域特征分布。    

    步骤6:使用交叉熵损失训练分类器。    

    步骤7:通过测试集验证所提方法的效果。

    5 实验验证

    5.1 案例1:齿轮箱数据1

    5.1.1 数据概述

    本节采用北京交通大学风力发电机传动系统试验台的行星齿轮箱数据集(WT-Planetary Gearbox Dataset),用于验证所提方法的优越性。表2详细介绍了数据集中包含的五种工况:正常工况(NC)、断齿(BT)、磨损齿(WT)、裂纹齿(CT)及缺齿(MT)。训练集与测试集的划分情况亦如表2所示,得到三个不同样本比例的小样本数据集。

    案例1数据集具体信息

         

    数据采样频率为48 kHz,实验装置及各工况齿轮状态如图6所示,齿轮箱信号的时域波形展示于图7

               

    6 (a) 试验台整体示意图;(b) 齿轮箱五种状态类别示意图

               

    齿轮箱信号时域波形图

    5.1.2 对比结果及分析

    为了系统性地验证所提方法的性能,进行了广泛的对比试验与分析。本文将所提出的架构与五种具备可解释性的模型进行对比,包括融合离散小波变换的 MMA-CNN,利用双重注意力机制解释决策依据的 MA1DCNN,以及嵌入三种连续小波卷积核的多尺度网络 Mexhat-Inception、Morlet-Inception 和 Laplace-Inception。此外,还将先进的多尺度 CNN 模型 MAFEN 作为基线参考。所有方法均以交叉熵作为损失函数,训练轮次均为100。参数λη 和 μ 分别设定为0.005、0.00015和0.001。为降低实验波动,重复进行了10次实验。

    表3及图8综合展示了三组小样本数据集在不同样本数量下的诊断准确率。显而易见,随着训练样本数量的降低,各模型准确率均呈现明显下滑趋势。特别是当训练样本数量缩减到8个时,MAFEN的识别率仅为75.48%。相比之下,六种具有可解释性的架构表现出较大提升,MLW-CNN、MWA-CNN、MA1DCNN、Mexhat-Inception、Morlet-Inception和 Laplace-Inception的识别率分别为92.68%、90.96%、71.44%、62.48%、62.96%和63.16%。

    各对比方法在故障数据集上的诊断准确率

     
     

    不同对比方法的诊断准确率比较    

    这一显著的性能差异充分体现了MLW-CNN架构的优越性。其高准确率和稳定性主要源自于MLW-CNN中多尺度卷积对多尺度特征的有效挖掘,以及提升小波层从频率域对特征的分解与融合。基于此,交互式通道注意力机制(ICAM)通过生成合理的特征权重,优化提升小波层输出,有效提升了网络的整体性能。

    9展示了在使用16个训练样本情况下,若干准确率最高的方法的混淆矩阵。显著的是,尽管MWA-CNNLaplace-Inception的准确率低于MLW-CNN,但它们在识别某些特定故障状态时表现不佳。相反,MLW-CNN在准确识别大多数故障类别方面表现优异。结合时间频率监督对比学习(TF-SupCon)后,MLW-CNN在裂纹齿(CT)和磨损齿(MWT)故障的识别率达到了100%

     

    诊断方法对应的混淆矩阵    

    此外,图10展示了采用t-SNE技术对数据集2中若干模型学习特征的可视化结果。显然,本方法有效地增强了不同类别样本之间的区分度,同时保持了同类别样本的紧密聚集,充分体现了本方法在提取各类数据判别特征方面的能力。

     

    10 基于t-SNE的特征提取可视化    

    接下来,对MLW-CNN的可解释性进行进一步分析。Grad-CAM++是一种通过可视化网络梯度来解释深度网络的工具。本节利用Grad-CAM++技术对各注意力层的梯度进行可视化与分析,结果如图11所示。不同特征的权重值以颜色表现,颜色越偏红代表权重值越大,表征该特征的重要性。可以观察到,网络能够有效捕捉原始信号中最能反映故障特征的冲击信号,且随着网络层数的加深,对脉冲的捕捉更加精准,充分说明网络已充分学习了原始信号中的故障特征。

     

    11 基于Grad-CAM++技术的特征可视化分析

    此外,图12展示了注意力权重的可视化分析。图左侧为提升小波层分解出的低频特征权重,右侧为高频特征权重。可以明显看出,交互通道注意力机制(ICAM)主要保留了低频特征部分,并辅以少量高频特征,以实现故障特征的全面挖掘。随着网络层数的增加,低频部分的权重显著提升,进一步验证了ICAM在特征选择和过滤中的作用。

     

    12 交互通道注意力机制(ICAM)权重的可视化    

    5.2 案例2:齿轮箱数据2    

    5.2.1 数据说明    

    本节采用齿轮箱数据集2对所提方法进行验证。实验采样频率为20 kHz,故障模拟试验台见图13所示。该实验设置了六种行星齿轮箱工况,包括正常、点蚀、裂纹以及三种磨损程度,具体如图14所示。每个样本由1024个采样点构成。齿轮箱的时域波形如图15所示。本文方法在三个小样本数据集上的性能与其他多种方法进行了对比,具体信息详见表4    

     

    13 行星齿轮箱故障模拟试验台    

     

    14 五种故障齿轮类型示意图

     

    15 齿轮箱信号时域信号波形

    案例2数据集具体信息    

     

    5.2.2 对比结果分析    

    各方法参数配置与上一节一致。表5和图16展示了不同模型在三个不同样本比例的小样本数据集上的诊断表现。MLW-CNN分别达到98.81%94.65%89.63%的最高准确率,明显优于其它方法。结合时间-频率监督对比学习(TF-SupCon)后,识别准确率进一步提升,彰显了本方法的优势及实际应用潜力。

    对比方法在故障数据集上的诊断准确率

     
     

    16 不同对比方法的诊断准确率比较    

    图17为准确率最高方法的混淆矩阵。结果显示,除齿面点蚀(Pitting tooth,PT)类别外,本方法在所有故障类别中均表现最佳。特别是严重磨损齿(Severely wear teeth,SWT)类别,各方法表现普遍较弱,而本方法是唯一超过90%的方案。这可能归因于SWT与齿断裂(Cracked tooth,CT)特征相似,导致网络在样本有限时难以有效区分。

         

    17 诊断方法对应的混淆矩阵

    18利用t-SNE对数据集2中各方法提取的特征进行可视化。结果显示,MWA-CNNLaplace-Inception部分类别的特征存在重叠,而本方法能显著拉开各类别间距离,同时保证同类样本紧密聚合,体现了良好的判别能力及清晰的决策边界。

                 
       

    18 基于t-SNE的特征提取可视化

    19和图20分别展示注意力层的梯度及权重可视化。与前述实验一致,梯度图中的亮区与原始信号冲击脉冲高度吻合,验证了网络的可解释性。且随着网络层级增加,低频特征的注意力权重显著增强,进一步证明了本方法在不同数据集上的泛化可解释能力。    

     

    19 基于Grad-CAM++技术的特征可视化分析    

     

    20 交互通道注意力机制(ICAM)权重的可视化


    6 结论

    针对小样本条件下实现可解释故障识别的需求,本文提出了一种多尺度提升小波对比网络模型。该模型首先构建了具备可解释性的多尺度小波结构,实现了对故障信号深层次且可靠的特征提取;其次,融合交互式通道注意力机制,有效筛选关键频率特征,进一步增强了小波分解层的可解释性;最后,设计了时频监督对比损失函数,以提升模型在小样本环境下对时频联合特征的学习能力。模型的可解释性通过梯度可视化(Grad-CAM++)与注意力权重分析等手段得到了直观验证在今后的研究中,本文将尝试引入稀疏表示、DCT(离散余弦变换)、STFT(短时傅里叶变换)等先进信号处理方法,与深度模型融合,以解决机械设备在非平稳运行、频繁变负载、强噪声干扰等实际工况下的诊断问题,从而提升故障识别的准确性与工程可靠性。
     

    编辑:Jin
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除

    来源:故障诊断与python学习
    ACTMechanicalSystem振动断裂非线性航空海洋裂纹电机传动多尺度控制人工智能无人机
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-07-05
    最近编辑:17小时前
    故障诊断与python学习
    硕士 签名征集中
    获赞 79粉丝 117文章 213课程 0
    点赞
    收藏
    作者推荐

    顶刊论文学习 | 一种用于旋转机械故障诊断的可跟踪多域协同生成对抗网络(上)

    本期给大家推荐一篇信号处理顶刊MSSP论文:一种用于旋转机械故障诊断的可跟踪多域协同生成对抗网络(上)。本论文提出的可追踪的多领域协作生成对抗网络(TMCGAN),以多领域协同对抗策略、并行频率损失和流跟踪因子三大创新设计,打破传统生成对抗网络的局限性,实现全局可解释生成与可信分类。不仅构建高效对抗训练闭环,更通过实时跟踪反馈揭开模型决策 “黑箱”。两项实际案例验证其卓越诊断性能与可信度,为旋转机械故障诊断研究与应用开辟新路径,值得领域内研究者与从业者深入研读。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:A trackable multi-domain collaborative generative adversarial network for rotating machinery fault diagnosis论文期刊:Mechanical Systems and Signal Processing论文日期:2024年论文链接:https://doi.org/10.1016/j.ymssp.2024.111950作者:Xin Wang, Hongkai Jiang *, Mingzhe Mu, Yutong Dong机构:School of Civil Aviation, Northwestern Polytechnical University, 710072 Xi’an, China通讯作者邮箱: jianghk@nwpu.edu.cn作者简介:姜洪开,男,1972年生,博士,西北工业大学教授/博导。西安交通大学仪器科学与技术专业博士学位。2006年5月进入西北工业大学航空宇航科学与技术博士后流动站从事博士后研究工作,并留校任教。主持航天科技创新基金、中国博士后科学基金等国家和省部级基金项目4项。参加国家973子课题项目1项、国家自然科学基金重点项目1项、国家自然科学基金面上项目2项、国家863高技术研究发展计划项目1项。(来源百度百科)目录摘要1 引言2 生成对抗网络3 所提出的方法 3.1 多域协同对抗策略3.2 频率同步丢失3.3 流跟踪因子3.4 所提方法的流程(以上标记章节为本文内容)4 案例一:高速航空轴承数据集4.1 数据集描述4.2 故障诊断的实验验证4.3 生成数据的可信度分析5 案例二:电力机车轴承数据集5.1 数据集描述5.2 故障诊断的实验验证5.3 生成数据的可信度分析5.4 内部工作机制可信度分析6 结论摘要获取足够的平衡数据在实际旋转机械故障诊断任务中颇具挑战。准确地从不平衡数据中诊断故障是一个紧迫的实际问题。生成对抗网络已成为解决这一问题的主流方法。然而,其复杂的训练机制和不透明的架构引发了信任危机,导致用户无法完全信任输出结果。因此,提出了一种可追踪的多领域协作生成对抗网络(TMCGAN)用于旋转机械故障诊断。TMCGAN的核心贡献在于实现全局可解释生成和可信分类,这包括三个具体方面。首先,构建了多领域协同对抗策略,依次学习来自不同领域的信号的关键特征信息,从而实现多领域协同能源供应的全面训练。其次,设计了并行频率损失,以整合多维频率细节信息,丰富反馈,形成更高效的对抗训练闭环。最后,开发了流跟踪因子,阐明内部工作机制,提供实时跟踪反馈,解释底层决策原理,从而提高可解释性。两个案例研究表明,由TMCGAN赋能的分类器在旋转机械故障诊断中表现出色,同时保持高度可信。1 介绍随着物联网技术的快速发展,工业中机械设备的健康管理正朝着高智能和高可靠性方向发展[1,2]。然而,在重载、高速等极端操作条件下,关键机械部件长期使用时发生故障在所难免。这会严重影响旋转机械的性能[3]。因此,对关键机械部件进行精确诊断的重要性不容小觑[4]。传统的机械故障诊断通常需要大量的经验知识,然后使用相关的方法进行分析以得出诊断结果[5,6]。鉴于人工智能技术的迅速发展,研究人员最近在机械部件健康状态评估的背景下应用了深度学习[7-9]。为了训练深度模型并提高其精确诊断故障的能力,需要一个包含标记的良好平衡的数据集。遗憾的是,由于设备运行的安全要求较高,目前缺乏用于机械故障诊断[10-12]的故障数据。与稀疏故障数据相比,正常数据造成了显著的不平衡,影响了深度模型的诊断。因此,解决这种不平衡对于准确诊断至关重要[13,14]。为了诊断故障,已经进行了大量关于不平衡的研究。Chawla等人[15]通过提出一种过采样方法增强了数据集。Ramentol等人[16]在此基础上建立了粗糙集理论,通过减少不一致性来提高性能。Gao等人[17]通过为使用过采样方法的辅助分类器分配权重来平衡数据集。为了应对非线性问题并更有效地解决不平衡问题,Mathew等人[18]提出了核加权以改进过采样。Mohammed等人[19]设计了模糊C均值中心化SMOTE来处理样本不平衡问题。Zhang等人[20]开发了一种实例加权SMOTE算法,在类别不平衡条件下提高了分类准确性。当数据不平衡时,上述技术可以在一定程度上改善诊断[21]。由于特征提取不足,大多数方法只能产生少量高质量的数据,这使得平衡数据集难以获得,并且难以实现有效的诊断[22-24]。生成对抗网络(GAN)能够提取数据的深层特征,可以生成大量与原始数据非常相似的数据[25]。GAN是由Goodfellow等人通过结合生成器和判别器提出的,它根据目标数据的特征生成数据[26]。然而,对抗网络训练不稳定,这限制了它们捕捉新特征的能力,甚至会导致梯度崩溃[27,28]。在这个领域,许多学者进行了大量的研究。网络拓扑和损失函数是改进GAN网络的两个主要方面。为了提高从网络数据中提取特征的效率,Radford等人开发了具有深度卷积架构的GAN,以增强其网络结构[29]。Arjovsky等人。[30]使用Wasserstein距离修改GAN损失函数以解决梯度崩溃问题。Gulrajani等人[31]改进了梯度惩罚,减少了因梯度变化引起的不稳定。许多研究人员利用了GAN的强大数据生成能力。这些模型已成功应用于设备故障诊断和状态预测。He等人[32]引入了一个带有辅助分类器的GAN,提高了设备磨损预测的准确性。Liu等人[33]开发了一种小波胶囊GAN,可以有效应用于机械故障诊断。Ren等人[25]设计了由子推理训练策略增强的GAN,有效提升了诊断效果。由于其优越的生成效果,GAN已被广泛使用,但客观上存在可信危机。用户无法完全信任GAN的输出,因为其架构不透明且训练方法复杂[34]。随着可解释深度学习的发展,用户将能够理解深度模型的内部决策和行为,并逐步提高模型的透明度。Jiang等人[35]设计了一个小波核特征提取层作为第一层以实现可解释性。Jiang等人[36]提出了一种基于信号分析的多层小波卷积网络,以提高可解释性能。随着生成对抗网络在实际应用中的广泛应用,可解释生成对抗网络的研究变得越来越流行。Dong等人[37]开发了嵌入流形空间的生成对抗网络,利用受控向量实现可解释生成。Ma等人[38]开创了稀疏预训练GAN,以实现特征的可解释表示。Wang等人在[39]中引入了卷积注意力机制到胶囊GAN的介绍中,通过分割注意力焦点来提高模型的可解释性。尽管可解释的生成对抗网络(GANs)近年来取得了显著进展,但仍面临诸多挑战。首先,目前可解释领域的范围相对有限。随着领域信息的增加,信号特征将更加全面;当多个领域的可解释协同效应得以实现时,将带来显著优势。其次,从方法论的角度来看,当前的方法强调注意力机制和信号分析。这两种力量是分散的,无法汇聚成一个整体。最终,在模型本身方面,可解释性主要局限于局部。无论是对输入或预处理层的单层可解释改进,还是单个内部模块中的可解释嵌入,其在全局可解释性的贡献都是有限的。为了解决上述问题,本研究提出了一种可追踪的多域协同生成对抗网络(TMCGAN),用于数据增强,使分类器能够在数据不平衡的情况下实现智能故障诊断。本研究的主要贡献如下:(1)多域协同对抗策略旨在从多个领域视角捕捉信号的关键特征信息。网络拓扑结构在空间、频率和时频域中有序排列。创新地构建跨域对抗模式,共同激发模型训练。(2)并行频率损失旨在引入多维频率细节信息。频率反馈不仅强调生成数据本身的频率变化,还强调随时间变化的频率特征。因此,反馈回路得到增强,对抗训练闭环变得更加有效。(3)流跟踪因子旨在解释GAN的内部工作机制。它贯穿整个框架系统,随着数据流动。模型训练过程中兴趣点的变化被明确指出。每个样本都有详细说明,重点关注特定架构。这样,可以解释相关决策原因,从而产生可信的结果。以下部分构成了剩余的内容。基本概念在第2节中得到了详尽解释。所提模型的详细描述见第3节。多方面的案例分析分别展示于第4节和第5节。整个研究的展望与总结则在第6节中提供。2 生成对抗网络Goodfellow等人[26]在2014年创建了GAN,受博弈论的启发,其结构安排包括生成器(用G表示)和判别器(用D表示)。图1显示了GAN的基本结构。 和 进行竞争,以超越彼此的能力。 的目标是有效地从原始样本中捕捉关键特征并复 制它们。最初,在训练开始前建立了变量 。然后, 学习真实数据的分布和属性,从诱导的随机噪声中采样 。这些合成样本与原始样本一起呈现给 , 随后学习识别其复杂特征。通过 和 的迭代训练,当 无法再区分假样本和真样本时,过程结束,表明达到了纳什均衡状态。训练的目标在公式(1)中明确指出: 其中训练目标函数用 表示,实际样本用 表示,噪声向量用 表示,先验分布用 表示,真实样本分布用 表示。对于 ,训练目标是通过增加损失函数来增强两个样本之间的对数似然。同样地, 的目标是尽量减小公式(1)中的第二项,以避免判别器的准确识别。 图1 基本GAN框架3 所提出的方案3.1 多域协同对抗策略在生成对抗网络领域,先前的研究通常会创建专注于一两个领域特征信息价值的网络。另一方面,多领域训练由于信号背后特征的多样性,可以从多个角度挖掘信号的关键特性。因此,GANs可以生成更好的结果。为了同时利用空间域、时频域和频率域来增强GAN,构建了多领域协同对抗策略。图2展示了多领域协同对抗过程。对抗训练以有组织的方式接收域信息,而对信息协同的彻底训练使GAN能够更准确地提取各种数据类型的特征信息。 图2 多域协同对抗策略在对抗网络中,空间注意力机制旨在从数据中提取空间域信息。它跳过了空间注意力中的常规全局池化。全局池化分为两个过程来编码一维特征。给定输入 ,网络输入是两位的。 的高度为 ,宽度为 ,通道数为 。使用两个空间范围的池化核来编码每个通道在水平和垂直坐标上的特征。公式(2)显示了在高度 、通道 处产生的输出 。 同样,通道 中宽度为 的输出如公式(3)所示: 通过在两个方向上聚合特征,可以生成两对方向感知特征图,在单个空间方向上,这代表了数据的长程依赖关系,同时在另一个空间方向上也保留了精确的位置数据。将前两次变换的结果合并后,输入到共享卷积变换函数H1中,以实现对两个空间域数据的利用。根据公式(4): 其中 表示非线性激活函数, 是一个1×1卷积层, 符号代表空间维度连接操作, 是中间特征图,它在水平和垂直轴上封装了空间细节。中间特征图表示为 ,其中 表示通道减少率。具体来说, 在空间维度上被分割成两个不同的张量: 和 。为了将 和 转换为与输入具有相同通道数的张量,使用 和 。在这种情况下, 和 均为1×1的卷积层。因此,最终结果为: 其中σ是 型函数,是通道的相同特征张量。两个空间方向张量的乘积即为空间注意力机制,它通过捕捉输入信号的空间特征来指导生成器更高效地训练。如公式(7)和公式(8)所示: 其中 表示融合空间注意力, 表示输入数据, 表示输出数据。在考虑信道信息的同时,空间注意力编码输入信号在水平和垂直方向上的空间信息。通过在两个不同的方向上映射注意力,网络可以更好地识别空间域中的显著特征,并更精确地定位相关信息。对抗网络设计用于利用连续小波来提取数据的时间-频率特性。通过使用小波对信号进行低频和高频部分的分割,网络可以更轻松地获取信号的时间-频率特性。一维振动信号在进入网络前被转换成二维数据,以便通过二维卷积技术提取一组有限的数据特征。网络中放置了多个连续的二维离散小波,并使用具有可分离滤波器的二维Mallat算法进行小波变换。这里选用的波形为haar,通过二维离散小波变换分解二维特征。列过滤最初以列为导向进行,随后立即进行降采样。接下来,前一阶段的结果再次被降采样,并在行方向上进行列过滤。完成所有列过滤后,得到四个不同的频带——一个近似成分和三个详细成分(水平、垂直、对角)。最终,每个结果都被合并。以下是相应的变换方程: 其中 是二维尺度函数,而 、 和 分别是沿水平边、垂直边及对角线方向变化的二维小波函数。通过缩放和平移,实现了信号的多尺度细化。在对抗网络中引入的小波域,使得时间频率的局部研究成为可能。这不仅能够实现低频段的分割,还能进行高频段的时间分割,从而展示了低频和高频段的重要性。小波之所以得名,是因为它能够根据网络关注的点,对不同的频率成分给予不同程度的重视。利用小波加性容量,对抗网络自动适应时频信号,获得更高的细节感知。本小节讨论了空间和时频域的设计,而频率域的介绍则在接下来关于损失函数设计的小节中进行。多个域同时作用时,它们之间的适应性成为一大挑战。为了减少跨域干扰,该方法采用了深度卷积生成对抗网络(GAN)架构,其中空间域由生成器负责,时频域由判别器负责。此外,损失计算也包括了频率域。构建了一个多域协作对抗策略,形成了一个在空间、频率和时频域之间有序的网络结构。通过整合多个域的信息,增强了生成对抗网络(GAN)的能力,显著提升了其综合性能。3.2.频率同步丢失在前一节中创建的GAN中的生成器专注于空间域信息,而判别器则致力于捕捉时频域信息。换句话说,前者通过分析信号的空间域特征来生成新的信号。后者通过识别生成数据与原始数据之间的时间-频率信息差异,来调整判断视角,从而确定数据的真伪。众所周知,训练过程中GAN损失反馈同样重要。因此,设计了并行频率损失(PFL),旨在将损失集中在频率上。这种损失函数与数据频率变化的信息协同工作,贯穿整个判别器网络层,形成一个频率增强的反馈机制,持续为GAN训练提供多维频率细节信息。PFL的并行特性体现在对数据点的频率变化信息和提取的连续时频特征同时进行考虑,图3具体说明了PFL的实现过程。 图3 并联频率损耗的计算过程对数据点频率信息的关注基于欧拉公式。公式(13)展示了将欧拉公式应用于二维训练数据形式的离散傅里叶变换的结果。此外,公式(14)是一个补充说明。 其中a和b表示数据在二维空间域中的位置, 和 表示数据点在二维频率域中的位置,而 和 表示数据的长度和宽度。此时,进入频域,数据的频率特征显现出来。根据条件公式(13),可以使用实部和虚部计算来确定精确的幅度和相位信息。公式(15)描述了如何利用生成的数据频率点 和量化后的实际数据频率点 来定义单个点的频率间隔。 二维对象上的每个点都用于实现全面考虑,每个点根据其在特定频率下的表现获得不同程度的关注。最后,如公式(16)所示,计算数据中每个离散点的频率损失。 其中β是灵敏度因子,用于控制频率损失影响的程度。判别网络中捕捉了并发的时间-频率特征问题。每一层的卷积都记录了时间-频率信息,这些信息通过连续频率特征逐个案例地考虑。生成的数据和原始数据是该角色的两个目标。判别器采用了三层卷积结构。根据公式(17)和公式(18)的研究,从判别器的每一层输出的生成数据与匹配的原始数据频率特征 和T(r_i)一起依次输出。 其中, 表示卷积层在处理真实数据时的第 层输出,而 则代表该层在处理原始数据时的的第 层输出。为了明确区分后续输出,使用了差值的2-范数平方。接下来的阶段涉及逐层求和,同时考虑常频反馈的影响。如公式(19)所示: 其中α表示控制影响程度的灵敏度因子, 表示目标输出的数量,在本网络中取为3。PFL包含离散的频域特征和连续的时间-频率特征。每个离散点的数据之间的频率差异反映在离散的频域特征中。每个连续层之间随时间变化的数据频率反映在连续的时间-频率特征中。在公式(20)中展示了PFL。 两个灵敏度参数, 和 ,根据需要进行调整,以提高模型的适应性。两者在训练过程中同时反馈给生成器,共同指导模型训练。PFL扩展了模型训练的关注领域,将重点转向离散点频率特征及随时间变化的频率信息。此外,多维频率信息增强了损失反馈循环,构建了对抗训练中更为高效的闭环系统。 图4 流量跟踪因子工作流程图3.3.流跟踪因子学术界和工业界一直受到主流GAN设计低可解释性的困扰。用户由于其复杂的结构和不透明的决策过程,难以完全信任GAN的输出。为了阐明GAN的内部运作机制,在该网络架构中开发了流跟踪因子(STF)。流跟踪因子的核心是全局跟踪链的设计。包含流跟踪因子的框架系统包括GAN的生成器、判别器和损失反馈。它实时提供GAN的内部决策,同时跟踪训练数据流。因此,内部训练变得透明,显著提高了可信度。训练的目标样本由流跟踪因子进行,对于多域协同对抗训练,跟踪因子在训练开始时吸收样本点,经过一段时间的训练后,跟踪因子将跟踪结果注入到起始位置。训练的内部决策信息是在回到起点时获得的。过程如图4所示。根据生成器、判别器和损失反馈,对抗训练分为三个阶段。跟踪因子跟踪数据流的移动,每个迭代步骤的每个阶段都经历整个过程。具体来说,数据在生成过程开始时进入生成器,该生成器模仿数据特征以进行数据生成。开发的生成器主要强调空间域信息。当数据进入空间域时,流跟踪因子被应用于数据。如公式(21)和公式(22)所示。 其中, 表示数据的水平空间特征, 代表数据的垂直空间特征, 是融合的空间域特征, 显示空间域输入, 代表空间域跟踪因子。当存在流跟踪组件时,生成器显然会集中于数据中的每个数据点。生成器明确表示在每次迭代中都会关注特定的数据区域。因此,关于生成器训练的决策是透明的。数据生成后,判别器开始参与任务。判别器同时处理生成的数据和原始数据,进行区分。判别器从时频域提取信息,将小波分布在参与区分过程的每一层中。小波用于逐层分解特征。公式(23)和公式(24)展示了匹配尺度 和平移基函数 。 其中 和 表示小波域前的原始位置信息, 和 表示小波域中的数据位置信息, 是表示小波阶数的频域参数, 表示垂直方向, 表示水平方向, 表示对角线方向。在 和 的指导下,流跟踪因子参与数据的时间-频率域变换。用户可以利用流跟踪元素来确定每个判别层对低频和三个不同高频方向的敏感度。这可以提供关于判别点的兴趣点的见解,如公式(25)和公式(26)所指出的。 其中 表示小波域中的输入数据, 表示小波域前的数据长度值, 表示小波域前的数据宽度值, 表示低频跟踪因子, 表示高频跟踪因子。在判别器中,流跟踪因子对于信号低频和高频部分的细分是完全可逆的。如公式(27)所示。 由于深度卷积的设计以及频率聚焦,判别过程整体上是可逆的,也就是说,该过程是透明和可解释的,并且在阐明判别器的兴趣区域的同时提供了理论上的支持。判别器的工作紧接着是损失函数的计算,该函数包含了流跟踪组件。为了实现同时覆盖,流跟踪因子被分成两半,并同时计算损失。流式跟踪因子允许在连续的时间-频率损失中对生成数据和原始数据之间的时频判别差异进行逐层量化。如公式(28)和公式(29)所示。 其中 表示生成的时间-频率特征, 表示原始的时间-频率特征, 表示对应层的时间-频率特征差异, 表示连续时间-频率上的跟踪因子。通过这样做,用户可以指示每个数据点的输出趋势。足够小的量化值意味着出色的生成质量。这与区分结果一致,并通过提供合理的解释来增强结果的可信度。同时,流跟踪因子感知离散频率域损失计算。它通过跟踪数据流入频率域的过程,指示后续训练迭代的重点区域。根据公式(30)和公式(31)。 其中, 表示原始数据的频率点, 表示生成数据的频率点,H表示数据之间的频率差,α表示尺度缩放因子, 是离散频域上的跟踪因子。损失计算中的跟踪因子使用户可以在下一次迭代中指定模型优化目标的选择,明确了迭代模型优化机制。通过开发的流跟踪因子,实现了GAN的透明度。用户可以了解生成器、判别器和损失反馈的内部运作机制。首先,用户可以理解每个架构在不同样本和阶段中的独特关注点,以及这些选择背后的理由。其次,用户可以看到每个样本如何进入GAN,以及模型如何全面理解这些样本。失败机制与这些模型问题和优化技术相关联。流跟踪组件为GAN模型的设计提供了一个可解释的范式。实验验证详细说明了具体案例。3.4.所提方法的过程TMCGAN实现故障诊断的流程如图5所示,表1给出了算法中各步骤的操作顺序,关键步骤如下:第一步:传感器采集旋转机械的原始信号。数据标准化后,每个后续的1024个数据点被拆分为一个样本。根据实际工程要求,采用正常数据与故障数据之间10:1的不平衡比,创建不平衡的数据集。第二步:模型输入数据的自重叠处理与变分自编码器的引入相结合,实现数据特征预提取。通过合并处理后的特征,形成多域协同对抗策略,完成从原始数据中学习特征和生成数据的任务。训练过程中,流跟踪因子实时记录模型的内部信息,以便进行训练。第三步:生成的高质量数据用于增强不平衡数据集中的少数类故障数据,这有助于构建平衡的数据集,并将训练集和测试集作为分类器的输入。通过使用分类器进行故障诊断的实验,验证了TMCGAN在不同场景下能够生成高质量数据,并能产生准确的故障诊断结果。图5给出了TMCGAN的具体架构,生成器的三层二维卷积核大小分别为3、5和5,步长均为2。此外,对于判别器,三层二维卷积的内核大小均为5,步长分别设为1、1和2。TMCGAN的其他关键参数详见图3、案例的第一段和表4。 图5:所提方法实现的故障诊断过程表1 TMCGAN的算法步骤 编辑:陈莹洁校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、王金、赵诚,肖鑫鑫该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈