论文题目:
AMCW-DFFNSA: An interpretable deep feature fusion network for noise-robust machinery fault diagnosis
论文期刊:Knowledge-Based Systems
论文日期:2024年10月
论文链接:
https://www.sciencedirect.com/science/article/pii/S095070512400995X?via%3Dihub
作者:Yan Han (a,b), Sipeng Lv (a), Qingqing Huang (a,b), Yan Zhang (c)
机构:
a: The Key Laboratory of Industrial Internet of Things and Networked Control, Ministry of Education, Chongqing University of Posts and Telecommunications, Chongqing 400065, China;
b: The Institute of Industrial Internet, Chongqing University of Posts and Telecommunications, Chongqing 401120, China;
c: China-Korea Belt and Road Joint Laboratory on Industrial Internet of Things, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
团队带头人简介:黄庆卿教授,重庆邮电大学自动化学院/工业互联网学院教授,博士生导师,重庆邮电大学工业互联网研究院副院长,澳大利亚University of Wollongong(伍伦贡大学)博士后,重庆市留学归国人员创新创业项目支持人选,中国自动化学会边缘计算专委会、制造技术专业委员会委员,全国工业过程测量控制和自动化标准化技术委员会TC124 SC4委员,ISO/IEC JTC1 SC41物联网及数字孪生国际标准委员会专家,NAMUR(国际过程自动化用户协会)中国智能制造工作组专家。主要从事工业智能、边缘计算、工业物联网领域的研究工作,作为项目/课题负责人、项目骨干,承担国家自然科学基金、国家重点研发计划等项目。(来源: https://faculty.cqupt.edu.cn/huangqingqing/zh_CN/index.htm)
1 摘要
2 引言
3 理论基础
3.1 多分辨率分析与小波分解
3.2 一维离散余弦变换
3.3 多头自注意力机制
4 所提方法
4.1 AMCW-DFFNSA 框架
4.2 融合小波嵌入的注意力引导多尺度卷积模块
4.3 基于自注意力机制的深度特征融合网络
4.4 基于 AMCW-DFFNSA 的可解释故障诊断流程图
5 实验验证
5.2 基于两个测试平台数据集的对比实验
5.3 基于风力发电齿轮箱数据集的对比实验
5.4 消融实验
6 模型可解释性分析
6.2 所学习特征的可解释性
7 结论
深度学习可应用于机械故障诊断,从而保障机械系统的安全运行。然而,深度学习方法在可解释性与抗噪性方面的不足,一直是学术界与工业界面临的共同挑战。为应对这些问题,本文提出了一种可解释的深度特征融合网络,称为 AMCW-DFFNSA。首先,该网络融合了离散小波变换,将特征学习空间扩展至小波域,从而更好地学习在小波域中具有可区分性的故障特征。其次,提出了一种基于余弦增强的通道注意力机制,用于学习并突出有价值的可解释特征,同时滤除无关信息。然后,提出了一种基于自注意力机制的深度特征融合网络(DFFNSA),该网络探讨了自注意力与卷积之间更紧密的联系,以实现全局与局部特征的更深层融合。大量实验在两个测试平台数据集和一个实际风力发电机齿轮箱数据集上进行了缜密验证。实验结果表明,所提出的方法在可解释性和抗噪性方面优于对比故障诊断模型。
关键词:故障诊断,可解释性,深度特征融合,小波变换,AMCW-DFFNSA
随着机械设备结构与自动化功能的日益复杂,滚动轴承、齿轮箱等关键机械部件在运行过程中不可避免地会发生裂纹、疲劳损伤、剥落、变形等多种类型的故障 [1,2]。若未能及时检测与修复故障部件,机械系统可能遭受严重损害。因此,监测关键部件的健康状态对于保障机械系统的稳定与可靠运行具有重要意义 [3,4]。
近年来,深度学习因其强大的特征提取与分类能力,在故障诊断领域受到广泛关注 [5,6]。多种类型的深度神经网络已被应用于故障诊断,包括循环神经网络(RNN)[7]、卷积神经网络(CNN)[8–10]、深度置信网络(DBN)[11] 等。在这些神经网络中,基于 CNN 的方法由于其强大的特征映射能力,当前在机械故障诊断中研究最为广泛 [12]。Chen 等人 [13] 开发了一种多尺度 CNN,并结合特征对齐模块以增强其特征融合能力。Tang 等人 [14] 提出了一种引入专用归一化策略的 CNN 框架,用于实现高精度的故障检测。Gao 等人 [15] 针对数据不平衡问题,提出了一种分层训练的卷积网络用于故障诊断。Liu 等人 [16] 构建了一种多任务一维 CNN 网络,将转速和负载识别作为辅助任务,以提升故障诊断性能。基于 CNN 的故障诊断方法在提取信号的局部特征、有效捕捉与故障相关的信息方面表现突出。
然而,当采集信号受到噪声等因素干扰时,振动信号的周期性特征容易被淹没 [17],仅依赖局部特征进行故障信息挖掘将面临准确性不足的问题 [18,19]。基于其自注意力机制卓越的全局信息挖掘能力,Transformer 模型 [20] 受到了广泛关注,并已成功应用于故障诊断领域。Tang 等人 [21] 提出了一种信号嵌入型 Transformer 模型,命名为 Signal-Transformer,该模型通过信号嵌入完成信号分段,以丰富高维空间信息。Wang 等人 [22] 提出了一个多尺度的 TransFusion 模型,利用 Transformer 在捕捉全局依赖关系方面的优势,实现对长期故障信息的深入挖掘。Li 等人 [23] 提出了一种双分支自注意力网络,利用交叉注意力机制在样本之间建立信息关联。尽管 Transformer 能够捕捉信号中的长距离依赖关系,但与基于 CNN 的方法相比,Transformer 模型缺乏归纳偏置能力,因而难以充分利用不同尺度下的局部特征 [24]。
因此,将 CNN 与 Transformer结合,以提取原始信号的局部与全局特征,是一种更具实用性的解决方案。Han 等人 [25] 提出了 Convformer-NSE 框架,通过融合全局与局部信息以提升齿轮箱故障诊断的准确性。Yan 等人 [26] 提出了一种基于可分离卷积与广播式自注意力机制的故障诊断网络 LiConvFormer,具备轻量化与鲁棒性的特点。Fang 等人 [27] 提出了 CLFormer 框架,结合 CNN 与线性自注意力技术,用于解决样本有限条件下的故障诊断问题。尽管上述基于 CNN-Transformer 的方法在一定程度上实现了信号全局与局部特征的挖掘,但仍存在以下不足:
(1)在实际工业应用中,对智能诊断模型的可靠性有较高要求。通过可解释性分析,用户能够理解故障诊断模型“如何学习”以及“学习了什么”。然而,现有基于 CNN-Transformer 的方法普遍缺乏对模型可解释性的研究。
(2)上述CNN-Transformer 模型大多采用串联的结构形式,或通过替换 Transformer 的序列结构将CNN 融合至自注意力机制中,这类结构难以在强噪声环境下充分提取与融合特征,导致诊断性能不足。
基于上述讨论,本文提出了一种用于抗噪故障诊断的可解释深度特征融合网络,称为 AMCW-DFFNSA。首先,通过离散小波变换卷积层(Discrete wavelet transform convolution layer,DWT-CNN)将信号从时域空间映射至小波域空间;利用多尺度卷积层学习信号的多尺度特征,并引入余弦增强通道注意力模块(Cosine-enhanced channel attention module, CECAM)以学习并突出有价值的可解释特征,同时滤除无关信息。其次,提出了一种基于自注意力机制的深度特征融合网络(Deep feature fusion network based on self-attention, DFFNSA),该网络可有效提取全局与局部特征,实现对获得的高维抽象特征的更深层建模与融合。最后,从不同的可视化视角分析了 AMCW-DFFNSA 的可解释性,结果表明该方法能够有效学习关键的可解释特征并抑制无关信息。本研究的主要创新点与贡献如下:
(1)设计了一种融合小波嵌入的注意力引导多尺度卷积模块(AMCW),该模块包含 DWT-CNN、CECAM 和多尺度卷积层,能够自适应地学习并突出信号中的关键振动特征。
(2)为充分融合全局与局部特征,提出了一种基于自注意力机制的深度特征融合网络(DFFNSA),用于挖掘卷积与自注意力机制之间的紧密关联。
(3)基于 AMCW 与 DFFNSA 构建了用于故障诊断的 AMCW-DFFNSA,具有明确的物理可解释性,其特征学习机制可通过可视化分析进行解释。
多分辨率分析最早由 Mallat 提出 [28],它统一了多种正交小波基的构造方法,为实现小波分析算法提供了一种新的途径。Mallat 快速分解算法表示为:
其中,t 表示时间序列编号,g(t) 为输入信号,j 表示分解层数,E 和 F 分别代表小波滤波器; 表示在第 j 层中信号 g(t) 对应的低频分量的小波系数,而 表示信号 g(t) 在第 j 层对应的高频分量的小波系数。
小波分解如图 1 所示。Mallat 算法通过对近似系数连续级联地施加离散小波变换,实现小波分解。最初,对离散序列 进行信号分解,分别通过高通滤波器与低通滤波器处理,经过间隔采样后获得高频分量 和低频分量 。随后选取低频信号分量 ,重复上述步骤,从而实现对输入信号的多分辨率分解。
图1 小波包分解
3.2 一维离散余弦变换
在传统的通道注意力机制中,全局平均池化(GAP)通常仅保留特征中最低频的信息,而舍弃其他频段的信息 [29],这无疑会影响特征提取的质量。因此,本研究引入离散余弦变换(DCT)以替代 GAP;一维离散余弦变换(1D-DCT)的基本函数可表示为:
其中, , 的定义域为 ,取值范围为 。一维离散余弦变换(1D-DCT)函数可重写为:
其中, , 表示一维离散余弦变换(1D-DCT)后的频谱, 为输入信号, 表示输入 的长度。当 时,公式可重写为:
其中, 表示一维离散余弦变换(1D-DCT)的最低频分量。从公式可以看出, 可被视为 1D-DCT 的一个特例。根据上述推导,1D-DCT 的逆变换可表示为:
从公式可以看出, 仅保留最低频分量,而舍弃其余频率成分。这可能导致关键信号频率成分的丢失,进而影响诊断精度。而 能够保留更多信号的特征频率成分,从而有助于提升诊断准确率。
3.3 多头自注意力机制
得益于其出色的注意力计算与分配能力,多头自注意力机制使得 Transformer能够从数据的时间维度中充分挖掘与提取全局特征信息。MSA 的结构如图 2 所示。
图2 多头自注意力机制的架构
首先,输入 通过三个并行的线性变换分支进行线性映射,分别得到查询矩阵 、键矩阵 和值矩阵 。具体计算过程如下:
其中, 、 、 分别表示三条并行线性变换的权重参数矩阵。
随后,对 和 进行矩阵乘法,并将结果除以特征维度 的平方根进行缩放。接着使用 Softmax 函数对其进行归一化,得到注意力权重,再与对应注意力头的 相乘,得到第 个注意力头的最终注意力输出:
其中, 代表第j个注意力头的注意力权重。
最后,多头注意力机制输出的最终注意力分数是H个并行注意力头的连接:
其中 表示MSA的最终输出注意力得分,而Linear则指对结果进行线性映射。
4.1 AMCW-DFFNSA 框架
AMCW-DFFNSA 包含特征提取模块、特征融合模块与输出模块,如图 3 所示。其中,特征提取模块由两个 AMCW 模块组成,每个 AMCW 模块包含一个 DWT-CNN、多尺度卷积层和一个 CECAM。该模块相当于在 CNN 中嵌入了具有可比性的多分辨率分析算法,有助于将基于物理的知识融合进网络中,并能够深入学习与提取输入信号的可解释特征。
图3 AMCW-DFFNSA模型的架构
特征融合模块是 AMCW-DFFNSA 模型的核心部分。该模块首先利用 DFFNSA 进行更深层次的特征提取,以聚合信号关键的全局与局部多尺度特征。通过层归一化稳定特征分布,并结合残差连接与 Dropout 技术,以降低过拟合的风险。此外,在残差连接中引入了两个可学习参数 和 ,以自适应调整不同特征的重要性。随后,输出特征通过前馈网络(Feed Forward layer)进行整合。
4.2 融合小波嵌入的注意力引导多尺度卷积模块
在传统的信号分析方法中,特征识别通常可以通过一些定量指标进行评估,而在深度学习中,由于其“黑箱”特性,这一点较难实现。因此,本节提出了一种融合小波嵌入的注意力引导多尺度卷积模块(AMCW),以学习并突出信号中的关键振动特征。AMCW 的结构如图 4 所示。输入的振动信号首先通过小波变换进行处理,将特征学习空间扩展至小波域;随后,利用多尺度卷积捕捉不同尺度的特征;所提出的余弦增强通道注意力机制则用于自适应加权不同的特征频带:对与故障特征相关的频带赋予较大的权重,而对噪声频带赋予较小的权重,从而有效滤除噪声与无关信息。
图4 AMCW的架构
为了进一步增强模型的可解释性与抗噪能力,在所提出的模型中嵌入了 DWT。通过离散小波分解将时域信号转换到小波域,使卷积网络能够从小波域空间中学习更为全面的特征信息。其计算过程如下所示:
其中, 表示输入特征, 表示对输入特征进行离散小波变换操作, 和 分别表示小波分解后的低频特征与高频特征, 表示将 与 沿通道维度拼接后的输出特征。
此外,设计了一种轻量级多尺度卷积结构,用于整合各通道维度的信息,以捕捉来自不同尺度局部感受野的特征。首先,采用核大小为 3 的跨通道卷积对各通道的特征进行整合,并调整输出通道的维度。其计算过程如下所示:
在该函数中, 表示跨通道卷积操作后的输出, 表示卷积核大小为 3 的卷积权重。随后,将具有不同卷积核尺寸的并行多尺度卷积层作用于 ,其中采用深度可分离卷积替代传统卷积。通过拼接不同尺度卷积输出的方式实现特征的有效融合,从而获得混合特征。其计算过程可表示为:
其中, 表示第 个卷积核大小为 的卷积权重, 表示跨通道卷积的输出, 表示第 个深度卷积的输出。 表示高斯误差线性单元激活函数, 表示批归一化, 表示经过 DWT 和多尺度特征提取后的输出结果。
为了编码不同通道特征的重要性,采用一维离散余弦变换(1D-DCT)替代原先的 GAP 模块,该变换被用于所提出的余弦增强通道注意力模块(CECAM)中,以自适应地引导网络进行特征学习。该模块的结构如图 5 所示。
图5 CECAM模块的架构
首先,将输入特征 沿通道维度划分为 个独立的通道变量,记为 ,其中 , , 为通道数。具体计算如公式所示:
然后,将每个通道特征与离散余弦变换分量逐元素相乘,并按频率从低到高排序;将计算得到的频率通道特征沿通道维度进行堆叠,从而获得一个新的特征张量:
其中, 表示每个通道分量经过 1D-DCT 后得到的频率通道特征; 为最终堆叠后的输出特征向量,可用于后续卷积操作。输出的注意力权重表示为 :
其中, 和 分别表示输出通道数为 和 的卷积操作, 表示 ReLU 激活函数, 表示 Sigmoid 激活函数。通过上述操作,可以获得每个通道的注意力权重。在 CECAM 中引入残差连接以优化网络梯度传播。最终的输出结果可表示为:
其中, 表示 CECAM 的最终输出结果, 为各通道的注意力权重, 为输入特征。
4.3 基于自注意力机制的深度特征融合网络
本文提出了一种基于自注意力机制的深度特征融合网络(DFFNSA),用于融合多尺度特征,涵盖远距离与局部依赖关系。DFFNSA 的整体结构如图 6 所示,其具体特征学习过程主要包括两个阶段。
图6 DFFNSA模块的架构
在第一阶段,使用三个核大小为 1 的卷积操作对输入数据进行处理,以获取丰富的中间特征,从而增强非线性表示能力,避免直接处理长序列数据所带来的低效问题。
在第二阶段,全局多头自注意力分支与局部卷积注意力分支将并行执行。在全局多头自注意力分支中,采用特定大小的滑动窗口扩展输入的中间特征,以进一步提取全局特征与空间信息。随后,将位置信息嵌入到键值 中,从而获得具有更丰富特征的三个参数 、 和 。最后,采用多头自注意力机制对特征信息进行计算。该过程可表示为:
其中,
其中,输入
最终,将两个分支的输出进行融合,并通过两个可调节参数调控它们各自的贡献:
4.4 基于 AMCW-DFFNSA 的可解释故障诊断流程图
AMCW-DFFNSA的详细流程如图 7 所示。该流程主要包括信号采集与预处理、模型构建与训练、故障诊断与可解释性分析。
图7 基于AMCW-DFFNSA的可解释故障诊断流程图
5.1 数据说明
5.1.1 CWRU数据集
CWRU 轴承数据集是由凯斯西储大学轴承数据中心提供的广泛使用的数据集之一。本实验采用从电机驱动端采集的数据,采样频率为 12 kHz,电机负载为 1HP,对应转速为 1772 r/min。该数据集包括健康信号(H)与故障信号,故障部位包括内圈故障(IF)、滚动体故障(BF)和外圈故障(OF),每类故障均对应不同的标签,具体如表 1 所示。
表1 CWRU数据集的健康状况和标签
振动信号通过滑动窗口进行切分,每个样本包含 1024 个采样点,训练集与测试集的比例为 7:3。为了模拟真实机械工作环境,向信号中分别加入 0 dB、-6 dB 和-8 dB 的高斯噪声,以模拟弱噪声、中度噪声和强噪声环境。
5.1.2 DDS 测试平台数据集
第二组故障诊断实验在传动系统诊断模拟平台(DDS)测试台上进行,该平台包括磁力制动器、电机、并联齿轮箱和行星齿轮箱,如图 8 所示。本实验使用变速工况下以 25.6 kHz 采样频率采集的数据作为实验数据集。在采样过程中,电机转速从 20 Hz 增加至38.7 Hz。
图8 DDS测试台主要结构
共选取五种不同的健康状态,每种状态分配一个唯一标签,如表 2 所示。振动信号采用滑动窗口进行切分,每个样本包含 1024 个采样点,训练集与测试集的比例为7:3。为模拟齿轮箱的真实工作环境,分别向信号中添加 0 dB、-4 dB 和-6 dB 的高斯噪声,以模拟弱噪声、中噪声和强噪声环境。
表2 DDS变速箱数据集的健康状态
5.1.3 风力发电齿轮箱数据集
由于风力发电机常年运行在恶劣环境中,极易发生故障。其中,风力发电齿轮箱(WTG)作为核心部件,具有最高的故障率,并带来较高的维护成本。因此,齿轮箱的故障诊断研究对保障风电设备运行至关重要。如图 9 所示为风电齿轮箱,在状态监测过程中以 25.6 kHz 的频率采集振动信号。
图9 风力发电机组示意图
表3 WTG数据集的健康状态
根据故障报告,共选取六种不同的健康状态作为诊断对象,如表 3 所示。针对每种健康状态,采集故障预警前五天的数据作为实验数据,因此每种状态包含5×131,072条振动信号。振动信号采用滑动窗口进行切分,每个样本包含 1024 个采样点。同时,分别向每个样本中添加信噪比分别为 4 dB、0 dB、-2 dB 和-4 dB 的高斯噪声。
5.2 基于两个测试平台数据集的对比实验
将 AMCW-DFFNSA 与六种基于深度学习的端到端故障诊断方法进行了对比。这些方法包括三种基于 CNN-Transformer 的新型故障诊断方法:Convformer-NSE 、LiConvFormer和CLFormer;两种新型可解释故障诊断方法:QCNN 和MWA-CNN;以及一种经典的抗噪故障诊断方法:WDCNN。AMCW-DFFNSA的网络结构与关键参数如表 4 所示。为消除随机性并验证模型的稳定性,每种模型均重复训练五次,训练轮数为 150。其中,d 表示输出维度,h 表示自注意力头的数量,k 为CNN 的卷积核大小,s 表示 CNN 的步长,N 表示健康状态类别数量。
表4 各模块的输入尺寸及参数
图 10 展示了AMCW-DFFNSA 与六种对比方法在两个数据集不同噪声条件下的故障诊断准确率。AMCW-DFFNSA 实现了最高的平均诊断准确率,高达 93.43%。与 WDCNN、CLFormer、QCNN、Convformer-NSE、LiConvFormer和 MWA-CNN 相比,所提方法的平均诊断准确率分别高出 12.57%、8.50%、7.05%、5.49%、4.62%和 2.31%。这表明该方法具有更强的鲁棒性与特征学习能力。
图10 不同信噪比条件下的平均诊断准确率:(a) CWRU 数据集,(b) DDS 数据集
具体来看,与基于 CNN 的 WDCNN 相比,AMCW-DFFNSA在整体诊断准确率上具有显著优势,尤其在中噪声与强噪声条件下,其性能优势更为明显。与三种最新的基于 CNN-Transformer 架构的方法相比,AMCW-DFFNSA取得了最佳结果。在强噪声环境中,AMCW-DFFNSA 的诊断准确率显著高于这三种对比方法,说明所提出的基于自注意力机制的深度特征融合网络(DFFNSA)在强噪声条件下能够更充分、有效地提取全局与局部特征。此外,与两种最新的可解释性方法相比,AMCW-DFFNSA 也取得了最优性能。在DDS 数据集的弱噪声条件下,所提方法的诊断准确率略低于 MWA-CNN。但随着噪声强度的增加,AMCW-DFFNSA的抗噪优势开始显现,在中噪声与强噪声条件下,其诊断准确率显著优于 MWA-CNN。这表明AMCW-DFFNSA 的双阶段特征融合机制在噪声环境下能够更有效地提取与融合关键信息。
为进一步验证各模型的特征提取能力,本文在 DDS 数据集信噪比为0 dB 的条件下,采用 t-SNE 和混淆矩阵对各方法的分类效果进行可视化,如图 11 和图 12 所示。
图11 基于t-SNE的特征可视化
从图 11 可以看出,三种基于 CNN-Transformer 架构的模型以及MWA-CNN 均无法清晰分离 F0 与 F3 故障状态的边界。尽管QCNN 与 WDCNN 在一定程度上能够区分各类状态,但不同健康状态之间容易混淆。相比之下,AMCW-DFFNSA 能够准确识别各类健康状态,聚类结果紧凑,对相近故障状态具有清晰的分类边界。
图 12 进一步展示了各方法的诊断细节。可以看出,所有方法在健康状态的分类准确率均达到了 100%,这一结果与图11 中的可视化结果一致。在 F0 与 F4 状态的分类过程中,AMCW-DFFNSA的准确率达到 100%,而其他对比方法均存在不同程度的分类错误。此外,在 F1 与F4 状态的分类中,所有方法均存在一定的误判情况。造成这一现象的原因可能是齿轮系统在运行过程中,这两类故障所产生的频率分量具有相似特征,在噪声等干扰因素作用下,容易导致模型在特征提取阶段出现混淆,从而产生错误分类。
图12 各方法对应的混淆矩阵
通过对不同模型特征提取与分类细节的对比分析可以看出,所提出的方法在特征提取的鲁棒性与分类效果方面均优于其他对比方法。
5.3 基于风力发电齿轮箱数据集的对比实验
本节仍选取前六种方法作为对比方法。图 13 展示了AMCW-DFFNSA 与六种对比方法在 WTG 数据集不同噪声条件下的诊断准确率。从实验结果可以看出,在未添加高斯噪声的条件下,所有方法的诊断准确率均超过 95%,其中所提出方法的准确率达到 99.21%,高于所有对比方法。
图 13 WTG数据集中每种方法在不同信噪比下的平均诊断准确率
随着噪声水平的增加,各方法的准确率均不同程度下降。然而,所提方法在各噪声水平下依旧保持最高诊断准确率,并且其鲁棒性随着噪声增强更加显著。当信噪比- 4 dB 时,所提方法仍保持88.28% 的诊断准确率,比对比方法中准确率最高的 CLFormer 高出1.63%,比准确率最低的 Convformer-NSE 高出6.36%。该实验结果进一步验证了所提方法相较于其他方法具有更优的抗噪鲁棒性。
图 14 各方法的平均准确率与模型复杂度对比: (a)准确率与参数量关系图; (b)准确率与浮点运算量(FLOPs)关系图
图 14 展示了在无高斯噪声条件下,各方法在 WTG 数据集上的模型复杂度与诊断准确率之间的关系。与注重轻量化设计的 CLFormer 与LiConvFormer 相比,所提方法在保持相对较低模型复杂度的同时,取得了最佳诊断准确率。因此,AMCW-DFFNSA 在工程应用中具有更优的诊断性能,并具备边缘部署的潜力。
5.4 消融实验
所提出的 AMCW-DFFNSA 是一个具有可解释性的故障诊断模型,其中包含两个关键模块:AMCW 和 DFFNSA。为探讨这两个模块对模型性能的影响,在 WTG 数据集上进行了消融实验。消融实验结果如表 5 所示,具体的对比方法说明如下:
1)方法 1:将第一个 AMCW 模块中的 DWT-CNN 替换为宽核卷积,将第二个 AMCW 模块中的 DWT-CNN 替换为卷积核大小为 3 的 CNN,以探索小波嵌入对模型特征提取的影响。
2)方法 2:将 CECAM 中的离散余弦变换(DCT)替换为 GAP,以验证所提出的 CECAM 相较于传统通道注意力机制是否能学习到更丰富的特征。
3)方法 3:将 AMCW 模块中的轻量级多尺度卷积替换为卷积核大小为 3 的 CNN,以探讨多感受野特征对诊断精度的影响。
4)方法 4:将 DFFNSA 替换为传统的多头自注意力机制(MSA),以验证所提出的自注意力网络是否具有更优的全局与局部特征融合能力。
表5 WTG数据集下的消融实验结果
从表 5 可以看出,DWT-CNN 的消融实验对模型诊断准确率影响最为显著。这表明,DWT-CNN 通过DWT 将信号从时域映射到小波域,更有助于模型对特征的全面提取与学习。其次,与传统的 MSA 机制相比,DFFNSA模块对模型性能也具有较大影响。该模块能够建立对局部特征的必要依赖,帮助模型提取更为细致的故障特征。此外,多尺度机制与 DCT 在提取多感受野特征与保留更丰富的信息方面也发挥了积极作用。综合消融实验结果表明,AMCW-DFFNSA 拥有更强的可解释性,并在诊断性能方面表现最佳。
本节将从模型可解释性的角度,对所提出方法的特征学习机制进行分析。具体而言,首先通过可视化 CECAM 注意力得分,分析模型对输入信号学习偏好的倾向;其次从频谱与能量的角度,验证模型是否能够学习到关键的可解释特征;最后通过可视化各层通道权重,进一步探索模型的完整特征学习过程。
6.1 模型学习偏好分析
为探究所提出的 AMCW 模块在故障诊断过程中是否能够准确关注输入信号中的关键信号片段,本文提取了特征提取模块中第一个 AMCW 模块内CECAM 的输出权重与梯度信息,并对其进行量化与归一化处理,得到注意力得分。为了更直观地展示本方法的有效性,从三个不同数据集中分别选取三种不同的故障状态作为实验样本,其具体健康状态的选择与最终可视化结果如图 15 所示。图中的蓝色曲线表示原始信号,橙色曲线表示注意力得分。
图15 注意力得分与输入信号的可视化图
从图 15 中可得出三点结论:
1)本方法高度关注故障引发的冲击位置,如图中红框所示,说明 CECAM 能够有效引导模型学习故障信息;
2)随着健康状态的变化,注意力分布也随之变化,有助于模型学习到更加可区分的特征,从而提升故障诊断精度;
3)对于故障信号中脉冲幅值较小的区域,模型赋予较小的注意力权重,而对冲击显著的区域赋予更大的权重。这是因为 DWT 将信号从时域映射到小波域,使得模型学习得到的注意力得分在宏观上与信号的实际特征频率具有相似性。这一现象也表明,模型所识别出的与故障相关的信息,与基于物理知识对齿轮行为的既有理解是一致的。
6.2 所学习特征的可解释性
本节仍选取与上节相同的信号样本,以说明模型所学习的特征具有可解释性。特征提取模块的输出特征进行了可视化,如图 16 所示。由于输入信号经过模型中嵌入的 DWT 层进行分解,所获得的每个通道均代表在不同小波基下特定频带内的波动能量。
图16 不同数据集的输入信号和学习特征的频谱可视化
首先获取第二个 AMCW 模块输出的48个通道的特征图。随后,对每个通道的特征图进行求和与归一化处理,得到波动能量谱,并按频率从低到高排序。图中蓝色柱形表示归一化后的波动能量谱,红色曲线表示原始信号样本的归一化频谱。通过对比分析波动能量谱与原始信号频谱,可以发现:所获得的波动能量谱中的主频分量与原始信号频谱中的主频分量相对应,说明模型所学习到的特征在实验上满足准确的物理意义。
此外,可以观察到,同一数据集中不同健康状态的主频分量分布存在差异,这种差异可作为故障分类的依据。所提出模型所学习的特征能够匹配不同健康状态的主频特征,表明本方法成功学习到了适用于分类任务的可解释特征,这无疑有助于提升故障诊断的准确性。
6.3 模型完整特征学习过程分析
为探究模型对输入信号的特征学习过程,图17 展示了各层通道权重的可视化结果。从 WTG 数据集的F2 类、DDS(0 dB)数据集的F0 类以及 CWRU(0 dB)数据集的IF(21) 类中分别选取三个信号样本作为输入。对每一层的通道权重进行归一化处理,每个小网格表示一个通道输出,网格颜色表示权重值,颜色越亮代表数值越高,通道权重表示该通道输出特征的重要性。
图17 注意力得分与输入信号的可视化图
图中红色虚线框部分表示两个 AMCW 层,在这两层中,红色虚线分隔线左侧表示小波分解后的低频特征通道权重输出,右侧表示高频特征通道权重输出。绿色虚线框部分表示 DFFNSA 模块的权重输出。
从图中可得出以下结论:首先,从特征提取模块中两个 AMCW 层的可视化结果来看,AMCW层更倾向于学习中低频特征,而对高频特征关注较少。这是因为不同类别的齿轮或轴承故障通常对应明显的低频特征频率,而干扰噪声频率通常较高,位于高频段。这表明 AMCW 层能够区分不同信息的重要性并进行编码,有效聚焦于信号中的故障相关频段,同时滤除噪声信号。
其次,从前馈层(Feed Forward layer)的输出来看,DFFNSA模块在深度融合与建模后能够进一步突出与故障诊断相关的关键特征。这一现象表明,所提出的 DFFNSA 模块具有较强的特征融合能力,能够准确聚焦于关键诊断特征。最后,可以得出结论:特征提取模块的主要功能是滤除无关信息、保留关键信息,而特征融合模块则主要对所获得的高维抽象特征进行更深层次的建模与融合。
本文提出了一种可解释的深度特征融合网络,称为 AMCW-DFFNSA,用于机械故障诊断。首先,设计了一个特征提取模块,堆叠两层 AMCW 以高效提取复杂振动信号中不同位置的可解释特征。该模块能够滤除无关信息,并对关键信息重新编码,从而提高模型的鲁棒性。其次,提出了特征融合模块,以更深层次地融合 CNN 与 Transformer。在该模块中,使用 DFFNSA 实现对高维抽象特征的更深入融合,使不同层级的特征能够自适应地调整其对最终诊断结果的贡献。
通过三个数据集对所提出的 AMCW-DFFNSA 进行了实验验证,以评估其有效性。实验结果表明,该模型在测试平台数据集和风力发电机组数据集上分别达到了93.43%和99.21%的总体准确率。此外,在两个测试平台数据集中模拟强噪声环境下,本文方法仍能保持95.35%和80.76%的诊断准确率。综合实验结果表明,AMCW-DFFNSA 展现出优异的故障诊断能力与抗噪鲁棒性,特别是在强噪声场景下优于对比方法。此外,从三个不同的可视化视角对 AMCW-DFFNSA 的特征学习机制进行了分析,为 CNN-Transformer 模型的可解释性研究提供了新的方向。