首页/文章/ 详情

AMCW-DFFNSA:一种可解释的用于抗噪机械故障诊断的深度特征融合网络

5月前浏览526
     本期分享一篇面向机械故障诊断的可解释智能诊断方法研究成果:尽管深度学习技术已广泛应用于机械设备故障检测领域,但其在实际工业场景中仍面临“黑箱”难解释和抗噪能力不足等挑战。为解决这一问题,本文提出了一种融合小波域特征与注意力机制的全新网络架构——可解释深度特征融合网络(AMCW-DFFNSA)。该方法通过引入离散小波变换扩展特征学习空间,并构建基于余弦增强的通道注意力机制,精准提取关键故障信息、抑制冗余干扰。同时,结合自注意力机制与卷积结构,提出深度特征融合模块 DFFNSA,强化全局与局部特征间的融合关联,实现多层次特征的有效建模与可解释性增强。作者还从三个可视化视角出发,系统剖析了模型的特征学习机制,为 CNN-Transformer 结构的可解释性研究开辟了新的方向

    论文链接:通过点击本文左下角阅读进行在线阅读及下载

    论文基本信息

    论文题目:

    AMCW-DFFNSA: An interpretable deep feature fusion network for noise-robust machinery fault diagnosis

    论文期刊:Knowledge-Based Systems

    论文日期:2024年10月

    论文链接:

    https://www.sciencedirect.com/science/article/pii/S095070512400995X?via%3Dihub

    作者:Yan Han (a,b), Sipeng Lv (a), Qingqing Huang (a,b), Yan Zhang (c)

    机构:

    a: The Key Laboratory of Industrial Internet of Things and Networked Control, Ministry of Education, Chongqing University of Posts and Telecommunications, Chongqing 400065, China;

    b: The Institute of Industrial Internet, Chongqing University of Posts and Telecommunications, Chongqing 401120, China;

    c: China-Korea Belt and Road Joint Laboratory on Industrial Internet of Things, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

    团队带头人简介:黄庆卿教授,重庆邮电大学自动化学院/工业互联网学院教授,博士生导师,重庆邮电大学工业互联网研究院副院长,澳大利亚University of Wollongong(伍伦贡大学)博士后,重庆市留学归国人员创新创业项目支持人选,中国自动化学会边缘计算专委会、制造技术专业委员会委员,全国工业过程测量控制和自动化标准化技术委员会TC124 SC4委员,ISO/IEC JTC1 SC41物联网及数字孪生国际标准委员会专家,NAMUR(国际过程自动化用户协会)中国智能制造工作组专家。主要从事工业智能、边缘计算、工业物联网领域的研究工作,作为项目/课题负责人、项目骨干,承担国家自然科学基金、国家重点研发计划等项目。(来源: https://faculty.cqupt.edu.cn/huangqingqing/zh_CN/index.htm

    目录

    1 摘要

    2 引言

    3 理论基础

    3.1 多分辨率分析与小波分解

    3.2 一维离散余弦变换

    3.3 多头自注意力机制

    所提方法

    4.1 AMCW-DFFNSA 框架

    4.2 融合小波嵌入的注意力引导多尺度卷积模块

    4.3 基于自注意力机制的深度特征融合网络

    4.4 基于 AMCW-DFFNSA 的可解释故障诊断流程图

    5 实验验证

    5.1 数据说明

    5.2 基于两个测试平台数据集的对比实验

    5.3 基于风力发电齿轮箱数据集的对比实验

    5.4 消融实验

    6 模型可解释性分析

    6.1 模型学习偏好分析

    6.2 所学习特征的可解释性

    7 结论

    1 摘要

    深度学习可应用于机械故障诊断,从而保障机械系统的安全运行。然而,深度学习方法在可解释性抗噪性方面的不足,一直是学术界与工业界面临的共同挑战。为应对这些问题,本文提出了一种可解释的深度特征融合网络,称为 AMCW-DFFNSA。首先,该网络融合了离散小波变换,将特征学习空间扩展至小波域,从而更好地学习在小波域中具有可区分性的故障特征。其次,提出了一种基于余弦增强的通道注意力机制,用于学习并突出有价值的可解释特征,同时滤除无关信息。然后,提出了一种基于自注意力机制的深度特征融合网络(DFFNSA),该网络探讨了自注意力与卷积之间更紧密的联系,以实现全局与局部特征的更深层融合。大量实验在两个测试平台数据集和一个实际风力发电机齿轮箱数据集上进行了缜密验证。实验结果表明,所提出的方法在可解释性和抗噪性方面优于对比故障诊断模型。

    关键词:故障诊断,可解释性,深度特征融合,小波变换AMCW-DFFNSA

    2 引言

    随着机械设备结构与自动化功能的日益复杂,滚动轴承、齿轮箱等关键机械部件在运行过程中不可避免地会发生裂纹、疲劳损伤、剥落、变形等多种类型的故障 [1,2]。若未能及时检测与修复故障部件,机械系统可能遭受严重损害。因此,监测关键部件的健康状态对于保障机械系统的稳定与可靠运行具有重要意义 [3,4]。

    近年来,深度学习因其强大的特征提取与分类能力,在故障诊断领域受到广泛关注 [5,6]。多种类型的深度神经网络已被应用于故障诊断,包括循环神经网络(RNN)[7]、卷积神经网络(CNN)[8–10]、深度置信网络(DBN)[11] 等。在这些神经网络中,基于 CNN 的方法由于其强大的特征映射能力,当前在机械故障诊断中研究最为广泛 [12]。Chen 等人 [13] 开发了一种多尺度 CNN,并结合特征对齐模块以增强其特征融合能力。Tang 等人 [14] 提出了一种引入专用归一化策略的 CNN 框架,用于实现高精度的故障检测。Gao 等人 [15] 针对数据不平衡问题,提出了一种分层训练的卷积网络用于故障诊断。Liu 等人 [16] 构建了一种多任务一维 CNN 网络,将转速和负载识别作为辅助任务,以提升故障诊断性能。基于 CNN 的故障诊断方法在提取信号的局部特征、有效捕捉与故障相关的信息方面表现突出。

    然而,当采集信号受到噪声等因素干扰时,振动信号的周期性特征容易被淹没 [17],仅依赖局部特征进行故障信息挖掘将面临准确性不足的问题 [18,19]。基于其自注意力机制卓越的全局信息挖掘能力,Transformer 模型 [20] 受到了广泛关注,并已成功应用于故障诊断领域。Tang 等人 [21] 提出了一种信号嵌入型 Transformer 模型,命名为 Signal-Transformer,该模型通过信号嵌入完成信号分段,以丰富高维空间信息。Wang 等人 [22] 提出了一个多尺度的 TransFusion 模型,利用 Transformer 在捕捉全局依赖关系方面的优势,实现对长期故障信息的深入挖掘。Li 等人 [23] 提出了一种双分支自注意力网络,利用交叉注意力机制在样本之间建立信息关联。尽管 Transformer 能够捕捉信号中的长距离依赖关系,但与基于 CNN 的方法相比,Transformer 模型缺乏归纳偏置能力,因而难以充分利用不同尺度下的局部特征 [24]。

    因此,将 CNN 与 Transformer结合,以提取原始信号的局部与全局特征,是一种更具实用性的解决方案。Han 等人 [25] 提出了 Convformer-NSE 框架,通过融合全局与局部信息以提升齿轮箱故障诊断的准确性。Yan 等人 [26] 提出了一种基于可分离卷积与广播式自注意力机制的故障诊断网络 LiConvFormer,具备轻量化与鲁棒性的特点。Fang 等人 [27] 提出了 CLFormer 框架,结合 CNN 与线性自注意力技术,用于解决样本有限条件下的故障诊断问题。尽管上述基于 CNN-Transformer 的方法在一定程度上实现了信号全局与局部特征的挖掘,但仍存在以下不足:

    (1)在实际工业应用中,对智能诊断模型的可靠性有较高要求。通过可解释性分析,用户能够理解故障诊断模型“如何学习”以及“学习了什么”。然而,现有基于 CNN-Transformer 的方法普遍缺乏对模型可解释性的研究。

    (2)上述CNN-Transformer 模型大多采用串联的结构形式,或通过替换 Transformer 的序列结构将CNN 融合至自注意力机制中,这类结构难以在强噪声环境下充分提取与融合特征,导致诊断性能不足。

    基于上述讨论,本文提出了一种用于抗噪故障诊断的可解释深度特征融合网络,称为 AMCW-DFFNSA。首先,通过离散小波变换卷积层Discrete wavelet transform convolution layer,DWT-CNN)将信号从时域空间映射至小波域空间;利用多尺度卷积层学习信号的多尺度特征,并引入余弦增强通道注意力模块(Cosine-enhanced channel attention module, CECAM)以学习并突出有价值的可解释特征,同时滤除无关信息。其次,提出了一种基于自注意力机制的深度特征融合网络(Deep feature fusion network based on self-attention, DFFNSA),该网络可有效提取全局与局部特征,实现对获得的高维抽象特征的更深层建模与融合。最后,从不同的可视化视角分析了 AMCW-DFFNSA 的可解释性,结果表明该方法能够有效学习关键的可解释特征并抑制无关信息。本研究的主要创新点与贡献如下

    (1)设计了一种融合小波嵌入的注意力引导多尺度卷积模块(AMCW),该模块包含 DWT-CNN、CECAM 和多尺度卷积层,能够自适应地学习并突出信号中的关键振动特征

    (2)为充分融合全局与局部特征,提出了一种基于自注意力机制的深度特征融合网络(DFFNSA),用于挖掘卷积与自注意力机制之间的紧密关联

    (3)基于 AMCW 与 DFFNSA 构建了用于故障诊断的 AMCW-DFFNSA,具有明确的物理可解释性,其特征学习机制可通过可视化分析进行解释

    3 基础方法

    3.1 多分辨率分析与小波分解

    多分辨率分析最早由 Mallat 提出 [28],它统一了多种正交小波基的构造方法,为实现小波分析算法提供了一种新的途径。Mallat 快速分解算法表示为:

       

    其中,t 表示时间序列编号,g(t) 为输入信号,j 表示分解层数,E 和 F 分别代表小波滤波器;     表示在第 j 层中信号 g(t) 对应的低频分量的小波系数,而      表示信号 g(t) 在第 j 层对应的高频分量的小波系数。

    小波分解如图 1 所示。Mallat 算法通过对近似系数连续级联地施加离散小波变换,实现小波分解。最初,对离散序列      进行信号分解,分别通过高通滤波器与低通滤波器处理,经过间隔采样后获得高频分量      和低频分量     。随后选取低频信号分量     ,重复上述步骤,从而实现对输入信号的多分辨率分解。

     

    图1 小波包分解

    3.2 一维离散余弦变换

    在传统的通道注意力机制中,全局平均池化(GAP)通常仅保留特征中最低频的信息,而舍弃其他频段的信息 [29],这无疑会影响特征提取的质量。因此,本研究引入离散余弦变换(DCT)以替代 GAP;一维离散余弦变换(1D-DCT)的基本函数可表示为:

       

    其中,         的定义域为     ,取值范围为     。一维离散余弦变换(1D-DCT)函数可重写为:

       

    其中,         表示一维离散余弦变换(1D-DCT)后的频谱,     为输入信号,     表示输入      的长度。当      时,公式可重写为:

       

    其中,     表示一维离散余弦变换(1D-DCT)的最低频分量。从公式可以看出,     可被视为 1D-DCT 的一个特例。根据上述推导,1D-DCT 的逆变换可表示为:

       

    从公式可以看出,     仅保留最低频分量,而舍弃其余频率成分。这可能导致关键信号频率成分的丢失,进而影响诊断精度。而      能够保留更多信号的特征频率成分,从而有助于提升诊断准确率。

    3.3 多头自注意力机制

    得益于其出色的注意力计算与分配能力,多头自注意力机制使得 Transformer能够从数据的时间维度中充分挖掘与提取全局特征信息。MSA 的结构如图 2 所示。

     

    图2 多头自注意力机制的架构

    首先,输入        通过三个并行的线性变换分支进行线性映射,分别得到查询矩阵       、键矩阵        和值矩阵       。具体计算过程如下:

         

    其中,                   分别表示三条并行线性变换的权重参数矩阵。

    随后,对        和        进行矩阵乘法,并将结果除以特征维度        的平方根进行缩放。接着使用 Softmax 函数对其进行归一化,得到注意力权重,再与对应注意力头的        相乘,得到第        个注意力头的最终注意力输出:

         

    其中,      代表第j个注意力头的注意力权重。

    最后,多头注意力机制输出的最终注意力分数是H个并行注意力头的连接:

         

    其中      表示MSA的最终输出注意力得分,而Linear则指对结果进行线性映射。

    所提方法

    4.1 AMCW-DFFNSA 框架

    AMCW-DFFNSA 包含特征提取模块、特征融合模块与输出模块,如图 3 所示。其中,特征提取模块由两个 AMCW 模块组成,每个 AMCW 模块包含一个 DWT-CNN、多尺度卷积层和一个 CECAM。该模块相当于在 CNN 中嵌入了具有可比性的多分辨率分析算法,有助于将基于物理的知识融合进网络中,并能够深入学习与提取输入信号的可解释特征。

    图3 AMCW-DFFNSA模型的架构

    特征融合模块是 AMCW-DFFNSA 模型的核心部分。该模块首先利用 DFFNSA 进行更深层次的特征提取,以聚合信号关键的全局与局部多尺度特征。通过层归一化稳定特征分布,并结合残差连接与 Dropout 技术,以降低过拟合的风险。此外,在残差连接中引入了两个可学习参数      和     ,以自适应调整不同特征的重要性。随后,输出特征通过前馈网络(Feed Forward layer)进行整合。

    4.2 融合小波嵌入的注意力引导多尺度卷积模块

    在传统的信号分析方法中,特征识别通常可以通过一些定量指标进行评估,而在深度学习中,由于其“黑箱”特性,这一点较难实现。因此,本节提出了一种融合小波嵌入的注意力引导多尺度卷积模块(AMCW),以学习并突出信号中的关键振动特征。AMCW 的结构如图 4 所示。输入的振动信号首先通过小波变换进行处理,将特征学习空间扩展至小波域;随后,利用多尺度卷积捕捉不同尺度的特征;所提出的余弦增强通道注意力机制则用于自适应加权不同的特征频带:对与故障特征相关的频带赋予较大的权重,而对噪声频带赋予较小的权重,从而有效滤除噪声与无关信息。

    图4 AMCW的架构

    为了进一步增强模型的可解释性与抗噪能力,在所提出的模型中嵌入了 DWT。通过离散小波分解将时域信号转换到小波域,使卷积网络能够从小波域空间中学习更为全面的特征信息。其计算过程如下所示:

       

       

    其中,     表示输入特征,     表示对输入特征进行离散小波变换操作,     和      分别表示小波分解后的低频特征与高频特征,     表示将      与      沿通道维度拼接后的输出特征。

    此外,设计了一种轻量级多尺度卷积结构,用于整合各通道维度的信息,以捕捉来自不同尺度局部感受野的特征。首先,采用核大小为 3 的跨通道卷积对各通道的特征进行整合,并调整输出通道的维度。其计算过程如下所示:

       

    在该函数中,     表示跨通道卷积操作后的输出,     表示卷积核大小为 3 的卷积权重。随后,将具有不同卷积核尺寸的并行多尺度卷积层作用于     ,其中采用深度可分离卷积替代传统卷积。通过拼接不同尺度卷积输出的方式实现特征的有效融合,从而获得混合特征。其计算过程可表示为:

       

       

    其中,     表示第      个卷积核大小为      的卷积权重,     表示跨通道卷积的输出,     表示第      个深度卷积的输出。     表示高斯误差线性单元激活函数,     表示批归一化,     表示经过 DWT 和多尺度特征提取后的输出结果

    为了编码不同通道特征的重要性,采用一维离散余弦变换(1D-DCT)替代原先的 GAP 模块,该变换被用于所提出的余弦增强通道注意力模块(CECAM)中,以自适应地引导网络进行特征学习。该模块的结构如图 5 所示。

    图5 CECAM模块的架构

    首先,将输入特征      沿通道维度划分为      个独立的通道变量,记为     ,其中              为通道数。具体计算如公式所示:

       

    然后,将每个通道特征与离散余弦变换分量逐元素相乘,并按频率从低到高排序;将计算得到的频率通道特征沿通道维度进行堆叠,从而获得一个新的特征张量:

       

       

    其中,     表示每个通道分量经过 1D-DCT 后得到的频率通道特征;     为最终堆叠后的输出特征向量,可用于后续卷积操作。输出的注意力权重表示为     

       

    其中,     和      分别表示输出通道数为      和      的卷积操作,     表示 ReLU 激活函数,     表示 Sigmoid 激活函数。通过上述操作,可以获得每个通道的注意力权重。在 CECAM 中引入残差连接以优化网络梯度传播。最终的输出结果可表示为:

       

    其中,     表示 CECAM 的最终输出结果,     为各通道的注意力权重,     为输入特征。

    4.3 基于自注意力机制的深度特征融合网络

    本文提出了一种基于自注意力机制的深度特征融合网络(DFFNSA),用于融合多尺度特征,涵盖远距离与局部依赖关系。DFFNSA 的整体结构如图 6 所示,其具体特征学习过程主要包括两个阶段。

    图6 DFFNSA模块的架构

    在第一阶段,使用三个核大小为 1 的卷积操作对输入数据进行处理,以获取丰富的中间特征,从而增强非线性表示能力,避免直接处理长序列数据所带来的低效问题。

    在第二阶段,全局多头自注意力分支与局部卷积注意力分支将并行执行。在全局多头自注意力分支中,采用特定大小的滑动窗口扩展输入的中间特征,以进一步提取全局特征与空间信息。随后,将位置信息嵌入到键值      中,从而获得具有更丰富特征的三个参数          和     。最后,采用多头自注意力机制对特征信息进行计算。该过程可表示为:

       

       

    其中,     表示位置嵌入,     为注意力头编号,     表示核大小为 1 的卷积操作,     表示对      个注意力头的连接操作,     表示通过全局多头自注意力分支获得的全局特征输出。在局部卷积注意力分支中,为了充分提取局部特征,本文并行引入了全局最大池化(GMP)与离散余弦变换(DCT),以实现全频段特征的聚合,同时突出高频特征,从而使网络能够高效建立局部依赖关系。其计算公式如下:

       

       

       

       

    其中,输入      是由          和      拼接而成,通过 GMP 和 DCT 计算输出特征;     表示核大小为 1 的卷积操作,     表示局部卷积注意力计算后的局部特征输出。

    最终,将两个分支的输出进行融合,并通过两个可调节参数调控它们各自的贡献:

       

    4.4 基于 AMCW-DFFNSA 的可解释故障诊断流程图  

    AMCW-DFFNSA的详细流程如图 7 所示。该流程主要包括信号采集与预处理、模型构建与训练、故障诊断与可解释性分析。

    基于AMCW-DFFNSA的可解释故障诊断流程图

    5 实验验证

    5.1 数据说明

    5.1.1 CWRU数据集

    CWRU 轴承数据集是由凯斯西储大学轴承数据中心提供的广泛使用的数据集之一。本实验采用从电机驱动端采集的数据,采样频率为 12 kHz,电机负载为 1HP,对应转速为 1772 r/min。该数据集包括健康信号(H)与故障信号,故障部位包括内圈故障(IF)、滚动体故障(BF)和外圈故障(OF),每类故障均对应不同的标签,具体如表 1 所示

    表1 CWRU数据集的健康状况和标签

    振动信号通过滑动窗口进行切分,每个样本包含 1024 个采样点,训练集与测试集的比例为 7:3。为了模拟真实机械工作环境,向信号中分别加入 0 dB-6 dB -8 dB 的高斯噪声,以模拟弱噪声、中度噪声和强噪声环境。

    5.1.2 DDS 测试平台数据集    

    第二组故障诊断实验在传动系统诊断模拟平台(DDS)测试台上进行,该平台包括磁力制动器、电机、并联齿轮箱和行星齿轮箱,如图 8 所示。本实验使用变速工况下以 25.6 kHz 采样频率采集的数据作为实验数据集。在采样过程中,电机转速从 20 Hz 增加至38.7 Hz    

     

    8 DDS测试台主要结构    

    共选取五种不同的健康状态,每种状态分配一个唯一标签,如表 2 所示。振动信号采用滑动窗口进行切分,每个样本包含 1024 个采样点,训练集与测试集的比例为7:3。为模拟齿轮箱的真实工作环境,分别向信号中添加 0 dB-4 dB -6 dB 的高斯噪声,以模拟弱噪声、中噪声和强噪声环境。

    2 DDS变速箱数据集的健康状态

     

    5.1.3 风力发电齿轮箱数据集    

    由于风力发电机常年运行在恶劣环境中,极易发生故障。其中,风力发电齿轮箱(WTG)作为核心部件,具有最高的故障率,并带来较高的维护成本。因此,齿轮箱的故障诊断研究对保障风电设备运行至关重要。如图 9 所示为风电齿轮箱,在状态监测过程中以 25.6 kHz 的频率采集振动信号。

     

    风力发电机组示意图    

    3 WTG数据集的健康状态    

     

    根据故障报告,共选取六种不同的健康状态作为诊断对象,如表 3 所示。针对每种健康状态,采集故障预警前五天的数据作为实验数据,因此每种状态包含5×131,072条振动信号。振动信号采用滑动窗口进行切分,每个样本包含 1024 个采样点。同时,分别向每个样本中添加信噪比分别为 4 dB0 dB-2 dB -4 dB 的高斯噪声。

    5.2 基于两个测试平台数据集的对比实验

     AMCW-DFFNSA 与六种基于深度学习的端到端故障诊断方法进行了对比。这些方法包括三种基于 CNN-Transformer 的新型故障诊断方法:Convformer-NSE LiConvFormerCLFormer;两种新型可解释故障诊断方法:QCNN MWA-CNN;以及一种经典的抗噪故障诊断方法:WDCNNAMCW-DFFNSA的网络结构与关键参数如表 4 所示。为消除随机性并验证模型的稳定性,每种模型均重复训练五次,训练轮数为 150。其中,表示输出维度,表示自注意力头的数量,CNN 的卷积核大小,表示 CNN 的步长,表示健康状态类别数量。

    各模块的输入尺寸及参数    

     

     10 展示了AMCW-DFFNSA 与六种对比方法在两个数据集不同噪声条件下的故障诊断准确率。AMCW-DFFNSA 实现了最高的平均诊断准确率,高达 93.43%。与 WDCNNCLFormerQCNNConvformer-NSELiConvFormer MWA-CNN 相比,所提方法的平均诊断准确率分别高出 12.57%8.50%7.05%5.49%4.62% 2.31%。这表明该方法具有更强的鲁棒性与特征学习能力

     

    10 不同信噪比条件下的平均诊断准确率:(a) CWRU 数据集,(b) DDS 数据集    

    具体来看,与基于 CNN  WDCNN 相比,AMCW-DFFNSA在整体诊断准确率上具有显著优势,尤其在中噪声与强噪声条件下,其性能优势更为明显。与三种最新的基于 CNN-Transformer 架构的方法相比,AMCW-DFFNSA取得了最佳结果。在强噪声环境中,AMCW-DFFNSA 的诊断准确率显著高于这三种对比方法,说明所提出的基于自注意力机制的深度特征融合网络(DFFNSA)在强噪声条件下能够更充分、有效地提取全局与局部特征。此外,与两种最新的可解释性方法相比,AMCW-DFFNSA 也取得了最优性能。在DDS 数据集的弱噪声条件下,所提方法的诊断准确率略低于 MWA-CNN。但随着噪声强度的增加,AMCW-DFFNSA的抗噪优势开始显现,在中噪声与强噪声条件下,其诊断准确率显著优于 MWA-CNN这表明AMCW-DFFNSA 的双阶段特征融合机制在噪声环境下能够更有效地提取与融合关键信息

    为进一步验证各模型的特征提取能力,本文在 DDS 数据集信噪比为0 dB 的条件下,采用 t-SNE 和混淆矩阵对各方法的分类效果进行可视化,如图 11 和图 12 所示。    

     

    11 基于t-SNE的特征可视化    

    从图 11 可以看出,三种基于 CNN-Transformer 架构的模型以及MWA-CNN 均无法清晰分离 F0  F3 故障状态的边界。尽管QCNN  WDCNN 在一定程度上能够区分各类状态,但不同健康状态之间容易混淆。相比之下,AMCW-DFFNSA 能够准确识别各类健康状态,聚类结果紧凑,对相近故障状态具有清晰的分类边界    

     12 进一步展示了各方法的诊断细节。可以看出,所有方法在健康状态的分类准确率均达到了 100%,这一结果与图11 中的可视化结果一致。在 F0  F4 状态的分类过程中,AMCW-DFFNSA的准确率达到 100%,而其他对比方法均存在不同程度的分类错误。此外,在 F1 F4 状态的分类中,所有方法均存在一定的误判情况。造成这一现象的原因可能是齿轮系统在运行过程中,这两类故障所产生的频率分量具有相似特征,在噪声等干扰因素作用下,容易导致模型在特征提取阶段出现混淆,从而产生错误分类。    

       

    12 各方法对应的混淆矩阵

    通过对不同模型特征提取与分类细节的对比分析可以看出,所提出的方法在特征提取的鲁棒性与分类效果方面均优于其他对比方法。    

    5.3 基于风力发电齿轮箱数据集的对比实验    

    本节仍选取前六种方法作为对比方法。图 13 展示了AMCW-DFFNSA 与六种对比方法在 WTG 数据集不同噪声条件下的诊断准确率。从实验结果可以看出,在未添加高斯噪声的条件下,所有方法的诊断准确率均超过 95%,其中所提出方法的准确率达到 99.21%,高于所有对比方法。

     

     13 WTG数据集中每种方法在不同信噪比下的平均诊断准确率    

    随着噪声水平的增加,各方法的准确率均不同程度下降。然而,所提方法在各噪声水平下依旧保持最高诊断准确率,并且其鲁棒性随着噪声增强更加显著。当信噪比- 4 dB 时,所提方法仍保持88.28% 的诊断准确率,比对比方法中准确率最高的 CLFormer 高出1.63%,比准确率最低的 Convformer-NSE 高出6.36%。该实验结果进一步验证了所提方法相较于其他方法具有更优的抗噪鲁棒性。

     

     14 各方法的平均准确率与模型复杂度对比: (a)准确率与参数量关系图; (b)准确率与浮点运算量(FLOPs)关系图    

     14 展示了在无高斯噪声条件下,各方法在 WTG 数据集上的模型复杂度与诊断准确率之间的关系。与注重轻量化设计的 CLFormer LiConvFormer 相比,所提方法在保持相对较低模型复杂度的同时,取得了最佳诊断准确率。因此,AMCW-DFFNSA 在工程应用中具有更优的诊断性能,并具备边缘部署的潜力

    5.4 消融实验    

    所提出的 AMCW-DFFNSA 是一个具有可解释性的故障诊断模型,其中包含两个关键模块:AMCW  DFFNSA。为探讨这两个模块对模型性能的影响,在 WTG 数据集上进行了消融实验。消融实验结果如表 5 所示,具体的对比方法说明如下:

    1)方法 1:将第一个 AMCW 模块中的 DWT-CNN 替换为宽核卷积,将第二个 AMCW 模块中的 DWT-CNN 替换为卷积核大小为 3 的 CNN,以探索小波嵌入对模型特征提取的影响。

    2)方法 2:将 CECAM 中的离散余弦变换(DCT)替换为 GAP,以验证所提出的 CECAM 相较于传统通道注意力机制是否能学习到更丰富的特征。

    3)方法 3:将 AMCW 模块中的轻量级多尺度卷积替换为卷积核大小为 3 的 CNN,以探讨多感受野特征对诊断精度的影响。

    4)方法 4:将 DFFNSA 替换为传统的多头自注意力机制(MSA),以验证所提出的自注意力网络是否具有更优的全局与局部特征融合能力。

    5 WTG数据集下的消融实验结果    

     

    从表 5 可以看出,DWT-CNN 的消融实验对模型诊断准确率影响最为显著。这表明,DWT-CNN 通过DWT 将信号从时域映射到小波域,更有助于模型对特征的全面提取与学习。其次,与传统的 MSA 机制相比,DFFNSA模块对模型性能也具有较大影响。该模块能够建立对局部特征的必要依赖,帮助模型提取更为细致的故障特征。此外,多尺度机制与 DCT 在提取多感受野特征与保留更丰富的信息方面也发挥了积极作用。综合消融实验结果表明,AMCW-DFFNSA 拥有更强的可解释性,并在诊断性能方面表现最佳

    6 模型可解释性分析

    本节将从模型可解释性的角度,对所提出方法的特征学习机制进行分析。具体而言,首先通过可视化 CECAM 注意力得分,分析模型对输入信号学习偏好的倾向;其次从频谱与能量的角度,验证模型是否能够学习到关键的可解释特征;最后通过可视化各层通道权重,进一步探索模型的完整特征学习过程。

    6.1 模型学习偏好分析    

    为探究所提出的 AMCW 模块在故障诊断过程中是否能够准确关注输入信号中的关键信号片段,本文提取了特征提取模块中第一个 AMCW 模块内CECAM 的输出权重与梯度信息,并对其进行量化与归一化处理,得到注意力得分。为了更直观地展示本方法的有效性,从三个不同数据集中分别选取三种不同的故障状态作为实验样本,其具体健康状态的选择与最终可视化结果如图 15 所示。图中的蓝色曲线表示原始信号,橙色曲线表示注意力得分

     

    15 注意力得分与输入信号的可视化图    

    从图 15 中可得出三点结论:    

    1)本方法高度关注故障引发的冲击位置,如图中红框所示,说明 CECAM 能够有效引导模型学习故障信息;    

    2)随着健康状态的变化,注意力分布也随之变化,有助于模型学习到更加可区分的特征,从而提升故障诊断精度;    

    3)对于故障信号中脉冲幅值较小的区域,模型赋予较小的注意力权重,而对冲击显著的区域赋予更大的权重。这是因为 DWT 将信号从时域映射到小波域,使得模型学习得到的注意力得分在宏观上与信号的实际特征频率具有相似性。这一现象也表明,模型所识别出的与故障相关的信息,与基于物理知识对齿轮行为的既有理解是一致的。

    6.2 所学习特征的可解释性    

    本节仍选取与上节相同的信号样本,以说明模型所学习的特征具有可解释性。特征提取模块的输出特征进行了可视化,如图 16 所示。由于输入信号经过模型中嵌入的 DWT 层进行分解,所获得的每个通道均代表在不同小波基下特定频带内的波动能量。

     

    16 不同数据集的输入信号和学习特征的频谱可视化

    首先获取第二个 AMCW 模块输出的48个通道的特征图。随后,对每个通道的特征图进行求和与归一化处理,得到波动能量谱,并按频率从低到高排序。图中蓝色柱形表示归一化后的波动能量谱,红色曲线表示原始信号样本的归一化频谱。通过对比分析波动能量谱与原始信号频谱,可以发现:所获得的波动能量谱中的主频分量与原始信号频谱中的主频分量相对应,说明模型所学习到的特征在实验上满足准确的物理意义      

    此外,可以观察到,同一数据集中不同健康状态的主频分量分布存在差异,这种差异可作为故障分类的依据。所提出模型所学习的特征能够匹配不同健康状态的主频特征,表明本方法成功学习到了适用于分类任务的可解释特征,这无疑有助于提升故障诊断的准确性。

    6.3 模型完整特征学习过程分析      

    为探究模型对输入信号的特征学习过程,图17 展示了各层通道权重的可视化结果。从 WTG 数据集的F2 类、DDS0 dB)数据集的F0 类以及 CWRU0 dB)数据集的IF(21) 类中分别选取三个信号样本作为输入。对每一层的通道权重进行归一化处理,每个小网格表示一个通道输出,网格颜色表示权重值,颜色越亮代表数值越高,通道权重表示该通道输出特征的重要性。      

       
       

    17 注意力得分与输入信号的可视化图      

    图中红色虚线框部分表示两个 AMCW 层,在这两层中,红色虚线分隔线左侧表示小波分解后的低频特征通道权重输出,右侧表示高频特征通道权重输出。绿色虚线框部分表示 DFFNSA 模块的权重输出      

    从图中可得出以下结论:首先,从特征提取模块中两个 AMCW 层的可视化结果来看,AMCW层更倾向于学习中低频特征,而对高频特征关注较少。这是因为不同类别的齿轮或轴承故障通常对应明显的低频特征频率,而干扰噪声频率通常较高,位于高频段。这表明 AMCW 层能够区分不同信息的重要性并进行编码,有效聚焦于信号中的故障相关频段,同时滤除噪声信号。      

    其次,从前馈层(Feed Forward layer)的输出来看,DFFNSA模块在深度融合与建模后能够进一步突出与故障诊断相关的关键特征。这一现象表明,所提出的 DFFNSA 模块具有较强的特征融合能力,能够准确聚焦于关键诊断特征。最后,可以得出结论:特征提取模块的主要功能是滤除无关信息、保留关键信息,而特征融合模块则主要对所获得的高维抽象特征进行更深层次的建模与融合。

    7 结论

    本文提出了一种可解释的深度特征融合网络,称为 AMCW-DFFNSA,用于机械故障诊断。首先,设计了一个特征提取模块,堆叠两层 AMCW 以高效提取复杂振动信号中不同位置的可解释特征。该模块能够滤除无关信息,并对关键信息重新编码,从而提高模型的鲁棒性。其次,提出了特征融合模块,以更深层次地融合 CNN 与 Transformer。在该模块中,使用 DFFNSA 实现对高维抽象特征的更深入融合,使不同层级的特征能够自适应地调整其对最终诊断结果的贡献。

    通过三个数据集对所提出的 AMCW-DFFNSA 进行了实验验证,以评估其有效性。实验结果表明,该模型在测试平台数据集和风力发电机组数据集上分别达到了93.43%和99.21%的总体准确率。此外,在两个测试平台数据集中模拟强噪声环境下,本文方法仍能保持95.35%和80.76%的诊断准确率。综合实验结果表明,AMCW-DFFNSA 展现出优异的故障诊断能力与抗噪鲁棒性,特别是在强噪声场景下优于对比方法。此外,从三个不同的可视化视角对 AMCW-DFFNSA 的特征学习机制进行了分析,为 CNN-Transformer 模型的可解释性研究提供了新的方向。


    编辑:Jin
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除
    点击左下角阅读原文,即可在线阅读论文。

    来源:故障诊断与python学习
    System振动疲劳非线性化学旋转机械航空海洋裂纹理论电机传动数字孪生
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-06-20
    最近编辑:5月前
    故障诊断与python学习
    硕士 签名征集中
    获赞 87粉丝 138文章 261课程 0
    点赞
    收藏
    作者推荐

    可解释智能诊断新路径 | VKCNN:面向滚动轴承故障诊断的可解释变分核卷积神经网络

    本期分享唐刚教授团队的论文投稿:VKCNN:面向滚动轴承故障诊断的可解释变分核卷积神经网络。传统卷积神经网络在滚动轴承故障诊断中虽取得广泛应用,但由于特征提取过程缺乏物理可解释性,其工业落地仍面临挑战。为此,本文提出了一种全新的可解释变分核卷积神经网络(Variational Kernel CNN,VKCNN)方法。该方法通过在网络初始层引入具备物理意义的近似滤波器,精准提取幅度调制与频率调制特征,并结合变分核结构与残差注意力机制,实现了特征通道的动态加权与高相关性特征提取。同时,加入注意力加权谱分析,进一步提升了模型的可解释性与诊断透明度。实验证明,VKCNN在多个滚动轴承数据集上表现出强鲁棒性,尤其在噪声环境下准确率显著优于对比模型,是兼具性能与可解释性的智能故障诊断新路径。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:VKCNN: An interpretable variational kernel convolutional neural network for rolling bearing fault diagnosis论文期刊:Advanced Engineering Informatics论文日期:2024年10月论文链接:https://www.sciencedirect.com/science/article/pii/S1474034624003537?via%3Dihub作者:Guangyi Chen, Gang Tang, Zhixiao Zhu机构:a: College of Mechanical and Electrical Engineering, Beijing University of Chemical Technology, Beijing 100029, China团队带头人简介:唐刚教授,北京化工大学博士生导师。现为中国振动工程学会动态信号分析专委会常务理事、故障诊断专委会理事,中国人工智能学会青年工作委员会委员。入选北化青年英才百人计划,被评为“全国石油和化工教育青年教学名师”。长期从事机械故障诊断和智能运维技术等研究工作。近年来发表高水平论文50余篇,参与起草国家标准4项;主持国家重点研发计划“揭榜挂帅”课题、特殊计划项目、国家自然科学基金和企业合作项目等,相关成果应用于航天航空等多个领域高端装备的智能化运维。(来源: https://mech.buct.edu.cn/2018/0227/c3107a46844/page.htm)目录1 摘要2 引言3 理论基础3.1 变分模态分解3.2 卷积神经网络4 所提方法4.1 变分核卷积神经网络4.2 数据驱动参数更新4.3 基于残差连接的通道注意力机制4.4 基于变分核卷积神经网络的故障诊断5 实验验证5.1 案例一5.2 案例二6 模型可解释性分析6.1 网络第一层的特征提取形式6.2 诊断模型的学习机制7 结论1 摘要随着CNN的发展,滚动轴承的智能故障诊断取得了显著进展。然而,特征提取过程缺乏物理可解释性,严重削弱了其可信度,从而极大地限制了其在工业中的实际应用。为解决这一问题,本文提出了一种可解释的变分核卷积神经网络(Variational Kernel CNN,VKCNN)用于滚动轴承故障诊断。首先,在CNN的初始层中精心引入一种新型的近似滤波器,用以有效提取分布于不同频带、具有明确物理意义及故障相关信息的幅度调制和频率调制成分。其次,引入模块化操作,以构建变分核中两个等比例实参数与复数梯度之间的反向传播关系。随后,提出一种基于残差连接的通道注意力机制,能够为来自不同频带的故障相关特征动态分配通道级权重。此外,引入注意力加权谱,从后验可解释性的角度探索模型的学习机制。最后,本文在两个滚动轴承数据集上验证了所提VKCNN模型,实验结果表明该模型在抗过拟合能力上表现出较强的鲁棒性,并在噪声场景中优于其他对比模型。关键词:卷积神经网络,变分核,变分模态分解,注意力机制,滚动轴承,智能故障诊断2 引言作为“工业关节”,滚动轴承具备良好的传动性能和承载能力,因而被广泛应用于航空发动机、工业机器人、风力发电机等各类旋转机械设备中。作为现代旋转机械中的重要基础部件之一,滚动轴承同时也是故障高发的关键部件。一旦在运行过程中发生严重故障,极易引发重大的安全事故。因此,发展面向滚动轴承的智能故障诊断与健康监测方法具有重要意义 [1-3]。据文献[4]报道,传统的智能故障诊断方法通常遵循“滤波器组–特征提取–决策判断”三阶段流程。其中,“滤波器组”阶段旨在借助稀疏编码、小波变换、模态分解等先进信号处理技术,对测得信号进行去噪处理,并提取故障信号的内在特征 [5-7]。尽管基于信号处理的特征提取方法能够结合专家知识与物理信息,使故障轴承的特征表示具备一定可解释性,但此类方法通常需要针对不同数据样本进行特定的预处理,同时需对若干参数进行精细调整,以获得期望的故障特征。这种依赖精心设计特征的方式通常仅适用于特定场景,限制了传统智能故障诊断模型的泛化能力。此外,在面对大规模异构数据时,由人工提取与选择故障特征不仅工作量繁重,而且极为耗时。近年来,深度学习模型因其能够直接从原始数据中挖掘具有代表性的特征,并将所学习的特征映射到目标轴承的健康状态,在国内外研究者中引起了广泛关注 [8,9]。该类方法跳过了繁琐的人工特征提取与选择流程,能够以端到端的方式处理海量监测数据。因此,各类深度学习模型中的神经网络结构被广泛应用于滚动轴承的智能故障诊断中,包括自编码器 [10]、循环神经网络(Recurrent Neural Network, RNN)[11] 以及CNN [12,13]。其中,CNN因其具备局部感受野的高效利用、本地权重共享以及多卷积核融合等显著优势,在故障诊断领域中得到了更广泛的应用。尽管基于CNN的智能故障诊断方法在近年来取得了重要进展,但其学习到的特征缺乏可解释性的问题依然存在。这一问题增加了评估模型可信度的难度,从而限制了其在工业环境中的实际部署。如果能够掌握CNN所学习的典型故障特征所遵循的客观规律,就可以通过调整模型参数来实现对网络学习过程的引导与优化,进一步提升其对领域知识的学习能力以及模型本身的可靠性。因此,围绕CNN的智能故障诊断方法开展可解释性研究具有重要意义。一种可行的路径是通过可视化权重或特征图,对已训练CNN进行后验解释。例如,Grezmak 等人 [14] 利用逐层相关传播方法,在输入信号的时频图中可视化不同区域对诊断结果的贡献值,实验结果表明所设计的CNN能够通过学习特定频带来区分故障类型。Jia 等人 [15] 则通过神经元激活最大化(Neuron Activation Maximization, NAM)算法分析了深度归一化CNN的工作机制,发现网络的第一卷积层实质上扮演着多通道滤波器组的角色。 另一种解决思路是将可解释的信号处理方法引入模型结构中,这种方式不仅提升了深度学习模型的内在可解释性,还充分发挥了其数据驱动的参数学习优势,使得信号处理方法的参数能够实现自动更新 [16]。例如,Li 等人 [17] 在CNN的首层中引入了连续小波卷积层,不仅简化了网络结构,还利用数据驱动的小波基函数提取与冲击相关的周期性成分,实验表明该方法在滚动轴承与齿轮的智能故障诊断中具有良好效果。Liu 等人 [18] 提出了时域散射卷积网络模型,基于小波散射原理构建,实现了完全可解释的轴承故障诊断。Ye 等人 [19] 构建了一种基于形态学滤波的神经网络,用于从振动信号中分离冲击成分并抑制噪声。然而,正如文献 [17] 所指出的,小波核CNN的诊断性能高度依赖于小波基函数的形状。其与故障信号中冲击成分匹配度越高,诊断精度也越高。因此,在使用小波核方法时应更加重视小波基的设计。而对于形态学滤波器,由于不同故障类型所引起的冲击信号在形态上的差异不明显,构建有效的形态学字典存在困难,从而限制了判别性特征的学习能力 [20]。众所周知,由故障冲击激发的系统共振通常会导致冲击信号出现幅度调制与频率调制(AM-FM)现象 [21]。因此,AM-FM信号往往包含可用于区分不同故障类型的重要特征。变分模态分解(Variational Mode Decomposition, VMD)已被证明在处理复杂调制信号方面具有良好效果 [22]。与前述传统信号处理方法不同,VMD方法不依赖于预定义的小波基函数或形态学字典,而是能够对待分析信号进行自适应分解。VMD将任何信号视为多个在频域中相互正交的AM-FM子信号的集 合,每个子信号在某一中心频率附近具有紧凑的带宽。在VMD中,提取这些子信号的过程被定义为一种引入Tikhonov正则化的改进Wiener滤波器模型,其本质类似于在频域中对不同频段进行带通滤波操作。随后,从定位到的频带中提取AM-FM子信号 [23]。Song 等人 [24] 提出一种智能多通道谱结构扫描器,用于检测多通道轴承信号中有效频段的中心频率,并通过一步计算获得相应的通道子信号。Zheng 等人 [25] 则基于二分法对频带进行划分,以识别AM-FM子信号所在的具体频率区间。Jiang 等人 [26] 提出一种逐步分解信号的方法,通过峭度准则及中心频率对目标子信号进行定位。由此可见,VMD在提取AM-FM子信号时,实质上是寻找与故障密切相关的频率区间。上述方法表明,在不同滚动轴承故障诊断场景或任务中,充分的先验知识对于频带划分至关重要。然而,目前尚无一种权威且具鲁棒性的频带选择策略可适用于所有诊断场景,这在面对未知场景或新任务时,会引入较大的不确定性,同时增加频带选择的时间与经济成本。此外,需要注意的是,局部故障不仅可能激发轴承本体的共振,还可能激发邻近部件的共振,从而进一步复杂化信息的调制过程。因此,实际测得信号的频谱中通常包含多个分布在不同频段的频谱簇,导致故障信息在频域中呈现明显的多尺度分布特征 [27]。然而,现有方法往往仅关注有限频带内的故障特征,而忽略其他可能包含有效信息的频段,这可能导致特征提取过程中的信息丢失,从而影响故障诊断结果的准确性与可靠性。因此,如何在缺乏充分先验知识的条件下,实现多尺度故障信息的自适应提取,仍是当前亟待解决的重要挑战。得益于深度学习模型强大的参数学习能力,基于多尺度故障信息提取原理的近似滤波器可被嵌入至深度网络中,应用于各种故障诊断任务,并将其关键超参数集成到诊断模型的参数体系中。通过反向传播算法,可以在保持深度网络所提取特征固有可解释性的同时,自适应优化近似滤波器的超参数。为实现对分布于不同频带的AM-FM分量的自适应提取,本文提出了一种基于VMD信号分解原理构建的新型近似滤波器,并将其集成至一维卷积神经网络中,用于滚动轴承故障诊断。通过构建变分核卷积神经网络(VKCNN),有效提升了特征提取阶段的事中(ad-hoc)可解释性。此外,考虑到不同频带的变分核所提取的AM-FM特征在诊断任务中的重要性存在差异,本文进一步引入通道注意力机制以增强事后(post-hoc)可解释性,从而有助于理解深度学习“黑箱”中的知识学习机制。本研究的主要创新点与贡献如下:(1)引入模块化操作以解决反向传播过程中复梯度的虚部无法参与变分核实数参数动态更新的问题。该方法充分利用虚部信息进行参数学习。同时,将具备自主学习能力的变分核嵌入网络首层,以提取稀疏的、具判别性的AM-FM特征,不仅实现了对原始信号的简洁表达,还增强了深度网络中 特征提取的可解释性。(2)提出一种基于残差连接的通道注意力机制,可对不同频带中提取的AM-FM特征赋予动态通道权重,从而强化关键信息。通过对不同频带上所学习到的注意力权重进行可视化,为理解诊断模型的学习机制提供途径。(3)实验结果表明,VKCNN在高噪声环境下的故障识别精度显著优于其他对比模型,表现出较强的抗过拟合能力与鲁棒的泛化性能。3 基础方法3.1 变分模态分解 VMD是一种常用的自适应提取准正交AM-FM信号的方法。由于其在抑制噪声方面表现出色,该算法被广泛应用于机械故障诊断领域。在VMD中,所提取的准正交AM-FM信号被定义为带限的本征模函数(Intrinsic Mode Function, IMF): 其中, 表示第 个模态分量, 和 分别表示该分量的瞬时幅度和瞬时相位。在重构输入信号时,IMF分量还应具有一定的稀疏性。每个模态的稀疏先验被选为其在频域中的带宽,进而可得到如下的约束变分问题: 其中, 表示狄拉克函数, 表示平方的 范数, 为中心频率, 为原始信号,符号“ ”表示卷积运算符。通过引入二次惩罚项和拉格朗日乘子,构造出增广拉格朗日函数以求解该约束变分问题。 其中, 表示拉格朗日乘子, 为平衡参数, 为更新参数, 表示迭代次数。3.2 卷积神经网络CNN通过卷积运算、非线性激活与池化操作实现了稀疏连接、参数共享和等效表示。在卷积层中,第 层的第 个卷积核对输入 进行卷积操作,其生成的特征映射可表示为: 其中 、 和 分别表示第 层中第 个卷积核的权重、偏置项以及输出, 为该层输入。随后,通过非线性函数对特征映射进行激活操作,以增强CNN的表达能力。该非线性激活过程可表示为: ,其中 为非线性激活函数。池化层用于降低特征图的维度并保留主要特征,以防止模型过拟合。本文主要采用最大池化层,定义为: 其中 表示下采样函数, 为下采样所用的缩放因子。本文将全连接层作为分类层,用于将特征映射到不同的故障类别。模型训练所采用的损失函数为交叉熵损失,定义如下: 其中 表示分类层输出的预测健康状态, 为样本标签, 表示标签总数。在训练过程中,采用反向传播算法计算损失函数关于权重的梯度,并通过随机梯度下降法更新网络权重。4 所提方法4.1 变分核卷积神经网络 传统CNN模型中随机初始化的第一层卷积核所提取的特征往往缺乏实际的物理意义,这将严重影响整个诊断模型的性能。通常情况下,故障信号的频谱上存在多个分布在不同频率范围内的单频簇,并且在复杂信号调制下,频域中的机械故障信息通常呈现多尺度分布的特性。VMD可以通过频域上的乘法运算将信号分解为一系列具有不同中心频率的模态分量,从而实现对多尺度分布下故障特征的分离。因此,引入变分核作为传统CNN模型中随机初始化的第一层卷积核的替代,用作可解释的特征提取范式。不同于VMD的原始解析解,所提出的近似滤波器在分解原始信号时不需要考虑重构约束,而是更加关注识别原始信号中与故障相关的特征,从而使每个模态分量仅作为特定频带内调幅-调频(AM-FM)成分的近似表达。此外,由于实际采集的信号大多包含噪声,拉格朗日乘子在保真项约束中的作用不大。因此,拉格朗日乘子通常设为较小的数值或为零。与此同时,变分核的构建引入了抗混叠约束,以确保每个滤波核都能最优地提取不同频率的信息。该约束的实质在于,在执行当前卷积核操作前,消除已被提取的频率成分。遵循这一策略,第 个变分核的特征可以定义为: 其中 表示第 个变分核的核函数。 表示之前变分核所滤波得到结果的总和。该抗混叠约束的应用能够增强故障频率成分的多样性与区分性,从而在收敛性与识别性能方面带来显著优势。图1展示了在不同参数下变分核滤波器的频率响应特性。从图1(a)中可以明显看出,通过调节平衡参数可以有效控制滤波器的带宽。考虑到与故障相关的模态分量的AM-FM信息各不相同,合理的带宽选择能够避免附着在目标频带上的冗余噪声成分。因此,通过调整平衡参数可以有效减弱噪声的影响。从图1(b)可以观察到,中心频率的设定能够控制滤波器提取所需的频率信息。然而,如果无法将其设定在最优频率范围内,故障特征信息的有效传递可能会受到阻碍,从而导致诊断结果的误判。因此,该参数的确定对特征提取结果也具有重要影响。 图1 变分核在不同参数下的频率响应特性:(a) 不同的平衡参数 ;(b) 不同的中心频率 4.2 数据驱动参数更新在大多数情况下,参数 和 通常是基于人工经验选择或启发式优化算法进行优化的 [30]。然而,由于自然启发式优化算法的目标函数与故障分类的损失函数之间缺乏可靠的对应关系,因此很难验证所优化的参数是否真正提升了故障分类的准确性。因此,本文所提出的变分核不仅通过不同的中心频率和平衡参数来挖掘信号在不同频段中的故障信息,还利用反向传播(BP)算法根据损失函数计算出与 和 相关的梯度,从而实现这两个可学习参数的更新。该计算过程如图2所示。 图2 变分核在不同参数下的频率响应特性:(a) 不同的平衡参数 ;(b) 不同的中心频率 由于 是复数值,包含实部和虚部,其相应的梯度也是复数,而 与 本身是实数,这就导致其虚部梯度无法参与参数更新。为此,本文巧妙地引入模值运算,将虚部信息引入到参数学习中,作为虚部与实数参数之间的桥梁。在这一背景下,实部与虚部分别用上标 和 表示,从而可以将复数的模表示为: 其中, 对 关于 和 的偏导数计算可分别通过以下公式进行: 因此, 关于 和 的偏导数可以表示为: 接下来,可以分别求出 关于 和 的偏导数。 在使用梯度下降和反向传播更新 和 之前,仔细观察这两个可学习参数的更新范围仍然至关重要。首先必须明确, 和 的梯度下降更新与深度网络的分类损失和学习率相关,并且在同一个卷积核中,它们共享相同的分类损失和学习率。如果这两个参数的更新范围差异显著,同时更新它们很可能会导致参数学习出现偏差。考虑到中心频率与平衡参数的取值范围确实存在较大差异,因此在更新参数之前需要对它们进行维度统一处理。借鉴VMD方法在频域中对频率进行离散化,变分核将中心频率进行无量纲化处理。对于平衡参数,本文采用最大最小归一化,归一化后的平衡参数可通过以下方式获得: 其中, 和 分别表示平衡参数取值范围的最小值与最大值。最终,归一化后的 和 的更新过程可以定义为: 其中, 表示学习率。4.3 基于残差连接的通道注意力机制变分核通过从输入信号中提取多频段的AM-FM信息,显著提升了网络在特征提取方面的丰富性与可靠性。然而,不同频段的故障特征并不均匀。如果直接舍弃那些包含较少故障信息的频段,可能会导致相应的梯度反向传播被中断。因此,本节引入了一种基于残差连接的通道注意力机制,以动态地增强内在的故障相关特征,同时抑制无关或错误的信息。通过这种方式,诊断模型能够更有效地从输入信号中的多个频段中识别并获取具有判别性的故障特征。 图3 基于残差连接的注意力机制结构如图3所示,基于残差连接的通道注意力机制包含一个全局平均池化层、两个核大小为 、通道数为1 的卷积核、一个 Meta-ACON 激活函数,以及一个 Sigmoid 激活函数。注意力机制的输入 被认为是多个通道上变分核特征图的组合,其中 表示 的第 个通道的特征图。 和 分别表示输入特征图的宽度和通道数。该通道注意力机制在激活过程中,通过全局平均池化层实现输入特征矩阵的降维,从而将各通道的空间信息整合为简明的通道描述符 ,其中 可通过公式计算得到: 聚合后的信息 被输入到两个卷积层中,以构建通道之间的相关性,其过程可定义为: 其中, 和 表示卷积映射函数, 是一维 Meta-ACON 激活函数。该激活函数通过平滑系数 控制神经元是否被激活以及激活的程度,其计算公式为: 其中, , 和 是可通过反向传播(BP)算法自适应调整的变量。 表示Sigmoid 激活函数。Sigmoid函数可用于计算平滑系数 ,其计算方式如下: 其中, 和 是卷积映射函数。当 时,表示该神经元处于非激活状态。随后,Sigmoid 函数被用于将输入向量 压缩到区间 内,从而得到权重向量 。该通道权重向量 可用于对变分核的原始特征图进行再调整,如公式所示: 因此,通道注意力机制的最终输出结果可表示为: 4.4 基于变分核卷积神经网络的故障诊断为了使网络第一层所提取的特征具备明显的物理意义,将前述所提出的变分核(Variational Kernel)嵌入至传统CNN的初始卷积层中,替代原先随机初始化的卷积核。随后,本文提出了一种用于滚动轴承智能故障诊断的新型方法,即基于变分核卷积神经网络(VKCNN)。该故障诊断方法的流程如图4所示,其具体实现过程如下: 图4 基于VKCNN的智能故障诊断方法流程图(1)第一层变分核的设计:为网络第一层中的每个通道设计具有不同中心频率与平衡参数的变分核滤波器。类似于VMD,频率被归一化到区间 。由于正负频率包含相同的幅度信息,故实际仅考虑正频率区域中有效频带的定位, 的取值限制在 区间内。(2)通道注意力机制的引入:通过多通道注意力机制实现对变分核所提取的各频段模态分量的自适应权重分配。随后,得到的通道重标定特征图被输入到与标准CNN结构相同的主干网络中。网络的结构参数详见表1。表1 网络的结构参数 (3)全连接层的映射:使用全连接层将特征映射到标签空间,实现训练样本故障类型标签的预测。(4)基于分类误差的反向传播:根据预测标签与真实标签计算分类误差的损失函数,并在反向传播(BP)过程中用于更新变分核的中心频率 和平衡参数 。训练完成后,所提出的VKCNN模型可用于测试数据的故障类型分类。为验证所提VKCNN方法的有效性,本文与传统CNN模型进行了对比。此外,为体现基于数据驱动、可更新参数策略的信号处理方法在特征提取方面的优势,本文还将其与结合不可训练的VMD与CNN的组合方法进行对比。后者采用启发式优化算法在信号预处理阶段优化VMD参数。此外,本文还在相同故障数据集上应用了将第一层CNN卷积核重新定义为小波核网络(Wavelet Kernel Network)的方式进行对比,所使用的小波包括Morlet小波核与拉普拉斯小波核(Laplace Wavelet Kernel)。为确保比较的公平性,本文所有用于对比的方法均使用相同的网络主干结构。5 实验验证为探讨VKCNN的特性并验证其有效性,本文分别在案例一和案例二的滚动轴承数据集上进行了实验验证。此外,本文还将所提出方法的结果与其他基于深度学习的智能故障诊断方法进行了对比分析。5.1 案例一案例一中所采用的数据集来自凯斯西储大学轴承数据中心。图5展示了本实验所使用的测试平台结构。实验中选用的是6205-2RS JEM 型驱动端轴承的振动数据。振动信号采集条件如下:电机负载为 0 至 3 马力(HP),对应的转速分别为 1797 r/min、1772 r/min、1750 r/min 和 1730 r/min。每种故障类型对应的加工直径分别为 0.178 mm、0.356 mm 和 0.533 mm。因此,在每一种工况下,共设定了包括正常状态在内的十种轴承健康状态标签。此外,依据不同的工作条件,振动信号被划分为四个数据集,分别为 D1、D2、D3 和 D4。 图5 CWRU试验台在数据预处理过程中,采用非重叠滑动窗口采样方法对振动信号进行截取,每个故障样本包含 1024 个数据点。随后,将整个数据集按照 4:1 的比例随机划分为训练集与测试集。在样本标准化阶段,对每个样本进行零均值归一化,并引入少量高斯白噪声,以防止模型训练过程中的过拟合现象。在分类任务中,本文所提出的方法(VKCNN)将与四种其他智能诊断方法进行对比:传统卷积神经网络(CNN);基于拉普拉斯小波核的卷积网络(LapCNN);基于Morlet小波核的卷积网络(MorCNN);不可训练参数的VMD与CNN组合方法(VMD + CNN)。为验证网络的稳定性并减少随机因素对结果的影响,每组实验均重复进行10次,并在相同任务下统计各网络的平均分类准确率与标准差。实验结果如图6所示。 图6 不同模型基于CWRU数据集的识别结果结果显示,本文提出的 VKCNN 模型在不同工况下的分类任务中表现出色,其平均准确率接近 100%。此外,其标准差在所有模型中最小,说明该网络在故障特征的识别与提取方面表现出最强的稳定性。就CNN模型而言,虽然其诊断准确率仅次于VKCNN,但其标准差较大,表明诊断性能波动性较强,存在一定程度的过拟合问题。通过比较LapCNN与MorCNN的诊断结果发现,LapCNN的性能优于MorCNN,可能是因为其波形更适合匹配故障信号中的冲击成分。因此,在实际应用中为小波核网络选择合适的小波核是十分关键的。相较而言,VMD + CNN方法的平均准确率较低,主要原因在于该方法的网络第一层不含可训练参数,导致该层提取的特征为固定形式,从而影响后续层的特征学习,造成整体性能下降。为了对模型的性能进行更深入的评估,本文在0 HP 工况条件下展示了各模型的训练过程,如图7所示。 图7 训练集的准确率与损失曲线首先,从图7(a)可以看出,在初始迭代阶段,CNN 与 VMD + CNN 由于第一层卷积核采用随机初始化,其分类准确率较低。相比之下,VKCNN、LapCNN 和 MorCNN 在第一层引入了领域知识,因而准确率更高,说明这类模型能够更快地提取具有代表性的特征。其次,从结果中可以发现,VKCNN 具有更快的收敛速度,且能够收敛到更高的准确率,而 VMD + CNN 和 MorCNN 的收敛速度最慢,且准确率较低。尽管CNN在最终也能达到较高准确率,但由于其特征提取过程中的不稳定性,收敛后的准确率仍存在局部波动,这一现象也与图6中的结论一致。类似地,从图7(b)所示的损失函数曲线也可以得出相同的结论。 图8 训练前后结果对比:(a) 变分核3的频率响应;(b) 变分核3的输出特征图;(c) 变分核7的频率响应;(d) 变分核7的输出特征图图8展示了所提出模型中变分核3和变分核7在训练前后各自的频率响应与输出特征图,输入数据为内圈故障信号。可以明显看出,训练前后变分核的频率响应与输出结果存在显著差异。如图8(a)所示,变分核3在训练前后的频率响应差异主要体现在中心频率的变化上。由图8(b)可以观察到,通过调整中心频率,该频段的幅度信息被更加清晰地突出出来。变分核7的变化则主要体现在频率响应曲线的带宽方面,如图8(c)所示。由图8(d)可以看到,训练后由于带宽减小,除了主频成分外,输出特征图中其余频率成分被有效抑制。综上所述,本文提出的变分核不仅能够自适应地在频域中搜索主频成分,还能有效抑制所提取模态分量中的噪声成分。 图9 不同模型在噪声数据集 D1 上的识别结果从图9可以看出,在所有测试的信噪比条件下,所提出模型的平均诊断准确率均优于其他四种同样基于CNN的诊断模型。尤其在 SNR 分别为约 2 dB 和 −4 dB 的情况下,VKCNN 的诊断准确率仍可达到 94.86% 和 90.35%。相比于四个对比模型中表现最好的 CNN,其准确率分别提升了 22.94% 和 42.06%。这表明,通过对 VKCNN 中平衡参数的迭代更新,模型展现出了强大的抗噪能力。此外,尽管噪声强度的增加会导致诊断模型的故障识别准确率下降,但具有良好抗噪鲁棒性的模型仍能有效抑制噪声干扰。例如,在信噪比为 −4 dB 的强噪声情况下,噪声强度比原始振动信号高出 2.5 倍,CNN、MorCNN、LapCNN 以及 VMD + CNN 的诊断准确率分别下降了 34.13%、28.76%、30.45% 和 32.29%,而 VKCNN 仅下降了 7.45%,进一步证明了其优异的抗噪性能。作为模型的消融实验,本文还测试了去除通道注意力机制的变分核模型(VKCNN1)在同一噪声数据集下的表现,结果亦展示于图9中。与本文中其他四种对比模型相比,VKCNN1 在所有SNR条件下的故障识别准确率均为最高。尤其在 SNR 为 −4 dB 的强噪声场景中,VKCNN1 的准确率相比 CNN、MorCNN、LapCNN 以及 VMD + CNN 分别提高了 40.11%、63.56%、53.82% 和 54.04%。这说明所提出的变分核滤波器能够在强噪声中有效提取深层嵌入的判别性特征,从而在复杂噪声环境下仍能保持较高的诊断精度。同时,将本文提出的诊断模型与 VKCNN1 的结果进行比较可发现,引入通道注意力机制的 VKCNN 模型准确率略高于未引入注意力机制的 VKCNN1。这一差异归因于注意力机制能够对不同频带中的故障特征进行通道级别的动态权重分配,增强故障相关特征、抑制冗余特征。因此,通道注意力机制的设计对于提升模型的诊断性能具有显著作用。5.2 案例二在如图10所示的滚动轴承故障测试平台上进行实验验证。测试所使用的轴承型号为 NTN-NU204,故障类型为通过线切割方式造成的单点损伤,包含外圈故障与内圈故障两种。缺陷的深度分别为 0.05 mm、0.15 mm 和 0.25 mm,分别对应轴承失效的不同严重程度,缺陷宽度统一为 0.5 mm。 图10 滚动轴承试验台本实验在三个不同的运行工况下采集振动数据,转速从 500 rpm 逐步提升至 1300 rpm,采样频率为 100 kHz。因此,在每个工作条件下,包含正常状态在内,共有 7 类标签。该数据集的具体说明见表2。表2 轴承数据集的具体说明 实验结果如表3所示。结果表明,在多种工况下,所设计的 VKCNN 在诊断性能上明显优于其他对比模型。表3 案例二中的分类结果 特别是在第一工况中,尽管该工况下由转速所引起的振动与冲击相对其他工况较弱,但所提出的模型在诊断准确率上仍明显优于其他模型中表现最好的 CNN,表明 VKCNN 能够有效提取有助于提升诊断精度的 AM-FM 信息。同时,表3还列出了各模型在训练与测试过程中的时间消耗。可以观察到,由于变分核在单次操作中需执行较复杂的数据处理,VKCNN 相较于 CNN 在训练与测试阶段耗时略长。然而,其出色的诊断精度与稳定的网络性能完全值得投入额外的时间。相比之下,VMD + CNN 模型的计算成本最高,其额外计算主要来自于自适应信号处理中的迭代求解过程。作为一种依赖大数据的智能故障诊断方法,这种模型显然在实际应用中面临较大挑战。此外,本文还对所有对比模型的模型复杂度进行了说明,包括其参数数量(Params)与每秒浮点运算次数(FLOPs)。图11展示了各诊断模型在三种工况下的平均准确率与其模型复杂度之间的对比。可以看出,CNN 模型具有最高的参数规模与FLOPs,是所有模型中复杂度最高的,然而,较大的参数数量也意味着其更易发生过拟合。另外,从 MorCNN 与 LapCNN 的情况来看,其模型复杂度与训练时间基本相近。但如 VKCNN 与 CNN 的对比所揭示,模型复杂度与计算时间并不总是呈正相关关系。 图11 平均准确率与模型复杂度对比:(a) 准确率与参数数量(Params)的关系;(b) 准确率与每秒浮点运算次数(FLOPs)的关系为了进一步分析各模型对不同故障类型的分类准确率,图12给出了各模型在数据集 S1 实验中的混淆矩阵,图13则绘制了各诊断模型的测试损失曲线,以辅助实验结果分析。从 VKCNN 的混淆矩阵可以看出,除标签3略高的识别错误率外,其他类别的识别准确率均超过 90%。标签3多被误判为标签2。根据表2,标签2与标签3均为内圈故障数据,但缺陷尺寸不同。由于这两类数据在故障严重程度上的差异较小,特征具有较高相似性,因而对诊断模型提出了较高的区分能力要求。 图12 诊断模型的混淆矩阵:(a) VKCNN;(b) CNN;(c) LapCNN;(d) VMD + CNN从图13可以明显观察到,VKCNN 的损失曲线收敛最稳定,表明其训练过程更加平稳、收敛效果更优。相比之下,CNN 的收敛最不稳定,表明其可能存在明显的过拟合问题。而 MorCNN 与 VMD + CNN 的测试损失值普遍较高,可能是由于特征提取能力不足所导致的欠拟合问题。 图13 诊断模型的测试损失表4展示了各诊断模型第一层参数数量的对比情况。对于 CNN 的第一层卷积结构,其可训练参数数量等于卷积核长度L与卷积核数量N的乘积。因此,如果该层使用较长的卷积核,将会显著增加需要训练的参数量。相比之下,VKCNN 的第一层仅包含N个可训练参数,大大减少了模型的复杂度与过拟合风险。因此,从模型结构角度分析,CNN 更容易受到过拟合的影响,而 VKCNN 在保持特征表达能力的同时,有效控制了模型复杂度,展现出更强的泛化能力。表4 不同诊断模型第一层结构对比 此外,为验证所提出模型的鲁棒性,本文还使用噪声数据集 S2 进行测试,实验结果如表5所示。从结果可以看出,在四种不同噪声水平下,VKCNN 的诊断准确率始终优于其他对比模型,且随着噪声强度的增加,其在抗噪性能方面的优势愈发明显。具体而言,当 SNR 为 2 dB 时,VKCNN 在测试准确率上相较于 CNN、MorCNN、LapCNN 和 VMD + CNN 分别提升了 7.93%、7.45%、9.64% 和 10.02%。而在 强噪声条件下,VKCNN 的诊断准确率相较于上述基线模型分别提升了 28.53%、13.89%、37.4% 和 26.81%,表现出显著的抗噪性能提升。上述分析进一步表明,VKCNN 在抗噪鲁棒性方面具有突出的优势,能够在强噪声干扰环境中保持良好的故障识别能力。表5 不同模型在噪声数据集 S2 上的诊断准确率 6 模型可解释性分析本部分从两个方面对 VKCNN 的模型可解释性进行分析,包括网络第一层的特征提取形式以及模型学习机制。第一个方面旨在通过可视化网络第一层的特征图来直观描述模型的特征提取形式,并进一步分析稀疏特征图对模型泛化能力的影响;第二个方面则尝试通过注意力权重的可视化,探讨深度学习模型学习机制与人工故障诊断知识之间的潜在联系。6.1 网络第一层的特征提取形式不同诊断模型第一层的特征图可视化结果如图14所示。可以观察到,VKCNN 的第一层特征图将提取到的特征映射为由多个单尺度模态组成的多通道滤波模态映射,该结构充分融合了来自不同模态、不同尺度下的判别性信息,包括中心频率、带宽与幅度等因素。提取特征之间不存在混叠现象,使得特征映射具有高度简洁与稀疏性,这不仅有利于后续的快速识别,还为模型的决策过程提供了事后可解释的特征表示。同时还可以发现,与变分核相比,其余三种类型卷积核对应的特征映射明显更加复杂,不同卷积核之间提取到的频率成分也非常相似。本质上,正是由于引入了基于抗混叠约束的模态滤波机制,使得变分核能够有效挖掘具有判别特性的模态成分,进而形成具有良好区分能力的稀疏特征映射。 图14 不同核的特征映射:(a) 变分核;(b) 卷积核;(c) 拉普拉斯小波核;(d) Morlet 小波核为说明第一层特征图的稀疏性对诊断模型泛化性能的影响,表6列出了不同诊断模型的 Gini 指数 和 损失比值 。其中,Gini 指数 用于评估模型第一层特征图的稀疏性,数值越大表示特征图越稀疏,稀疏性越好;损失比值 为模型训练集与测试集在最后 10 个训练周期内的损失均值之比。该比值越接近于 1,说明模型受到过拟合影响较小,即具有更好的泛化能力。表6 诊断模型的 Gini 指数与损失比值 从表6可以看出:变分核具有最大的 Gini 指数和最大的损失比值,说明其特征图最为稀疏,且模型的泛化性能最优;卷积核与拉普拉斯小波核的 Gini 指数较小,对应的损失比值也较小,且两者的数值接近,表明其稀疏性和泛化性能相对较弱;此外,Morlet 小波核的 Gini 指数和损失比值也显著高于卷积核与拉普拉斯小波核,说明其在稀疏性与泛化能力方面表现更优。综上可见,特征图的稀疏性对模型的泛化能力有正向影响,而变分核凭借其稀疏性优势在建模过程中展现出更好的鲁棒性与诊断性能。以上分析充分说明了特征图稀疏性与损失比值之间存在正相关关系,据此可以推断:增强网络第一层特征图的稀疏性,有助于显著提升模型的抗过拟合能力。需要指出的是,尽管 Morlet 小波核的特征图具备良好的稀疏性,但从图14(d)中的幅度信息可见,其特征提取能力较弱,无法充分提取某些频段中的频率成分。综上所述,变分核通过专注提取特定频段的信息,不仅在一定程度上避免了特征间的重叠,还提升了网络第一层对输入信号的稀疏表达能力,最终有效增强了模型的泛化性能。6.2 诊断模型的学习机制 为了更好地理解诊断模型在整个训练过程中的学习机制,本文对模型从频率域中学习到的注意力权重进行可视化,得到如图15所示的注意力权重谱图。图中不同颜色代表不同的注意力权重值,其中红色表示权重最高的区域。图15 注意力权重谱图:(a) 训练前;(b) 训练后从谱图中可以观察到,频谱中的明显峰值被注意力机制有效捕捉到,这一结果与人脑对信息处理的认知机制高度一致。通过对比训练前后的注意力权重谱图还可以发现,一些初始权重较低的频段在训练后其权重显著上升,表明网络能够通过训练自适应地增强与故障相关的激活映射,从而提取更具判别性的故障特征。同时,图15(b)中以玫红色圆圈标出的频段在原始幅度信息中并不明显,但其对应颜色显示该频段在训练过程中触发了注意力机制。这说明模型在某些频段中学习到了潜在的、有用的诊断信息,即使这些信息在幅值上并不突出。为了进一步验证这一现象的合理性,本文引用了 Infogram 分析方法。Infogram 是一种有效的工具,可用于寻找信号的最优共振频带。该方法通过频谱负熵指标来表征故障重复瞬态在频率域中的循环平稳性。如图16(a)所示,利用 Infogram 分析可以定位出信号的共振频带为 [4500, 6000] Hz。进一步通过图16(b)中的包络谱分析可以发现,该频段确实包含了与故障相关的重复瞬态特征。更为重要的是,Infogram 所定位的频带与图15(b)中注意力机制标记的频段基本一致。这一结果说明,深度神经网络模型的学习机制与人工轴承故障诊断知识高度契合,具有良好的物理可解释性与诊断逻辑一致性。图16 基于 Infogram 方法的分析结果:(a) 共振频带的确定;(b) 包络谱分析6 结论考虑到在复杂信号调制条件下,轴承故障信息在频域中呈现出多尺度分布特性,本文提出了一种可解释的变分核(Variational Kernel),能够自适应地提取有用的 AM-FM 信息。将该变分核的先验知识嵌入到 VKCNN 网络结构中,为模型提供了一个数据驱动且具有可解释性的特征提取方案。将所提出的 VKCNN 应用于两个不同轴承数据集的故障诊断实验,得出以下结论:(1)解决了忽略虚部及不同尺度可训练参数协同更新的问题,通过建立复数梯度与实际可训练参数在同一尺度下的映射关系,确保了数据驱动机制在变分核中对可学习参数的有效更新,从而避免了以往忽略虚部信息或尺度失衡带来的误差。(2)采用反向传播算法实现变分核参数的自动学习,通过使用 BP 算法对变分核的两个核心参数进行更新,有效规避了现有信号预处理与深度学习网络两阶段方法中存在的参数固化问题。具备自学习能力的变分核能够聚焦于物理上具有意义的 AM-FM 成分,增强了其可解释性。(3)引入通道注意力机制实现跨频带特征的自适应增强,通道注意力机制可根据不同频带模态特征对诊断结果的贡献程度,自适应地为各频带分配通道级别的权重。(4)特征图可视化验证了稀疏 AM-FM 特征对模型泛化能力的提升,通过可视化第一层特征图,可以发现 VKCNN 所提取的 AM-FM 特征具有良好的稀疏性,从而显著提升了诊断模型的泛化性能。进一步结合注意力权重谱与 Infogram 方法的结果,可知模型学习机制与人类对轴承故障的认知模式高度一致,增强了模型诊断结果的可靠性与可解释性。编辑:Jin校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈