通过输入空间过参数化改进一维卷积神经网络的航空发动机轴间轴承故障诊断

5月前浏览1066

本期给大家推荐的文章是《ISONet：通过输入空间过参数化改进一维卷积神经网络的航空发动机轴间轴承故障诊断》。本文提出了一种新型一维卷积神经网络变体——ISONet，旨在解决传统1DCNN在航空发动机系统轴间轴承故障诊断中性能不足的问题。

作者写作思路清晰，实验丰富，结果分析详实且开源代码，小编建议阅读公众号简介推文后对全文仔细研究。

开源代码:

https://gitee.com/frontxiang/torch_isonet.git

论文基本信息8

论文题目：ISONet: Reforming 1DCNN for aero-engine system inter-shaft bearing fault diagnosis via input spatial over-parameterization

论文期刊：Expert Systems with Applications

论文日期：2025年

作者：

Qian Xiang(a), Xiaodan Wang(b), Yafei Song(b), Lei Lei(c)

机构：

a:Laboratory of Intelligent Control, PLA Rocket Force University of Engineering, Xian, 710025, China

b:College of Air and Missile Defense, Air Force Engineering University, Xi'an, 710051, Chinae

c:College of information and Navigation, Air Force Engineering University, Xi'an, 710077, China

第一作者简介：

向前，男，火箭军工程大学“装备智能应用”教育部重点实验室讲师，主要研究兴趣为深度学习在故障诊断中的应用。以第一作者在Pattern Recognition, Expert Systems with Applications等杂志发表学术论文13篇，其中SCI一区Top论文4篇。申请国家发明专利13项、软件著作权1项。参与国家自然科学基金项目3项、省级项目3项。Journal of Artificial Intelligence and Control Systems杂志青年编委（2025.04-2027.04）。IEEE transactions on cybernetics, Engineering applications of artificial intelligence, Applied Soft Computing, Neurocomputing, Measurement Science and Technology, Applied Intelligence等人工智能和工程领域SCI杂志审稿人。

邮箱: qianxljp@126.com;

ORCID: https://orcid.org/0000-0001-6810-8446

摘要

本文提出了一种新型一维卷积神经网络(One-Dimensional Convolutional Neural Networks, 1DCNN）变体——ISONet，旨在解决传统1DCNN在航空发动机系统轴间轴承故障诊断中性能不足的问题。ISONet通过引入输入空间过参数化技术，在训练阶段卷积层的优化能力得到了提升，同时保持测试阶段的计算效率。理论分析表明，这种过参数化等效于从动态微分的角度隐式集成特定的预处理方案，显著提升了模型收敛速度和稳定性。实验采用真实航空发动机振动数据集验证，结果显示ISONet在有限样本条件下诊断准确率超过99%，优于当前主流深度学习模型（如LSTM、Transformer等）。该研究为复杂机械系统的故障诊断提供了一种高效且鲁棒的新方法。

关键词：航空发动机系统；故障诊断；一维卷积神经网络；过参数化；预处理方案

1 引言

航空发动机是飞行安全的核心部件，其轴间轴承需在高转速、高温、高负载下工作，易发生内圈、外圈等故障。故障的早期精准诊断可避免重大事故，但传统方法依赖人工特征提取，难以适应复杂工况下的信号变化。现有方法的局限性包括如下三方面：传统信号处理（如傅里叶变换、稀疏表示）依赖专家经验，泛化能力差；深度学习方法（如CNN、LSTM）虽能自动提取特征，但标准1DCNN在复杂振动信号中收敛慢、小样本性能不足；改进模型（如多尺度卷积、注意力机制）虽提升性能，但结构复杂且缺乏理论解释。针对1DCNN优化不足的问题，提出通过输入空间过参数化增强模型训练能力，同时保持测试阶段的高效性，为工业诊断提供可解释、低成本的解决方案。

2 ISONet模型架构

2.1 整体结构

图1 模型整体结构

ISONet由输入层、1D-ISOConv层（过参数化卷积）、批量归一化（Batch Normalization, BN）、Mish激活函数、池化层、展平层和Softmax分类器组成。核心创新在于1D-ISOConv层。

2.2 1D-ISOConv层设计

过参数化核：将标准卷积核分解为两个张量和，其中初始化为零矩阵叠加单位矩阵，采用Kaiming初始化。

图2 卷积核的输入空间

训练阶段过参数化策略：将标准卷积核分解为两个张量和，其组合形式为：

其中，为过参数化核，为传统卷积核。

初始化与训练机制：采用Kaiming正态分布初始化，与标准卷积一致；初始化为零矩阵叠加单位矩阵，零矩阵对应可训练参数，确保训练初期行为与标准卷积一致。训练时，的零矩阵部分通过梯度更新学习信号特征，单位矩阵部分保持固定，防止初始阶段参数剧烈波动。

测试阶段：将和折叠为等效标准卷积核，确保计算效率。

维度选择理由与优势: 选择输入通道（）和卷积核空间维度（）进行过参数化，而非输出通道。原因包括： 1.减少参数量：每个输出通道共享同一组，避免参数爆炸（若选择输出通道过参数化，参数量为，远超输入通道方案）。 2.矩阵运算友好：输入通道作为连续内存存储，便于高效矩阵乘法加速。

3 理论分析：过参数化的隐式优化机制

图3 将输入通道过参数化卷积的张量计算过程转化为矩阵计算过程

动态微分方程视角分析：由于卷积运算是张量运算，无法从理论上对输入通道过参数化进行解释，因此本文按照图3的方式将卷积的张量操作转化为矩阵形式，通过矩阵运算和微分动力学证明，输入空间过参数化等效于隐式引入动量项和自适应学习率。

3.1 关键定理与证明

定理1（动态微分方程视角）：假设参数，其连续时间梯度下降动态满足：

其中，为梯度在方向上的投影。动态调整学习率，实现自适应步长。第二项隐含动量效应，沿历史梯度方向加速收敛。

定理2（离散时间更新规则）：通过离散化定理的微分方程，得到参数更新规则：

该式表明，过参数化通过以下机制加速优化：

1、自适应学习率：随参数范数增大而提升步长，增强远离初始点的探索能力。

2、动量机制：投影项继承历史梯度方向，抑制震荡。

3.2 理论意义

预条件梯度下降：过参数化等价于对损失函数引入预条件矩阵，调整梯度方向以绕过鞍点。

隐式正则化：单位矩阵初始化约束参数空间，避免过拟合。

4 ISONet训练策略

图4 ISONet训练和测试流程

优化器：采用Adan优化器（Nesterov加速的Adan变体，TPAMI2024发表的优化器），结合动态学习率调整和梯度投影，过程如图4所示。

损失函数：交叉熵损失，通过小批量随机梯度下降优化。

5 实验验证

5.1 数据集与实验设置

HIT数据集：来源于哈尔滨工业大学航空发动机测试台包含2412组航空发动机振动信号，涵盖健康、内圈故障、外圈故障三种状态，采样频率25 kHz，数据划分按70%训练、30%测试。

硬件环境：8块NVIDIA Tesla T4 GPU，PyTorch框架，固定超参数（学习率，批量大小32，训练200轮）。

5.2 关键实验结果与分析

5.2.1 超参数敏感性测试

通道数与卷积核尺寸： ISONet在通道数和卷积核时达到最高准确率（98.92%），表明深层、大核结构更适应复杂振动模式。标准1DCNN在相同配置下准确率为98.55%，差距源于过参数化的隐式优化效应。批量大小影响：ISONet在时表现最优，过大（）导致梯度估计偏差，过小（）增加更新方差。

表1 不同通道配置和批量大小的1DCNN和ISONet性能比较

5.2.2 优化器对比

通过与不同的训练方法对比，由论文图6可知，Adan训练器效果最优。论文图7展示了在不同优化器下标准1DCNN与ISONet的对比实验，可知ISONet都优于标准1DCNN，证明了输入通道过参数化的通用性。另外，不同优化器都引入了一定加速机制，而输入通道过参数化在此基础上仍然可以进一步加速，说明其对于网络的加速机制具有不可替代性。

图6 ISONet在不同优化器下的精度曲线:(a)训练精度曲线,(b)测试精度曲线

图7 使用不同优化器的ISONet和1DCNN的损失曲线:(a)Adadelta,(b)Adamax,(c)AdaBelief,(d)CAME,(e)Adan。

5.2.3 激活函数选择

论文对比了不同激活函数对结果的影响，由论文表2可知，Mish在各个指标上综合来看效果最优。

表2 不同激活函数的结果

5.2.4 与SOTA模型对比

由论文表3可知，ISONet分类效果优于主流模型，Transformer-C准确率仅70.56%，CA-1DCNN（通道注意力）准确率98.03%，弱于ISONet的99.92%，表明过参数化比注意力更有效。

表3 比较SOTA模型在加权平均精确度、召回率和F1分数方面的性能

图14 各种模型在PQS-FP坐标系中的定位

作者引入参数量变化-拟合性能坐标系坐标系(Parameter Quantity Shifting-Fitting Performance coordinate system，PQS-FP）旨在解决传统模型评估中参数量与性能关系难以量化的问题。通过将模型的参数量作为横轴、拟合性能作为纵轴，该坐标系能够直观展示模型在增加复杂度时性能的变化趋势：若模型随参数量增加持续提升性能位于欠拟合衰减区(UAR, Underfitting Attenuation Region）则表明其尚未充分利用容量，适合进一步优化；反之，若性能停滞或下降位于过拟合加剧区(Overfitting Exacerbation Region, OER)，则需抑制冗余参数。例如，ISONet在UAR区呈现参数量与准确率的正向关联（从87%提升至99.9%），验证了过参数化技术通过隐式正则化平衡学习能力与泛化的有效性，而Transformer等模型因陷入OER区揭示了结构对小样本振动信号的不适应性。这一坐标系为模型设计提供了动态权衡参数效率与性能的理论工具，尤其在资源受限的工业场景中，可指导工程师避免盲目增加复杂度，实现高效诊断。

5.2.5 不同有限样本条件下分类效果

由论文表4可知，ISONet通过不同比列的训练集训练之后，在各个指标上绝大多数都优于其它方法，展现了较好的有限样本分类效果。

表4 各种模型在不同训练样本量条件下的性能

6 结论

本文提出了一种提升1DCNN在航空发动机轴间轴承故障诊断中性能的新方法。所提出的ISONet架构通过引入输入空间过参数化，在诊断准确率上展现出显著提升，尤其在小样本条件下优势明显。这一进步归因于创新的1D-ISOConv层设计，其为模型引入了额外的可学习参数。通过矩阵和向量操作分析，本文阐明了输入空间过参数化的理论基础，为观察到的性能提升提供了坚实的理论支撑。1D-ISOConv层将张量操作转化为矩阵/向量操作，形成了一种特定的预处理方案，有效融合了动量和自适应学习率的优势。通过航空发动机试验台的真实振动数据验证，ISONet的性能优于现有深度学习模型。对比分析表明，即使在数据稀缺的挑战下，ISONet仍展现出强大的故障诊断鲁棒性，满足航空发动机维护和可靠性领域的关键需求。研究结果不仅丰富了神经网络优化的理论理解，还为提升航空发动机诊断系统的可靠性和性能提供了实用解决方案。ISONet的变革潜力标志着预测性维护领域的重要进展，对更广泛的工程诊断领域具有借鉴意义。

编辑：曹希铭

校核：李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、Tina、陈宇航、海洋、陈莹洁、王金、赵诚、肖鑫鑫

该文资料搜集自网络，仅用作学术分享，不做商业用途，若侵权，后台联系小编进行删除

来源：故障诊断与python学习

可解释智能诊断新路径 | VKCNN：面向滚动轴承故障诊断的可解释变分核卷积神经网络

本期分享唐刚教授团队的论文投稿：VKCNN：面向滚动轴承故障诊断的可解释变分核卷积神经网络。传统卷积神经网络在滚动轴承故障诊断中虽取得广泛应用，但由于特征提取过程缺乏物理可解释性，其工业落地仍面临挑战。为此，本文提出了一种全新的可解释变分核卷积神经网络（Variational Kernel CNN，VKCNN）方法。该方法通过在网络初始层引入具备物理意义的近似滤波器，精准提取幅度调制与频率调制特征，并结合变分核结构与残差注意力机制，实现了特征通道的动态加权与高相关性特征提取。同时，加入注意力加权谱分析，进一步提升了模型的可解释性与诊断透明度。实验证明，VKCNN在多个滚动轴承数据集上表现出强鲁棒性，尤其在噪声环境下准确率显著优于对比模型，是兼具性能与可解释性的智能故障诊断新路径。论文链接：通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目：VKCNN: An interpretable variational kernel convolutional neural network for rolling bearing fault diagnosis论文期刊：Advanced Engineering Informatics论文日期：2024年10月论文链接:https://www.sciencedirect.com/science/article/pii/S1474034624003537?via%3Dihub作者：Guangyi Chen, Gang Tang, Zhixiao Zhu机构：a: College of Mechanical and Electrical Engineering, Beijing University of Chemical Technology, Beijing 100029, China团队带头人简介：唐刚教授，北京化工大学博士生导师。现为中国振动工程学会动态信号分析专委会常务理事、故障诊断专委会理事，中国人工智能学会青年工作委员会委员。入选北化青年英才百人计划，被评为“全国石油和化工教育青年教学名师”。长期从事机械故障诊断和智能运维技术等研究工作。近年来发表高水平论文50余篇，参与起草国家标准4项；主持国家重点研发计划“揭榜挂帅”课题、特殊计划项目、国家自然科学基金和企业合作项目等，相关成果应用于航天航空等多个领域高端装备的智能化运维。（来源: https://mech.buct.edu.cn/2018/0227/c3107a46844/page.htm）目录1 摘要2 引言3 理论基础3.1 变分模态分解3.2 卷积神经网络4 所提方法4.1 变分核卷积神经网络4.2 数据驱动参数更新4.3 基于残差连接的通道注意力机制4.4 基于变分核卷积神经网络的故障诊断5 实验验证5.1 案例一5.2 案例二6 模型可解释性分析6.1 网络第一层的特征提取形式6.2 诊断模型的学习机制7 结论1 摘要随着CNN的发展，滚动轴承的智能故障诊断取得了显著进展。然而，特征提取过程缺乏物理可解释性，严重削弱了其可信度，从而极大地限制了其在工业中的实际应用。为解决这一问题，本文提出了一种可解释的变分核卷积神经网络（Variational Kernel CNN，VKCNN）用于滚动轴承故障诊断。首先，在CNN的初始层中精心引入一种新型的近似滤波器，用以有效提取分布于不同频带、具有明确物理意义及故障相关信息的幅度调制和频率调制成分。其次，引入模块化操作，以构建变分核中两个等比例实参数与复数梯度之间的反向传播关系。随后，提出一种基于残差连接的通道注意力机制，能够为来自不同频带的故障相关特征动态分配通道级权重。此外，引入注意力加权谱，从后验可解释性的角度探索模型的学习机制。最后，本文在两个滚动轴承数据集上验证了所提VKCNN模型，实验结果表明该模型在抗过拟合能力上表现出较强的鲁棒性，并在噪声场景中优于其他对比模型。关键词：卷积神经网络，变分核，变分模态分解，注意力机制，滚动轴承，智能故障诊断2 引言作为“工业关节”，滚动轴承具备良好的传动性能和承载能力，因而被广泛应用于航空发动机、工业机器人、风力发电机等各类旋转机械设备中。作为现代旋转机械中的重要基础部件之一，滚动轴承同时也是故障高发的关键部件。一旦在运行过程中发生严重故障，极易引发重大的安全事故。因此，发展面向滚动轴承的智能故障诊断与健康监测方法具有重要意义 [1-3]。据文献[4]报道，传统的智能故障诊断方法通常遵循“滤波器组–特征提取–决策判断”三阶段流程。其中，“滤波器组”阶段旨在借助稀疏编码、小波变换、模态分解等先进信号处理技术，对测得信号进行去噪处理，并提取故障信号的内在特征 [5-7]。尽管基于信号处理的特征提取方法能够结合专家知识与物理信息，使故障轴承的特征表示具备一定可解释性，但此类方法通常需要针对不同数据样本进行特定的预处理，同时需对若干参数进行精细调整，以获得期望的故障特征。这种依赖精心设计特征的方式通常仅适用于特定场景，限制了传统智能故障诊断模型的泛化能力。此外，在面对大规模异构数据时，由人工提取与选择故障特征不仅工作量繁重，而且极为耗时。近年来，深度学习模型因其能够直接从原始数据中挖掘具有代表性的特征，并将所学习的特征映射到目标轴承的健康状态，在国内外研究者中引起了广泛关注 [8,9]。该类方法跳过了繁琐的人工特征提取与选择流程，能够以端到端的方式处理海量监测数据。因此，各类深度学习模型中的神经网络结构被广泛应用于滚动轴承的智能故障诊断中，包括自编码器 [10]、循环神经网络（Recurrent Neural Network, RNN）[11] 以及CNN [12,13]。其中，CNN因其具备局部感受野的高效利用、本地权重共享以及多卷积核融合等显著优势，在故障诊断领域中得到了更广泛的应用。尽管基于CNN的智能故障诊断方法在近年来取得了重要进展，但其学习到的特征缺乏可解释性的问题依然存在。这一问题增加了评估模型可信度的难度，从而限制了其在工业环境中的实际部署。如果能够掌握CNN所学习的典型故障特征所遵循的客观规律，就可以通过调整模型参数来实现对网络学习过程的引导与优化，进一步提升其对领域知识的学习能力以及模型本身的可靠性。因此，围绕CNN的智能故障诊断方法开展可解释性研究具有重要意义。一种可行的路径是通过可视化权重或特征图，对已训练CNN进行后验解释。例如，Grezmak 等人 [14] 利用逐层相关传播方法，在输入信号的时频图中可视化不同区域对诊断结果的贡献值，实验结果表明所设计的CNN能够通过学习特定频带来区分故障类型。Jia 等人 [15] 则通过神经元激活最大化（Neuron Activation Maximization, NAM）算法分析了深度归一化CNN的工作机制，发现网络的第一卷积层实质上扮演着多通道滤波器组的角色。另一种解决思路是将可解释的信号处理方法引入模型结构中，这种方式不仅提升了深度学习模型的内在可解释性，还充分发挥了其数据驱动的参数学习优势，使得信号处理方法的参数能够实现自动更新 [16]。例如，Li 等人 [17] 在CNN的首层中引入了连续小波卷积层，不仅简化了网络结构，还利用数据驱动的小波基函数提取与冲击相关的周期性成分，实验表明该方法在滚动轴承与齿轮的智能故障诊断中具有良好效果。Liu 等人 [18] 提出了时域散射卷积网络模型，基于小波散射原理构建，实现了完全可解释的轴承故障诊断。Ye 等人 [19] 构建了一种基于形态学滤波的神经网络，用于从振动信号中分离冲击成分并抑制噪声。然而，正如文献 [17] 所指出的，小波核CNN的诊断性能高度依赖于小波基函数的形状。其与故障信号中冲击成分匹配度越高，诊断精度也越高。因此，在使用小波核方法时应更加重视小波基的设计。而对于形态学滤波器，由于不同故障类型所引起的冲击信号在形态上的差异不明显，构建有效的形态学字典存在困难，从而限制了判别性特征的学习能力 [20]。众所周知，由故障冲击激发的系统共振通常会导致冲击信号出现幅度调制与频率调制（AM-FM）现象 [21]。因此，AM-FM信号往往包含可用于区分不同故障类型的重要特征。变分模态分解（Variational Mode Decomposition, VMD）已被证明在处理复杂调制信号方面具有良好效果 [22]。与前述传统信号处理方法不同，VMD方法不依赖于预定义的小波基函数或形态学字典，而是能够对待分析信号进行自适应分解。VMD将任何信号视为多个在频域中相互正交的AM-FM子信号的集合，每个子信号在某一中心频率附近具有紧凑的带宽。在VMD中，提取这些子信号的过程被定义为一种引入Tikhonov正则化的改进Wiener滤波器模型，其本质类似于在频域中对不同频段进行带通滤波操作。随后，从定位到的频带中提取AM-FM子信号 [23]。Song 等人 [24] 提出一种智能多通道谱结构扫描器，用于检测多通道轴承信号中有效频段的中心频率，并通过一步计算获得相应的通道子信号。Zheng 等人 [25] 则基于二分法对频带进行划分，以识别AM-FM子信号所在的具体频率区间。Jiang 等人 [26] 提出一种逐步分解信号的方法，通过峭度准则及中心频率对目标子信号进行定位。由此可见，VMD在提取AM-FM子信号时，实质上是寻找与故障密切相关的频率区间。上述方法表明，在不同滚动轴承故障诊断场景或任务中，充分的先验知识对于频带划分至关重要。然而，目前尚无一种权威且具鲁棒性的频带选择策略可适用于所有诊断场景，这在面对未知场景或新任务时，会引入较大的不确定性，同时增加频带选择的时间与经济成本。此外，需要注意的是，局部故障不仅可能激发轴承本体的共振，还可能激发邻近部件的共振，从而进一步复杂化信息的调制过程。因此，实际测得信号的频谱中通常包含多个分布在不同频段的频谱簇，导致故障信息在频域中呈现明显的多尺度分布特征 [27]。然而，现有方法往往仅关注有限频带内的故障特征，而忽略其他可能包含有效信息的频段，这可能导致特征提取过程中的信息丢失，从而影响故障诊断结果的准确性与可靠性。因此，如何在缺乏充分先验知识的条件下，实现多尺度故障信息的自适应提取，仍是当前亟待解决的重要挑战。得益于深度学习模型强大的参数学习能力，基于多尺度故障信息提取原理的近似滤波器可被嵌入至深度网络中，应用于各种故障诊断任务，并将其关键超参数集成到诊断模型的参数体系中。通过反向传播算法，可以在保持深度网络所提取特征固有可解释性的同时，自适应优化近似滤波器的超参数。为实现对分布于不同频带的AM-FM分量的自适应提取，本文提出了一种基于VMD信号分解原理构建的新型近似滤波器，并将其集成至一维卷积神经网络中，用于滚动轴承故障诊断。通过构建变分核卷积神经网络（VKCNN），有效提升了特征提取阶段的事中（ad-hoc）可解释性。此外，考虑到不同频带的变分核所提取的AM-FM特征在诊断任务中的重要性存在差异，本文进一步引入通道注意力机制以增强事后（post-hoc）可解释性，从而有助于理解深度学习“黑箱”中的知识学习机制。本研究的主要创新点与贡献如下：（1）引入模块化操作以解决反向传播过程中复梯度的虚部无法参与变分核实数参数动态更新的问题。该方法充分利用虚部信息进行参数学习。同时，将具备自主学习能力的变分核嵌入网络首层，以提取稀疏的、具判别性的AM-FM特征，不仅实现了对原始信号的简洁表达，还增强了深度网络中特征提取的可解释性。（2）提出一种基于残差连接的通道注意力机制，可对不同频带中提取的AM-FM特征赋予动态通道权重，从而强化关键信息。通过对不同频带上所学习到的注意力权重进行可视化，为理解诊断模型的学习机制提供途径。（3）实验结果表明，VKCNN在高噪声环境下的故障识别精度显著优于其他对比模型，表现出较强的抗过拟合能力与鲁棒的泛化性能。3 基础方法3.1 变分模态分解 VMD是一种常用的自适应提取准正交AM-FM信号的方法。由于其在抑制噪声方面表现出色，该算法被广泛应用于机械故障诊断领域。在VMD中，所提取的准正交AM-FM信号被定义为带限的本征模函数（Intrinsic Mode Function, IMF）：其中，表示第个模态分量，和分别表示该分量的瞬时幅度和瞬时相位。在重构输入信号时，IMF分量还应具有一定的稀疏性。每个模态的稀疏先验被选为其在频域中的带宽，进而可得到如下的约束变分问题：其中，表示狄拉克函数，表示平方的范数，为中心频率，为原始信号，符号“ ”表示卷积运算符。通过引入二次惩罚项和拉格朗日乘子，构造出增广拉格朗日函数以求解该约束变分问题。其中，表示拉格朗日乘子，为平衡参数，为更新参数，表示迭代次数。3.2 卷积神经网络CNN通过卷积运算、非线性激活与池化操作实现了稀疏连接、参数共享和等效表示。在卷积层中，第层的第个卷积核对输入进行卷积操作，其生成的特征映射可表示为：其中、和分别表示第层中第个卷积核的权重、偏置项以及输出，为该层输入。随后，通过非线性函数对特征映射进行激活操作，以增强CNN的表达能力。该非线性激活过程可表示为：，其中为非线性激活函数。池化层用于降低特征图的维度并保留主要特征，以防止模型过拟合。本文主要采用最大池化层，定义为：其中表示下采样函数，为下采样所用的缩放因子。本文将全连接层作为分类层，用于将特征映射到不同的故障类别。模型训练所采用的损失函数为交叉熵损失，定义如下：其中表示分类层输出的预测健康状态，为样本标签，表示标签总数。在训练过程中，采用反向传播算法计算损失函数关于权重的梯度，并通过随机梯度下降法更新网络权重。4 所提方法4.1 变分核卷积神经网络传统CNN模型中随机初始化的第一层卷积核所提取的特征往往缺乏实际的物理意义，这将严重影响整个诊断模型的性能。通常情况下，故障信号的频谱上存在多个分布在不同频率范围内的单频簇，并且在复杂信号调制下，频域中的机械故障信息通常呈现多尺度分布的特性。VMD可以通过频域上的乘法运算将信号分解为一系列具有不同中心频率的模态分量，从而实现对多尺度分布下故障特征的分离。因此，引入变分核作为传统CNN模型中随机初始化的第一层卷积核的替代，用作可解释的特征提取范式。不同于VMD的原始解析解，所提出的近似滤波器在分解原始信号时不需要考虑重构约束，而是更加关注识别原始信号中与故障相关的特征，从而使每个模态分量仅作为特定频带内调幅-调频（AM-FM）成分的近似表达。此外，由于实际采集的信号大多包含噪声，拉格朗日乘子在保真项约束中的作用不大。因此，拉格朗日乘子通常设为较小的数值或为零。与此同时，变分核的构建引入了抗混叠约束，以确保每个滤波核都能最优地提取不同频率的信息。该约束的实质在于，在执行当前卷积核操作前，消除已被提取的频率成分。遵循这一策略，第个变分核的特征可以定义为：其中表示第个变分核的核函数。表示之前变分核所滤波得到结果的总和。该抗混叠约束的应用能够增强故障频率成分的多样性与区分性，从而在收敛性与识别性能方面带来显著优势。图1展示了在不同参数下变分核滤波器的频率响应特性。从图1(a)中可以明显看出，通过调节平衡参数可以有效控制滤波器的带宽。考虑到与故障相关的模态分量的AM-FM信息各不相同，合理的带宽选择能够避免附着在目标频带上的冗余噪声成分。因此，通过调整平衡参数可以有效减弱噪声的影响。从图1(b)可以观察到，中心频率的设定能够控制滤波器提取所需的频率信息。然而，如果无法将其设定在最优频率范围内，故障特征信息的有效传递可能会受到阻碍，从而导致诊断结果的误判。因此，该参数的确定对特征提取结果也具有重要影响。图1 变分核在不同参数下的频率响应特性：(a) 不同的平衡参数；(b) 不同的中心频率 4.2 数据驱动参数更新在大多数情况下，参数和通常是基于人工经验选择或启发式优化算法进行优化的 [30]。然而，由于自然启发式优化算法的目标函数与故障分类的损失函数之间缺乏可靠的对应关系，因此很难验证所优化的参数是否真正提升了故障分类的准确性。因此，本文所提出的变分核不仅通过不同的中心频率和平衡参数来挖掘信号在不同频段中的故障信息，还利用反向传播（BP）算法根据损失函数计算出与和相关的梯度，从而实现这两个可学习参数的更新。该计算过程如图2所示。图2 变分核在不同参数下的频率响应特性：(a) 不同的平衡参数；(b) 不同的中心频率由于是复数值，包含实部和虚部，其相应的梯度也是复数，而与本身是实数，这就导致其虚部梯度无法参与参数更新。为此，本文巧妙地引入模值运算，将虚部信息引入到参数学习中，作为虚部与实数参数之间的桥梁。在这一背景下，实部与虚部分别用上标和表示，从而可以将复数的模表示为：其中，对关于和的偏导数计算可分别通过以下公式进行：因此，关于和的偏导数可以表示为：接下来，可以分别求出关于和的偏导数。在使用梯度下降和反向传播更新和之前，仔细观察这两个可学习参数的更新范围仍然至关重要。首先必须明确，和的梯度下降更新与深度网络的分类损失和学习率相关，并且在同一个卷积核中，它们共享相同的分类损失和学习率。如果这两个参数的更新范围差异显著，同时更新它们很可能会导致参数学习出现偏差。考虑到中心频率与平衡参数的取值范围确实存在较大差异，因此在更新参数之前需要对它们进行维度统一处理。借鉴VMD方法在频域中对频率进行离散化，变分核将中心频率进行无量纲化处理。对于平衡参数，本文采用最大最小归一化，归一化后的平衡参数可通过以下方式获得：其中，和分别表示平衡参数取值范围的最小值与最大值。最终，归一化后的和的更新过程可以定义为：其中，表示学习率。4.3 基于残差连接的通道注意力机制变分核通过从输入信号中提取多频段的AM-FM信息，显著提升了网络在特征提取方面的丰富性与可靠性。然而，不同频段的故障特征并不均匀。如果直接舍弃那些包含较少故障信息的频段，可能会导致相应的梯度反向传播被中断。因此，本节引入了一种基于残差连接的通道注意力机制，以动态地增强内在的故障相关特征，同时抑制无关或错误的信息。通过这种方式，诊断模型能够更有效地从输入信号中的多个频段中识别并获取具有判别性的故障特征。图3 基于残差连接的注意力机制结构如图3所示，基于残差连接的通道注意力机制包含一个全局平均池化层、两个核大小为、通道数为1 的卷积核、一个 Meta-ACON 激活函数，以及一个 Sigmoid 激活函数。注意力机制的输入被认为是多个通道上变分核特征图的组合，其中表示的第个通道的特征图。和分别表示输入特征图的宽度和通道数。该通道注意力机制在激活过程中，通过全局平均池化层实现输入特征矩阵的降维，从而将各通道的空间信息整合为简明的通道描述符，其中可通过公式计算得到：聚合后的信息被输入到两个卷积层中，以构建通道之间的相关性，其过程可定义为：其中，和表示卷积映射函数，是一维 Meta-ACON 激活函数。该激活函数通过平滑系数控制神经元是否被激活以及激活的程度，其计算公式为：其中，，和是可通过反向传播（BP）算法自适应调整的变量。表示Sigmoid 激活函数。Sigmoid函数可用于计算平滑系数，其计算方式如下：其中，和是卷积映射函数。当时，表示该神经元处于非激活状态。随后，Sigmoid 函数被用于将输入向量压缩到区间内，从而得到权重向量。该通道权重向量可用于对变分核的原始特征图进行再调整，如公式所示：因此，通道注意力机制的最终输出结果可表示为： 4.4 基于变分核卷积神经网络的故障诊断为了使网络第一层所提取的特征具备明显的物理意义，将前述所提出的变分核（Variational Kernel）嵌入至传统CNN的初始卷积层中，替代原先随机初始化的卷积核。随后，本文提出了一种用于滚动轴承智能故障诊断的新型方法，即基于变分核卷积神经网络（VKCNN）。该故障诊断方法的流程如图4所示，其具体实现过程如下：图4 基于VKCNN的智能故障诊断方法流程图（1）第一层变分核的设计：为网络第一层中的每个通道设计具有不同中心频率与平衡参数的变分核滤波器。类似于VMD，频率被归一化到区间。由于正负频率包含相同的幅度信息，故实际仅考虑正频率区域中有效频带的定位，的取值限制在区间内。（2）通道注意力机制的引入：通过多通道注意力机制实现对变分核所提取的各频段模态分量的自适应权重分配。随后，得到的通道重标定特征图被输入到与标准CNN结构相同的主干网络中。网络的结构参数详见表1。表1 网络的结构参数（3）全连接层的映射：使用全连接层将特征映射到标签空间，实现训练样本故障类型标签的预测。（4）基于分类误差的反向传播：根据预测标签与真实标签计算分类误差的损失函数，并在反向传播（BP）过程中用于更新变分核的中心频率和平衡参数。训练完成后，所提出的VKCNN模型可用于测试数据的故障类型分类。为验证所提VKCNN方法的有效性，本文与传统CNN模型进行了对比。此外，为体现基于数据驱动、可更新参数策略的信号处理方法在特征提取方面的优势，本文还将其与结合不可训练的VMD与CNN的组合方法进行对比。后者采用启发式优化算法在信号预处理阶段优化VMD参数。此外，本文还在相同故障数据集上应用了将第一层CNN卷积核重新定义为小波核网络（Wavelet Kernel Network）的方式进行对比，所使用的小波包括Morlet小波核与拉普拉斯小波核（Laplace Wavelet Kernel）。为确保比较的公平性，本文所有用于对比的方法均使用相同的网络主干结构。5 实验验证为探讨VKCNN的特性并验证其有效性，本文分别在案例一和案例二的滚动轴承数据集上进行了实验验证。此外，本文还将所提出方法的结果与其他基于深度学习的智能故障诊断方法进行了对比分析。5.1 案例一案例一中所采用的数据集来自凯斯西储大学轴承数据中心。图5展示了本实验所使用的测试平台结构。实验中选用的是6205-2RS JEM 型驱动端轴承的振动数据。振动信号采集条件如下：电机负载为 0 至 3 马力（HP），对应的转速分别为 1797 r/min、1772 r/min、1750 r/min 和 1730 r/min。每种故障类型对应的加工直径分别为 0.178 mm、0.356 mm 和 0.533 mm。因此，在每一种工况下，共设定了包括正常状态在内的十种轴承健康状态标签。此外，依据不同的工作条件，振动信号被划分为四个数据集，分别为 D1、D2、D3 和 D4。图5 CWRU试验台在数据预处理过程中，采用非重叠滑动窗口采样方法对振动信号进行截取，每个故障样本包含 1024 个数据点。随后，将整个数据集按照 4:1 的比例随机划分为训练集与测试集。在样本标准化阶段，对每个样本进行零均值归一化，并引入少量高斯白噪声，以防止模型训练过程中的过拟合现象。在分类任务中，本文所提出的方法（VKCNN）将与四种其他智能诊断方法进行对比：传统卷积神经网络（CNN）；基于拉普拉斯小波核的卷积网络（LapCNN）；基于Morlet小波核的卷积网络（MorCNN）；不可训练参数的VMD与CNN组合方法（VMD + CNN）。为验证网络的稳定性并减少随机因素对结果的影响，每组实验均重复进行10次，并在相同任务下统计各网络的平均分类准确率与标准差。实验结果如图6所示。图6 不同模型基于CWRU数据集的识别结果结果显示，本文提出的 VKCNN 模型在不同工况下的分类任务中表现出色，其平均准确率接近 100%。此外，其标准差在所有模型中最小，说明该网络在故障特征的识别与提取方面表现出最强的稳定性。就CNN模型而言，虽然其诊断准确率仅次于VKCNN，但其标准差较大，表明诊断性能波动性较强，存在一定程度的过拟合问题。通过比较LapCNN与MorCNN的诊断结果发现，LapCNN的性能优于MorCNN，可能是因为其波形更适合匹配故障信号中的冲击成分。因此，在实际应用中为小波核网络选择合适的小波核是十分关键的。相较而言，VMD + CNN方法的平均准确率较低，主要原因在于该方法的网络第一层不含可训练参数，导致该层提取的特征为固定形式，从而影响后续层的特征学习，造成整体性能下降。为了对模型的性能进行更深入的评估，本文在0 HP 工况条件下展示了各模型的训练过程，如图7所示。图7 训练集的准确率与损失曲线首先，从图7(a)可以看出，在初始迭代阶段，CNN 与 VMD + CNN 由于第一层卷积核采用随机初始化，其分类准确率较低。相比之下，VKCNN、LapCNN 和 MorCNN 在第一层引入了领域知识，因而准确率更高，说明这类模型能够更快地提取具有代表性的特征。其次，从结果中可以发现，VKCNN 具有更快的收敛速度，且能够收敛到更高的准确率，而 VMD + CNN 和 MorCNN 的收敛速度最慢，且准确率较低。尽管CNN在最终也能达到较高准确率，但由于其特征提取过程中的不稳定性，收敛后的准确率仍存在局部波动，这一现象也与图6中的结论一致。类似地，从图7(b)所示的损失函数曲线也可以得出相同的结论。图8 训练前后结果对比：(a) 变分核3的频率响应；(b) 变分核3的输出特征图；(c) 变分核7的频率响应；(d) 变分核7的输出特征图图8展示了所提出模型中变分核3和变分核7在训练前后各自的频率响应与输出特征图，输入数据为内圈故障信号。可以明显看出，训练前后变分核的频率响应与输出结果存在显著差异。如图8(a)所示，变分核3在训练前后的频率响应差异主要体现在中心频率的变化上。由图8(b)可以观察到，通过调整中心频率，该频段的幅度信息被更加清晰地突出出来。变分核7的变化则主要体现在频率响应曲线的带宽方面，如图8(c)所示。由图8(d)可以看到，训练后由于带宽减小，除了主频成分外，输出特征图中其余频率成分被有效抑制。综上所述，本文提出的变分核不仅能够自适应地在频域中搜索主频成分，还能有效抑制所提取模态分量中的噪声成分。图9 不同模型在噪声数据集 D1 上的识别结果从图9可以看出，在所有测试的信噪比条件下，所提出模型的平均诊断准确率均优于其他四种同样基于CNN的诊断模型。尤其在 SNR 分别为约 2 dB 和 −4 dB 的情况下，VKCNN 的诊断准确率仍可达到 94.86% 和 90.35%。相比于四个对比模型中表现最好的 CNN，其准确率分别提升了 22.94% 和 42.06%。这表明，通过对 VKCNN 中平衡参数的迭代更新，模型展现出了强大的抗噪能力。此外，尽管噪声强度的增加会导致诊断模型的故障识别准确率下降，但具有良好抗噪鲁棒性的模型仍能有效抑制噪声干扰。例如，在信噪比为 −4 dB 的强噪声情况下，噪声强度比原始振动信号高出 2.5 倍，CNN、MorCNN、LapCNN 以及 VMD + CNN 的诊断准确率分别下降了 34.13%、28.76%、30.45% 和 32.29%，而 VKCNN 仅下降了 7.45%，进一步证明了其优异的抗噪性能。作为模型的消融实验，本文还测试了去除通道注意力机制的变分核模型（VKCNN1）在同一噪声数据集下的表现，结果亦展示于图9中。与本文中其他四种对比模型相比，VKCNN1 在所有SNR条件下的故障识别准确率均为最高。尤其在 SNR 为 −4 dB 的强噪声场景中，VKCNN1 的准确率相比 CNN、MorCNN、LapCNN 以及 VMD + CNN 分别提高了 40.11%、63.56%、53.82% 和 54.04%。这说明所提出的变分核滤波器能够在强噪声中有效提取深层嵌入的判别性特征，从而在复杂噪声环境下仍能保持较高的诊断精度。同时，将本文提出的诊断模型与 VKCNN1 的结果进行比较可发现，引入通道注意力机制的 VKCNN 模型准确率略高于未引入注意力机制的 VKCNN1。这一差异归因于注意力机制能够对不同频带中的故障特征进行通道级别的动态权重分配，增强故障相关特征、抑制冗余特征。因此，通道注意力机制的设计对于提升模型的诊断性能具有显著作用。5.2 案例二在如图10所示的滚动轴承故障测试平台上进行实验验证。测试所使用的轴承型号为 NTN-NU204，故障类型为通过线切割方式造成的单点损伤，包含外圈故障与内圈故障两种。缺陷的深度分别为 0.05 mm、0.15 mm 和 0.25 mm，分别对应轴承失效的不同严重程度，缺陷宽度统一为 0.5 mm。图10 滚动轴承试验台本实验在三个不同的运行工况下采集振动数据，转速从 500 rpm 逐步提升至 1300 rpm，采样频率为 100 kHz。因此，在每个工作条件下，包含正常状态在内，共有 7 类标签。该数据集的具体说明见表2。表2 轴承数据集的具体说明实验结果如表3所示。结果表明，在多种工况下，所设计的 VKCNN 在诊断性能上明显优于其他对比模型。表3 案例二中的分类结果特别是在第一工况中，尽管该工况下由转速所引起的振动与冲击相对其他工况较弱，但所提出的模型在诊断准确率上仍明显优于其他模型中表现最好的 CNN，表明 VKCNN 能够有效提取有助于提升诊断精度的 AM-FM 信息。同时，表3还列出了各模型在训练与测试过程中的时间消耗。可以观察到，由于变分核在单次操作中需执行较复杂的数据处理，VKCNN 相较于 CNN 在训练与测试阶段耗时略长。然而，其出色的诊断精度与稳定的网络性能完全值得投入额外的时间。相比之下，VMD + CNN 模型的计算成本最高，其额外计算主要来自于自适应信号处理中的迭代求解过程。作为一种依赖大数据的智能故障诊断方法，这种模型显然在实际应用中面临较大挑战。此外，本文还对所有对比模型的模型复杂度进行了说明，包括其参数数量（Params）与每秒浮点运算次数（FLOPs）。图11展示了各诊断模型在三种工况下的平均准确率与其模型复杂度之间的对比。可以看出，CNN 模型具有最高的参数规模与FLOPs，是所有模型中复杂度最高的，然而，较大的参数数量也意味着其更易发生过拟合。另外，从 MorCNN 与 LapCNN 的情况来看，其模型复杂度与训练时间基本相近。但如 VKCNN 与 CNN 的对比所揭示，模型复杂度与计算时间并不总是呈正相关关系。图11 平均准确率与模型复杂度对比：(a) 准确率与参数数量（Params）的关系；(b) 准确率与每秒浮点运算次数（FLOPs）的关系为了进一步分析各模型对不同故障类型的分类准确率，图12给出了各模型在数据集 S1 实验中的混淆矩阵，图13则绘制了各诊断模型的测试损失曲线，以辅助实验结果分析。从 VKCNN 的混淆矩阵可以看出，除标签3略高的识别错误率外，其他类别的识别准确率均超过 90%。标签3多被误判为标签2。根据表2，标签2与标签3均为内圈故障数据，但缺陷尺寸不同。由于这两类数据在故障严重程度上的差异较小，特征具有较高相似性，因而对诊断模型提出了较高的区分能力要求。图12 诊断模型的混淆矩阵：(a) VKCNN；(b) CNN；(c) LapCNN；(d) VMD + CNN从图13可以明显观察到，VKCNN 的损失曲线收敛最稳定，表明其训练过程更加平稳、收敛效果更优。相比之下，CNN 的收敛最不稳定，表明其可能存在明显的过拟合问题。而 MorCNN 与 VMD + CNN 的测试损失值普遍较高，可能是由于特征提取能力不足所导致的欠拟合问题。图13 诊断模型的测试损失表4展示了各诊断模型第一层参数数量的对比情况。对于 CNN 的第一层卷积结构，其可训练参数数量等于卷积核长度L与卷积核数量N的乘积。因此，如果该层使用较长的卷积核，将会显著增加需要训练的参数量。相比之下，VKCNN 的第一层仅包含N个可训练参数，大大减少了模型的复杂度与过拟合风险。因此，从模型结构角度分析，CNN 更容易受到过拟合的影响，而 VKCNN 在保持特征表达能力的同时，有效控制了模型复杂度，展现出更强的泛化能力。表4 不同诊断模型第一层结构对比此外，为验证所提出模型的鲁棒性，本文还使用噪声数据集 S2 进行测试，实验结果如表5所示。从结果可以看出，在四种不同噪声水平下，VKCNN 的诊断准确率始终优于其他对比模型，且随着噪声强度的增加，其在抗噪性能方面的优势愈发明显。具体而言，当 SNR 为 2 dB 时，VKCNN 在测试准确率上相较于 CNN、MorCNN、LapCNN 和 VMD + CNN 分别提升了 7.93%、7.45%、9.64% 和 10.02%。而在强噪声条件下，VKCNN 的诊断准确率相较于上述基线模型分别提升了 28.53%、13.89%、37.4% 和 26.81%，表现出显著的抗噪性能提升。上述分析进一步表明，VKCNN 在抗噪鲁棒性方面具有突出的优势，能够在强噪声干扰环境中保持良好的故障识别能力。表5 不同模型在噪声数据集 S2 上的诊断准确率 6 模型可解释性分析本部分从两个方面对 VKCNN 的模型可解释性进行分析，包括网络第一层的特征提取形式以及模型学习机制。第一个方面旨在通过可视化网络第一层的特征图来直观描述模型的特征提取形式，并进一步分析稀疏特征图对模型泛化能力的影响；第二个方面则尝试通过注意力权重的可视化，探讨深度学习模型学习机制与人工故障诊断知识之间的潜在联系。6.1 网络第一层的特征提取形式不同诊断模型第一层的特征图可视化结果如图14所示。可以观察到，VKCNN 的第一层特征图将提取到的特征映射为由多个单尺度模态组成的多通道滤波模态映射，该结构充分融合了来自不同模态、不同尺度下的判别性信息，包括中心频率、带宽与幅度等因素。提取特征之间不存在混叠现象，使得特征映射具有高度简洁与稀疏性，这不仅有利于后续的快速识别，还为模型的决策过程提供了事后可解释的特征表示。同时还可以发现，与变分核相比，其余三种类型卷积核对应的特征映射明显更加复杂，不同卷积核之间提取到的频率成分也非常相似。本质上，正是由于引入了基于抗混叠约束的模态滤波机制，使得变分核能够有效挖掘具有判别特性的模态成分，进而形成具有良好区分能力的稀疏特征映射。图14 不同核的特征映射：(a) 变分核；(b) 卷积核；(c) 拉普拉斯小波核；(d) Morlet 小波核为说明第一层特征图的稀疏性对诊断模型泛化性能的影响，表6列出了不同诊断模型的 Gini 指数和损失比值。其中，Gini 指数用于评估模型第一层特征图的稀疏性，数值越大表示特征图越稀疏，稀疏性越好；损失比值为模型训练集与测试集在最后 10 个训练周期内的损失均值之比。该比值越接近于 1，说明模型受到过拟合影响较小，即具有更好的泛化能力。表6 诊断模型的 Gini 指数与损失比值从表6可以看出：变分核具有最大的 Gini 指数和最大的损失比值，说明其特征图最为稀疏，且模型的泛化性能最优；卷积核与拉普拉斯小波核的 Gini 指数较小，对应的损失比值也较小，且两者的数值接近，表明其稀疏性和泛化性能相对较弱；此外，Morlet 小波核的 Gini 指数和损失比值也显著高于卷积核与拉普拉斯小波核，说明其在稀疏性与泛化能力方面表现更优。综上可见，特征图的稀疏性对模型的泛化能力有正向影响，而变分核凭借其稀疏性优势在建模过程中展现出更好的鲁棒性与诊断性能。以上分析充分说明了特征图稀疏性与损失比值之间存在正相关关系，据此可以推断：增强网络第一层特征图的稀疏性，有助于显著提升模型的抗过拟合能力。需要指出的是，尽管 Morlet 小波核的特征图具备良好的稀疏性，但从图14(d)中的幅度信息可见，其特征提取能力较弱，无法充分提取某些频段中的频率成分。综上所述，变分核通过专注提取特定频段的信息，不仅在一定程度上避免了特征间的重叠，还提升了网络第一层对输入信号的稀疏表达能力，最终有效增强了模型的泛化性能。6.2 诊断模型的学习机制为了更好地理解诊断模型在整个训练过程中的学习机制，本文对模型从频率域中学习到的注意力权重进行可视化，得到如图15所示的注意力权重谱图。图中不同颜色代表不同的注意力权重值，其中红色表示权重最高的区域。图15 注意力权重谱图：(a) 训练前；(b) 训练后从谱图中可以观察到，频谱中的明显峰值被注意力机制有效捕捉到，这一结果与人脑对信息处理的认知机制高度一致。通过对比训练前后的注意力权重谱图还可以发现，一些初始权重较低的频段在训练后其权重显著上升，表明网络能够通过训练自适应地增强与故障相关的激活映射，从而提取更具判别性的故障特征。同时，图15(b)中以玫红色圆圈标出的频段在原始幅度信息中并不明显，但其对应颜色显示该频段在训练过程中触发了注意力机制。这说明模型在某些频段中学习到了潜在的、有用的诊断信息，即使这些信息在幅值上并不突出。为了进一步验证这一现象的合理性，本文引用了 Infogram 分析方法。Infogram 是一种有效的工具，可用于寻找信号的最优共振频带。该方法通过频谱负熵指标来表征故障重复瞬态在频率域中的循环平稳性。如图16(a)所示，利用 Infogram 分析可以定位出信号的共振频带为 [4500, 6000] Hz。进一步通过图16(b)中的包络谱分析可以发现，该频段确实包含了与故障相关的重复瞬态特征。更为重要的是，Infogram 所定位的频带与图15(b)中注意力机制标记的频段基本一致。这一结果说明，深度神经网络模型的学习机制与人工轴承故障诊断知识高度契合，具有良好的物理可解释性与诊断逻辑一致性。图16 基于 Infogram 方法的分析结果：(a) 共振频带的确定；(b) 包络谱分析6 结论考虑到在复杂信号调制条件下，轴承故障信息在频域中呈现出多尺度分布特性，本文提出了一种可解释的变分核（Variational Kernel），能够自适应地提取有用的 AM-FM 信息。将该变分核的先验知识嵌入到 VKCNN 网络结构中，为模型提供了一个数据驱动且具有可解释性的特征提取方案。将所提出的 VKCNN 应用于两个不同轴承数据集的故障诊断实验，得出以下结论：（1）解决了忽略虚部及不同尺度可训练参数协同更新的问题，通过建立复数梯度与实际可训练参数在同一尺度下的映射关系，确保了数据驱动机制在变分核中对可学习参数的有效更新，从而避免了以往忽略虚部信息或尺度失衡带来的误差。（2）采用反向传播算法实现变分核参数的自动学习，通过使用 BP 算法对变分核的两个核心参数进行更新，有效规避了现有信号预处理与深度学习网络两阶段方法中存在的参数固化问题。具备自学习能力的变分核能够聚焦于物理上具有意义的 AM-FM 成分，增强了其可解释性。（3）引入通道注意力机制实现跨频带特征的自适应增强，通道注意力机制可根据不同频带模态特征对诊断结果的贡献程度，自适应地为各频带分配通道级别的权重。（4）特征图可视化验证了稀疏 AM-FM 特征对模型泛化能力的提升，通过可视化第一层特征图，可以发现 VKCNN 所提取的 AM-FM 特征具有良好的稀疏性，从而显著提升了诊断模型的泛化性能。进一步结合注意力权重谱与 Infogram 方法的结果，可知模型学习机制与人类对轴承故障的认知模式高度一致，增强了模型诊断结果的可靠性与可解释性。编辑：Jin校核：李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚该文资料搜集自网络，仅用作学术分享，不做商业用途，若侵权，后台联系小编进行删除来源：故障诊断与python学习