论文题目:
Double attention-guided tree-inspired grade decision network: A method for bearing fault diagnosis of unbalanced samples under strong noise conditions
论文期刊:Advanced Engineering Informatics
论文日期:2025年
论文链接:
https://www.sciencedirect.com/science/article/pii/S1474034624006554?via%3Dihub
作者:Zhilin Dong (a,b), Yonghua Jiang (b), Weidong Jiao (a,b), Feibin Zhang (c), Zhenya Wang (c), Jinfeng Huang (c), Xin Wang (d), Kun Zhang (e)
机构:
a: School of Engineering, Zhejiang Normal University, Jinhua 321004, China;
b: Xingzhi College, Zhejiang Normal University, Lanxi 321100, China;
c: Department of Mechanical Engineering, Tsinghua University, Beijing 100084, China;
d: School of Aeronautics, Northwestern Polytechnical University, Xi’an 710072, China;
e: Beijing University of Technology, Beijing 100124, China
第一作者简介:董治麟老师,浙江师范大学工学院研究生导师,现为浙江师范大学装备状态监测与智能维护技术研究所核心成员。董老师是中国计算机学会(CCF)会员、中国振动工程学会会员、中国自动化学会制造自动化专业委员会委员,以及英国皇家物理学会(Institute of Physics, IOP)标准会员。现担任Robot Learning期刊青年编委。近年来,董老师在本领域权威期刊发表Top论文4篇,ESI高被引论文3篇,热点论文2篇,总引用次数超过300次。作为活跃的学术审稿人,他为20余种国内外期刊担任审稿工作,获IOP出版社授予“IOP Trusted Reviewer”荣誉。研究方向包括:机械结构设计与运动学仿真、动力学机理建模、信号处理(信号分解与时频分析),特征指标构建(熵值复杂性理论),度量学习,机器学习(浅层与深度学习)、设备状态监测与故障诊断、寿命预测等。(来源: https://mypage.zjnu.edu.cn/20245567/zh_CN/index/343963/list/index.htm)
1 摘要
2 引言
3 双重注意力引导的树状等级决策网络
3.1 三元注意力机制
3.2 多头卷积自注意力机制
3.3 树状等级决策层
3.4 双重注意力引导的树状等级决策网络
4 基于所提方法的故障诊断
4.1 故障诊断流程图
4.2 实验数据集概述
4.3 参数选择
5 实验验证
5.2 消融实验
6 结论
在强噪声条件下实现对不平衡轴承数据集的层次化多分类故障诊断是一项具有挑战性的任务。为此,本文提出了一种层次化多分类故障诊断模型,称为双重注意力引导的树状等级决策网络(DATGDN)。首先,设计了一种先进的三元注意力机制(Triplet attention, TA)和一种新颖的多头卷积注意力机制(Multi-head convolutional attention, MHCA),用于提取轴承故障特征。此外,这些机制可以集成到标准卷积神经网络中,构建形成双重注意力引导的主干网络。最后,通过结合一种创新的树状结构决策网络,DATGDN 实现了对轴承故障位置与严重程度的层次化决策。该模型在两组具有不同信噪比和多个不平衡比例的轴承数据上进行了测试。实验结果表明,与多种先进算法相比,所提出的方法不仅在各类任务中实现了更高的识别率,还能够对轴承故障的位置与程度进行分级决策。
关键词:三元注意力机制,多头卷积注意力机制,树状决策结构,故障诊断
滚动轴承作为机械系统的核心部件,在机械制造与轨道交通等领域中发挥着关键作用。轴承的运行状态与性能直接影响整个系统的可靠性、稳定性、安全性及使用寿命。一方面,不同类型的轴承故障数据分布不均,使得模型的训练与测试过程更加复杂;另一方面,强噪声的存在进一步干扰了对轴承信号的特征提取与故障诊断过程。因此,在不平衡数据与强噪声干扰下实现轴承故障诊断仍是一项极具挑战性的任务。
在轴承故障诊断领域,时域分析、频域分析、时频分析、信号分解与浅层机器学习方法不断发展与演进。然而,面对复杂且高维的数据,传统方法因处理能力有限,常常变得难以奏效。卷积神经网络(CNN)和循环神经网络(RNN)等深度学习方法 凭借强大的特征学习与表示能力,能够从原始数据中提取更复杂的特征,逐步走向研究前沿。
CNN 之所以被广泛应用,主要得益于其稀疏连接、参数共享与等变表示三大优势。特别是,一维卷积神经网络(1D-CNN)因其输入数据形状能够与原始采集的轴承振动信号形状精确匹配,持续应用于轴承故障诊断。尽管 1D-CNN 在多个任务中取得了良好表现,但其在复杂任务中的性能仍有进一步提升的空间。注意力机制(Attention Mechanism,AM)是一种机器学习技术,可使模型在处理输入数据时有选择地关注或突出其中的特定部分。将不同类型的 AM 嵌入 CNN 或 RNN 中进一步提升了模型性能,在故障诊断领域广受关注。
尽管融合注意力机制的 CNN 展现出强大的特征提取能力,并在复杂环境下的故障诊断任务中表现出良好效果,但仍存在两大显著缺陷:(1)仅关注输入信号与输出结果,忽视中间过程的实际推理,降低了诊断结果的可信度;(2)其在故障位置与程度的判定方式与人类思维方式不符。针对上述问题,已有研究指出,将决策树结构与卷积神经网络(CNN)结合,可显著提升识别准确率。
关于树状结构深度学习的研究,主要聚焦于利用层次结构对复杂数据进行高效分类,同时优化学习过程 。Roy 等人提出了 Tree-CNN 模型,使网络在引入新类别时能够自适应地扩展其层次结构。该模型支持网络以树状方式不断扩展,以适应新的数据类别,同时保留对已学习类别的辨识能力。Ren 等人针对单一分类问题,提出了一种树状结构的循环神经网络(Tree-RNN),其层次结构可将大型分类任务划分为更小、可管理的子类,每个子类配备一个特定分类器。在故障诊断领域,Wang 等人提出了一种新型网络,称为基于深度卷积的树状网络(DCTN),该网络旨在有效区分轴承健康状态下的七种不同工况。该研究为层次化决策过程提供了坚实的理论基础。然而,该研究在决策机制方面仍存在一定不足,且在应对不同噪声干扰条件下对不平衡多类轴承数据的诊断能力仍有待提高。
为进一步探索树状等级决策网络并应对上述挑战,本文针对强噪声环境下的不平衡轴承数据集,构建了一种层次化多分类故障诊断模型,称为双重注意力引导的树状等级决策网络(DATGDN)。该模型通过层次化诊断有效降低了诊断任务的复杂度,并提升了故障识别的准确率。结合故障诊断领域的最新技术进展,所提出模型在以下几个方面展现出独特优势:
集成先进的三元注意力机制与创新的多头卷积自注意力机制于标准 CNN 架构中,用以从轴承故障信号中提取相关信息并剔除无关干扰特征;
设计了一种新颖的两层决策树结构,包括种子节点与叶节点,实现了轴承故障位置的精确定位与故障严重程度的分级诊断。该多层次决策机制可系统性评估故障的位置与强度,更加契合工程运维的实际需求;
在结构集成方面,通过将树状网络中种子节点的权重值继承自主干网络全连接层的概率分布,实现了无缝融合,有效增强了决策过程的鲁棒性并取得良好的识别效果。
三元注意力机制(Triplet Attention, TA)在同时建模通道注意力与空间注意力的同时,简化了参数数量。所提出的 TA 结构如图 1 所示。为了更全面地解释 TA 机制,首先需阐明“跨维交互(Cross-Dimension Interaction)”的概念,其次介绍 Z-pooling:
图1 三元注意力机制的整体框架
(a) 跨维交互:由于传统的通道注意力方法在信号处理中通常采用单一权重来衡量各通道的重要性,因此被认为缺乏通道与空间维度之间的交互能力。CBAM 模块通过在通道注意力的基础上引入空间注意力作为附加组件,提升了整体性能。
为捕捉输入数据在通道与空间维度之间的依赖关系,TA 中引入了一种基于空间注意力的“跨维交互机制(Cross-Dimension Interaction)”。对于一个以 (通道、高度与宽度)表示的三维信号,其核心思想是联合建模以下三组维度对之间的交互关系: 、 与 。这种机制使注意力模块能够更有效地捕捉输入特征在不同维度间的复杂依赖关系,并增强其对关键特征的敏感性。
TA 框架通过构建三个独立分支实现跨维交互,各分支分别独立地捕捉输入张量在通道与空间维度之间的依赖性,重点建模 、 与 的两两关系。
(b) Z-pool:Z-pool 是一种用于将张量的第一个维度压缩为两个通道的操作层,其核心操作结合了全局最大池化(Global Max Pooling, GMP)与全局平均池化(Global Average Pooling, GAP)。
通过将高维通道信息压缩为两个具有代表性的特征图,模型可以更容易地捕捉通道维与高度/宽度维之间的相关性,从而增强不同维度之间的交互能力。其数学表达形式如下所示的公式:
其中,0d表示张量形状为 时所对应的通道维。如果 C 表示该通道维的大小,则在经过 Z-pool 处理后,其值将被转换为 2。
(c) 三元注意力机制(Triplet Attention):在计算过程中,TA 模块首先将输入张量 分别传递至其内部的三个分支进行处理。
在第一个分支中,建立了 维与 维之间的交互关系。具体操作如下:输入张量 ,原始形状为 ,通过沿 轴的旋转转换为张量 ,其形状为 。为保持原始张量的内在结构特性并简化计算流程,采用 Z-pool 操作将张量的第 维降至 ,得到张量 ,其维度为 。随后, 经标准卷积与归一化处理,产生中间输出,其维度为 。该中间输出再通过 sigmoid 函数进行归一化,使其值限制在 区间,从而生成注意力权重,并将该权重应用于 。最终,为获得与原始输入一致的张量结构,对张量再次沿 轴进行旋转。
第二个分支也需经过相似的处理步骤,包括张量旋转、通过 Z-pooling 进行降维、卷积与归一化处理,并通过 sigmoid 激活生成注意力权重不同于前两个分支,第三个分支无需进行两次旋转操作,因为该分支旨在表征空间注意力。为了便于后续表述,第二分支在 Z-pooling 后的张量记作 ,而 经卷积与归一化处理后的张量记作 ,其形状为 。第三分支中,输入张量直接经过 Z-pooling 后得到 ,其形状为 。
最后,通过直接求平均的方式,将上述三个分支生成的张量融合,得到最终的加权注意力输出张量 。该张量的维度与原始输入张量一致。该过程如下式所示:
其中,
其中,
传统的多头自注意力机制(Multi-head Self-Attention, MSA)存在以下两个缺点:
计算量随着输入 token 数量的增加呈非线性增长,在训练与推理过程中带来显著的计算开销;
MSA 中每个注意力头仅负责部分嵌入维度,当每个注意力头对应的嵌入维度较小时,可能会导致网络性能下降。为应对上述问题,本文提出了一种多头卷积自注意力机制(Multi-head Convolutional Self-Attention, MCSA),其单头卷积自注意力(CSA)操作如图 2 所示。
图 2 单头卷积注意力机制的整体框架图
该注意力机制的工作流程如下:
首先,将一维原始信号
类似于 MSA,MCSA 中通过一系列投影矩阵获得查询向量(Query,
将三维张量
空间下采样后的新张量
最后,基于以下公式计算
其中,采用标准的
该配置使每个注意力头的注意力函数都能够依赖于全部的键(Key)与查询(Query)。然而,这种结构可能削弱 MSA 处理位于不同位置的多样表示子集信息的能力。为了恢复这种多样性表达能力,本文在注意力计算中引入了实例归一化(Instance Normalization,IN),其中
其中,
在该模型的决策框架中,需准确表达故障类型与故障严重程度之间的逻辑关联。受决策树(Decision Tree, DT)的启发,本文设计了一种新颖的层次化诊断逻辑层,称为树状等级决策层(Tree-Inspired Grade Decision Layer, TGDL),以支持对故障严重程度的多层次分析。
与传统神经网络不同,TGDL 中叶节点与根节点之间的输入–输出关系并非线性对应。 如图 3 所示,该结构主要包含两个诊断层级:故障类型与故障严重程度。在第一层中,通过输入样本识别故障类型,并据此确定其对应的上层类别属性;随后在第二层评估故障严重程度,以进一步确定其下层子类属性。该结构采用第一层节点识别故障类型,第二层节点判断故障等级,构成了所谓的树状结构决策层。其中,第一层节点对应不同类型的故障,第二层节点对应故障的不同严重程度。
图 3 树状结构决策层的权重传递机制
第二层节点的权重通过继承先前训练好的全连接层的参数进行定义。这一配置确保了故障严重程度判别性能与预训练主干网络保持一致。第
值得注意的是,在前向传播过程中,子类的特征表示将从其上层类别特征中继承并更新;因此,在反向传播阶段,与上层类别对应的叶节点权重及与子类对应的种子节点权重也将同步更新。
3.4 双重注意力引导的树状等级决策网络
DATGDN 被设计用于处理具有不同信噪比(SNR)的不平衡轴承数据,其目标是在优化故障诊断准确率的同时,为决策过程中的推理机制提供可解释的理论依据。所构建 DATGDN 的结构示意图如图 4 所示。
图4 DATGDN的结构示意图
(a) 主干网络的构建:如图 4 所示,所构建的三元注意力机制(TA)与多头卷积自注意力机制(MCSA)被集成至一个深度为
(b) 主干网络与树状等级决策层之间的连接:通过利用 DACNN 最终全连接层(FCL)中的权重,建立了一个结构化的层次体系,并系统地定义了嵌入特征的决策规则。这种方式有助于更全面地理解特征的分布情况。在预训练的 DACNN 中,FCL 提取出属于
其中,
种子节点的权重直接继承自预训练的全连接层。该方法确保了子类的识别能力与预训练的 DACNN 模型保持一致。
(c) 基于决策损失的微调:本研究中设计的 DATGDN 模型对 DACNN 与 TGDL 的权重进行了联合微调。若需计算每个决策节点的决策概率,可通过 Softmax 函数进行求解。以图 4 所示结构为例,微调后满足如下关系:
其中,
在每个节点上,基于路径概率应用 Softmax 分类,用以确定最终的故障诊断决策。种子节点的正确预测概率记作
其中,
完整的损失函数表示为
在该框架中,预训练 DACNN 的真实标签记作
4.1 故障诊断流程图
前文已系统阐述了 DATGDN 的基本原理。本节将该方法应用于滚动轴承故障识别任务。图 5 展示了基于 DATGDN 模型构建的故障诊断流程:
图5 基于DATGDN的轴承故障诊断流程图
振动信号采集:在故障测试平台上通过专用传感器采集滚动轴承在不同工况下所产生的不平衡振动信号。
故障特征提取:利用新提出的 DATGDN 模型,从在不平衡条件下、具有不同噪声分布的轴承故障信号中提取关键特征。
智能故障诊断:将具有已知状态的训练样本输入配置好的 DATGDN 进行训练;随后将状态未知的测试样本输入到已训练完成的 DATGDN 中,以判定其健康状态。
4.2 实验数据集概述
本研究选用两个数据集对所提出的 DATGDN 模型的测试效果进行验证。图 6 展示了两个实验平台,以下分别简要介绍各数据集的具体情况:
图6 数据集A和B的实验设备
(a) 数据集 A:该数据集由印度某研究团队提供 [40],实验平台如图 6(a) 所示。所用轴承为圆柱滚子轴承,故障由电火花加工技术人为制造为矩形凹槽。加速度传感器安装在轴承座顶部,用于采集振动信号。实验条件为:转速 2050 rpm,垂直载荷 200 N,采样频率 70 kHz。该数据集包含 10 类信号类型:内圈故障:1.01 mm、1.56 mm、2.03 mm(共 3 类);外圈故障:0.86 mm、1.55 mm、1.97 mm(共 3 类);滚动体故障:1.16 mm、1.73 mm、2.12 mm(共 3 类);正常轴承信号:1 类。
(b) 数据集 B:该数据集来自湖南大学 [41],实验平台结构如图 6(b) 所示。实验条件为:转速 900 rpm,垂直载荷 6 N,采样频率 8192 Hz。平台采集了 9 组斜齿轮减速器的故障数据,包含:内圈、外圈与保持架故障(故障尺寸为 2 mm、4 mm 和 6 mm)。此外,采集 1 组正常轴承数据,用以提升分类任务的准确性。在实验框架中,将两个数据集 合并为 10 个类别,每类代表一种不同的健康状态。表 1 列出了各类别对应的标签说明。
表1 不同试验台的数据标签
为在不同失衡比(Unbalance Ratio, UR)与噪声干扰条件下进行轴承故障识别实验,根据公式向每种健康状态下长度为 2048 点的轴承信号中加入噪声。
其中,
此外,实验中包含了在噪声环境下具有不同失衡比的样本,如表 2 所示。其中,“300 + 150×9” 表示将 300 个样本分配给正常类别,其余 9 个故障类别各分配 150 个样本。
表2 在噪声环境下具有不同失衡比的实验样本
实验结果受批处理大小(batch size)与交叉熵参数
图 7 不同
从图 7 可以看出,一旦
图 8 展示了在
图 8 DATGDN 模型在
5.1 实验结果
所提出的方法在两个实验方案中进行了验证,每个方案包含三组不平衡数据。每组不平衡数据均进行了四组不同噪声条件(信噪比 SNR 范围为 10 至 4)下的实验,以及一组无噪声实验。图 9 展示了在两个不同数据集上进行五次试验后,所提出 DATGDN 模型的分类性能。
图 9 DATGDN 在两组数据集上五次运行的平均分类准确率
从图 9 可以观察到,在两组实验数据中,随着失衡比(UR)的增加,DATGDN 的故障识别率逐渐下降;同时,随着 SNR 的升高,其识别率稳定上升。这一趋势符合客观规律,也与预期一致。在不同条件下,所提出的 DATGDN 的识别率范围在 92.21% 至 99.45% 之间,表明该模型能够在多种干扰环境与分布特性下,提取出有效特征,基本满足实际工程应用需求。此外,DATGDN 不仅具备较高的识别准确率,还展现出较强的推理能力与可解释性。以数据集 B 中的一个内圈样本与一个外圈样本为例,在无噪声、UR = 10 的条件下,所提出 DATGDN 的推理与决策过程如图 10 所示。
图 10 所提出 DATGDN 的推理与决策过程示意图
从图 10 (a) 可见,当输入一个故障样本时,第一层定位初步判断为外圈故障,其概率为 96.82%;随后,在进一步判别故障尺寸时,该样本被识别为 4 mm 外圈故障,概率为 95.26%。同样地,从图 10 (b) 可观察到,当输入新的故障样本时,模型在第一层分类中以 98.65% 的概率将其识别为内圈故障;随后进一步识别其故障尺寸,判定其为 4 mm 内圈故障,概率为 96.77%。结果表明,实验结果与输入数据的真实标签高度一致,验证了所提出模型在推理与分级诊断过程中的准确性与鲁棒性。
5.2 消融实验
5.2.1 对比方法概述
为验证 DATGDN 的优势,本文设计了多种对比算法,具体如下:
(1)决策树(DT):一种基本的浅层机器学习算法。本文选用CART 算法作为分类器。(2)CNN:标准的一维卷积神经网络(1D-CNN),包含三层卷积层,用于从轴承信号中提取故障特征,最终通过 Softmax 层进行故障类别判别。(3)CNN-DT:由上述 (a) 与 (b) 组合构成的复合模型。
图 11 展示了在两组数据集、不同失衡比(UR)与信噪比(SNR)条件下,不同方法的故障识别准确率对比。
图11 不同方法在两组数据集及不同失衡比(UR)与信噪比(SNR)条件下的诊断识别率对比
由图 11 可得知实验结果如下:
所提出的 DATGDN 模型在不同UR 与 SNR 条件下的诊断结果始终优于其他方法,突显其在轴承故障诊断中的显著优势。如图 11(c) 与图11(f) 所示,即使在 UR = 10:1、SNR = 4 dB 的极端条件下,DATGDN 依然保持较高准确率,明显优于其他模型,具体表现为在数据集 A 上达到92.21%,在数据集B 上达到93.68%。
在图 11 的每一个子图中,DT 曲线始终被CNN 曲线包围。例如,在图 11(c) 中,SNR = 4 dB 条件下,DT 的准确率仅为17%,而CNN 可达76.84%。整体上,DT 准确率普遍低于60%,CNN 高于 60%,体现了深度学习方法相较于浅层机器学习方法的优势。
CNN-DT 的诊断结果始终介于 CNN 与 DT 之间,准确率范围为59% 到 76.36%,说明将卷积层用于特征提取并结合 Softmax 分类,优于单纯的浅层机器学习方法。
DCTN 的诊断结果相较于 CNN 显著提升。例如,在数据集 A、UR = 10:1 条件下,DCTN 在不同 SNR 条件下准确率提高6.31% 到 19.47%,其中SNR = 4 dB 时提升最大,达到19.47%,说明TGDL层次结构在深度网络支持下大幅增强了 CNN 的决策能力。
DCTN 相较于 CNN-DT 的对比表明,TGDL的引入显著提升了决策能力。例如,在数据集 A 中UR = 2:1 且 SNR = 10 dB 条件下,准确率从74.55%提高至95.45%,进一步验证了 TGDL 的优势。
TATN 相较于 DCTN 引入了TA 机制,进一步提升了特征提取能力和诊断性能。如在数据集 A、UR = 10:1 条件下,TATN 准确率为96.65%,而DCTN 为89.47%,说明三元注意力机制在提升模型性能方面具有显著效果。
在数据集 B、UR = 5:1 且SNR = 4 dB 条件下,DATGDN 的准确率为94.64%,而 MCSATN 在相同条件下仅为80.72%。这一差异体现了 DATGDN 在TATN 基础上进一步引入 TA 与 MCSA 的并行融合机制,在噪声环境下的不平衡轴承数据中展现出更强的诊断能力。
本文提出了一种兼具诊断性能与可解释性的 DATGDN 模型,用于在噪声环境下对不平衡轴承数据集进行故障诊断。
(a)在 DATGDN 框架中,DACNN网络作为主干结构,结合三元注意力机制和多头卷积注意力机制,能够在噪声环境下有效提取与故障相关的特征;
(b) DATGDN 引入了 TGDL 架构,实现层次化决策。该结构首先进行故障分类,随后进行严重程度评估,模拟人类在系统性评估中的认知过程;
(c)在多个测试任务中,涵盖不同的数据不平衡和噪声条件,并基于两组实验数据集进行测试,所提出的 DATGDN 在识别率方面始终优于多种现有先进算法,从而验证了该模型的有效性与优越性。