论文题目:
Few-shot sample multi-class incremental fault diagnosis for gearbox based on convolutional-attention fusion network
论文期刊:Expert Systems With Applications
论文日期:2025年3月
论文链接:
https://www.sciencedirect.com/science/article/pii/S0957417424027854?via%3Dihub
作者:Zhen Guo (a), Wenliao Du (b), Zhiping Liu (a), Tao Hu (b), Yannan Yu (a), Chuan Li (b,c)
机构:
a: School of Transportation and Logistics Engineering, Wuhan University of Technology, Wuhan 430063, China;
b: College of Mechanical and Electrical Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002, China;
c: Research Center for System Health Maintenance, Chongqing Technology and Business University, Chongqing 400067, China
1 摘要
2 引言
3 相关工作
3.1 知识库的构建与预处理
3.2 面向增量任务的卷积-注意力融合网络
3.3 齿轮箱类别增量故障诊断应用
4 实验验证
4.1 案例
4.2 实验设置
5 结果与讨论
5.2 训练过程评估
5.3 正则化参数对模型性能的影响分析
6 结论
增量故障诊断是指通过不断从所采集的数据流中学习新知识,以克服灾难性遗忘问题,从而确保模型能够适应不断变化的环境。然而,在实际应用中,尤其是在小样本和故障类别不断增加的情况下,齿轮箱故障诊断在学习稳定性方面面临显著挑战。为应对这些问题,本文提出了一种基于卷积-注意力融合网络(CAFNet)的方法,以优化齿轮箱故障诊断能力。首先,构建了一个知识库,用于持续存储来自数据流的信息。该知识库不仅保留历史数据,还包含数据预处理模块,以确保数据的质量与一致性。其次,设计了一种自适应权重更新算法,能够根据模型的实际表现动态调整权重,从而提升模型的适应能力。同时,在损失函数中引入了L2正则化项,以有效防止模型过拟合。本方法通过两个数据集的验证,证实了其有效性和可靠性,为机械故障诊断提供了一种新的解决方案。
关键词:增量故障诊断,小样本,卷积-注意力融合网络,齿轮箱
齿轮箱的健康状况对于机械设备的可靠运行至关重要。在正常工况下,设备通常处于稳定的工作状态。然而,随着设备的持续运行,在其寿命受限的条件下可能出现不稳定状态,这将影响设备的可靠运行,甚至导致重大经济损失,乃至停机。因此,如何保障设备的可靠运行,是当前乃至未来亟需解决的重要挑战。
目前,基于深度学习的故障诊断方法所采用的数据集,大多用于静态工况下的设备状态分析。然而,在实际工业环境中,数据是持续动态生成的,这使得难以及时全面地收集设备的所有故障模式。当出现新的故障类别时,原有的训练模型将难以适应新的工况条件,导致模型性能迅速下降,甚至出现灾难性遗忘。通常,最直接有效的解决方案是收集所有状态数据并重新训练模型,但受限于存储空间等条件的限制,在设备运行过程中难以保存全部数据。此外,使用大量数据进行训练过程也极为耗时,会带来显著的计算负担。因此,针对数据流环境中故障诊断任务,开发具备增量学习能力的模型,以有效应对灾难性遗忘问题,具有重要的研究意义与实际价值。
近年来,基于深度学习的智能故障诊断取得了一定进展。针对电机驱动系统中的故障,Jiang 等人提出并研究了一种基于模糊逻辑的故障诊断策略,以解决间歇性故障问题。为提升特征的可解释性,Yan 等人设计了一种新的面向权重优化模型,可兼顾初始故障检测与故障诊断。针对开放集故障诊断中的跨域迁移所导致的性能下降问题,Wang 等人提出了一种自监督的开放集跨域诊断方法,用于适应多工况下的故障诊断需求。Du 等人则基于稀疏孤立编码森林,对风力发电机齿轮箱实现了异常检测与新故障识别。为应对电池运行中实际故障数据不足的问题,Liu 等人提出了一种基于特征增强的随机配置网络与非均衡电池故障数据的智能诊断方法,用以适应不同域扩展情形。Lin 等人设计了一种基于信息融合的模型无关元学习的小样本迁移诊断方法,提升了元学习在迁移故障诊断领域的应用效果。此外,Zhu 等人提出了一种结合时间预测与相似性对比学习的自监督故障诊断方法,可从未标注的振动信号中提取潜在故障特征,从而在标注数据有限和工况变化复杂的环境下显著提升诊断性能。
在深度学习的基础上,基于小样本学习的智能故障诊断方法得到了发展。Wang 等人设计了一种新型小样本学习模型,用于解决从大量未标注样本中提取信号特征的问题。实验验证表明,该模型在有限标签条件下,在两个数据集上均表现出良好的性能。Li 等人提出了一种自监督元学习生成对抗网络算法,以应对小样本数据量不足的问题。该方法通过混合真实与生成数据,并在数据集上进行验证,结果显示该算法在小样本故障诊断任务中具有良好的效果。Hu 等人提出了一种新的基于元学习的领域对抗图卷积网络方法,用于应对小样本与多工况下的故障诊断问题。实验结果表明,该方法在多个测试条件下取得了最优性能。为降低小样本在跨域故障诊断中的分布差异,Hu 等人提出了一种联合迁移细粒度度量网络,用于跨域小样本故障诊断。该方法引入了混合注意力机制以增强特征提取能力,并通过联合迁移函数实现领域自适应。在三个数据集上的验证结果表明,该方法具有良好的诊断效果。
在复杂工况下,机械设备可能不断产生新的故障类型,从而影响其可靠运行。因此,研究者开始探索基于增量学习的智能故障诊断方法,以应对这一现象。Zhu 等人提出了一种用于新兴轴承故障与机械故障持续学习的新型故障类型保持嵌入空间方法。Hu 等人针对增量任务,提出了一种基于特征扩展与重构的有限样本模型增量更新方法。Ding 等人设计了一种用于列车传动系统的进化式系统级故障诊断框架,以实现增量样本学习。Zhu 等人还提出了一种带可调伪增量阶段的小样本类别增量学习方法,以解决在引入新故障样本时,由于数据不足导致的过拟合与模型稳定性问题。Zhou 等人设计了一种具备自适应能力的增量诊断模型,可适应不断变化的工业工况。此外,Zhu 等人还提出了一种结合分类信息与特征层信息的新型增量学习方法,在噪声条件下有效提升模型的鲁棒性。
卷积神经网络(Convolutional neural networks, CNN)在故障模式识别的特征提取方面表现良好,但在小样本学习和模式变化较大的场景中,其特征捕捉能力存在一定局限。注意力机制能够帮助模型聚焦关键信息,提升特征表示的鲁棒性,从而弥补CNN的不足。为此,本文提出的卷积-注意力融合网络(Convolutional-attention fusion network, CAFNet)将二者有效结合,在小样本学习和增量学习任务中均能够准确捕捉关键特征。本研究的主要贡献体现在以下三个方面:
本研究的主要创新点与贡献如下:
(1)构建数据知识库:用于存储和处理数据流,以保障数据质量与一致性,为后续的数据处理和模型训练提供可靠的数据基础;
(2)设计自适应权重更新算法:根据模型的实际性能动态调整权重,以提升模型的自适应能力。同时,在损失函数中引入正则化参数,有效防止模型过拟合,增强其在不同场景下的泛化能力。
(3)提出适用于小样本与类别增量诊断场景的学习方法:实验结果表明,所提模型在两个数据集上均能在小样本与类别增量条件下准确识别不同类型的故障,并能灵活应对故障类别的变化。
知识库主要用于数据存储与预处理,如图1所示。该数据库由传感器连续采集的数据流构建而成,同时对数据进行预处理。
其中, 表示由一系列连续数据流 构成的已构建数据库; 为整数,用于表示数据索引, 为数据总量与数据长度 之和,用于限定 的取值范围; 表示数据类别, 表示类别 中第 条数据,数据长度为 。因此, 表示所有数据的总量。知识库用于存储和管理数据,以支持后续的分析与模型训练。最终形成的知识库表示所有类别数据的总体集 合,可通过对所有类别 的数据进行合并获得。
3.2 面向增量任务的卷积-注意力融合网络
所采集的类别
增量任务源自增量学习或持续学习思想,当出现新的任务时,模型能够在学习新知识的同时优化已有知识。同时,增量任务可表示为:
其中,
卷积数据表示为:
其中,卷积核的权重为
其中,
其中,
最后,将注意力权重
其中,
其中,
其中,
其中,
其中,
3.3 齿轮箱类别增量故障诊断应用
在介绍了所提出的卷积-注意力融合网络模型后,应用步骤如图4所示。
步骤1:在齿轮箱上安装振动加速度传感器,通过计算机采集振动信号,并对数据进行初步分类。
步骤2:在初始阶段,将采集到的数据进行预处理,随后划分为训练集与测试集。
步骤3:将训练集数据输入模型,对模型权重进行迭代更新。
步骤4:在模型训练完成后,使用测试集数据验证模型在小样本任务中的诊断有效性。
步骤5:初始阶段的数据经过步骤2至步骤4处理后,进入增量阶段。此时,对增量阶段2采集的数据进行预处理,并仅将增量数据输入模型,重复步骤3和步骤4,从而完成一次增量阶段的学习过程。
步骤6:根据实际需要,可重复步骤2至步骤5,获得各增量阶段的故障诊断结果。
4.1 案例
为了验证所提出方法在小样本条件下的增量故障诊断有效性,在齿轮箱测试平台上进行了相关实验。具体实验设置如图5所示。振动信号由安装在齿轮箱上的加速度传感器采集,通过UtekL采集卡传输至计算机。齿轮的转速由电机控制,负载通过控制与显示装置进行调节。
图5 实验装置示意图
在数据采集过程中,所有信号采样时间为 10 秒,采样频率为 12.8 kHz,每个样本的长度设置为 1024。由于使用了三轴加速度传感器,每个样本长度为3072。每种工况下共采集 1000 个样本,共涉及 10 种工况。在实验中,随机选取400个正常样本,以及每种故障类型各130个样本。故障类型包括:正常、单齿点蚀、单齿裂纹、双齿点蚀、双齿裂纹。详细的故障程度与数据集设置如表1所示,各故障类型的位置分布如图6所示。本实验数据覆盖 9 种工况组合,包括转速 25 Hz、40 Hz 和 50 Hz,以及负载 0A、0.1A 和 0.2A 的组合。本文选取转速为 50 Hz 且负载为 0.1A 的工况数据进行分析与验证。
表1 实验的操作配置
图6 故障类型的位置信息
4.2 实验设置
为评估所提出方法的性能,在两组实验中对六种不同模型进行了比较,包括:i)仅使用CNN;ii)CNN与残差网络(ResNet)的组合;iii)CNN与压缩激励注意力机制的组合;iv)SEResNet;v)CNN与改进残差网络的组合;vi)本文提出的卷积-注意力融合网络(CAFNet)模型。
关于各方法的详细对比及模型参数设置,如表2所示。在图示分析中加入了逐步对比实验,以展示 CAFNet 关键设计对模型性能的影响。
通过对比不同模型,如不含注意力机制的模型(方法1与2),以及不同注意力机制之间的性能差异(方法3、4、5 与 CAFNet),验证了所提方法的有效性。所提出方法的网络结构如表3所示,每个组件代表一个不同的网络层。该结构包括:一维卷积层,自注意力机制层,最大池化层,由Dropout 层组成的主要网络结构,以及 Flatten 层与全连接层(Dense Layer)。在第14层中,并未指定特定的分类类别,而是引入可调参数,以适应自动分类类别数量的需求,并通过新类别表示机制,提升模型的自适应能力。
为全面评估各方法在小样本增量故障诊断任务中的性能,本文采用了多种评估指标,包括:模型损失值(Loss),平均诊断准确率,F1 分数,混淆矩阵,遗忘率,L2 正则化参数分析。
5.1 模型性能评估
首先,对模型在训练集与测试集上的性能进行了可视化分析,如图7所示。图中横轴表示迭代次数,纵轴表示模型损失值。横轴区间被划分为四个阶段:0–100轮 为初始训练阶段,101–150轮 为增量学习阶段1,151–200轮 为增量学习阶段2,201–250 轮为增量学习阶段3。
图7 迭代损失
从图中可以明显看出,随着迭代次数的增加,所有模型在训练与测试过程中的损失值整体呈下降趋势,说明模型逐步学习并提升了对故障模式的识别能力。在初始阶段(0–100轮),大多数模型的损失值下降较快,因为模型在该阶段得到了充分训练,能够有效学习基本故障模式的特征。然而,不同模型在下降速度与最终损失值方面存在差异,其中所提出的模型在该阶段表现尤为突出,损失值下降更平稳且更具稳定性。
在增量学习阶段1(101–150轮),所有模型开始引入新的故障类别数据进行学习。可以观察到,部分模型在引入新数据时出现较大的损失波动,尤其是部分传统增量学习方法,在面对新任务时表现出较大的不稳定性。相比之下,本文提出的模型在该阶段表现出显著的稳定性,损失波动幅度明显小于其他模型,能够迅速适应新任务数据,并保持较低的损失水平。
在增量学习阶段2(151–200轮)与增量学习阶段3(201–250轮)中,进一步验证了各模型在面对更多增量数据时的性能表现。尽管所有模型的整体损失值持续下降,但提出的方法在这两个阶段依然表现出良好的稳定性与快速收敛性。与其他方法相比,本模型在这些阶段的损失曲线更加平滑,说明其在处理增量数据时对旧任务的遗忘率更低,并能有效地融合新知识。进一步分析表明,在损失波动幅度方面,提出的模型显著优于其他方法,尤其是在增量学习阶段,展现出更强的适应性与鲁棒性。通过对迭代过程中的损失曲线进行分析可以清晰地看出,本模型在处理新数据时的稳定性和收敛速度均优于对比方法,这表明本方法不仅能够更好地保留已学知识,还能在不显著降低性能的前提下快速学习新任务。
上述结果验证了所提出模型在小样本增量故障诊断中的优势,尤其是在面对新故障模式时,其低损失波动性与快速收敛能力为故障诊断的实际应用提供了可靠保障。为了更全面地评估各方法在小样本增量诊断中的表现,对每种方法的诊断准确率进行了可视化分析,结果如图8所示。
图8 各方法的诊断准确度
从图中可以明显看出,提出的方法在初始阶段已展现出优异的诊断性能,超过了其他对比方法。更重要的是,在随后的增量学习阶段中,该方法仍持续展现出显著优势。随着新增量数据的引入,尽管所有方法的诊断性能均有所下降,但本模型的准确率始终保持领先,特别是在增量阶段1、2、3中,准确率持续高于其他方法。从平均诊断效果来看,本方法在各阶段的性能均显著优于其他方法。具体而言,与方法1、方法2 和方法3 相比,本方法分别提升了 29.52%、16.72% 和 23.35%。
这一显著的提升不仅验证了模型的有效性,也展现了其在应对小样本增量故障诊断任务中的优越泛化能力。尽管相对于方法4和方法5的提升不如前三种方法明显,但本方法依然具有绝对优势。与方法4相比,准确率提升了 5.66%,与方法5相比提升了 2.37%。这一在多种方法中体现出的全面优势,尤其是相较于传统方法的显著提升,进一步验证了本模型在小样本增量学习场景中的鲁棒性与有效性。通过上述对比与分析可见,所提出的模型不仅在初始阶段表现优异,在增量学习过程中亦展现出较强的适应性与稳定性,在准确率方面显著优于其他对比方法。在性能评估中,F1 分数是一种综合考虑模型准确率与召回率的调和平均值,因此非常适用于应对类别不平衡问题。在本研究中,采用 F1 分数对所提出模型的分类性能进行评估,特别是在小样本增量故障诊断任务中。表4展示了各类别在三个阶段测试样本上的性能表现,包括每个阶段的准确率、召回率、F1 分数和平均准确率,以及宏平均(Macro Average)和加权平均(Weighted Average)。
在初始阶段,模型在各类型样本上均表现最优,准确率达到了 100%。在第一个增量阶段,准确率超过 98%。在第二个阶段,尽管新类型数据的数量翻倍,模型准确率仍保持在 98% 以上,显示出较强的泛化能力。而在第三个增量阶段,准确率仍超过 94%,进一步说明本模型在持续学习过程中的稳定性和适应性。
为了更详细地展示各类别的预测结果,本文引入了混淆矩阵。该矩阵有助于更深入地理解模型在各阶段的诊断效果,揭示模型在处理不同类别时的表现差异。如图9所示,展示了模型在各阶段的平均准确率。
图9 诊断模型在各阶段的混淆矩阵
从图中可以看出,在初始阶段,模型的平均准确率达到了 100%,说明模型在该阶段对所有类别的预测均完全正确。在增量阶段1,平均准确率为 98.33%,虽略有下降,但反映出模型在引入新类别数据后仍能保持较高的准确率。在增量阶段2,平均准确率略微回升至 98.37%,表明模型在处理增量数据时的适应性与稳定性有所提升。在增量阶段3,平均准确率下降至 94.4%,虽然有所下降,但依然维持在较高水平,说明模型在面对更多增量数据时,仍具备良好的诊断性能。
从混淆矩阵的分类效果来看,个别样本边界模糊的原因可能在于样本数量过少或特征提取效果不佳,从而导致模型在分类时出现困难,难以准确区分不同类别。为进一步验证所提出模型的有效性,本文设计了消融实验,以分析模型中不同组件对整体性能的贡献。这些消融实验主要聚焦于以下几个方面:模型组件消融,损失函数消融,模型深度消融,超参数消融。相关的模型设置及准确率变化如表5所示。
在本研究的消融实验中,分别对模型的不同组件、深度结构、损失函数与超参数进行了详细分析,以评估其对模型平均准确率的影响:(1)移除 Dropout 层使平均准确率下降至 95.22%,说明 Dropout 层对提升模型性能具有显著作用。(2)移除第9至第12层使平均准确率大幅下降至 87.88%,表明这些层在提高模型准确性方面起到了关键作用。(3)将损失函数替换为均方误差(MSE)后,平均准确率略有提升至 97.78%,表明 MSE 在本任务中表现良好。(4)将批量大小设置为较小值(batch size = 16)使平均准确率显著下降至 87.78%,进一步强调了当前批量大小设置对模型性能的重要性。基于以上分析,所提出的方法在完整配置下取得了最高平均准确率 97.78%,验证了其性能的优越性与鲁棒性。
5.2 训练过程评估
遗忘率用于评估模型在学习新知识的过程中保留旧知识的能力,尤其适用于增量学习或持续学习场景。在初始阶段,由于模型尚未开始增量学习,因此不存在遗忘率的概念。对增量阶段中的遗忘率进行了可视化分析,如图10所示。
图10 增量诊断中每种方法的遗忘率
从图中可以看出,五种对比方法的平均遗忘率分别为15.75%;7.08%;13.21%;3.34%;2.25%。相比之下,本文所提出的方法表现出更低的遗忘率,平均仅为 1.89%。这一结果表明,在小样本增量故障诊断场景下,本模型在学习新任务时能够有效保留已学知识,避免性能大幅下降。特别地,在对比方法中,方法1与方法3的遗忘率较高,反映出这类方法在面对增量数据时对旧任务存在明显的遗忘现象,从而导致模型整体性能不稳定。相比之下,我们提出的方法显著降低了遗忘率,表现出更强的知识保持能力。这种在模型稳定性与对新任务适应性之间的平衡,使得本方法在应对小样本增量诊断任务时表现出色。总体而言,较低的遗忘率不仅验证了本方法在适应新任务方面的有效性,也体现出其在应对小样本增量学习挑战中的鲁棒性与高效性。这一结果进一步验证了本方法在增量学习场景中的稳定性与可持续性,确保模型在不断学习新知识的同时,不会显著遗忘已有知识,从而持续提升性能。
5.3 正则化参数对模型性能的影响分析
为降低模型复杂度并防止过拟合,在损失函数中引入了正则化参数
图11 正则化参数分析
分析结果表明,当正则化参数
本研究提出了一种卷积-注意力融合网络(CAFNet),以解决齿轮箱在小样本条件下的增量故障诊断难题。通过知识库系统对诊断数据流进行持续管理,使得模型能够实时利用最新数据。在数据采集与预处理阶段,对输入数据进行标准化处理,以满足模型训练需求。模型训练过程中引入了自适应权重更新算法,使其能够在每个阶段有效适应新数据,同时引入 L2 正则化以防止过拟合,从而在小样本条件下提升模型的泛化能力。实验结果表明,CAFNet 在诊断准确率、F1 分数和混淆矩阵指标方面均优于对比方法,同时具有较低的遗忘率,展现出出色的知识保持能力。进一步分析还发现,当L2 正则化参数设置为 1 时,模型分类效果最佳,有效降低了模型复杂度与过拟合风险。
未来的研究工作将进一步扩展CAFNet在多工况、多部件增量故障诊断中的应用,以验证其广泛适用性。同时,计划对模型结构进行优化,并探索参数压缩方法,以降低计算复杂度,提升其在资源受限环境下的实用性。此外,还将CAFNet应用于实际小样本任务与跨领域数据集中,验证其泛化能力与迁移能力,确保其在复杂设备多故障环境下的稳定性与高效性。