首页/文章/ 详情

增量学习故障诊断方法 | 基于卷积-注意力融合网络的齿轮箱小样本多类增量故障诊断方法

16小时前浏览8
    本期分享一篇增量故障诊断方法的论文投稿:在工业设备运行过程中,故障类别不断演化,而数据样本却常常稀缺。如何在“少样本”和“多类别”场景中实现高效、稳定的故障诊断,是智能维护中的核心难题。本文提出了一种基于卷积-注意力融合网络(CAFNet)的齿轮箱增量故障诊断方法,旨在克服灾难性遗忘、提升模型对环境变化的适应能力。核心创新包括:构建知识库以持续学习并保留历史信息;设计自适应权重更新算法提升模型泛化能力;引入L2正则化有效防止过拟合,该方法为面向工业应用的智能故障诊断提供了新思路。

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:

    Few-shot sample multi-class incremental fault diagnosis for gearbox based on convolutional-attention fusion network

    论文期刊:Expert Systems With Applications

    论文日期:2025年3月

    论文链接:

    https://www.sciencedirect.com/science/article/pii/S0957417424027854?via%3Dihub

    作者:Zhen Guo (a), Wenliao Du (b), Zhiping Liu (a), Tao Hu (b), Yannan Yu (a), Chuan Li (b,c)

    机构:

    a: School of Transportation and Logistics Engineering, Wuhan University of Technology, Wuhan 430063, China;

    b: College of Mechanical and Electrical Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002, China;

    c: Research Center for System Health Maintenance, Chongqing Technology and Business University, Chongqing 400067, China

    目录

    1 摘要

    2 引言

    相关工作

    3.1 知识库的构建与预处理

    3.2 面向增量任务的卷积-注意力融合网络

    3.3 齿轮箱类别增量故障诊断应用

    实验验证

    4.1 案例

    4.2 实验设置

    5 结果与讨论

    5.1 模型性能评估

    5.2 训练过程评估

    5.3 正则化参数对模型性能的影响分析

    6 结论

    1 摘要

    增量故障诊断是指通过不断从所采集的数据流中学习新知识,以克服灾难性遗忘问题,从而确保模型能够适应不断变化的环境。然而,在实际应用中,尤其是在小样本和故障类别不断增加的情况下,齿轮箱故障诊断在学习稳定性方面面临显著挑战。为应对这些问题,本文提出了一种基于卷积-注意力融合网络(CAFNet)的方法,以优化齿轮箱故障诊断能力。首先,构建了一个知识库,用于持续存储来自数据流的信息。该知识库不仅保留历史数据,还包含数据预处理模块,以确保数据的质量与一致性。其次,设计了一种自适应权重更新算法,能够根据模型的实际表现动态调整权重,从而提升模型的适应能力。同时,在损失函数中引入了L2正则化项,以有效防止模型过拟合。本方法通过两个数据集的验证,证实了其有效性和可靠性,为机械故障诊断提供了一种新的解决方案。

    关键词:增量故障诊断,小样本,卷积-注意力融合网络,齿轮箱

    2 引言

    齿轮箱的健康状况对于机械设备的可靠运行至关重要。在正常工况下,设备通常处于稳定的工作状态。然而,随着设备的持续运行,在其寿命受限的条件下可能出现不稳定状态,这将影响设备的可靠运行,甚至导致重大经济损失,乃至停机。因此,如何保障设备的可靠运行,是当前乃至未来亟需解决的重要挑战。

    目前,基于深度学习的故障诊断方法所采用的数据集,大多用于静态工况下的设备状态分析。然而,在实际工业环境中,数据是持续动态生成的,这使得难以及时全面地收集设备的所有故障模式。当出现新的故障类别时,原有的训练模型将难以适应新的工况条件,导致模型性能迅速下降,甚至出现灾难性遗忘。通常,最直接有效的解决方案是收集所有状态数据并重新训练模型,但受限于存储空间等条件的限制,在设备运行过程中难以保存全部数据。此外,使用大量数据进行训练过程也极为耗时,会带来显著的计算负担。因此,针对数据流环境中故障诊断任务,开发具备增量学习能力的模型,以有效应对灾难性遗忘问题,具有重要的研究意义与实际价值。

    近年来,基于深度学习的智能故障诊断取得了一定进展。针对电机驱动系统中的故障,Jiang 等人提出并研究了一种基于模糊逻辑的故障诊断策略,以解决间歇性故障问题。为提升特征的可解释性,Yan 等人设计了一种新的面向权重优化模型,可兼顾初始故障检测与故障诊断。针对开放集故障诊断中的跨域迁移所导致的性能下降问题,Wang 等人提出了一种自监督的开放集跨域诊断方法,用于适应多工况下的故障诊断需求。Du 等人则基于稀疏孤立编码森林,对风力发电机齿轮箱实现了异常检测与新故障识别。为应对电池运行中实际故障数据不足的问题,Liu 等人提出了一种基于特征增强的随机配置网络与非均衡电池故障数据的智能诊断方法,用以适应不同域扩展情形。Lin 等人设计了一种基于信息融合的模型无关元学习的小样本迁移诊断方法,提升了元学习在迁移故障诊断领域的应用效果。此外,Zhu 等人提出了一种结合时间预测与相似性对比学习的自监督故障诊断方法,可从未标注的振动信号中提取潜在故障特征,从而在标注数据有限和工况变化复杂的环境下显著提升诊断性能。

    在深度学习的基础上,基于小样本学习的智能故障诊断方法得到了发展。Wang 等人设计了一种新型小样本学习模型,用于解决从大量未标注样本中提取信号特征的问题。实验验证表明,该模型在有限标签条件下,在两个数据集上均表现出良好的性能。Li 等人提出了一种自监督元学习生成对抗网络算法,以应对小样本数据量不足的问题。该方法通过混合真实与生成数据,并在数据集上进行验证,结果显示该算法在小样本故障诊断任务中具有良好的效果。Hu 等人提出了一种新的基于元学习的领域对抗图卷积网络方法,用于应对小样本与多工况下的故障诊断问题。实验结果表明,该方法在多个测试条件下取得了最优性能。为降低小样本在跨域故障诊断中的分布差异,Hu 等人提出了一种联合迁移细粒度度量网络,用于跨域小样本故障诊断。该方法引入了混合注意力机制以增强特征提取能力,并通过联合迁移函数实现领域自适应。在三个数据集上的验证结果表明,该方法具有良好的诊断效果。

    在复杂工况下,机械设备可能不断产生新的故障类型,从而影响其可靠运行。因此,研究者开始探索基于增量学习的智能故障诊断方法,以应对这一现象。Zhu 等人提出了一种用于新兴轴承故障与机械故障持续学习的新型故障类型保持嵌入空间方法。Hu 等人针对增量任务,提出了一种基于特征扩展与重构的有限样本模型增量更新方法。Ding 等人设计了一种用于列车传动系统的进化式系统级故障诊断框架,以实现增量样本学习。Zhu 等人还提出了一种带可调伪增量阶段的小样本类别增量学习方法,以解决在引入新故障样本时,由于数据不足导致的过拟合与模型稳定性问题。Zhou 等人设计了一种具备自适应能力的增量诊断模型,可适应不断变化的工业工况。此外,Zhu 等人还提出了一种结合分类信息与特征层信息的新型增量学习方法,在噪声条件下有效提升模型的鲁棒性。

    卷积神经网络(Convolutional neural networks, CNN)在故障模式识别的特征提取方面表现良好,但在小样本学习和模式变化较大的场景中,其特征捕捉能力存在一定局限。注意力机制能够帮助模型聚焦关键信息,提升特征表示的鲁棒性,从而弥补CNN的不足。为此,本文提出的卷积-注意力融合网络(Convolutional-attention fusion network, CAFNet)将二者有效结合,在小样本学习和增量学习任务中均能够准确捕捉关键特征。本研究的主要贡献体现在以下三个方面:

    本研究的主要创新点与贡献如下:

    (1)构建数据知识库:用于存储和处理数据流,以保障数据质量与一致性,为后续的数据处理和模型训练提供可靠的数据基础;

    (2)设计自适应权重更新算法:根据模型的实际性能动态调整权重,以提升模型的自适应能力。同时,在损失函数中引入正则化参数,有效防止模型过拟合,增强其在不同场景下的泛化能力。

    (3)提出适用于小样本与类别增量诊断场景的学习方法:实验结果表明,所提模型在两个数据集上均能在小样本与类别增量条件下准确识别不同类型的故障,并能灵活应对故障类别的变化。

    3 相关工作

    3.1 知识库的构建与预处理

    知识库主要用于数据存储与预处理,如图1所示。该数据库由传感器连续采集的数据流构建而成,同时对数据进行预处理。

    知识库构建与预处理流程图
    在此过程中,从中随机选取长度为 l 的 k 条等长数据,用于后续分析:

       

       

       

    其中,     表示由一系列连续数据流      构成的已构建数据库;     为整数,用于表示数据索引,     为数据总量与数据长度      之和,用于限定      的取值范围;     表示数据类别,     表示类别      中第      条数据,数据长度为     。因此,     表示所有数据的总量。知识库用于存储和管理数据,以支持后续的分析与模型训练。最终形成的知识库表示所有类别数据的总体集 合,可通过对所有类别      的数据进行合并获得。

       

    3.2 面向增量任务的卷积-注意力融合网络

    所采集的类别      的数据将依据图2所示的增量诊断任务用于模型分析。

     
    增量任务流程图  

    增量任务源自增量学习或持续学习思想,当出现新的任务时,模型能够在学习新知识的同时优化已有知识。同时,增量任务可表示为:

        

    其中,     表示第      个增量任务,     表示所有增量任务的总集 合。由所采集的数据流构建的数据库在经过预处理后,将用于模型的自适应特征提取。模型的具体结构如图3所示。

     
    提出的卷积-注意力融合网络模型  

    卷积数据表示为:

       

    其中,卷积核的权重为          表示卷积操作,     表示 ReLU 激活函数。将卷积输出      转换为查询矩阵     、键矩阵      和值矩阵     

       

       

       

    其中,         和      分别表示查询(query)、键(key)和值(value)对应的权重矩阵。随后,通过查询向量与键向量计算注意力得分。

       

    其中,     表示权重矩阵,     表示双曲正切激活函数。注意力得分通过 softmax 函数 进行计算,以获得注意力权重。其表示形式为:

       

    最后,将注意力权重      与值矩阵      相乘并求和,得到上下文向量     

       

       

    其中,     表示层归一化操作,     表示经过残差连接后再经层归一化处理的输出结果。

       

       

       

    其中,     表示最大池化操作,     表示Dropout 操作,     表示展平层。最终,全连接层的输出表示为:

       

       

    其中,     表示全连接层的输出,同时也是各类别的评分值;     为全连接层的权重矩阵,     为偏置项。预测输出      通过Softmax 函数计算得到。对于多分类模型,采用交叉熵损失函数。此外,为防止模型过拟合,在损失函数中加入正则化项。其表达式为:

         

    其中,       表示损失函数,用于衡量预测概率        与真实标签        之间的差异;       表示真实类别的One-hot 编码,通常为 0 或 1,       表示模型输出的该类别的预测概率;       为正则化参数,       为其对应的权重项。模型参数通过反向传播进行更新。

       

    其中,     表示模型的参数,包括                              表示学习率,用于控制每次迭代的步长。

    3.3 齿轮箱类别增量故障诊断应用

    在介绍了所提出的卷积-注意力融合网络模型后,应用步骤如图4所示。

    增量诊断框架

    步骤1:在齿轮箱上安装振动加速度传感器,通过计算机采集振动信号,并对数据进行初步分类。

    步骤2:在初始阶段,将采集到的数据进行预处理,随后划分为训练集与测试集。

    步骤3:将训练集数据输入模型,对模型权重进行迭代更新。

    步骤4:在模型训练完成后,使用测试集数据验证模型在小样本任务中的诊断有效性。

    步骤5:初始阶段的数据经过步骤2至步骤4处理后,进入增量阶段。此时,对增量阶段2采集的数据进行预处理,并仅将增量数据输入模型,重复步骤3和步骤4,从而完成一次增量阶段的学习过程。

    步骤6:根据实际需要,可重复步骤2至步骤5,获得各增量阶段的故障诊断结果。

    实验验证

    4.1 案例

    为了验证所提出方法在小样本条件下的增量故障诊断有效性,在齿轮箱测试平台上进行了相关实验。具体实验设置如图5所示。振动信号由安装在齿轮箱上的加速度传感器采集,通过UtekL采集卡传输至计算机。齿轮的转速由电机控制,负载通过控制与显示装置进行调节。

    5 实验装置示意图  

    在数据采集过程中,所有信号采样时间为 10 秒,采样频率为 12.8 kHz,每个样本的长度设置为 1024。由于使用了三轴加速度传感器,每个样本长度为3072。每种工况下共采集 1000 个样本,共涉及 10 种工况。在实验中,随机选取400个正常样本,以及每种故障类型各130个样本。故障类型包括:正常、单齿点蚀、单齿裂纹、双齿点蚀、双齿裂纹。详细的故障程度与数据集设置如表1所示,各故障类型的位置分布如图6所示。本实验数据覆盖 9 种工况组合,包括转速 25 Hz、40 Hz 和 50 Hz,以及负载 0A、0.1A 和 0.2A 的组合。本文选取转速为 50 Hz 且负载为 0.1A 的工况数据进行分析与验证。

    1 实验的操作配置

    6 故障类型的位置信息

    4.2 实验设置

    为评估所提出方法的性能,在两组实验中对六种不同模型进行了比较,包括:i)仅使用CNN;ii)CNN与残差网络(ResNet)的组合;iii)CNN与压缩激励注意力机制的组合;iv)SEResNet;v)CNN与改进残差网络的组合;vi)本文提出的卷积-注意力融合网络(CAFNet)模型。

    关于各方法的详细对比及模型参数设置,如表2所示。在图示分析中加入了逐步对比实验,以展示 CAFNet 关键设计对模型性能的影响。

    表2 方法的参数设置

    通过对比不同模型,如不含注意力机制的模型(方法1与2),以及不同注意力机制之间的性能差异(方法3、4、5 与 CAFNet),验证了所提方法的有效性。所提出方法的网络结构如表3所示,每个组件代表一个不同的网络层。该结构包括:一维卷积层,自注意力机制层,最大池化层,由Dropout 层组成的主要网络结构,以及 Flatten 层与全连接层(Dense Layer)。在第14层中,并未指定特定的分类类别,而是引入可调参数,以适应自动分类类别数量的需求,并通过新类别表示机制,提升模型的自适应能力。

    表3 所提方法的网络架构

    5 结果与讨论

    为全面评估各方法在小样本增量故障诊断任务中的性能,本文采用了多种评估指标,包括:模型损失值(Loss),平均诊断准确率,F1 分数,混淆矩阵,遗忘率,L2 正则化参数分析。

    5.1  模型性能评估  

    首先,对模型在训练集与测试集上的性能进行了可视化分析,如图7所示。图中横轴表示迭代次数,纵轴表示模型损失值。横轴区间被划分为四个阶段:0–100轮 为初始训练阶段,101–150轮 为增量学习阶段1,151–200轮 为增量学习阶段2,201–250 轮为增量学习阶段3。

    7 迭代损失

    从图中可以明显看出,随着迭代次数的增加,所有模型在训练与测试过程中的损失值整体呈下降趋势,说明模型逐步学习并提升了对故障模式的识别能力。在初始阶段(0–100轮),大多数模型的损失值下降较快,因为模型在该阶段得到了充分训练,能够有效学习基本故障模式的特征。然而,不同模型在下降速度与最终损失值方面存在差异,其中所提出的模型在该阶段表现尤为突出,损失值下降更平稳且更具稳定性。

    在增量学习阶段1(101–150轮),所有模型开始引入新的故障类别数据进行学习。可以观察到,部分模型在引入新数据时出现较大的损失波动,尤其是部分传统增量学习方法,在面对新任务时表现出较大的不稳定性。相比之下,本文提出的模型在该阶段表现出显著的稳定性,损失波动幅度明显小于其他模型,能够迅速适应新任务数据,并保持较低的损失水平。

    在增量学习阶段2(151–200轮)与增量学习阶段3(201–250轮)中,进一步验证了各模型在面对更多增量数据时的性能表现。尽管所有模型的整体损失值持续下降,但提出的方法在这两个阶段依然表现出良好的稳定性与快速收敛性。与其他方法相比,本模型在这些阶段的损失曲线更加平滑,说明其在处理增量数据时对旧任务的遗忘率更低,并能有效地融合新知识。进一步分析表明,在损失波动幅度方面,提出的模型显著优于其他方法,尤其是在增量学习阶段,展现出更强的适应性与鲁棒性。通过对迭代过程中的损失曲线进行分析可以清晰地看出,本模型在处理新数据时的稳定性和收敛速度均优于对比方法,这表明本方法不仅能够更好地保留已学知识,还能在不显著降低性能的前提下快速学习新任务。

    上述结果验证了所提出模型在小样本增量故障诊断中的优势,尤其是在面对新故障模式时,其低损失波动性与快速收敛能力为故障诊断的实际应用提供了可靠保障。为了更全面地评估各方法在小样本增量诊断中的表现,对每种方法的诊断准确率进行了可视化分析,结果如图8所示。

    8 各方法的诊断准确度

    从图中可以明显看出,提出的方法在初始阶段已展现出优异的诊断性能,超过了其他对比方法。更重要的是,在随后的增量学习阶段中,该方法仍持续展现出显著优势。随着新增量数据的引入,尽管所有方法的诊断性能均有所下降,但本模型的准确率始终保持领先,特别是在增量阶段1、2、3中,准确率持续高于其他方法。从平均诊断效果来看,本方法在各阶段的性能均显著优于其他方法。具体而言,与方法1、方法2 和方法3 相比,本方法分别提升了 29.52%、16.72% 和 23.35%。

    这一显著的提升不仅验证了模型的有效性,也展现了其在应对小样本增量故障诊断任务中的优越泛化能力。尽管相对于方法4和方法5的提升不如前三种方法明显,但本方法依然具有绝对优势。与方法4相比,准确率提升了 5.66%,与方法5相比提升了 2.37%。这一在多种方法中体现出的全面优势,尤其是相较于传统方法的显著提升,进一步验证了本模型在小样本增量学习场景中的鲁棒性与有效性。通过上述对比与分析可见,所提出的模型不仅在初始阶段表现优异,在增量学习过程中亦展现出较强的适应性与稳定性,在准确率方面显著优于其他对比方法。在性能评估中,F1 分数是一种综合考虑模型准确率与召回率的调和平均值,因此非常适用于应对类别不平衡问题。在本研究中,采用 F1 分数对所提出模型的分类性能进行评估,特别是在小样本增量故障诊断任务中。表4展示了各类别在三个阶段测试样本上的性能表现,包括每个阶段的准确率、召回率、F1 分数和平均准确率,以及宏平均(Macro Average)和加权平均(Weighted Average)。

    表4 模型三个阶段的F1分数

    在初始阶段,模型在各类型样本上均表现最优,准确率达到了 100%。在第一个增量阶段,准确率超过 98%。在第二个阶段,尽管新类型数据的数量翻倍,模型准确率仍保持在 98% 以上,显示出较强的泛化能力。而在第三个增量阶段,准确率仍超过 94%,进一步说明本模型在持续学习过程中的稳定性和适应性。

    为了更详细地展示各类别的预测结果,本文引入了混淆矩阵。该矩阵有助于更深入地理解模型在各阶段的诊断效果,揭示模型在处理不同类别时的表现差异。如图9所示,展示了模型在各阶段的平均准确率。

    9 诊断模型在各阶段的混淆矩阵

    从图中可以看出,在初始阶段,模型的平均准确率达到了 100%,说明模型在该阶段对所有类别的预测均完全正确。在增量阶段1,平均准确率为 98.33%,虽略有下降,但反映出模型在引入新类别数据后仍能保持较高的准确率。在增量阶段2,平均准确率略微回升至 98.37%,表明模型在处理增量数据时的适应性与稳定性有所提升。在增量阶段3,平均准确率下降至 94.4%,虽然有所下降,但依然维持在较高水平,说明模型在面对更多增量数据时,仍具备良好的诊断性能。

    从混淆矩阵的分类效果来看,个别样本边界模糊的原因可能在于样本数量过少或特征提取效果不佳,从而导致模型在分类时出现困难,难以准确区分不同类别。为进一步验证所提出模型的有效性,本文设计了消融实验,以分析模型中不同组件对整体性能的贡献。这些消融实验主要聚焦于以下几个方面:模型组件消融,损失函数消融,模型深度消融,超参数消融。相关的模型设置及准确率变化如表5所示。

    表5 模型三个阶段的F1分数

    在本研究的消融实验中,分别对模型的不同组件、深度结构、损失函数与超参数进行了详细分析,以评估其对模型平均准确率的影响:(1)移除 Dropout 层使平均准确率下降至 95.22%,说明 Dropout 层对提升模型性能具有显著作用。(2)移除第9至第12层使平均准确率大幅下降至 87.88%,表明这些层在提高模型准确性方面起到了关键作用。(3)将损失函数替换为均方误差(MSE)后,平均准确率略有提升至 97.78%,表明 MSE 在本任务中表现良好。(4)将批量大小设置为较小值(batch size = 16)使平均准确率显著下降至 87.78%,进一步强调了当前批量大小设置对模型性能的重要性。基于以上分析,所提出的方法在完整配置下取得了最高平均准确率 97.78%,验证了其性能的优越性与鲁棒性。

    5.2 训练过程评估  

    遗忘率用于评估模型在学习新知识的过程中保留旧知识的能力,尤其适用于增量学习或持续学习场景。在初始阶段,由于模型尚未开始增量学习,因此不存在遗忘率的概念。对增量阶段中的遗忘率进行了可视化分析,如图10所示。

    10 增量诊断中每种方法的遗忘率

    从图中可以看出,五种对比方法的平均遗忘率分别为15.75%;7.08%;13.21%;3.34%;2.25%。相比之下,本文所提出的方法表现出更低的遗忘率,平均仅为 1.89%。这一结果表明,在小样本增量故障诊断场景下,本模型在学习新任务时能够有效保留已学知识,避免性能大幅下降。特别地,在对比方法中,方法1与方法3的遗忘率较高,反映出这类方法在面对增量数据时对旧任务存在明显的遗忘现象,从而导致模型整体性能不稳定。相比之下,我们提出的方法显著降低了遗忘率,表现出更强的知识保持能力。这种在模型稳定性与对新任务适应性之间的平衡,使得本方法在应对小样本增量诊断任务时表现出色。总体而言,较低的遗忘率不仅验证了本方法在适应新任务方面的有效性,也体现出其在应对小样本增量学习挑战中的鲁棒性与高效性。这一结果进一步验证了本方法在增量学习场景中的稳定性与可持续性,确保模型在不断学习新知识的同时,不会显著遗忘已有知识,从而持续提升性能。

    5.3 正则化参数对模型性能的影响分析

    为降低模型复杂度并防止过拟合,在损失函数中引入了正则化参数   。通过对不同正则化参数对模型泛化性能的影响进行比较,从中选择最优的正则化参数。图11展示了对6种不同的 L2 正则化参数取值(从 0 到 10)下模型性能的对比结果。

    图11 正则化参数分析

    分析结果表明,当正则化参数    时,模型表现出最佳的诊断效果。在该设置下,模型在各个阶段的分类性能均优于其他参数取值。说明当    时,模型的复杂度与泛化能力得到了良好的平衡,从而提升了其在训练数据与测试数据上的整体表现。进一步分析还表明,尽管其他参数值也在一定程度上改善了模型性能,但均未达到    所呈现的最优效果。这验证了    的正则化设置能够在维持模型简洁性的同时,最大程度地抑制过拟合,并提升模型在不同阶段下的分类稳定性与准确率。因此,最终选定正则化参数    作为模型的最终配置,以确保模型在实际应用中的最优诊断性能。  


    6 结论

    本研究提出了一种卷积-注意力融合网络(CAFNet),以解决齿轮箱在小样本条件下的增量故障诊断难题。通过知识库系统对诊断数据流进行持续管理,使得模型能够实时利用最新数据。在数据采集与预处理阶段,对输入数据进行标准化处理,以满足模型训练需求。模型训练过程中引入了自适应权重更新算法,使其能够在每个阶段有效适应新数据,同时引入 L2 正则化以防止过拟合,从而在小样本条件下提升模型的泛化能力。实验结果表明,CAFNet 在诊断准确率、F1 分数和混淆矩阵指标方面均优于对比方法,同时具有较低的遗忘率,展现出出色的知识保持能力。进一步分析还发现,当L2 正则化参数设置为 1 时,模型分类效果最佳,有效降低了模型复杂度与过拟合风险。

    未来的研究工作将进一步扩展CAFNet在多工况、多部件增量故障诊断中的应用,以验证其广泛适用性。同时,计划对模型结构进行优化,并探索参数压缩方法,以降低计算复杂度,提升其在资源受限环境下的实用性。此外,还将CAFNet应用于实际小样本任务与跨领域数据集中,验证其泛化能力与迁移能力,确保其在复杂设备多故障环境下的稳定性与高效性。



    编辑:Jin
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除


    来源:故障诊断与python学习
    MechanicalSystem振动旋转机械海洋声学裂纹电机Electric传动控制数控
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-06-14
    最近编辑:16小时前
    故障诊断与python学习
    硕士 签名征集中
    获赞 79粉丝 112文章 204课程 0
    点赞
    收藏
    作者推荐

    高置信度故障诊断论文学习 | 基于Transformer注意力不确定性的旋转机械故障诊断可信性研究

    本期分享邵海东教授团队的论文投稿:基于Transformer注意力不确定性的旋转机械故障诊断可信性研究。在深度诊断模型广泛应用于旋转机械故障识别的背景下,如何实现“可信可解释”的智能诊断成为关键挑战。现有研究多聚焦于构建可解释模块或揭示模型决策逻辑,然而对结果不确定性的量化与解释仍显薄弱。为此,本文提出一种融合贝叶斯变分推断与Transformer注意力机制的新型概率模型,赋予模型感知与解析不确定性的能力。通过设计概率注意力机制及其优化目标,模型可自动学习注意力权重的分布,并实现对认知不确定性与随机不确定性的有效分解。实验结果在三个分布外场景中验证了方法的可靠性与泛化能力,为可信智能诊断提供了新路径。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Towards trustworthy rotating machinery fault diagnosis via attention uncertainty in transformer论文期刊:Journal of Manufacturing Systems论文日期:2023年7月论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0278612523001449作者:Yiming Xiao (a), Haidong Shao (a), Minjie Feng (a), Te Han (b), Jiafu Wan (c), Bin Liu (d)机构:a: College of Mechanical and Vehicle Engineering, Hunan University, Changsha 410082, China;b: School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China;c: Provincial Key Laboratory of Technique and Equipment for Macromolecular Advanced Manufacturing, South China University of Technology, Guangzhou 510641, China;d: Department of Management Science, University of Strathclyde, Glasgow G1 1XQ, UK.团队带头人简介:邵海东教授,湖南大学机械与运载工程学院副教授,西北工业大学本硕博,瑞典吕勒奥理工大学博士后,入选科睿唯安全球高被引科学家(工程学/交叉学),爱思唯尔中国高被引学者(机械工程),斯坦福全球前2%顶尖科学家终身科学影响力榜单(人工智能)。研究方向为运载装备机电系统的健康管理与智能运维,主持国家自然科学基金面上项目,青年项目,国家重点研发计划子课题,湖南省自然科学基金优秀青年基金项目,教育部产学合作协同育人项目,国家级重点实验室开放课题和研究所/企业委托课题等,参与了重大研究计划、军委装备预研基金、航空科学基金等课题。(来源: https://grzy.hnu.edu.cn/site/index/shaohaidong)目录1 摘要2 引言3 相关工作3.1 多头自注意力机制3.2 贝叶斯变分学习4 所提出的概率型贝叶斯Transformer4.1 模型架构4.2 概率注意力机制的设计与优化目标的定义5 实验验证5.1 数据集描述5.2 实验场景设置5.3 场景1的实验结果分析5.4 场景2的实验结果分析5.5 场景3的实验结果分析6 结论1 摘要为使研究人员能够充分信任深度诊断模型所作出的决策,可解释的旋转机械故障诊断(RMFD)研究逐渐兴起。现有的可解释性RMFD研究主要集中在以下两个方向:其一是在深度模型中嵌入可解释模块,以赋予诊断结果物理意义;其二是推理模型决策背后的逻辑机制。然而,当前在结果不确定性量化及其来源与构成的解释方面的研究仍较为有限。不确定性量化与分解不仅能够表征模型输出结果的可信度,还能识别数据中未知因素的来源,从而为提升模型的可解释性和可信度提供理论支撑。因此,本文提出利用贝叶斯变分学习,将不确定性引入Transformer的注意力权重中,构建一种概率型贝叶斯Transformer模型,以实现可信的旋转机械故障诊断。本文设计了概率注意力机制并定义了相应的优化目标,使模型能够推理注意力权重的先验与变分后验分布,从而赋予模型对不确定性的感知能力。同时,构建了不确定性量化与分解方案,用于表征结果置信度并实现对认知不确定性(epistemic)与随机不确定性(aleatoric)的分离。在三个分布外泛化场景中,全面验证了所提方法的有效性。关键词:可信旋转机械故障诊断,概率注意力机制,贝叶斯深度学习,Transformer,不确定性量化与分解2 引言旋转机械在现代制造中发挥着不可或缺的作用。其中,轴承和齿轮箱是旋转机械的关键部件,其故障可能导致严重的经济损失,甚至危及生命安全。因此,面向轴承和齿轮箱的旋转机械故障诊断(RMFD)具有重要意义[1]。近年来,基于深度学习的RMFD研究持续受到全球学者的广泛关注。2023年,Chen 等人[2]设计了一种对抗引导的无监督多域自适应网络,能够充分提取多域中的域不变特征,实现多域协同的RMFD。同年,Lin 等人[3]提出了一种通用的、与模型无关的元学习方法,使得RMFD能够在不同工况下实现少样本跨域诊断,适用于异构信号驱动的复杂场景。尽管这些先进的深度诊断模型展现出优越性能,但它们普遍存在深度学习的“黑盒”特性,这使得研究人员难以完全信任其诊断结果,限制了智能诊断方法的推广与应用[4–7]。为了揭示深度模型作出诊断决策的依据,增强模型的可信度,可解释性的RMFD研究应运而生。2022年,Xiao 等人[8]提出了一种从仿真域到实验域的无监督域适应方法,探索了“数据-物理”耦合驱动的故障诊断新路径。Li 等人[9]在同年开发了连续小波卷积层,并将其用于改进传统卷积神经网络(CNN),通过小波变换的物理意义赋予CNN可解释性。2023年,Shang 等人[10]设计了一种降噪故障感知小波网络,融合信号处理方法的可解释性与降噪能力,实现了在强噪声背景下的高效RMFD。尽管可解释性RMFD研究日益受到关注,现有方法主要集中于构建可解释模块并嵌入深度模型中,以赋予诊断结果一定的物理意义,或通过推理模型的深层逻辑来解释其诊断依据。然而,对于如何量化诊断结果中的不确定性,并解释其来源与组成,目前的研究仍相对有限。而这恰恰是构建可信诊断模型、建立研究人员与深度模型之间依赖关系的关键。不确定性量化是一种强有力的工具,可用于判断诊断结果的置信程度:高不确定性意味着结果可信度低,低不确定性则表示结果可信度高。在实际工程中,复杂的机械结构与故障机理可能引发未知故障,噪声背景也可能造成数据采集环境的未知扰动。此外,设备运行速度与负载的变化也会构成未知工况,导致测试数据的分布与训练数据显著不同[11,12]。面对这类分布外样本,深度模型常常会在无任何预警的情况下做出不可靠的诊断决策。然而,如果能够对诊断结果中的不确定性进行量化,研究人员便可明确该结果的置信程度,进而调整设备的运行与维护策略,规避潜在的故障风险。此外,若能进一步解释诊断结果中不确定性的来源与构成,也有助于建立研究人员与深度模型之间的依赖机制,提升诊断过程的透明性与可解释性[13,14]。 不确定性可以分解为两类:认知不确定性(Epistemic Uncertainty,又称模型不确定性)与随机不确定性(Aleatoric Uncertainty,又称数据不确定性)。(1)认知不确定性是由诊断知识不足引起的模型参数不确定性,例如训练数据有限或类别不平衡,无法覆盖所有可能的工况与故障类型等。认知不确定性可通过模型在训练数据集 上学习到的参数 的后验分布 来刻画:如果后验分布较为平坦,表示模型存在较高的认知不确定性;而尖锐集中的分布则说明不确定性较低。为了降低认知不确定性,需要进行额外仿真以采集更丰富的数据,从而帮助模型学习在未知故障模式或未知工况下机械系统的行为特征[15,16]。(2)随机不确定性则源自于数据本身的内在随机性,常受不可观测因素(如噪声干扰、传感器硬件故障等)影响。当模型参数为确定值且输入给定时,随机不确定性可由预测标签的概率分布表示:若该分布较为平坦,说明模型对输入无法做出明确分类,随机不确定性较高;若分布较为尖锐,表示模型对输入预测具有较强信心,随机不确定性较低。由于随机性是数据的固有属性,增加训练数据并不能有效降低随机不确定性,但采用更可靠与高效的检测仪器有助于捕捉隐藏在数据中的关键未知变量,从而实现一定程度的降低[17,18]。因此,不确定性量化与分解不仅能够表征诊断结果的置信度,还可用于分析测试数据中未知因素的来源,明确提升模型可信性的改进方向,这对于实现可信的旋转机械故障诊断具有重要意义。 然而,现有的深度诊断模型通常难以有效表达诊断结果中的不确定性,主要原因在于其模型参数普遍为固定值,使得其输出往往仅为过于自信的点估计[19]。相比之下,贝叶斯深度学习(Bayesian DL)将模型参数视为服从某种概率分布的随机变量,而非固定值,是进行不确定性量化的有力工具[20]。2022年,Zhou 等人[21]首次在RMFD领域构建了一个贝叶斯CNN模型,用于可信故障诊断,并对深度模型诊断结果中的不确定性来源与构成进行了系统分析。这项工作首次填补了深度模型结果不确定性解释研究的空白。需要说明的是,尽管已有研究[22,23]在 Zhou 等人工作之前探索了如何在诊断结果中考虑不确定性,这些研究仍主要集中于利用不确定性提升诊断精度,而未对不确定性的来源与结构进行深入探讨,因此不适用于可信RMFD的研究范式。鉴于近年来基于自注意力机制的Transformer模型在多个任务中的广泛应用前景[24],本文提出将贝叶斯变分学习(Bayesian Variational Learning)引入Transformer的注意力权重中,构建一种概率型贝叶斯Transformer模型(ProFormer),用于可信的旋转机械故障诊断。在该模型中,注意力权重不再是传统Transformer中通过计算获得的确定性值,而是从学习得到的概率分布中采样得到的随机变量。本研究的主要创新点与贡献如下:(1)提出了一种面向可信性的旋转机械故障诊断方法,通过分析与解释诊断结果中的不确定性来源及其构成,提升模型的可信度。所提出方法在包含未知故障类型、未知噪声水平或未知工况的分布外泛化测试场景中得到了充分验证,是当前可解释RMFD领域中的重要探索。(2)设计了一种概率注意力机制,并定义了相应的最优目标函数。作为ProFormer模型的核心,该机制能够建模注意力权重的先验分布与变分后验分布,从而赋予模型感知不确定性的能力。该工作是在贝叶斯深度学习框架下构建注意力机制的开创性研究。(3)构建了一套不确定性量化与分解方案,实现了对诊断结果置信度的表征,并能够有效区分认知不确定性(Epistemic)与随机不确定性(Aleatoric)。3 相关工作3.1 多头自注意力机制 多头自注意力机制是Transformer的核心组成部分[25],其目标是学习一种对齐方式,使得每个token在嵌入表示中能够聚合来自其他token的信息。给定token嵌入矩阵 ,通过一组线性映射可以得到查询向量 、键向量 和值向量 : , , 。其中, 表示token的数量, 、 和 是模型需要学习的参数矩阵。 如图1左侧所示, 、 和 是输入到缩放点积注意力机制中的关键张量。 图1 多头自注意力机制在该注意力机制中,对 和 执行点积运算,然后除以缩放系数 ,从而得到未归一化的注意力权重 : 随后,可以通过使用softmax函数在关键维度上正则化φ来获得归一化的注意力权重: 其中, , 。最后,通过注意力权重矩阵 与值向量矩阵 的点积操作,可以得到缩放点积注意力的输出: 在实际应用中,单个 、 和 上执行的单一注意力计算往往会导致模型性能较差。为了解决这一问题,图1右侧展示了多头自注意力机制的结构。该机制由多个并行运行的注意力头组成。多头自注意力机制首先通过 组不同的线性投影对原始的 、 和 进行处理,从而获得 个不同版本的 、 和 。随后,每组 、 和 分别执行上述缩放点积注意力计算,得到 个注意力输出。最后,这些 个输出被级联(concatenate)并通过一组线性投影,生成最终的注意力输出: 其中, 表示向量拼接操作, ( )表示第 个注意力头的索引。 、 、 以及 是模型需要学习的参数矩阵。3.2 贝叶斯变分学习深度神经网络(DNN)的训练目标是,在给定训练数据的条件下,寻找最优的模型参数。然而,每个最优参数仅为该参数的点估计。因此,训练完成后的 DNN 模型参数是确定性的,对于任一输入只能提供一个固定输出。与此不同,贝叶斯神经网络(BNN)[19] 并不对参数进行点估计,而是为所有参数提供概率分布,即参数的后验分布 。一般情况下,可以通过贝叶斯公式(Bayes’ rule)求解后验分布: 其中, 是似然函数, 是边际似然,先验分布 通常选择为高斯分布。然而,由于神经网络通常包含大量参数,导致积分项 的计算非常复杂,因此需要引入变分推断(Variational Inference)来近似求解该后验分布[26]。变分推断的目标是,在由参数 控制的一族分布 中寻找一个分布,使其尽可能逼近真实的后验分布 ,从而将后验推断问题转化为一个优化问题,即最小化变分分布 与真实后验分布 之间的差异。通常,使用 Kullback-Leibler (KL) 散度 作为衡量该差异的指标: 其中, 被称为证据(evidence), 被称为证据下界。4 所提出的概率型贝叶斯Transformer4.1 模型架构如图2所示,所提出的ProFormer模型由三部分组成:一个卷积层、由多个ProFormer块堆叠构成的ProFormer编码器,以及一个由多个全连接(FC)层构成的分类器。具体而言,ProFormer块由以下部分组成:所设计的概率注意力机制、一个多层感知机(MLP)、两个层归一化层以及两个残差连接。图2 ProFormer 模型 给定一维振动信号数据集 ,其中 表示第 个样本, 为对应标签, 为单个样本的长度, 为样本总数。为简化表达,下文省略样本索引 。每个样本首先被划分为 个信号片段,每个片段被称为一个token,随后每个token会通过线性投影映射为一个维度为 的嵌入表示。该过程可通过卷积层实现: 其中, 表示转置操作, 为token嵌入表示, 和 分别表示卷积层的输入通道数与输出通道数, 与 分别表示卷积核的大小与滑动步长。随后,将一个可学习的嵌入向量 拼接到 的开头,得到新的token嵌入表示 。此外,还需加入一个可学习的位置嵌入 ,用于编码位置信息: 其中, 表示包含位置信息的token嵌入表示。随后, 被送入编码器,以提取样本的隐藏特征: 其中, ( )表示第 个ProFormer块,经过变换后的类别token 位于输出 中,可被提取作为分类所需的隐藏特征。最终的分类过程可描述如下: 其中, 表示预测标签的概率分布, 表示故障类别的数量。4.2 概率注意力机制的设计与优化目标的定义所设计的概率注意力机制是所提出的ProFormer模型的核心部分,其可替代传统的缩放点积注意力机制,赋予Transformer类似于贝叶斯神经网络(BNN)的性质。如图3所示,在本文提出的概率注意力机制中,注意力权重不再是通过计算获得的确定性值,而是从其后验分布中采样得到的潜在随机变量。图3 缩放点积注意力与概率注意力的区别因此,对于数据集 ,需要建模的是每个输入对应的注意力权重的后验分布 ,其中 表示样本 在所有ProFormer块中的归一化注意力权重集 合。进一步考虑到,若将高斯分布族用作注意力权重的变分后验分布 ,将无法满足注意力矩阵应具备的约束条件(即 且 ),因此采用对未归一化注意力权重 建模的方式,使用高斯分布族构造其变分后验分布 。(1)用于变分后验分布的推理网络:根据平均场理论(mean-field theory),变分后验分布 可以分解为 个高斯分布的乘积形式: 其中, 和 分别为由 个高斯分布的均值与标准差组成的矩阵。这表明, 中的每一个元素 都是从一个独立的高斯分布 中采样得到的,如图3(b)所示。为了进一步推导高斯分布两个分布参数,设计了如图4所示的概率注意力机制。图4 ProFormer 块中的概率注意力机制随后,在概率注意力结构中,后验推理网络由两个MLP组成,用于生成 和 : 其中, 、 和 表示线性投影函数,而 表示激活函数。(2)先验分布的推理网络:为避免过拟合,本文并未直接给出 的确定性先验分布 ,而是构建了一个以键向量 为输入的推理网络,用于建模 ,使得先验分布 与输入 相关,参考文献[29]。然而,如果高斯先验的均值与标准差完全依赖该推理网络生成,可能无法获得符合预期的先验分布。为此,本文采用图4中所示的先验推理网络来生成高斯先验的均值,而将标准差视为一个超参数,直接设定。 此外,本文还构建了一个高斯混合先验分布,采用两个高斯分布的缩放混合形式,其中这两个高斯分布共享推理网络生成的均值,但具有不同的标准差。根据平均场理论,该先验分布可以定义如下: 其中, 为正则化系数, 是由推理网络生成的、包含 个共享均值的矩阵, 与 则为所有元素均为给定标准差的矩阵。 的推理过程可描述如下: 其中, 和 表示线性投影函数。(3)优化目标的定义:ProFormer 的模型参数通过最小化KL散度 来更新,该目标等价于最大化证据下界: 其中, 表示第 次采样的噪声项 。训练模型时以 作为优化目标,其中 可等价于交叉熵损失函数。4.3 不确定度量化与分解在测试阶段,对于给定的测试样本 ,所提出的方法从变分后验分布 中采样 组注意力权重,用以构建 个子网络。设第 个子网络的输出为 。将所有网络输出 的平均值记为 ,作为预测标签的概率分布。 中最大元素的索引即为该测试样本的预测标签,而 的熵值可用来近似表示该预测结果的总不确定性: 其中, 表示向量 中位置为 的元素。值得指出的是,确定性网络只能提供过于自信的点估计预测,因此无 法 正确刻画诊断结果中的不确定性。总不确定性可以进一步分解为认识不确定性和任意不确定性: 4.4 所提方法的运行流程 基于上述分析,本文构建了一个可信的旋转机械故障诊断(RMFD)框架,如图5所示,其运行流程可进一步概括如下:(1)数据采集:在设备处于已知故障模式、噪声水平和工况条件下,采集振动信号以构建训练集(已知域);在设备处于未知故障模式、噪声水平或工况条件下,采集振动信号以构建测试集(未知域)。(2)模型训练:使用已知域中的数据对所提出的ProFormer模型进行训练。(3)模型测试:利用训练好的ProFormer模型,对未知域中的所有测试样本进行故障诊断。(4)不确定性分析:通过所构建的不确定性量化与分解方案,对诊断结果中的不确定性进行分析。(5)研究者干预:基于不确定性分析的结果,研究人员判断诊断结果的置信程度,并揭示测试数据中隐藏的未知因素,从而找到提升模型性能的关键路径。图5 提出的方法的流程图5 实验验证在实验案例中设置了三种实验场景,即测试数据中包含未知故障模式、未知噪声水平或未知工况条件的样本。所提出的ProFormer模型的主要超参数如表1所示。为了全面评估方法性能,本文将所提方法与两种基准方法进行了对比,分别为ResNet18和Vision Transformer。表1 ProFormer的主要超参数设置 5.1 数据集描述 案例所使用的数据来自清华大学构建的风电行星齿轮箱故障数据集[31]。如图6(a)所示,实验所用的测试平台由电机驱动输入端,输出端连接风轮。此外,在齿轮箱壳体上安装了两个加速度传感器,分别采集X和Y方向的振动信号,采样频率为20 kHz。实验共使用9个齿轮部件,包含不同健康状态的齿轮,包括:1个正常齿轮、4个故障太阳轮以及4个故障行星轮。8种故障齿轮的详细信息见表2,部分故障齿轮如图6(b)所示。同时,输入端转速在15 Hz到40 Hz之间以1 Hz为间隔变化,故信号采集覆盖了26种不同的工况条件。 图6 清华大学风力涡轮机试验台5.2 实验场景设置 案例1中选取Y方向的振动信号作为验证实验的数据来源。在实验过程中,首先使用工况条件为32 Hz、36 Hz 40 Hz、标签为0、1、2、3和4的样本对三种故障诊断模型进行训练与测试,该部分数据被定义为已知域(known domain)。本实验的目的是验证在测试数据中不包含未知样本的通用场景下,所提方法的故障诊断性能。随后,将训练完成的模型应用于三个不同的实验场景,这三个场景中测试数据所构成的未知域(unknown domain)存在差异,具体设置如下:(1)未知域包含与已知域相同工况下的故障样本,但其标签为5、6、7和8,即出现了新的故障类型;(2)未知域样本的工况与标签均与已知域一致,但在振动信号中加入了不同信噪比的高斯白噪声,共考虑了2 dB、1 dB、0 dB和−1 dB四种SNR;(3)未知域包含标签与已知域一致的故障样本,但其工况条件不同,具体转速为16 Hz、20 Hz、24 Hz 和28 Hz,即出现了新的运行工况。 表2给出了已知域及三种未知域的详细设置。训练样本与测试样本在各工况条件下均匀分布,每个样本的长度为1024,并均采用零均值归一化(zero-mean normalization)预处理方法。 表2 案例1中的详细设置5.3 场景1的实验结果分析 在处理已知域测试数据时,ProFormer、VIT和ResNet18的诊断准确率分别为98.93%、97.07%和99.73%。这表明,在测试数据不包含未知样本的常规场景中,所提出的方法具有与对比方法相当或更优的诊断性能。然而,在处理具有未知故障类型的样本时,VIT与ResNet18可能会将其错误地诊断为已知故障类型,且不会向研究人员发出任何提示,这凸显了所提方法的必要性与优势。图7展示了ResNet18、VIT和ProFormer在处理1个已知样本与4个未知故障类型样本时输出的预测标签的概率分布,其中横坐标表示故障标签,纵坐标表示预测概率。图7 各方法对具有不同故障标签的样本的诊断结果(场景1,案例1):(a)标签1;(b)标签5;(c)标签6;(d)标签7;(e)标签8如图所示,ResNet18和VIT仅能给出过于明确的诊断结果,而ProFormer能够同时提供预测结果的不确定性信息。这是因为所提方法通过Monte Carlo采样构建T个不同子网络,并由这 T个网络给出不同的预测概率分布。当处理一个真实标签为1的已知样本时,三个模型均给出了正确的诊断结果。具体而言,在ProFormer中,T个子网络输出的预测分布高度一致,反映出低不确定性与高置信度。但在处理一个真实标签为5的未知样本时,VIT和ResNet18分别将其错误地、高置信地预测为标签4和0,却未向研究人员提示任何异常。相比之下,ProFormer 模型的T个子网络输出的诊断结果差异显著,导致预测标签的概率分布在多个健康状态之间分散,表现出较高的不确定性,提示研究人员该结果可能不可靠,需要进一步调查。在处理真实标签为6、7和8的未知样本时,三种模型也表现出类似的现象,进一步说明:ProFormer 不仅能对已知故障样本做出高置信度预测,还能通过传达结果的不确定性,有效提升诊断结果的可靠性,并向研究人员提示设备可能处于未知故障模式下。 为验证所提方法在不确定性量化与分解方面的能力及其可解释性,本文对ProFormer在已知域与未知域中所有测试样本所获得的不确定性结果进行了来源与组成的分析。图8展示了三类不确定性的分布情况,其中横坐标表示概率值,纵坐标表示密度。如图所示,在已知域中,三类不确定性的分布均呈现尖峰型特征,值集中在0附近,表明模型预测结果具有低不确定性;而在未知域中,分布形态较为平坦,说明模型在该域中的预测结果具有较高的不确定性。这一实验现象与预期一致。进一步分析发现,认知不确定性(epistemic uncertainty)对总不确定性的贡献较大,这可以解释为模型在识别未知样本时所依赖的诊断知识不足。考虑到场景1的测试样本正是未知故障类型的样本,因此该实验也在一定程度上证明了所提方法的可解释性。 图8 基于所提出的方法对测试样本的诊断结果进行不确定度估计 5.4 场景 2 的实验结果分析 在实际工程中,所采集的振动信号通常会受到严重噪声的干扰,这种噪声可能来自设备运行环境的背景噪声,或传感器测量误差所引起。因此,场景2中的未知域通过在已知域测试样本中叠加不同信噪比(SNR)的高斯白噪声构造而成。如图9所示,随着SNR的降低,所有方法的诊断准确率均出现明显下降,其中 ResNet18的性能下降最为显著,而ProFormer显示出较强的稳定性。这一实验现象主要由以下两个原因导致:(1)在低SNR条件下,振动信号的周期性特征被削弱,使得CNN无法通过捕捉如冲击带等有效的局部特征进行准确识别。在强噪声干扰下,更需要依赖Transformer的自注意力机制来挖掘信号中的全局信息;(2)所提出的方法并非训练一个单一模型,而是构建了多个网络的集成结构。该训练方式本质上与集成学习相似,天然具备更强的泛化能力。 图9 案例1场景2中每种方法的诊断准确性 此外,尽管在低SNR情况下存在较多的误诊样本,对比方法并不能向研究人员发出任何警示;而所提方法则能够传达诊断结果的置信度信息。如图10 所示,当处理一个真实标签为2、SNR为0 dB的故障样本时,ResNet18和VIT高置信度地将其误识别为4。而所提方法虽然将该样本误识别为标签1,但其预测标签在多个健康状态之间的概率分布显示出较高的不确定性,提示该结果的可信度不足,需要研究人员介入判断。图10 每种方法对于真实标签为2且SNR为0 dB的故障样本的诊断结果 图11展示了所提方法在不同噪声水平下对所有测试样本的不确定性估计结果。可以观察到,随着SNR的持续下降,三类不确定性均呈现逐渐上升的趋势,其中随机不确定性(aleatoric uncertainty)在总不确定性中的贡献逐渐显著。由于随机不确定性刻画的是数据中所隐藏的内在随机性,这一实验现象表明:数据中的有效信息被噪声淹没,导致模型难以做出确定的诊断判断。考虑到场景2中的测试样本正是带有噪声干扰的样本,以上结果进一步验证了所提方法的可解释性。由于数据的内在随机性本质上是不可消除的,单纯增加训练数据并不能提升模型性能。相反,研究人员应采用更高效的检测仪器或抗噪技术,以抵御噪声干扰并采集更干净的信号。通过这种方式,模型与研究人员之间的依赖关系得以建立。 图11 基于所提方法对未知域中测试样本的诊断结果进行不确定度估计5.5 场景3 的实验结果分析 机械设备在实际运行中常常面临不可预测的工况条件,这将导致所采集的测试数据分布发生变化,从而引起模型性能的下降。因此,场景3中的未知域通过改变设备的转速来构造。如图12所示,随着未知域与已知域之间转速差异的逐渐增大,各方法的诊断准确率整体呈下降趋势,其中ResNet18的性能最为稳定,这可能是由于CNN的局部感受野更擅长于提取域不变特征。尽管ProFormer在未知工况下的准确率相对较低,但它仍然能够通过传达预测结果中的不确定性来保障模型输出的置信度。 图12 案例1场景3中各方法的诊断准确性 如图13所示,当处理一个转速为16 Hz、真实标签为0的故障样本时,尽管ProFormer将其误识别为标签3,但从诊断结果中可以看出,预测标签为0与3的概率分布均表现出较高的不确定性,这表明模型对该预测结果的置信度较低。类似的实验现象也出现在处理真实标签为1的样本时,进一步验证了所提出方法在评估预测结果置信度方面的能力。图13 在16 Hz条件下,所提出的方法的诊断结果 图14展示了所提方法在不同未知工况条件下对全部测试样本的不确定性估计结果。可以观察到,随着转速差异的增加,三类不确定性整体呈上升趋势。 图14 基于所提方法对未知域中测试样本的诊断结果进行不确定度估计 进一步地,从图15可以看到,认知不确定性(epistemic uncertainty)在总不确定性中所占的比例也随转速差的增大而逐渐上升。这一现象可以理解为:模型对新工况的诊断知识不足问题日益加剧。由于场景3中的测试样本正是具有未知工况条件的样本,因此本实验结果进一步验证了所提方法的可解释性。图15 不同条件下的不确定度组成(场景3,案例1) 6 结论在本文中,提出了一种面向可信旋转机械故障诊断(RMFD)的ProFormer模型,并得出以下主要结论:(1)分析与解释深度学习模型所提供诊断结果中的不确定性来源与构成,有助于提升模型的可解释性与可信度。(2)所设计的概率注意力机制及其定义的优化目标函数,可用于建模注意力权重的先验分布与变分后验分布,从而赋予模型感知不确定性的能力。(3)构建的不确定性量化与分解方案,可用于刻画诊断结果的置信度,并将总不确定性有效地分解为认知不确定性(Epistemic Uncertainty)与随机不确定性(Aleatoric Uncertainty)。考虑到基于贝叶斯变分学习的模型对不确定性的建模能力在很大程度上依赖于所构建的先验分布,未来将引入更加全面的先验分布,以增强模型对不确定性的感知能力。此外,本文所采用的平均场理论(Mean-field Theory)假设不同注意力块之间的权重是相互独立的。未来工作将探讨如何放宽这一假设,以捕捉不同注意力块之间的依赖关系。进一步地,为构建更加可靠的人机交互机制,不仅应考虑如诊断结果不确定性这类显性知识(Explicit Knowledge),也应关注在实际生产过程中操作者、车间主管或工厂管理者所积累的隐性知识。编辑:Jin校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈