首页/文章/ 详情

高置信度故障诊断论文学习 | 基于Transformer注意力不确定性的旋转机械故障诊断可信性研究

2天前浏览55
    本期分享邵海东教授团队的论文投稿:基于Transformer注意力不确定性的旋转机械故障诊断可信性研究。在深度诊断模型广泛应用于旋转机械故障识别的背景下,如何实现“可信可解释”的智能诊断成为关键挑战。现有研究多聚焦于构建可解释模块或揭示模型决策逻辑,然而对结果不确定性的量化与解释仍显薄弱。为此,本文提出一种融合贝叶斯变分推断与Transformer注意力机制的新型概率模型,赋予模型感知与解析不确定性的能力。通过设计概率注意力机制及其优化目标,模型可自动学习注意力权重的分布,并实现对认知不确定性与随机不确定性的有效分解。实验结果在三个分布外场景中验证了方法的可靠性与泛化能力,为可信智能诊断提供了新路径。

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:

    Towards trustworthy rotating machinery fault diagnosis via attention uncertainty in transformer

    论文期刊:Journal of Manufacturing Systems

    论文日期:2023年7月

    论文链接:

    https://www.sciencedirect.com/science/article/abs/pii/S0278612523001449

    作者:Yiming Xiao (a), Haidong Shao (a), Minjie Feng (a), Te Han (b), Jiafu Wan (c), Bin Liu (d)

    机构:

    a: College of Mechanical and Vehicle Engineering, Hunan University, Changsha 410082, China;

    b: School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China;

    c: Provincial Key Laboratory of Technique and Equipment for Macromolecular Advanced Manufacturing, South China University of Technology, Guangzhou 510641, China;

    d: Department of Management Science, University of Strathclyde, Glasgow G1 1XQ, UK.

    团队带头人简介:邵海东教授湖南大学机械与运载工程学院副教授,西北工业大学本硕博,瑞典吕勒奥理工大学博士后,入选科睿唯安全球高被引科学家(工程学/交叉学),爱思唯尔中国高被引学者(机械工程),斯坦福全球前2%顶尖科学家终身科学影响力榜单(人工智能)。研究方向为运载装备机电系统的健康管理与智能运维,主持国家自然科学基金面上项目,青年项目,国家重点研发计划子课题,湖南省自然科学基金优秀青年基金项目,教育部产学合作协同育人项目,国家级重点实验室开放课题和研究所/企业委托课题等,参与了重大研究计划、军委装备预研基金、航空科学基金等课题。(来源: https://grzy.hnu.edu.cn/site/index/shaohaidong)

    目录

    1 摘要

    2 引言

    相关工作

    3.1 多头自注意力机制

    3.2 贝叶斯变分学习

    所提出的概率型贝叶斯Transformer

    4.1 模型架构

    4.2 概率注意力机制的设计与优化目标的定义

    5 实验验证

    5.1 数据集描述

    5.2 实验场景设置

    5.3 场景1的实验结果分析

    5.4 场景2的实验结果分析

    5.5 场景3的实验结果分析

    6 结论

    1 摘要

    为使研究人员能够充分信任深度诊断模型所作出的决策,可解释的旋转机械故障诊断(RMFD)研究逐渐兴起。现有的可解释性RMFD研究主要集中在以下两个方向:其一是在深度模型中嵌入可解释模块,以赋予诊断结果物理意义;其二是推理模型决策背后的逻辑机制。然而,当前在结果不确定性量化及其来源与构成的解释方面的研究仍较为有限。不确定性量化与分解不仅能够表征模型输出结果的可信度,还能识别数据中未知因素的来源,从而为提升模型的可解释性和可信度提供理论支撑。因此,本文提出利用贝叶斯变分学习,将不确定性引入Transformer的注意力权重中,构建一种概率型贝叶斯Transformer模型,以实现可信的旋转机械故障诊断。本文设计了概率注意力机制并定义了相应的优化目标,使模型能够推理注意力权重的先验与变分后验分布,从而赋予模型对不确定性的感知能力。同时,构建了不确定性量化与分解方案,用于表征结果置信度并实现对认知不确定性(epistemic)与随机不确定性(aleatoric)的分离。在三个分布外泛化场景中,全面验证了所提方法的有效性。

    关键词:可信旋转机械故障诊断,概率注意力机制,贝叶斯深度学习,Transformer,不确定性量化与分解

    2 引言

    旋转机械在现代制造中发挥着不可或缺的作用。其中,轴承和齿轮箱是旋转机械的关键部件,其故障可能导致严重的经济损失,甚至危及生命安全。因此,面向轴承和齿轮箱的旋转机械故障诊断(RMFD)具有重要意义[1]。

    近年来,基于深度学习的RMFD研究持续受到全球学者的广泛关注。2023年,Chen 等人[2]设计了一种对抗引导的无监督多域自适应网络,能够充分提取多域中的域不变特征,实现多域协同的RMFD。同年,Lin 等人[3]提出了一种通用的、与模型无关的元学习方法,使得RMFD能够在不同工况下实现少样本跨域诊断,适用于异构信号驱动的复杂场景。尽管这些先进的深度诊断模型展现出优越性能,但它们普遍存在深度学习的“黑盒”特性,这使得研究人员难以完全信任其诊断结果,限制了智能诊断方法的推广与应用[4–7]。

    为了揭示深度模型作出诊断决策的依据,增强模型的可信度,可解释性的RMFD研究应运而生。2022年,Xiao 等人[8]提出了一种从仿真域到实验域的无监督域适应方法,探索了“数据-物理”耦合驱动的故障诊断新路径。Li 等人[9]在同年开发了连续小波卷积层,并将其用于改进传统卷积神经网络(CNN),通过小波变换的物理意义赋予CNN可解释性。2023年,Shang 等人[10]设计了一种降噪故障感知小波网络,融合信号处理方法的可解释性与降噪能力,实现了在强噪声背景下的高效RMFD。尽管可解释性RMFD研究日益受到关注,现有方法主要集中于构建可解释模块并嵌入深度模型中,以赋予诊断结果一定的物理意义,或通过推理模型的深层逻辑来解释其诊断依据。然而,对于如何量化诊断结果中的不确定性,并解释其来源与组成,目前的研究仍相对有限。而这恰恰是构建可信诊断模型、建立研究人员与深度模型之间依赖关系的关键。

    不确定性量化是一种强有力的工具,可用于判断诊断结果的置信程度:高不确定性意味着结果可信度低,低不确定性则表示结果可信度高。在实际工程中,复杂的机械结构与故障机理可能引发未知故障,噪声背景也可能造成数据采集环境的未知扰动。此外,设备运行速度与负载的变化也会构成未知工况,导致测试数据的分布与训练数据显著不同[11,12]。面对这类分布外样本,深度模型常常会在无任何预警的情况下做出不可靠的诊断决策。然而,如果能够对诊断结果中的不确定性进行量化,研究人员便可明确该结果的置信程度,进而调整设备的运行与维护策略,规避潜在的故障风险。此外,若能进一步解释诊断结果中不确定性的来源与构成,也有助于建立研究人员与深度模型之间的依赖机制,提升诊断过程的透明性与可解释性[13,14]。

     不确定性可以分解为两类:认知不确定性(Epistemic Uncertainty,又称模型不确定性)与随机不确定性(Aleatoric Uncertainty,又称数据不确定性)。(1)认知不确定性是由诊断知识不足引起的模型参数不确定性,例如训练数据有限或类别不平衡,无法覆盖所有可能的工况与故障类型等。认知不确定性可通过模型在训练数据集      上学习到的参数      的后验分布      来刻画:如果后验分布较为平坦,表示模型存在较高的认知不确定性;而尖锐集中的分布则说明不确定性较低。为了降低认知不确定性,需要进行额外仿真以采集更丰富的数据,从而帮助模型学习在未知故障模式或未知工况下机械系统的行为特征[15,16]。(2)随机不确定性则源自于数据本身的内在随机性,常受不可观测因素(如噪声干扰、传感器硬件故障等)影响。当模型参数为确定值且输入给定时,随机不确定性可由预测标签的概率分布表示:若该分布较为平坦,说明模型对输入无法做出明确分类,随机不确定性较高;若分布较为尖锐,表示模型对输入预测具有较强信心,随机不确定性较低。由于随机性是数据的固有属性,增加训练数据并不能有效降低随机不确定性,但采用更可靠与高效的检测仪器有助于捕捉隐藏在数据中的关键未知变量,从而实现一定程度的降低[17,18]。

    因此,不确定性量化与分解不仅能够表征诊断结果的置信度,还可用于分析测试数据中未知因素的来源,明确提升模型可信性的改进方向,这对于实现可信的旋转机械故障诊断具有重要意义。 然而,现有的深度诊断模型通常难以有效表达诊断结果中的不确定性,主要原因在于其模型参数普遍为固定值,使得其输出往往仅为过于自信的点估计[19]。相比之下,贝叶斯深度学习(Bayesian DL)将模型参数视为服从某种概率分布的随机变量,而非固定值,是进行不确定性量化的有力工具[20]。2022年,Zhou 等人[21]首次在RMFD领域构建了一个贝叶斯CNN模型,用于可信故障诊断,并对深度模型诊断结果中的不确定性来源与构成进行了系统分析。这项工作首次填补了深度模型结果不确定性解释研究的空白。需要说明的是,尽管已有研究[22,23]在 Zhou 等人工作之前探索了如何在诊断结果中考虑不确定性,这些研究仍主要集中于利用不确定性提升诊断精度,而未对不确定性的来源与结构进行深入探讨,因此不适用于可信RMFD的研究范式。鉴于近年来基于自注意力机制的Transformer模型在多个任务中的广泛应用前景[24],本文提出将贝叶斯变分学习(Bayesian Variational Learning)引入Transformer的注意力权重中,构建一种概率型贝叶斯Transformer模型(ProFormer),用于可信的旋转机械故障诊断。在该模型中,注意力权重不再是传统Transformer中通过计算获得的确定性值,而是从学习得到的概率分布中采样得到的随机变量。

    本研究的主要创新点与贡献如下:

    (1)提出了一种面向可信性的旋转机械故障诊断方法,通过分析与解释诊断结果中的不确定性来源及其构成,提升模型的可信度。所提出方法在包含未知故障类型、未知噪声水平或未知工况的分布外泛化测试场景中得到了充分验证,是当前可解释RMFD领域中的重要探索。

    (2)设计了一种概率注意力机制,并定义了相应的最优目标函数。作为ProFormer模型的核心,该机制能够建模注意力权重的先验分布与变分后验分布,从而赋予模型感知不确定性的能力。该工作是在贝叶斯深度学习框架下构建注意力机制的开创性研究。

    (3)构建了一套不确定性量化与分解方案,实现了对诊断结果置信度的表征,并能够有效区分认知不确定性(Epistemic)与随机不确定性(Aleatoric)。

    3 相关工作

    3.1 多头自注意力机制

    多头自注意力机制是Transformer的核心组成部分[25],其目标是学习一种对齐方式,使得每个token在嵌入表示中能够聚合来自其他token的信息。给定token嵌入矩阵     ,通过一组线性映射可以得到查询向量     、键向量      和值向量     

       

       

       

    其中,     表示token的数量,         和      是模型需要学习的参数矩阵。 如图1左侧所示,         和      是输入到缩放点积注意力机制中的关键张量。

    多头自注意力机制

    在该注意力机制中,对      和      执行点积运算,然后除以缩放系数     ,从而得到未归一化的注意力权重 :

       

    随后,可以通过使用softmax函数在关键维度上正则化φ来获得归一化的注意力权重:

       

    其中,        。最后,通过注意力权重矩阵      与值向量矩阵      的点积操作,可以得到缩放点积注意力的输出:

       

    在实际应用中,单个          和      上执行的单一注意力计算往往会导致模型性能较差。为了解决这一问题,图1右侧展示了多头自注意力机制的结构。该机制由多个并行运行的注意力头组成。

    多头自注意力机制首先通过      组不同的线性投影对原始的          和      进行处理,从而获得      个不同版本的          和     。随后,每组          和      分别执行上述缩放点积注意力计算,得到      个注意力输出。最后,这些      个输出被级联(concatenate)并通过一组线性投影,生成最终的注意力输出:

       

       

    其中,     表示向量拼接操作,        )表示第      个注意力头的索引。             以及      是模型需要学习的参数矩阵。

    3.2 贝叶斯变分学习

    深度神经网络(DNN)的训练目标是,在给定训练数据的条件下,寻找最优的模型参数。然而,每个最优参数仅为该参数的点估计。因此,训练完成后的 DNN 模型参数是确定性的,对于任一输入只能提供一个固定输出。与此不同,贝叶斯神经网络(BNN)[19] 并不对参数进行点估计,而是为所有参数提供概率分布,即参数的后验分布     。一般情况下,可以通过贝叶斯公式(Bayes’ rule)求解后验分布:

       

    其中,     是似然函数,     是边际似然,先验分布      通常选择为高斯分布。然而,由于神经网络通常包含大量参数,导致积分项      的计算非常复杂,因此需要引入变分推断(Variational Inference)来近似求解该后验分布[26]。

    变分推断的目标是,在由参数      控制的一族分布      中寻找一个分布,使其尽可能逼近真实的后验分布     ,从而将后验推断问题转化为一个优化问题,即最小化变分分布      与真实后验分布      之间的差异。通常,使用 Kullback-Leibler (KL) 散度 作为衡量该差异的指标:

       

    其中,     被称为证据(evidence),     被称为证据下界。

    所提出的概率型贝叶斯Transformer

    4.1 模型架构

    如图2所示,所提出的ProFormer模型由三部分组成:一个卷积层、由多个ProFormer块堆叠构成的ProFormer编码器,以及一个由多个全连接(FC)层构成的分类器。具体而言,ProFormer块由以下部分组成:所设计的概率注意力机制、一个多层感知机(MLP)、两个层归一化层以及两个残差连接。

    2 ProFormer 模型  

    给定一维振动信号数据集   ,其中    表示第    个样本,   为对应标签,   为单个样本的长度,   为样本总数。为简化表达,下文省略样本索引   。每个样本首先被划分为    个信号片段,每个片段被称为一个token,随后每个token会通过线性投影映射为一个维度为    的嵌入表示。该过程可通过卷积层实现:

     

    其中,   表示转置操作,   为token嵌入表示,   和    分别表示卷积层的输入通道数与输出通道数,   与    分别表示卷积核的大小与滑动步长。

    随后,将一个可学习的嵌入向量   拼接到    的开头,得到新的token嵌入表示   。此外,还需加入一个可学习的位置嵌入 ,用于编码位置信息:

     

    其中,   表示包含位置信息的token嵌入表示。随后,   被送入编码器,以提取样本的隐藏特征:

     

    其中,    )表示第    个ProFormer块,经过变换后的类别token   位于输出    中,可被提取作为分类所需的隐藏特征。最终的分类过程可描述如下:

     

    其中,   表示预测标签的概率分布,   表示故障类别的数量。

    4.2 概率注意力机制的设计与优化目标的定义

    所设计的概率注意力机制是所提出的ProFormer模型的核心部分,其可替代传统的缩放点积注意力机制,赋予Transformer类似于贝叶斯神经网络(BNN)的性质。如图3所示,在本文提出的概率注意力机制中,注意力权重不再是通过计算获得的确定性值,而是从其后验分布中采样得到的潜在随机变量。

    缩放点积注意力与概率注意力的区别

    因此,对于数据集   ,需要建模的是每个输入对应的注意力权重的后验分布   ,其中    表示样本    在所有ProFormer块中的归一化注意力权重集 合。进一步考虑到,若将高斯分布族用作注意力权重的变分后验分布   ,将无法满足注意力矩阵应具备的约束条件(即  且   ),因此采用对未归一化注意力权重    建模的方式,使用高斯分布族构造其变分后验分布   

    (1)用于变分后验分布的推理网络:根据平均场理论(mean-field theory),变分后验分布    可以分解为    个高斯分布的乘积形式:

     

    其中,   和    分别为由    个高斯分布的均值与标准差组成的矩阵。

    这表明,   中的每一个元素    都是从一个独立的高斯分布    中采样得到的,如图3(b)所示。为了进一步推导高斯分布两个分布参数,设计了如图4所示的概率注意力机制。

    ProFormer 块中的概率注意力机制

    随后,在概率注意力结构中,后验推理网络由两个MLP组成,用于生成    和   

      

    其中,     和    表示线性投影函数,而    表示激活函数。

    (2)先验分布的推理网络:为避免过拟合,本文并未直接给出    的确定性先验分布   ,而是构建了一个以键向量    为输入的推理网络,用于建模   ,使得先验分布    与输入    相关,参考文献[29]。然而,如果高斯先验的均值与标准差完全依赖该推理网络生成,可能无法获得符合预期的先验分布。为此,本文采用图4中所示的先验推理网络来生成高斯先验的均值,而将标准差视为一个超参数,直接设定。 此外,本文还构建了一个高斯混合先验分布,采用两个高斯分布的缩放混合形式,其中这两个高斯分布共享推理网络生成的均值,但具有不同的标准差。根据平均场理论,该先验分布可以定义如下:

     

    其中,   为正则化系数,   是由推理网络生成的、包含    个共享均值的矩阵,   与    则为所有元素均为给定标准差的矩阵。   的推理过程可描述如下:

     

    其中,   和    表示线性投影函数。

    (3)优化目标的定义:ProFormer 的模型参数通过最小化KL散度    来更新,该目标等价于最大化证据下界:

     

    其中,   表示第    次采样的噪声项   。训练模型时以    作为优化目标,其中    可等价于交叉熵损失函数。

    4.3 不确定度量化与分解

    在测试阶段,对于给定的测试样本   ,所提出的方法从变分后验分布    中采样    组注意力权重,用以构建    个子网络。设第    个子网络的输出为   。将所有网络输出    的平均值记为   ,作为预测标签的概率分布。   中最大元素的索引即为该测试样本的预测标签,而    的熵值可用来近似表示该预测结果的总不确定性:

     

    其中,   表示向量    中位置为    的元素。值得指出的是,确定性网络只能提供过于自信的点估计预测,因此无 法 正确刻画诊断结果中的不确定性。

    总不确定性可以进一步分解为认识不确定性和任意不确定性:

     

    4.4 所提方法的运行流程  

    基于上述分析,本文构建了一个可信的旋转机械故障诊断(RMFD)框架,如图5所示,其运行流程可进一步概括如下:

    1)数据采集:在设备处于已知故障模式、噪声水平和工况条件下,采集振动信号以构建训练集(已知域);在设备处于未知故障模式、噪声水平或工况条件下,采集振动信号以构建测试集(未知域)。(2)模型训练:使用已知域中的数据对所提出的ProFormer模型进行训练。(3)模型测试:利用训练好的ProFormer模型,对未知域中的所有测试样本进行故障诊断。(4)不确定性分析:通过所构建的不确定性量化与分解方案,对诊断结果中的不确定性进行分析。(5)研究者干预:基于不确定性分析的结果,研究人员判断诊断结果的置信程度,并揭示测试数据中隐藏的未知因素,从而找到提升模型性能的关键路径。

    提出的方法的流程图

    5 实验验证

    在实验案例中设置了三种实验场景,即测试数据中包含未知故障模式、未知噪声水平或未知工况条件的样本。所提出的ProFormer模型的主要超参数如表1所示。为了全面评估方法性能,本文将所提方法与两种基准方法进行了对比,分别为ResNet18和Vision Transformer。

    1 ProFormer的主要超参数设置  

    5.1 数据集描述  

    案例所使用的数据来自清华大学构建的风电行星齿轮箱故障数据集[31]。如6(a)所示,实验所用的测试平台由电机驱动输入端,输出端连接风轮。此外,在齿轮箱壳体上安装了两个加速度传感器,分别采集XY方向的振动信号,采样频率为20 kHz。实验共使用9个齿轮部件,包含不同健康状态的齿轮,包括:1个正常齿轮、4个故障太阳轮以及4个故障行星轮。8种故障齿轮的详细信息见表2,部分故障齿轮如图6(b)所示。同时,输入端转速在15 Hz40 Hz之间以1 Hz为间隔变化,故信号采集覆盖了26种不同的工况条件。  

    清华大学风力涡轮机试验台

    5.2 实验场景设置  

    案例1中选取Y方向的振动信号作为验证实验的数据来源。在实验过程中,首先使用工况条件为32 Hz36 Hz 40 Hz、标签为01234的样本对三种故障诊断模型进行训练与测试,该部分数据被定义为已知域(known domain)。本实验的目的是验证在测试数据中不包含未知样本的通用场景下,所提方法的故障诊断性能。随后,将训练完成的模型应用于三个不同的实验场景,这三个场景中测试数据所构成的未知域(unknown domain)存在差异,具体设置如下:

    1)未知域包含与已知域相同工况下的故障样本,但其标签为5678,即出现了新的故障类型;

    (2)未知域样本的工况与标签均与已知域一致,但在振动信号中加入了不同信噪比的高斯白噪声,共考虑了2 dB1 dB0 dB−1 dB四种SNR

    3)未知域包含标签与已知域一致的故障样本,但其工况条件不同,具体转速为16 Hz20 Hz24 Hz 28 Hz,即出现了新的运行工况。  

    2给出了已知域及三种未知域的详细设置。训练样本与测试样本在各工况条件下均匀分布,每个样本的长度为1024,并均采用零均值归一化(zero-mean normalization)预处理方法。  

    表2 案例1中的详细设置

    5.3 场景1的实验结果分析  

    在处理已知域测试数据时,ProFormerVITResNet18的诊断准确率分别为98.93%97.07%99.73%。这表明,在测试数据不包含未知样本的常规场景中,所提出的方法具有与对比方法相当或更优的诊断性能。然而,在处理具有未知故障类型的样本时,VITResNet18可能会将其错误地诊断为已知故障类型,且不会向研究人员发出任何提示,这凸显了所提方法的必要性与优势。图7展示了ResNet18VITProFormer在处理1个已知样本与4个未知故障类型样本时输出的预测标签的概率分布,其中横坐标表示故障标签,纵坐标表示预测概率。

    7  各方法对具有不同故障标签的样本的诊断结果(场景1,案例1:(a)标签1;b)标签5;c)标签6;d)标签7;e)标签8

    如图所示,ResNet18VIT仅能给出过于明确的诊断结果,而ProFormer能够同时提供预测结果的不确定性信息。这是因为所提方法通过Monte Carlo采样构建T个不同子网络,并由这 T个网络给出不同的预测概率分布。当处理一个真实标签为1的已知样本时,三个模型均给出了正确的诊断结果。具体而言,在ProFormer中,T个子网络输出的预测分布高度一致,反映出低不确定性与高置信度。但在处理一个真实标签为5的未知样本时,VITResNet18分别将其错误地、高置信地预测为标签40,却未向研究人员提示任何异常。相比之下,ProFormer 模型的T个子网络输出的诊断结果差异显著,导致预测标签的概率分布在多个健康状态之间分散,表现出较高的不确定性,提示研究人员该结果可能不可靠,需要进一步调查。在处理真实标签为678的未知样本时,三种模型也表现出类似的现象,进一步说明:ProFormer 不仅能对已知故障样本做出高置信度预测,还能通过传达结果的不确定性,有效提升诊断结果的可靠性,并向研究人员提示设备可能处于未知故障模式下。  

    为验证所提方法在不确定性量化与分解方面的能力及其可解释性,本文对ProFormer在已知域与未知域中所有测试样本所获得的不确定性结果进行了来源与组成的分析。图8展示了三类不确定性的分布情况,其中横坐标表示概率值,纵坐标表示密度。如图所示,在已知域中,三类不确定性的分布均呈现尖峰型特征,值集中在0附近,表明模型预测结果具有低不确定性;而在未知域中,分布形态较为平坦,说明模型在该域中的预测结果具有较高的不确定性。这一实验现象与预期一致。进一步分析发现,认知不确定性(epistemic uncertainty)对总不确定性的贡献较大,这可以解释为模型在识别未知样本时所依赖的诊断知识不足。考虑到场景1的测试样本正是未知故障类型的样本,因此该实验也在一定程度上证明了所提方法的可解释性。  

    基于所提出的方法对测试样本的诊断结果进行不确定度估计  

    5.4 场景 2 的实验结果分析  

    在实际工程中,所采集的振动信号通常会受到严重噪声的干扰,这种噪声可能来自设备运行环境的背景噪声,或传感器测量误差所引起。因此,场景2中的未知域通过在已知域测试样本中叠加不同信噪比(SNR)的高斯白噪声构造而成。如图9所示,随着SNR的降低,所有方法的诊断准确率均出现明显下降,其中 ResNet18的性能下降最为显著,而ProFormer显示出较强的稳定性。这一实验现象主要由以下两个原因导致:

    1)在低SNR条件下,振动信号的周期性特征被削弱,使得CNN无法通过捕捉如冲击带等有效的局部特征进行准确识别。在强噪声干扰下,更需要依赖Transformer的自注意力机制来挖掘信号中的全局信息;

    2)所提出的方法并非训练一个单一模型,而是构建了多个网络的集成结构。该训练方式本质上与集成学习相似,天然具备更强的泛化能力。  

    案例1场景2中每种方法的诊断准确性  

    此外,尽管在低SNR情况下存在较多的误诊样本,对比方法并不能向研究人员发出任何警示;而所提方法则能够传达诊断结果的置信度信息。如图10 所示,当处理一个真实标签为2SNR0 dB的故障样本时,ResNet18VIT高置信度地将其误识别为4。而所提方法虽然将该样本误识别为标签1,但其预测标签在多个健康状态之间的概率分布显示出较高的不确定性,提示该结果的可信度不足,需要研究人员介入判断。

    10 每种方法对于真实标签为2SNR0 dB的故障样本的诊断结果  

    11展示了所提方法在不同噪声水平下对所有测试样本的不确定性估计结果。可以观察到,随着SNR的持续下降,三类不确定性均呈现逐渐上升的趋势,其中随机不确定性(aleatoric uncertainty)在总不确定性中的贡献逐渐显著。由于随机不确定性刻画的是数据中所隐藏的内在随机性,这一实验现象表明:数据中的有效信息被噪声淹没,导致模型难以做出确定的诊断判断。考虑到场景2中的测试样本正是带有噪声干扰的样本,以上结果进一步验证了所提方法的可解释性。由于数据的内在随机性本质上是不可消除的,单纯增加训练数据并不能提升模型性能。相反,研究人员应采用更高效的检测仪器或抗噪技术,以抵御噪声干扰并采集更干净的信号。通过这种方式,模型与研究人员之间的依赖关系得以建立。  

    11 基于所提方法对未知域中测试样本的诊断结果进行不确定度估计

    5.5 场景的实验结果分析  

    机械设备在实际运行中常常面临不可预测的工况条件,这将导致所采集的测试数据分布发生变化,从而引起模型性能的下降。因此,场景3中的未知域通过改变设备的转速来构造。如图12所示,随着未知域与已知域之间转速差异的逐渐增大,各方法的诊断准确率整体呈下降趋势,其中ResNet18的性能最为稳定,这可能是由于CNN的局部感受野更擅长于提取域不变特征。尽管ProFormer在未知工况下的准确率相对较低,但它仍然能够通过传达预测结果中的不确定性来保障模型输出的置信度。  

    12 案例1场景3中各方法的诊断准确性  

    如图13所示,当处理一个转速为16 Hz、真实标签为0的故障样本时,尽管ProFormer将其误识别为标签3,但从诊断结果中可以看出,预测标签为03的概率分布均表现出较高的不确定性,这表明模型对该预测结果的置信度较低。类似的实验现象也出现在处理真实标签为1的样本时,进一步验证了所提出方法在评估预测结果置信度方面的能力。

    13 16 Hz条件下,所提出的方法的诊断结果  

    14展示了所提方法在不同未知工况条件下对全部测试样本的不确定性估计结果。可以观察到,随着转速差异的增加,三类不确定性整体呈上升趋势。  

    14 基于所提方法对未知域中测试样本的诊断结果进行不确定度估计  

    进一步地,从图15可以看到,认知不确定性(epistemic uncertainty)在总不确定性中所占的比例也随转速差的增大而逐渐上升。这一现象可以理解为:模型对新工况的诊断知识不足问题日益加剧。由于场景3中的测试样本正是具有未知工况条件的样本,因此本实验结果进一步验证了所提方法的可解释性。

    15 不同条件下的不确定度组成(场景3,案例1  


    6 结论

    在本文中,提出了一种面向可信旋转机械故障诊断(RMFD)的ProFormer模型,并得出以下主要结论:

    (1)分析与解释深度学习模型所提供诊断结果中的不确定性来源与构成,有助于提升模型的可解释性与可信度。

    (2)所设计的概率注意力机制及其定义的优化目标函数,可用于建模注意力权重的先验分布与变分后验分布,从而赋予模型感知不确定性的能力。

    (3)构建的不确定性量化与分解方案,可用于刻画诊断结果的置信度,并将总不确定性有效地分解为认知不确定性(Epistemic Uncertainty)与随机不确定性(Aleatoric Uncertainty)。

    考虑到基于贝叶斯变分学习的模型对不确定性的建模能力在很大程度上依赖于所构建的先验分布,未来将引入更加全面的先验分布,以增强模型对不确定性的感知能力。此外,本文所采用的平均场理论(Mean-field Theory)假设不同注意力块之间的权重是相互独立的。未来工作将探讨如何放宽这一假设,以捕捉不同注意力块之间的依赖关系。进一步地,为构建更加可靠的人机交互机制,不仅应考虑如诊断结果不确定性这类显性知识(Explicit Knowledge),也应关注在实际生产过程中操作者、车间主管或工厂管理者所积累的隐性知识。


    编辑:Jin
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除


    来源:故障诊断与python学习
    ACTMechanicalSystem振动旋转机械通用航空海洋声学理论电机控制工厂人工智能
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-05-19
    最近编辑:2天前
    故障诊断与python学习
    硕士 签名征集中
    获赞 77粉丝 109文章 198课程 0
    点赞
    收藏
    作者推荐

    TIM论文学习 | UDDGN:一种用于通用域泛化诊断的领域无关紧凑边界学习方法

    本期给大家推荐一篇TIM论文UDDGN:一种用于通用域泛化诊断的领域无关紧凑边界学习方法。该方法设计了通用诊断域泛化网络(Universal Diagnosis Domain Generation Network, UDDGN),通过流形混合的监督对比损失模块和基于类对抗训练的紧凑边界模块,为源域各故障模式建立领域无关的紧凑边界决策域。当目标域出现新故障模式时,分类器依据预设边界进行判别,不满足任何边界条件的样本将被归类为“未知”。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:UDDGN: Domain-Independent Compact Boundary Learning Method for Universal Diagnosis Domain Generation 论文期刊:IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT 论文日期:2025年论文链接:https://doi.org/10.1109/TIM.2025.3554906作者:Yuhan Huang (a), Wentao Huang (a), Xiaoxi Hu (b), Zhengjie Liu (a), Jide Huo (a) 机构:a: the School of Mechatronics Engineering, Harbin Institute of Technology, 92 West Dazhi St., Harbin, China. b: the State Key Laboratory of Advanced Rail Autonomous Operation, Beijing Jiaotong University, Beijing 100044, China作者简介黄宇涵,哈尔滨工业大学机电工程学院2023级硕士研究生,研究方向为基于迁移学习的旋转机械故障诊断。 黄文涛,哈尔滨工业大学机电工程学院博导,研究方向为机械设备智能故障诊断理论与方法、不确定性信息处理技术。 胡小溪,北京交通大学先进轨道交通自主运行全国重点实验室博士研究生,研究方向为机电故障诊断。目录1 摘要2 引言3 方法3.1 问题描述3.2 UDDGN总体流程3.3 UDDGN总体目标函数4 实验验证5 结论1 摘要基于领域泛化(Domain Generalization, DG)的智能故障诊断(Intelligent Fault Diagnosis, IFD)方法在应对未知目标域的领域偏移挑战方面已取得显著成效,然而现有DG方法均假设源域与目标域具有完全相同的故障模式,这一假设在复杂工程实际中往往难以成立。针对目标域故障模式不可预测、源目标域标签空间关系未知这一现实难题,本文创新性地提出了通用诊断域泛化(Universal Diagnosis Domain Generation, UDDG)新范式,该范式要求模型既能准确识别共有标签空间内的目标样本,又能有效拒绝未知故障模式。为解决这一更具挑战性的实际问题,我们设计了通用诊断域泛化网络(Universal Diagnosis Domain Generation Network, UDDGN),通过流形混合的监督对比损失模块和基于类对抗训练的紧凑边界模块,为源域各故障模式建立领域无关的紧凑边界决策域。当目标域出现新故障模式时,分类器依据预设边界进行判别,不满足任何边界条件的样本将被归类为“未知”。在两个测试平台上的大量实验验证了所提算法的有效性和优越性。 关键词:故障诊断,通用领域泛化,任意类别偏移,迁移学习 2 引言虽然基于领域泛化的智能故障诊断方法在解决跨工况领域偏移问题上已取得显著成效,但现有方法在应对工业现场复杂多变的实际情况时面临严峻挑战。工业设备运行具有三个典型特征:首先,工况相关性导致特定故障模式仅在特定工况下显现(如高速工况下易出现轴承疲劳裂纹),这使得目标域可能出现完全未知的故障模式(开集)、部分已知模式(部分集)或仅已知模式(闭集)三种情况;其次,监测局限性使得难以预知设备可能发生的所有故障类型,导致训练数据无法覆盖所有潜在故障模式;第三,数据稀缺性使得难以获取充足的多源域故障样本。 这些特征导致现有方法存在两个主要局限:1)现有闭集域泛化方法仅考虑数据分布偏移而完全忽略类别偏移问题;2)开集域泛化方法(open set domain generalization-based fault diagnosis ,OSDGFD)虽然同时考虑了数据分布偏移和类别偏移,但仅针对目标域必然包含新故障的开集场景设计,无法适应实际可能出现的闭集或部分集场景。此外,这两类方法大多依赖多源域数据进行训练,难以满足工业现场数据获取的现实条件。 究其根本,现有方法的局限性在于:1)未能建立统一的框架来处理目标域可能出现的任意类别偏移情况(闭集/部分集/开集);2)缺乏对单源域场景的有效支持;3)无法自适应地应对数据分布偏移和类别偏移的复合影响。 为此,我们提出了通用诊断域生成网络(Universal Diagnosis Domain Generation Network, UDDGN),通过以下创新解决上述问题:1)采用流形混合的监督对比学习,仅需单源域数据即可学习域不变特征;2)基于CVAE生成伪分布外样本,通过类对抗训练建立自适应紧凑边界,统一处理闭集、部分集和开集三种场景。本文的主要贡献包括:提出通用领域泛化(Universal Diagnosis Domain Generation, UDDG)新范式,首次统一处理工业诊断中可能出现的三种标签空间关系 开发单源域泛化框架,通过流形混合和监督对比学习实现域不变特征提取 设计基于条件变分自编码器(Conditional Variational Auto-Encoder, CVAE)的紧凑边界学习机制,无需显式建模未知空间即可识别新故障3 方法3.1 问题描述在UDDG场景中,训练时提供一个由 个样本组成的源域 ,其中 是原始输入数据, 表示采样长度, 代表轴承健康状态的标签, 代表轴承健康状态的类别数量,以同样的方式定义目标域 ,其中 , , 表示目标域数据的健康状态,由于源域与目标域数据是在不同工况下采集的,因此两者数据的分布是不同的 ,并且两者之间的标签空间的关系是未知的,我们分别使用 与 表示两者的标签空间,采取commonness指标定义两标签空间的Jaccard distance: , 越小,说明两z域之间的类别差异越大,总体的任务目标是设计一个训练阶段无法访问 且不知道 但依然工作良好的诊断模型。 UDDG的总体目标是找到一个可以最小化期望风险 的可测量函数 : 其中, 是一个正则化参数, 表示源域与目标域之间的公共类别, 表示目标域中可能出现的未知类别, 表示在公共类别上的经验风险, 是开放空间风险,用于衡量未知样本被标记为已知或未知类别的不确定性,其具体形式如式所示: 属于未知类别的目标域样本被识别为源域已知类别的次数越多,开放集的风险越大。3.2 UDDGN总体流程 如图1所示,所提方法的总体流程可分为训练和测试两个阶段。在训练阶段:1)首先通过小波包分解和预处理获得源域数据;2)采用流形混合技术增强数据,并通过监督对比学习模块和分类器实现域不变特征学习,以此解决UDDG场景下的领域偏移问题;3)利用条件变分自编码器生成伪类外分布样本,通过类对抗训练建立紧凑边界,无需为潜在的未知故障类别进行额外建模,即可解决UDDG场景下的类别偏移问题。在测试阶段:目标域样本依次与各故障类别的决策边界进行匹配,若不符合任何边界则判定为未知故障。从图中可以看出,整体的UDDGN框架分为基于流行混合的监督对比损失模块和基于类内对抗学习的紧凑边界模块,接下来,我们详细介绍这两个模块。 图1 UDDGN总体流程3.2.1 基于流行混合的监督对比损失模块基于流形混合的监督对比损失模块通过流形混合技术增强数据多样性,并采用监督对比学习实现域不变特征提取。该模块在特征空间对同类样本进行线性插值,构建具有域不变特性的增强样本,同时通过对比损失函数拉近同类样本距离、推远异类样本距离,有效解决了UDDG场景下的领域偏移问题。3.2.2 基于类内对抗学习的紧凑边界模块基于类内对抗学习的紧凑边界模块利用条件变分自编码器生成伪类外分布样本,通过类对抗训练建立自适应紧凑边界。该模块通过对抗学习动态调整各类别的球形决策边界,既保证对已知类别的覆盖,又能有效拒绝未知样本,无需显式建模未知空间即可解决UDDG场景下的类别偏移问题。两个模块协同工作,分别针对领域偏移和类别偏移这两个关键挑战提供了解决方案。3.3 UDDGN总体目标函数整体训练过程分为四个阶段: 对原始信号进行小波包分解,相比传统小波变换降低了计算负载,同时丰富了信号表征; 使用源域已知类别样本训练条件变分自编码器(CVAE); 在分类损失指导下通过特征提取器获取类别原型; 通过流形混合技术扩展已知类别样本,结合监督对比学习实现单源域泛化,并利用CVAE生成的OOD数据与已知数据进行对抗训练以获取紧凑边界。 整体的目标函数为: 其中 和 是用于平衡三项损失的正则系数,利用 优化器端到端更新网络参数,并设置学习率调度函数: 每个训练历程的优化过程表示为: 表示第 轮更新。之后经过验证集上的calibration strategy得到边界调整系数 ,测试阶段,我们使用第二阶段得到的类别原型和经过调整系数改进的边界半径 ,首先判断样本在闭集分类器上所属的类别,使用对应类别的类别原型和边界半径进行判断,若处于边界半径外,则判断为位置类样本,若处于边界半径外,根据模型输出最大值对应的索引判断所属类别。4 实验验证本研究采用Paderborn轴承数据集和自建SFB试验台数据集进行验证。Paderborn数据集包含8类故障模式,采集于不同转速(900/1500rpm)、载荷(400/1000N)和扭矩(0.1/0.7Nm)工况,划分为PA/PB/PC三个域,采样频率64kHz,每类1000个样本。SFB数据集包含7类健康状态,采集于600/900/1200rpm三种转速,划分为MA/MB/MC三个域,采样频率51.2kHz。实验设计了16个跨域诊断任务,覆盖闭集(目标域仅含源域已知故障)、部分集(目标域含源域部分故障)和开集(目标域含新故障模式)三类场景,采用ACC、AUROCk、H-score和OSCR四项指标评估性能,并与ERM、PROSER等传统方法以及AOSDGN、M-ADA等域泛化方法进行对比。 图2 验证算法所用的实验台 实验结果表明,在闭集任务中本方法ACC达88.45%-92.13%,较次优方法平均提升12.6%,监督对比学习使特征类内方差降低37.2%;在开集任务中H-score达83.92%-86.71%,显著优于传统开集方法,紧凑边界模块使未知类F1-score达89.7%,误报率降低23.4%。相比多源域方法AOSDGN,单源条件下ACC提升19.8%;较域适应方法UAN,在无目标域数据情况下性能差距<5%。可视化分析显示,t-SNE特征分布形成明确类簇结构,未知类与已知类分离度达2.3σ,球形边界能自适应调整半径。本方法在工业适用性方面表现突出,仅需1个源域即可达到多源方法92%性能,满足诊断需求。 图3 部分实验可视化结果 通过流形混合增强和对抗边界学习的协同作用,本方法在单源条件下同时解决了领域偏移(平均ACC提升14.2%)和类别偏移(H-score提升32.4%)的双重挑战,验证了其在复杂工业场景中的优越性和实用性。5 结论本文提出了一种新型通用诊断域生成场景,并开发了基于类决策的UDDGN方法,仅利用单源域数据即可同时解决领域偏移和类别偏移问题。本研究的核心创新点在于:(1)通过流形混合的监督对比损失模块实现域不变特征学习;(2)基于类对抗训练的紧凑边界模块实现未知类识别。在两个测试平台上的大量实验表明,该方法在UDDG场景中表现出色,不仅超越了现有域泛化方法的性能,在特定条件下甚至接近域适应方法的水平。尽管取得了这些积极成果,仍有若干方面值得深入研究:首先,当前验证主要针对振动信号,该方法在其他工业诊断数据类型(如声学信号和图像数据)上的适用性有待验证;其次,虽然在跨转速和跨负载场景中表现优异,但在更具挑战性的跨设备场景(存在更大领域差异)下的验证将进一步提升方法的实用性;第三,当前框架中基于特征空间线性插值的流形混合增强方法和球形紧凑边界设计,可能需要进一步优化以适应更复杂的实际分布模式。针对这些挑战,未来工作将重点关注:(1)通过研究声学和图像数据的适用性扩展多模态故障诊断框架;(2)在更大领域差异的跨设备场景下验证和改进方法性能;(3)开发基于物理机理的数据增强策略,设计自适应紧凑边界以更好地适应实际复杂分布模式。这些改进将使本方法更适用于具有多样化工况和故障模式的工业现场诊断任务。 编辑:李正平校核:陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、陈宇航、Tina、陈莹洁、王金、赵诚、肖鑫鑫该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈