论文题目:
Towards trustworthy rotating machinery fault diagnosis via attention uncertainty in transformer
论文期刊:Journal of Manufacturing Systems
论文日期:2023年7月
论文链接:
https://www.sciencedirect.com/science/article/abs/pii/S0278612523001449
作者:Yiming Xiao (a), Haidong Shao (a), Minjie Feng (a), Te Han (b), Jiafu Wan (c), Bin Liu (d)
机构:
a: College of Mechanical and Vehicle Engineering, Hunan University, Changsha 410082, China;
b: School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China;
c: Provincial Key Laboratory of Technique and Equipment for Macromolecular Advanced Manufacturing, South China University of Technology, Guangzhou 510641, China;
d: Department of Management Science, University of Strathclyde, Glasgow G1 1XQ, UK.
团队带头人简介:邵海东教授,湖南大学机械与运载工程学院副教授,西北工业大学本硕博,瑞典吕勒奥理工大学博士后,入选科睿唯安全球高被引科学家(工程学/交叉学),爱思唯尔中国高被引学者(机械工程),斯坦福全球前2%顶尖科学家终身科学影响力榜单(人工智能)。研究方向为运载装备机电系统的健康管理与智能运维,主持国家自然科学基金面上项目,青年项目,国家重点研发计划子课题,湖南省自然科学基金优秀青年基金项目,教育部产学合作协同育人项目,国家级重点实验室开放课题和研究所/企业委托课题等,参与了重大研究计划、军委装备预研基金、航空科学基金等课题。(来源: https://grzy.hnu.edu.cn/site/index/shaohaidong)
1 摘要
2 引言
3 相关工作
3.1 多头自注意力机制
3.2 贝叶斯变分学习
4 所提出的概率型贝叶斯Transformer
4.1 模型架构
4.2 概率注意力机制的设计与优化目标的定义
5 实验验证
5.2 实验场景设置
5.3 场景1的实验结果分析
5.4 场景2的实验结果分析
6 结论
为使研究人员能够充分信任深度诊断模型所作出的决策,可解释的旋转机械故障诊断(RMFD)研究逐渐兴起。现有的可解释性RMFD研究主要集中在以下两个方向:其一是在深度模型中嵌入可解释模块,以赋予诊断结果物理意义;其二是推理模型决策背后的逻辑机制。然而,当前在结果不确定性量化及其来源与构成的解释方面的研究仍较为有限。不确定性量化与分解不仅能够表征模型输出结果的可信度,还能识别数据中未知因素的来源,从而为提升模型的可解释性和可信度提供理论支撑。因此,本文提出利用贝叶斯变分学习,将不确定性引入Transformer的注意力权重中,构建一种概率型贝叶斯Transformer模型,以实现可信的旋转机械故障诊断。本文设计了概率注意力机制并定义了相应的优化目标,使模型能够推理注意力权重的先验与变分后验分布,从而赋予模型对不确定性的感知能力。同时,构建了不确定性量化与分解方案,用于表征结果置信度并实现对认知不确定性(epistemic)与随机不确定性(aleatoric)的分离。在三个分布外泛化场景中,全面验证了所提方法的有效性。
关键词:可信旋转机械故障诊断,概率注意力机制,贝叶斯深度学习,Transformer,不确定性量化与分解
旋转机械在现代制造中发挥着不可或缺的作用。其中,轴承和齿轮箱是旋转机械的关键部件,其故障可能导致严重的经济损失,甚至危及生命安全。因此,面向轴承和齿轮箱的旋转机械故障诊断(RMFD)具有重要意义[1]。
近年来,基于深度学习的RMFD研究持续受到全球学者的广泛关注。2023年,Chen 等人[2]设计了一种对抗引导的无监督多域自适应网络,能够充分提取多域中的域不变特征,实现多域协同的RMFD。同年,Lin 等人[3]提出了一种通用的、与模型无关的元学习方法,使得RMFD能够在不同工况下实现少样本跨域诊断,适用于异构信号驱动的复杂场景。尽管这些先进的深度诊断模型展现出优越性能,但它们普遍存在深度学习的“黑盒”特性,这使得研究人员难以完全信任其诊断结果,限制了智能诊断方法的推广与应用[4–7]。
为了揭示深度模型作出诊断决策的依据,增强模型的可信度,可解释性的RMFD研究应运而生。2022年,Xiao 等人[8]提出了一种从仿真域到实验域的无监督域适应方法,探索了“数据-物理”耦合驱动的故障诊断新路径。Li 等人[9]在同年开发了连续小波卷积层,并将其用于改进传统卷积神经网络(CNN),通过小波变换的物理意义赋予CNN可解释性。2023年,Shang 等人[10]设计了一种降噪故障感知小波网络,融合信号处理方法的可解释性与降噪能力,实现了在强噪声背景下的高效RMFD。尽管可解释性RMFD研究日益受到关注,现有方法主要集中于构建可解释模块并嵌入深度模型中,以赋予诊断结果一定的物理意义,或通过推理模型的深层逻辑来解释其诊断依据。然而,对于如何量化诊断结果中的不确定性,并解释其来源与组成,目前的研究仍相对有限。而这恰恰是构建可信诊断模型、建立研究人员与深度模型之间依赖关系的关键。
不确定性量化是一种强有力的工具,可用于判断诊断结果的置信程度:高不确定性意味着结果可信度低,低不确定性则表示结果可信度高。在实际工程中,复杂的机械结构与故障机理可能引发未知故障,噪声背景也可能造成数据采集环境的未知扰动。此外,设备运行速度与负载的变化也会构成未知工况,导致测试数据的分布与训练数据显著不同[11,12]。面对这类分布外样本,深度模型常常会在无任何预警的情况下做出不可靠的诊断决策。然而,如果能够对诊断结果中的不确定性进行量化,研究人员便可明确该结果的置信程度,进而调整设备的运行与维护策略,规避潜在的故障风险。此外,若能进一步解释诊断结果中不确定性的来源与构成,也有助于建立研究人员与深度模型之间的依赖机制,提升诊断过程的透明性与可解释性[13,14]。
不确定性可以分解为两类:认知不确定性(Epistemic Uncertainty,又称模型不确定性)与随机不确定性(Aleatoric Uncertainty,又称数据不确定性)。(1)认知不确定性是由诊断知识不足引起的模型参数不确定性,例如训练数据有限或类别不平衡,无法覆盖所有可能的工况与故障类型等。认知不确定性可通过模型在训练数据集 上学习到的参数 的后验分布 来刻画:如果后验分布较为平坦,表示模型存在较高的认知不确定性;而尖锐集中的分布则说明不确定性较低。为了降低认知不确定性,需要进行额外仿真以采集更丰富的数据,从而帮助模型学习在未知故障模式或未知工况下机械系统的行为特征[15,16]。(2)随机不确定性则源自于数据本身的内在随机性,常受不可观测因素(如噪声干扰、传感器硬件故障等)影响。当模型参数为确定值且输入给定时,随机不确定性可由预测标签的概率分布表示:若该分布较为平坦,说明模型对输入无法做出明确分类,随机不确定性较高;若分布较为尖锐,表示模型对输入预测具有较强信心,随机不确定性较低。由于随机性是数据的固有属性,增加训练数据并不能有效降低随机不确定性,但采用更可靠与高效的检测仪器有助于捕捉隐藏在数据中的关键未知变量,从而实现一定程度的降低[17,18]。
因此,不确定性量化与分解不仅能够表征诊断结果的置信度,还可用于分析测试数据中未知因素的来源,明确提升模型可信性的改进方向,这对于实现可信的旋转机械故障诊断具有重要意义。 然而,现有的深度诊断模型通常难以有效表达诊断结果中的不确定性,主要原因在于其模型参数普遍为固定值,使得其输出往往仅为过于自信的点估计[19]。相比之下,贝叶斯深度学习(Bayesian DL)将模型参数视为服从某种概率分布的随机变量,而非固定值,是进行不确定性量化的有力工具[20]。2022年,Zhou 等人[21]首次在RMFD领域构建了一个贝叶斯CNN模型,用于可信故障诊断,并对深度模型诊断结果中的不确定性来源与构成进行了系统分析。这项工作首次填补了深度模型结果不确定性解释研究的空白。需要说明的是,尽管已有研究[22,23]在 Zhou 等人工作之前探索了如何在诊断结果中考虑不确定性,这些研究仍主要集中于利用不确定性提升诊断精度,而未对不确定性的来源与结构进行深入探讨,因此不适用于可信RMFD的研究范式。鉴于近年来基于自注意力机制的Transformer模型在多个任务中的广泛应用前景[24],本文提出将贝叶斯变分学习(Bayesian Variational Learning)引入Transformer的注意力权重中,构建一种概率型贝叶斯Transformer模型(ProFormer),用于可信的旋转机械故障诊断。在该模型中,注意力权重不再是传统Transformer中通过计算获得的确定性值,而是从学习得到的概率分布中采样得到的随机变量。
本研究的主要创新点与贡献如下:
(1)提出了一种面向可信性的旋转机械故障诊断方法,通过分析与解释诊断结果中的不确定性来源及其构成,提升模型的可信度。所提出方法在包含未知故障类型、未知噪声水平或未知工况的分布外泛化测试场景中得到了充分验证,是当前可解释RMFD领域中的重要探索。
(2)设计了一种概率注意力机制,并定义了相应的最优目标函数。作为ProFormer模型的核心,该机制能够建模注意力权重的先验分布与变分后验分布,从而赋予模型感知不确定性的能力。该工作是在贝叶斯深度学习框架下构建注意力机制的开创性研究。
多头自注意力机制是Transformer的核心组成部分[25],其目标是学习一种对齐方式,使得每个token在嵌入表示中能够聚合来自其他token的信息。给定token嵌入矩阵 ,通过一组线性映射可以得到查询向量 、键向量 和值向量 :
,
,
。
其中, 表示token的数量, 、 和 是模型需要学习的参数矩阵。 如图1左侧所示, 、 和 是输入到缩放点积注意力机制中的关键张量。
图1 多头自注意力机制
在该注意力机制中,对 和 执行点积运算,然后除以缩放系数 ,从而得到未归一化的注意力权重 :
随后,可以通过使用softmax函数在关键维度上正则化φ来获得归一化的注意力权重:
其中, , 。最后,通过注意力权重矩阵 与值向量矩阵 的点积操作,可以得到缩放点积注意力的输出:
在实际应用中,单个 、 和 上执行的单一注意力计算往往会导致模型性能较差。为了解决这一问题,图1右侧展示了多头自注意力机制的结构。该机制由多个并行运行的注意力头组成。
多头自注意力机制首先通过 组不同的线性投影对原始的 、 和 进行处理,从而获得 个不同版本的 、 和 。随后,每组 、 和 分别执行上述缩放点积注意力计算,得到 个注意力输出。最后,这些 个输出被级联(concatenate)并通过一组线性投影,生成最终的注意力输出:
其中, 表示向量拼接操作, ( )表示第 个注意力头的索引。 、 、 以及 是模型需要学习的参数矩阵。
3.2 贝叶斯变分学习
深度神经网络(DNN)的训练目标是,在给定训练数据的条件下,寻找最优的模型参数。然而,每个最优参数仅为该参数的点估计。因此,训练完成后的 DNN 模型参数是确定性的,对于任一输入只能提供一个固定输出。与此不同,贝叶斯神经网络(BNN)[19] 并不对参数进行点估计,而是为所有参数提供概率分布,即参数的后验分布 。一般情况下,可以通过贝叶斯公式(Bayes’ rule)求解后验分布:
其中, 是似然函数, 是边际似然,先验分布 通常选择为高斯分布。然而,由于神经网络通常包含大量参数,导致积分项 的计算非常复杂,因此需要引入变分推断(Variational Inference)来近似求解该后验分布[26]。
变分推断的目标是,在由参数 控制的一族分布 中寻找一个分布,使其尽可能逼近真实的后验分布 ,从而将后验推断问题转化为一个优化问题,即最小化变分分布 与真实后验分布 之间的差异。通常,使用 Kullback-Leibler (KL) 散度 作为衡量该差异的指标:
其中,
4.1 模型架构
如图2所示,所提出的ProFormer模型由三部分组成:一个卷积层、由多个ProFormer块堆叠构成的ProFormer编码器,以及一个由多个全连接(FC)层构成的分类器。具体而言,ProFormer块由以下部分组成:所设计的概率注意力机制、一个多层感知机(MLP)、两个层归一化层以及两个残差连接。
图2 ProFormer 模型
给定一维振动信号数据集
其中,
随后,将一个可学习的嵌入向量
其中,
其中,
其中,
4.2 概率注意力机制的设计与优化目标的定义
所设计的概率注意力机制是所提出的ProFormer模型的核心部分,其可替代传统的缩放点积注意力机制,赋予Transformer类似于贝叶斯神经网络(BNN)的性质。如图3所示,在本文提出的概率注意力机制中,注意力权重不再是通过计算获得的确定性值,而是从其后验分布中采样得到的潜在随机变量。
图3 缩放点积注意力与概率注意力的区别
因此,对于数据集
(1)用于变分后验分布的推理网络:根据平均场理论(mean-field theory),变分后验分布
其中,
这表明,
图4 ProFormer 块中的概率注意力机制
随后,在概率注意力结构中,后验推理网络由两个MLP组成,用于生成
其中,
(2)先验分布的推理网络:为避免过拟合,本文并未直接给出
其中,
其中,
(3)优化目标的定义:ProFormer 的模型参数通过最小化KL散度
其中,
4.3 不确定度量化与分解
在测试阶段,对于给定的测试样本
其中,
总不确定性可以进一步分解为认识不确定性和任意不确定性:
4.4 所提方法的运行流程
基于上述分析,本文构建了一个可信的旋转机械故障诊断(RMFD)框架,如图5所示,其运行流程可进一步概括如下:
(1)数据采集:在设备处于已知故障模式、噪声水平和工况条件下,采集振动信号以构建训练集(已知域);在设备处于未知故障模式、噪声水平或工况条件下,采集振动信号以构建测试集(未知域)。(2)模型训练:使用已知域中的数据对所提出的ProFormer模型进行训练。(3)模型测试:利用训练好的ProFormer模型,对未知域中的所有测试样本进行故障诊断。(4)不确定性分析:通过所构建的不确定性量化与分解方案,对诊断结果中的不确定性进行分析。(5)研究者干预:基于不确定性分析的结果,研究人员判断诊断结果的置信程度,并揭示测试数据中隐藏的未知因素,从而找到提升模型性能的关键路径。
图5 提出的方法的流程图
在实验案例中设置了三种实验场景,即测试数据中包含未知故障模式、未知噪声水平或未知工况条件的样本。所提出的ProFormer模型的主要超参数如表1所示。为了全面评估方法性能,本文将所提方法与两种基准方法进行了对比,分别为ResNet18和Vision Transformer。
表1 ProFormer的主要超参数设置
5.1 数据集描述
案例所使用的数据来自清华大学构建的风电行星齿轮箱故障数据集[31]。如图6(a)所示,实验所用的测试平台由电机驱动输入端,输出端连接风轮。此外,在齿轮箱壳体上安装了两个加速度传感器,分别采集X和Y方向的振动信号,采样频率为20 kHz。实验共使用9个齿轮部件,包含不同健康状态的齿轮,包括:1个正常齿轮、4个故障太阳轮以及4个故障行星轮。8种故障齿轮的详细信息见表2,部分故障齿轮如图6(b)所示。同时,输入端转速在15 Hz到40 Hz之间以1 Hz为间隔变化,故信号采集覆盖了26种不同的工况条件。
5.2 实验场景设置
案例1中选取Y方向的振动信号作为验证实验的数据来源。在实验过程中,首先使用工况条件为32 Hz、36 Hz 40 Hz、标签为0、1、2、3和4的样本对三种故障诊断模型进行训练与测试,该部分数据被定义为已知域(known domain)。本实验的目的是验证在测试数据中不包含未知样本的通用场景下,所提方法的故障诊断性能。随后,将训练完成的模型应用于三个不同的实验场景,这三个场景中测试数据所构成的未知域(unknown domain)存在差异,具体设置如下:
(1)未知域包含与已知域相同工况下的故障样本,但其标签为5、6、7和8,即出现了新的故障类型;
(2)未知域样本的工况与标签均与已知域一致,但在振动信号中加入了不同信噪比的高斯白噪声,共考虑了2 dB、1 dB、0 dB和−1 dB四种SNR;
(3)未知域包含标签与已知域一致的故障样本,但其工况条件不同,具体转速为16 Hz、20 Hz、24 Hz 和28 Hz,即出现了新的运行工况。
表2给出了已知域及三种未知域的详细设置。训练样本与测试样本在各工况条件下均匀分布,每个样本的长度为1024,并均采用零均值归一化(zero-mean normalization)预处理方法。
表2 案例1中的详细设置
5.3 场景1的实验结果分析
在处理已知域测试数据时,ProFormer、VIT和ResNet18的诊断准确率分别为98.93%、97.07%和99.73%。这表明,在测试数据不包含未知样本的常规场景中,所提出的方法具有与对比方法相当或更优的诊断性能。然而,在处理具有未知故障类型的样本时,VIT与ResNet18可能会将其错误地诊断为已知故障类型,且不会向研究人员发出任何提示,这凸显了所提方法的必要性与优势。图7展示了ResNet18、VIT和ProFormer在处理1个已知样本与4个未知故障类型样本时输出的预测标签的概率分布,其中横坐标表示故障标签,纵坐标表示预测概率。
如图所示,ResNet18和VIT仅能给出过于明确的诊断结果,而ProFormer能够同时提供预测结果的不确定性信息。这是因为所提方法通过Monte Carlo采样构建T个不同子网络,并由这 T个网络给出不同的预测概率分布。当处理一个真实标签为1的已知样本时,三个模型均给出了正确的诊断结果。具体而言,在ProFormer中,T个子网络输出的预测分布高度一致,反映出低不确定性与高置信度。但在处理一个真实标签为5的未知样本时,VIT和ResNet18分别将其错误地、高置信地预测为标签4和0,却未向研究人员提示任何异常。相比之下,ProFormer 模型的T个子网络输出的诊断结果差异显著,导致预测标签的概率分布在多个健康状态之间分散,表现出较高的不确定性,提示研究人员该结果可能不可靠,需要进一步调查。在处理真实标签为6、7和8的未知样本时,三种模型也表现出类似的现象,进一步说明:ProFormer 不仅能对已知故障样本做出高置信度预测,还能通过传达结果的不确定性,有效提升诊断结果的可靠性,并向研究人员提示设备可能处于未知故障模式下。
为验证所提方法在不确定性量化与分解方面的能力及其可解释性,本文对ProFormer在已知域与未知域中所有测试样本所获得的不确定性结果进行了来源与组成的分析。图8展示了三类不确定性的分布情况,其中横坐标表示概率值,纵坐标表示密度。如图所示,在已知域中,三类不确定性的分布均呈现尖峰型特征,值集中在0附近,表明模型预测结果具有低不确定性;而在未知域中,分布形态较为平坦,说明模型在该域中的预测结果具有较高的不确定性。这一实验现象与预期一致。进一步分析发现,认知不确定性(epistemic uncertainty)对总不确定性的贡献较大,这可以解释为模型在识别未知样本时所依赖的诊断知识不足。考虑到场景1的测试样本正是未知故障类型的样本,因此该实验也在一定程度上证明了所提方法的可解释性。
图8 基于所提出的方法对测试样本的诊断结果进行不确定度估计
5.4 场景 2 的实验结果分析
在实际工程中,所采集的振动信号通常会受到严重噪声的干扰,这种噪声可能来自设备运行环境的背景噪声,或传感器测量误差所引起。因此,场景2中的未知域通过在已知域测试样本中叠加不同信噪比(SNR)的高斯白噪声构造而成。如图9所示,随着SNR的降低,所有方法的诊断准确率均出现明显下降,其中 ResNet18的性能下降最为显著,而ProFormer显示出较强的稳定性。这一实验现象主要由以下两个原因导致:
(1)在低SNR条件下,振动信号的周期性特征被削弱,使得CNN无法通过捕捉如冲击带等有效的局部特征进行准确识别。在强噪声干扰下,更需要依赖Transformer的自注意力机制来挖掘信号中的全局信息;
(2)所提出的方法并非训练一个单一模型,而是构建了多个网络的集成结构。该训练方式本质上与集成学习相似,天然具备更强的泛化能力。
图9 案例1场景2中每种方法的诊断准确性
此外,尽管在低SNR情况下存在较多的误诊样本,对比方法并不能向研究人员发出任何警示;而所提方法则能够传达诊断结果的置信度信息。如图10 所示,当处理一个真实标签为2、SNR为0 dB的故障样本时,ResNet18和VIT高置信度地将其误识别为4。而所提方法虽然将该样本误识别为标签1,但其预测标签在多个健康状态之间的概率分布显示出较高的不确定性,提示该结果的可信度不足,需要研究人员介入判断。
图10 每种方法对于真实标签为2且SNR为0 dB的故障样本的诊断结果
图11展示了所提方法在不同噪声水平下对所有测试样本的不确定性估计结果。可以观察到,随着SNR的持续下降,三类不确定性均呈现逐渐上升的趋势,其中随机不确定性(aleatoric uncertainty)在总不确定性中的贡献逐渐显著。由于随机不确定性刻画的是数据中所隐藏的内在随机性,这一实验现象表明:数据中的有效信息被噪声淹没,导致模型难以做出确定的诊断判断。考虑到场景2中的测试样本正是带有噪声干扰的样本,以上结果进一步验证了所提方法的可解释性。由于数据的内在随机性本质上是不可消除的,单纯增加训练数据并不能提升模型性能。相反,研究人员应采用更高效的检测仪器或抗噪技术,以抵御噪声干扰并采集更干净的信号。通过这种方式,模型与研究人员之间的依赖关系得以建立。
5.5 场景3 的实验结果分析
机械设备在实际运行中常常面临不可预测的工况条件,这将导致所采集的测试数据分布发生变化,从而引起模型性能的下降。因此,场景3中的未知域通过改变设备的转速来构造。如图12所示,随着未知域与已知域之间转速差异的逐渐增大,各方法的诊断准确率整体呈下降趋势,其中ResNet18的性能最为稳定,这可能是由于CNN的局部感受野更擅长于提取域不变特征。尽管ProFormer在未知工况下的准确率相对较低,但它仍然能够通过传达预测结果中的不确定性来保障模型输出的置信度。
图12 案例1场景3中各方法的诊断准确性
如图13所示,当处理一个转速为16 Hz、真实标签为0的故障样本时,尽管ProFormer将其误识别为标签3,但从诊断结果中可以看出,预测标签为0与3的概率分布均表现出较高的不确定性,这表明模型对该预测结果的置信度较低。类似的实验现象也出现在处理真实标签为1的样本时,进一步验证了所提出方法在评估预测结果置信度方面的能力。
图13 在16 Hz条件下,所提出的方法的诊断结果
图14展示了所提方法在不同未知工况条件下对全部测试样本的不确定性估计结果。可以观察到,随着转速差异的增加,三类不确定性整体呈上升趋势。
图14 基于所提方法对未知域中测试样本的诊断结果进行不确定度估计
进一步地,从图15可以看到,认知不确定性(epistemic uncertainty)在总不确定性中所占的比例也随转速差的增大而逐渐上升。这一现象可以理解为:模型对新工况的诊断知识不足问题日益加剧。由于场景3中的测试样本正是具有未知工况条件的样本,因此本实验结果进一步验证了所提方法的可解释性。
图15 不同条件下的不确定度组成(场景3,案例1)
在本文中,提出了一种面向可信旋转机械故障诊断(RMFD)的ProFormer模型,并得出以下主要结论:
(1)分析与解释深度学习模型所提供诊断结果中的不确定性来源与构成,有助于提升模型的可解释性与可信度。
(2)所设计的概率注意力机制及其定义的优化目标函数,可用于建模注意力权重的先验分布与变分后验分布,从而赋予模型感知不确定性的能力。
(3)构建的不确定性量化与分解方案,可用于刻画诊断结果的置信度,并将总不确定性有效地分解为认知不确定性(Epistemic Uncertainty)与随机不确定性(Aleatoric Uncertainty)。
考虑到基于贝叶斯变分学习的模型对不确定性的建模能力在很大程度上依赖于所构建的先验分布,未来将引入更加全面的先验分布,以增强模型对不确定性的感知能力。此外,本文所采用的平均场理论(Mean-field Theory)假设不同注意力块之间的权重是相互独立的。未来工作将探讨如何放宽这一假设,以捕捉不同注意力块之间的依赖关系。进一步地,为构建更加可靠的人机交互机制,不仅应考虑如诊断结果不确定性这类显性知识(Explicit Knowledge),也应关注在实际生产过程中操作者、车间主管或工厂管理者所积累的隐性知识。