论文题目:
Multi-view rotating machinery fault diagnosis with adaptive co-attention fusion network
论文期刊:Engineering Applications of Artificial Intelligence
论文日期:2023年5月
论文链接:
https://www.sciencedirect.com/science/article/abs/pii/S0952197623003226
作者:Xiaorong Liu, Jie Wang, Sa Meng ∗, Xiwei Qiu, Guilin Zhao
机构:
School of Computing and Artificial Intelligence, Southwest Jiaotong University, Chengdu, China.
1 摘要
2 引言
3 相关工作
3.1 单视角故障诊断方法
3.2 多视角故障诊断方法
4 所提方法
4.1 问题表述
4.2 所提框架概述
4.3 视角特定编码器
4.4 自适应协同注意力融合
4.5 故障诊断
5 实验
5.1 数据集
5.2 基准模型
5.3 结果讨论
6 结论
智能故障诊断是保障工业生产安全与可靠性的重要研究方向,近年来受到了广泛关注,并在故障诊断方法的发展方面取得了显著进展。尽管如此,现有大多数方法主要依赖单一的振动信号视角,忽略了信号在不同视角之间的共识性与互补性。为此,本文提出了一种新颖的方法——COFU,即基于协同注意力融合网络的多视角学习模型,用于旋转机械的故障诊断,该模型旨在充分挖掘多视角之间的一致性与互补特征。具体而言,首先采用三种不同的编码器分别提取多视角信号的高阶特征表示;随后构建自适应协同注意力融合网络,以学习融合特征表示,在此过程中充分考虑各特征空间之间的关联性;最后,设计基于融合表示的故障检测器,实现对故障类型的准确识别。为验证所提方法的有效性,本文在三个数据集上进行了全面评估。实验结果表明,COFU方法在上述数据集上的故障识别准确率分别达到100%、99.95%和100%。结果进一步显示,所提方法在噪声干扰环境下同样具有优越的诊断性能,显著优于所有基准对比方法。该研究为多视角融合在旋转机械故障诊断中的应用提供了一种具有广阔前景的解决方案。
关键词:多视角融合,协同注意力,故障诊断
旋转机械作为复杂工业设备中的关键组成部分,在工业生产中正扮演着日益关键的角色(Shi 等, 2023)。由于其长期运行于恶劣工况环境之下,其核心部件(如齿轮、轴承等)极易发生损坏(Ge 等, 2022;Zheng 等, 2023)。因此,旋转机械故障诊断因与设备运行的安全性与可靠性密切相关,而成为现代工业应用中的研究热点(Zhao 等, 2020)。在过去数十年间,已有大量诊断方法被开发并成功应用于多个工业过程与系统的故障识别(Lu 等, 2021;Wang 等, 2021c,b,a)。
早期的故障诊断方法主要采用信号处理技术以抑制噪声与谐波干扰、增强信号特征,如小波变换(Yan 等, 2014)、经验模态分解(Lei 等, 2013)与变分模态分解(Dragomiretskiy 和 Zosso, 2014)。随后,专家通过频谱分析,从处理后的信号中识别故障特征频率。然而,这些方法往往依赖大量领域知识,难以保证诊断结果的稳定性与可靠性,因此具有明显的耗时性与高人力成本(Peng 等, 2021)。
在过去几十年中,机器学习技术被广泛应用于故障诊断。典型的分类模型,如支持向量机(SVM,Widodo 和 Yang, 2007)、极限学习机(ELM,Luo 等, 2016)与朴素贝叶斯分类器(NB,Cai 等, 2017),能够不依赖人工知识,自动建立特征与故障类别之间的映射,从而实现诊断智能化,显著降低人工干预。一般而言,机器学习方法需借助特征提取技术从原始信号中提取有效特征以建立映射关系。常用特征包括时域与频域的简单统计量以及非线性评估指标,如分形维数(Yang 等, 2007)。然而,这些特征往往较为浅层,所包含的判别性隐藏信息有限,可能导致映射函数存在偏差,进而影响分类模型的泛化性能,甚至导致其退化。
近年来,深度学习技术被广泛关注,并逐渐成为弥补传统机器学习方法局限性的有效手段(Rubio, 2021;Rubio 等, 2021;Jiang 等, 2023)。其显著优势在于能自动提取深层特征并从数据中挖掘隐藏信息。随着相关技术的迅速发展,深度学习方法已被广泛应用于故障诊断中(Zhang 等, 2022;Liang 等, 2022;Zhao 等, 2023),并取得了良好效果,部分经典神经网络结构也被引入到该领域(Anon, 2023;Liang 等, 2023)。
目前,基于深度学习的故障诊断方法大致可分为单视角方法与多视角方法。如图1(a)所示,单视角方法通常依赖于原始信号变换后所提取的某一类特征。然而,来自不同视角的信息之间存在紧密联系,若能有效利用这些联系,模型性能有望进一步提升(Wu 等, 2022b)。但该类方法未考虑多视角融合对故障诊断可能带来的益处,导致诊断过程中缺乏全面线索。
如图1(b)所示,多视角方法则联合利用多个视角中提取的不同特征,尽管可以提供更多信息,但往往难以充分建模这些特征之间的复杂语义交互。然而,这些交互信息对于多视角学习至关重要,它有助于在不同视角之间建立更紧密的联系,从而提供更全面的诊断线索。传统的多视角特征融合方法通常采用简单拼接策略,可能会引入无关甚至噪声信息。为解决这一问题,近年来引入了注意力机制,用以选择性地从每个视角中提取最相关的信息。尽管取得了进展,目前多数方法仍仅在编码器末端引入单一注意力层,这限制了对多种对象间交互关系的深入建模(Wu 等, 2023;Zhang 等, 2023)。
为缓解上述问题,本文提出了一种渐进式深度协同注意力融合网络,以提升旋转机械故障诊断的性能,该方法被称为COFU。受到人类对多视角信息理解过程(如图文结合的多媒体新闻)的启发(Wang 等, 2020),COFU模型设计了一种自适应协同注意力融合网络,用于捕捉时间视角、频率视角和小波视角之间的复杂语义交互关系。通过这些视角间的迭代交互,COFU利用时间引导的频率注意力、频率引导的时间注意力、小波引导的时频注意力,以及时频引导的小波注意力,生成最终的跨视角融合表示。
从根本上看,与传统的单视角和多视角方法不同,COFU在设计中引入了多视角之间丰富关联的初始建模机制,如图1(c)所示。在技术实现方面,本文提出了一种基于协同注意力网络的渐进式跨视角融合技术,用以捕捉不同视角之间的深层交互,以提升故障类别的识别能力。具体而言,首先通过三个特定的神经网络,从原始振动信号中提取时间视角、频率视角和小波视角的高阶特征表示;随后,构建自适应协同注意力融合网络,将三种独立的多视角特征进行渐进融合,逐步学习其交互信息;最终,利用融合网络最后一层输出的表示进行故障类别的识别。
图1(a)基于单视角方法;(b)采用拼接操作的多视角方法;(c)考虑语义交互的多视角方法。
本研究的主要贡献如下:
1) 所提出的COFU方法利用自适应协同注意力融合网络,捕捉多视角表示之间的复杂语义交互,能够有效学习时间视角、频率视角与小波视角之间的深度依赖关系,相较传统融合方法在多视角学习中表现更优。
单视角故障诊断方法主要集中于将原始振动信号在不同变换域(如时域、频域与时频域)中的形式作为输入引入深度学习模型。Teager-Kaiser能量算子(TKEO)因其可直接在时域内计算,已被广泛应用于包括齿轮箱与轴承在内的机械故障诊断中。然而,仅依赖时域信息在准确判定故障性质方面存在一定局限性。为弥补该缺陷,研究者引入频域技术,用于提取信号中与故障相关的谱分量,从而提升诊断精度。Li等(2021a)提出了一种归一化频域能量算子(FDEO),用于断条转子故障的诊断。此外,将一维原始信号转换为二维图像所获得的时频输入方式也各不相同。Zhang等(2020)指出,单一的时域或频域分析方法难以有效提取关键特征,因而提出了一种基于时频图像的故障诊断方法。Kang和Kim(2014)提出了一种基于Shannon小波的二维灰度图像表示,用于感应电机故障检测。Yu(2020)则提出了一种集中型时频分析工具,用于轴承故障诊断。尽管单视角故障诊断技术因其简单有效而获得了广泛应用,并推动了智能故障诊断技术的发展,但仅凭单一视角所获得的信息仍不足以实现对模型的全面理解。为克服此局限性,多视角方法的研究与发展逐渐成为趋势。
3.2 多视角故障诊断方法
如图2所示,模型的输入为一条信号,输出为故障类别。给定一维振动信号 ,我们对其进行若干信号变换操作,以获得多视角特征集 。具体而言,振动信号 直接作为时间视角特征 使用,无需任何预处理操作;为了获取频率视角特征,对 应用快速傅里叶变换(FFT),将其从时间域转换为频率域,得到频率视角特征 ;对于小波视角,则通过连续小波变换(CWT)作用于 ,得到小波视角特征 。
图2 COFU方法的流程图
4.2 所提框架概述
本文提出了一种新型的多视角旋转机械故障诊断架构COFU(Co-attention Fusion),该架构能够自适应地学习不同视角之间的共享语义。图3展示了所提方法的整体框架结构。如下所示,COFU架构由三个模块组成:
视角特定编码器:如图3中部所示,在多视角特征提取过程中,时间域视角、频率域视角与小波域视角分别独立处理,其间的相互依赖关系未被建模。然而,这三者之间的内部关系对于全面理解信号所承载的信息具有关键作用。为此,本文设计了一个自适应协同注意力融合网络,以融合上述三个视角的特征表示。该方法有效增强了多视角特征的共识性与互补性。
故障检测:如图3右侧所示,为实现对不同类型故障的识别,在完成第二模块中的多视角特征融合之后,提取出的深层特征向量被输入到一个包含两个线性层的故障分类器中,以完成最终的故障类型判别。
图3 所提出的多视角协同注意力融合网络(COFU)示意图
4.3 视角特定编码器
给定振动信号 作为时间视角特征,分别采用快速傅里叶变换(FFT)与连续小波变换(CWT)获取其对应的频率视角特征与小波视角特征。随后,为获取由三类特征构成的多视角表示,本文根据各自特性设计了三个神经网络编码器。
4.3.1 时间视角编码器
对于时间视角,特征 直接来源于振动信号 ,无需额外的数据预处理。随后,采用长短期记忆网络(LSTM)作为编码器,用于表示时间特征 。LSTM是一种循环神经网络(RNN)变体,旨在解决长时依赖学习的问题。形式化地,在时间步 ,记忆单元 与隐藏状态 的更新过程如下所示。
其中,
上述过程用BiLSTM(⋅)形式化表示。本文使用BiLSTM(⋅)来获得时间视角样本的更高级别表示。这个过程可以表示为:
4.3.2 频率视角编码器
对于频率视角,使用快速傅里叶变换(FFT)将每个样本样本从时间视图转换为频率视角。在此操作之后,本文也可以通过BiLSTM(.)获得频率视角的高级表示。对应的过程表示为
4.3.3 小波视角编码器
为了获得信号
其中,
在本任务中,该过程可具体表示如下:
4.4 自适应协同注意力融合
如前文所述,不同视角之间的相互依赖关系应被充分考虑,以弥合其语义差异。为此,本文设计了多视角协同注意力融合模块,用于捕捉不同视角之间复杂的语义交互关系。在融合阶段,多个视角特征将被逐步融合,其过程如下所示:
时间引导的频率注意力机制:通常而言,时域中的故障信号位置与特定频率点存在关联。因此,引入由时间信号引导的频率注意力模块,用以确定频域中应关注的区域。
为了在频率视角上生成注意力分布,将上述两个表示输入一个单层神经网络,并接 softmax 函数处理。该过程可形式化表示为:
其中,
与
在前述过程中,本文通过时间视角引导的注意力机制获得了与时间序列
其中,
然而,仍需进一步探索小波视角与时频融合表示之间的注意力分数关系。首先,通过时间视角与频率视角的互引导机制,得到一个新的表示
其中,
在多数情况下,故障特征通常集中在小波图像的局部区域。因此,若直接利用整张图像的特征进行标签预测,可能会引入与故障无关的区域信息,从而导致结果次优。为避免该问题,本文引入时频融合引导的小波注意力模块,以判定应关注的小波图像区域。
其中,
时频融合引导的注意力机制能够判定小波视角中哪些图像区域应成为标签预测的关注重点,以及哪些区域更直观地反映故障特征。然而,仍需进一步确定时频融合序列中哪些片段与标签更为相关。因此,本文引入小波视角与时频融合表示之间的引导注意力机制整合,以此获得新的图像向量
其中, 和
4.5 故障诊断
所提方法通过协同注意力网络获取多视角特征表示
本文使用交叉熵损失函数进行模型训练。概率的对数由以下表示:
其中,
为评估所提COFU方法的有效性,本文在三个公开数据集上进行了实验,包括CWRU、SEU_bearing和SEU_gear数据集。
CWRU 轴承数据集:该数据集由凯斯西储大学轴承数据中心提供,其测试平台如图4所示。测试平台包括电动机、扭矩传感器、两个加速度计和测功机。两个加速度计分别安装于驱动端外壳和风扇端外壳上,用于采集振动信号。采样频率为12 kHz或48 kHz,振动信号在四种不同电机负载下进行记录。故障类型分为三类:轴承内圈故障、滚动体故障、外圈故障,故障直径分别为0.007、0.014和0.021英寸。本文采用驱动端在12 kHz采样频率下的数据。表1将健康状态、内圈故障、滚动体故障和外圈故障四种类型,按照故障程度划分为十类(包含一种健康状态与九种故障状态)。
图4 CWRU轴承测试实验台
SEU bearing数据集:该数据集来源于东南大学提供的齿轮箱数据集(SEU2)。如图5所示,模拟平台由电动机、制动器、控制模块和两个测试用变速箱构成。轴承数据集包含八路振动信号,本文选用第二路信号。加速度传感器分别安装于驱动电机、行星齿轮箱和平行齿轮箱上。实验设置包含两个工作状态,转速–负载(RS-LC)分别为20 Hz–0 V和30 Hz–2 V。每种工况下包含五类故障类型:裂纹内圈、裂纹滚柱、裂纹钢球、裂纹外圈以及健康状态,详细信息见表2。
CNN模型:一种同时包含一维(1D)与二维(2D)卷积通道的模型,能够学习周期信号中相邻与非相邻区间之间的局部相关性。LSTM:一种能够良好捕捉测量振动信号时间特性的模型。MCNN-LSTM:一种融合多尺度卷积神经网络与长短期记忆网络的模型,用于滚动轴承故障诊断。MHGAT:首个在轴承故障诊断领域引入多头图注意力网络的模型。
多视角方法:通过与依赖多视角信息的技术进行对比,评估所提模型的性能表现。具体而言,Cat、Dot与Add为COFU方法的消融变体,其性能亦被纳入评估。
MCCA(Jiang 等, 2022a):一种基于典型相关分析(CCA)的多视角学习方法,用于最大化振动信号与电流信号特征之间的相关性。为确保公平比较,我们将其多层特征提取部分替换为本文所提出的视角特定编码器。
Concatenation:一种将不同视角的高阶表示直接拼接后,经过线性变换进行故障类型识别的多视角融合方法,其处理流程如图6(a)所示。
Dot:一种将不同视角的高阶表示相乘后,进行线性变换并识别故障类型的多视角融合方法,处理流程如图6(b)所示。
Add:一种将不同视角的高阶表示相加后,经线性变换完成故障类型识别的多视角融合方法,其处理流程如图6(c)所示。
表4展示了本文提出的COFU方法与多个基线方法在性能上的对比评估。实验结果表明,在 CWRU、SEU_bearing和SEU_gear三个数据集上,COFU在准确率(ACC)、精确率(P)和召回率(R)三个指标上均优于其他方法。
同时,基于表中结果可得出以下几点观察:
(1) 在多种用于故障诊断的单视角方法中,MHGAT取得了最优的性能。这可归因于其采用了图神经网络与多头注意力机制等先进技术,能够在不同尺度上提取判别性特征,并构建增强的综合特征用于故障诊断。此外,将频率视角作为输入,在传统CNN和LSTM模型中也表现出更优的效果,说明频率视角特征在提取关键信息方面具有重要作用。尽管如此,诸如 MCNN-LSTM与MHGAT等结构设计合理的模型,在使用时间视角输入时同样能取得可比的性能表现。
(2) 多视角方法的整体性能普遍优于单视角方法。观察发现,即便是简单的多视角融合技术,如Cat、Dot和Add,也在大多数情况下优于单视角方法。上述结果验证了多视角信息集成有助于显著提升故障检测性能的假设。然而,仍需注意,部分单视角模型(如 MHGAT)在性能上甚至超过了最基础的多视角融合方法。这可能是由于简单拼接融合方式可能引入一定噪声,反而削弱了多视角方法的效果。
(3) 本文提出的COFU方法在所有基线方法中表现最为优越。尽管MCCA采用了典型相关分析以学习多视角间复杂的语义相关性,其融合策略相对复杂,但在三个数据集上,COFU 的整体性能仍优于MCCA。具体而言,COFU在三个数据集上均获得了最高的ACC、P与R。在CWRU与SEU_gear数据集上,所提出模型的准确率、精确率与召回率均为100%;在SEU_bearing数据集上,COFU模型的准确率、精确率与召回率分别为99.95%、99.95%与99.95%。
该优越性能归因于协同注意力融合网络能够有效利用不同视角间的共识信息与互补特征,从而显著提升旋转机械故障诊断的准确性与鲁棒性。
5.3.2 COFU诊断表现
为更有针对性地分析各类故障类别的诊断效果,本文绘制了混淆矩阵以验证实验结果。如图7所示,混淆矩阵全面记录了不同数据集上的诊断与分类结果,包含正确分类信息与误分类信息。混淆矩阵的纵轴表示真实标签,横轴表示预测标签,因此对角线上的元素表示各数据集的诊断准确率。从图中可以看出,本文所提出的方法在三个数据集上对10类故障状态样本均实现了有效识别,模型在各数据集上的准确率分别为100%、99%与100%。对于SEU_bearing数据集,存在两个分类错误的样本,这两个样本均为工况“20_2”下的ball故障,被错误预测为“30_2 ball”。本文认为,该现象部分原因可能是这两个故障类别本身同属于ball故障类,二者在特征表现上具有一定相似性,从而导致了误分类的出现。
本文提出了一种用于旋转机械故障诊断的多视角方法,称为多视角自适应协同注意力融合网络(COFU)。与传统单视角输入方法不同,COFU通过利用特定的神经网络编码器,对三种视角的特征表示进行融合,从而获取更为全面的故障特征信息。此外,本文还提出了一种新型的融合方法,以有效利用多视角数据的共识性与互补性。
最终,COFU 被应用于CWRU、SEU_bearing和SEU_gear三个数据集,以实验方式验证其相较于基线方法的学习性能,分别在三者上取得了100%、99.95%和100%的准确率。实验结果表明,所提出的COFU方法是一种有效且便捷的解决方案,具有较强的适应性,能够理想地识别故障信息,并成功实现滚动轴承的自动化故障诊断。
考虑到CWRU与SEU数据集本身的局限性,如数据干净、样本构造简单、故障类型数量有限以及难以模拟真实工业环境等因素,所训练模型在实际部署中的性能可能受到一定影响。因此,未来工作将致力于结合多视角学习方法,引入小样本学习与领域自适应技术,以增强模型在更贴近实际工业环境中的泛化能力。