首页/文章/ 详情

RESS论文 | 用于轴承剩余使用寿命预测的双通道动态样条图卷积网络

4小时前浏览19

    本期给大家推荐一篇发表于高分期刊RESS的剩余寿命预测领域相关文章用于轴承剩余使用寿命预测的双通道动态样条图卷积网络针对传统方法难以捕捉振动数据中的动态拓扑变化和非线性退化规律的问题,文章提出双通道动态样条图卷积网络剩余寿命预测模型。该模型通过整合全局拓扑建模的GCN、连续局部特征演化的SplineCNN以及时序依赖分析的GRU,有效捕捉轴承振动信号中的时空退化特征,为轴承剩余使用寿命预测提供了可靠解决方案

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:

    Dual-channel dynamic spline graph convolutional network for bearing remaining useful life prediction

    论文期刊:Reliability Engineering and System Safety

    论文日期:2025

    论文链接:

    https://doi.org/10.1016/j.ress.2025.111731

    作者:Yubei Jin (a), Dongdong Liu (a), Yongchang Xiao (a), Lingli Cui (b)

    机构:

    a: Key Laboratory of Advanced Manufacturing Technology, Beijing University of Technology, Beijing 100124, China;

    b: Beijing Engineering Research Center of Precision Measurement Technology and Instruments, Beijing University of Technology, Beijing 100124, China.

    通讯作者邮箱: 

    cuilingli@bjut.edu.cn

    作者简介:

    崔玲丽,教授,博士生导师。2008年入选“北京市科技新星计划”,2008年获冶金部科技进步二等奖,2009年入选国家留学基金委的访问学者全额资助计划,2010年入选“北京市中青年骨干教师计划”,2011年9月至2013年4月于美国密歇根大学访学,2013年入选北京工业大学“国际化导师能力发展计划”,2015年入选北京工业大学“首批青百人才计划”,2016年入选国家人社部及北京市人社部“留学人员科技活动项目择优资助计划”,2017年入选“北京市长城学者”计划,2018年入选“北京市百千万人才”计划。2018年获“中国振动工程学会青年科技奖”及第二十一届“茅以升北京青年科技奖”。作为项目负责人主持国家自然科学基金项目3项,获ICFDM2016十佳优秀结题项目,作为骨干成员参加了国家863科技计划项目以及企业横向项目等多项课题。至今发表SCI及EI检索学术论文40余篇,获批国家发明专利16余项。(来自学校官网)

    目录

    摘要

    1.引言 

    2.基础理论

        2.1.图卷积网络

        2.2.基于样条的卷积神经网络 

    3.提出的方法 

        3.1.双通道图卷积网络 

        3.2.DSAF 

            3.2.1.动态激活函数 

            3.2.2.DSAF:注意力累积分割 

            3.2.3.梯度导数 

        3.3.损失函数设计 

    4.实验验证与分析 

        4.1.数据预处理 

            4.1.1.数据标准化 

            4.1.2.图形结构构建和标签设置 

        4.2.评估与讨论 

            4.2.1.实验数据集说明 

            4.2.2.案例研究一:PHM 2012挑战数据集 

            4.2.3.案例研究二:XJTU-SY轴承数据集 

            4.2.4.复杂性与性能权衡分析 

            4.2.5.消融实验分析 

            4.2.6.超参数敏感性分析 

            4.2.7.模型方差分析 

            4.2.8.收敛性分析 

            4.2.9.样条核参数与边缘属性的灵敏度分析 

    5.结论

    摘要

    在工业系统预测性维护中,准确预测轴承剩余使用寿命(Remaining Useful Life, RUL)至关重要。然而传统方法往往难以捕捉振动数据中的动态拓扑变化和非线性退化规律。为解决这一难题,我们提出双通道动态样条图卷积网络(Dual-Channel Dynamic Spline Graph Convolutional Network, DDSGNet)。与依赖离散特征聚合的传统方法不同,本文通过全局拓扑聚合模块建模振动特征的空间相关性。连续局部演化算子捕捉静态退化的动态特征,而时间依赖学习器则保留长距离序列信息。该方法有效解决了连续局部特征变化建模的难题。创新性地提出DSAF激活函数,通过平滑梯度动态适应非线性信号变化,有效解决了梯度粗糙和梯度消失问题。同时引入基于物理约束的PhyMAE损失函数,精准匹配轴承退化特性,确保预测结果既准确又符合物理规律。实验表明,DDSGNet在两个公开数据集上的表现优于现有最优方法,为轴承剩余使用寿命预测提供了可靠解决方案。

    关键词:剩余使用寿命,全局拓扑聚合,局部演化算子,物理引导的损失函数

    1 引言

    在预测性健康管理(Predictive Health Management, PHM)[1]领域,剩余使用寿命(Remaining Useful Life, RUL)预测是一项关键且具有挑战性的任务,因其直接影响机械系统的可靠性和维护。轴承作为旋转机械[2]的核心部件,广泛应用于电机及航空航天设备中,其核心作用在于支撑旋转轴并降低摩擦损耗。然而,长时间运行会使轴承承受机械应力、热应力、润滑条件变化及环境影响等多重考验,这些因素共同导致性能下降,最终引发故障。研究表明,轴承故障在旋转机械故障中占比显著[3,4],不仅会降低运行效率,还可能带来严重安全隐患。因此,精准的轴承寿命预测技术不仅能保障设备稳定运行,还能持续提升效率并增强安全性[5-7]。

    工业自动化技术的进步推动了对轴承(RUL)精准预测的需求,以确保设备稳定可靠运行。传统RUL预测方法包含模型驱动和数据驱动两大类[8]。然而,依赖预设公式和经验的模型驱动方法,由于适应性有限,在复杂工况下难以准确捕捉设备退化过程。随着现代机械设备振动数据的大量涌现,数据驱动方法特别是深度学习(Deep Learning, DL)应运而生——这种技术在信号处理和模式识别领域展现出卓越优势[9-12]。通过直接从振动数据中建模退化模式,这些方法具备强大的适应性和泛化能力,使得数据驱动的剩余使用寿命预测成为当前研究的热点领域。

    基于数据的轴承剩余使用寿命预测方法可分为传统机器学习技术和深度学习方法两大类。传统机器学习方法如支持向量机[13]和隐马尔可夫模型[14]虽能处理复杂数据集,但需要人工特征工程依赖领域专业知识,导致其难以自动适应并从复杂振动信号中提取特征。相比之下,深度学习模型凭借强大的特征提取与拟合能力备受关注。近年来,深度学习方法已成为预测与分类领域的研究热点[15,16]。例如,Jonug等人[17]采用了一种深度学习模型,该模型整合了LSTM和RNN技术用于检测轴承中的异常。该模型既能保持长期依赖关系,又能识别局部依赖关系。Wu等人[18]将希尔伯特变换与自动编码器相结合,有效提升了RUL预测的准确性。此外,这种方法在利用希尔伯特变换评估劣化阶段和识别劣化因素时,为提升可解释性提供了新的可能。Li等人[19]采用GRU网络结合趋势记忆注意力机制,成功预测了轴承的剩余使用寿命。曹等人[20]创新性地将并行GRU与双层注意力框架相结合,实现了轴承剩余寿命的精准预测。Huang等人[21]则开发了双向长短期记忆(Bidirectional Long Short-Term Memory, BiLSTM)模型,通过整合传感器数据与运行状态信号,显著提升了剩余寿命预测的准确性。尽管这些方法在时间序列建模和捕捉长期依赖关系方面表现优异,但在处理空间相关性时仍存在局限,这直接影响了其对空间关系的表征能力。

    为有效利用轴承振动信号中的空间特征与局部关联性,研究者尝试将卷积神经网络(Convolutional Neural NetworkCNN)与RNN相结合,用于预测轴承RUL。Dao等人[22]通过结合CNN和LSTM对机械设备进行故障诊断。Al Dulaimi等人[23]采用双路径预测RUL:LSTM路径提取时间特征,CNN路径提取空间特征。Wang等人[24]提出循环卷积神经网络(Recurrent Convolutional Neural Network, RCNN)架构,有效捕捉CNN的时间依赖特性。Gao等人[25]同时运用一维卷积神经网络(One-Dimensional Convolutional Neural Network1D CNN)和BiLSTM,在卷积层中引入ELU激活函数,构建混合神经网络模型以提升预测精度和稳定性。Liu等人[26]分别通过BiLSTM和CNN从序列数据中提取长期时间依赖特征和关键局部特征。然而这些方法忽视了退化数据中固有的拓扑关系,未能充分挖掘其结构信息。

    作为新型深度学习架构,图神经网络(Graph Neural Networks GNNs)为解决上述问题提供了新思路。图数据通过节点和边缘表征了劣化数据间的拓扑关系,为复杂建模奠定了基础。GNNs能够高效处理图数据并捕捉节点间的复杂关联,这对建模轴承监测数据中的传感器相关性及运行状态变化具有重要意义。在轴承RUL预测中,GNNs可将传感器数据和运行状态视为退化数据图中的节点和边缘,通过学习节点间的动态交互实现更精准的寿命预测。Wei等人[27]将注意力机制与GCN相结合,有效提升了预测性能。Yang等人[28]提出节点层级路径图模型,用于捕捉节点相关性的时间依赖特性,并设计了结合BiLSTM的ChebGCN。Wang等人[29]开发了门控图卷积网络,通过整合门控循环单元(GRU)和图卷积网络(Graph Convolutional Network, GCN),能够同步挖掘传感器数据中的时空信息,实现RUL预测。Wei等人[30]提出自适应图卷积网络,该网络能动态选择合适图结构并集成自适应调节机制,有效揭示不同节点特征间的复杂关联,从而精准预测轴承的剩余使用寿命。Jiang等人[31]整合多层级加权混合邻域信息,通过构建多层次图表示模块分析传感器空间关系,并结合BiLSTM模拟传感器数据中的时序动态特征。Li等人[32]提出分层注意力图卷积网络(Hierarchical Attention Graph Convolution Network, HAGCN),采用分层图表示模块分析传感器空间关系,并通过BiLSTM模拟传感器数据的时序动态特征。He等人[33]将自回归移动平均滤波器(Autoregressive Moving Average filter, ARMA)引入GCN,有效解决了传统GCN在动态拓扑数据中出现的过度平滑问题。Cui等人[34]提出了一种结合稀疏图结构整合的卷积网络,通过端到端方法显著提升了机器预测轴承RU)的准确性。Xiao等人[35]的研究创新性地构建了图神经网络架构,采用异构图表示技术实现多重数据聚合,专门用于轴承RUL预测。Jiang等人[36]运用图标特征迁移方法,构建了由两个不同拓扑图组成的双图结构。该方法充分挖掘有限标注样本中的信息,有效捕捉节点间更丰富的拓扑结构特征。

    尽管上述方法在RUL预测中表现出色,但仍存在明显不足。首先,传统GCN方法依赖拓扑邻接关系进行特征聚合,无法持续捕捉节点局部邻域的特征变化趋势。其次,轴承退化过程受多种因素影响,其特征表达具有高度非线性和动态性,传统激活函数和模型架构难以适应这种复杂变化。

    为突破现有局限,我们提出创新框架DDSGNet,通过整合全局拓扑建模、连续局部特征演化与时序依赖分析,从根本上提升轴承RUL预测能力。与难以建模连续局部特征变化的传统GCN模型,以及忽视拓扑关系的CNN-LSTM混合模型不同,DDSGNet采用双通道图学习机制,将全局拓扑聚合与连续局部演化相结合,成功捕捉离散图卷积或传统CNN方法难以建模的多尺度时空退化规律。创新性地引入具有平滑梯度的DSAF激活函数,动态适应非线性信号变化,显著超越ReLU或DReLU等静态激活函数。同时引入PhyMAE物理约束模块,通过单调性和非负性等轴承特性约束,确保预测结果符合退化物理规律,突破传统通用损失函数的局限。这种协同设计使DDSGNet在精度与鲁棒性方面实现质的飞跃。主要贡献包括:

    (1) 构建了一个双通道图卷积网络,该网络将全局拓扑建模的GCN优势与连续变化建模的样条CNN能力有机结合。通过充分挖掘图结构数据、时空特征及时间序列信息,实现了轴承振动信号的多模态特征融合。该方法不仅深入揭示了轴承性退化规律,还能为预测RUL提供更详尽的特征集。

    (2)提出动态平滑激活函数(Dynamic Smooth Activation Function, DSAF),通过动态调整激活参数来增强传统激活函数在设备退化建模中的适应性,从而更精准捕捉信号的非线性特征。同时,该函数的平滑特性与非单调行为被有效利用,显著提升了模型的训练效率和预测性能。

    (3)引入了物理约束损失函数PhyMAE,将轴承退化过程固有的单调性和非负性作为模型训练的先验知识。确保了模型预测结果更符合轴承退化规律。

    本文后续章节结构安排如下:第二章阐述本研究的基础理论;第三章详细说明提出的方法;第四章全面介绍实验设置与数据集,并通过结果分析验证方法有效性;第五章总结研究方法与结论。

    2 基础理论 

    2.1 图卷积神经网络

    GCN是一种用于建模图数据中拓扑结构和节点关系的先进卷积范式,其信息传播基于图的拓扑结构和节点特征,在节点分类、图学习和表示方面发挥着重要作用,GCN的核心公式如下:

     

    其中  表示第  层的节点特征矩阵。  是添加自环的邻接矩阵,确保每个节点都能保留自身特征。    的度矩阵,该矩阵本身是对角矩阵,每个元素代表对应行的度数。  是第  层的可训练参数矩阵。  是激活函数。通过归一化操作  ,确保信息在传递过程中保持一致性,从而避免因节点度数差异导致的梯度消失或爆炸现象。

    GCN算法具备强大的全局特征建模能力,通过聚合邻近节点信息来学习全局图拓扑结构。然而,该算法主要依赖图的拓扑连接进行信息传播,缺乏对节点局部邻域特征连续变化趋势的建模能力,难以捕捉节点间细微但关键的局部演化特征。因此,在需要捕捉局部退化模式的任务中(如轴承剩余使用寿命预测),该算法存在局限性。为克服这一缺陷,我们引入了互补的局部演化算子,确保局部退化动态能够得到连续建模。

    2.2.基于样条的卷积神经网络

    SplineCNN是一种专为图数据设计的卷积神经网络。其核心优势在于采用B样条核函数,在图结构中实现连续可微的局部卷积操作,从而提供更灵活且可学习的特征提取能力。与传统图卷积网络仅基于邻接矩阵聚合离散邻域特征不同,SplineCNN通过结合节点局部邻域信息与边属性,能够模拟节点特征随空间关系变化的连续演变模式。具体而言,该网络利用基于B样条基函数的核函数,对节点间边属性进行连续插值,从而建立节点间的连续特征映射关系。这种连续建模方法不仅克服了传统GCN在特征聚合过程中产生的离散化误差,还能在端到端训练过程中自适应学习局部特征随空间变化的平滑演变趋势,无需显式设计或人工提取几何特征[37],因此具有更强的自动建模能力。SplineCNN的信息传播过程如下:

     

    其中  表示边属性,  是基于B样条的权重矩阵,其计算方式如下:

    其中  为可学习参数,  作为B样条基函数,其定义遵循以下递归公式:
     
     

    其中    表示d阶B样条基函数,    是节点向量,用于定义基函数的支持区间。由于B样条核的数学特性,其在SplineCNN中的应用特别适合用于轴承剩余使用寿命预测。通过递归基函数(公式(5))定义的B样条核具有局部支持特性,即仅在有限区间内非零,并且具有连续可微性。这使得节点间边缘属性的平滑插值成为可能。因此,SplineCNN能够模拟振动信号特征在空间关系中的连续演变,捕捉随时间和空间平滑变化的细微劣化趋势。B样条核参数化连续特征过渡的能力确保了对局部邻域动态的精确建模,这对准确预测轴承RUL至关重要。

    3 提出的方法

    本文针对传统方法在捕捉轴承振动信号中复杂空间拓扑与时间退化模式方面的局限性,提出了一种双通道图卷积网络。所提出的DDSGNet巧妙融合空间拓扑与时间退化建模,有效应对轴承RUL预测的关键挑战。为精准提取振动信号中的拓扑特征与动态特征,创新性地设计了GCN和SplineCNN双通道架构。针对时间依赖性捕捉难题,引入GRU模块对融合特征进行智能处理。为提升非线性退化模式建模精度并确保物理一致性,提出动态平滑激活函数(Dynamic Smooth Activation Function, DSAF)优化模式特征,同时采用物理引导损失函数(Physical-Guided Loss Function, PhyMAE)保持物理一致性,最终实现高精度的剩余使用寿命预测。具体技术细节如下所述。

    3.1.双通道图卷积网络

    DDSGNet中的双通道图卷积网络通过GCN与SplineCNN的协同组合实现了理论突破。与传统GCN通过邻接矩阵聚合离散邻域特征、难以捕捉特征平滑过渡的局限不同,SplineCNN采用B样条核建模局部邻域内特征的连续演变。这种创新设计有效降低了离散化误差,显著提升了对轴承振动信号中细微劣化模式的识别能力。双通道架构使DDSGNet能够表征多尺度时空劣化模式,这对精准预测RUL至关重要,其性能超越了仅关注全局拓扑或时域动态的传统方法。具体实现流程如下:

    输入的特征矩阵和邻接矩阵首先经过图卷积层处理,GCN层通过聚合节点的邻域信息,并利用学习到的权重更新节点特征,从而逐步建模图的结构特征。这一过程能有效捕捉图中的全局关联信息,为后续特征融合奠定基础。

     

    随后,特征矩阵  和边属性  被输入到样条卷积网络层,该层通过B样条基函数建模节点间的空间关系。

     

    其中  表示节点  与节点  之间的边属性,而基于B样条基函数的连续卷积核  用于根据边属性  计算节点  对节点  的贡献权重。其定义如下:

     

    其中  表示B样条基函数的笛卡尔积,  代表可训练控制点的权重,  是B样条基函数的取值。经过样条卷积层处理后,可获得局部连续变化特征  。通过将GCN层提取的全局特征与样条卷积层提取的局部连续变化特征进行融合,充分发挥二者互补优势。具体公式如下:

     
     

    其中    是全连接层的权重矩阵,分别用于处理全局特征和局部特征。融合后的特征  最终通过最后一个全连接层进行处理,生成最终输出。

    3.2. DSAF

    DSAF在动态ReLU(Dynamic ReLU, DReLU)基础上进行改进,旨在提升轴承RUL预测的非线性特征拟合能力(见图1和图2)。DReLU最初作为动态激活机制被提出,通过分割输入特征来捕捉多样化的退化模式,但存在梯度不平滑的问题。DSAF通过将分段注意力机制与平滑的非单调Swish函数相结合,有效解决了这一问题,不仅提升了训练稳定性,还避免了梯度消失现象。本节首先概述DReLU的工作原理,接着详细阐述DSAF的改进方案,并给出其数学定义及梯度分析。

    图1 基于所提出的方法进行RUL预测的框架

    图2 DReLU的结构

    3.2.1.动态激活函数

    DReLU是一种自适应激活函数,能够根据输入信号动态调整激活参数,从而更精准地捕捉信号中的非线性特征[38]。如图3所示,输入张量  (其中  为样本数量,  为特征数量),通过全局平均和池化处理,最终得到全局信息向量  

    图3 图构建过程

    全局信息向量通过全连接层FC1压缩得到  ,其中  为压缩比。再通过全连接层FC2恢复维度,并分割为  个分段参数  ,其中  为分段数量。

     被划分为两部分,分别对应    。根据超参数    以及初始参数    ,最终的参数值    可计算得出:

     
     

    为增强响应并捕捉关键特征,需计算每个输入元素的分段线性函数值,并选取最大值:

     

    “动态门控+最大响应”的激活模式不仅能增强对关键特征的响应,还能提升对输入非线性结构变化的适应能力。

    3.2.2.DSAF:注意力累积分割

    DReLU通过计算所有分段的最大值作为最终输出。这种方法能增强响应效果,在特定场景下捕捉最强特征,但可能忽略其他潜在有用的特征分割信息。此外,DReLU的非平滑特性会导致梯度在不同分段边界处突然变化,从而引发训练不稳定。为解决这些问题,我们通过引入全自注意力机制并搭配Swish激活函数,对DSAF进行了重构。这种改进使模型既能选择性关注退化相关模式,又能保持梯度平滑性。DSAF的数学表达式定义为:

     

    其中,  表示分配给第  个片段的注意力权重,其计算方式为:

     

    其中    是可学习的矩阵,而分母  则用于稳定注意力分数。 输出通过Swish激活函数传递:

     

    这种设计引入了平滑且非单调的非线性特性,显著提升了优化过程的稳定性。为确保DSAF模型在分割任务中实现精准特征捕捉,我们将分割数量  设定为4,以此平衡模型复杂度与非线性特征表征的精细度。该参数通过验证集的实证调优确定,  4既能保证最佳预测精度又避免过拟合问题。全连接层FC1的压缩比  设为8,既能有效降低全局信息向量的维度,又能保留关键信号特征。针对Swish函数,其可学习参数  β  初始值设为1.0,这使得模型在训练过程中能自适应调整参数,从而增强函数平滑性并缓解梯度消失问题。

    3.2.3 梯度导数

    为评估优化特性,我们推导DSAF关于  的梯度。设:

     
     
     

    然后,第  个输出相对于  的偏导数为:

     

    Swish段梯度:

     

    由于Swish函数具有可微性,该梯度是平滑且有界的。 累积注意力梯度:

     
     

    复合梯度  具有Lipschitz连续性,因为Swish和softmax函数均可微且导数有界。此外,采用带有注意力加权的累积分割技术,可有效缓解ReLU函数的不平滑特性以及Sigmoid函数的梯度消失问题。

    3.3.损失函数设计

    损失函数是深度学习模型训练过程的核心要素。它通过量化模型预测值与实际值之间的差异,来引导模型优化路径。平均绝对误差(Mean Absolute Error, MAE)作为基础损失函数:

     

    其中  为真实值,  为预测值,  为样本总数。该损失函数在多数回归任务中表现良好,但在轴承RUL预测中,可能未能充分考虑轴承退化的实际物理规律,导致预测结果不合理。

    为使预测结果更准确反映轴承RUL的物理规律,本文在损失函数中引入单调性和非负性约束,构建了物理引导损失函数PhyMAE,从而提升预测结果的准确性和可解释性。具体实现如下:

    轴承的RUL应随时间  单调递减:  。因此,我们将单调性约束条件表述为:

     

    该模型能确保最终预测值随时间推移呈单调递减趋势。若不符合此特性,系统将对模型施加惩罚机制,促使模型学习合理的退化轨迹。

    轴承的RUL应为非负值:  。我们将非负约束条件表述为:

     

    该模型用于确保最终预测值为非负值,同样地,若未满足该特性,模型将受到惩罚以进一步增强物理一致性。基于上述基本损失函数和物理约束条件,本文最终提出的损失函数可表示为:

     

    其中  代表权重因子,用于平衡各项参数。本文采用ReLoBRaLo方案[39]来调节  的数值。该方案通过动态调整权重因子  ,平衡MAE与PhyMAE损失函数中的物理约束条件(非负性和单调性)。具体而言,ReLoBRaLo在训练过程中实时监测MAE与约束损失项的相对权重,当物理约束违反显著时增加  ,当MAE占主导时降低  。初始  值设定为0.5,取值范围[0.1,1.0],通过在XJTU-SY数据集上的经验调参确定,既保证预测精度又确保物理一致性。这种自适应调节机制稳定了训练过程,同时增强了模型与轴承劣化物理规律的匹配度。通过调整这些超参数的数值,可控制损失函数中各项的贡献比例,从而优化模型性能并提升轴承剩余使用寿命预测的准确性。

    PhyMAE的收敛性通过与Adam优化器的集成得以保障,该优化器采用自适应矩估计技术实现稳定的梯度下降。从数学角度而言,由于惩罚项具有分段线性特征,PhyMAE相对于预测值的梯度定义明确,从而确保优化过程的平滑性。损失函数的Lipschitz连续性(由MAE和ReLU惩罚项产生的有界梯度所保证)在权重和学习率有界的标准假设下,确保了算法的收敛性。

    4 实验验证与分析

    本节对所提出的方案进行评估和讨论,实验采用两个真实故障场景数据集,通过与多种前沿方法的对比验证了该方案的有效性。

    4.1.数据预处理

    4.1.1.数据标准化

    公开轴承数据集中的传感器信号在不同工况和老化阶段存在显著的幅值波动。若直接使用原始数据进行分析,可能导致忽略信号微弱特征,进而影响神经网络的收敛效果。为此,我们采用Z分数标准化方法对数据分布进行缩放,并统一各维度的量纲。 Z分数标准化是数据标准化的常用方法,通过将数据转换为均值为0、标准差为1的分布,消除不同特征间的维度差异和数据偏斜。具体而言,对于每个特征  ,其标准化值  可表示为:

     

    其中  为特征均值,  为特征标准差。通过Z分数标准化,所有特征均被统一到同一尺度,从而提升模型的训练效率和预测性能。

    4.1.2.图结构构建与标签设置

    图3展示了图结构的构建过程。首先,我们采用滑动窗口技术对时间序列进行分段处理。具体来说,设置长度为10的窗口,并以1为步长在时间序列上滑动。每个窗口捕获的数据段被定义为图中的一个节点。在获得节点集 合后,我们使用KNN方法构建图结构。对于每个数据点  ,计算其与所有其他数据点的欧氏距离。假设数据集包含  个样本,每个数据点  是一个D维向量,欧氏距离可表示为:

     

    根据计算距离,为每个数据点选取最近的K个邻近点,得到集 合    ,将每个数据点与其K个邻近点相连,构建无向图    其中    表示节点集 合(包含所有数据点),    表示边集 合(表示节点间的连接关系)。我们设定    5,这一数值既遵循时间序列图建模的常规做法,也基于我们的消融实验结果。

    为提高轴承RUL预测精度,采用轴承剩余使用寿命百分比作为标签。信号样本的标签设置如下:

     

    其中  表示第  个剩余使用寿命值,  为样本总数

    4.2.评估和讨论

    4.2.1.实验数据集描述

    本研究采用公开的XJTU-SY轴承数据集[40]和PHM2012挑战数据集[41]进行实验验证,这两个数据集均源自加速老化实验,属于真实运行故障数据。

    XJTU-SY数据集是由西安交通大学(XJTU)和浙江昌兴益阳科技有限公司(SY)联合发起的项目,为轴承研究提供了全面的资源。如图4所示,实验装置包含交流电机、旋转轴、速度控制单元、液压加载机构、支撑轴承以及测试轴承本身。该平台支持在不同运行场景下对滚动轴承进行加速老化测试,并收集大量生命周期数据。关键可调参数包括由液压系统作用于测试轴承壳体产生的径向载荷,以及通过交流电机控制器调节的转速。

     

    图4 XJTU-SY 实验平台

    为完整记录轴承的振动信号全生命周期,我们采用磁性基座将两个PCB352C33单向加速度传感器分别安装在测试轴承的水平轴和垂直轴上。实验中使用DT9837便携式动态信号采集器进行振动信号采集,采样参数设置为:采样频率25.6千赫兹、采样间隔1分钟、每次采样持续1.28秒。当振动信号振幅超过初始值十倍时,表明轴承已完全停止工作,此时终止测试。由于载荷作用方向为水平,该平面的振动信号能更直观地反映劣化过程。本文采用水平振动信号进行分析研究。 该研究包含15组滚动轴承在三种不同工况下的全生命周期退化数据,数据分为训练集和测试集,分别用于模型训练和最终预测的准确性评估。表1展示了XJTU-SY的运行参数。

    表1 XJTU-SY 的运行参数

    图5展示了预测实验平台,该平台是公共PHM2012数据集的来源。该装置由电机驱动,用于调节测试轴承的转速。编码器提供实时速度测量数据,支持反馈调节。为加速轴承磨损,可通过负载调节系统在测试轴承上施加可定制的径向力。该振动传感器由两个呈90度角排列的微型加速度计组成,分别安装在垂直轴和水平轴上。两个加速度计沿轴承外圈径向分布,以25.6千赫的采样率工作。位于外圈附近孔洞内的电阻温度检测器,以0.1赫兹的频率记录温度数据。当振动幅值超过20g时,实验即告终止,标志着轴承完全失效。该数据集包含17种滚动轴承的生命周期退化曲线,这些数据是在三种不同工况下采集的,具体参数详见表2。

    图5  PRONOSTIA实验平台


    表2 PHM2012数据集操作条件的详细信息

    4.2.2.案例研究一:PHM 2012挑战数据集

    本研究采用公开的PHM2012挑战数据集,对所提方法的性能进行评估。具体实验设置详见表3。为验证该方法的有效性,我们进行了五组实验。评估指标包括均方根误差(Root Mean Square Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)和相关系数(Correlation Coefficient, R²),具体说明如下:

     
     
     

    其中  表示原始数据,预测结果为    作为原始数据的平均值,  表示样本数量。当RMSE和MAE值较低,R²值更接近1时,表明模型效果更优。

    表3 PHM2012数据集的实验设置

    为验证所提方法的有效性,我们将其与多项先进预测方法进行对比。TCN-GRU[42]融合了时间卷积网络的并行计算能力与门控循环单元的强大学习能力,并整合了注意力机制。CTLS[43]则通过整合卷积神经网络、Transformer、神经网络架构(LSTM)以及平滑半鞅随机层,显著提升了RUL预测的准确性。

    GAE[44]提出了一种基于图的框架,该框架将时间序列数据转换为图结构,并利用图自动编码器(GAE)、图注意力网络(GAT)和Transformer编码器进行处理。本方法采用Adam优化器,学习率设为0.001,训练周期为200个epoch。为确保实验可复现性,所有实验均使用固定随机种子42进行初始化。具体架构与参数设置详见表4,其中  表示样本数量。

    表4 提出模型的结构

    通过将MAE、RMSE和R²指标与其他方法进行对比,我们评估了所提方法的有效性,如表5所示。实验结果表明,该方法具有显著的精度优势。以轴承1-3为例,该方法的RMSE值为0.0271,MAE值为0.0195,R²值达到0.9912,相较于TCNGRU和CTLS方法有显著提升,这表明模型在追踪退化模式时展现出更强的适应能力。在轴承2-4的测试中,该方法表现尤为突出,其R²值高达0.9944,RMSE和MAE分别降至0.0216和0.0177,远优于CTLS和GAE方法,充分体现了模型卓越的建模能力。图6展示了轴承1-3、1-4、2-4、2-7和3-3的线性退化指标预测轨迹及误差指标。显然,所提出的方法能有效追踪退化模式。图7和图8对比分析了所提出方法与替代方法的RMSE和MAE指标。数据显示,该方法的预测误差普遍最小,证明了其有效性。

    表5 所提出的方法与其他方法的性能比较


    图6 预测结果;(a)数据集1-3,(b)数据集1-4,(c)数据集2-4,(d)数据集2-7,(e)数据集3-3

    图7 预测误差的RMSE值

    图8 预测误差的MAE值


    4.2.3.案例研究二:XJTU-SY轴承数据集

    为验证该技术的有效性,我们使用公开的XJTU-SY轴承数据集进行了进一步评估。为确保技术的适用性,我们设计了交叉验证实验,实验中使用的数据集详见表6。在不同运行条件下,每个实验选取一个数据集作为测试集,其余两个数据集作为训练集。具体来说,当使用数据集1-1作为测试集时,训练集采用数据集1-2和1-3;反之,当使用1-2作为测试集时,则采用1-1和1-3作为训练集。

    表6 XJTU-SY数据集的实验设置

    本研究将所提出方法的性能与TCNGRU、CTLS、GAE进行对比。采用Adam优化器,学习率设为0.001,训练过程持续200个周期。表7展示了该方法与替代方案的对比结果。数据显示,所提方法在保持较低RMSE和MAE的同时,显著提升了R²指标。以轴承1-2和轴承1-3为例,该方法分别实现了0.0452和0.0113的RMSE,以及0.9712和0.9985的R²,明显优于其他方法。这表明该模型在相对稳定的劣化过程中具有强大的拟合能力。在轴承2-1、轴承2-2等相对复杂的子数据集上,虽然整体误差略有上升,但所提出的方法仍以显著优势持续超越基准方法,展现出良好的鲁棒性和泛化能力。图9展示了部分实验组的预测曲线及误差数据。图11和图12分别呈现RMSE和MAE指标,对比了所提方法与其他模型在所有测试集上的表现。这些结果充分证明了该方法在预测能力上的优越性。

    表7 提出方法和其他方法之间的性能比较


    图9 预测结果; (a)数据集1-1、(b)数据集1-2、(c)数据集2-1、(d)数据集2-2、(e)数据集3-1、(f)数据集3-2

    图10 预测误差的RMSE值

    图11 预测误差的MAE值


    为评估系统在环境干扰下的鲁棒性,我们在XJTU-SY数据集上进行了噪声子集验证。该噪声子集通过在信噪比(SNR)为5 dB和10 dB的条件下添加高斯白噪声生成。表9展示了预测结果,结果显示与原始XJTU-SY相比,噪声子集下的RMSE值有适度提升,表明系统对噪声具有良好的泛化能力。

    表9 添加噪声后的预测效果

    4.2.4.复杂性与性能的权衡分析

    为评估DDSGNet的实际应用价值,我们从参数数量和浮点运算(FLOPs)两方面分析了其计算复杂度,并与基线方法(TCNGRU、CTLS和GAE)进行对比。表10汇总了模型复杂度数据。虽然DDSGNet的参数量略高于CTLS,但其预测准确率显著提升,同时保持更低的计算成本:4.272M FLOPs。与TCN-GRU相比,DDSGNet在计算量和内存占用方面均表现出色:运算量减少25倍以上,参数量缩减约17%,同时保持了更高的准确率。尽管GAE的计算量相当,但其参数数量是DDSGNet的两倍多,预测性能也明显较低。这些结果表明,DDSGNet在准确性和效率之间找到了最佳平衡点,非常适合在计算资源有限的工业环境中进行实时部署。

    表10 模型复杂度

    4.2.5.消融实验分析

    为评估模型各组件对整体性能的贡献,我们开展了消融实验。通过系统性移除关键组件来探究其对模型性能的影响,具体细节见表8。为进一步分析各组件的作用,我们采用t-SNE对不同消融配置学习到的潜在特征嵌入进行可视化展示。如图12所示,完整的DDSGNet在整个退化过程中展现出平滑连续的嵌入轨迹,颜色从健康状态逐渐过渡到故障状态,这与RUL的缩短直接对应。当移除SplineCNN分支后,嵌入空间整体连贯性减弱,局部结构变得模糊不清,这表明其建模空间图拓扑信息的能力有所下降。 当消除DSAF约束时,模型结构变得松散,表明其捕捉复杂模式的能力下降。移除物理约束后,嵌入分布呈现无序状态,颜色分布也出现断裂。这些发现证实,每个组件对于学习稳健且物理一致的表征以预测RUL都至关重要。

    表8 消融实验装置

    图12 (a)条件A、(b)条件B、(c)条件C和(d)条件D的特征可视化结果

    表11展示了PHM2012数据集上的消融实验结果。在条件A(移除SplineCNN)中,由于模型丧失了对连续局部特征演化的建模能力,导致RMSE显著上升(例如数据集1-3的RMSE升至0.0862),而R²则下降(例如降至0.9014),这削弱了其捕捉空间退化模式的能力。在条件B中,当用ReLU替代DSAF时,性能出现下滑,数据集1-3的RMSE值为0.0534。这种下降源于ReLU无法动态调整并提供平滑梯度,从而影响其在非线性特征拟合中的有效性。在条件C(移除物理约束)中,由于缺乏非负性和单调性约束,模型预测结果与轴承退化规律不符,导致物理一致性降低(例如数据集1-3的RMSE为0.0471)。完整模型(D)实现了最低的RMSE值(例如0.0271)和最高的R²值(例如数据集1-3的0.9912),充分展现了其各组件间的协同效应。

    表11 PHM2012数据集不同组件的消融实验结果

    DDSGNet的协同效应源于对全局、局部和时间特征的协同处理,专门用于轴承RUL预测。GCN(公式(1))通过处理输入振动信号提取全局拓扑特征,捕捉不同时间窗口内的整体劣化模式。SplineCNN(公式(5))通过建模连续的局部特征变化来补充这一过程,这对于检测细微的退化趋势至关重要。随后将这些全局与局部特征进行融合(公式(11)),构建出完整的空间表征。GRU模型通过处理该表征来整合时间动态变化,确保预测结果准确反映降解进程。该集成流程通过优化PhyMAE损失函数(公式(28))——该函数强制要求单调性和非负性——来实现这一目标,具体通过以下方式实现:

    GCN技术的全局视角:捕捉不同时间窗口的广泛劣化模式,有效降低复杂工况建模误差。SplineCNN的局部精度:模拟平滑劣化趋势,减少GCN离散聚合固有的离散化误差。GRU的时序一致性:使预测结果与退化过程的时序演变保持一致,提升物理一致性。

    这种协同方法确保了DDSGNet能够捕捉多尺度时空模式,这是单一模块或成对模块都无法实现的。SplineCNN中的B样条核因其Lipschitz连续性提供了稳定的梯度流,而GRU的门控机制则缓解了梯度消失问题,从而实现了损失函数的稳健优化。消融实验验证了这种协同效应,表明与部分配置相比,完整模型在RMSE指标上显著降低,同时在R²指标上表现更优。

    4.2.6.超参数敏感性分析

    为验证图构建过程中超参数的选择,我们对KNN参数、时间窗口大小、学习率和批量大小进行了敏感性分析,评估了这些参数对DDSGNet在XJTU-SY数据集(bearing13)(表12)上的性能影响。

    表12 XJTU-SY数据集上不同组件的消融实验结果

    表13展示了K取值为{3,5,7,9}时,滑动窗口长度L分别为5、10和20个时间步长的实验结果。当K=5时,DDSGNet模型取得了RMSE=0.0175和R²=0.9964的优异表现,显著优于K=3(RMSE=0.0443,R²=0.9522)因邻域连接性不足的情况,以及K=9(RMSE=0.0852,R²=0.9161)因引入远邻噪声的影响。采用10个时间步长的时序窗口能实现最佳性能,这种设置在时间分辨率与特征稳定性之间找到了平衡点。相较于仅捕捉信号变化不足的5步长窗口,以及过度平滑关键退化趋势的20步长窗口,该时序窗口方案展现出更优的性能表现。这些结果证实,K=5和L=10是建模轴承退化模式的理想参数。在测试训练相关参数时,我们评估了学习率({0.0005,0.001,0.005})和批量大小({16,32,64})的影响。0.001的学习率找到了最佳平衡点,不仅使RMSE值最低,还实现了最高的R²值;而0.0005会导致收敛速度变慢,0.005则会使训练过程不稳定。32的批量大小被认定为最优选择,相比16的批量大小会引入更多噪声,而64的批量大小则会降低更新频率。最终我们选择了最优配置(K=5,L=10,学习率=0.001,批量大小=32),该配置在验证集上观测到的RMSE值最低。

    表13 KNN参数(K)和时间窗口大小对XJTUSY的敏感性分析

    4.2.7.模型方差分析

    评估DDSGNet的稳定性,我们在XJTU-SY数据集上使用五个不同随机种子(42、123、456、789、1000)进行了实验。表14展示了各运行中RMSE、MAE和R²的均值与标准差。这些结果表明,DDSGNet在不同初始化条件下对轴承RUL预测的可靠性。

    表14 XJTU-SY上多次运行的模型方差

    4.2.8.收敛性分析

    为评估DSAF的收敛特性,我们在XJTU-SY数据集(数据集1-3)上将其训练性能与ReLU、Swish和Sigmoid进行对比。图13展示了训练损失曲线,结果显示DSAF不仅收敛速度更快,最终损失值也更低。DSAF的优异收敛性主要得益于其注意力机制——该机制能自适应地对退化相关特征进行加权,并通过平滑的Swish驱动梯度实现优化。

    图13 不同激活函数的训练损失曲线

    4.2.9.样条核参数与边缘属性的敏感性分析

    我们使用XJTU-SY数据集1-3对SplineCNN的核参数和边属性进行了敏感性分析。具体而言,针对核参数,我们考察了核尺寸的影响,将其设置为{3,5,7}三种不同值,同时保持其他参数不变。对于边属性,我们评估了不同距离度量方法的敏感性,比较了欧氏距离和余弦距离。分析结果详见表15,其中包含RMSE值和决定系数R²。

    表15 XJTU-SY模型中核尺寸与边缘属性的敏感性分析

    实验数据表明,5的最优卷积核尺寸能同时实现最低RMSE值和最高R²值,这表明其感受野平衡性良好,能有效捕捉局部退化特征。当卷积核尺寸缩小至3时,模型会出现欠拟合现象,RMSE值达到0.0289;而当卷积核尺寸增大至7时,由于过度平滑导致冗余问题,RMSE值会略微上升至0.0198。

    采用欧氏距离作为边缘属性时,其性能优于余弦距离。欧氏距离能准确反映振动信号的幅度差异,这与材料劣化程度的强度相对应;而余弦距离侧重于方向性,由于忽略绝对变化,会导致精度略有下降。

    5 结论

    本文提出了一种双通道框架DDSGNet,用于精准预测轴承剩余使用寿命(RUL)。该模型通过整合全局拓扑建模的GCN、连续局部特征演化的SplineCNN以及时序依赖分析的GRU,有效捕捉轴承振动信号中的时空退化特征。采用基于注意力机制的自适应加权和Swish驱动平滑梯度的DSAF,显著提升了非线性特征拟合精度和训练稳定性。同时,通过PhyMAE约束确保预测结果的非负性和单调性,保证物理一致性。在IEEE PHM和XJTU-SY数据集上的实验表明,DDSGNet模型在准确性和鲁棒性方面均优于现有最优方法。该模型在预测性维护领域展现出巨大应用潜力,未来研究将重点探索跨域适配与实时RUL预测技术,以进一步提升其适用性。


    编辑:Tina
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、陈宇航、陈莹洁、王金、赵诚、肖鑫鑫、张优
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除




    来源:故障诊断与python学习
    ACTSystem振动断裂非线性旋转机械通用航空航天冶金UG海洋UM理论电机爆炸材料数字孪生
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-11-09
    最近编辑:4小时前
    故障诊断与python学习
    硕士 签名征集中
    获赞 87粉丝 136文章 248课程 0
    点赞
    收藏
    作者推荐

    综述 | 数据驱动的机械故障诊断:全面综述(中)

    故障诊断是当前工业设备领域的研究热点。本期推荐的这篇是迪肯大学博士研究生迪拉杰・纽帕内的文章,这篇文章聚焦数据驱动的机械故障诊断,系统梳理了传统机器学习、深度学习、强化学习、迁移学习等方法的应用,分析了多个机械故障数据集的特征与应用,探讨了数据稀缺、模型泛化性等挑战,并提出了数据集优化、算法改进等未来研究方向。其核心价值在于弥补现有研究在 RL (Reinforcement Learning:强化学习)应用、多源数据融合等方面的空白,促进该领域的进一步发展。由于文章篇幅过长,小编将分三次为大家翻译介绍这篇论文,第一篇推文阐述 MFD(Machinery Fault Diagnosis:机器故障诊断) 重要性,指传统方法不足,数据驱动方案兴起;介绍故障诊断类别与维护策略,点明现有综述缺陷;说明本综述方法、分类体系;探讨机械故障数据,包含类型、增强技术、数据集三个方面;最后阐述传统数据驱动方法及各自优缺点。本篇推文将聚焦先进数据驱动方法,详解 DL(CNN、RNN 等)、RL、TL 在 MFD 的应用,DL 各模型处理不同数据与任务,RL 用于分类和架构搜索,TL 缓解数据与域差异问题,还提及异常检测等其他助力 MFD 的方法。希望对大家的学习有所帮助,文章质量很高同时希望大家可以多多引用。论文基本信息论文题目: Data-driven machinery fault diagnosis: A comprehensive review论文期刊:NeurocomputingDoi:https://doi.org/10.1016/j.neucom.2025.129588作者: Dhiraj Neupane(a), Mohamed Reda Bouadjenek(b), FaRichard Dazeley(c), Sunil Aryal(d) 论文时间: 2025年 机构: a School of IT, Deakin University, WaurnPonds, Geelong, Victoria 3216, Australia作者简介:迪拉杰・纽帕内,系迪肯大学的博士生,专攻基于先进机器学习算法的智能故障检测。他拥有韩国昌原国立大学信息与通信工程硕士学位,研究方向为机械设备故障检测与信号处理,同时对计算机视觉和声纳信号处理抱有浓厚兴趣,已发表多篇高影响力论文。此外,还积极担任多家知名期刊的审稿人。(来源:ResearchGate) 摘要在当今先进制造时代,尽早诊断机械故障以确保其安全高效运行变得比以往任何时候都更为关键。随着现代工业过程日益复杂,传统的机械健康监测方法已难以提供高效性能。在工业大数据激增以及传感与计算技术进步的推动下,基于机器学习/深度学习方法的数据驱动式机械故障诊断解决方案已在制造应用中广泛应用。在工业应用中,及时、准确地识别故障机械信号至关重要,为此已提出诸多相关解决方案,并在早期文献中多有综述。尽管目前存在大量关于机械故障诊断的解决方案和综述,但是现有文献大多聚焦于特定设备类型或分析方法,导致其在广泛制造环境中的适用性受限。此外,关于实施数据驱动方法所面临挑战的讨论(例如处理噪声数据、选择合适特征、以及调整模型以适应新的或未知故障)往往流于表面或完全被忽略。因此,本综述对采用不同类型机器学习方法检测和诊断各类机械故障的文献进行了全面回顾,重点评述了其优势与局限性;梳理了用于预测分析的方法;详尽探讨了可用的机械故障数据集;向未来研究者介绍了应用这些方法进行故障诊断时可能遇到的挑战,并提出了缓解这些问题的可能解决方案。同时,本文也指明了未来研究前景,以促进对该领域的深入理解。我们相信,本文将为研究人员提供帮助,并促进该领域的进一步发展。 关键词:数据驱动;深度学习;故障检测;联邦学习; 机械故障;机器学习 ;预测性维护;强化学习 目录1 引言 1.1 研究背景 1.2 研究动机 1.3 文章结构2 实施的方法论与开发的分类法论3 机械设备故障数据(与分析) 3.1 数据类型与分析 3.2 数据增强4 数据驱动方法 4.1 传统数据驱动方法 4.2 基于深度学习的数据驱动方法 4.3 基于强化学习的故障诊断 4.4 基于迁移学习的故障诊断 4.5 其他方法5 挑战 5.1 数据相关挑战 5.2 旋转机械面临的挑战 6.3 现有方法面临的挑战 5.4 应用机器学习/深度学习算法面临的挑战 5.5 其他挑战6 对未来研究者的建议 6.1 机械设备与数据集增强 6.2 算法开发 6.3 其他建议7 未来展望8 结论注:小编能力有限,如有翻译不恰之处,请多多指正~ 若想进一步拜读完整版,请下载原论文进行细读。 4 数据驱动方法4.2 基于深度学习的数据驱动方法 尽管基于传统机器学习的技术在机械设备故障诊断中展现出潜力,但在复杂工业环境下的早期故障检测方面仍存在不足。工业过程的动态性、非线性和多模态特性,使得数据分析变得复杂。传统机器学习方法需要人工进行特征提取和选择,这在处理大型数据集时颇具挑战性,且会导致特征挖掘与决策过程分离,进而造成效率低下 [250]。随着机器复杂度和数据维度的增加,这些局限性制约了经典模型的有效性。此外,依赖人工经验的传统故障检测方法耗时、易出错,难以满足现代工业系统的需求 [27]。噪声的存在以及机械设备信号的非平稳性,进一步增加了故障检测的难度。因此,深度学习在改进故障检测与诊断方面引起了广泛关注。深度学习于 21 世纪 10 年代中期兴起 [251],凭借直接从原始数据中学习有用表征、无需人工特征工程的能力,为机械设备故障诊断带来了变革。结合传感器和物联网的发展,深度学习能够处理海量数据,从而提高故障检测与诊断的准确性和效率 [29,252]。基于先进数据驱动方法的旋转机械故障诊断,其流程建立在 3.1 节所述的步骤之上(如图 3 所示)。这些步骤包括:(a)收集能够反映设备健康状态的传感器数据;(b)利用各类模型和算法从收集的数据中提取特征;(c)基于提取到的故障敏感特征,识别并分类设备的故障状态 [32]。在这些方法中,振动、声发射、温度和电流数据是常用的数据类型,针对不同的域(时间域、频率域、时频域)会采用特定方法进行特征提取。随后,通过特征选择方法筛选出最相关的特征,用于训练机器学习模型,以实现故障分类、异常检测和剩余使用寿命预测。本节将探讨机械设备故障诊断中所用到的各类深度学习算法的原理、技术及应用。 4.2.1 与最新先进模型的对比卷积神经网络被广泛用于机器故障分类。事实上,机械设备故障诊断是基于卷积神经网络的故障诊断(CNNFD:CNN-based FD)中最早且探索最广泛的领域之一,其直接受图像分类原理的启发 [30]。在这种情况下,二维和一维卷积神经网络都有应用。一维卷积神经网络专注于时间序列数据,而二维卷积神经网络处理具有空间 / 时间相关性的多维数据。卷积神经网络的不同变体,如残差网络、密集连接网络、视觉几何组网络、胶囊网络(CapsNet:Capsule Network)、扩张卷积神经网络、基于区域的卷积神经网络等,也已被改编并应用于机械设备故障诊断中,以改进制造和工业流程。为了使综述更有条理,我们根据卷积网络的结构特征,将基于卷积神经网络的故障诊断研究细分为两个方面:使用一维卷积神经网络的故障诊断和使用二维卷积神经网络的故障诊断。一维卷积神经网络故障诊断:将一维卷积神经网络用于故障诊断是一种直接的策略,其中原始一维数据可直接作为卷积神经网络模型的输入。如前所述,振动数据是该策略中常用的数据类型。研究 [111] 采用了一个一维卷积神经网络(包含 3 个卷积层和 2 个多层感知器层)对 IMS 数据集进行轴承故障分类。原始振动数据经过几个关键的预处理步骤:通过 8 倍抽取来降低复杂度,提供 12.5 kHz 的带宽;采用低通滤波去除高频成分;对数据进行归一化处理以保证尺度一致性。该研究的准确率达到了 97.1%。同样,Zhang 等人在研究 [76] 中,利用 CWRU 轴承数据集,在噪声干扰和工作环境多变的情况下,采用一维卷积神经网络进行轴承故障诊断。这项研究的独特之处在于使用了 dropout(丢弃)和小批量训练技术,且避免了复杂的预处理。通过重叠切片技术对训练样本进行处理,将其作为一种数据增强方法。研究取得了 99.77% 的出色分类准确率,尤其是在信噪比为 10 的情况下。此外,还采用 t-SNE 方法对分类结果进行可视化和理解。另外,研究 [77] 中实现了一种基于语义空间嵌入的零样本故障诊断方法。该方法使用一个带有两个卷积层和一个全连接层的一维卷积神经网络,从 CWRU 和 TEP 数据集的原始数据中提取故障特征。为实现零样本学习,构建了人工定义的故障标签嵌入作为故障属性矩阵,其中每个轴承故障都具有 7 个细粒度的故障属性。通过余弦距离将特征嵌入与故障属性进行匹配。还有,研究 [112] 利用 IMS 轴承振动数据集,通过一个多通道一维卷积神经网络分类器处理时域振动数据,以增强电动机轴承故障检测效果。对数据进行了 Z-score 标准化和线性缩放预处理。该双通道分类器通过同时使用 x 轴和 y 轴数据,准确率达到 100%;而一个双通道 / 两级分类器能够区分早期和晚期故障程度,平均准确率为 84.64%。同样,在研究 [82] 中,宽核卷积神经网络(WK-CNN:Wide-Kernel CNN)被用于处理三个工业机械故障数据集的原始时间序列数据,这三个数据集分别是 CWRU 轴承数据集、齿轮箱故障诊断数据集和帕德博恩轴承数据集。该方法通过 38880 次模型迭代,重点研究了不同的架构超参数(如核大小、步长和滤波器),分析它们对模型性能的影响。数据预处理包括数据分段、批处理以及划分为训练集和测试集。主要通过准确率分数衡量的结果显示,不同数据集和超参数配置下的性能差异显著,部分模型达到了接近完美的准确率。此外,还采用机器学习 / 深度学习算法进一步理解特定超参数与宽核卷积神经网络性能之间的非线性关系,强调了可训练参数数量对不同数据集的细微影响。除振动数据外,其他机械故障信号(如声发射、电流、温度等)也被用作一维卷积神经网络故障诊断的输入。研究 [253] 中,作者提出了一种离心风机叶片损伤识别方法。他们采用了一种多层融合算法,将振动声学信号(在不同风机转速和噪声水平下从声压传感器和加速度计收集)与一维卷积神经网络相结合。首先通过自适应加权融合在数据层面融合声学和振动信号,然后使用一维卷积神经网络进行特征提取,提取的特征随后通过全连接层进行组合。同样,研究 [141] 专注于通过将 ReliefF 特征提取与一维卷积神经网络堆叠双向门控循环单元模型相结合,预测风力发电机叶片结冰故障。该研究使用了中国 2017 年工业大数据竞赛的 SCADA 数据,初始数据预处理包括:利用 ReliefF 将特征维度从 20 维降至 15 维,并通过滑动时间窗口重构数据。采用加权准确率指标解决数据不平衡问题,并使用 5 折交叉验证。结果显示,与传统模型相比,加权准确率显著提高了 43.08%。研究 [254] 旨在通过分析定子电流信号诊断永磁同步电机的故障。收集了不同故障场景和转速下的定子电流数据,形成一个包含 2000 个数据点的数据集,经归一化后分为 1000 个训练样本和 1000 个测试样本。采用了一维卷积神经网络和小波包变换两种关键方法进行特征提取,其中一维卷积神经网络的诊断准确率达到 98.8%,性能优于其他方法。随着可解释人工智能(XAI:Explainable Artificial Intelligence)概念的日益普及,在复杂机械系统中对透明且可理解的模型的需求变得前所未有的迫切。为解决这一问题,研究 [101] 利用多小波核(MWK:Multi-Wavelet Kernel)卷积神经网络对齿轮箱的一维振动信号进行了分析。该研究采用了中国东南大学提供的 DDS 数据集和风力发电机齿轮箱数据集。通过将连续小波变换与传统卷积神经网络相结合,这项研究引入了多小波核卷积层和核权重重校准模块,并采用热图对学习到的特征图进行可视化,从而提高了齿轮箱故障诊断中脉冲检测的可解释性。数据预处理包括使用大小为 1024 的滑动窗口对信号进行切割,以及采用标准归一化技术。在不同条件下的齿轮箱故障诊断中,多小波核卷积神经网络的分类准确率均超过 98%。二维卷积神经网络故障诊断:最初,应用于机械设备故障诊断的卷积神经网络架构模仿了图像处理中使用的二维结构。由于机械信号主要是一维时间序列,因此主要方法是将这些一维信号转换为二维形式。为此,研究人员采用了多种信号处理方法,下文将对其进行简要说明。许多研究人员通过数据矩阵变换将一维时间序列数据转换为二维图像格式,这种格式被称为 “振动图像”[42]。在此过程中,原始一维数据被转换为二维矩阵(图像结构)。例如,若有一个一维信号 并希望将其转换为 维度的二维矩阵(其中 ),则可应用如下变换:对于 且 ,有 。过程有效地将时间序列数据重构为类似图像的格式,从而能够应用图像处理技术来分析信号模式。除 “振动图像” 外,热成像图 [255] 也被用作卷积神经网络(CNNs)的输入。在机械设备故障诊断(MFD)中,热成像技术是识别指示故障的温度异常的关键手段,可实现非侵入式、连续的监测与诊断,常与振动分析等其他技术结合使用,以预防机器出现重大问题。此外,峭度图[256]、尺度图[45] 和频谱图[42] 是机械故障诊断中重要的信号处理技术,用于分析机器信号与噪声。峭度图通过评估跨频段的信号峭度来检测瞬态故障,突出信号的突然变化。由连续小波变换(CWT:Continuous Wavelet Transform)生成的尺度图提供信号的时频视图,可有效突出随时间变化的频率特征。通过短时傅里叶变换(STFT:Short-Time Fourier Transform)生成的频谱图则提供时频分析,非常适合跟踪机器行为的变化。这些技术通过数学算法处理原始振动或声学数据,将信号转换为视觉形式,从而助力机械故障及潜在缺陷的检测。二维卷积神经网络所使用的数据类型列于表 5 中。表5 输入类型划分的二维卷积神经网络在机械故障诊断中的应用 作为数据矩阵变换方法的一项应用,Neupane 等人 [42] 利用该技术将原始数据转换为二维矩阵,随后采用一个简单的二维卷积神经网络模型对凯斯西储大学数据集进行轴承故障检测。同样,在一项创新性研究中,Jiao 等人 [302] 提出了一种深度耦合密集卷积网络(CDCN:deep coupled dense convolutional network)用于机械故障诊断。该网络采用一维卷积结构和密集连接,能有效从原始的非平稳机械信号中提取特征。与传统的数据拼接技术不同,该模型将多传感器数据作为并行输入进行整合。这些传感器同时捕捉横向和扭转振动,通过双层信息融合方法实现更精准的故障识别。深度耦合密集卷积网络模型的准确率达到 99.39%,相较于传统卷积神经网络、单传感器数据方法以及基于数据拼接的融合技术,在识别准确率、收敛速度和分类精度方面均表现更优。所有实验均在英特尔酷睿 i7 处理器和英伟达 GTX 1060 显卡上重复进行 10 次,以减少随机性。作者在试验台上模拟并测试了行星齿轮箱的 9 种健康状态,实验在 20Hz 驱动转速、2N・m 负载条件下进行,数据采样频率为 5kHz,最终针对 9 种状态形成包含 5400 个样本的数据集;他们还添加了高斯白噪声,以模拟真实恶劣的工业环境。尽管该模型可能会增加计算成本,并导致训练与测试数据分布之间出现差异,但其良好的实验结果及计划中的改进表明,该方法为智能故障诊断领域的发展做出了重要贡献。另一种转换方法是将来自时域或频域的统计数据作为卷积网络的输入。在研究 [303] 中,研究人员使用带有加速度计和高速相机的齿轮试验台,以振动信号的快速傅里叶变换(FFT)频谱生成的二维灰度图像为输入,训练了一个卷积神经网络(VGG16 ConvNet)。该数据集包含 600 张图像,来自塑料齿轮耐久性测试,其中 500 张用于训练,100 张用于测试。研究采用迁移学习的方法,将最初在 ImageNet 上训练的 VGG16 网络用这些振动数据图像重新训练。在预处理步骤中,通过 FFT 频谱峰值提取方法将振动信号转换为图像。该方法包括以锯齿模式在 0Hz 至 1600Hz 的频率范围内每隔 16.67Hz 选取振幅峰值,生成 12×16 像素的灰度图像。每张代表频率振幅和相位的图像,根据高速相机的观测结果被标记为 “有裂纹” 或 “无裂纹”,为卷积神经网络训练提供带标签的数据。值得注意的是,这项研究的训练准确率达到 99%,测试准确率达到 100%,其主要目的是检测塑料齿轮的裂纹,重点重新训练了模型的最后两层。此外,研究 [83] 介绍了一种滚动轴承故障诊断方法,该方法将深度卷积神经网络(DCNN:Deep Convolutional Neural Network)与免疫算法相结合。这种技术使用从轴承故障信号的时域和频域转换而来的二维图像作为深度卷积神经网络的输入。利用凯斯西储大学数据中心的数据,该方法结合深度卷积神经网络进行特征提取,并利用免疫算法自适应学习新故障。预处理包括将振动信号转换为二维图像。该方法的故障识别准确率超过 98%,有效减少了误报和漏报,通过先进的机器学习技术展示了其在自适应学习和故障诊断准确性方面的优势。研究 [256] 则专注于利用卷积神经网络(具体是改进的 LeNet-5 架构)进行滚动轴承的故障诊断。它独特地将一维声发射信号转换为二维峭度图图像,以适应卷积神经网络的输入要求。该数据集包括来自不同故障状态和正常状态轴承的声发射信号。预处理包括使用 1/3 二叉树方法将一维信号转换为二维峭度图。快速峭度图算法中的 1/3 二叉树方法是一种扩展,它使用三个额外的带通滤波器对信号序列进行进一步分解,在几乎不增加计算成本的情况下实现了更精细的频率和分辨率采样。通过这种方法,不同转速下各种轴承状态的分类准确率超过 95%,其中部分状态在 500RPM 时的准确率达到 100%。研究 [81] 还介绍了 AntisymNet,这是一种用于旋转机械故障诊断的轻量级卷积神经网络,它将一维振动信号转换为二维图像进行处理。利用 MiniImageNet、CWRU 轴承、渥太华轴承和 Hob 等数据集,该模型取得了较高的准确率(在 CWRU 数据集上高达 99.70%)。AntisymNet 的创新架构结合了正向和反向分支,用于高效的特征提取和融合,在降低复杂度的同时,在不同数据比例下都表现出良好的性能,凸显了其在工业故障诊断中的实际应用价值。另外,在研究 [304] 中,研究人员对一台连接到 SpectraQuest MFS 的 0.5 马力感应电机进行了分析,使用了两个加速度计。该研究采用多头一维卷积神经网络,通过分析一维振动信号来诊断电机故障,包括轴弯曲和轴承问题。数据被划分为 256 个样本的窗口,来自四次实验运行。配备 Leaky ReLU 和早停功能的卷积神经网络,其故障识别准确率达到 99.92%。除上述所用的图像类型外,一些研究人员还将热成像图用作卷积神经网络的输入。Li 等人 [255] 开发了一种基于卷积神经网络的红外热成像(IRT:Infrared Thermal)图像故障诊断方法,这些图像是通过红外热成像技术从机械设备上捕捉到的。从 SpectraQuest 机械故障模拟器获取的红外热成像图像是从热视频中选取的,用于构建数据样本,并将其输入到卷积神经网络模型中进行故障检测。所用的故障类别数量为 10 类,且使用 SoftMax 作为分类器。同样,在他们关于机器故障诊断的研究 [165] 中,研究人员采用了一个坚固的轴承试验台,该试验台配备有一台 220 伏、2 马力的直流电机,用于模拟各种轴承故障,如内圈故障、外圈故障、滚珠故障和润滑问题。通过单轴加速度计收集振动数据,并通过热成像相机获取红外热成像数据。他们采用二维卷积神经网络,通过连续小波变换将一维振动数据处理为二维尺度图图像,并通过红外热成像技术提取热成像图像。为提高计算效率,这些数据被转换为灰度图,这使得卷积神经网络在恒速条件下的故障诊断准确率达到 100%,而在转速变化时准确率略有下降。采用结合可解释人工智能原理的二维卷积神经网络,研究 [101] 提出了一种用于机械设备故障诊断的多层小波注意力卷积神经网络(MWA-CNN:Multilayer Wavelet Attention CNN),该网络将卷积神经网络与小波变换技术相结合。它采用离散小波变换层和频率注意力机制,以增强抗噪声能力和可解释性。该方法在离散小波变换层和卷积层之间交替进行,实现信号分解和特征学习。研究所用数据来自高速航空轴承和电机轴承(DIRG 轴承数据集和 PU 轴承数据集),预处理阶段采用 Z-score 标准化,通过滑动分割进行数据增强。值得注意的是,多层小波注意力卷积神经网络取得了较高的诊断准确率(在 4 分贝信噪比下为 98.75%,在 - 4 分贝信噪比下为 87.61%)。这种方法通过使网络聚焦于相关特征信息,提高了可解释性,符合可解释人工智能原理,从而增强了决策的透明度。其他一些应用卷积神经网络的研究成果汇总于表6中。表6 应用卷积神经网络于机械故障诊断的论文 4.2.2 基于循环神经网络(RNN)的故障诊断(FD)循环神经网络旨在通过顺序处理输入并利用反馈环路记忆过去的状态来处理时间序列数据,这使其非常适合分析振动、温度等机械信号的时间特性。这种能力使其能够有效地进行故障检测和剩余使用寿命预测。然而,循环神经网络常常受到梯度消失和梯度爆炸问题的困扰,这限制了它们从长序列中学习的能力 [1]。这促使了诸如长短期记忆(LSTM:Long Short-Term Memory)单元和门控循环单元(GRUs:Gated Recurrent Units)等高级版本的发展,这些网络融入了门控机制,以改善对长期依赖关系的学习 —— 这一点对于机械设备的可靠故障诊断至关重要。长短期记忆网络和门控循环单元:长短期记忆网络旨在解决循环神经网络的梯度消失问题。它们采用更复杂的单元结构,包含一个记忆单元、输入门、输出门和遗忘门,能够学习并保留输入序列中的长期依赖关系。门控循环单元(GRUs:Gated Recurrent Units)的架构比长短期记忆网络更简单,将输入门和遗忘门合并为一个单一的更新门,并将细胞状态与隐藏状态合并。这使得门控循环单元在计算上更高效,同时保持与长短期记忆网络相近的性能 [307]。双向循环神经网络:双向循环神经网络(BiRNN:Bidirectional RNN)结合了两个信息流向相反的循环神经网络(RNN:Recurrent Neural Network)层,增强了对时间序列的敏感性。它同时考虑过去和未来的数据,这使其在动态机械故障诊断中极具价值 —— 在这类诊断中,捕捉跨时间的信息对于识别故障类型和严重程度至关重要。这种方法显著提高了故障识别效果 [40]。混合方法:此外,混合方法如循环神经网络编解码器(可处理变长序列,将输入编码为嵌入向量并解码为不同长度的输出)[37, 38, 104, 308]、卷积循环神经网络(CRNN:Convolution RNN)模型(卷积神经网络提取空间特征,循环神经网络分析时间依赖关系)[132, 309–311]、隐马尔可夫模型 - 循环神经网络[307] 等,也被应用于机械设备故障诊断(MFD:Machinery Fault Diagnosis)中。在针对往复式压缩机故障诊断的研究 [314] 中,研究人员通过贝叶斯优化对长短期记忆网络模型进行了优化。该方法包括对单个传感器的振动信号数据进行预处理,在保留时间细节的同时降低维度。这一过程结合人工数据增强,提升了长短期记忆网络检测 17 种不同故障状态的能力,其性能优于传统及先进的深度学习技术。研究通过混淆矩阵评估模型的诊断精度,重点关注准确率、精确率、召回率和 F 值等指标。表现最佳的长短期记忆网络模型取得了 93% 的显著平均准确率。同样,研究 [39] 开发了一种基于深度长短期记忆网络(DLSTM:deep LSTM)的方法,用于预测美国国家航空航天局涡扇发动机的剩余使用寿命,该方法利用了 CMAPSS 平台的 FD001 和 FD003 数据集。深度长短期记忆网络模型采用多传感器数据融合、网格搜索优化和 Adam 优化算法,并通过丢弃方法防止过拟合。预处理步骤包括通过指数平滑降噪,以及基于信号相关性和单调性的特征选择,这使得模型在多个性能指标上表现优异,如最低分数、R 值和剩余使用寿命误差范围。此外,研究 [307] 提出了一种基于改进门控循环单元网络的回转支承寿命预测模型,该网络通过飞蛾火焰优化算法进行优化,并与隐马尔可夫模型结合用于早期退化检测。该方法包括使用基于鲁棒局部均值分解的希尔伯特变换进行信号预处理,以及在时域和频域进行特征提取。通过与标准机器学习方法对比验证,该模型在挖掘机回转支承的趋势预测和剩余寿命预测中表现出更高的准确性和鲁棒性,其平均准确率达到 92%。研究 [40] 还采用了一种基于多时间窗口的卷积神经网络 - 双向长短期记忆网络,以解决工业中状态监测数据长度不一致的问题,并利用美国国家航空航天局 C-MAPSS 数据集预测涡扇发动机的剩余使用寿命。该方法的预处理包括特征选择、归一化,以及通过分段线性函数进行标签修正。研究使用不同的时间窗口大小来捕捉多样的时间依赖关系,相比固定窗口方法提升了模型性能。同时,采用加权平均法聚合多个基础模型的结果,优化集成框架的性能。在研究 [315] 中,研究人员开发了一种采用双向卷积长短期记忆网络的深度学习框架,该框架结合了卷积神经网络和长短期记忆网络的优势,用于行星齿轮箱的故障诊断。研究数据来自新南威尔士大学搭建的行星齿轮箱试验台 [316],涵盖了针对不同故障类型和工况的 252 次测试。这些数据被分割为二维矩阵,通过双向卷积长短期记忆网络进行处理。该方法的性能优于卷积长短期记忆网络、卷积神经网络 - 双向长短期记忆网络等基准方法,总体分类准确率达到 84.72%,其中对故障类型和位置的识别准确率为 100%。其他一些在机械设备故障诊断中应用循环神经网络的研究成果列于表 7 中。表7 应用循环神经网络于机械故障诊断的论文 4.2.3 基于自编码器的故障诊断自编码器是一类用于无监督学习的神经网络,由于其能够从数据中提取复杂特征,并且凭借编码器 - 解码器结构可实现异常检测,因此在机械设备故障诊断中扮演着重要角色。基于自编码器的方法易于实现和训练。通过设置隐藏层节点数量少于输入层节点数量,自编码器还可作为一种非线性降维工具,其性能优于核主成分分析。自编码器凭借其编码器 - 解码器结构,在机械设备故障诊断的无监督学习(USL:Unsupervised Learning)中至关重要,该结构在特征提取和异常检测方面效果显著。作为一种非线性降维工具,当自编码器的隐藏层节点数少于输入层节点数时,其性能优于核主成分分析等方法。它能凸显与正常状态的偏差,从而指示故障,并有助于故障类型的分类和部件诊断。自编码器的多种变体进一步增强了其性能,例如稀疏自编码器(SpAE:Sparse AE)、堆叠自编码器(StAE:Stacked AE)、去噪自编码器(DAE:Denoising AE)、变分自编码器(VAE:Variational AE)和收缩自编码器(CAE:Contractive AE),这些变体能够有效处理多模态数据和含噪数据。此外,将卷积神经网络等先进神经模块用于图像数据,将循环神经网络用于时间序列数据,可实现动态表示学习,这使得自编码器成为集成学习中的可靠选择,有助于提升机械设备故障诊断模型的泛化能力 [28]。在机械设备故障诊断中应用的自编码器变体包括:稀疏自编码器:稀疏自编码器对隐藏层的激活施加稀疏性约束,迫使模型学习输入数据的紧凑且稳健的表示。在稀疏自编码器中,正则化项本质上是库尔贝克 - 莱布勒(KL:Kullback–Leibler)散度,它用于衡量隐藏层激活值的分布与预设目标概率分布之间的差异 [29]。部分在研究中使用稀疏自编码器的文献包括 [90,91,126]。去噪自编码器:去噪自编码器旨在实现稳健的特征提取,其训练方式是从被刻意添加人工噪声的输入数据中重构出原始的、未受干扰的数据,从而增强模型对干扰的抵御能力。研究 [126, 318, 319] 在其工作中使用了去噪自编码器。变分自编码器:变分自编码器是一种生成模型,它将推理网络与生成网络相结合,将输入数据映射到一个概率潜在空间。它们将特征提取构建为变分贝叶斯推理问题,通过优化似然函数来有效学习观测数据与潜在表示之间的概率关系。这种方法在潜在空间上施加了结构化的概率模型,其中编码器推断分布参数,从而实现稳健且有意义的特征生成 [28]。研究 [148, 186, 320–322] 在其工作中使用了变分自编码器。收缩自编码器:收缩自编码器在经典的重构损失函数中添加了一个惩罚项,这有助于模型纳入一个正则化项,从而促进输入数据与潜在空间之间的平滑映射。由此产生的模型对输入数据中的微小扰动表现出更强的稳健性,并且能更好地泛化到新的故障模式。研究 [323–326] 是一些在智能系统中采用收缩自编码器进行机械故障诊断的案例。堆叠自编码器:堆叠自编码器通过在损失函数中纳入一个正则化项(特别是雅可比矩阵的弗罗贝尼乌斯范数平方)来增强稳健的特征提取。该术语惩罚对输入变化的敏感性,从而鼓励模型学习从输入到潜在空间的平滑映射,并提高其对新模式的泛化能力,尤其是在存在噪声的情况下。2018 年之前,堆叠自编码器的一般应用得到了广泛研究 [28]。它们已成功应用于机械设备故障诊断,包括但不限于研究 [318, 320, 323]。改进型和混合型自编码器:研究人员提出了各种自编码器的改进版本和混合版本,以改进机械设备故障诊断。例如,将循环神经网络或长短期记忆网络与自编码器结合,以捕捉时间依赖关系。卷积自编码器(ConvAE:Convolutional Autoencoder)利用卷积神经网络(CNNs:Convolutional Neural Networks)处理空间或时间数据,提高了故障检测性能 [317, 327–329]。结合聚类或分类算法的混合方法也增强了故障检测和诊断系统 [330–332]。一些在机械设备故障诊断中应用自编码器的研究成果列于表 8 中。表8 应用自编码器于机械故障诊断的论文 4.2.4 基于深度信念网络的故障诊断深度信念网络由辛顿等人于 2006 年提出 [333],是一种深度学习网络,其结构通过堆叠多层受限玻尔兹曼机(RBMs:Restricted Boltzmann Machines)以分层方式构建而成。深度信念网络的第一层包含一个受限玻尔兹曼机,用于对输入数据进行建模;而后续各层则由受限玻尔兹曼机构成,这些层负责捕捉从上层衍生而来的隐藏表示。这种架构支持无监督预训练,通过对比散度或持久对比散度来初始化网络权重和偏置。这种预训练策略能够减轻过拟合问题,并增强模型对未知数据的泛化能力。受限玻尔兹曼机的主要组成部分包括用于可见单元和隐藏单元的二元随机变量。深度信念网络在从特定数据表示中提取故障特征方面表现出色,其在机械设备故障诊断中的应用正不断增加。研究 [95] 提出了一种基于深度信念网络的轴承故障诊断方法。该方法使用凯斯西储大学轴承数据集的一维输入数据,构建了多个具有不同超参数的深度信念网络,并通过改进的集成方法对其进行整合。这些深度信念网络采用二元单元和高斯单元,通过对比散度进行训练。经交叉验证测试,该方法的准确率高达 96.95%,证明了其在复杂条件下故障诊断的有效性。此外,研究 [335] 提出了一种优化的深度信念网络,该网络采用改进的逻辑 sigmoid 单元,用于风力发电机齿轮箱的故障诊断。研究使用了来自人工设置故障的齿轮箱的振动信号数据集,并采用 Morlet 小波变换、峰度指数和软阈值法进行信号预处理。改进的 sigmoid 单元提高了收敛速度和分类准确率:在 MNIST 数据库、验证数据和齿轮箱故障数据上测试时,该方法的性能优于传统单元,准确率高达 96.32%,且收敛速度快。另外,Yan 等人在研究 [96] 中提出了多尺度级联深度信念网络,用于旋转机械的故障检测,其使用的数据来自凯斯西储大学轴承数据集和华北电力大学齿轮振动数据集的原始振动信号。该方法采用改进的粗粒度多尺度处理和三层深度信念网络进行特征提取,将数据分割和傅里叶频谱计算作为预处理技术,最终获得了超过 99% 的分类准确率。陶等人的另一项研究 [336] 专注于基于深度信念网络(DBN:Deep Belief Network)架构的轴承故障诊断,该架构由多层受限玻尔兹曼机、反向传播神经网络(BPNN:Backpropagation Neural Network)以及多传感器信息融合组成。该方法包括从各种故障轴承中获取多个振动信号,从这些信号中提取时域特征,然后将数据输入深度信念网络以生成用于故障诊断的分类器。实验在 QPZ-II 数据集上进行,并与支持向量机、K 近邻和反向传播神经网络方法进行了对比,结果表明基于深度信念网络的方法对训练样本的识别准确率达到 97.5%,对测试样本的识别准确率达到 95.5%,表现更优。此外,研究 [337] 重点使用了三种不同的架构:深度玻尔兹曼机、深度玻尔兹曼机和堆叠自编码器。该方法通过四种方案对振动信号进行预处理,涵盖时域、频域和时频域。数据集包括从旋转机械系统中收集的七种滚动轴承故障模式。对深度学习网络模型的性能评估以准确率为指标,在最佳设置下准确率超过 99%。除分类任务外,深度信念网络还被用于旋转机械的剩余使用寿命预测。研究 [106] 采用深度信念网络,结合局部线性嵌入(LLE:Local Linear Embedding)和扩散过程,对 FEMTO 数据集的轴承剩余使用寿命进行预测。其中,深度信念网络用于特征提取,局部线性嵌入用于确定健康指标(HI:Health Index)。健康指标基于扩散过程演化,并且根据首达时间推导得到预测剩余使用寿命的概率密度函数。此外,研究 [338] 提出了一种基于无监督学习的旋转机械故障诊断模型,该模型整合了稀疏自编码器(SpAE:Sparse Autoencoder)、深度信念网络和二进制处理器。该方法使用稀疏自编码器对频域信号进行编码,编码后的信号经二进制处理器处理后输入深度信念网络进行故障诊断。整个过程无需带标签的训练数据,因此完全属于无监督学习。研究所用数据集为凯斯西储大学轴承数据集和齿轮点蚀数据集,通过快速傅里叶变换将时域信号转换为归一化的频域信号。在预处理阶段,二进制处理器将稀疏自编码器的输出转换为二进制数据,从而提高深度信念网络中受限玻尔兹曼机的效率。其他一些在机械设备故障诊断中应用深度信念网络的研究成果汇总于表 9 中。表9 应用深度信念网络于机械故障诊断的论文 4.2.4 基于生成式神经网络的故障诊断生成对抗网络(GAN:Generative Adversarial Network)由 [339] 于 2014 年提出,是一种出色的无监督生成算法,能够从随机分布中学习生成逼真的数据。生成对抗网络被公认为 “全球十大突破性技术” 之一 [26],它由一个从随机噪声中生成合成样本的生成器(G:Generator)和一个区分真实样本与合成样本的判别器(D:Discriminator)组成。生成器和判别器均被设计为深度神经网络。生成器通过其参数将潜在变量映射到数据空间;判别器则通过其参数估计样本为真实或伪造的概率。这种结构形成了一个双人极小极大博弈。生成对抗网络已在众多研究领域得到应用,包括自然语言处理、计算机视觉等。在故障诊断领域,它们最初被用于数据增强—— 通过生成符合相同数据分布的额外样本,解决小样本量问题。随后,GANs 被应用于对抗性跨域故障诊断(即对抗性域适应),这与数据增强不同:它利用目标域和源域数据进行对抗性训练,以提取域不变特征。此外,这些算法还被用于半监督学习和异常检测 [121,340]。为解决 GANs 存在的模型崩溃、训练不平衡等局限性,研究者们进行了各种改进和优化,由此产生了不同的 GAN 变体。根据改进方向,这些变体可分为两类:结构导向型改进和损失导向型改进[26]。结构导向型改进:基于结构改进的生成对抗网络可进一步分为三类:基于卷积的生成对抗网络、基于条件的生成对抗网络和半监督生成对抗网络。为解决原始生成对抗网络在特征提取和训练方面的低效问题,深度卷积生成对抗网络(DCGAN:Deep Convolutional GAN)被开发出来 [184]。它在判别器和生成器中采用卷积层和反卷积层,提高了稳定性,并通过权重共享和局部连接增强了性能。另一方面,基于条件的生成对抗网络(包括条件生成对抗网络(CGAN:Conditional GAN)[181]、信息生成对抗网络[341] 和辅助分类器生成对抗网络(ACGAN:Auxiliary Classifier GAN)[342])解决了标准生成对抗网络的模式崩溃问题。条件生成对抗网络利用类别信息进行引导生成;信息生成对抗网络采用潜在编码和额外的分类器来增强输入与输出的相关性;辅助分类器生成对抗网络集成了一个辅助网络,用于故障分类以及区分真实数据与合成数据。此外,半监督生成对抗网络(SSGAN:Semi-Supervised GAN)在低标签数据场景中能高效利用未标记数据。它在判别器中配备了一个 softmax 分类器,用于区分真实输入与合成输入,并对真实样本进行分类,从而实现半监督学习(USL:Unsupervised Learning)[341]。损失导向型改进:损失导向型生成对抗网络的开发旨在稳定训练过程,并解决标准生成对抗网络中存在的梯度不稳定、模式崩溃等问题。瓦瑟斯坦生成对抗网络(WGAN:Wasserstein GAN)[343] 采用瓦瑟斯坦距离来更稳定地度量真实样本与伪造样本之间的差异,不过其性能受到权重裁剪的限制。带梯度惩罚的瓦瑟斯坦生成对抗网络[185] 通过添加梯度惩罚进一步优化,以解决这些局限性。毛等人提出的最小二乘生成对抗网络(LSGAN:Least Squares GAN)[344] 采用最小二乘损失函数,根据样本与决策边界的接近程度对其进行惩罚,从而稳定训练过程。此外,基于能量的生成对抗网络(EBGAN:Energy-Based GAN)[345] 和边界平衡生成对抗网络(BEGAN:Boundary Equilibrium GAN)[346] 分别在其判别器中创新性地引入了自编码器和编码器 - 解码器结构,其中后者还包含一种平衡强制算法。这些变体通过聚焦于损失函数和训练策略的修改,共同优化了标准生成对抗网络框架,以解决特定的挑战。生成对抗网络在机械设备故障诊断中的应用(亦汇总于表 10 中)可分为以下几类:表10 生成对抗网络在机械故障诊断中的应用 数据增强与平衡:基于生成对抗网络(GANs)的数据增强和类别平衡技术的最新进展,有助于解决故障诊断中的小样本和数据不平衡问题。在数据增强方面,标准流程是收集各类故障状态数据,用真实样本训练生成对抗网络,然后将生成的合成样本与真实数据结合起来训练分类器。生成对抗网络主要用于机械故障诊断,尤其适用于处理传感器采集的振动信号,能从有限数据中生成伪样本。这些方法可分为针对一维时域、一维频域、二维图像信号以及一维特征集生成合成数据的类型 [26, 347]。异常检测:在基于生成对抗网络的机械设备故障诊断中,异常检测正变得日益重要,尤其是在仅能获取正常运行数据的情况下。该方法通过对正常样本的学习来划定区分正常状态与故障状态的边界。现代方法借助对抗性学习改进这一过程,摆脱了对人工生成特征的依赖。其核心思想是利用生成对抗网络生成合成样本,然后通过这些样本与原始正常样本之间的重构损失来检测异常。这种方法不仅在故障诊断领域得到认可,还在其他需要高效且可靠异常检测的领域中得到应用 [130, 340]。半监督对抗学习:在标记数据稀缺的情况下,半监督学习被用于利用未标记数据进行模型训练。这种方法将未标记数据与对抗策略相结合,以增强训练效果 [65, 121]。用于迁移学习的对抗训练:对抗训练被应用于迁移学习,即所谓的对抗性域适应(ADA:Adversarial Domain Adaptation),它利用源域数据来补充有限的目标域数据。对抗性域适应模型分为两类:一类是对抗性判别模型,其生成用于故障分类的域不变特征;另一类是对抗性生成模型,其通过学习数据分布或在域间转换数据来促进域适应 [67, 68]。4.3 基于强化学习的故障诊断 强化学习是机器学习的一个子领域,它是一种计算技术,专注于训练智能体在环境中通过与环境交互,并从获得的奖励或惩罚反馈中学习,从而做出决策。强化学习起源于两个主要研究领域:第一个是通过利用价值函数和动态规划实现的最优控制;第二个则从动物心理学中汲取灵感,尤其是试错搜索的概念 [363]。在连接主义背景下,强化学习与监督学习(SL:Supervised Learning)存在明显区别 [364]。在强化学习中,从环境中接收到的反馈信号是用于评估行动的有效性,而非指导系统如何产生正确的行动 [149]。强化学习智能体的主要目标是学习一种最优策略,该策略能将状态映射到行动,以最大化长期的预期累积奖励。这一学习过程可通过多种算法实现,例如 Q 学习、深度 Q 网络(DQN:Deep Q-Networks)、近端策略优化(PPO:Proximal Policy Optimization)、演员 - 评论家方法(Actor-Critic methods)等 [365]。近年来,将强化学习应用于机械故障检测、诊断、分类及剩余使用寿命预测的研究兴趣日益浓厚。强化学习已在多个领域得到应用,包括输电线路故障诊断 [366]、智能电网运行优化 [367]、液压机故障检测 [368]、工业过程控制 [363] 等。此外,强化学习的应用场景可分为离线和在线两种。在离线场景中,研究人员已探索了强化学习在制造业中的应用,相关研究 [369, 370] 便是例证。离线强化学习通常涉及基于历史数据训练模型,以进行预测和决策 [371]。另一方面,强化学习也适用于在线场景,在该场景下,它能实时运行以快速识别故障并采取纠正措施。强化学习在在线场景中的应用是一个动态且不断发展的领域,研究 [117, 372] 对此方面进行了探讨。在机械故障检测中选择离线还是在线强化学习,取决于多种因素,如机械的特性、实时数据的可用性以及期望的响应时间。这两种方法都为该领域做出了重要贡献,并且在不断发展,旨在改进工业流程、提高设备可靠性、减少停机时间,最终提升机械运行的整体效率和安全性。在机械故障检测、诊断与分类中应用强化学习,涉及训练强化学习智能体基于观测数据(如振动信号、声发射信号或热成像图像)做出决策。强化学习智能体可通过与数据交互,并接收奖励或惩罚形式的反馈,来学习识别不同的故障状态。在大多数机械设备故障诊断研究中,故障诊断被视为一种类似猜谜游戏的分类任务。研究人员构建了一个类似 “故障诊断游戏” 的模拟环境:向智能体呈现带有故障样本和标签的问题,智能体需要对这些故障进行诊断。在 K 类故障诊断场景中,猜测动作空间的范围是 0 到 K-1,其中 0 表示正常状态,k 表示第 k 种故障类型。智能体猜对会获得奖励,猜错则会受到惩罚。通过多轮这种猜谜游戏,智能体旨在利用监测设备的传感器数据,学习出用于故障识别的最优策略。研究 [70] 中也采用了类似的方法,研究者将强化学习方法用于旋转机械的智能故障诊断。该研究中,智能体基于堆叠自编码器构建,通过深度 Q 网络学习故障诊断。这种方法结合了强化学习和深度学习,实现了机械的端到端故障诊断 —— 其中,经验回放和奖励机制帮助智能体在极少外部指导的情况下,从原始振动信号中学习故障映射关系。除分类任务外,研究 [74] 中提出了一种基于强化学习的自动神经架构搜索(NAS:Neural Architecture Search)方法。该研究在生成器网络中采用了一种名为 Nascell 的特殊循环神经网络单元,并构建了由两个堆叠的 Nascell 单元组成的控制器层。控制器输出用于构建卷积神经网络(CNN:Convolutional Neural Network)架构的参数,包括每一层的卷积核大小、核数量和池化大小。整个过程包括迭代生成网络配置、训练子模型,并通过策略梯度更新以最大化模型准确率(作为奖励)。这种迭代过程持续进行,直到搜索收敛到最优架构,期间偶尔会注入随机性以避免陷入局部最优。简而言之,控制器充当智能体,塑造卷积神经网络架构,而强化学习则用于在架构搜索空间中寻找性能更优的模型。此外,研究 [159] 中采用了多标签迁移强化学习(ML-TRL:Multi-label Transfer Reinforcement Learning)用于轴承的复合故障诊断。该方法结合深度强化学习(DRL:Deep Reinforcement Learning)和迁移学习,以增强故障特征提取并提高复合故障识别的准确率。多标签迁移强化学习的性能优于传统方法,其对迁移学习的运用包括对卷积层进行预训练,从而降低了深度强化学习的训练复杂度。类似地,研究 [72] 采用了一种结合强化学习和神经架构搜索的自动化方法来设计故障诊断模型。其中值得关注的优化包括:采用贪婪策略防止陷入局部最优,利用经验回放平滑学习过程,以及通过权重共享降低计算需求。此外,研究 [149] 中采用了基于深度 Q 网络的强化学习框架,用于优化带通滤波器的上下截止频率,以实现旋转机械信号的故障诊断。带通滤波器充当智能体,其状态由这些频率定义。智能体与信号环境交互,根据其突出故障特征频率的效果获得奖励信号,目标是最大化该奖励。深度 Q 网络算法通过迭代优化频段,找到用于故障识别的最佳范围。在齿轮和轴承故障信号上的实验结果表明,这种基于深度强化学习的方法在识别故障相关频率方面,性能优于快速峭度图、基尼指数图等传统技术。研究 [117] 专注于开发一种用于机械故障诊断的在线域适应学习方法,该方法通过胶囊网络(Cap-net:Capsule Network)作为智能体,自主从在线数据中提取故障特征。研究设计了基于粗粒度相似度(CS:Coarse-grained Similarity)的特征字典,用于标记在线数据,并采用基于粗粒度相似度的奖励机制来评估粗粒度标签。该方法的流程包括:初始化胶囊网络,利用在线数据响应和奖励更新网络,以及结合历史数据对网络进行微调。目标网络和评估网络会迭代更新,同时采用自修剪机制优化在线特征字典。其他一些在机械设备故障诊断中应用强化学习的研究成果列于表 11 中。表11 应用强化学习于机械故障诊断的论文 4.4 基于迁移学习的故障诊断 迁移学习是机器学习中一种极具前景的范式,它解决了深度学习在实际应用中的局限性,尤其是在处理数据有限以及训练数据集与测试数据集存在分布差异的情况时 [21]。深度学习模型通常需要大量带标签的数据才能表现良好,但在工业场景中,收集此类数据(尤其是故障数据)往往耗时且困难,因此这一要求在实际中常常难以满足。迁移学习通过从相关但不同的领域迁移知识,来提升模型在新任务中的性能,从而缓解数据稀缺问题并降低计算需求 [373]。借助从相关领域获取的知识,迁移学习不仅能在有限数据下增强学习效果,还能确保对复杂数据集的稳健泛化和有效特征提取。这使得迁移学习成为传统机器学习方法可能难以应对的应用场景中的宝贵工具。在机械设备故障诊断中,迁移学习的应用十分广泛。在本综述中,我们将其应用分为以下两类: 4.4.1 直接迁移直接迁移方法是指利用在一个数据集(源域)上训练好的预训练模型,将其应用于另一个数据集(目标域),且几乎不进行额外训练或仅进行少量训练。这种方法在目标域数据稀缺时尤为实用,因为它能让模型利用从相似但不同条件中学习到的模式和特征。该方法的效果取决于源域与目标域之间的相似性:域的相似度越高,模型性能越好。如果两个域差异较大,可能需要进行微调,但直接迁移方法仍能有效解决带标签数据稀缺的问题。例如,在凯斯西储大学轴承等大型带标签数据集上预训练的模型,可应用于数据稀疏或运行条件不同的目标域。通过准确率、精确率等指标评估模型性能,必要时进行微调,以确保其良好适应新域。研究 [46-48, 114, 374-376] 是一些在机械设备故障诊断(MFD)中采用预训练模型的案例。4.4.2 领域适配近年来,域适应方法在机械设备故障诊断中得到了广泛应用,尤其适用于源域与目标域存在差异的场景。与直接迁移方法不同 —— 后者可能因域偏移导致性能显著下降,域适应方法通过专注于减小域间的分布差异来缓解这些问题。域适应放宽了传统假设中对训练数据和测试数据必须满足独立同分布的要求。通过利用不同但相关域之间的不变特征和核心结构,域适应方法能有效应对域偏移、目标域小样本量、数据集不平衡等挑战 [21, 373]。在这种方法中,会将先前训练好的模型适配到新的但相关的域,以最小化域间差异。深度迁移学习中使用的域适应方法可细分为三类:基于差异的方法、基于对抗的方法和基于重构的方法,下文将对其进行简要介绍。[A.] 基于差异的方法:基于差异的域适应(DA)方法旨在通过减小神经网络特征层中的差异,来降低源域与目标域之间的差异。该方法主要侧重于对齐两个域的特征分布,使模型能够有效地泛化到目标域。在基于差异的域适应中,核心思想是通过对模型的特征层应用统计方法,来度量并减小源域与目标域之间的距离 [373, 377]。统计变换、结构优化和几何变换是域适应中最小化源域与目标域差异的关键策略。通过调整特征分布的统计特性(如均值和方差),最大均值差异(MMD:Maximum Mean Discrepancy)和相关对齐(CORAL:Correlation Alignment)等技术能够减小域间差异。结构优化涉及修改模型架构或添加层以增强域对齐。此外,几何变换对特征空间的几何属性进行对齐,确保源域与目标域之间的一致性,从而进一步减小差异。研究 [49, 50, 55, 57] 在其工作中应用了基于差异的域适应方法。[B.] 基于对抗的方法:基于对抗的域适应方法通过域判别器促进域混淆,并学习源域与目标域之间的不变特征。受生成对抗网络中双人博弈思想的启发,该方法由相互竞争的生成器和判别器组成 —— 生成器试图生成与目标域高度相似的数据,而判别器则尝试区分源域数据和生成的数据。在对抗训练过程中,生成器努力迷惑判别器,从而实现更好的域对齐。这些方法分为两类:带额外生成器的生成对抗域适应和不带额外生成器的非生成对抗域适应(non-GADA:non-generative adversarial DA)。生成对抗域适应利用生成器生成类似目标域的数据样本,通过耦合生成对抗网络和对抗性判别域适应(ADDA:Adversarial Discriminative Domain Adaptation)等方法中的变换辅助域对齐。而非生成对抗域适应则不生成新样本,而是将生成器作为特征提取器以最大化域混淆,从而实现域对齐。其采用基于瓦瑟斯坦距离的优化、课程学习和域对称网络等技术来减小域偏移。尽管基于对抗的域适应方法具有样本多样性高、理论上与目标数据接近等优势,但由于难以达到纳什均衡,其面临训练稳定性的挑战 [24, 373]。研究 [51, 52, 157, 378-381] 在其工作中应用了基于对抗的域适应方法。[C.] 基于重构的方法:基于重构的领域自适应方法致力于通过对源域和目标域的数据进行重构来减小领域差异,在捕捉域间共性的同时确保域内的区分性。这些方法通常采用编码 - 解码框架,即先将数据编码为特征表示,再解码回原始输入,从而构建一个用于对齐的共享域空间。通过共享编码器,模型能够学习到领域不变特征,同时保留领域特定特征。自编码器和 KL 散度等技术可增强领域对齐效果,例如领域分离网络会将领域不变特征和领域特定特征分离开来,以防止负迁移。将自编码器与生成对抗网络相结合的混合模型通过融入循环一致性损失等任务进一步提升性能,这在无监督场景中尤为实用。尽管具有这些优势,但该方法仍面临一些挑战,如难以平衡生成样本的真实性和多样性,以及参数更新的复杂性问题,这使得基于重构的领域自适应成为一种强大但复杂的领域对齐方法 [21,373]。研究 [53,125,152,382] 在其工作中应用了基于重构的技术。4.4.3 多领域适配多源域适应(MDA:Multi-source Domain Adaptation)利用来自多个具有不同分布的源域的数据,以提升模型在目标域上的性能。与传统的单域适应不同,多源域适应通过对齐多个域的特征来应对信息冲突问题,从而增强模型的泛化能力。其主要方法包括:用于压缩和共享参数的残差自适应模块、用于寻找共性的潜在域发现,以及用于选择最相关源数据的域加权。结合生成对抗网络(GANs)的对抗训练通过最小化域间分布差异,进一步强化了多源域适应的效果。尽管多源域适应颇具成效,但在自动选择和对齐最相关数据方面仍面临挑战,这使其成为故障诊断领域持续研究的焦点 [2, 373]。4.4.4 部分迁移学习部分迁移学习是一种专门的方法,其中仅源域中的一部分特征或任务与目标域相关 [21]。在机械设备故障诊断(MFD)场景中,这意味着有选择地迁移与特定故障或运行条件相关的知识,而非应用来自源域的整个模型。当目标域的范围较窄,或者源域包含冗余或无关信息时,这种方法尤为实用。通过仅聚焦于最相关的数据,部分迁移学习可最大限度地降低负迁移风险(即无关知识可能导致模型性能下降的风险),并确保迁移的信息能提升目标模型的准确性和有效性。然而,识别相关的子集需要细致的分析和领域专业知识,这使其成为成功故障诊断中一个具有挑战性但至关重要的方面 [382]。在概述了迁移学习的相关概念后,这些方法已被越来越多地应用于解决机械设备故障诊断中的实际挑战。郭等人 [99] 通过采用深度卷积迁移学习网络,解决了带标签数据有限以及训练 / 测试分布存在差异的问题。该网络包含两个模块:状态识别模块和域适应模块。状态识别模块利用一维卷积神经网络从原始振动信号中自动提取特征,并对机器健康状态进行分类。域适应模块通过整合域分类器和分布差异度量进一步增强一维卷积神经网络的性能,使模型能够学习域不变特征。这种设置在最大化域分类误差的同时,最小化源域与目标域之间的概率分布距离。通过在三个不同的轴承数据集上进行六项迁移故障诊断实验,该方法得到了验证,结果显示其故障诊断准确率较传统方法有显著提升。类似地,魏等人 [136] 的研究提出了一种针对清华大学行星齿轮箱数据集和 UA-FS 齿轮箱数据集的机械故障诊断方法。该方法利用原始振动信号和加权域适应网络,通过根据工况与目标工况的相似度为其分配权重,来解决因工况变化导致的数据分布偏移问题。研究以分类准确率和最大均值差异为指标,验证了诊断准确率的提升,强调了在变工况下域适应的重要性。另一项研究 [80] 提出了基于小波包变换(WPT:Wavelet Packet Transform)的深度特征迁移学习方法,用于不同工况下的轴承故障诊断。该方法结合了小波包变换(用于构建时频特征图)、深度残差网络(用于特征提取)和多核最大均值差异(用于评估跨域特征的分布差异)。在凯斯西储大学轴承数据集和 MFS-RDS(转子动力学模拟器)数据集上进行的研究显示,在 CWRU 数据集上的平均准确率为 88.59%,而在 MFS-RDS 数据集上的平均准确率为 97.14%。关于多源域适应,Rezaeianjouybari 等人 [68] 的研究指出了以往依赖单一源域且忽略工况变化的模型存在的局限性,并提出了特征级和任务特定分布对齐多源域适应(FTD-MSDA:Feature-level and Task-specific Distribution Alignment Multi-source Domain Adaptation)模型,以解决智能故障诊断系统中的域偏移挑战。在 CWRU 和 PU 轴承数据集上进行的实验表明,FTD-MSDA 模型框架在特征级和任务级对域进行对齐,使用切片瓦瑟斯坦差异来塑造任务特定的决策边界,并成功地将知识从多个带标签的源域迁移到单个无标签的目标域。此外,钱等人 [383] 的研究引入了一种名为自适应中间类别分布对齐的迁移学习方法,针对风力发电机行星齿轮箱的故障诊断,解决了域适应中收敛缓慢和损失振荡的问题。所提出的模型结合了域适应和泛化,利用自适应中间分布机制以及 AdaSoftmax 损失,动态对齐源域和目标域的分布,无需额外的分布距离损失或相关性正则化损失。还有一项研究 [384] 开发了方差差异表示方法,以增强旋转机械故障诊断中的域适应。在三个轴承数据集上的实验结果表明,该方法通过关注方差而非均值,改进了分布差异的表示,更准确地反映了源域与目标域之间的差异。其他一些应用迁移学习的研究成果列于表 12 中。表12 应用迁移学习于机械故障诊断的论文 4.5 其他方法 4.5.1 机械故障诊断作为异常检测在机械设备故障诊断领域,带标签的故障数据匮乏是一项挑战,无监督 / 半监督异常检测技术在识别传统监督方法无法捕捉的故障模式和潜在异常方面发挥着重要作用。这些数据驱动的方法侧重于检测离群值或异常值(即与大多数正常数据样本存在显著偏差的数据点)[390]。多种经典的无监督方法被用于识别数据集中的异常,其中包括:Z 分数,用于衡量某个数据点与均值之间相差多少个标准差;四分位距,通过考虑数据的第一四分位数和第三四分位数之间的范围来识别离群值;孤立森林(iF:Isolation Forest),这是一种基于树的算法,通过构建孤立树并测量隔离某个数据点所需的分裂次数来孤立异常值;局部离群因子(LOF:Local Outlier Factor),用于衡量某个数据点相对于其邻域数据点的局部密度偏差;单类支持向量机,它学习正常数据样本周围的边界,并将该边界之外的所有数据都归类为异常值,等等。除了这些浅层学习算法之外,基于深度学习的方法,如自编码器、变分自编码器和生成对抗网络,也以不同方式应用于异常检测,例如作为特征提取器、从正常数据中学习表示的学习器以及端到端的异常分数学习器。更多细节可参见文献 [390]。研究 [391] 提出了一种基于全图动态自编码器(FGDAE:Full Graph Dynamic AE)的异常检测方法,该方法旨在复杂多变的条件下有效运行。FGDAE 模型整合了全连接图(用于捕捉传感器通道间的全局结构关系)、图自适应自编码器(用于聚合多视角特征并适应运行条件变化)以及动态权重优化策略(用于处理不平衡多条件数据的训练)。类似地,研究 [130] 提出了故障注意力生成概率对抗自编码器(FGPAA:Fault-attention Generative Probabilistic Adversarial AE)方法,用于三个机械故障数据集的异常检测,该方法仅聚焦于健康类别。FGPAA 方法利用双对抗自编码器,采用故障注意力概率分布来有效评估机械的健康状态,能够动态适应信号噪声并实时进行异常检测。此外,研究 [392] 提出了一种用于船舶机械故障诊断的实时异常检测方法。作者开发了一个名为 RADIS 的框架,该框架基于长短期记忆网络的变分自编码器,并结合了多级大津图像阈值分割技术。还有研究 [358] 提出了一种基于生成对抗网络的异常检测方法,其中生成器采用编码器 - 解码器 - 编码器架构,仅对正常样本进行训练。通过潜在损失和表观损失来计算异常分数。4.5.2. 基于Transformer架构的故障诊断技术 Transformer 最初由 Vaswani 等人 [393] 提出,它彻底改变了自然语言处理领域,并已成功应用于计算机视觉等其他领域。这类模型的特点是包含多层 Transformer 块,这些块具有多头自注意力机制和批归一化功能,能够高效处理任务,无需像卷积神经网络或循环神经网络那样进行复杂运算,且性能往往优于它们。近年来,Transformer 架构在机械设备故障诊断中也得到了应用。研究 [79] 引入了一种时间序列 Transformer(TST:Time-Series Transformer)模型,用于直接处理一维原始振动数据,无需任何信号预处理。TST 利用多头自注意力机制和 Transformer 块从轴承和齿轮故障中提取特征。在凯斯西储大学、西安交通大学和伦敦大学学院数据集上的评估显示出令人瞩目的准确率,例如,在 CWRU 数据集上为 98.63%,在 XJTU 数据集上为 99.78%,在 UoC 数据集上为 99.51%。通过 t 分布随机邻域嵌入可视化可以看出,TST 的特征向量具有更优的类内紧凑性和类间分离性。类似地,研究 [78] 提出了一种基于窗口的多头自注意力模型,采用了三个数据集:CWRU 数据集、UoC 数据集和山东大学数据集。数据预处理包括 1024 个样本长度和数据集划分。该模型将自注意力机制与卷积神经网络相结合,采用基于一维窗口的多头自注意力进行局部特征学习。结果表明,该模型具有优异的分类性能,在无噪声条件下准确率接近 99.99%,且在添加噪声(信噪比从 - 6 分贝到 6 分贝)的情况下仍能保持稳健性。此外,Wu 等人的一篇论文介绍了一种基于 Transformer 的机械故障分类器 [394]。作者采用连续小波变换从原始数据生成时频谱图作为输入,并运用基于马氏距离的技术来识别先前未见过的故障。 4.5.3. 物理信息神经网络(PINN) 物理信息神经网络是机器学习中的一种创新方法,它将物理定律融入神经网络结构中。这种整合提升了预测的准确性和可解释性。在机械设备故障诊断领域,物理信息神经网络通过实现对机械系统故障的精确识别与分析,带来了显著的进展。研究 [395] 采用了物理信息神经网络,通过应用物理信息损失函数,增强了模型在轴向柱塞泵故障严重程度识别中的可解释性。该研究利用高采样率收集轴向柱塞泵的数据,使用低通滤波器分离相关频率,识别出四个严重程度等级的活塞磨损。所提出的物理信息神经网络模型通过估计与泵健康指标相关的间隙,准确识别了磨损状态。类似地,研究 [396] 中,研究者对风力发电机主轴承的早期疲劳进行了研究,并旨在利用物理信息神经网络方法预测这些轴承的剩余使用寿命。该模型利用 1.5 兆瓦风力发电机的风速、轴承温度、润滑脂分析等数据,评估轴承疲劳和润滑脂退化情况。此外,Ni 等人 [397] 利用传动系统诊断模拟器的滚动轴承数据集,实现了一种用于故障诊断的物理信息残差网络。该网络具有以下特点:包含一个模态特性主导层,通过倒频谱指数滤波突出系统特性;一个域转换层,利用计算阶次跟踪处理转速变化问题;以及一个并行双通道架构,用于提取复杂的故障特征。这使得该网络在变工况下的诊断准确率得到了提升。 4.5.4. 联邦学习 联邦学习引入了一种去中心化的模型训练方法,尤其适用于边缘学习环境 —— 在这类环境中,数据分布在多个设备上。它通过利用本地数据进行迭代更新来训练共享模型,避免了敏感信息的集中化。这种技术在促进协作训练的同时,能保护数据隐私并减少通信开销。联邦学习已被广泛应用于边缘机器学习模型,并成功用于网络攻击检测、垃圾邮件检测、智慧城市、自动驾驶等领域,近年来也应用于机械故障诊断,其主要目的是维护隐私 [398]。研究 [399] 中,研究者实现了一种基于联邦学习的混合故障检测方法,尤其聚焦于转子和轴承的故障检测。输入方法采用从加速度计收集的一维时间序列数据,数据集包含 48 个混合故障类别,共 92,160 个数据点。该方法包括一种使用双联分类器的联邦学习方案,数据在 30 个客户端之间按三种分区方案分布:平衡独立同分布、平衡非独立同分布和非平衡非独立同分布。预处理包括数据洗牌和分区。基于卷积神经网络训练的联邦学习模型在混合故障分类中达到了 90% 以上的准确率。另一项研究 [400] 致力于利用联邦学习改进滚动轴承的故障诊断。该研究使用凯斯西储大学基准数据集和蔚来汽车公司的项目数据集,旨在解决联邦学习中的客户端异质性问题(与样本量、质量和故障类型相关)。所提出的方法是一种多尺度逐层递归融合联邦学习方法(LLRFed:Layer-by-Layer Recursive Fusion Federated Learning)。数据通过滑动窗口进行预处理,并输入到带有快速傅里叶变换的深度神经网络中。研究表明,LLRFed 方法在基准数据集上显著提高了诊断准确率,提升幅度达 9.23%。类似地,研究 [401] 提出了一种用于高速和铁路系统中铁路转辙机的故障诊断方法,该方法使用时序异步联邦学习框架对这些机器在各种故障条件下的振动信号进行分析。数据集包括 16 种工况下的 960 个振动信号样本,每种工况 60 个样本,通过裁剪和零填充进行预处理,以确保统一的 10 秒向量长度。研究采用深度收缩全卷积网络作为全局模型,与之前的模型相比,参数减少了四分之一,从而减少了通信开销和数据包丢失。数据按 8:2 的比例分为训练集和测试集,标签采用独热编码。此外,Yang 等人 [402] 的研究采用联邦学习方法对轴承、机器人等工业机器进行迁移诊断。他们提出的基于分布重心介质的迁移学习架构整合了联邦学习框架与服务器 - 客户端架构,以解决数据去中心化的挑战 —— 由于隐私问题和高昂的传输成本,不同域的数据无法集中聚合。客户端构建基于残差网络的诊断模型,从本地数据中提取高级特征;服务器则实现基于堆叠自编码器的生成器模型,通过聚合特定域的分布参数生成分布重心介质。该方法利用不同健康状态下的振动数据平衡样本,通过生成的介质样本适配边缘分布和条件分布,并通过客户端与服务器之间的协作训练动态更新分布重心介质。研究 [403] 还提出了一种基于区块链的去中心化协作学习方法用于机器故障诊断。该方法使用来自两个数据集(高速列车转向架数据集和轴裂纹故障数据集)的一维机械数据,在一个结合了基于区块链的联邦学习和源数据独立迁移学习的框架中使用深度卷积神经网络进行分析,其中预处理技术包括使用频域信息。该方法的测试准确率达到了 90% 以上。另外,文章 [404] 介绍了一种异构联邦域泛化网络,该网络融合了公共表示学习,以解决故障诊断(FD)中的域偏移和隐私保护挑战。通过利用异构源客户端实现跨不同和未见过的目标客户端的泛化故障诊断,所提出的联邦迁移学习方法克服了传统方法的局限性 —— 传统方法依赖客户端之间的同质性,且在训练期间需要目标域数据。该模型使用解耦域适应基础模型,旨在最小化噪声影响并增强域混淆,从而改进故障相关特征的提取。其次,将数字孪生作为补充数据源,解决了从实际机器获取标注训练数据集的现实难题。基于目标机器未知新工况对数字孪生参数的持续调优,可确保生成数据与真实系统的几何特征及新工况保持一致。第三,域泛化网络混合模型(DGNM)的集成通过多域数据增强、对抗学习和域间差异度量,在保留域特有特征的同时提升了特征多样性,弥补了现有域泛化方法的不足。我们在三个旋转机械数据集上对系统进行了评估,结果表明,在跨工况和跨机器任务中,该系统性能优于现有前沿方法。因此,本研究证明了该系统在处理动态工业机械环境复杂性方面的有效性,为下一代信息物理系统中自主故障诊断系统的未来研究铺平了道路。未来工作中,我们将重点探索在源域与目标域存在类别偏移场景下提升诊断模型性能的方法。 注:第三次推文将分析 MFD 多方面挑战,如数据、旋转机械、现有方法、算法等层面问题;为未来研究者提供 machinery、算法开发等多维度建议;指出 MFD 未来前景,如提升鲁棒性、整合模型等以推动故障检测发展。 编辑:赵栓栓校核:李正平、陈凯歌、曹希铭、赵学功、白亮、任超、海洋、陈宇航、陈莹洁、Tina、王金、赵诚、肖鑫鑫该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈