本期给大家推荐清华大学何潇教授团队的一篇最新关于多工况故障诊断的综述。
论文链接:通过点击最左下角的阅读原文进行在线阅读及下载。
论文题目:Multi-Condition Fault Diagnosis of Dynamic Systems: A Survey, Insights, and Prospects
(a) Department of Automation, Tsinghua University
(b) Institute for Automatic Control and Complex Systems, University of Duisburg-Essen
(c) School of Automation, Southeast University
作者简介:
何潇,清华大学自动化系教授、清华大学安全控制技术研究中心主任、清华大学轨道交通智能控制与决策创新团队负责人及首席科学家、中国自动化学会理事会副秘书长,曾任清华大学自动化系副主任。研究方向为网络化系统、故障诊断与容错控制。在国内外期刊会议上发表论文200余篇。主持国家自然科学基金重点项目1项、面上项目2项,2015年获得国家自然科学基金优秀青年基金资助。现任中国自动化学会高级会员、IEEE Senior Member、美国Sigma Xi荣誉研究会Full Member,并任Control Engineering Practice、IEEE TNNLS、IEEE TASE等多个国际期刊的编委。目前为中国指挥与控制学会云控制与决策专业委员会副主任、智能控制与系统专业委员会副主任、中国自动化学会技术过程的故障诊断与安全性专业委员会秘书长、过程控制专委会副主任。曾获2012年SAFEPROCESS国际会议的Frank最佳理论论文提名奖、2023年北京市自然科学二等奖、2021年方崇智最佳论文一等奖、2022年张钟俊院士优秀论文奖,并获2018年吉林省科技进步一等奖、2015年与2020年中国自动化学会自然科学奖一等奖、2022年中国自动化学会技术发明一等奖。培养学生获得2018年和2022年中国自动化学会优秀博士学位论文
周东华,东南大学教授、博导,智能无人系统研究院首席科学家,矿山安全检测技术与自动化装备国家地方联合工程研究中心主任。上海交通大学博士、浙江大学博士后。曾任清华大学自动化系主任,山东科技大学副校长,教育部高等学校自动化类专业教指委主任,第六、七届国务院控制科学与工程学科评议组成员,第三、四、五届中国自动化学会故障诊断与安全性专委会主任。为国家杰青、长江学者特聘教授、“万人计划”领军人才、国家基金委创新研究群体带头人、全国高校黄大年式教师团队负责人,享受国务院政府特殊津贴。兼任IFAC 技术过程故障诊断与安全性技术委员会委员、中国自动化学会副理事长等。主要研究动态系统故障诊断与容错控制、运行安全性评估理论等。以第一完成人获国家级奖励3项(含国家自然科学二等奖2项、国家级教学成果二等奖1项)、省部级和全国学会科技一等奖5项。曾获霍英东教育基金会青年教师奖、全国优秀博士后奖、第六届中国青年科技奖、国家新世纪百千万人才、全国优秀科技工作者等荣誉称号。为山东省泰山学者优势特色学科人才团队领军人才、山东省泰山学者攀登计划专家。入选全球高被引科学家、全球前2 %顶尖科学家名录,当选IEEE/ AAIA/ IET/ CAA Fellow。
Steven X. Ding,德国杜伊斯堡-艾森大学终身教授,自动控制与复杂系统研究所(AKS)所长。 Steven X. Ding 1992年于德国 Gerhard-Mercator University 获电子工程专业博士学位,1995年被德国劳西茨应用技术大学聘为终身教授,并于1998年—2000年任该校副校长。2001年起任杜伊斯堡-艾森大学教授。Steven X. Ding 教授是国际控制领域过程监测与故障诊断的知名学者和专家,他领导的故障诊断与容错控制团队在国际上享有很高的声誉。他的主要研究方向涉及基于模型/数据驱动的故障诊断与容错控制、过程监测、网络化系统的集成分析与设计、实时控制以及它们在自动控制系统、化工过程和可再生能源系统中的应用等。他曾承担多项德国基金会科学研究项目、欧盟项目、国际合作项目和工业合作项目,并出版了三本英文专著,在国际重要期刊和国际会议上发表学术论文300余篇。
随着工业生产系统日趋复杂,如何实现精准的故障诊断,已成为保障系统安全稳定运行的关键。然而在实际应用中,受生产任务变动、工艺动态调整以及外部环境扰动等多种因素影响,系统往往会处于多种不同的运行工况下。这种多工况特性给传统的故障诊断方法带来了严峻挑战,也推动了多工况故障诊断成为当前学术界和工业界关注的研究重点。本文围绕这一热点问题,对多工况故障诊断领域的研究成果进行了系统梳理与深入分析。首先,文章从数学层面对多工况问题进行了清晰定义,并概述了当前的研究现状;随后,围绕主流的单模型与多模型多工况故障诊断方法,对现有文献进行了分类整理与比较分析;在此基础上,总结了多工况诊断在典型实际场景中的应用现状与实践经验;最后,针对当前面临的核心难题,提出了若干值得关注的发展趋势与研究方向。
随着自动化的不断推进,工业生产系统的规模和复杂度也在稳步提升。现代工业系统通常由多个相互连接的子系统组成,在高度自动化的环境下运行,对系统的稳定性和可靠性提出了更严格的要求。此类系统中的故障会显著降低生产效率,扰乱正常的生产计划,造成巨大的经济损失甚至人员伤亡。在此背景下,开发高效而准确的故障诊断方法变得至关重要。准确的故障诊断不仅有助于及时发现并定位系统异常,还能防止次生危害,从而在提升系统可靠性的同时降低运维成本。因此,故障诊断近些年已成为研究热点。
故障诊断方法通常分为模型驱动方法(Ding等人,2008;Zhong等人,2023)和数据驱动方法(Fan,2024)。模型驱动方法依赖于构建系统的精确数学模型。通过对物理系统和其数学模型施加相同的控制信号,生成残差信号,并利用评估与分类函数对其进行分析,以实现故障的检测与隔离。然而,随着现代工业设备的复杂性不断增加,构建精确数学模型变得愈发困难,从而限制了模型驱动方法的应用落地。相比之下,传感器技术的进步使工业过程中能够采集大量运行数据,为数据驱动方法的发展奠定了坚实基础。数据驱动方法包括信号处理技术(Xu等人,2023;Borghesani等人,2013)和机器学习方法(Zhao等人,2023;Lu等人,2023)。值得注意的是,随着人工智能的迅猛发展,基于机器学习的故障诊断方法在复杂系统中得到了广泛应用。这些方法在特征提取和学习方面表现出优越能力,在众多故障诊断任务中取得了显著效果。
然而,在许多工业系统中,由于生产需求的变化、过程的动态调整或外部环境的复杂变化,往往会引发数据分布的显著漂移(Fan等人,2024)。这类分布漂移可能导致在特定工况下训练的诊断模型在其他条件下无法维持稳定性能,甚至完全失效(Quinones等人,2019)。这一问题在具有多样且频繁变化工况的工业场景中尤为突出,给故障诊断方法的适应性、鲁棒性和泛化能力带来了巨大挑战。多工况故障诊断(multi-condition fault diagnosis,MCFD)正是为应对这一问题而提出,其核心目标是确保诊断模型在多种工况下均能保持一致且可靠的性能。与单工况诊断不同,MCFD不仅需要应对不同工况之间显著的数据分布差异,还需应对未知工况所带来的不确定性。这些因素引入了诸多挑战,包括如何构建能够适应工况间复杂非线性关系的模型,如何缓解由数据分布漂移导致的性能退化,以及如何在未知工况下实现高效且准确的故障识别。为克服上述挑战,MCFD近年来已成为故障诊断领域的重要研究热点,受到学术界和工业界的广泛关注。
本文回顾了过去二十年多工况故障诊断领域中约210篇相关研究,旨在提供一个全面且系统的综述。为便于读者查阅,本文整理的相关资料已发布在https://github.com/THUFDD/Multi-Condition-Fault-Diagnosis,该资源库将持续更新。第二节中,本文首先给出MCFD问题的数学定义,并简要概述当前的研究现状。第三节与第四节分别聚焦于单模型和多模型MCFD方法(见图1),在深入回顾相关研究的基础上,分析了各类方法的优缺点。此外,第五节探讨了MCFD在典型应用场景中的实践,包括机械系统与化工系统。最后,第六节对全文进行总结,并展望未来的研究方向与发展前景。
图1 多工况故障诊断方法概述
5.1 问题建模
工业过程通常可以被视为随机过程(Zhang等人,2023),因为其运行会受到负载波动、外部环境扰动等多种因素的影响。这类过程可表示为:
其中, 表示该过程中的随机变量。这些随机变量的累积分布函数(cumulative distribution function,CDF)定义如下:
其中, 表示累积分布函数, 表示概率。如果对于任意时间点 以及任意时间平移量 ,都有以下等式成立:
则该过程被认为是平稳的,即其统计特性不会随时间变化(Kan等人,2015)。反之,如果上述条件不成立,则该过程为非平稳过程。 在工业生产中,平稳过程通常指系统在某一稳定工况下运行。相比之下,非平稳过程往往包含多个稳定工况,因此也被称为多工况过程。非平稳过程通常具有非线性、非高斯性以及变量分布不一致等特性,这些因素显著增加了故障诊断的难度(Zhao等人,2022)。例如,在风力发电站中,运行工况会受到风速变化和载荷变化等因素的影响而发生波动,从而导致系统参数在时间上表现出非平稳性,如图2所示。特别是在非平稳过程中,诸如转速、负载和温度等正常变化,可能与因故障引起的变化高度相似,进而导致误报率上升,且工况的变化可能掩盖故障特征,导致漏报率增加。此外,相同故障在不同工况下的可能表现出不同的特征,这进一步加大了故障的识别难度,导致诊断性能出现下降。
图2 某实际发电站中海上风力负荷的非稳态变化示意图
5.2 MCFD研究现状
数据驱动的故障诊断方法主要可以分为两类。第一类是故障检测与隔离(fault detection and isolation,FDI)方法,其诊断过程通常包括两个顺序步骤(Zhou等人,2016)。首先,进行故障检测以识别系统中的是否存在故障;一旦检测到故障存在,模型会继续触发故障隔离模块,以定位故障源。第二类方法则将故障诊断问题视为故障分类任务,直接利用分类模型预测故障类型。近年来,MCFD受到越来越多的关注。通过在Web of Science中进行关键词检索可以发现,该领域的研究论文数量呈现出稳定增长的趋势,如图3所示。
图3 基于Web of Science数据的多工况故障诊断相关论文的数量统计图
尽管MCFD已取得了大量研究成果,但目前该领域仍缺乏对现有工作进行系统总结的综述文章。因此,本文旨在填补这一空白,对MCFD相关研究进行全面回顾,重点梳理其关键进展、主流方法以及未来的研究机遇。
在现有文献中,描述MCFD的术语多种多样,如图4所示,包括“multimode”、“multiple operating modes”、“variable working conditions”、“time-varying operating conditions”、“different working conditions”等。这些术语本质上传达的是相同的概念。因此,为保证术语统一,本文在后续讨论中将使用“multiple operating conditions”或“multi-condition”来指代如负载、转速或生产方案变动所带来的变化。
图4 多工况故障诊断不同描述方式的占比情况
5.3 现有MCFD方法的分类
通过对现有文献的系统梳理可知,当前的MCFD方法大致可分为两类:单模型方法和多模型方法。单模型方法旨在构建一个统一的模型,以减少工况相关信息对故障特征提取的干扰,从而提取具有故障不变性的特征,保证在多种工况下均能实现较高的诊断准确率。相比之下,多模型方法则依赖于离线的多工况数据,为每一种工况分别构建子模型,并在诊断过程中引入工况信息。从任务适用性的角度来看,单模型方法更适用于不同工况之间数据分布差异较小的场景,尤其适用于工况多样或存在未知工况的复杂场景。而多模型方法更适用于工况数量有限且已知的情形,特别是在工况间存在显著分布差异、且每种工况下都具备充足数据的情况下,其优势更为明显。第三节和第四节将分别详细探讨上述两类方法。图5展示了在已调研的文献中,各类框架的大致占比。
图5 不同MCFD框架在已调研文献中的占比情况
单模型方法可细分为基于手工特征和基于表示学习的两类框架。基于手工特征的方法具有直观且部分可解释的特征提取过程,但通常需要额外的分类器来生成最终的诊断结果。相比之下,基于表示学习的方法多采用端到端模型,能够一步完成诊断输出。然而,由于基于表示学习的框架依赖机器学习进行特征表示学习,通常呈现黑箱特性,解释性较弱。本节将对这两类框架下的现有方法进行详细说明。
6.1 基于手工特征的框架
基于手工特征的框架通常采用信号处理技术,从非平稳工况下获取的原始信号中提取故障不变特征(Qian等人,2024)。随后,利用这些特征通过人工分析或机器学习分类器识别具体故障。基于手工特征提取框架的结构示意如图6所示。通过对大量文献的系统梳理,基于手工特征提取的框架可分为三类方法:滤波方法、时频分析(time-frequency analysis,TFA)和阶次跟踪(order tracking,OT)。
图6 基于手工特征提取的框架示意图
滤波方法通过对信号进行特定变换以提取有用成分,从而实现目标特征的分离(Qian等人,2024)。常见的滤波技术包括经验模态分解(empirical mode decomposition,EMD)(Huang等人,1998)、小波包变换(wavelet packet transform,WPT)(Hu等人,2007)和经验小波变换(empirical wavelet transform,EWT)(Gilles等人,2013)等。Fu等人(2023)提出了一种改进的经验小波变换(IEWT),结合了最优脊线提取策略,并引入了高效加权能量熵(EWEE)作为信号重构的敏感指标,有效解决了传统经验小波变换中存在的过分解问题。Huo等人(2024)提出了一种自适应时频提取模态分解(ATFEMD)方法,旨在解决信号分解中时频能量不集中、瞬时频率提取鲁棒性差以及模态混叠的问题。该方法通过脊线提取捕获时频分布中的显著信息,保证模型能够很好地适应实际场景。Chen等人(2018)提出了一种基于互补集 合经验模态分解(CEEMD)、样本熵和相关分析算法(CorAA)的综合方法,以消除不同工况的影响,实现跨工况的准确故障诊断。
时频分析能够有效识别信号的频率成分并揭示其时变特性,因而特别适合于非平稳信号的特征提取。常见的时频分析技术包括连续小波变换(continuous wavelet transform,CWT)(Aguiar等人,2014)、短时傅里叶变换(short-time Fourier transform,STFT)(Griffin,1984)、同步压缩变换(synchrosqueezing transform,SST)(Li等人,2012)等。Qin等人(2023)提出了一种基于自适应最优搜索角带的自适应快速chirplet变换(AFCT),有效提取时变转速条件下的故障特征。Ding等人(2024)提出了一种低秩约束多核广义参数化时频变换(MKGPTFT),用于生成高质量的时频平面以实现准确的故障诊断。Wei等人(2022)提出了一种结合经验模态分解(EMD)和自适应时变参数短时傅里叶同步压缩变换(AFSST)的方法,旨在增强模型的特征提取能力和适应性。Wang等人(2024)提出了一种结合归一化时频熵谱(NTFES)与故障特征系数模板(FCCT)的变工况故障诊断方法,旨在缓解大幅度转速波动和强背景噪声的负面影响。Chen等人(2023)提出了一种带移窗的时频变换器(TFSwin-T)方法,利用振动信号的时频分析增强滑动轴承诊断中弱故障特征的提取,在复杂工况下显著提升诊断性能。
基于阶次追踪(OT)的方法广泛应用于旋转机械的多工况故障诊断,通过将非平稳时域信号转换为平稳的角度域信号,从而减轻因工况变化引起的影响。常见的阶次追踪方法变体包括计算阶次追踪(computed order tracking,COT)(Fyfe等人,1997)和无测速阶次追踪(tacholess order tracking,TLOT)(Lu等人,2019)等。Sapena-Bano等人(2017)提出了一种针对非平稳工况的谐波阶次追踪方法(HOTA)扩展,该方法能够获得工况不变的模式,使非专业人员也能进行可靠诊断,并简化了基于机器学习算法的自动诊断方法的开发。Wang等人(2017)提出了一种用于变速条件下滚动轴承故障诊断的混合方法,该方法结合了计算阶次追踪和基于变分模态分解(VMD)的时频表示,捕捉振动信号角度信息与故障特征阶次之间的关系。Wang等人(2019)提出了一种基于改进经验小波变换(IEWT)的增强包络阶次谱方法,结合了IEWT、COT和奇异值比谱(SVRS)去噪技术的优势,实现了变速条件下可靠高效的故障诊断。Hu等人(2024)提出了一种基于脊线提取的无测速阶次追踪方法,用于解决因转速变化引起的非平稳振动信号问题。
6.2 基于表示学习的框架
基于学习表征的方法通常采用深度学习手段提取故障不变特征,旨在构建可适用于不同工况的通用模型。其框架示意图如图7所示。该类方法中一种常见策略是域适应(domain adaption,DA),其核心思想是首先利用源域的数据训练模型,随后使用目标域的一部分数据对模型进行微调。通过对不同域间的数据分布进行对齐,可以将源域中的知识迁移至目标域,从而实现目标域中的准确故障诊断,如图8(a)所示。
图7 基于表示学习的框架示意图
Song等人(2024)提出了一种结合改进粒子群优化(PSO)的卷积神经网络-双向长短时记忆网络(CNN-BiLSTM)用于精确的轴承故障诊断。该方法利用时间特征,并将预训练模型迁移到新的工况中,解决了多样工况下数据匮乏的问题。Xu等人(2023)引入了一种无监督对抗域适应(UADA)模型,通过批内类惩罚(BICP)和逐步自适应对齐特征范数(SAAFN)策略,提升了模型的判别能力和迁移能力。Liang等人(2023)提出了一种将子域适应(SA)与改进视觉变换器网络(IVTN)融合的方法,该方法结合了局部和全局信息,有效应对不同转速和载荷下的分布变化,实现了滚动轴承的故障诊断。Yang等人(2023)开发了一种自监督故障诊断框架,结合了信号掩码与重构预任务。通过利用具有自注意力机制的变换器主干网络,模型增强了时间特征学习和全局依赖建模能力,实现了有限标签和非平稳工况下的有效表示学习。Pang等人(2024)提出了一种时频监督对比(TF-SupCon)学习框架,通过时间域和频率域表示之间的监督对比学习,提取转速不变特征,实现了跨转速的故障诊断。Xu等人(2023)提出了一种去噪扩散多源域适应(DDMDA)模型,解决了基于生成对抗网络方法中数据不平衡和不稳定的问题。该模型引入了Utrans-net以提升噪声预测能力,并采用多域判别器结构以实现不同工况下的鲁棒特征提取。Su等人(2022)提出了一种膨胀卷积深度置信网络-动态多层感知机(DCDBN-DMLP),利用多层最大均值差异(MMD)技术减少分布差异。An等人(2022)提出了一种无监督对比域适应网络(UCDAN),用于跨域轴承故障诊断,通过对比估计项增加不同类别样本间的距离。Yang等人(2024)提出了一种基于原型和随机神经网络的双重对抗域适应(PSNN-TADA),有效实现类别级故障特征的对齐。该方法采用基于随机神经网络的分类器,减轻了目标域中故障特征的错配,保证了更具判别性的决策边界。Zhai等人(2022)和Sun等人(2024)采用了自适应批归一化(AdaBN)策略,提升了模型对目标域分布的适应能力。
虽然上述方法在特定应用场景中取得了较好效果,但它们高度依赖于精确的工况识别(Shi等人,2025)。在实际工业场景中,由于工况的不可预测变化,常常会出现未知工况。针对这一问题,域泛化(domain generalization,DG)作为一种有前景的方法被提出,用于解决多工况故障诊断中未知工况的挑战。这些方法在缺乏目标域信息的情况下,利用已有的工况数据构建模型,以减轻工况变化的影响。当新样本到来时,无需进一步适应,直接应用离线模型即可获得令人满意的结果。其核心思想是提取多样化的域不变表示,并增强特征空间内的区分度,使模型对分布外数据更具鲁棒性,从而能够有效泛化到之前未见过的工况(Liu等人,2024)。域泛化的示意图如图8(b)所示。
图8 (a)域适应示意图 (b)域泛化示意图
Wang等人(2024)提出了一种基于ProbSparse注意力机制的变换器(PSAT)用于现场故障诊断,该方法降低了模型复杂度和诊断样本的存储成本。Guo等人提出了一种基于扩散的框架,该框架结合了用于噪声水平预测的工况引导嵌入UNet(CGE-UNet)和无监督聚类滤波器(UCFilter),以选择信息丰富的生成信号,实现了在未知工况下高质量数据的合成。Qian等人(2025)引入了一种名为自适应中间类别分布对齐(AICDA)的新型迁移学习方法,该方法通过动态中间对齐(DIA)层和AdaSoftmax损失函数,消除了手动平衡多个损失项的需求。Li等人(2023)提出了一种跨域增强(CDA)方法,用于未知工况下的故障诊断。该方法通过对抗域增强泛化(ADAG)技术,以特征-标签对的凸组合促进模型泛化,学习多源和增强域中的域不变特征。为解决故障诊断中样本有限的问题,Zheng等人(2023)引入了一种带有自适应输入和注意力机制的元学习方法,提升了特征提取和泛化能力。针对标注样本有限的问题,Zhao等人(2023)提出了一种半监督域泛化故障诊断(SemiDGFD)的互助网络,采用伪标签技术并利用基于熵的净化机制提升伪标签质量。Shi等人(2023)提出了一种可靠特征辅助对比泛化网络(RFACGN),解决智能故障诊断中缺乏解释性的问题。该方法利用对比框架最小化域特定知识,并通过多分支模块聚焦故障相关特征,同时引入置信度指标评估结果可靠性。Wang等人(2024)提出了一种带非对称损失函数的增强变换器(ETALF)方法,用于解决带噪标签的少样本故障诊断问题,该方法通过动态测量故障样本相似度和非对称损失函数提升对标签噪声的鲁棒性和诊断准确性。Liu等人(2023)提出了一种信息诱导的特征分解与增强(IIFDA)框架,用于非平稳条件下的轴承故障诊断。Zhao等人(2020)和Wang等人(2021)针对多工况下的数据不平衡问题,采用批归一化(BN)技术缓解训练数据集与测试数据集间的分布差异。
总的来说,域适应和域泛化方法适用于不同的故障诊断场景。域适应方法在训练过程中可以访问目标域数据,因此能够更好地适应已知工况,但在遇到未知工况时性能通常会下降。相反,域泛化方法仅利用源域数据进行训练,旨在学习工况不变特征以增强模型的泛化能力,但这些方法在部署后往往难以对模型进行更新。在实际应用中,基于域适应的方法更适合能够持续收集新数据且具备工况识别能力的场景,而基于域泛化的方法则更适合未知工况频繁出现的环境。为进一步突出两者的差异,表1总结了域适应和域泛化方法的不同特征。
表1 基于表示学习方法的不同特征
此外,在分析基于表示学习的方法时发现,许多最新的创新都与损失函数的修改或改进密切相关。为了更清晰地展示这些内容,表2总结了不同方法中具有代表性的损失函数。其中交叉熵作为最常用的分类损失,被广泛应用于多项监督学习研究中,如(Liu等人,2025;Zhang等人,2024;Yao等人,2023)。均方误差(MSE)通常用于重构或回归任务,在(Yao等人,2023;Chen等人,2024)中得到应用。Kullback-Leibler(KL)散度常用于变分建模或分布正则化(Zhang等人,2024;Lu等人,2023;Liu等人,2023)。Wasserstein距离用于对抗环境中的域差异度量,在(Yang等人,2023;Han等人,2021)中被采用。最大均值差异(MMD)因其在核方法特征匹配中的高效性,广泛应用于域对齐,近年相关工作包括(Shi等人,2025;Zhang等人,2024;Shi等人,2024;Che等人,2024;An等人,2023)。对抗损失通常用于域对抗训练框架,见于(Han等人,2023;Hei等人,2024)。
表2 常见损失函数总结
多模型方法可以进一步分为两类:基于融合的框架和基于工况辨识的框架。基于融合的框架的优势在于能够整合多个子模型的结果,从而充分挖掘和利用现有信息,但该方法的诊断准确率可能会受到错误子模型的负面影响。相反,基于工况辨识的框架仅调用与当前工况对应的子模型,当工况被准确识别时,该方法通过选择最相关的子模型能够实现更优的性能,最大程度地减少无关模型的干扰风险。然而,由于子模型是基于离线数据训练的,因此该框架在遇到未知工况时适应性较差。本节将基于这两种框架对现有文献进行详细回顾。
7.1 基于融合的框架
由于离线阶段可获得来自多种工况的数据,直接构建单一诊断模型可能因工况信息与故障信息相互干扰而导致诊断性能下降。为解决该问题,基于融合的框架针对每个工况分别利用离线采集的数据开发独立子模型。在线阶段,输入样本将由各子模型分别处理,随后通过决策融合策略整合各子模型输出,生成最终的故障诊断结果。该方法高效利用了多工况数据,旨在减少信息损失(Chen等人,2024)。基于融合的框架的结构示意如图9所示。
图9 基于融合的框架示意图
Ye等人(2022)提出了一种深度负相关多源域适应网络(DNC-MDAN),该方法将来自多个源域的适应特征集成到基于负相关的集成分类器中,最终结果通过子分类器输出的平均值获得。He等人(2020)提出了一种集成迁移卷积神经网络方法,该方法针对每个源域训练对应的CNN,并利用目标域数据进行微调,随后设计决策融合策略整合所有CNN的预测结果,生成综合诊断结果。Xu等人(2023)提出了一种决策自调节网络(DSRN),构建多个CNN子分类器,并利用评分单元调节各子模型在特定工况下的诊断结果,同时采用多分类器和集成学习算法解决故障诊断中的类别不平衡问题。Liu等人(2023)提出了基于证据集成偏好引导学习(EEPL)的方法,利用递归证据推理技术整合基分类器在基于集成的宽度学习系统(BLS)中的信息,并引入迭代参数更新机制,实现对不同工况的实时调整。Yu等人(2013)提出了基于贝叶斯推断的高斯混合贡献指数(BIGMC),将多个局部贡献指数融合成单一的全局贡献指数,有效识别关键故障变量。基于此,Ma等人(2018)引入了考虑工业工况与综合质量相关故障关系的贝叶斯推断鲁棒高斯混合贡献指数(BIRGMC)。Li等人(2023)提出了一种特征级和类别级多源域适应方法(FC-MSDA),通过信息融合模块整合来自域特定分类器的多重预测,该融合模块利用源域与目标域共享特征的相似性。
7.2 基于工况辨识的框架
同样,基于工况辨识的多工况故障诊断方法也在离线阶段为每个已知工况构建子模型。其与基于融合的框架的主要区别在于,在线阶段首先识别当前工况,然后选择对应的子模型进行故障诊断,如图10所示。
图10 基于工况辨识的框架示意图
MCFD已广泛应用于机械系统、化工系统、能源系统和卫星系统等多个领域,如表3和表4所示。由于不同诊断对象具有各自独特的数据特性,对诊断模型所提出的挑战也各不相同。本节将围绕MCFD的两个主要应用场景展开:机械系统和化工系统。
表3 近年来基于单模型的多工况故障诊断方法汇总
表4 近年来基于多模型的多工况故障诊断方法汇总
8.1 机械系统
机械部件是工业设备中的关键构成要素,其运行状态直接关系到整个系统的可靠性与安全性(Lu等人,2023)。典型的机械系统通常由多个核心部件构成,如轴承、转子和齿轮箱等,如图11所示。这些部件的协同运行不仅决定了设备的整体性能,还对其使用寿命和维护成本产生重要影响。机械系统具有广泛的应用场景,典型实例包括钻井平台机械、自动化生产线和交通运输系统等。
图11 典型机械系统实验平台示意图(Liu等人,2024)
机械系统中的故障不仅会中断生产流程,还可能对人员造成严重的安全威胁,进而导致设备损坏、经济损失甚至人员伤亡。因此,实施准确高效的机械系统故障诊断显得尤为重要。为此,通常在关键部件上安装振动传感器,以采集生产过程中产生的振动信号。随着传感器技术的不断发展,传感器的采样频率和灵敏度已显著提升,使得能够实时获取大量高质量数据(Chen等人,2023a)。这些数据通常由专家进行标注,构建成离线数据集,为故障诊断模型的训练提供了坚实基础。对于机械系统而言,速度和负载的变化频繁出现,这些变化常由生产波动或环境扰动引起。例如,在城市轨道列车运行过程中,启动、制动、加速和减速等工况会导致齿轮箱转速频繁变化;在工业机器人中,任务变化(如运动路径差异或负载重量不同)会使关节轴承的负载发生频繁波动;在风力发电系统中,风速、温度以及市场需求的波动会导致齿轮箱转速和负载呈现非平稳变化。这些变化引入了不同的工况条件,从而导致数据分布显著变化,进而削弱现有故障诊断模型的性能,给保持多工况下诊断精度带来了挑战。
从已调研文献中可以观察到,现有方法多数仍依赖于单模型方案。其中,基于手工特征的方法是一类常见的技术框架。此类方法通常结合信号处理技术以消除与工况相关的特征,从而从振动信号中提取出与故障无关的特征,有助于提高诊断精度。域适应和域泛化技术被广泛应用于减少对大规模标注数据的依赖,同时增强模型在不同工况下的泛化能力。域适应方法通常需要目标域中有足够的样本数据,以实现有效的迁移。然而,考虑到机械系统对实时性的高要求,此类方法可能难以快速适应快速变化的运行环境。相比之下,域泛化方法通过在多个源域中提取故障不变特征进行模型训练,无需目标域数据。因此,域泛化方法更适用于存在过渡工况或未知工况的机械系统应用场景。相关技术的发展为复杂工业环境下的机械系统故障诊断提供了新的可能性,推动了该研究领域的进一步进展。此外,文章对研究中常用的典型多工况机械数据集进行了整理,见表5。
表5 典型多工况机械数据集汇总
8.2 化工系统
化工系统通常涉及剧烈的化学反应,伴随有大量热释放或有毒副产物的生成。典型的化工系统实验平台如图12。化工系统的典型应用包括食品加工、矿物处理、火力发电等。在发生故障时,这类反应可能导致灾难性后果,例如有害物质泄漏或爆炸。相比其他工业过程,化工系统中的故障更容易引发严重的安全事故。因此,化工系统中多工况问题近年来已成为一个重要的研究热点。化工系统本身具有高度复杂性,这使得基于传统模型的故障诊断方法难以构建精确的数学模型。在此背景下,数据驱动的故障诊断方法成为一种可行且有效的替代方案。
图12 典型化工系统实验平台示意图(Li等人,2023)
化工系统通常配备多个传感器,用于采集多维度的运行数据。然而,由于化工过程存在反应延迟,即输入与输出之间存在时间滞后,其传感器采样频率显著低于机械系统。化工过程中常见的监测参数包括温度、压力、流量、搅拌速度等,其中任意参数的异常均可能引发系统故障,导致潜在故障类型远多于机械系统。此外,受原料配比变化、生产调度波动以及启停操作等多种因素影响,化工工业中多工况过程十分常见。例如,在火力发电过程中,煤种差异、运行设定点变化及市场需求波动常导致系统处于多种运行工况下;在石油蒸馏过程中,原油质量的变化及催化剂老化会引起反应速率与产品分布的改变,进而导致运行工况发生变化。这些工况变化使得相同故障在不同工况下表现出不同的数据特征,显著增加了故障诊断的难度。因此,如何在多变工况下实现准确的故障识别,已成为当前亟需解决的关键问题。
现有文献表明,相较于机械系统,化工系统中的MCFD研究仍相对较少,展现出巨大的发展潜力。然而,近年来,化工系统多工况过程监测问题逐渐受到关注(Zhang等人,2022)。目前大多数研究主要聚焦于故障检测,但在故障隔离方面仍面临诸多挑战。这表明虽然故障的存在能够被检测到,但准确定位具体故障源仍较困难,从而显著增加了故障排查的复杂性与维护成本。如表4所示,多模型方法的应用主要集中在化工过程领域。其背后可能的原因是:在化工系统中,工况变化对传感器数据的影响更为显著,不同工况下的数据分布差异更大。因此,分别对各工况建模的方法能够更有效地捕捉故障特征。
本文系统梳理了MCFD领域的研究成果。本文首先对多工况问题进行了数学定义,以增强问题理解的清晰性;随后,对已有研究进行了详细分类与总结,涵盖了各类MCFD方法的技术路线;此外,还深入分析了典型应用场景及当前面临的挑战。近年来,随着研究的不断深入,多工况故障诊断已成为智能运维领域的重要研究方向。基于对现有文献的调研与分析,本文总结了未来值得关注的发展趋势:
1)样本类别不平衡问题亟待解决
现有研究普遍默认健康与故障样本数量大致平衡,但在真实工业场景中,设备一旦出现故障往往会被立即停机以避免进一步损坏,因此能够收集到的故障样本远少于正常样本。这种类别失衡极易导致模型训练偏向正常状态,影响故障识别的准确性。尤其对于依赖数据驱动的模型来说,合理处理类别不平衡是模型设计中的关键问题。重采样、样本加权等方法已被证明是有效的缓解策略,有助于提升模型的稳健性和泛化能力。
2)增强模型可解释性是实际应用的关键
尽管基于深度神经网络的MCFD方法在性能上表现优异,但其“黑盒”特性常常导致工程师对诊断结果缺乏信任,阻碍了实际应用的推进。因此,提升模型的可解释性已成为该领域的重要研究方向。当前,具有可解释能力的人工智能(XAI)技术为解决这一问题提供了新思路。通过将XAI方法融合进深度模型,不仅可以提升诊断结果的透明度与可信度,还能够辅助故障定位与隔离,从而有效降低运维成本。
3)工况辨识能力决定模型适应性
在大量文献中,工况已知常被作为前提假设,进而开展多工况适应。然而,在实际工业运行中,由于环境噪声等干扰因素,在线实时识别系统当前所处的工况并非易事。因此,构建鲁棒的工况识别模块是提升诊断系统实际可用性的重要一环。近年来,借助深度学习提升工况识别准确率成为一条可行路径,为解决实际应用中的不确定性问题提供了技术支撑。
4)需提升模型对新工况的适应能力
大多数现有方法在训练阶段采用离线建模,部署后便直接用于在线诊断,但工业现场环境复杂多变,难以在建模阶段囊括所有可能工况。为此,一些研究引入了数据生成方法,通过在已有数据基础上合成样本,增强模型的泛化能力,已在未知工况条件下展现出良好效果。此外,也有研究尝试将增量学习引入在线阶段,使模型能够随着新数据不断适应环境变化,从而持续保持高水平的诊断能力。
5)需关注工况间标签分布差异带来的影响
目前多工况故障诊断的研究多数假设不同工况间标签分布一致,仅数据分布存在差异。但在真实生产中,不同工况下的故障类型和出现频率可能存在显著差异,即“标签漂移”现象。此时,仅依赖提取“工况无关特征”的方法往往难以获得理想效果。为应对此问题,研究者已尝试引入成本敏感学习、类别对齐等策略以缓解标签漂移对模型性能的影响,并取得了初步成果,为该问题的解决提供了有益探索。
编辑:李正平
校核:陈凯歌、赵栓栓、赵学功、白亮、曹希铭、任超、冯珽婷、陈宇航、陈莹洁、王金、赵诚、肖鑫鑫
该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除。