论文题目:Incremental Learning-Enabled Fault Diagnosis of Dynamic Systems: A Comprehensive Review
论文期刊:IEEE Transactions on Cybernetics
论文日期:2025
论文链接:https://ieeexplore.ieee.org/document/11104131
作者:Zeyi Liu, Xiao He (Senior Member, IEEE), Biao Huang (Fellow, IEEE), Donghua Zhou (Fellow, IEEE)
机构:
a: 清华大学自动化系
b: Fragum Global, Mountain View, CA, USA
c: 瑞典吕勒奥理工大学
通讯作者邮箱:
hexiao@tsinghua.edu.cn
作者简介:
何潇,清华大学自动化系教授、清华大学安全控制技术研究中心主任、清华大学轨道交通智能控制与决策创新团队负责人及首席科学家、中国自动化学会理事会副秘书长,曾任清华大学自动化系副主任。研究方向为网络化系统、故障诊断与容错控制。在国内外期刊会议上发表论文200余篇。主持国家自然科学基金重点项目1项、面上项目2项,2015年获得国家自然科学基金优秀青年基金资助。现任中国自动化学会高级会员、IEEE Senior Member、美国Sigma Xi荣誉研究会Full Member,并任Control Engineering Practice、IEEE TNNLS、IEEE TASE等多个国际期刊的编委。目前为中国指挥与控制学会云控制与决策专业委员会副主任、智能控制与系统专业委员会副主任、中国自动化学会技术过程的故障诊断与安全性专业委员会秘书长、过程控制专委会副主任。曾获2012年SAFEPROCESS国际会议的Frank最佳理论论文提名奖、2023年北京市自然科学二等奖、2021年方崇智最佳论文一等奖、2022年张钟俊院士优秀论文奖,并获2018年吉林省科技进步一等奖、2015年与2020年中国自动化学会自然科学奖一等奖、2022年中国自动化学会技术发明一等奖。培养学生获得2018年和2022年中国自动化学会优秀博士学位论文
周东华,东南大学教授、博导,智能无人系统研究院首席科学家,矿山安全检测技术与自动化装备国家地方联合工程研究中心主任。上海交通大学博士、浙江大学博士后。曾任清华大学自动化系主任,山东科技大学副校长,教育部高等学校自动化类专业教指委主任,第六、七届国务院控制科学与工程学科评议组成员,第三、四、五届中国自动化学会故障诊断与安全性专委会主任。为国家杰青、长江学者特聘教授、“万人计划”领军人才、国家基金委创新研究群体带头人、全国高校黄大年式教师团队负责人,享受国务院政府特殊津贴。兼任IFAC 技术过程故障诊断与安全性技术委员会委员、中国自动化学会副理事长等。主要研究动态系统故障诊断与容错控制、运行安全性评估理论等。以第一完成人获国家级奖励3项(含国家自然科学二等奖2项、国家级教学成果二等奖1项)、省部级和全国学会科技一等奖5项。曾获霍英东教育基金会青年教师奖、全国优秀博士后奖、第六届中国青年科技奖、国家新世纪百千万人才、全国优秀科技工作者等荣誉称号。为山东省泰山学者优势特色学科人才团队领军人才、山东省泰山学者攀登计划专家。入选全球高被引科学家、全球前2 %顶尖科学家名录,当选IEEE/ AAIA/ IET/ CAA Fellow。
刘泽夷,清华大学自动化系的博士研究生,在安全控制技术研究中心师从何潇教授和周东华教授,研究兴趣包括在线学习及其在动态系统(如机器人群、工业自动化系统和安全关键信息物理系统)的实时安全评估、安全保障控制和多条件故障诊断中的应用。
摘要
1 引言
2 基础理论
2.1 故障诊断的基本概念
2.2 ILFD方法的不同视角
3 问题表述与动机
3.1 问题表述
3.2 动机分析
4 基于增量在线学习(OL)的FD方法的最新进展
4.1 处理故障分布漂移的方法
4.2 管理新型故障模式的方法
5 基于增量离线学习的FD方法的最新进展
5.1 处理故障分布漂移的方法
5.2 管理新型故障模式的方法
6 ILFD方法的研究趋势
7 典型的实际应用
7.1 机械系统
7.2 化学系统
8 结论与展望
有效的故障诊断对于维持工业系统的可靠性和安全性至关重要。增量学习(Incremental Learning)能够使模型持续更新并适应新数据或新出现的故障类别,而无需完全重新训练,近年来已成为解决故障诊断应用中非平稳数据流问题的一种有前景的方案。然而,现有的大多数故障诊断综述文章都采用宽泛的视角,主要讨论深度学习和迁移学习等通用技术,并未专门聚焦于增量学习策略。据我们所知,本文是首篇专门聚焦于基于增量学习的故障诊断方法的综述。本文系统回顾了最先进的基于增量学习的故障诊断方法,并根据其增量学习策略和应用背景将其分为不同的组别。此外,还讨论了将增量学习应用于故障诊断时面临的主要挑战(如概念漂移和灾难性遗忘),以及为解决这些问题而提出的新兴解决方案。本文提出了一种关于基于增量学习的故障诊断方法的新分类法和视角,为该领域的研究人员和从业者提供了及时且全面的参考。
关键词:人工智能,动态系统,故障诊断,增量学习
动态系统在航空航天、制造和能源等各种工业应用中起着至关重要的作用[1]-[3]。随着现代系统的快速发展,这些系统变得越来越复杂。有效的故障诊断方法对于及时识别潜在故障、预防系统失效、提高系统可靠性和安全性、避免事故以及保护人员和设备至关重要。传统的故障诊断方法通常分为知识驱动、模型驱动和数据驱动三大类[11]-[13]。知识驱动方法依赖于领域专家长期实践中积累的专业知识来建立知识库,以模拟人类专家的推理和决策过程[14]-[17]。模型驱动方法使用系统的精确数学模型生成残差信号,反映系统预期行为与实际运行之间的差异[18]-[21]。故障诊断则基于对这些残差信号的分析进行。尽管这些方法采用不同的技术并服务于不同的目的,但所有故障诊断系统都有一个共同特点:实施过程中需要处理系统运行期间获得的测量数据。然而,现有方法的有效性往往取决于对系统模型的全面理解,这限制了其适用性[22]。在过去的几十年里,数据驱动的故障诊断方法越来越受到学术界和工业界的关注[23]。这些方法分析和处理运行数据以进行故障诊断,而不需要系统的精确解析模型。从专家经验到全自动化或智能化系统的发展,推动了数据驱动方法的快速发展,包括多元统计分析、信号处理和机器学习方法。由于自21世纪以来人工智能的快速发展,具有深度架构的机器学习方法在复杂系统故障诊断中展现出显著优势,这归功于其强大的特征提取和模式识别能力。因此,这些方法已被证明在特定诊断任务中取得了显著成果[24]。传统的基于学习的故障诊断方法通常依赖于离线构建诊断模型,然后将其直接部署到在线环境中。这些方法的核心在于如何在离线训练阶段更准确地构建故障数据与故障模式之间的映射,以确保诊断准确性。然而,现有方法往往未能充分考虑现实世界系统的动态特性。这些局限性不仅在实际应用中带来了若干实施限制,而且在学术研究与工业部署之间造成了显著差距。由于故障场景的复杂性和退化过程的不可预测性,在离线阶段获取全面的故障信息仍然是一个重大挑战。离线阶段收集的故障数据通常无法覆盖全部实际运行工况[25],导致训练数据集不完整或存在偏差。特别是,工业环境受到各种不断变化的因素影响,如设备老化、负载变化、维护操作和环境变化(例如温度、湿度和灰尘),所有这些都可能导致底层数据分布随时间发生偏移。这些分布变化意味着离线阶段观察到的故障模式可能不再完全代表实际运行中遇到的工况,如果不进行适应,将导致模型性能下降。此外,新型故障模式的出现进一步加剧了这一挑战。新型故障模式是指在初始训练阶段未捕获到的新的或先前未见过的故障类型。这些故障可能由于设备设计修改、系统组件之间的意外交互或新操作流程的引入而产生。由于离线训练的模型本质上仅限于识别已知故障类别,因此它们通常缺乏检测或正确分类这些新故障的能力。因此,如果没有在线模型更新或增量学习机制,此类模型可能无法为关键但先前未遇到的故障模式提供及时警告,从而可能导致严重的安全风险或运营损失。为了应对这些挑战,诊断方法在处理复杂的动态环境(如未知故障或长期退化效应)时必须具备更高的动态适应性。最近的研究探索了基于增量学习的故障诊断(ILFD)方法。这些方法动态地调整模型以适应新的故障模式或系统变化,而无需完全重新训练。ILFD方法可以逐步学习新的运行工况和故障特征,提高模型对复杂动态环境的适应性。尽管仍处于发展的早期阶段,这些方法在解决与故障数据稀缺、动态运行条件和模型鲁棒性相关的挑战方面显示出巨大的潜力。在本文中,我们旨在对这些不断发展的领域进行全面概述。我们首先回顾了故障诊断方法和增量学习技术的发展历史、概念定义和技术分类。通过比较批量学习故障诊断(BLFD)方法和ILFD方法之间的区别和联系,突出了每种范式的独特优势和挑战。然后,我们从两个角度彻底回顾了文献中的最新进展,以提供对最先进发展的更全面理解。并进一步从三个不同的角度讨论和分析了相关的研究趋势。还分析了ILFD方法在代表性应用场景中遇到的挑战。
动态系统的故障诊断技术是提高系统可靠性和降低事故风险的关键方法。根据国际自动控制联合会(IFAC)认可的官方声明,故障被定义为系统的至少一个特征属性或参数偏离可接受/通常/标准条件的未被允许的偏差[26]。传统上,一个全面的故障诊断过程必须包括在动态系统内进行故障检测、故障隔离和故障识别的任务,这可描述为[27]和[28]:
1) 故障检测 :确定系统中存在的故障及其检测时间。
2) 故障隔离 :在故障检测后,确定故障的类型、位置和检测时间。
3) 故障识别 :在故障隔离后,确定故障的大小和时变行为。
自20世纪70年代以来,一个面向问题解决的框架已初步建立。经典的模型驱动故障诊断方法通常按照上述三个步骤进行,从而产生关于故障的具体分析结果。故障诊断过程的一般框架如图1所示。

图1 故障诊断过程的一般框架
模型驱动故障诊断方法假设系统的输入/输出(I/O)符合特定的模型结构(例如状态空间模型),且参数已知。在过去的几十年里,这些方法受到了广泛关注,特别是对于线性系统。它们已完全集成到车辆控制系统、机器人、运输系统、电力系统、制造过程和过程控制系统中[29]。然而,它们通常需要精确识别系统模型参数,这对更复杂系统的故障诊断提出了挑战。随着近年来人工智能技术的快速发展,一些研究人员尝试直接建立从系统测量到故障模式的非线性映射。这些方法往往侧重于故障检测和故障隔离任务。以化学系统为例,经典的故障诊断方法通常需要彻底理解系统模型,以分析动态关系并描述系统状态随时间的变化,从而形成有效诊断的基础。然而,对于大型复杂系统,精确建模通常是不切实际的。因此,数据驱动的故障诊断方法受到了广泛关注,因为它们可以有效地克服这些限制[24]。因此,近年来,越来越多的故障诊断研究逐渐从先故障检测后故障隔离的逻辑演变为直接对故障模式进行分类。换句话说,这些方法使用故障分类任务来描述故障诊断,并实现经典的故障检测与隔离(FDI)任务。
传统的机器学习范式通常以批量学习(batch learning)方式运行,需要事先收集完整的训练数据集 合,然后通过某种学习算法来训练学习器。这种范式要求在整个训练数据集在学习任务开始之前就已提供,并且由于训练成本高昂,训练过程通常在离线环境中完成。如[30]和[31]所述,传统的批量学习方法有几个局限性:1)时间和空间效率低;2)对大规模应用的可扩展性差,因为学习器通常需要为新训练数据从头开始重新训练。在这种情况下,尽管传统的批量学习方法在某些故障诊断任务中取得了良好效果,但在广泛应用于实际场景之前仍需要取得重大进展。与批量学习算法相比,增量学习是机器学习的一个分支,它处理按顺序到达的数据,其目标是学习器逐步学习和更新对未来数据的最佳预测器[32]。增量学习克服了批量学习的缺点,因为预测学习器可以用任何新数据更新。因此,考虑到工业应用中系统测量的特点,增量学习的思想更适合工业应用场景,并已在许多特定应用中得到使用,例如预测性维护。在故障诊断的背景下,各种场景的方法根据图2所示的结构进行组织。大多数现有的基于机器学习的故障诊断方法都是受批量学习启发的,假设用于构建诊断模型的初始数据是完整的。在离线阶段,诊断模型可以利用充足的数据执行训练过程。当初始训练数据不完整时,增量学习方法可以更新诊断模型以处理更复杂的任务。根据更新的具体时间,这些方法可以进一步分为 基于增量在线学习(OL)的FD方法 和 基于增量离线学习的FD方法 。前者通常在线阶段执行实时更新。理想情况下,部署过程应在系统测量到达之前完成。后者的更新过程通常发生在离线阶段。 备注1 :在现有文献中,增量在线学习方法通常被简化为在线学习(OL),它通常假设数据以数据流的形式到达(逐个或分批),并在接收到每个样本后更新诊断模型。更新过程要求是实时的。相比之下,增量离线学习通常假设在积累一定量的数据后可以离线进行更新,然后在线阶段重新部署。此类方法的更新过程通常具有更高的复杂性。持续学习(Continual learning)通常被视为一种代表性方法,侧重于解决增量学习过程中潜在的灾难性遗忘问题。更多信息请参阅[30]-[34]。

图2 基于数据完整性和模型更新部署时间的故障诊断方法分类
通常,基于学习的故障诊断方法的性能会受到分布漂移的显著影响,而增量学习在适应此类变化方面比传统批量学习更具优势。ILFD和BLFD的对比示意图如图3所示。在理想情况下,运行阶段的数据分布应遵循独立同分布(i.i.d.)假设。理想性能曲线由红线描绘。当发生分布漂移(即数据分布发生变化)时,BLFD方法的性能显著下降。相反,ILFD方法旨在更新模型以适应新的数据分布,从而提高性能。

图3 故障分布漂移下,ILFD方法与BLFD方法相比具有更优适应性的示意图
虽然增量学习可以在在线和离线两种设置中实现,但这两种方法在模型更新机制及其对故障诊断的适用性方面存在显著差异。基于增量在线学习的故障诊断方法在新数据到达时实时更新诊断模型,使其特别适合快速变化的环境。诊断模型需要实时部署,这在实时故障监控等场景中至关重要,这些场景需要及时的检测和响应。这些方法非常适合机械健康监测或在变化条件下运行的工业系统等应用,这些应用中故障必须在出现时立即检测到。通过使用每个传入数据点持续更新模型,它可以保持与最新运行状态的相关性,提供在具有不可预测变化或中断的环境中所需的灵活性。相比之下,基于增量离线学习的故障诊断方法需要随时间积累数据并分批执行模型更新。诊断模型应在满足条件时(例如当对新运行模式下的故障信息有足够理解时)部署一次。通常,这些方法不需要特定的部署时间。在这种情况下,故障诊断任务受益于增强的稳定性和鲁棒性,因为更新是在受控环境中执行的,有更多时间进行彻底分析。这种方法适用于故障诊断可以在收集到足够数据后执行的情况,例如故障模式复杂且需要广泛分析的情况。增量离线学习确保了对数据进行更彻底的分析,从而带来稳定且精确的模型更新,这在需要全面理解各种运行模式下的故障条件时特别有价值。
在本节中,首先阐述一些问题。随后,分析了ILFD方法的一般研究动机。
为了后续讨论的清晰性,我们提供一个通用的定义。如图1所示,通常可能存在组件故障、执行器故障和传感器故障。对于线性动态系统,系统模型可表示为:
(2)
其中 、 、 和 是系统矩阵,具有适当的维度。令 分别表示状态变量和测量变量的维度。 和 是系统状态和测量值。 和 是未知噪声。 表示系统的组件故障。 执行器故障下的控制输入表示为 ,可建模为:
(3)
其中 表示乘性执行器故障, 表示加性执行器故障。 是整数,表示维数。对于非线性动态系统,系统模型可表示为:
(4)
(5)
其中 和 表示非线性算子。如公式3所示。 备注2 :值得注意的是,现有的动态系统数据驱动故障诊断方法通常忽略传感器故障问题。因此,在构建如(1)和(4)所示的系统模型时通常不考虑此类问题。 与大多数基于机器学习的故障诊断方法一致,ILFD过程通常需要事先获得测量值对应的故障信息。在文献中,它通常被称为故障标签集。在离线阶段,可以收集不同系统状态对应的测量值以形成训练数据集 。假设总共有 个测量值和 种故障模式 。为了与现有文献保持一致,变量 在指代样本时用于表示测量值。在这种情况下, 可以表示为:
(6)
其中 和 分别表示 中的第 个实例及其故障模式。 通常,诊断模型 可以在离线阶段构建,表示为:
(7)
在线阶段,诊断模型需要根据实时测量值预测动态系统的故障模式。将时间收集的样本表示为 。预测的诊断结果可以表示为:
(8)
其中 表示 的模型参数。如第2.2节所述,ILFD通常尝试在离线或在线阶段执行增量更新。用于更新的数据可以表示为:
(9)
其中 表示用于更新的样本数量。诊断模型可以在离线阶段或在线阶段通过以下表达式进行更新:
(10)
其中 表示更新函数。其具体形式受多种因素影响,例如更新阶段(离线或在线)和诊断模型的架构。主要目的是最小化增量更新后的预期风险,可以定义为:
(11)
其中 表示给定实例及其故障模式时诊断模型的预测误差或损失。考虑到主要特性,ILFD过程的一般工作流程可总结为图4。

图4 ILFD流程图
在实践中,数据是连续生成和更新的,历史样本随时间积累。在设备生命周期的早期阶段,故障设备的数量通常远少于正常设备的数量。因此,从故障设备提取的统计特征和模式可能不完整,导致可能不正确的诊断结果[35],[36]。此外,对潜在系统故障的初始理解可能不足。如果诊断模型仅依赖于离线阶段积累的样本进行推理,则其对故障特征的理解可能存在偏差[37]。捕获不同运行模式或环境下的系统变量信息涉及高成本和实践限制。罕见的故障事件尤其难以捕获,并且系统动态通常未被完全表征。因此,在离线阶段获取全面的故障信息仍然是一个重大挑战。此外,系统的动态特性带来了进一步的挑战。离线阶段收集的故障数据通常无法覆盖全部实际运行工况。实验室环境通常是受控的,与实际工业环境大不相同。传统的机器学习模型通常假设数据是独立同分布的,但在动态系统中这种假设很少成立。如图5所示,由于运行条件变化、环境因素和退化效应,故障分布可能会发生漂移,这进一步使故障诊断复杂化[38]。在动态环境中,运行工况的自然变化(例如过程参数的调整或环境条件的波动)和未知故障通常共存。区分这两个因素至关重要但具有挑战性。系统特性的正常变化可能表现为性能指标的非线性漂移或随机波动,这可能被误认为是故障,导致高误报率[39]。相反,未知故障可能被这些正常变化所掩盖,导致漏报。现有方法未能充分探索这种区别,这些方法通常依赖于静态阈值设置或统计特征分析。因此,无法有效处理实时更新的传统批量学习方法无法应对此类动态环境带来的复杂性。

图5 性能下降和运行条件转变导致的数据分布变化示意图
这些挑战凸显了对能够实时学习和更新的诊断模型的需求。现有文献已经确定了在此背景下的两个关键问题:
1)故障分布漂移
2)新型故障模式
这些问题需要更多关注以实现有效的故障诊断。这些问题的概念性说明如图6所示,而这些问题详细描述总结在表I中。

图6 概念图展示了特征空间中的故障分布漂移及新型故障模式。虚线表示决策边界 (a)原始诊断任务 (b)故障分布漂移 (c)新型故障模式
表I ILFD过程需要考虑的主要问题

注:C表示测量值X和故障信息Y的增量变化,指示了动态调整两个组件行为的变异。
一方面,由于运行条件变化和性能退化等因素[40]-[42],动态系统通常在非平稳环境中运行,导致故障样本的分布发生一定程度的变化。一个被称为概念漂移(concept drift)的关键现象经常被观察到。实际上,工业应用通常涉及混合漂移类型,这意味着多种类型的漂移可以同时发生[44],[45]。在机械系统中,设备的运行可能由于部件的磨损和老化而导致故障模式和频率发生变化,从而改变故障数据的数据分布。在化学系统中,过程参数的调整、原材料的变化或环境条件的波动可以改变系统的运行状态,从而影响故障分布。这主要是由于在不同条件下反应过程和设备性能的变化所致。在现实生活场景中,上述漂移的发生可能导致数据分布发生变化,从而影响基于机器学习的故障诊断方法的实时性能。增量学习方法使诊断模型能够实时更新,适应故障分布变化,从而提高系统可靠性和稳定性,减少误报和漏报,优化维护计划,并降低设备维护成本。另一方面,新型故障模式的出现对传统的FD方法构成了重大挑战。新材料、新技术的应用以及不断变化的运行环境可能导致以前未见过的故障模式[46]-[48]。在机械系统中,新材料和制造技术的应用可能由于材料特性和新技术的复杂性而引入新的故障模式。在化学系统中,新化学过程或催化剂的引入可能导致新故障模式的出现,因为这些新过程和催化剂在初始运行期间可能揭示未知的故障风险。如果诊断模型不能及时识别和适应这些新型故障模式,严重的故障可能无法被检测到,从而损害系统安全[43]。在实践中,大多数情况下,模型需要在新故障模式出现时快速学习和更新,这增强了灵活性和准确性。因此,它们提供了对设备健康状况的全面监控,并有助于预防潜在的重大故障。
随着数据量的增加,基于增量在线学习的FD方法需要能够在线快速更新,而不影响实时性能,尤其是在动态环境中。为了应对第III-B节概述的挑战,必须彻底考虑以下特性:
1. 具有实时部署的快速更新速度:考虑到诊断模型需要实时部署,它们应该能够在新数据到达时快速学习和更新。在这种情况下,此类诊断模型的更新速度通常要求更高[49]-[51]。
2. 具有最少监控数据的高效更新能力:该方法应能够用最少量的新样本有效更新模型,最小化对大型数据集的依赖,同时确保性能而不需要大量计算资源[52]-[54]。
3. 有效利用时间关系 :诊断模型应有效利用时间关系来捕捉系统随时间的动态行为和趋势,从而提高诊断模型的准确性和鲁棒性[55],[56]。
这些特性使此类诊断方法能够在线实现高效的增量更新,使其成为现有文献方法设计的核心焦点。因此,基于增量在线学习的FD方法可以显著增强诊断系统的适应性、灵活性和准确性,为动态系统的可靠运行提供有力支持。在此背景下,基于增量离线学习的FD方法在过去几年中取得了令人印象深刻的发展。基于增量在线学习的FD方法的示意图如图7所示,以更清晰地概述其结构和关键组件。

图7 基于OL的增量式FD方法示意图
为了有效应对故障分布漂移带来的挑战,诊断模型需要执行及时有效的更新。已经探索了各种模型架构以适应这些更新,这一直是广泛讨论的主题。
鉴于基于增量在线学习的诊断方法需要在当前阶段及时响应,浅层学习技术的结构在研究的早期阶段经常被用作设计更新策略的主要框架。为了解决传统局部线性嵌入(LLE)在机械故障诊断中的局限性,引入了一种增量监督LLE(I-SLLE)用于潜水泵的故障诊断[57]。I-SLLE算法采用矩阵分解技术来处理样本外数据。它更新旧的低维坐标子集以提高精度,并通过应用于所有数据的迭代更新来实现。随后,测试数据在特征空间中使用支持向量机(SVM)进行分类。类似地,还引入了一种增量增强监督LLE用于非线性降维,有效地将数据嵌入到低维流形结构中[58]。新故障样本的低维表示然后被输入到自适应最近邻分类器中。它通过基于表示距离选择最近的训练样本来识别故障模式,并采用加权策略来提高准确性。
一种改进的增量高斯朴素贝叶斯(I-IGNB)学习算法已被用于通过更新关键参数(如先验概率和条件概率)来提高模型更新效率[59]。增量SVM也被考虑用于更有效地适应新数据[60]-[62]。提出了一种结合增量学习的多核SVM。它旨在提高准确性并降低维护成本,并已成功在两种大规模生产的复杂工业板上得到验证[63]。与单核SVM和人工神经网络方法相比,其优越性已得到很好验证。此外,一些方法尝试使用浅层学习技术进行诊断,这涉及检测和隔离[64],[65]。
近几十年来,基于随机化神经网络(RNNet)结构的学习架构,以随机向量函数链接神经网络(RVFL)[66]、极限学习机(ELM)[67]和广度学习系统(BLS)[68]为代表,已被用于设计诊断模型架构,考虑到其良好的增量更新能力[69]-[71]。这些方法,尽管是神经网络结构的一部分,但通常基于最小二乘法执行增量更新,避免了通过反向传播技术在优化过程中进行参数调整的时间成本。例如,Mao等人引入了一种在线序列ELM预测方法,考虑到在线收集的故障数据量比正常数据少[72]。
在线阶段,为顺序到达的轴承数据重新建立颗粒和主曲线。通过过采样和欠采样过程形成平衡样本集,以动态更新诊断模型。基于RNNet的诊断方法近年来发展迅速,主要关注问题如时变运行条件和性能退化[73]-[75]。提出了一种基于ELM的分析增量学习(AIL)方法,以解决电力变压器早期故障诊断中的性能退化问题[76]。提出了一种BP增量BLS,旨在应对非平稳振动信号带来的挑战,以加速模型更新[77]。还开发了一种使用证据集成偏好的实时多模式故障诊断新方法,指导运行工况的识别过程,并使用增量BLS进行诊断,取得了优异的诊断结果[73]。为了解决多个运行工况之间的增量更新问题,提出了一种新的跨域类增量广度网络(CDCIBN)来处理非独立同分布连续流数据的诊断问题[78]。在[55]中,提出了一种潜在变量引导的BLS(LVGBLS)来构建诊断模型。然后使用伪标签学习开发了一种增量更新程序,旨在适应动态过程变化,同时最小化标记成本。这些方法充分利用了随机化结构的快速更新能力,在多个任务中取得了令人印象深刻的性能。
尽管上述方法在某些应用中取得了成功,但其泛化仍需进一步增强以应对更复杂的诊断任务。大多数方法需要初步确定收集的系统测量值是否属于已知故障模式。在这种情况下,集成学习的概念已在文献中被考虑。有重要证据表明,集成学习可以有效且灵活地处理非平稳环境中的数据模式变化[79],[80]。主要原因是集成学习方法可以灵活调整弱学习器的权重分配,从而快速改变集成学习器的理解。因此,已经引入了几种专注于解决故障分布漂移的设计。
例如,Zhang等人[81]提出了一种基于多元集成增量支持向量机的方法,该方法利用现有模型参数逐步学习新的故障信息,而无需先前的监控数据。它通过将多个监控变量与其对应的缺陷类型相关联,有效地检测各种故障,包括复杂故障和不同严重程度的故障。同样,Jing和Zhenya[82]利用半监督学习来减少对先前故障知识的依赖。新生成的系统测量数据首先通过核主成分分析(KPCA)映射到几个聚类标签向量。然后,根据互信息选择一个多样化的子集进行增量更新[83],引入了在线半监督学习的概念,以充分利用离线阶段中的故障信息。这降低了在线过程中收集故障信息的依赖性,从而提供了实际价值[84]一种自适应集 合故障诊断方法已被提出,旨在解决复杂系统中的两个实际挑战:
1) 缺乏足够的历史故障实例;
2) 被诊断设备的个性化特征缺失。
构建隐马尔可夫模型(HMMS)是为了从历史故障和正常实例中提取模式。然后,通过HMMS识别的隐藏状态,将由有监督和无监督方法进行的诊断整合起来,从而克服历史故障实例不足的挑战。在文中提出了一种有趣的方法[85]。从数学的角度讨论了数据变化的形式。提出了一种根据最小风险来适应这些变化的战略。遵循这一战略,开发了一种自适应增量诊断模型,该模型在实际应用中已被证明是有效的工业场景,如田纳西伊士曼(TE)工艺以及多相流设施(MPFF)。
此外,这类基于增量在线学习的FD方法已被广泛用于解决一个关键问题: 如何有效管理在线阶段出现的新型故障模式 。传统的BLFD方法通常需要假设对故障模式的认知是全面的。然而,正如第III-B节所述,新型故障模式在实际场景中经常出现,可能削弱了经典方法的诊断性能。大多数方法都需要先确定所收集的系统测量是否属于已知的故障模式然后,会设计特定的策略来执行更新过程。这些方法通常包括用于故障模式的新颖性检测模块。
在过去十年中,已经进行了大量的探索来解决这问题。一个常见的思路是在检测到当前系统测量不属于已知故障模式后,识别与这些新故障模式相对应的数据的故障方向,从而有助于更好地进行故障隔离。这些方法通常旨在解决FDI任务,而不是将其视为故障分类任务。例如,Yang等人。[86]提出了一种新颖的类增量FDA方案,该方案涉及基于部分F值与累积百分比变化(CPV)从已知故障模式中识别新的故障模式一旦F方向确定,新断层样本与断层模式之间的角度余弦值可以添加到数据库中。刘等人。[87]使用了-种具有在线更新能力的最大-最小偏差规则来确定新样本是否源自新的故障模式。该方法通过考虑最大类别后验概率和熵的加权和来实现。此外,还提出了一种基于贝叶斯增量学习的在线故障诊断方法[88]。由于FDA和朴素贝叶斯的结构优势,这些方法可以通过对先验概率的增量更新来方便地解决上述问题,而无需保留所有历史信息。然而,此类结构处理更复杂任务相对起来困难。
在文献[89]中, 增量支持向量数据描述(ISVDD) 被用于连续设备监控中新型故障模式的快速检测。随后引入了具有增量输出结构(IOELM)的ELM,通过添加输出节点来适应新故障模式的识别。而Fu等人[90]也使用了ISVDD来检测新型故障模式。他们设计了一种具有 类增量学习能力 的广度自编码器(BAE),以适应新输入的故障样本和新型故障模式。关于未知故障模式,Shi等人[91]通过提出的 半监督类增量广度网络(SSCIBN) 进一步解决了故障样本数量有限的问题。受益于RNNet的结构优势,文献[92]和[93]使用 类增量闭式解 来解决新型故障模式下诊断模型的更新问题。类似地, 集成学习的概念也被用于管理新型故障模式 。对于新型故障模式,可以通过添加新的基学习器来增强集成学习器对此类故障的诊断能力。例如,Razavi-Far等人[94],[95]将 Learn++算法 引入在线学习(OL)用于故障分类。通过引入基于集成的增量诊断方案来识别新型故障模式。这些算法能够检测监控数据流中未见过的故障模式,对未知故障模式进行分类,直到为其分配正确的标签。Sankavaram等人[96]研究了一种用于集成分类器的 基于年龄的增量学习 方法,该方法具有不断演化的数据库。其有效性在汽车控制子系统的数据集上得到了验证。
另一种常见的范式是基于增量离线学习的FD方法 。这些方法通常专注于任务级别 的增量更新,更新后的诊断模型仅在满足特定条件时才会在在线阶段部署。为了应对第3.3节概述的挑战,必须考虑以下特性:
● 非线性特征提取能力:鉴于系统行为固有的复杂性和可变性,诊断模型应能够从收集的数据中提取非线性特征,这对于捕捉复杂的故障模式和关系至关重要。
● 累积监控数据信息的丰富性:累积的监控数据应足够丰富和多样,以避免因故障特征信息不足而产生的认知局限,确保诊断模型能够在不同运行条件下良好泛化并做出准确预测[97]-[99]。
● 缓解灾难性遗忘效应 :诊断模型架构的设计应包含学习新信息而不忘记先前获得知识的能力,防止更新后性能显著下降[100],[101]。
手工制作的特征的有效性通常需要工程师对运行过程有透彻的理解。为了更好地解决这些问题,深度学习技术通常被用于设计模型架构[102]。可以以端到端的方式捕捉更复杂的故障特征,从而避免经典特征工程在实际诊断任务中的局限性。 持续学习(Continual Learning/Lifelong Learning) 技术的应用引起了广泛关注[102]。基于增量离线学习的FD方法的示意图如图8所示,以便更清晰地概述其结构和关键组件。

图8 基于增量离线学习的FD方法示意图
与第4节提到的基于增量在线学习的FD方法不同,一些方法旨在积累足够丰富的历史数据后,在离线阶段增量更新模型。该技术思路也很直观。如果发生故障分布漂移,更新后的模型可以有效地执行诊断任务,从而在一定程度上解决性能下降和多工况故障诊断等问题。
一种常见的方法是使用在线阶段获得的新样本重新训练诊断模型的关键组件,以适应新的故障模式[103]。Carino等人[104]提出了一种基于SVM的新颖检测方法,用于识别先前未考虑的故障模式。一旦检测到新的故障模式,诊断模型就会被重新训练。其有效性在汽车终端测试机上得到了验证。类似地,在文献[105]中,采用深度学习算法从新生成的数据中提取特征模式。将这些新数据特征与从历史数据中提取的故障模式进行比较,以调整训练集中不同故障模式对应的权重。最后,使用SVM对加权模式进行监督分类。
鉴于基于深度神经网络(DNN)的诊断模型通常具有大量参数,频繁重新训练这些模型被认为是耗时的。因此,解决诊断模型中的灾难性遗忘(Catastrophic Forgetting) 已成为一个重要研究课题。在不同负载条件、环境温度和其他运行环境下,故障特征的分布可能会有显著差异。此外,现实世界的设备通常由多个关键组件组成,每个组件表现出不同的故障特征。因此,诊断任务随着时间的推移而不断演变。一个理想的诊断模型应该能够持续从新任务中学习关键信息,同时保留从先前任务中获得的知识。
为了解决故障诊断任务中的灾难性遗忘问题,现有文献中提出了各种增量学习策略。例如,文献[106]提出了伪排练(Pseudo-Rehearsal) 方法,通过生成合成数据来近似过去的知识,从而减轻遗忘。然而,伪数据的质量和真实性仍然是关键挑战。样本记忆策略,如中心样本记忆[107],保留了获得的知识,因此保留了重要信息,但需要大量的存储资源。基于 知识蒸馏(Knowledge Distillation, KD)的FD方法也受到了关注[108]-[110]。例如,Guan等人[111]利用自适应知识蒸馏和代表性样本选择来处理性能退化,而[112]应用KD损失来保留关键的先验信息。此外,Hu等人[113]提出了一种 动态校正算法 来平衡模型的稳定性和可塑性,尽管计算复杂度增加了。此外,还探索了动态网络扩展技术[114]、任务增量学习策略[115]和回放增强方法[116]来增强模型的适应性而不发生灾难性遗忘。最近,提出了诸如任务感知动态掩码[117]和弹性扩展机制[118]等策略来优化学习灵活性。
总体而言,尽管这些方法在不断变化的环境中保存先前的诊断知识方面表现出强大的潜力,但计算成本、存储需求以及稳定性与性能之间的权衡等挑战仍然是活跃的研究领域。
由于工业系统的动态和复杂性,管理新型故障模式也至关重要。文献中提出了各种方法来解决这一挑战[119]-[122]。例如,Zhang等人[123]利用 稀疏自编码器 来识别和生成新标签,使诊断模型能够适应和识别新型故障模式。类似地,提出了一种 增量分层扩展DNN 的方法来处理不断输入的新型故障模式[124]。通过使用模糊聚类将相似故障分组为超类,他们的方法允许子模型共享相同的架构并并行训练,从而促进高效的模型更新。为了平衡故障诊断模型中的稳定性和可塑性,Chen等人[125]引入了 双分支聚合网络 。它使用聚合权重来确保模型在保留旧知识的同时学习新信息,从而解决了在复杂运行条件下引入新型故障模式导致的模型失效问题。遵循元学习(Meta-Learning)的思想,Liu等人[126]提出了一种基于权重空间元表示(WSMR)的持续学习模型,用于柱塞泵的类增量故障诊断。在文献[127]中,提出了特征增强持续学习来维持故障诊断模型的核心结构。通过使用有效的蒸馏策略去除冗余参数和特征维度,这种方法确保了诊断模型随着时间的推移保持高效和准确。基于回放(Replay-based)的策略 在[128]和[129]中也得到了充分考虑。Liu等人[129]专注于终身学习的生成特征回放,旨在保留持续故障诊断的基本特征,这在某种程度上与[127]的工作相辅相成,解决了保留关键信息的挑战。少样本学习(Few-shot Learning) 近年来已成为另一个重要的研究热点,无论是在系统级还是组件级[130]-[135]。
此外,文献[136]还提出了一种两阶段诊断模型 ,首先将故障样本聚类到不同的特征组中,然后根据样本与这些聚类之间的相似性来识别故障模式。它利用现有特征有效识别新型故障模式,符合持续学习策略。类似地,Liu和Wu[137]提出了一种基于下采样和模型无关元学习(CL-DMAML)的持续学习方法,进一步强调了平衡故障信息的新旧知识的重要性。Huang等人[138]将多保真度信息融合(MFIF-CIL)与类增量学习相结合,用于滚动轴承故障诊断,这与先前工作的持续学习策略一致,确保模型适应新故障模式的同时保留基本知识。文献[139]和[140]中讨论的工作解决了故障频率差异和需要完全重新训练模型的问题。
基于以上分析,很明显ILFD方法在学习架构、主要挑战和系统对象方面表现出独特的研究趋势,总结如下:
● 学习架构(Learning Architectures):近年来,增量学习架构已逐渐从传统的浅层学习和集成学习方法转向具有更广或更深架构的诊断模型。对于基于增量离线学习的FD方法,深度学习框架正变得越来越占主导地位。特别是,终身学习和迁移学习等技术为解决新型故障模式和时变运行条件相关的挑战提供了机会[149]。相比之下,基于增量在线学习的FD方法仍然主要依赖于具有浅层架构的诊断模型。这些范式通常是轻量级的、训练快速且能够实时更新。因此,越来越多的方法利用这些范式来解决对模型部署要求高的任务,例如性能退化[55]。与经典的浅层学习或集成学习方法相比,基于RNNet的浅层学习方法因其能够平衡灵活性和模型容量而受到关注。
● 主要挑战(Main Challenges):在过去的十年中,关于ILFD的研究显著增长,特别是自2018年以来。随着应用需求的发展,现有研究的重点已从快速适应转向更复杂的挑战,例如在时变运行条件下有效处理故障分布漂移和新型故障模式。这些问题在高维复杂系统中尤其相关。同时,灾难性遗忘问题已成为一个重大问题。在学习过程中,诊断模型不断整合新信息,这可能导致忘记先前获得的知识,从而影响模型的长期性能。在模型更新效率、学习结果和数据多样性之间保持平衡已成为一个关键的研究重点。
● 系统对象(System Objects) :ILFD的应用在近年来显著多样化。最初,增量学习方法主要应用于机械系统的故障模式识别。随着研究的进展,其范围逐渐扩展到包括化学和其他复杂系统。此外,工业互联网和智能制造的快速发展推动了这些方法从组件级应用转向系统级应用。相关技术越来越期望整合来自各种来源和维度的数据,从而能够处理更复杂的故障模式,特别是那些与复杂交互和多因素影响引起的系统故障相关的模式。
注3:虽然准确率和F1分数等常用指标在故障诊断研究中被广泛采用,但目前尚无普遍标准化的评估框架,特别是对于ILFD。不同的研究根据应用特定需求、数据特征和实验设置选择评估指标。在ILFD场景中, 时间敏感指标如实时误报率(RTFAR)、实时漏报率(RTMAR)和累积平均指标(例如累积准确率和累积F1分数)已被提出,以更好地捕捉模型的适应性和长期稳定性。然而,这些专业指标尚未在学术界得到普遍标准化。
如表II所示,ILFD方法已应用于一系列领域。在本节中,我们简要讨论两个代表性的应用领域:1)机械系统;2)化学系统。
表II 近期典型基于增量学习的FD方法总结

注:SL表示浅层学习;SL*表示基于RNNet的浅层学习;EL表示集成学习;DL表示深度学习。
机械故障诊断具有重要的实际意义[150]。机械系统中的故障可能导致严重的安全隐患,对操作人员的人身安全构成威胁。此外,它们可能导致生产过程中断,对产品质量产生负面影响。机械系统通常包括轴承、齿轮箱、转子和泵等关键部件[54],[151]。这些系统通常配备大量传感器,能够收集高频数据,如振动、温度、压力和转速[152]。高采样率与先进特征提取技术的结合能够及时反映系统的运行状态。尽管有这些能力,在设计有效的诊断模型方面仍然存在若干挑战。 性能退化 是机械系统故障诊断中的一个关键问题,因为它直接影响离线阶段开发的评估方法的有效性[153]。随着时间的推移,系统部件应力和结构的变化可能导致功能故障,而退化过程通常是复杂且高度不可预测的。如图9所示,性能退化通常表现为监控数据分布的逐渐和连续变化。这些挑战凸显了在线操作期间诊断模型有效部署和持续适应的必要性。在这方面, 增量在线学习方法 具有更强的适应性,特别适合解决性能退化问题[55]。例如,He等人[55]提出了一种基于增量自适应更新的FD方案,在XJTU-SY轴承数据集的不同运行条件下达到了高达99.6%的准确率,这证明了增量学习在不断发展的工业环境中保持可靠诊断性能的实际优势。

图9 性能退化的可视化[55]。颜色表示轴承处于不同程度的退化过程中
化学过程的故障诊断多年来一直是一个重要的研究焦点。与其他工业过程中的故障类似,化学过程中的故障更有可能导致严重事故,例如有毒气体泄漏和爆炸[154],[155]。化学反应的速率通常是非线性的,许多遵循阿伦尼乌斯方程[156]。为了将过程参数维持在期望范围内,广泛采用反馈控制系统。然而,这些系统也在其响应和控制策略中引入了非线性。由于化学过程精确建模存在固有困难, 数据驱动的故障诊断方法 被普遍使用[157]。现代化学过程通常配备有传感器,用于收集复杂、高维和稀疏的故障诊断数据。温度、压力、流速和浓度等过程参数通常是相互依赖的,这些参数的异常变化都可能引发故障。与机械系统不同,化学过程中的采样频率通常较低,并且执行器输入通常具有延迟效应,导致响应滞后。这种延迟为增量在线学习方法 创造了有利条件,这些方法可以快速适应运行条件的变化,使其特别适合适应季节变化和生产调整。此外,化学过程的运行模式通常难以精确控制。例如,在高炉故障诊断中,煤粉质量的变化影响燃烧效率,进而影响运行条件。化学过程通常涉及多步和副反应,使新型故障模式的预测复杂化。如图10所示,时变过渡条件通常是不可避免的,并且由于操作差异,离线阶段的过渡条件数据通常不可用。在这种情况下, 增量更新策略 对于实时调整诊断模型至关重要。基于增量离线学习的故障诊断方法确保了在不同运行条件下的诊断效果。

图10 来自CSTR模拟的数据集示例[158]
在本综述中,我们首先简要回顾了故障诊断方法和增量学习技术的发展历史、概念定义和技术分类。讨论并分析了批量学习故障诊断(BLFD)方法与增量学习故障诊断(ILFD)方法之间的联系和区别。然后从两个角度彻底回顾了现有文献,并从三个不同的角度进一步讨论和分析了相关研究趋势。我们还分析了ILFD方法在代表性应用场景中应面对的挑战。需要注意的是,由于新出版物不断涌现,我们对任何遗漏表示歉意。
基于对现有文献的回顾,我们总结了未来研究的潜在方向如下:
1) 平衡及时性与数据需求:增量学习用于故障诊断的一个关键挑战是在及时进行故障检测与隔离(FDI)和获取足够数据进行有效学习之间取得平衡。现有方法通常假设系统在运行期间能够积累足够丰富的故障样本。然而,在实践中,一旦检测到严重故障,操作员通常会立即关闭系统。此外,考虑到故障通常发生在系统内部,专家很难实时为故障样本提供标注[159]。大多数现有方法忽略了标注过程的实施。未来的研究可以探索智能样本选择策略,优先选择信息量最大的数据进行更新,从而在保持学习质量的同时确保及时的FDI[143],[160]。
2) 时间感知更新策略:在现有文献中,诊断模型架构的设计取得了显著进展。然而,当前方法的更新策略通常不考虑系统测量之间的时间关系,而这在实际应用中是一个关键因素。在现实场景中,工业过程本质上是连续的。因此,设计 时间感知的诊断模型更新策略具有重要的研究意义,特别是对于基于增量在线学习的故障诊断方法。
3) 处理性能退化与模式转换:如第7节所述,在实际应用中,系统性能会随着时间的推移而退化。故障特征在不同运行条件下通常差异很大,而这些条件会极大地影响系统行为。现有方法通常假设系统在在线阶段能够保持在稳定过程中。ILFD诊断过程并未针对处理性能退化和运行模式转换进行精心设计。因此,研究 主动检测和适应机制的部署 对于解决这些挑战和提高系统鲁棒性至关重要。
4) 可解释性与动态XAI :尽管基于DNN的ILFD方法已表现出卓越的性能,但其缺乏可解释性限制了工程师对诊断结果的理解和信任。提高诊断模型的可解释性将极大地促进这些技术在实际生产中的采用。此外,将时间关系纳入模型解释过程,即动态可解释人工智能(XAI)术,对于理解动态系统中的状态变化至关重要,从而有助于故障定位等任务。
5) 资源受限下的优化:在实际工业环境中,终端计算资源通常有限,这对复杂诊断模型的更新提出了重大挑战。现有的基于增量离线学习的FD方法通常需要大量的计算资源。在资源受限的条件下,模型更新的有效性可能会受到影响。通过研究 轻量级模型架构和高效计算方法 ,有可能在终端设备上实现有效的故障诊断。因此,在资源限制下优化模型性能对于确保准确高效的实时ILFD至关重要。