本期给大家推荐李乃鹏教授的一种基于片段数据的非参数退化建模剩余寿命预测方法 。基于状态维修(CBM)通过预测设备剩余使用寿命(RUL),在设备发生故障前制定维修计划,是保证设备安全运行的有效手段。由于监测中断和/或传感器读数丢失会产生片段数据。而片段数据只记录了一个随机的退化过程,初始退化时间信息通常会丢失。因此,无法使用常用的时间相关建模框架对其进行建模。为解决这一问题,文章提出了一种基于片段数据的非参数退化建模方法用于RUL预测。该方法利用基于退化状态的函数定义剩余寿命。并提出了一种基于极大似然估计的主分析(PAMLE)算法来恢复故障单元的缺失数据。最后,通过疲劳裂纹扩展数据集和锂离子电池退化数据集验证了该方法的有效性。 论文链接 :通过点击本文左下角 的阅读 原文 进行在线阅读及下载。 论文基本信息 论文题目:
A nonparametric degradation moldeling method for remaining useful life prediction with fragment data
论文期刊: Reliability Engineering and System Safety
论文日期: 2023年
论文链接:
https://doi.org/10.1016/j.ress.2024.110224
作者:
Naipeng Li (a), Mingyang Wang (a), Yaguo Lei (a), Xiaosheng Si (b), Bin Yang (a), Xiang Li (a)
机构:
a: Key Laboratory of Education Ministry for Modern Design and Rotor-Bearing System, Xi'an Jiaotong University, Xi'an Shanxi 710049, PR China;
b: Zhijian Laboratory, Roket Force University of Engineering, Xi'an 710025, PR China.
通讯作者邮箱:
yaguolei@mail.xjtu.edu.cn 作者简介:李乃鹏 ,西安交通大学副教授,入选第八届中国科协青年人才托举工程,2017-2019年在国家留学基金委资助下赴美国佐治亚理工学院进行联合培养,2019年9月获得西安交大工学博士学位。长期从事工业大数据与人工智能、高端装备数字孪生建模、机械装备寿命预测与智能运维方面研究工作。在Springer出版社出版英文专著1部,获国家科学技术出版基金资助,参与撰写Elsevier出版的英文专著1部,获第十七届输出版优秀图书奖;在《Mechanical Systems and Signal Processing》、《IEEE Transactions on Industrial Electronics》、《机械工程学报》等本领域权威期刊发表高质量学术论文40余篇,其中ESI热点论文4篇、ESI高被引论文5篇。参与制定国家标准4项,授权国家发明专利25项,其中10余项已在风电装备、工业机器人、汽车、地铁、国防装备等进行应用,取得了的一定社会经济效益。博士学位论文获陕西省优秀博士学位论文;研究成果获陕西省自然科学一等奖(第2完成人)、陕西高等学校科学技术一等奖(第2完成人)、中国华电集团科技进步一等奖(西安交大所有参与人中排名第1)等科技奖励。目录 1 摘要 基于状态维修(CBM)通过预测设备的剩余使用寿命(RUL)在设备发生故障前制定维修计划,是保障装备运行安全的重要手段。状态监测数据是健康状态评价和寿命预测的基础。在理想情况下,应该从健康阶段开始连续收集监控数据,直到生命周期结束。然而,在实际的工业情况下,由于监测中断和/或传感器读数丢失,经常存在片段数据。片段数据的主要特点是它们只记录了退化过程中的一个随机阶段。初始退化时间信息通常会丢失。因此,无法使用常用的时间相关建模框架对其进行建模。针对上述问题,本文提出了一种基于片段数据的RUL预测的非参数退化建模方法。该方法通过两步轴变换,构建了一种新的状态相关退化建模框架。它利用基于退化状态的函数来定义剩余寿命。基于函数型主成分分析(FPCA),提出了一种基于极大似然估计的主分析(PAMLE)算法来恢复故障单元的缺失数据。在此基础上,提出了一种基于片段数据的面向剩余寿命预测优化算法(POO)对在役装备的RUL进行预测。该方法既能处理数据恢复问题,又能处理剩余寿命预测问题。最后,通过疲劳裂纹扩展数据集和锂离子电池退化数据集验证了该方法的有效性。 关键词: 剩余使用寿命预测,非参数退化模型,片段数据恢复,函数型主成分分析
2 引言 状态维护(CBM)是一种基于设备在线状态监测数据进行维护决策的健康管理方案。它是公认的保证工业设备安全的有效方法。CBM的主要过程是基于状态监测数据评估设备健康状态并预测剩余使用寿命(RUL)[1]。基于RUL预测结果,可以调度预测性维护决策。如何根据在线状态监测数据对设备退化行为进行建模和预测是CBM的一个重要问题。统计退化建模是解决这一问题的有效方法,它通过对历史数据的统计分析来描述数据的退化轨迹[2]。
在现有文献中发展了各种统计退化模型。它们可以分为两类: 参数退化模型和非参数退化模型。 参数化退化模型,顾名思义,使用包含未知模型参数的特定函数形式来描述退化过程。模型参数需要通过对历史数据的统计分析来估计。常用的参数化退化模型包括随机系数模型[4,5]、Wiener过程模型[6,7]、gamma过程模型[8-10]和逆高斯过程模型[11-13]。这四种参数化退化模型用一种时变函数来描述退化过程。通过选择合适的函数形式,如线性函数、指数函数和幂律函数,可以描述设备的整个退化趋势[14]。退化过程的不确定性是通过在状态观测函数或在特定模型参数中引入不同的随机噪声来确定的。在许多工业情况下,设备的退化过程是复杂和时变的,很难用特定的函数形式来精确描述。非参数建模技术被引入到退化建模的研究中。非参数退化建模的目的是通过对历史退化数据的分析自动构建模型。它不需要预先指定任何函数形式。因此,从理论上讲,它在处理复杂的退化过程时更加灵活。
一些常用的非参数退化建模技术包括高斯过程(GP)回归、样条函数回归、核回归、函数型主成分分析(FPCA)等。GP回归将退化过程定义为具有联合高斯分布的随机变量的集 合[15,16]。它通过适应不同的数据分布来捕捉复杂的非线性关系,具有很高的灵活性。然而,该方法需要选择合适的核函数,并且核函数的选择对建模结果的准确性有很大影响。样条函数回归用几种基函数的组合,如常用的正弦基和B样条基函数[17]来定义退化曲线。它能适应不规则数据形状,但容易发生过度拟合,并且需要仔细选择节点。另一方面,核回归通过使用核函数[18]评估每个训练单元和测试单元之间的相似性来预测训练单元的加权和。与线性回归不同,核回FPCA归不假设变量之间存在线性关系。它可以有效地对线性和非 线性依赖关系进行建模。然而,该方法对核函数的选择也很敏感。FPCA是处理函数型数据的主成分分析的增强版本[19,20]。它是退化建模中应用最广泛的非参数技术之一。传统的基于FPCA的退化模型通过以下随时间变化的函数[21]来描述设备退化过程:
其中 为退化过程的平均趋势, 是由协方差函数分解出来的前 个函数主成分(FPCs)。 为第 个FPC对应的分数。线性组合 描述了每条退化轨迹与种群平均趋势的偏差。 是一个随机变量,在固定的 下服从正态分布 。与参数模型不同的是,式(1)中的均值函数和FPC并没有预先指定为特定的函数形式。它们是通过对历史数据的统计分析自动得出的。理论上,非参数退化模型在描述各种退化趋势方面更为灵活。 由以上介绍可知,常用的退化模型,包括参数模型和非参数模型,都将健康状态或代表健康状态的指标定义为基于时间变量的函数。应该注意的是,大多数工业产品一般都处于长期的健康阶段。从第一次退化时间(FDT)[22]开始计算退化过程。在实际应用中,状态监测系统通常采用高密度离散采样策略来获取监测数据。FDT可以通过检测退化轨迹的变化点来识别。然后,通过计算观测时间戳与FDT点之间的时间间隔,可以计算出每次观测的退化时间,如 图1 所示。退化时间 。其中 为每次观测的时间戳, 为FDT的时间戳。 表示状态级别达到失效阈值时的时间戳(EoL)[23]。然而,在某些工业情况下, 由于数据传输中断和/或传感器读数丢失,状态监测过程经常中断。因此,只有一组片段数据可用 。图1提供了片段数据的示例。片段数据的一个主要特征是在数据集中只记录生命周期内的随机观察片段。退化过程开始时的观测结果可能由于监测中断而丢失。在这种情况下,无法根据碎片数据检测FDT ,导致退化时间不可用。因此,时间相关的退化建模方法在这种情况下不起作用。 图1 片段数据的一个示例
根据设备的退化阶段,可将片段数据源分为两类。 第一类片段数据是由于严重损坏而导致失效或停止的设备的历史记录片段 。在这种情况下,在这种情况下,只记录了部分退化过程和 。在不完全退化轨迹中丢失了一些重要的退化信息。恢复丢失的数据有助于进行准确的退化建模和失效分析[24,25]。 第二类片段数据是从处于部分退化阶段的在役设备中捕获的 。由于设备尚未达到故障级别,因此其EoL时间戳不可用。我们主要关注的是使用可用的片段数据来预测在线设备的剩余使用寿命(RUL)。综上所述,上述两种不同情况下的主要任务是不同的。在设备失效的情况下,任务是根据可用的片段数据恢复丢失的退化信息。对于在线设备的任务是根据片段数据预测剩余寿命。
针对上述两个问题,本文提出了一种新的非参数退化建模方法。考虑到在片段数据的情况下无法获得退化时间的信息,因此我们不制定依赖于退化时间的退化过程。相反,我们设计了一个新的依赖于状态的退化模型,其中RUL被描述为依赖于状态的函数。建模过程的基本思想如 图2 所示,可以从一般坐标系出发,通过两步轴变换展开。首先,通过X轴反向将退化时间转换为RUL变量。然后,通过轴向旋转交换X轴和Y轴。两步轴变换的动机解释如下。对于故障单元,它已在到达故障阈值失效。因此,EoL时间戳可以从历史记录中跟踪,可以将其表示为 。时间戳通常与每个状态观察同步记录 时刻的RUL可以表示为 。因此,在单元失效的情况下,通过轴的反向,片段数据的未知变量(退化时间)在 X 轴上变成了已知变量(RUL)。在服役单元的退化尚未达到失效阈值水平的情况下,RUL值是未知的,这实际上是我们需要预测的。唯一可用的数据集是一系列状态观测及其相应的时间戳。轴旋转步骤将RUL重新表述为状态相关函数。该转换将未知变量(RUL)重塑为因变量,将已知变量(退化状态)重塑为自变量。由于预测的主要目的是根据已知的状态观测来预测未知的RUL,因此对于预测任务来说,这个定义比依赖时间的模型更直接。此外,它还保证截断的退化信号在 X 轴上具有相同的尺度,这是FPCA应用中的基本要求[26,27]。经过两步轴变换后,变换后的片段数据可以很容易地利用FPCA技术进行建模。在非参数建模框架的基础上,提出了一种基于极大似然估计的主分析(PAMLE)算法来恢复故障单元的缺失数据。如 图2右子图所示,通过轴的旋转,RUL预测问题转化为迭代优化问题。优化的目标是找到一个RUL值,该值可以提供片段数据与退化模型之间的最佳匹配关系。为了解决这一问题,提出了一种面向剩余寿命预测的优化算法来预测在役机组的RUL。在优化过程中,观测曲线在坐标系中的垂直位置不断变化。一旦确定了它的位置,在役机组的RUL也就确定了。因此,该方法既能处理故障单元的数据恢复任务,又能处理碎片数据情况下在用单元的RUL预测任务。本研究的主要贡献如下: 1) 针对片段数据的描述,构造了一种新的状态依赖退化模型。与常用的随时间变化的退化模型相比,该模型有两个明显的区别。使用RUL代替退化时间作为时间尺度变量,因为在片段数据的情况下,退化时间通常不可用。通过交换时间域和状态域,RUL被表述为退化状态的函数。这个公式对于RUL预测任务来说更直接。 2) 在此基础上,提出了一种非参数化建模方法。该方法利用FPCA技术对退化模型进行估计。提出了一种PAMLE算法来恢复失效单元的丢失数据,并提出了一种POO算法来预测在用单元的RUL。该方法的一个主要技术贡献是将RUL预测问题转化为迭代优化问题,这是对RUL预测研究的一种新的尝试,也是一种更灵活的策略,可以应用于片段数据场景。 本文的其余部分组织如下。第2节介绍了使用FPCA进行退化建模的一般框架,即本研究中我们提出的方法的基本理论。同时指出了它在处理片段数据方面存在的问题。第3节提出了一种基于轴变换的状态相关退化模型,并在此基础上提出了一种针对片段数据情况下的数据恢复和RUL预测的非参数退化建模方法。在第4节中,使用两个案例研究演示了所提出的方法,包括疲劳裂纹扩展数据集和锂离子(Li-ion)电池退化数据集。在第5节得出了一些结论。 3 利用FPCA进行退化建模 我们假设不同单元的退化是相互独立的。根据传统的基于FPCA的退化建模框架,特定单元的退化过程可以表示为一下的时间相关函数[21]: 其中 是单元n在t时刻的状态值, 是退化过程的基本平均趋势,假设在不同单元之间是一致的。 描述了单元n与平均趋势之间的偏差,假设它是一个随机值,均值为 0 ,协方差为 。 是一个独立同分布噪声,在固定的t值下,均值为 0 ,方差为 。 和 是相互独立的。 考虑到偏差项 由于不同单位之间的差异而不易直接计算,我们将该随机项转换为一组相互正交的随机分量,以保留基本信息并减少信息冗余。根据Karhunen-Lo´eve定理 [19,28],协方差可以分解为正交泛函主成分(FPCs)的线性组合 : 每个主成分实际上定义了偏差中最重要的变化模态,每个模态与前面步骤中定义的所有模态正交。有不同的方法来确定FPCs的数量,这些方法提供了无限维过程[19]的合理近似值,例如单曲线遗漏交叉验证,赤池信息准则(AIC)等。在这里,我们选择占解释的函数方差90%以上的前P个元素来近似无限展开形式。偏差项 可以投影到正交泛函基中: 其中为 FPC分数,是均值为0,方差为 的独立随机变量。 表示单元n的偏差在第p个主成分量上的投影。将式(4)带入式(2)中,退化模型重新表述为: 3.2 片段数据描述中的时变退化模型问题
上述时间相关退化模型为统一时间间隔内不同单元退化数据的统计分析提供了有效的解决方案[21]。然而,在处理片段数据时,它受到以下两个主要问题的限制。
(1) 时间依赖模型在没有退化时间信息的情况下,无法对片段数据建模。 如图1所示,片段数据仅涉及生命周期内观察的随机切片。每个数据段从随机退化状态开始记录。当退化过程开始时,没有依据可以追踪FDT。由于退化时间等于 ,其中 为每次观测的时间戳,因此如果没有重要信息 ,我们就无法获得退化时间。时间相关退化模型将状态状态定义为时间变量的函数。如果没有退化时间信息,就对片段数据进行建模。 (2) 时间依赖模型要求所有单元必须共享相同的观测时间尺度。 由式(5)中的定义可知,该模型对同一时域[0,T]内各单元的退化数据进行分解。它要求所有单位必须共享相同的观测时FPCA间尺度。这一源自传统的基于FPCA的模型,其中X轴上的变量必须共享相同的比例。然而,在大多数工业情况下,一旦设备的退化数据达到预定的故障阈值,就应该立即关闭设备,这是一个严格的要求。因此,在故障阈值之外无法观察到任何结果。这类数据被命名为截断的退化数据[3]。如果使用FPCA技术直接对截断的退化数据进行建模,则观测值的偏倚选择将导致对均值和协方差的偏倚估计,从而导致对退化过程的不准确估计。文献[26]系统地讨论了这个问题,提出了一种新的轴旋转策略来处理这个问题。借助轴的旋转,将时间变量变为Y轴,将状态级别重塑为X轴。每个单元的退化过程可以在相同的状态区间内表示 ,其中为 初始状态值, 为失效阈值。 通过以上分析,可以得出传统的随时间变化的退化模型不适用于片段数据的情况。针对上述问题,采用两步变换策略对碎片数据进行重构。在此基础上,建立了一种新的状态相关退化模型。在此基础上,提出了数据恢复算法和RUL预测算法 4 片段数据的非参数退化建模 所提出的非参数退化建模方法流程图如图3 所示,该方法由状态依赖模型构建、失效单元片段数据恢复 和在役单元RUL预测 三个模块组成。在第一个模块中,首先使用两步轴变换策略对训练单元的退化数据进行变换。然后,利用FPCA技术对转换后的数据进行分析,建立状态相关的退化模型。第二个模块的目的是恢复故障单元的丢失数据。在该模块中,首先使用PAMLE算法根据片段数据估计FPC分数。然后,根据估计的FPC分数恢复缺失数据的分布。第三个模块是基于片段数据对在役单元RUL进行预测。开发了一种POO算法来寻找最优RUL值,该值在片段数据的观测值和估估值之间提供最佳匹配。 图3 提出的非参数退化建模方法流程图
4.1 状态依赖退化模型构建 我们考虑在实践中常用的离散采样策略,其中在一系列时间内监视每个单元的健康状态。单位n的数据段记录为 ,并带有相关的时间戳 ,其中 表示来自单位n的数据个数。如果该单元已达到故障阈值,则其EoL时间戳 可从事件记录中追溯到。为了将片段数据与状态相关的模型拟合,首先使用以下两步轴转换对它们进行重塑。 记录片段数据中的退化过程,从随机退化阶段开始。我们无法从数据集中追踪退化过程的初始时间。然而,退化过程的结束时间一般是记录的。与每个观测值相关的RUL可以使用逆函数 来计算。之后,当 时,用新的坐标值 记录所有数据段。通过上述X轴反变换,使每个单元的退化轨迹与RUL变量保持对齐。 在工业情况下,原始退化数据在失效阈值处被截断。X轴上的寿命在不同的单位之间是不同的。为了将截断的退化数据与FPCA技术匹配,进一步采用轴向旋转策略[26]对数据进行变换。该策略交换了X轴和Y轴上的变量。例如,将退化状态放在X轴上,将RUL变量放在Y轴上。换句话说,退化轨迹表征了RUL在状态层面上的演变。由于各单元的状态尺度在同一区间 内,因此变换后的数据更适合用FPCA进行建模。此外,由于预测的主要目的是根据可用的退化数据预测RUL,因此将RUL作为状态级别的函数来制定预测任务更为直接。 经过上述两步轴变换后,变换后的数据使用以下状态相关退化模型描述: 其中, 表示状态s下单元n的RUL, 表示总体的基本平均趋势, 表示与平均趋势的偏差, 是一个独立的同分布噪声项,在固定t值下均值为0,方差为 ,它与 相互独立。需要说明的是,上述状态相关模型仅在原始退化曲线为单调时才存在。在有噪声的退化数据中,由于一个状态可能对应多个时间点,这是不现实的。为了满足单调性,可以在轴变换前用单调基函数对噪声数据进行平滑处理。 式(6)中的状态依赖模型与式(2)相似,但又有所不同。式(2)表述了退化状态随时间的演变。式(6)描述了RUL随退化状态的变化。通过对偏差项 的分解,将式(6)重新表述为: 其中 是从协方差 中分解的正交FPCs。 是相应的FPC分数。 均值函数 和协方差函数 可以根据可用的片段数据,利用局部线性平滑度进行估计[19,27]。 的估计值通过最小化以下加权平方和来定义: 其中N为失效单元的数量, 是带宽为 的核函数, 的估计值 。 令 。 由于偏差项 和噪声项 相互独立,则有 ,其中 为狄拉克测度,即如果 则 ,否则为0。对角线元素包含测量噪声的方差。为了消除测量噪声的干扰,对角线元素被去除。当 时,用 的剩余元素来估计协方差, 的估计值通过最小化以下准则来定义: 如果将 的对角线元素也输入到式(9)中,则估计的对角线曲线为 ,其中 为 的对角线曲线。因此,方差 的估计可以近似为: 其中 是常用的激活函数,如果 等于1,否则等于0。 其中,对于 是与有序非负特征值 相关的特征函数。在这里,我们选择占解释的函数方差90%以上的前P个元素来近似无限展开形式。 到目前为止,状态相关退化模型的基本组成部分,包括均值函数、FPCs和方差,都是基于可用的片段数据进行估计的。基于所构建的模型,将在以下小节中讨论两个实际问题:(1)如何使用故障单元的片段数据恢复其丢失的数据,(2)如何使用其片段数据预测在役单元的RUL。 如果只计算每个单元对应的FPC分数,则可以使用式(7)中构建的模型来表示每个单元的退化轨迹。FPC分数的解析解为: 。对于从 到 有足够观测值的失效单元,FPC分数的数值近似可以用 来计算。然而,片段数据仅涉及部分观测,不足以提供准确的FPC评分估计。为了获得部分可用数据的可接受的FPC分数估计,通过最大似然估计(PAMLE)算法进行如下主成分分析。 我们考虑一个失效单元,其部分退化数据和EoL时间戳被观察到。观测时间戳为 对应的状态值为 。单位的EoL时间戳记录为 。因此RUL值 很容易计算出 。令 , , 。根据式(7),在相应的状态 上,RUL值 ,服从多维正态分布 ,其中 是一个 阶的单位矩阵。FPC分数 的对数似然函数取决于 ,表示为: 根据FPC分数的估计,退化状态s下退化轨迹的预期RUL值可由下式恢复: 我们进一步考虑一个仅部分退化的在役单元。片段数据集记录状态观测 和时间戳 。由上面的分析可以看出,只有根据现有数据计算FPC分数,才能恢复机组的退化过程。然而,在使用情况下,实际的RUL值是不可用的,这实际上是我们预测性维护的主要关注点。因此,FPC分数不能通过式(13)来估计。为了解决片段数据情况下的RUL预测问题,我们开发了以下POO算法,其流程图如图3所示。 已知对于 ,时间方程总是存在 。因此,每个时间点的RUL与最后一个时间点的RUL是线性连接的。 将上述方程进一步输入到式(12)中。对数似然函数变为剩余寿命相关函数。因此,将RUL预测问题转化为优化问题,目的是寻找最优的RUL值,使 与估计的 最匹配。相应的目标函数可简化为: