继上期MSSP综述|数据驱动预测的全面综述和评估框架:不确定性、鲁棒性、可解释性和可行性(上),本期给大家推荐数据驱动预测的全面综述和评估框架:不确定性、鲁棒性、可解释性和可行性(下)。这篇综述系统梳理了基于机器学习、随机模型和贝叶斯滤波器的预测方法,深入剖析了它们的优势与局限。同时,为弥补现有研究的不足,文章还提出了一种结构化的模型评估框架,框架将用户的具体需求与文献综述中确定的关键模型特征相结合。通过量化这四个特征的重要性,提出的框架能够系统地评估和选择预测模型。
论文题目:
A comprehensive review and evaluation framework for data-driven prognostics: Uncertainty, robustness, interpretability, and feasibility
论文期刊:Mechanical Systems and Signal Processing
论文日期:2025年
论文链接:
https://doi.org/10.1016/j.ymssp.2025.113015
作者:Mariana Salinas-Camus (a), Kai Goebel (b)(c), Nick Eleftheroglou (a)
机构:
a: Intelligent System Prognostics Group, Aerospace Structures and Materials Department, Faculty of Aerospace Engineering, Delft University of Technology, Kluyverweg 1, Delft, 2629HS, The Netherlands;
b: Fragum Global, Mountain View, CA 94040, USA;
c: Luleå University of Technology, Luleå, 971 87, Sweden.
通讯作者邮箱: m.salinascamus@tudelft.nl
摘要
1 引言
2 预测中的关键特征
2.1 不确定性
2.1.1 机器学习模型
2.1.2 随机模型
2.1.3 贝叶斯滤波器模型
2.1.4 不确定性管理的挑战
2.2 鲁棒性
2.2.1 机器学习模型
2.2.2 随机模型
2.2.3 贝叶斯滤波器模型
2.3 可解释性
2.3.1 机器学习模型
2.3.2 随机模型
2.3.3 贝叶斯滤波器模型
2.4 可行性
2.4.1.机器学习模型
2.4.2 随机模型
2.4.3 贝叶斯滤波器模型
3 案例研究
3.1数据预处理
3.2 基准模型
3.3 不确定性
3.4 鲁棒性
3.4.1 跨故障模式的自适应
3.4.2 带噪声数据
3.5 可解释性
3.6 可行性
3.6.1 计算时间
3.6.2 可用训练数据的影
3.7 灵敏度分析
4 模型评估框架
6 结论
本案例研究基于本文讨论的四个关键特征,对三种模型进行对比分析。在机器学习模型方面,采用长短记忆神经网络(Long Short-Term Memory, LSTM)。该模型在预测领域应用广泛,通常能提供最佳准确率,其设计灵感源自文献[28]提出的模型。随机模型方面选用自适应隐半马尔可夫模型(Adaptive Hidden Semi-Markov Model, AHSMM),该模型以适应未知数据著称,其框架设计参考了文献[82]的理论基础。最后在贝叶斯滤波(Bayesian filters, BFs)方面,基于文献[99]所述方法,选择粒子滤波(Particle Filter, PF)进行应用,该模型因在各类工程系统中广受认可且性能优异而被选用。
本研究基于C-MAPSS数据集,对不同设计的数据驱动模型(Data-Driven Model, DDM)模型进行对比分析。通过均方根误差(Root Mean Square Error, RMSE)指标结合测试集预测值的标准差(Standard Deviation, SD)来评估模型精度。我们通过多项实验,从四个关键维度对各模型性能展开系统性评估。
使用基准训练数据,优化了三个模型的超参数。下面解释了每个模型的架构和相应的训练过程。
LSTM的输入由三个样本的窗口组成。这种选择是由于LSTM需要接收长度一致的输入并以在线方式使用,因此需要对数据进行窗口化操作。窗口长度的选择是基于验证过程。 LSTM的架构如图6所示。该模型通过引入dropout来提高准确率,并通过使用蒙特卡洛(Monte Carlo, MC) dropout方法来应对预测中的不确定性。每个LSTM层的神经元数量和dropout概率是通过随机搜索确定的。 采用的隐半马尔可夫模型(Hidden Semi-Markov Model, HSMM)模型基于文献[82]提出的架构。该模型包含7个损伤状态,通过贝叶斯信息准则(Bayesian Information Criterion, BIC)[86]进行筛选。虽然增加更多状态可能略微提升BIC指标,但计算成本的增加超过了其带来的优势,因此最终确定采用7个状态。在该HSMM中,停留时间由韦布尔分布定义。韦布尔分布由两个参数决定:形状参数和尺度参数。自适应模块会在隐藏状态间转换后,通过调整尺度参数来修正停留时间。具体而言,尺度参数的调整依据是训练参数预测的预期停留时间与实际驻留时间之比,并结合退化历史进行动态调整(详见图7)。 PF为文献[99]的研究成果。具体而言,我们采用了基于相似性分析的PF方法。退化模型选用四次多项式进行建模,这种选择既能有效捕捉非线性退化趋势,又可避免过拟合问题。该次数既保证了足够的灵活性,又不会引入不必要的复杂度。所采用的相似性度量指标是最大均值差异(Maximum Mean Discrepancy, MMD)[142]。
图7 具有7个状态(最后一个状态可观察)的HSMM
该框架的工作流程如下:
•训练阶段:将每个训练历史数据拟合为多项式,并保存多项式参数。
•状态转移函数:对粒子(即定义曲线的参数集 合)舔加随机噪声扰动。
•观测函数:该函数用于计算粒子参数在指定时间步长下所定义的曲线值.
在测试阶段,收集截至当前时间步长的传感器数据。MMD用于识别哪些训练历史与当前数据最相似。当某训练历史的MMD值低于设定阈值(本文中设为0.01)时,该记录将被纳入分析范围。若所有训练历史均未满足此阈值,则仅采用MMD值最优的历史记录。
PF使用从最相似训练历史的拟合多项式中导出的参数进行初始化。识别这些相似的训练历史需要访问一些测试数据样本。因此,PF只能在在线操作期间观察到预定数量的样本(在本研究中选择为10个数据点)后才能开始提供预测。因此,在接下来的预测图中,PF是唯一一个从一开始就不生成预测的模型。使用150个粒子,PF通过随机扰动每组参数来实现所需的粒子数
PF运行到所有粒子的平均值达到故障阈值,表示预测的传感器值已达到故障状态,此时PF停止运行。图8总结了PF的训练和测试过程。
图8 基于相似性的PF算法
预测的覆盖度计算为长度为𝑇的退化历史数据的 的平均值。因覆盖值为1表示所有真实值均落在各自的预测区间内
WSU指标[32]如公式(3)所示。该表达式通过计算置信区间之间的面积来评估预测准确性,同时对生命周期末期较宽的置信区间施加惩罚系数。之所以设置这种惩罚机制,是因为随着时间推移积累的信息量会不断增加。因此,随着观测时间的延长,预测结果的不确定性将逐渐降低。
表4展示了基准测试集的平均覆盖率和WSU值。需要特别说明的是,置信区间代表RUL概率密度函数的95%置信水平。结果显示AHSMM模型取得了最佳覆盖率,结果近乎完美。但这种高覆盖率是以置信区间过宽为代价的,这一点从AHSMM模型最高的WSU值中可见一斑。当在图10中可视化置信区间时,这种权衡关系尤为明显——AHSMM的置信区间过宽,从决策角度而言已失去参考价值。这一现象与第2.1节讨论的其他随机模型表现一致。
表4 基线病例不确定性预测模型的结果
图10 不同预测模型的不确定性比较
相比之下,LSTM和PF模型的覆盖率都较低,这使得它们的预测在决策中不可靠,因为它们的置信区间无法包含真实的RUL值,导致过度自信或不准确的预测,这可能导致PdM框架失效并降低其可信度。
在开发更可靠的模型时,建议采用覆盖度指标来校准不确定性,确保其达到支持决策的阈值。对于LSTM和PF模型而言,这种校准相对简单,因为其不确定性程度取决于用户自定义参数:LSTM的丢弃概率和PF的处理噪声与观测噪声。然而,调整这些参数可能会影响模型的准确性和不确定性覆盖范围。例如,使用不同的丢弃值会导致覆盖度发生显著变化(如文献[32]所示)。但本研究选择的参数是基于其最优准确性的考量。因此核心问题在于:模型需要达到何种可靠程度才能有效支持决策制定?
然而,AHSMM面临的是相反的挑战:在不显著降低覆盖范围的前提下缩小置信区间。例如,如文献[84]所示,基于相似性的方法已被证明能够有效缩小置信区间。此外,探索其他预测指标也有助于进一步缩小这些区间的范围。
本研究未深入探讨不确定性分类的复杂性问题,因为要在这些模型中实现此类机制需要更深入的开发,这已超出现有文献的讨论范畴。研究重点在于理解前沿模型的能力,并评估其计算出的置信区间与RUL值是否具备决策可靠性。此外,由于不同模型捕捉到的不确定性来源存在差异(例如LSTM模型对应认知不确定性,而AHSMM模型处理随机不确定性),这种比较可能不够全面。因此,若所有模型都同时考虑两种不确定性类型,表4中呈现的结果可能会出现显著差异。
通过两个实验来评估预测模型的鲁棒性。第一个实验评估在不同故障模式的数据上进行训练和测试时的性能表现。第二个实验通过在基准案例研究的输入数据中引入噪声,来评估其对性能的影响。
图11 鲁棒性情况下的寿命分布
表5展示的结果表明,当应用于鲁棒性测试集时,所有模型的准确率均出现显著下降。考虑到训练数据集与测试数据集中故障模式的差异,性能下降在意料之中。在各类模型中,AHSMM以最低的RMSE表现出最佳性能,这表明其自适应机制使其能够更有效地处理故障模式的变化。相比之下,PF的表现最差,这与预期一致,因为PF严重依赖训练数据,在遇到不熟悉的退化模式时容易产生不准确的结果。
表5 预测模型鲁棒性比较结果
表6进一步分析了各模型在覆盖率和WSU指标上的表现。尽管AHSMM的覆盖率出现显著下降,但该指标仍优于其他模型。不过其WSU指标却大幅攀升,这表明虽然模型仍能保持部分预测能力,但在这种条件下,其预测结果的不确定性显著增加。PF模型在覆盖范围方面受到的影响最大,进一步突显了其处理不同故障模式的局限性,而LSTM在覆盖范围和WSU方面保持了AHSMM和PF之间的中间地带。
表6 基准案例不同预测模型的不确定性结果
为了可视化测试集上的一些预测,图12显示了三个选定发动机的三个模型的预测。这些发动机是根据其寿命选择的:发动机#99,在测试集中寿命最短;代表中值寿命的94号发动机;以及寿命最长的发动机#55。
图12 三种不同发动机的预测模型鲁棒性情结果
当发生状态转换时,AHSMM的预测会得到改善,从而触发适应机制。这是由于模型的设计考虑到了给定测试引擎在特定隐藏状态中预期停留时间和实际停留时间之间的差异。然而在PF模型中,引擎#94和#55的预测结果明显不准确,因为这些引擎的实际寿命与训练集中的数据存在巨大差异,导致模型缺乏有效的对比依据。一种可能的改进方案是采用类似AHSMM的机制——当预测偏差超出阈值时,模型会生成更多代表不同退化过程(即不同多项式曲线)的粒子进行调整。这表明在随机模型和BF中,基于实时测试数据的自适应调整是可行的,因为这些模型能够模拟实际退化过程,并根据在线测试的实时数据动态调整自身参数。相比之下,LSTM直接将传感器数据映射到RUL标签,这使得模型在遇到未见数据时难以调整预测结果。正如第2.2节所述,这种现象在监督式机器学习模型中普遍存在。这类模型需要系统所有健康状态的标注数据,才能在处理不同故障模式的数据时更精准,而工业应用中往往缺乏这类数据。值得注意的是,LSTM的预测结果往往会随着发动机寿命延长而趋于稳定,此时各发动机的传感器数据已趋于一致。
这项实验揭示了预测模型在应用于与训练数据集故障模式不同的场景时面临的挑战。得益于自适应特性,AHSMM模型的表现优于LSTM和PF模型,但仍存在准确率显著下降和不确定性增加的问题。研究结果表明,开发能适应多样化运行条件和故障模式的模型至关重要,因为实际应用中往往涉及复杂多变的设备退化模式。模型性能的大幅下降也表明,为确保在各类场景中实现可靠的预测效果,必须进一步提升模型的泛化能力。
像LSTM这样的模型可以通过整合迁移学习或领域自适应等技术获得显著提升,这些方法在2.2节已有详细讨论。这类技术能让模型从相关任务或数据集中获取知识,从而在训练数据不足或运行工况变化时表现更优。通过使用目标域少量标注数据对LSTM模型进行微调,迁移学习可帮助其适应新型故障模式或性能退化特征。类似地,领域自适应技术能增强模型对测试数据波动的适应能力,确保在不同运行环境中保持稳定可靠。运用这些技术可有效提升LSTM的泛化能力,使其在实际应用中应对数据与训练集差异显著的情况时更具优势。
该实验旨在评估模型处理噪声输入数据的能力。为此,使用基准案例的数据,其中训练集和测试集均包含相同的故障模式。在训练集和测试集的所有退化数据中,均添加了均值为0、标准差为0.25的高斯噪声。这种噪声模拟了现实场景中可能出现的传感器误差或数据损坏问题。图13直观展示了原始数据与含噪数据的对比,清晰呈现了噪声对退化数据的影响。该设置测试了模型的鲁棒性及其在输入数据中引入扰动的情况下保持准确性的能力。 表7和表8中的结果展示了不同预测模型在面对噪声输入数据时的性能。PF的性能明显下降,RMSE急剧增加179.66%,为67.26。这表明PF模型对添加的高斯噪声高度敏感,导致预测精度显著下降。同样,LSTM模型的RMSE增加了23.86%,为47.13,表明虽然LSTM受到噪声的影响,但与PF相比,其性能退化并不严重。另一方面,AHSMM模型的RMSE增加幅度较小,为7.83%,达到37.18,这表明它对噪声更具弹性,在具有噪声干扰的条件下能够更好地保持预测精度。
图13 输入噪声数据
表7 具有噪声数据的预测模型的结果
表8 对于噪声数据不确定性的预测模型结果
在覆盖率方面,AHSMM模型表现最佳,覆盖率高达0.92,尽管与无噪声数据相比性能略有下降。这表明即使存在噪声干扰,AHSMM模型仍能持续在预测区间内捕获最多真实值。相比之下,LSTM模型的覆盖率出现显著下滑,说明当数据存在噪声时,LSTM难以保持精准预测,导致其在预测区间内捕获真实值的能力下降。PF模型的覆盖率最低,仅为0.16,这与其在基准测试中已显现出的有限性能相吻合。
与之前不同故障模式的实验类似,AHSMM表现出卓越的鲁棒性,成为最具弹性的模型。尽管存在噪声,它仍保持相对较高的预测精度和覆盖率。相比之下,PF和LSTM模型对噪声更敏感,导致性能显著下降,有效处理不确定性的能力降低。这突显了AHSMM在管理具有挑战性的条件方面的优势,而PF和LSTM模型在嘈杂的数据输入下难以保持可靠性。
图14展示了三种选定发动机在噪声数据下的预测结果对比。将其与图9中基于无噪声数据的预测结果进行对比。通过对比两组结果,可以清晰观察到噪声对RUL预测的影响,在数据引入噪声后预测准确性和可靠性显著变化。
根据第2.3节讨论的文献可知,目前预测领域的可解释性研究大多聚焦于特征重要性分析。然而,本研究涉及的三个模型仅使用单一特征进行训练,因此输入数据与预测结果之间的关联性较为直接。基于此,我们对模型的可解释性进行了定性分析。 AHSMM是一个相对可解释的RUL预测模型,主要是由于其结构化方法和威布尔分布,这在可靠性分析中得到了广泛的应用。威布尔分布的参数,特别是尺度参数,是基于实时数据动态调整的,这使得模型能够适应系统的实际退化轨迹。这种自适应机制提供了一种清晰易懂的方法,将模型的预测与观测数据联系起来,增强了其可解释性。图15展示了发动机#37(寿命为170个循环)的隐藏状态5和6的威布尔分布停留时间,由于其较短的使用寿命,在图5所示的寿命分布中呈现左偏离群现象。为反映各隐藏状态停留时间的缩短,自适应机制(虚线表示)将威布尔分布向左移动,从而有效校正了数据分布特征。此外,AHSMM模型不仅定义了明确的转换机制和停留时间,还通过可视化方式呈现了故障演变过程,使模型运行更加透明直观。每个损伤状态对应不同的故障等级,各状态间的转换过程既易于理解又便于追踪,有助于用户深入理解模型的预测逻辑。虽然隐藏状态的运用和自适应机制的复杂性增加了抽象层次,但模型的整体架构与可视化预测能力,仍能保持高度可解释性。图16展示了基于发动机37传感器数据估算的隐藏状态分布。这些预估的隐藏状态可作为诊断工具,帮助用户评估系统损伤程度,从而更清晰地掌握设备运行状态。
图15 发动机#37的隐藏状态5和6的威布尔分布停留时间
图16 基于发动机37传感器数据估算的隐藏状态分布
对于LSTM模型来说,了解这些参数如何影响预测可能具有挑战性,LSTM模型总共有20043个可训练参数。面对如此庞大的参数量和有限的输入数据,模型可能会学习到难以解释的复杂模式,且难以追溯到数据中的具体因素。此外,要解析模型所学的时间序列模式或趋势也存在困难。为解决这种黑箱特性,一种方法是简化模型结构,但这种简化往往会导致准确率下降。在这种情况下,简化版深度学习模型的表现可能与那些更具可解释性的方法相当甚至更差,这可能会削弱深度学习模型的核心优势。图17展示了第二层LSTM隐藏状态的UMAP投影结果。该图清晰展现了投影后的隐藏状态与RUL值之间的关联性。值得注意的是,在较低RUL值区域,投影点呈现更紧密的聚类分布,这表明模型在引擎生命周期后期形成了更为稳定的表征特征。这种现象也体现在低RUL值预测准确率的提升上。与之形成对比的是,较高RUL值区域同样形成了相对集中的聚类,而中等RUL值区间(如100-200)则显得较为分散。这种离散分布可能反映出该阶段模型内部表征稳定性不足,导致预测结果存在较大不确定性与波动。
图17 第二层LSTM隐藏状态的UMAP投影结果
对于PF,将从退化模型开始逐步分析可解释性,在这种情况下,退化模型是一个多项式。 多项式本质上可以解释为数学模型,其系数表明它们如何影响退化曲线的形状。更重要的是,由于状态转移函数涉及用随机噪声扰动多项式参数,因此可以解释这些参数的变化如何影响模型的预测。这使我们能够深入了解模型对退化过程变化的敏感性。该方法采用的相似性度量标准是一种透明且可解释的识别训练历史数据相关性的方法。MMD作为定义明确的统计指标,能够量化分布差异,因此其在筛选最相似训练历史时的作用,可理解为通过匹配历史退化模式与当前观测数据来实现。最后,PF特性模拟了退化过程中随时间推移可能出现的变化。总体而言,该模型基于多项式曲线拟合与扰动的理论基础,使得其预测结果具有较高的可解释性。测量数据与预测的性能退化曲线均可直观呈现,便于理解系统当前状态与模型预测值的对应关系。这种可视化解读能力在向决策者传递结果时尤为关键。例如图18中,橙色曲线表示传感器观测数据,绿色曲线则为模型预测值。尽管在系统寿命末期,预测值的增长速度超过实际观测值,但预测曲线仍能较好追踪性能退化趋势。
图18 37号发动机的观测传感器数据和PF估计观测值
对可行性方面的分析分为基准数据的训练和测试的计算时间,以及可用训练历史数据的数量对测试集的准确性的影响。
表9显示了使用基准数据训练模型的训练时间,以及每个样本的测试时间。每个样本的测试时间是一个需要重点考虑的因素,特别是在实时预测应用中,必须在在线操作期间快速为每个新样本做出预测。表9中的结果显示了训练和测试每个预后模型的计算时间。LSTM模型的训练时间为8.57秒,考虑到深度学习架构的复杂性,这是相对较快的。然而,值得注意的是,LSTM模型需要每个样本0.39秒进行测试。相比之下,AHSMM模型的训练时间明显更长,为1417.31秒,这可以归因于训练半马尔可夫模型的复杂性。然而,它显示出每个样本的测试时间为0.03秒,这表明它在训练完成后进行预测时的效率很高。由于多项式拟合的计算简单,PF模型的结构更简单,训练时间非常快,为0.02秒。然而,其每个样本的测试时间为0.41秒,略长于LSTM。
表9 每个预后模型的每个样本的训练和测试的计算时间
需要特别说明的是,这些模型尚未完全优化,因为相关代码是内部开发的,并未将计算效率作为主要考量。因此,时间结果可能反映出实现过程中的某些低效问题,尤其是PF和AHSMM模型。若采用更高效的编码方法或使用专用硬件进行优化,计算时间有望缩短。尽管如此,这些结果仍能有效对比不同模型的计算需求差异,为评估模型在实时应用中的可行性提供了重要参考。
每个模型仅使用两个退化历史进行训练,而不是在基准情况下使用完整的训练集。这种设置比较了模型在有限训练数据下的表现,从而深入分析它们在受限条件下泛化和保持可靠性的能力。表10展示了准确性指标的计算结果,包括平均RMSE和SD。表11展示了使用覆盖率和WSU指标评估置信区间时的结果。在图19中,显示了三个发动机仅用基准退化数据的两个退化历史训练模型时的预测结果。 从准确度来看,LSTM模型的RMSE增加了57.31%,这表明其性能出现了显著下降。这说明依赖大数据来有效捕捉时间序列规律的LSTM模型,在数据量有限的情况下表现不佳,导致预测结果波动加剧,其标准差高达29.24就印证了这一点。相比之下,AHSMM模型展现出较好的鲁棒性,RMSE仅增加13.08%,且标准差最低。这种微小的误差增幅表明,AHSMM更适合训练数据有限的场景,这可能得益于它即使在输入数据稀疏时仍能有效建模状态转换的能力。PF模型的性能下降最为严重,RMSE增加了449.72%,标准偏差为104.21。这种急剧下降突显了PF模型对减少的训练数据的高度敏感性,因为该模型严重依赖于相似性方法。这一结果突显了PF在数据约束下保持准确性所面临的挑战。在不确定性表现方面,LSTM模型的覆盖率下降了39.39%,表明其置信区间覆盖真实RUL的频率降低。WSU模型的覆盖率反而上升了12.60%,说明置信区间变宽却未能提升覆盖率,反映出不确定性量化效率低下。与之形成对比的是,AHSMM模型采取了更平衡的策略,其覆盖率仅下降36.08%,WSU指标更是减少了58.62%。这表明尽管置信区间变窄,AHSMM仍能保持合理的覆盖范围。PF模型的覆盖率提升了11.76%,但这一提升被WSU模型150.14%的大幅增长所抵消,表明虽然置信区间变得更宽泛,但并未有效提升可靠性。这种处理不确定性时的低效性进一步凸显了PF模型在数据量有限时的局限性。总体而言,AHSMM模型在少样本预测中表现最为稳健,即便训练数据量减少,仍能保持更稳定的性能表现。图20进一步支持了这一观察结果,该图说明了RMSE与用于训练的退化历史数量之间的关系。如图所示,当只使用两个历史数据时,PF模型的性能会显著降低,这证实了之前的结论。然而,当PF用四个或更多历史数据训练时,其性能会稳定下来。值得注意的是,当PF用九个或更多历史进行训练时,其性能始终优于AHSMM模型。这表明,PF模型在小规模训练数据下也能取得具有竞争力的性能表现。
表10 准确性指标的计算结果
表11 覆盖率和WSU指标评估置信区间时的结果
图19 三个发动机仅用基准退化数据的两个退化历史训练模型时的预测结果
图20 训练历史次数对准确性的影响
为确保四个关键特征评估的公平性和可靠性,进行了敏感性分析。该分析验证了结果和结论不会过度依赖于预测模型的初始化参数,从而确保了结果的鲁棒性和有效性。
在LSTM模型中,我们选取了随机丢弃概率作为需要调整的参数。这个参数至关重要,因为它能通过训练过程中随机断开连接来实现正则化,有效防止过拟合。随机丢弃概率不仅直接影响预测准确率,还关系到模型估计值的不确定性。基准值设定为0.3,在本次敏感性分析中,我们将该参数调整±30%,得出的下限为0.21,上限为0.39。模型将采用三种配置进行训练:随机丢弃概率= 0.21、0.3(基准情况)以及0.39。
在AHSMM模型中,我们选择隐藏状态数量作为敏感性分析的参数。该数量直接影响模型捕捉潜在退化过程的能力及其预测准确性。基准状态数取自原始模型,并通过±30%的浮动范围调整,最终状态数取整为整数值。由此得出的最小值为5,最大值为9。
最后,对于PF模型,选择粒子数量作为要更改的参数。粒子的数量决定了模型近似系统状态的能力,改变这个数量会影响预测的准确性和传播。在这种情况下,粒子的基线数量设置为150,粒子数量变化±30%,下限为105,上限为195。
为了评估这些参数更改的影响,使用了两个关键的性能指标——RMSE和覆盖率。RMSE衡量预测的准确性,而覆盖率评估预测区间捕捉真实值的程度。通过执行此灵敏度分析,可以更深入地了解模型在不同参数设置下的行为,这有助于优化性能并确保在实际应用中的鲁棒性。
表12展示了LSTM模型三种配置的测试结果。可以看出,三种丢弃概率的RMSE数值非常接近,这表明在当前参数范围内调整丢弃概率对模型预测精度影响甚微。不过标准差存在轻微波动:当丢弃概率从0.3降至0.21时,标准差有所下降;而当概率提升至0.39时,标准差又出现上升。这说明模型稳定性存在细微变化,但RMSE指标基本保持稳定。关于UQ,覆盖率随着丢弃概率的增加而增加,从0.3时的0.33增加到0.39时的0.41。这表明,随着丢弃概率的提高,模型的预测区间会变宽,从而捕捉到更多的真实值。然而,覆盖范围的增加是有代价的,因为WSU也大幅增加,从0.3的3194276.47增加到0.39的850447.05。为深入理解不同丢弃率参数值的影响,图21展示了基于LSTM模型获得的RUL概率密度函数、预测均值与真实RUL的对比。由于难以直观呈现所有分布情况,我们选取了两个典型时间步(第100和200周期)展示RUL概率分布。数据显示,在这两个时间步中,采用最高丢弃率的模型对应的概率密度函数标准差最大,呈现出更宽泛且平坦的分布形态。这印证了第2.1节的讨论观点:通过蒙特卡洛丢弃率所捕捉到的不确定性属于设计产物,仅能部分反映认知不确定性。
表12 LSTM敏感性分析
图21 发动机81在时间100和200时用LSTM获得的RUL概率分布
表13总结的AHSMM模型敏感性分析表明,增加隐藏状态数量能显著提升模型预测精度。这种改进效果在RMSE的大幅下降中尤为明显,从5个状态的39.05下降到了9个状态的22.68,表明更多的状态使模型能更好地捕捉潜在的退化过程。此外,预测的SD随着状态数量的增加而稳定,反映了性能的一致性。值得注意的是,覆盖率指标在所有配置中都保持稳定,其值在0.97到0.98之间,这表明无论参数设置如何,该模型都具有可靠的不确定性量化。此外,具有7个状态时具有最低的WSU,表明其在保持与其他配置相同的高覆盖率的同时,具有管理不确定性的能力。虽然采用9个隐藏状态的配置能获得最佳准确率,但7状态的基础配置在性能与计算效率之间提供了更实用的平衡。由于训练9状态模型需要大量计算资源,7状态配置因此成为更优选择。这种权衡方案既保证了准确率较5状态配置有所提升,又保持了可控的计算需求。图22展示的第100和200时间步的RUL概率分布进一步表明,7状态配置表现出更低的不确定性,这与其表13中较低的WSU值相吻合。从准确率来看,这些示例中各配置预测的RUL均值差异微乎其微,充分证明7状态是实现精准预测且降低不确定性的可靠高效方案。在循环200,具有五个状态的AHSMM的RUL概率密度函数(pdf)显示了一个小的初始峰值,这是由算法伪影引起的。为了提高效率,模型的编程方式偶尔会产生这种形状的pdf。如果将最大时间设置得更高,需要更多的计算时间,pdf将像其他pdf一样看起来更平滑。然而,这种伪影很少见,不会影响平均RUL预测,置信区间的变化可以忽略不计。
表13 AHSMM敏感性分析
图22 发动机81在时间100和200时用AHSMM获得的RUL概率分布
表14总结了PF模型的敏感性分析,表明改变颗粒数量对模型的预测性能和UQ有显著影响。具有150个粒子的配置实现了最低的RMSE 24.05,表明与RMSE值分别为30.08和31.96的105和195个粒子相比,其预测精度更高。有趣的是,预测的SD随着粒子数量的增加而增加,范围从8.85(105个粒子)到12.67(195个粒子),这表明更高的粒子数量可能会导致更不一致的预测。覆盖率指标在所有配置中始终保持较低水平,这表明无论粒子数量多少,该模型都难以有效量化不确定性。WSU指标也突显了这一趋势,对于具有更多粒子时,观察到的值更高(见图23)。
表14 PF敏感性分析
图23 发动机81在时间100和200时用PF获得的RUL概率分布
从前面的章节中可以明显看出,有各种各样的预测模型可供选择,每种模型都具备独特优势,可针对不同应用场景量身定制。因此,选择合适的模型对提升性能和可靠性至关重要。然而,这一选择过程往往需要在多个特性之间进行权衡取舍。例如,高可解释性的模型可能牺牲计算效率,而具备充分不确定性量化能力的模型在数据或资源受限时又难以实际应用。为应对这些挑战,本节将提出一套系统性方法论,根据需求对模型特征进行优先级排序。
因此,我们提出了一种决策支持工具,用于量化不确定性、鲁棒性、可解释性和可行性在预测模型选择中的相对重要性。该方法将决策人员的意见和操作需求纳入加权评分系统,使候选模型能够进行系统评估和排序。
首先,必须了解主要决策者的需求和优先事项。这些优先事项将根据三个维度进行评估:
•优先事项:与组织高层目标保持一致,例如提升系统可靠性和可用性、降低运营成本或满足监管标准。
•运营限制:实际操作层面的制约因素,如计算资源不足、部署周期过长或数据获取困难。
•技术要求:为确保RUL预测结果的可靠性,需满足精准度、可解释性及系统鲁棒性性等具体性能指标。
其次,每个关键特征——不确定性、鲁棒性、可解释性和可行性均采用1到5分的评分标准进行评估,其中1分表示最不重要,5分表示最重要。这些分数的评定依据如下:
•在预测安全关键系统的RUL时,对不确定性的精确量化有多重要,早期故障是否会产生灾难性的后果?
•高风险决策是否取决于RUL估计的置信水平?
•该模型是否会在不同的环境或操作条件下运行?
•退化过程在多大程度上受到环境或操作条件的影响?
•向决策者或监管机构解释模型预测的能力有多重要?
•决策或监管批准是否需要模型透明度?
•是否有足够的计算资源和专业知识来实现复杂的模型?
•可用数据是否足够(例如,在数量、标签或一致性方面)?
第三,当由单个决策者分配分数时,原始分数通常足以确定每个特征的相对重要性。然而,当涉及多个决策者时,规范化就变得必要。在这种情况下,必须通过(4)式对每个特征的权重进行归一化,其中 表示特征 的归一化权重, 是决策者 分配给特征 的原始分数:
决策支持工具提供了一个结构化的框架,用于选择与决策者者优先级和应用要求相一致的预测模型。例如,安全关键系统可能会优先考虑鲁棒性和可解释性,而资源受限的应用程序可能会强调可行性和UQ。
表15所示的决策矩阵为模型类型与关键特性(不确定性、鲁棒性、可解释性和可行性)的匹配提供了实用框架,同时提出了相应的评估指标。该矩阵在每个预后方法组中突显了最合适的模型。通过提供结构化和系统化的分析方法,该矩阵使决策者能够高效识别符合其应用和技术优先级的模型。值得注意的是,表15突出表15强调了关于可行性研究的前沿论文在BFs领域的缺失。这种缺失主要源于BFs在使用有限甚至不完整退化历史数据时,仍能有效预测RUL,这使其天然适用于数据可用性受限的场景。
表15 用于选择预测模型的决策矩阵
为了评估和排序候选模型,提出了一种适应度函数。该函数通过考虑不确定性、鲁棒性、可解释性和可行性等关键特性来量化候选模型的性能,这些特性根据决策者的优先级进行加权。适应度函数旨在通过最大化综合评分来评估模型与组织运营需求的契合程度。对于不确定性、鲁棒性、可解释性等关键指标,相关度量值(如覆盖率、不同条件下的模型准确率或预测透明度)数值越高,适应度得分就越高。反之,对于需要最小化的指标(如均方根误差、计算成本或内存占用),适应度函数采用反向缩放机制。这种设计确保了这些指标数值越低的模型,即性能更优或资源消耗更低的模型能够获得优先级。
值得注意的是,可解释性往往缺乏一个直接、可量化的指标。相反,它是定性评估的,或基于对监管要求的遵守情况。本文鼓励利益相关者提供一个百分比分数(0到100%),反映可解释性需求的满足程度。该分数被归一化为0到1的范围,用于适应度函数。 然后按如下方式计算适应度函数:
其中 表示特征 的归一化权重,该权重源自决策者的输入,而 是模型 中 特征 度量的归一化值。
通过采用这种方法,可以根据模型在所有关键特征上的性能进行客观比较。考虑到优先特征和操作约束,具有最高适应度得分的模型是最能满足组织需求的模型。
适应度函数提供了一种透明的方式来权衡相互冲突的优先级。例如,一个在UQ方面表现出色但计算成本高的模型,可以与另一个在性能和资源效率之间取得更好平衡的模型进行比较。这确保了最终的选择既能最大限度地符合组织目标,又能在遵守应用限制的前提下实现最优效果。 为说明该框架的适用性,我们来看一个具体案例。某航空公司运营商计划开发预测航空器主要结构RUL的预测模型。其核心组织目标包括:不确定性量化,这对安全关键型应用至关重要;鲁棒性,需考虑环境因素、飞行员操作行为等变量影响;可行性,鉴于完整失效数据的获取有限;以及可解释性,模型透明度是满足监管要求的必要条件。
步骤1: 优先级排序。决策者根据其重要性对每个特征进行加权,经过输入和标准化后,分配如下标准化权重:不确定性= 0.35,鲁棒性= 0.30,可行性= 0.25,可解释性= 0.10。
步骤2: 评估候选模型。最终筛选出三个模型:带MC Dropout的LSTM、AHSMM和BF。如表16所示,针对每个特征收集了性能指标: RMSE指标评估模型在不同环境条件下预测RUL的准确程度。鲁棒性与可行性指标采用反向标度,数值越低越理想。可解释性通过用户反馈的定性评分进行评估,分数越高表明模型的可解释性越强。
表16 每个模型的性能指标
步骤3: 标准化指标值。对每个指标进行标准化,以确保模型间可比性,标准化后的数值如表17所示。
表17 每个特征的度量标准化
步骤4: 适应度计算。每个候选模型的适应度分数是通过归一化值的加权求和得出,表18显示了各模型的适应度计算结果。
表18 每个模型的适应度计算
根据适应度评分,AHSMM模型排名最高,紧随其后的是BF模型。然而,如果未来模型可解释性成为更关键的因素,BF模型可能因其更高的可解释性评分而更受青睐。
模型选定后,其实施和部署通常分阶段进行,以尽量降低风险并确保实际有效性。建议采用以下步骤:
试点测试。 首先,选定的模型会在受控的小规模环境中部署。试点阶段既能利用真实数据检验模型性能,又能最大限度减少对日常运行的影响。这一步骤对于发现理论预期与实际效果之间的差距至关重要。例如,在此阶段可能会出现数据质量或计算需求的意外波动。
评估与调整。 在试点测试期间,模型的预测结果会与基准数据集或历史真实值进行对比评估。相关指标会被密切监控。评估阶段获得的信息将指导模型的优化改进,例如参数调优、算法调整或预处理增强。
扩展部署。 一旦试点项目表现出令人满意的性能,模型就可以扩展为全面的运营使用。在这一阶段,需要考虑的额外因素包括与现有系统的集成、用户界面和自动化管道。还部署了强大的错误处理机制来管理异常或系统故障。
持续优化。 预测模型的部署并非一劳永逸的工程。随着时间推移,运行环境、系统条件或数据特征可能发生改变,这些变化都可能影响模型性能。定期监测并使用更新后的数据集进行周期性再训练,是保持模型准确性和可靠性的关键。采用在线学习或动态域自适应等先进方法,还能进一步提升模型的长期表现。
反馈与优化调整。 通过与终端用户、工程师或决策者保持沟通,可以获取模型可用性和实用价值的关键洞察。例如,用户可能会要求增加可解释性功能或改进与诊断流程的集成。采纳这些反馈意见,能确保模型始终与组织的核心需求保持一致。
基于本次综述和案例研究的发现,提出了未来改进RUL预测预后模型的研究方向。这些方向根据讨论的四个关键特征进行分类:不确定性、鲁棒性、可解释性和可行性。
不确定性。 对于BF和随机模型,未来的研究应致力于提高置信区间的可靠性,因为现有方法通常会产生过宽的区间,并可能导致无信息的预测。另一个领域是开发基于系统动力学调整不确定性估计的自适应技术。对于机器学习模型,特别是深度学习模型,未来的工作应该探索贝叶斯深度学习方法(例如变分推理、深度集成)来取代MC Dropout等方法。 在所有模型类型中,一个关键方向是不确定性的管理,而不仅仅是其量化。这包括使用更实用的不确定性分类(过去、现在、未来、模型和预测方法的不确定性),通过利用数据更好地表征不确定性的来源,从而减少其对RUL预测的影响,实现不确定性管理。此外,重点应转向特定学科的不确定性,而不是整体的不确定性,这是所有DDM的一个关键方向。
鲁棒性。 随机模型可通过研究更灵活的状态转换架构获益,这类架构能够捕捉非平稳和多模态的退化行为。BF通过在线学习策略展现出潜力,能够在无需完全重新训练的情况下持续适应新条件下的退化模型。对于机器学习模型,未来的研究应优先采用自监督和无监督方法来增强跨领域的泛化能力。在所有模型类型中,将基于物理的知识与数据驱动的学习相结合的混合方法值得进一步探索,以提升适应性和容错性。
可解释性。 随机模型通常具有可解释性,但通过可视化工具帮助用户理解状态转换和概率结果,可以进一步提升其可解释性。对于BFs,展示状态演变过程的交互式可视化技术可为实践中的可解释性提供支持。而深度学习模型的可解释性仍是待解难题。未来研究应开发可靠解释工具,避免现有技术(如SHAP和LIME)中常见的不一致性问题。另一个重要方向是量化可解释性与性能之间的权衡关系,特别是在需要监管或操作透明度的场景中。
可行性。 对于随机模型和BF,未来的研究应该研究如何在数据有限或有噪声的情况下自动配置模型(例如,选择状态、粒子或分布的数量)。在机器学习中,有前景的方向包括少样本学习、自监督学习以及物理信息引导学习等降低数据需求的方法。对于所有模型类型,开发更优的缺失数据处理方法至关重要。最后,为嵌入式或边缘计算环境开发这些模型的轻量级实现方案仍是亟待解决的研究课题。
本文回顾了用于剩余使用寿命(Remaining Useful Life, RUL)预测的数据驱动预后模型,评估了机器学习(Machine Learning, ML)模型、随机模型和贝叶斯滤波器(Bayesian Filters, BF)在四个关键特征上的表现:不确定性、鲁棒性、可解释性和可行性。使用C-MAPSS数据集的案例研究比较了LSTM、AHSMM和PF模型的性能,突出了它们在解决这些特征方面的优势和局限性。
不确定性量化(Uncertainty quantification, UQ)仍然是RUL预测中的一个重大挑战。随机模型和BF在报告不确定性方面是有效的,但存在置信区间过宽和计算复杂性的问题。ML模型虽然准确,但往往忽略了UQ,导致潜在的不可靠预测。这些发现强调了需要更好的校准和方法来平衡精度和不确定性管理。
模型的鲁棒性对于确保其在不同运行条件下保持良好性能至关重要。尽管机器学习模型通过领域自适应等技术展现出潜力,但在工业应用中仍面临诸多挑战。随机模型和BF(如AHSMM),在看不见的和有噪声的条件下表现出了适应性,AHSMM在案例研究中表现特别好。然而,由于退化模型的约束,PF模型面临局限性。
可解释性对于安全关键型应用至关重要,监管框架要求必须具备透明度。AHSMM模型能提供清晰的降解表征,而LSTM模型则较难解读。PF模型虽具备一定可解释性,但其表现高度依赖底层降解模型。如何在可解释性与性能之间取得平衡,仍是各行业面临的重要挑战。
模型的可行性受数据可用性影响,在航空和机械等行业中,数据稀缺与噪声问题普遍存在。针对这些挑战,少样本学习和贝叶斯方法等技术应运而生。案例研究表明,AHSMM在有限数据下表现优异,而PF算法则在中等规模数据集上更胜一筹。这凸显了开发能适应不同数据环境的模型的重要性。
本文提出了一种模型评估框架,帮助用户根据操作需求选择最合适的模型。强调不存在一刀切的解决方案;模型选择取决于系统特定的约束条件和目标。实施预测模型需要持续的优化和用户反馈。
总之,本综述强调了数据驱动预测的进展和挑战。未来的研究应侧重于不仅准确,而且能够适应外界环境复杂性、处理不确定性、噪声数据和动态条件的模型。通过将新兴技术与行业特定需求相结合,该领域可以朝着创建可靠、透明的预测解决方案的方向发展,以更好地进行决策和运行优化。
编辑:Tina
校核:李正平、陈凯歌、曹希铭、赵学功、白亮、任超、海洋、陈宇航、陈莹洁、赵栓栓、王金、赵诚、肖鑫鑫
该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除
来源:故障诊断与python学习