首页/文章/ 详情

MSSP综述|数据驱动预测的全面综述和评估框架:不确定性、鲁棒性、可解释性和可行性(下)

4天前浏览179

继上期MSSP综述|数据驱动预测的全面综述和评估框架:不确定性、鲁棒性、可解释性和可行性(上),本期给大家推数据驱动预测的全面综述和评估框架:不确定性、鲁棒性、可解释性和可行性(下)这篇综述系统梳理了基于机器学习、随机模型和贝叶斯滤波器的预测方法,深入剖析了它们的优势局限。同时,为弥补现有研究的不足,文章还提出了一种结构化的模型评估框架,框架将用户的具体需求与文献综述中确定的关键模型特征相结合。通过量化这四个特征的重要性,提出的框架能够系统地评估和选择预测模型。

论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

论文基本信息

论文题目:

 A comprehensive review and evaluation framework for data-driven prognostics: Uncertainty, robustness, interpretability, and feasibility

论文期刊:Mechanical Systems and Signal Processing

论文日期:2025年

论文链接:

https://doi.org/10.1016/j.ymssp.2025.113015

作者:Mariana Salinas-Camus (a), Kai Goebel (b)(c), Nick Eleftheroglou (a)

机构:

a: Intelligent System Prognostics Group, Aerospace Structures and Materials Department, Faculty of Aerospace Engineering, Delft University of Technology, Kluyverweg 1, Delft, 2629HS, The Netherlands;

b: Fragum Global, Mountain View, CA 94040, USA;

c: Luleå University of Technology, Luleå, 971 87, Sweden.

通讯作者邮箱: m.salinascamus@tudelft.nl

目录

摘要

1 引言 

预测中的关键特征 

2.1 不确定性 

    2.1.1 机器学习模型

    2.1.2 随机模型 

    2.1.3 贝叶斯滤波器模型 

    2.1.4 不确定性管理的挑战 

2.2 鲁棒性 

    2.2.1 机器学习模型 

    2.2.2 随机模型 

    2.2.3 贝叶斯滤波器模型 

2.3 可解释性 

    2.3.1 机器学习模型 

    2.3.2 随机模型 

    2.3.3 贝叶斯滤波器模型 

2.4 可行性 

    2.4.1.机器学习模型

  2.4.2 随机模型 

  2.4.3 贝叶斯滤波器模型 

3 案例研究

    3.1数据预处理

    3.2 基准模型

    3.3 不确定性

    3.4 鲁棒性

    3.4.1 跨故障模式的自适应

    3.4.2 带噪声数据

    3.5 可解释性

    3.6 可行性

   3.6.1 计算时间

   3.6.2 可用训练数据的影

    3.7 灵敏度分析

4 模型评估框架

5 潜在研究方向

6 结论

3 案例分析

本案例研究基于本文讨论的四个关键特征,对三种模型进行对比分析。在机器学习模型方面,采用长短记忆神经网络(Long Short-Term Memory, LSTM)。该模型在预测领域应用广泛,通常能提供最佳准确率,其设计灵感源自文献[28]提出的模型。随机模型方面选用自适应隐半马尔可夫模型(Adaptive Hidden Semi-Markov Model, AHSMM),该模型以适应未知数据著称,其框架设计参考了文献[82]的理论基础。最后在贝叶斯滤波(Bayesian filters, BFs)方面,基于文献[99]所述方法,选择粒子滤波(Particle Filter, PF)进行应用,该模型因在各类工程系统中广受认可且性能优异而被选用。

本研究基于C-MAPSS数据集,对不同设计的数据驱动模型(Data-Driven Model, DDM)模型进行对比分析。通过均方根误差(Root Mean Square Error, RMSE)指标结合测试集预测值的标准差(Standard Deviation, SD)来评估模型精度。我们通过多项实验,从四个关键维度对各模型性能展开系统性评估。

3.1 数据预处理

为确保在相同输入条件下进行公平比较,三个预测模型均基于单一传感器数据进行训练。这种刻意简化处理通过减少特征工程或数据融合带来的干扰效应,有效隔离了各模型的学习能力差异。尽管深度学习模型通常在多变量输入环境下表现更优,但本研究更注重对模型行为的受控评估而非单纯追求预测精度最大化。因此,采用单一传感器的设定虽有意限制了模型的绝对性能,却能更清晰地分析剩余寿命(Remaining Useful Life, RUL)预测特征。

基准案例利用了第一个子数据集FD001的数据,选择传感器11是因为其在可预测性、趋势性和单调性方面得分较高。表2列出了这些分数以及适应度值(计算为三个分数的平均值),这些特征被认为在预测应用中是理想的输入参数[140]。为处理传感器数据,采用K均值算法将其离散化为20个聚类簇。聚类数量的确定基于单调性指数(Monotonicity Index, MI)[141],该指标能有效识别出最佳聚类数量,从而准确反映退化过程。

C-MAPSS数据集在训练文件中提供了100条完整的运行至失效的轨迹,在测试文件中则包含100条不完整的轨迹。本研究选择仅使用完整运行至失效的轨迹,将原始训练集划分为64个训练样本和16个测试样本。这种划分方式确保每个发动机的完整运行周期都能获得真实的RUL标签,这对于需要掌握真实终止寿命(End of Life, EOL)数据的评估指标计算至关重要(例如覆盖整个生命周期的不确定性区间)。若直接使用提供的测试集,由于轨迹数据不完整,将无法实现这种程度的评估一致性。因此,这种划分方式更有利于研究聚焦于模型行为与不确定性量化(Uncertainty Quantification, UQ)。图5展示了训练集和测试集寿命分布的直方图。

 
图5 基准案例的生命周期分布  

使用基准训练数据,优化了三个模型的超参数。下面解释了每个模型的架构和相应的训练过程。

LSTM的输入由三个样本的窗口组成。这种选择是由于LSTM需要接收长度一致的输入并以在线方式使用,因此需要对数据进行窗口化操作。窗口长度的选择是基于验证过程。 LSTM的架构如图6所示。该模型通过引入dropout来提高准确率,并通过使用蒙特卡洛(Monte Carlo, MC) dropout方法来应对预测中的不确定性。每个LSTM层的神经元数量和dropout概率是通过随机搜索确定的。 采用的隐半马尔可夫模型(Hidden Semi-Markov Model, HSMM)模型基于文献[82]提出的架构。该模型包含7个损伤状态,通过贝叶斯信息准则(Bayesian Information Criterion, BIC)[86]进行筛选。虽然增加更多状态可能略微提升BIC指标,但计算成本的增加超过了其带来的优势,因此最终确定采用7个状态。在该HSMM中,停留时间由韦布尔分布定义。韦布尔分布由两个参数决定:形状参数和尺度参数。自适应模块会在隐藏状态间转换后,通过调整尺度参数来修正停留时间。具体而言,尺度参数的调整依据是训练参数预测的预期停留时间与实际驻留时间之比,并结合退化历史进行动态调整(详见图7)。 PF为文献[99]的研究成果。具体而言,我们采用了基于相似性分析的PF方法。退化模型选用四次多项式进行建模,这种选择既能有效捕捉非线性退化趋势,又可避免过拟合问题。该次数既保证了足够的灵活性,又不会引入不必要的复杂度。所采用的相似性度量指标是最大均值差异(Maximum Mean Discrepancy, MMD)[142]

 
图6 用于预测的LSTM架构  
 

图7 具有7个状态(最后一个状态可观察)的HSMM

该框架的工作流程如下:

•训练阶段:将每个训练历史数据拟合为多项式,并保存多项式参数。

•状态转移函数:对粒子(即定义曲线的参数集 合)舔加随机噪声扰动。

•观测函数:该函数用于计算粒子参数在指定时间步长下所定义的曲线值.

在测试阶段,收集截至当前时间步长的传感器数据。MMD用于识别哪些训练历史与当前数据最相似。当某训练历史的MMD值低于设定阈值(本文中设为0.01)时,该记录将被纳入分析范围。若所有训练历史均未满足此阈值,则仅采用MMD值最优的历史记录。

PF使用从最相似训练历史的拟合多项式中导出的参数进行初始化。识别这些相似的训练历史需要访问一些测试数据样本。因此,PF只能在在线操作期间观察到预定数量的样本(在本研究中选择为10个数据点)后才能开始提供预测。因此,在接下来的预测图中,PF是唯一一个从一开始就不生成预测的模型。使用150个粒子,PF通过随机扰动每组参数来实现所需的粒子数

PF运行到所有粒子的平均值达到故障阈值,表示预测的传感器值已达到故障状态,此时PF停止运行。图8总结了PF的训练和测试过程。

 

图8 基于相似性的PF算法

3.2 基准模型

表3总展示了基准测试结果。在三种模型中,PF的表现优于模型具有最低的RMSE,但它的标准差最高。AHSMM模型的RMSE为34.48,而LSTM模型的RMSE为38.05比AHSMM模型略微低一点。值得注意的是,值得注意的是,PF模型凭借其简洁的多项式拟合降解模型架构,具有更好的综合性能。

表3 基准案例的预测模型结果

 

为直观展示预测结果,我们选取了三款发动机模型的预测数据进行可视化呈现(如图9所示)。这些发动机的选择基于其使用寿命:寿命最短的37号发动机、处于中位数水平的81号发动机,以及寿命最长的2号发动机。为确保可视化清晰度,仅展示预测RUL的点估计(平均值),因为若包含置信区间则会使图表复杂化。  

 

图9 基准案例下三种不同发动机的预测模型结果

可视化结果表明,PF模型和LSTM模型的预测结果都存在波动性,尤其是LSTM模型表现更明显。相比之下,AHSMM模型的预测结果更为稳定,尽管在隐状态转换时会出现明显的跳跃现象。三种模型在系统生命周期的最后阶段均表现出色。虽然这对安全性有益(因为能及时提示系统需要停机维护),但对预测性维护而言,这种优势就相对有限了。

3.3 不确定性

如第2.1节所述,不确定性的处理是预测中的重大挑战。而要比较那些捕捉不同来源不确定性的模型则更为困难。本节尝试通过两个指标:覆盖率和加权不确定度(Weighted Spread of Uncertainty, WSU)——来进行对比分析。

本文建立的覆盖率指标,用于量化预测区间在连续观测或时间步长中对真实结果的覆盖程度。该指标能帮助我们判断模型置信区间是否准确反映了数据的波动特性。

覆盖率指标定义为真实值落在预测置信区间内的比例。对于给定的预测模型,如果    表示时间步𝑡的真实值,而    表示同一时间步的预测下限和上限,则单个预测的覆盖率可表示为

   
 

预测的覆盖度计算为长度为𝑇的退化历史数据的    的平均值。因覆盖值为1表示所有真实值均落在各自的预测区间内

   
 

WSU指标[32]如公式(3)所示。该表达式通过计算置信区间之间的面积来评估预测准确性,同时对生命周期末期较宽的置信区间施加惩罚系数。之所以设置这种惩罚机制,是因为随着时间推移积累的信息量会不断增加。因此,随着观测时间的延长,预测结果的不确定性将逐渐降低。

   
 

表4展示了基准测试集的平均覆盖率和WSU值。需要特别说明的是,置信区间代表RUL概率密度函数的95%置信水平。结果显示AHSMM模型取得了最佳覆盖率,结果近乎完美。但这种高覆盖率是以置信区间过宽为代价的,这一点从AHSMM模型最高的WSU值中可见一斑。当在图10中可视化置信区间时,这种权衡关系尤为明显——AHSMM的置信区间过宽,从决策角度而言已失去参考价值。这一现象与第2.1节讨论的其他随机模型表现一致。

表4 基线病例不确定性预测模型的结果

 
 

图10 不同预测模型的不确定性比较

相比之下,LSTM和PF模型的覆盖率都较低,这使得它们的预测在决策中不可靠,因为它们的置信区间无法包含真实的RUL值,导致过度自信或不准确的预测,这可能导致PdM框架失效并降低其可信度。

在开发更可靠的模型时,建议采用覆盖度指标来校准不确定性,确保其达到支持决策的阈值。对于LSTM和PF模型而言,这种校准相对简单,因为其不确定性程度取决于用户自定义参数:LSTM的丢弃概率和PF的处理噪声与观测噪声。然而,调整这些参数可能会影响模型的准确性和不确定性覆盖范围。例如,使用不同的丢弃值会导致覆盖度发生显著变化(如文献[32]所示)。但本研究选择的参数是基于其最优准确性的考量。因此核心问题在于:模型需要达到何种可靠程度才能有效支持决策制定?

然而,AHSMM面临的是相反的挑战:在不显著降低覆盖范围的前提下缩小置信区间。例如,如文献[84]所示,基于相似性的方法已被证明能够有效缩小置信区间。此外,探索其他预测指标也有助于进一步缩小这些区间的范围。

本研究未深入探讨不确定性分类的复杂性问题,因为要在这些模型中实现此类机制需要更深入的开发,这已超出现有文献的讨论范畴。研究重点在于理解前沿模型的能力,并评估其计算出的置信区间与RUL值是否具备决策可靠性。此外,由于不同模型捕捉到的不确定性来源存在差异(例如LSTM模型对应认知不确定性,而AHSMM模型处理随机不确定性),这种比较可能不够全面。因此,若所有模型都同时考虑两种不确定性类型,表4中呈现的结果可能会出现显著差异。

3.4 鲁棒性

通过两个实验来评估预测模型的鲁棒性。第一个实验评估在不同故障模式的数据上进行训练和测试时的性能表现。第二个实验通过在基准案例研究的输入数据中引入噪声,来评估其对性能的影响。

3.4.1 跨故障模式的自适应

该实验通过比较模型在不同故障模式下的数据性能来评估模型的泛化能力。具体来说,这些模型是在FD001数据集上训练的,该数据集在一致的操作条件下具有单一故障模式(HPC退化),并在FD003数据集上进行测试,该数据集中引入了相同条件下的额外故障模式(风扇退化)。图11所示,测试数据集包括与训练数据集相比在寿命方面异常的退化历史。这种设置对模型在处理各种故障模式和退化模式时的鲁棒性进行了严格的测试。

 

图11 鲁棒性情况下的寿命分布

表5展示的结果表明,当应用于鲁棒性测试集时,所有模型的准确率均出现显著下降。考虑到训练数据集与测试数据集中故障模式的差异,性能下降在意料之中。在各类模型中,AHSMM以最低的RMSE表现出最佳性能,这表明其自适应机制使其能够更有效地处理故障模式的变化。相比之下,PF的表现最差,这与预期一致,因为PF严重依赖训练数据,在遇到不熟悉的退化模式时容易产生不准确的结果。

表5 预测模型鲁棒性比较结果

表6进一步分析了各模型在覆盖率和WSU指标上的表现。尽管AHSMM的覆盖率出现显著下降,但该指标仍优于其他模型。不过其WSU指标却大幅攀升,这表明虽然模型仍能保持部分预测能力,但在这种条件下,其预测结果的不确定性显著增加。PF模型在覆盖范围方面受到的影响最大,进一步突显了其处理不同故障模式的局限性,而LSTM在覆盖范围和WSU方面保持了AHSMM和PF之间的中间地带。

表6 基准案例不同预测模型的不确定性结果

为了可视化测试集上的一些预测,图12显示了三个选定发动机的三个模型的预测。这些发动机是根据其寿命选择的:发动机#99,在测试集中寿命最短;代表中值寿命的94号发动机;以及寿命最长的发动机#55

 

图12 三种不同发动机的预测模型鲁棒性情结果

当发生状态转换时,AHSMM的预测会得到改善,从而触发适应机制。这是由于模型的设计考虑到了给定测试引擎在特定隐藏状态中预期停留时间和实际停留时间之间的差异。然而在PF模型中,引擎#94和#55的预测结果明显不准确,因为这些引擎的实际寿命与训练集中的数据存在巨大差异,导致模型缺乏有效的对比依据。一种可能的改进方案是采用类似AHSMM的机制——当预测偏差超出阈值时,模型会生成更多代表不同退化过程(即不同多项式曲线)的粒子进行调整。这表明在随机模型和BF中,基于实时测试数据的自适应调整是可行的,因为这些模型能够模拟实际退化过程,并根据在线测试的实时数据动态调整自身参数。相比之下,LSTM直接将传感器数据映射到RUL标签,这使得模型在遇到未见数据时难以调整预测结果。正如第2.2节所述,这种现象在监督式机器学习模型中普遍存在。这类模型需要系统所有健康状态的标注数据,才能在处理不同故障模式的数据时更精准,而工业应用中往往缺乏这类数据。值得注意的是,LSTM的预测结果往往会随着发动机寿命延长而趋于稳定,此时各发动机的传感器数据已趋于一致。

这项实验揭示了预测模型在应用于与训练数据集故障模式不同的场景时面临的挑战。得益于自适应特性,AHSMM模型的表现优于LSTM和PF模型,但仍存在准确率显著下降和不确定性增加的问题。研究结果表明,开发能适应多样化运行条件和故障模式的模型至关重要,因为实际应用中往往涉及复杂多变的设备退化模式。模型性能的大幅下降也表明,为确保在各类场景中实现可靠的预测效果,必须进一步提升模型的泛化能力。

像LSTM这样的模型可以通过整合迁移学习或领域自适应等技术获得显著提升,这些方法在2.2节已有详细讨论。这类技术能让模型从相关任务或数据集中获取知识,从而在训练数据不足或运行工况变化时表现更优。通过使用目标域少量标注数据对LSTM模型进行微调,迁移学习可帮助其适应新型故障模式或性能退化特征。类似地,领域自适应技术能增强模型对测试数据波动的适应能力,确保在不同运行环境中保持稳定可靠。运用这些技术可有效提升LSTM的泛化能力,使其在实际应用中应对数据与训练集差异显著的情况时更具优势。

   3.4.2 噪声输入数据

该实验旨在评估模型处理噪声输入数据的能力。为此,使用基准案例的数据,其中训练集和测试集均包含相同的故障模式。在训练集和测试集的所有退化数据中,均添加了均值为0、标准差为0.25的高斯噪声。这种噪声模拟了现实场景中可能出现的传感器误差或数据损坏问题。图13直观展示了原始数据与含噪数据的对比,清晰呈现了噪声对退化数据的影响。该设置测试了模型的鲁棒性及其在输入数据中引入扰动的情况下保持准确性的能力。 表7表8中的结果展示了不同预测模型在面对噪声输入数据时的性能。PF的性能明显下降,RMSE急剧增加179.66%,为67.26。这表明PF模型对添加的高斯噪声高度敏感,导致预测精度显著下降。同样,LSTM模型的RMSE增加了23.86%,为47.13,表明虽然LSTM受到噪声的影响,但与PF相比,其性能退化并不严重。另一方面,AHSMM模型的RMSE增加幅度较小,为7.83%,达到37.18,这表明它对噪声更具弹性,在具有噪声干扰的条件下能够更好地保持预测精度。

 

图13 输入噪声数据

表7 具有噪声数据的预测模型的结果

   

表8 对于噪声数据不确定性的预测模型结果

   

在覆盖率方面,AHSMM模型表现最佳,覆盖率高达0.92,尽管与无噪声数据相比性能略有下降。这表明即使存在噪声干扰,AHSMM模型仍能持续在预测区间内捕获最多真实值。相比之下,LSTM模型的覆盖率出现显著下滑,说明当数据存在噪声时,LSTM难以保持精准预测,导致其在预测区间内捕获真实值的能力下降。PF模型的覆盖率最低,仅为0.16,这与其在基准测试中已显现出的有限性能相吻合。

与之前不同故障模式的实验类似,AHSMM表现出卓越的鲁棒性,成为最具弹性的模型。尽管存在噪声,它仍保持相对较高的预测精度和覆盖率。相比之下,PF和LSTM模型对噪声更敏感,导致性能显著下降,有效处理不确定性的能力降低。这突显了AHSMM在管理具有挑战性的条件方面的优势,而PF和LSTM模型在嘈杂的数据输入下难以保持可靠性。

图14展示了三种选定发动机在噪声数据下的预测结果对比。将其与图9中基于无噪声数据的预测结果进行对比。通过对比两组结果,可以清晰观察到噪声对RUL预测的影响,在数据引入噪声后预测准确性和可靠性显著变化。

 
图14 具有噪声数据的三种不同发动机的预测模型结果      

3.5可解释性

根据第2.3节讨论的文献可知,目前预测领域的可解释性研究大多聚焦于特征重要性分析。然而,本研究涉及的三个模型仅使用单一特征进行训练,因此输入数据与预测结果之间的关联性较为直接。基于此,我们对模型的可解释性进行了定性分析。 AHSMM是一个相对可解释的RUL预测模型,主要是由于其结构化方法和威布尔分布,这在可靠性分析中得到了广泛的应用。威布尔分布的参数,特别是尺度参数,是基于实时数据动态调整的,这使得模型能够适应系统的实际退化轨迹。这种自适应机制提供了一种清晰易懂的方法,将模型的预测与观测数据联系起来,增强了其可解释性。图15展示了发动机#37寿命为170个循环)的隐藏状态5和6的威布尔分布停留时间,由于其较短的使用寿命,在图5所示的寿命分布中呈现左偏离群现象。为反映各隐藏状态停留时间的缩短,自适应机制(虚线表示)将威布尔分布向左移动,从而有效校正了数据分布特征。此外,AHSMM模型不仅定义了明确的转换机制和停留时间,还通过可视化方式呈现了故障演变过程,使模型运行更加透明直观。每个损伤状态对应不同的故障等级,各状态间的转换过程既易于理解又便于追踪,有助于用户深入理解模型的预测逻辑。虽然隐藏状态的运用和自适应机制的复杂性增加了抽象层次,但模型的整体架构与可视化预测能力,仍能保持高度可解释性。图16展示了基于发动机37传感器数据估算的隐藏状态分布。这些预估的隐藏状态可作为诊断工具,帮助用户评估系统损伤程度,从而更清晰地掌握设备运行状态。

 

图15 发动机#37的隐藏状态5和6的威布尔分布停留时间

 

图16 基于发动机37传感器数据估算的隐藏状态分布

对于LSTM模型来说,了解这些参数如何影响预测可能具有挑战性,LSTM模型总共有20043个可训练参数。面对如此庞大的参数量和有限的输入数据,模型可能会学习到难以解释的复杂模式,且难以追溯到数据中的具体因素。此外,要解析模型所学的时间序列模式或趋势也存在困难。为解决这种黑箱特性,一种方法是简化模型结构,但这种简化往往会导致准确率下降。在这种情况下,简化版深度学习模型的表现可能与那些更具可解释性的方法相当甚至更差,这可能会削弱深度学习模型的核心优势。图17展示了第二层LSTM隐藏状态的UMAP投影结果。该图清晰展现了投影后的隐藏状态与RUL值之间的关联性。值得注意的是,在较低RUL值区域,投影点呈现更紧密的聚类分布,这表明模型在引擎生命周期后期形成了更为稳定的表征特征。这种现象也体现在低RUL值预测准确率的提升上。与之形成对比的是,较高RUL值区域同样形成了相对集中的聚类,而中等RUL值区间(如100-200)则显得较为分散。这种离散分布可能反映出该阶段模型内部表征稳定性不足,导致预测结果存在较大不确定性与波动。

 

图17 第二层LSTM隐藏状态的UMAP投影结果

对于PF,将从退化模型开始逐步分析可解释性,在这种情况下,退化模型是一个多项式。 多项式本质上可以解释为数学模型,其系数表明它们如何影响退化曲线的形状。更重要的是,由于状态转移函数涉及用随机噪声扰动多项式参数,因此可以解释这些参数的变化如何影响模型的预测。这使我们能够深入了解模型对退化过程变化的敏感性。该方法采用的相似性度量标准是一种透明且可解释的识别训练历史数据相关性的方法。MMD作为定义明确的统计指标,能够量化分布差异,因此其在筛选最相似训练历史时的作用,可理解为通过匹配历史退化模式与当前观测数据来实现。最后,PF特性模拟了退化过程中随时间推移可能出现的变化。总体而言,该模型基于多项式曲线拟合与扰动的理论基础,使得其预测结果具有较高的可解释性。测量数据与预测的性能退化曲线均可直观呈现,便于理解系统当前状态与模型预测值的对应关系。这种可视化解读能力在向决策者传递结果时尤为关键。例如图18中,橙色曲线表示传感器观测数据,绿色曲线则为模型预测值。尽管在系统寿命末期,预测值的增长速度超过实际观测值,但预测曲线仍能较好追踪性能退化趋势。

 

图18 37号发动机的观测传感器数据和PF估计观测值

3.6 可行性

对可行性方面的分析分为基准数据的训练和测试的计算时间,以及可用训练历史数据的数量对测试集的准确性的影响。

3.6.1 计算时间

表9显示了使用基准数据训练模型的训练时间,以及每个样本的测试时间。每个样本的测试时间是一个需要重点考虑的因素,特别是在实时预测应用中,必须在在线操作期间快速为每个新样本做出预测。表9中的结果显示了训练和测试每个预后模型的计算时间。LSTM模型的训练时间为8.57秒,考虑到深度学习架构的复杂性,这是相对较快的。然而,值得注意的是,LSTM模型需要每个样本0.39秒进行测试。相比之下,AHSMM模型的训练时间明显更长,为1417.31秒,这可以归因于训练半马尔可夫模型的复杂性。然而,它显示出每个样本的测试时间为0.03秒,这表明它在训练完成后进行预测时的效率很高。由于多项式拟合的计算简单,PF模型的结构更简单,训练时间非常快,为0.02秒。然而,其每个样本的测试时间为0.41秒,略长于LSTM。

表9 每个预后模型的每个样本的训练和测试的计算时间

 

需要特别说明的是,这些模型尚未完全优化,因为相关代码是内部开发的,并未将计算效率作为主要考量。因此,时间结果可能反映出实现过程中的某些低效问题,尤其是PF和AHSMM模型。若采用更高效的编码方法或使用专用硬件进行优化,计算时间有望缩短。尽管如此,这些结果仍能有效对比不同模型的计算需求差异,为评估模型在实时应用中的可行性提供了重要参考。

3.6.2 可用训练数据的影响

每个模型仅使用两个退化历史进行训练,而不是在基准情况下使用完整的训练集。这种设置比较了模型在有限训练数据下的表现,从而深入分析它们在受限条件下泛化和保持可靠性的能力。表10展示了准确性指标的计算结果,包括平均RMSE和SD。表11展示了使用覆盖率和WSU指标评估置信区间时的结果。在图19中,显示了三个发动机仅用基准退化数据的两个退化历史训练模型时的预测结果。 从准确度来看,LSTM模型的RMSE增加了57.31%,这表明其性能出现了显著下降。这说明依赖大数据来有效捕捉时间序列规律的LSTM模型,在数据量有限的情况下表现不佳,导致预测结果波动加剧,其标准差高达29.24就印证了这一点。相比之下,AHSMM模型展现出较好的鲁棒性,RMSE仅增加13.08%,且标准差最低。这种微小的误差增幅表明,AHSMM更适合训练数据有限的场景,这可能得益于它即使在输入数据稀疏时仍能有效建模状态转换的能力。PF模型的性能下降最为严重,RMSE增加了449.72%,标准偏差为104.21。这种急剧下降突显了PF模型对减少的训练数据的高度敏感性,因为该模型严重依赖于相似性方法。这一结果突显了PF在数据约束下保持准确性所面临的挑战。在不确定性表现方面,LSTM模型的覆盖率下降了39.39%,表明其置信区间覆盖真实RUL的频率降低。WSU模型的覆盖率反而上升了12.60%,说明置信区间变宽却未能提升覆盖率,反映出不确定性量化效率低下。与之形成对比的是,AHSMM模型采取了更平衡的策略,其覆盖率仅下降36.08%,WSU指标更是减少了58.62%。这表明尽管置信区间变窄,AHSMM仍能保持合理的覆盖范围。PF模型的覆盖率提升了11.76%,但这一提升被WSU模型150.14%的大幅增长所抵消,表明虽然置信区间变得更宽泛,但并未有效提升可靠性。这种处理不确定性时的低效性进一步凸显了PF模型在数据量有限时的局限性。总体而言,AHSMM模型在少样本预测中表现最为稳健,即便训练数据量减少,仍能保持更稳定的性能表现。图20进一步支持了这一观察结果,该图说明了RMSE与用于训练的退化历史数量之间的关系。如图所示,当只使用两个历史数据时,PF模型的性能会显著降低,这证实了之前的结论。然而,当PF用四个或更多历史数据训练时,其性能会稳定下来。值得注意的是,当PF用九个或更多历史进行训练时,其性能始终优于AHSMM模型。这表明,PF模型在小规模训练数据下也能取得具有竞争力的性能表现。

表10 准确性指标的计算结果

 

表11 覆盖率和WSU指标评估置信区间时的结果

 
 

图19 三个发动机仅用基准退化数据的两个退化历史训练模型时的预测结果

   

图20 训练历史次数对准确性的影响

3.7 敏感性分析

为确保四个关键特征评估的公平性和可靠性,进行了敏感性分析。该分析验证了结果和结论不会过度依赖于预测模型的初始化参数,从而确保了结果的鲁棒性和有效性。

在LSTM模型中,我们选取了随机丢弃概率作为需要调整的参数。这个参数至关重要,因为它能通过训练过程中随机断开连接来实现正则化,有效防止过拟合。随机丢弃概率不仅直接影响预测准确率,还关系到模型估计值的不确定性。基准值设定为0.3,在本次敏感性分析中,我们将该参数调整±30%,得出的下限为0.21,上限为0.39。模型将采用三种配置进行训练:随机丢弃概率= 0.21、0.3(基准情况)以及0.39。

在AHSMM模型中,我们选择隐藏状态数量作为敏感性分析的参数。该数量直接影响模型捕捉潜在退化过程的能力及其预测准确性。基准状态数取自原始模型,并通过±30%的浮动范围调整,最终状态数取整为整数值。由此得出的最小值为5,最大值为9。

最后,对于PF模型,选择粒子数量作为要更改的参数。粒子的数量决定了模型近似系统状态的能力,改变这个数量会影响预测的准确性和传播。在这种情况下,粒子的基线数量设置为150,粒子数量变化±30%,下限为105,上限为195。

为了评估这些参数更改的影响,使用了两个关键的性能指标——RMSE和覆盖率。RMSE衡量预测的准确性,而覆盖率评估预测区间捕捉真实值的程度。通过执行此灵敏度分析,可以更深入地了解模型在不同参数设置下的行为,这有助于优化性能并确保在实际应用中的鲁棒性。

表12展示了LSTM模型三种配置的测试结果。可以看出,三种丢弃概率的RMSE数值非常接近,这表明在当前参数范围内调整丢弃概率对模型预测精度影响甚微。不过标准差存在轻微波动:当丢弃概率从0.3降至0.21时,标准差有所下降;而当概率提升至0.39时,标准差又出现上升。这说明模型稳定性存在细微变化,但RMSE指标基本保持稳定。关于UQ,覆盖率随着丢弃概率的增加而增加,从0.3时的0.33增加到0.39时的0.41。这表明,随着丢弃概率的提高,模型的预测区间会变宽,从而捕捉到更多的真实值。然而,覆盖范围的增加是有代价的,因为WSU也大幅增加,从0.3的3194276.47增加到0.39的850447.05。为深入理解不同丢弃率参数值的影响,图21展示了基于LSTM模型获得的RUL概率密度函数、预测均值与真实RUL的对比。由于难以直观呈现所有分布情况,我们选取了两个典型时间步(第100和200周期)展示RUL概率分布。数据显示,在这两个时间步中,采用最高丢弃率的模型对应的概率密度函数标准差最大,呈现出更宽泛且平坦的分布形态。这印证了第2.1节的讨论观点:通过蒙特卡洛丢弃率所捕捉到的不确定性属于设计产物,仅能部分反映认知不确定性。

表12 LSTM敏感性分析

 
 

图21 发动机81在时间100和200时用LSTM获得的RUL概率分布

表13总结的AHSMM模型敏感性分析表明,增加隐藏状态数量能显著提升模型预测精度。这种改进效果在RMSE的大幅下降中尤为明显,从5个状态的39.05下降到了9个状态的22.68,表明更多的状态使模型能更好地捕捉潜在的退化过程。此外,预测的SD随着状态数量的增加而稳定,反映了性能的一致性。值得注意的是,覆盖率指标在所有配置中都保持稳定,其值在0.97到0.98之间,这表明无论参数设置如何,该模型都具有可靠的不确定性量化。此外,具有7个状态时具有最低的WSU,表明其在保持与其他配置相同的高覆盖率的同时,具有管理不确定性的能力。虽然采用9个隐藏状态的配置能获得最佳准确率,但7状态的基础配置在性能与计算效率之间提供了更实用的平衡。由于训练9状态模型需要大量计算资源,7状态配置因此成为更优选择。这种权衡方案既保证了准确率较5状态配置有所提升,又保持了可控的计算需求。图22展示的第100和200时间步的RUL概率分布进一步表明,7状态配置表现出更低的不确定性,这与其表13中较低的WSU值相吻合。从准确率来看,这些示例中各配置预测的RUL均值差异微乎其微,充分证明7状态是实现精准预测且降低不确定性的可靠高效方案。在循环200,具有五个状态的AHSMM的RUL概率密度函数(pdf)显示了一个小的初始峰值,这是由算法伪影引起的。为了提高效率,模型的编程方式偶尔会产生这种形状的pdf。如果将最大时间设置得更高,需要更多的计算时间,pdf将像其他pdf一样看起来更平滑。然而,这种伪影很少见,不会影响平均RUL预测,置信区间的变化可以忽略不计。

表13 AHSMM敏感性分析

 
 

图22 发动机81在时间100和200时用AHSMM获得的RUL概率分布

表14总结了PF模型的敏感性分析,表明改变颗粒数量对模型的预测性能和UQ有显著影响。具有150个粒子的配置实现了最低的RMSE 24.05,表明与RMSE值分别为30.08和31.96的105和195个粒子相比,其预测精度更高。有趣的是,预测的SD随着粒子数量的增加而增加,范围从8.85(105个粒子)到12.67(195个粒子),这表明更高的粒子数量可能会导致更不一致的预测。覆盖率指标在所有配置中始终保持较低水平,这表明无论粒子数量多少,该模型都难以有效量化不确定性。WSU指标也突显了这一趋势,对于具有更多粒子时,观察到的值更高(见图23)。

表14 PF敏感性分析

 
 

图23 发动机81在时间100和200时用PF获得的RUL概率分布

4 模型评估框架

 

从前面的章节中可以明显看出,有各种各样的预测模型可供选择,每种模型都具备独特优势,可针对不同应用场景量身定制。因此,选择合适的模型对提升性能和可靠性至关重要。然而,这一选择过程往往需要在多个特性之间进行权衡取舍。例如,高可解释性的模型可能牺牲计算效率,而具备充分不确定性量化能力的模型在数据或资源受限时又难以实际应用。为应对这些挑战,本节将提出一套系统性方法论,根据需求对模型特征进行优先级排序。

因此,我们提出了一种决策支持工具,用于量化不确定性、鲁棒性、可解释性和可行性在预测模型选择中的相对重要性。该方法将决策人员的意见和操作需求纳入加权评分系统,使候选模型能够进行系统评估和排序。

首先,必须了解主要决策者的需求和优先事项。这些优先事项将根据三个维度进行评估:

•优先事项:与组织高层目标保持一致,例如提升系统可靠性和可用性、降低运营成本或满足监管标准。

•运营限制:实际操作层面的制约因素,如计算资源不足、部署周期过长或数据获取困难。

•技术要求:为确保RUL预测结果的可靠性,需满足精准度、可解释性及系统鲁棒性性等具体性能指标。

其次,每个关键特征——不确定性、鲁棒性、可解释性和可行性均采用1到5分的评分标准进行评估,其中1分表示最不重要,5分表示最重要。这些分数的评定依据如下:

不确定性

•在预测安全关键系统的RUL时,对不确定性的精确量化有多重要,早期故障是否会产生灾难性的后果?

•高风险决策是否取决于RUL估计的置信水平?

鲁棒性

•该模型是否会在不同的环境或操作条件下运行?

•退化过程在多大程度上受到环境或操作条件的影响?

可解释性

•向决策者或监管机构解释模型预测的能力有多重要?

•决策或监管批准是否需要模型透明度?

可行性

•是否有足够的计算资源和专业知识来实现复杂的模型?

•可用数据是否足够(例如,在数量、标签或一致性方面)?

第三,当由单个决策者分配分数时,原始分数通常足以确定每个特征的相对重要性。然而,当涉及多个决策者时,规范化就变得必要。在这种情况下,必须通过(4)式对每个特征的权重进行归一化,其中    表示特征    的归一化权重,      是决策者    分配给特征    的原始分数:

   
 

决策支持工具提供了一个结构化的框架,用于选择与决策者者优先级和应用要求相一致的预测模型。例如,安全关键系统可能会优先考虑鲁棒性和可解释性,而资源受限的应用程序可能会强调可行性和UQ。

表15所示的决策矩阵为模型类型与关键特性(不确定性、鲁棒性、可解释性和可行性)的匹配提供了实用框架,同时提出了相应的评估指标。该矩阵在每个预后方法组中突显了最合适的模型。通过提供结构化和系统化的分析方法,该矩阵使决策者能够高效识别符合其应用和技术优先级的模型。值得注意的是,表15突出表15强调了关于可行性研究的前沿论文在BFs领域的缺失。这种缺失主要源于BFs在使用有限甚至不完整退化历史数据时,仍能有效预测RUL,这使其天然适用于数据可用性受限的场景。

表15 用于选择预测模型的决策矩阵

 

为了评估和排序候选模型,提出了一种适应度函数。该函数通过考虑不确定性、鲁棒性、可解释性和可行性等关键特性来量化候选模型的性能,这些特性根据决策者的优先级进行加权。适应度函数旨在通过最大化综合评分来评估模型与组织运营需求的契合程度。对于不确定性、鲁棒性、可解释性等关键指标,相关度量值(如覆盖率、不同条件下的模型准确率或预测透明度)数值越高,适应度得分就越高。反之,对于需要最小化的指标(如均方根误差、计算成本或内存占用),适应度函数采用反向缩放机制。这种设计确保了这些指标数值越低的模型,即性能更优或资源消耗更低的模型能够获得优先级。

值得注意的是,可解释性往往缺乏一个直接、可量化的指标。相反,它是定性评估的,或基于对监管要求的遵守情况。本文鼓励利益相关者提供一个百分比分数(0到100%),反映可解释性需求的满足程度。该分数被归一化为0到1的范围,用于适应度函数。 然后按如下方式计算适应度函数:

   
 

其中    表示特征    的归一化权重,该权重源自决策者的输入,而    是模型    中 特征    度量的归一化值。

通过采用这种方法,可以根据模型在所有关键特征上的性能进行客观比较。考虑到优先特征和操作约束,具有最高适应度得分的模型是最能满足组织需求的模型。

适应度函数提供了一种透明的方式来权衡相互冲突的优先级。例如,一个在UQ方面表现出色但计算成本高的模型,可以与另一个在性能和资源效率之间取得更好平衡的模型进行比较。这确保了最终的选择既能最大限度地符合组织目标,又能在遵守应用限制的前提下实现最优效果。 为说明该框架的适用性,我们来看一个具体案例。某航空公司运营商计划开发预测航空器主要结构RUL的预测模型。其核心组织目标包括:不确定性量化,这对安全关键型应用至关重要;鲁棒性,需考虑环境因素、飞行员操作行为等变量影响;可行性,鉴于完整失效数据的获取有限;以及可解释性,模型透明度是满足监管要求的必要条件。

步骤1: 优先级排序。决策者根据其重要性对每个特征进行加权,经过输入和标准化后,分配如下标准化权重:不确定性= 0.35,鲁棒性= 0.30,可行性= 0.25,可解释性= 0.10。

步骤2: 评估候选模型。最终筛选出三个模型:带MC Dropout的LSTM、AHSMM和BF。如表16所示,针对每个特征收集了性能指标: RMSE指标评估模型在不同环境条件下预测RUL的准确程度。鲁棒性与可行性指标采用反向标度,数值越低越理想。可解释性通过用户反馈的定性评分进行评估,分数越高表明模型的可解释性越强。

表16 每个模型的性能指标

 

步骤3: 标准化指标值。对每个指标进行标准化,以确保模型间可比性,标准化后的数值如表17所示。

表17 每个特征的度量标准化

步骤4: 适应度计算。每个候选模型的适应度分数是通过归一化值的加权求和得出,表18显示了各模型的适应度计算结果。

表18 每个模型的适应度计算

 

根据适应度评分,AHSMM模型排名最高,紧随其后的是BF模型。然而,如果未来模型可解释性成为更关键的因素,BF模型可能因其更高的可解释性评分而更受青睐。

模型选定后,其实施和部署通常分阶段进行,以尽量降低风险并确保实际有效性。建议采用以下步骤:

试点测试。 首先,选定的模型会在受控的小规模环境中部署。试点阶段既能利用真实数据检验模型性能,又能最大限度减少对日常运行的影响。这一步骤对于发现理论预期与实际效果之间的差距至关重要。例如,在此阶段可能会出现数据质量或计算需求的意外波动。

评估与调整。 在试点测试期间,模型的预测结果会与基准数据集或历史真实值进行对比评估。相关指标会被密切监控。评估阶段获得的信息将指导模型的优化改进,例如参数调优、算法调整或预处理增强。

扩展部署。 一旦试点项目表现出令人满意的性能,模型就可以扩展为全面的运营使用。在这一阶段,需要考虑的额外因素包括与现有系统的集成、用户界面和自动化管道。还部署了强大的错误处理机制来管理异常或系统故障。

持续优化。 预测模型的部署并非一劳永逸的工程。随着时间推移,运行环境、系统条件或数据特征可能发生改变,这些变化都可能影响模型性能。定期监测并使用更新后的数据集进行周期性再训练,是保持模型准确性和可靠性的关键。采用在线学习或动态域自适应等先进方法,还能进一步提升模型的长期表现。

反馈与优化调整。 通过与终端用户、工程师或决策者保持沟通,可以获取模型可用性和实用价值的关键洞察。例如,用户可能会要求增加可解释性功能或改进与诊断流程的集成。采纳这些反馈意见,能确保模型始终与组织的核心需求保持一致。

通过将决策矩阵与适应度函数相结合,企业能够系统化地选择、实施并优化预测模型。这种结构化方法简化了权衡取舍,平衡技术需求与运营要求,确保长期成功。该方法论能以精准可靠且高效的方式提供可操作的洞见,既支持即时目标也助力战略规划。  

5 潜在研究方向

基于本次综述和案例研究的发现,提出了未来改进RUL预测预后模型的研究方向。这些方向根据讨论的四个关键特征进行分类:不确定性、鲁棒性、可解释性和可行性。

不确定性。 对于BF和随机模型,未来的研究应致力于提高置信区间的可靠性,因为现有方法通常会产生过宽的区间,并可能导致无信息的预测。另一个领域是开发基于系统动力学调整不确定性估计的自适应技术。对于机器学习模型,特别是深度学习模型,未来的工作应该探索贝叶斯深度学习方法(例如变分推理、深度集成)来取代MC Dropout等方法。 在所有模型类型中,一个关键方向是不确定性的管理,而不仅仅是其量化。这包括使用更实用的不确定性分类(过去、现在、未来、模型和预测方法的不确定性),通过利用数据更好地表征不确定性的来源,从而减少其对RUL预测的影响,实现不确定性管理。此外,重点应转向特定学科的不确定性,而不是整体的不确定性,这是所有DDM的一个关键方向。

鲁棒性。 随机模型可通过研究更灵活的状态转换架构获益,这类架构能够捕捉非平稳和多模态的退化行为。BF通过在线学习策略展现出潜力,能够在无需完全重新训练的情况下持续适应新条件下的退化模型。对于机器学习模型,未来的研究应优先采用自监督和无监督方法来增强跨领域的泛化能力。在所有模型类型中,将基于物理的知识与数据驱动的学习相结合的混合方法值得进一步探索,以提升适应性和容错性。

可解释性。 随机模型通常具有可解释性,但通过可视化工具帮助用户理解状态转换和概率结果,可以进一步提升其可解释性。对于BFs,展示状态演变过程的交互式可视化技术可为实践中的可解释性提供支持。而深度学习模型的可解释性仍是待解难题。未来研究应开发可靠解释工具,避免现有技术(如SHAP和LIME)中常见的不一致性问题。另一个重要方向是量化可解释性与性能之间的权衡关系,特别是在需要监管或操作透明度的场景中。

可行性。 对于随机模型和BF,未来的研究应该研究如何在数据有限或有噪声的情况下自动配置模型(例如,选择状态、粒子或分布的数量)。在机器学习中,有前景的方向包括少样本学习、自监督学习以及物理信息引导学习等降低数据需求的方法。对于所有模型类型,开发更优的缺失数据处理方法至关重要。最后,为嵌入式或边缘计算环境开发这些模型的轻量级实现方案仍是亟待解决的研究课题。

6 结论  
 

本文回顾了用于剩余使用寿命(Remaining Useful Life, RUL)预测的数据驱动预后模型,评估了机器学习(Machine Learning, ML)模型、随机模型和贝叶斯滤波器(Bayesian Filters, BF)在四个关键特征上的表现:不确定性、鲁棒性、可解释性和可行性。使用C-MAPSS数据集的案例研究比较了LSTM、AHSMM和PF模型的性能,突出了它们在解决这些特征方面的优势和局限性。

不确定性量化(Uncertainty quantification, UQ)仍然是RUL预测中的一个重大挑战。随机模型和BF在报告不确定性方面是有效的,但存在置信区间过宽和计算复杂性的问题。ML模型虽然准确,但往往忽略了UQ,导致潜在的不可靠预测。这些发现强调了需要更好的校准和方法来平衡精度和不确定性管理。

模型的鲁棒性对于确保其在不同运行条件下保持良好性能至关重要。尽管机器学习模型通过领域自适应等技术展现出潜力,但在工业应用中仍面临诸多挑战。随机模型和BF(如AHSMM),在看不见的和有噪声的条件下表现出了适应性,AHSMM在案例研究中表现特别好。然而,由于退化模型的约束,PF模型面临局限性。

可解释性对于安全关键型应用至关重要,监管框架要求必须具备透明度。AHSMM模型能提供清晰的降解表征,而LSTM模型则较难解读。PF模型虽具备一定可解释性,但其表现高度依赖底层降解模型。如何在可解释性与性能之间取得平衡,仍是各行业面临的重要挑战。

模型的可行性受数据可用性影响,在航空和机械等行业中,数据稀缺与噪声问题普遍存在。针对这些挑战,少样本学习和贝叶斯方法等技术应运而生。案例研究表明,AHSMM在有限数据下表现优异,而PF算法则在中等规模数据集上更胜一筹。这凸显了开发能适应不同数据环境的模型的重要性。

本文提出了一种模型评估框架,帮助用户根据操作需求选择最合适的模型。强调不存在一刀切的解决方案;模型选择取决于系统特定的约束条件和目标。实施预测模型需要持续的优化和用户反馈。

总之,本综述强调了数据驱动预测的进展和挑战。未来的研究应侧重于不仅准确,而且能够适应外界环境复杂性、处理不确定性、噪声数据和动态条件的模型。通过将新兴技术与行业特定需求相结合,该领域可以朝着创建可靠、透明的预测解决方案的方向发展,以更好地进行决策和运行优化。


编辑:Tina

校核:李正平、陈凯歌曹希铭、赵学功、白亮、任超、海洋、陈宇航、陈莹洁、赵栓栓、王金、赵诚、肖鑫鑫

该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除

来源:故障诊断与python学习


MechanicalSystemHPC振动非线性旋转机械航空python海洋UM声学理论电机数控DAP
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-09-19
最近编辑:4天前
故障诊断与python学习
硕士 签名征集中
获赞 87粉丝 128文章 243课程 0
点赞
收藏
作者推荐

基于圣维南原理与元模型的快速耦合建模|复合材料结构装配精度预测新方法

本期关注复合材料结构装配精度预测的新方法:在航空航天产品中,复合材料与过盈配合技术的广泛应用,对装配质量提出了前所未有的挑战——不仅需要更高的装配精度,还要求更低的装配应力,因为这两者直接影响气动性能与服役寿命。然而,传统的装配偏差与应力预测方法在面对大数据量、高计算成本的工程场景时,常陷于计算效率低与预测精度不足的困境。为破解这一瓶颈,本文提出一种融合圣维南原理与元模型的快速精度-性能耦合建模方法(performance coupling and assembly precision, CPAP):首先结合圣维南原理与有限元分析(finite element an alysis, FEA),构建高效样本生成机制,可快速获得过盈配合孔周围装配偏差与应力的关键数据;进一步将降维技术嵌入元模型,有效捕捉装配工艺参数与装配精度及性能间的非线性耦合关系,并赋予模型统计分析能力。该研究为航空航天装配质量控制提供了高效精准的技术工具。论文基本信息论文题目:Coupled prediction method for assembly precision and performance of composite structures based on a hybrid saint-venant’s principle and neural network approach论文期刊:Advanced Engineering Informatics论文日期:2025年论文链接:https://doi.org/10.1016/j.aei.2025.103401作者:Xin Tong, Jianfeng Yu*, Dong Xue, He Zhang, baihui Gao, Jie Zhang, Yuan Li机构:a: School of Mechanical Engineering, Northwestern Polytechnical University, Xi’an 710072, China团队带头人简介:余剑峰老师,现任西北工业大学机电学院教授、博士生导师,依托航空航天装备装配与连接领域的科研平台,余教授长期从事航空航天薄壁结构装配与连接、复杂产品装配精度保障及容差控制、数字孪生与智能装配等方向的研究。余教授作为航宇智能装配翱翔领军团队的重要成员,主持国家863计划重点项目子课题、总装预研项目等3项科研项目,参与国家863重点项目、国家自然科学基金项目及国防基础科研项目等7项。曾参编专业教材1部,在国内外学术期刊发表论文20余篇,其中EI收录7篇,ISTP收录3篇。曾荣获陕西省科学技术奖和陕西省国防科学技术进步奖各1项。(来源: https://teacher.nwpu.edu.cn/yujianfeng)目录1 摘要2 引言3 样本集求解方法3.1 基于PCFR工艺的等效分析模型构建3.2 基于圣维南原理的SAH求解3.3 基于SVE工艺的SAH求解算法有限元验证4 精度-性能耦合预测的元建模4.1 所提方法的整体框架4.2 精度-性能耦合预测的元建模5 案例研究5.1 案例描述5.2 参数确定与验证5.3 应用与分析6 结论1 摘要复合材料与过盈配合技术在航空航天产品中的应用对装配质量提出了新挑战:具体表现为更高装配精度与更低装配应力的需求,因其直接影响产品的气动性能与服役寿命。为此,飞机结构设计中需进行大量装配偏差与应力预测。为满足大数据量、高计算成本约束下的预测精度与效率要求,本研究提出一种复合材料结构装配精度-性能耦合(CPAP)快速预测创新方法。该方法结合圣维南原理与有限元分析(FEA),构建高效样本生成技术,可快速提供过盈配合孔(SAH)周围装配偏差与应力的关键数据;同时将降维技术融入元模型(metamodel, MM),有效捕捉装配工艺参数与装配精度及性能间的非线性关系,形成具备统计分析能力的耦合预测模型。案例研究表明,与传统方法相比,本方法显著提升预测效率,并揭示了过盈配合工艺参数对单纵缝拼接(single longitudinal splicing, SLS)接头结构装配精度与性能的重要影响。本研究为航空航天产品装配质量控制提供了有效工具,推动了行业技术创新与进步。关键词:复合板装配,装配偏差分析,有限元分析,神经网络预测,元模型2 引言复合板因其大尺寸、薄壁、轻量化的特性,被广泛应用于飞机机身段、翼盒等空气动力学关键部件中。这些部件通常采用机械连接方式(如螺栓连接)进行装配。然而,由于复合材料在连接界面处存在不连续性,孔洞邻近区域可能出现应力集中,从而潜在地影响结构完整性。针对这一问题,研究人员已广泛探索设计与工艺改进方案,并将过盈配合技术引入复合材料的机械连接中。过盈配合通常采用铆钉或超尺寸螺栓作为紧固件,通过安装直径略大于孔径的紧固件,在孔壁边界处产生微小变形。图 1 所示为带有单纵缝拼接(SLS)结构的飞机机身,其接头采用带套筒的复合材料过盈配合螺栓连接。这种连接在孔壁与紧固件杆之间形成压缩接触,并通过所产生的层间应力场,减缓飞机在服役周期中所经历的循环载荷。该技术无需改变结构设计或提升材料性能,即可有效提高连接孔的疲劳寿命和密封性。图 1 采用干涉配合连接的 SLS 结构典型飞机机身经过实验验证,过盈配合能够显著提升复合材料结构接头的性能,并延长飞机的服役寿命然而,然而,不当的过盈配合会增加接头的脆弱性,甚至可能导致严重事故。此外,过盈配合所引起的应力场还可能改变结构原有的应力–应变关系。因此,装配变形分析面临新的需求——不仅需要预测装配关键尺寸特征,还需开展装配性能的预测与评估研究。在航空航天装配变形分析中,蒙皮结构因尺寸较大、整体刚度低,在装配过程中对由过盈配合引起的层间应力尤为敏感。这种应力不仅可能诱发应力刚化效应(stress stiffening)等几何非线性现象,还会影响装配精度预测的可靠性。传统的柔性装配偏差分析方法在直接用于航空航天结构时存在挑战。在装配诱发结构损伤研究中,FEA能有效揭示不同载荷下的变形规律,但针对孔周应力的全流程仿真即使在单个样本上也计算量庞大,因此需引入解析与简化方法。对于复合材料铆接板,尤其在拉伸载荷下,过盈配合孔周的应力集中是损伤萌生的主要区域。已有研究将解析理论、有限元仿真与实验相结合,但由于复合板各向异性特性,传统弹性力学公式难以精确描述其力学状态。本研究属于基于元模型(MM)的偏差分析,旨在构建满足快速样本获取、高预测精度与高分析效率的神经网络预测模型,且样本需同时覆盖几何精度与应力预测。鉴于本研究中样本种类多、数量大,输入数据高维性是影响元模型性能的主要因素。引入数据降维技术不仅可减少所需样本量,还能提升模型构建效率。在本研究中,各装配孔的过盈配合工程参数呈现非均匀性,这对依赖数据分布特征的传统降维方法提出了挑战。为应对这一问题,本文采用基于自编码器的降维方法(ADR)。与传统方法不同,该模型利用数据集的内在特征实现降维,能够有效分析由特定工程参数配置所塑造的数据结构。综上所述,神经网络模型的构建依赖于从样本创建之初就确保数据精度,而这一过程与机理层面的分析密不可分。在满足精度要求后,需要提取关键影响因素,以建立兼顾精度与效率的快速响应分析模型。针对现有研究中的不足,本文提出了一种复合板过盈连接结构装配精度与性能预测的新方法,其主要贡献如下: 装配精度与性能的耦合预测方法。面向复杂薄壁构型复合结构的装配精度与性能预测,提出一种耦合集成装配偏差预测与 SAH 分析的采样模型。该模型结合 FEA 与数学推导,建立了等效 SAH 计算模型,并引入经典柔性装配理论与Saint-Venant 原理简化装配分析过程。该方法能够稳定生成覆盖全面的样本集,并基于 Hashin 准则将 SAH 转化为性能评估指标。高维数据下的元模型构建与快速预测。针对本领域中高维输入、大样本需求与海量数据带来的元模型应用难题,引入降维技术在保持模型精度的同时减少输入数据规模。基于神经网络的元模型结合降维输入,可快速预测装配偏差与性能指标。该方法已通过验证,能够在高成本、大数据量场景中有效运行,并为实际工程应用提供有力支持。3 样本集求解方法3.1 基于 PCFR 工艺的等效分析模型构建 本文建立了一种用于预测复合板装配精度与性能的解析模型,该模型可作为等效分析框架。如图 2 所示,PCFR工艺“放置(Placing)、夹紧(Clamping)、紧固(Fastening)和释放(Releasing)”是复合板子组件装配过程的四个阶段,具体如图 2 所示,各阶段内容如下。 图 2 基于 PCFR 装配流程的等效计算模型步骤 1:放置阶段。通过定位孔将需要进行 SLS 连接的两块板材定位。假设连接用的加强框(stringer)为刚性且已理想放置,因此仅考虑从加强框到连接端的区域。在图 2 中,δ₁、δ₂、δ₃和 δ₄ 分别表示关键特征点(KFP)K₁、K₂、K₃和 K₄ 的偏差。步骤 2 :夹紧阶段。夹紧(又称为形状保持夹紧)是通过皮带、夹具等夹紧部件将板材保持为理想形状。夹紧点记为 C₁、C₂、…、Cₙ。下式描述了夹紧力与板材偏差之间的关系。步骤3:紧固阶段。由于紧固是在夹紧之后进行(包括钻孔过程),此时夹具尚未移除,因此在连接过程中不会在孔边缘产生应力。 其中, 为由夹具作用于板材各个夹紧点形成的力向量, 为结构的刚度矩阵, 为关键特征点(KFP)的位移向量。需要注意的是,在公式推导中,我们采用均质化技术将整个复合板等效为刚度 。其中, 为装配体的刚度矩阵, 为在引入干涉连接所产生的应力场后附加的刚度矩阵。由下式可知, 的应变能会改变板材的结构刚度,并提高其抗变形能力: 步骤4:释放阶段。移除夹具后,板材会回弹至其标称位置。装配体在回弹过程中所受的回弹力在数值上与夹紧力 一致,如下式所示。在此阶段,连接孔承受的挤压应力达到最大值,这是复合材料发生潜在损伤的关键阶段。 在装配分析中,关注的变量主要为板材轮廓偏差及由过盈配合引起的应力场,这些均为关键输入因素。需指出的是,装配过程基于面板轮廓进行,夹具位置理想布置,故本文不考虑夹具定位误差。3.2 基于圣维南原理的 SAH 求解如图 3 所示,圣维南等效过程(Saint-Venant’s Equivalent Process, SVE)被应用于 SLS 接头以求解 SAH,从而建立等效工艺模型。考虑弦桁为刚体,回弹引起的应变不会传递到面板与弦桁的接触区域。在夹紧之前,与弦桁连接的板材自由端形成悬臂结构。 图 3 用于 SAH 计算的圣维南等效模型由于结构对称性,仅分析其中一块板材。根据圣维南原理,局部力作用于弹性体表面所导致的变形,可等效为远离作用点区域内的应力分布。受该理论启发,如图 3 所示,板材变形源自局部区域(连接、夹紧等)。在远离夹紧点和连接孔的区域 (即与弦桁相连的板材部分),产生等效分布应力 。假设该区域的影响导致面板发生屈曲行为,称该区域为等效应力区 。此外,在区域 内,考虑于 - 截面 上的等效载荷 。鉴于连接孔沿 轴均匀分布,板材被划分为 个截面 至 ,每个对应一个孔,区域 亦被划分为 至 。每个 SLS 孔的 SAH 根据跨越 至 的截面载荷计算。需注意,截面载荷包含弯曲和拉伸力,但 SAH 计算仅考虑拉伸分量 ,结合各孔的干涉量,建立了作用于 拉伸力下的 SAH 计算模型。 3.3 基于 SVE 工艺的 SAH 求解算法有限元验证 本研究采用 Abaqus 软件构建了一个四孔复合板 SLS 连接的有限元模型(如图 4 所示),该连接采用过盈配合。模型包含两块板材,尺寸为 70 × 72 mm,厚度 3 mm,孔沿 方向均匀分布。有限元模型两侧各设定宽度为 5 mm 的位移约束区,模型中以橙色线标示等效应力区域 。 图 4 含四个 SLS 孔的有限元验证模型在点 、 、 和 处施加工件回弹载荷 ,其数值分别为 N, N, N 和 N,基于板材轮廓保持在 ±5 的假设。有限元模型中设有测点 和 ,通过分析其 方向节点位移得到。模型采用 C3D8R 单元,连接孔周围网格密度较高。本研究装配采用复合套筒干涉配合连接,观察到螺栓与套筒间干涉配合导致连接过程中套筒径向膨胀,轴向载荷的大部分通过套筒转化为径向载荷,因此忽略套筒与孔间的径向摩擦力。工件有限元模型为单向碳纤维增强塑料(UD-CFRP),其材料参数见表 1。表 1 单向碳纤维增强复合材料(UD-CFRP)的力学性能 为验证本文提出的 SAH 方法的有效性,将其计算的径向及环向应力与有限元模拟直接提取的孔周应力(见图 5)进行了对比。结果显示两者在径向和环向应力上的高度相关性,体现了 SAH 方法在可靠性、精度和计算速度上的显著优势,同时表明该方法无需逐节点数据提取,即可高效处理。 图 5 SAH 随角度从0° 到 90° 的变化情况此外,参考对Hashin 准则的应用,复合材料中的拉伸损伤通常起始于基体。尽管装配过程中未引发损伤,但基体拉伸损伤因子作为评估装配性能的重要指标。以下公式展示了基体拉伸损伤因子 的计算方法。需注意, 值越高,损伤可能性越大,说明孔的连接性能越差。最终值为 1 表示发生损伤。因此,本研究采用横向–剪切等效失效指标 作为表征连接性能的指标,用于评估各连接孔的连接性能。 4 精度-性能耦合预测的元建模4.1 所提方法的整体框架4.1.1 C-MAPSS数据集 本研究提出的 CPAP 框架如图 6 所示,包含三个关键阶段:样本生成、元模型构建与统计结果生成。 图 6 CPAP 总体框架(1) 样本生成阶段本阶段选定两个核心输入参数——轮廓公差和干涉值,用于满足设计公差及工艺范围。设计变量涵盖零件偏差(例如轮廓公差)与工艺参数,并统一表示为输入向量: ,其中 , 代表关键特征点(KFP)数量, 代表干涉孔数量。样本容量为 时,初始样本集 可用以下公式表达: 其中, 表示初始样本集的维度,每列代表零件偏差与工艺参数的联合采样。初始样本集的响应集记为 ,通过上一节所述计算方法获得。为了获取 SAH,基于有限元分析(FEA)采用 Saint-Venant 等效方法(SVE)生成响应值。(2) 元模型构建阶段在元模型构建过程中,应用自编码器降维技术(ADR)以减少输入特征的维度。此步骤在保持预测精度的同时,最大限度降低模型训练所需样本量。根据经验设计准则,训练样本数 依据输入变量维度 确定,满足条件 。(3) 模型训练与统计结果生成采用 Levenberg-Marquardt(LM)算法训练反向传播(BP)神经网络。该模型利用降维后的输入预测输出参数,包括 和 ,输出表现为统计分布,实现装配精度与性能指标的耦合预测。输出结果为在给定装配条件下,复合材料薄壁单纵缝(SLS)结构性能评估提供基础。通过虚拟样本扩增与降维技术的结合,CPAP 框架在训练效率与预测精度间实现平衡。4.2 耦合预测的元建模基于获得的初始样本集,CPAP 的关键在于通过元模型构建提升预测效率与准确度。针对该问题,本文引入样本扩展及降维技术以开发元模型。本节详细介绍自编码器降维过程及元模型构建参数设置,以增强模型的计算效率和预测性能。首先,根据设计变量(如轮廓公差与干涉值),计算样本响应值,建立初始样本集。为克服计算成本限制,研究采用多尺度径向基函数插值(multiscale radial basis function interpolation, MSRBF)方法生成虚拟样本,显著扩展样本集的同时保持计算效率。通过 MSRBF 生成的虚拟样本提升设计空间覆盖度,捕获初始样本集中未能体现的复杂分布。扩展数据集由虚拟样本与初始样本集拼接组成。随后,在样本扩展基础上实施降维,降低特征维数并保留关键信息,缓解预测模型训练负担。样本规模由扩展比率( )决定,最终特征维度受降维比率( )控制。两者独立设置,但协同保障充足训练数据与计算负荷减轻。图7展示了样本扩展与降维流程。 图 7 构建元模型的样本扩展与降维过程 其中, 和 分别表示虚拟样本和真实样本的数量, 和 分别表示降维后和降维前的样本数量。自动编码器降维(ADR)过程包括三个主要部分:编码、解码和重构误差评估。首先,编码器将输入数据从高维空间映射到低维空间,将输入数据 转换为低维数据 (其中 )。随后,解码器从映射得到的低维数据重构出高维数据。最后,通过均方误差(MSE)作为准则评估重构误差,调整输出以最小化该误差。相关数学表达式如下式所示: 在上述公式中, 表示编码器的权重矩阵, 和 分别为编码器和解码器对应的偏置向量。激活函数 (如 ReLU)被应用于变换过程中。 代表解码器的权重矩阵。 表示样本数量, 是第 个样本的输入数据, 是该样本经解码器重构后的输出。结合上述技术,本文提出了一种快速且精确的装配精度与性能耦合预测方法。值得注意的是,在模型构建过程中,样本扩展比率与降维比率的选择至关重要。为保证模型的最佳性能,采用均方根误差(RMSE)作为评估指标,其计算公式如下: 其中, 和 分别表示预测值和训练值。此外,训练集、验证集和测试集的比例设定为 6:2:2。对于 BP 神经网络的其他参数设置,输入层神经元数量取决于降维后确定的特征维度。隐藏层由两层组成,激活函数采用 ReLU。输出层的神经元数量则根据关键测量特征点数量及过盈配合孔数量确定。5 案例研究5.1 案例描述本案例将所提方法应用于飞机前机身装配中的一部分,如图8所示,该部分属于类似于锥形前段的锥形桶结构。案例研究旨在预测设计阶段面板组件的装配精度与性能,获取统计结果。图 8 飞机前机身的一个子部件该结构由两个梯形复合材料面板组成SLS结构,具有较大的曲率半径。由于曲率较大,模型中未考虑板的曲率形状。根据方法,提取两根纵梁之间区域,尺寸约为144 × 100 mm²,布置有8个均匀分布的过盈孔,孔间距为18 mm。该区域被划分为八个等效应力区Ae,用橙色线条表示。面板表面设有6个夹紧点,代表面板回弹力Fv的载荷施加点,以黄色三角形标示。有限元模型详细信息见表2。同样,本例中采用套筒过盈螺栓连接。依据第三章方法,完成样本集准备,并建立神经网络预测模型。表 2 有限元分析(FEA)建立信息5.2 参数确定与验证考虑到存在4个关键特征点(KFP)和8个过盈配合连接孔,输入维度定义为 。针对本案例确定了样本扩展比例( )与降维比例( )的最佳组合,首先,按照第3节的方法,准备了初始样本集,样本容量为 ,模拟欠采样预测场景。随后,针对不同的 与 组合,对训练样本集进行了不同倍数的抽取。各组合对应的重构误差 与降维后训练样本数量 列于表3。表 3 与 的不同组合 在筛选过程中,排除的组合,因为这些组合在降维输入重构时已引入误差。根据实验设计的经验准则,输入变量维度为 时,训练集样本数应满足,不符合此条件的组合被剔除。图9展示了样本扩展技术的讨论,图中以不同参数组合下的均方根误差(RMSE)表示。 图 9 不同参数组合下的RMSE评估结果表明,为保证装配预测过程的准确性与效率,不同训练样本抽取比例需匹配特定的 与 值。表4详细总结了多种欠采样条件下 与 的最优组合。这些组合既保证了模型的高预测精度,又提升了计算效率,为样本处理提供了有效策略。表 4 不同抽取倍数下 与 的最优组合 5.3 应用与分析本研究中,构建元模型(MM)时参数设置为 和 。为了保证模型的泛化能力,重新生成了包含 35 个样本的新初始训练集,用于构建元模型。随后,分析了两种不同条件下的装配偏差:条件(1)中,所有孔均采用统一干涉值 为 1%;条件(2)中,干涉值 增加至 4%。每种条件下均生成了 1000 个输出样本值。偏差值服从高斯分布,且满足轮廓公差要求 ±5。为验证所提方法的有效性,本文利用 CPAP 方法和CATIA 3DCS® 计算了两个测量点的偏差,相关准确性和效率结果汇总于表 5。表 5 CPAP方法与CATIA 3DCS®的对比结果 结果表明,所提方法在准确性和效率方面均优于 CATIA 3DCS®。值得注意的是,CATIA 3DCS® 无法有效预测连接性能。此外,CATIA 3DCS® 对每个样本均需基于材料属性重新计算刚度矩阵,而所提方法综合考虑所有变量,大幅提升了计算效率。综上,所提方法在准确性与效率之间取得了良好平衡,尤其在成本与数据量受限的情况下,实现了快速响应和精确计算,为航空航天结构的装配偏差分析提供了有效的新方案。图 10 展示了装配偏差的统计结果。通过高斯拟合生成了两测点的统计曲线。高斯拟合的标准差被推导为上下偏差(+3STD 和−3STD),用红色虚线表示。值得关注的是,当干涉配合值 I 从1% 增加至 4% 时,MP1 和MP2 测点的装配结果标准差均降低,说明装配精度有所提升。这一现象可能源于两个板之间弱刚度区域因较大干涉配合产生的刚度增强效应,导致夹具释放后板件反弹减小。 图 10 两种工况下MP1和MP2的装配偏差此外,如图11所示,对两个干涉水平的性能进行了评估,计算了每个孔的平均性能值,并用误差条表示这些值的分布。显然,4%干涉下的整体性能较1%时较差。此外,每个工况的性能评估显示,从第1孔到第8孔,横向–剪切等效失效指标逐渐减小,表明孔的连接性能逐步提升。因此,本研究提供了装配精度与性能耦合的预测分析,将为后续的精度与性能耦合优化提供重要支持。 图11 两种工况下八个孔的连接性能6 结论本文针对航空航天领域中关键且典型的复合材料薄壁单纵缝拼接(SLS)过盈连接结构,提出了一种等效计算模型。该模型融合有限元分析与数学推导,实现了装配性能与精度的耦合预测。通过采用经典柔性装配理论和圣维南原理进行模型转换,有效简化了装配过程。全面的有限元分析验证了该方法的可靠性,表明尽管计算过程明显简化,但该方法仍能保证精度与效率。为进一步提升计算效率,本研究将装配性能-精度耦合计算模型作为采样工具,提出了一种基于神经网络元模型的计算模型,结合输入数据降维技术。该方法有效减少了样本量,从而提高了建模效率,其耦合完整性通过验证集得到确认。这为解决装配偏差分析中高成本和大数据量的挑战提供了一种可行方案。编辑:Jin校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、肖鑫鑫、赵诚该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈