论文题目:Physics-informed machine learning: A comprehensive review on applications in anomaly detection and condition monitoring
论文期刊:Expert Systems With Applications
论文日期:2024年
论文链接:
https://doi.org/10.1016/j.eswa.2024.124678
作者:Yuandi Wu, Brett Sicard, Stephen Andrew Gadsden*
机构:McMaster University, 1280 Main Street West, Hamilton, ON L8S 4L8, Canada
通讯作者邮箱: gadsden@mcmaster.ca
作者简介:
Stephen Andrew Gadsden(Senior Member, IEEE),加拿大安大略省汉密尔顿市麦克马斯特大学机械工程系的副教授、智能和认知工程实验室主任。在加拿大汉密尔顿的麦克马斯特大学获得机械工程和管理(商业)学士学位和机械工程博士学位。曾在加拿大安大略省汉密尔顿市的机电一体化和混合技术中心做了近三年的博士后研究工作。研究方向包括控制和估计理论、人工智能和机器学习以及认知系统。他与NASA、美国陆军研究实验室、美国农业部和美国国家标准与技术研究所的多位学者保持着合作关系。Gadsden博士是ASME的Fellow、安大略省的专业工程师、经过认证的项目管理专家,担任多个ASME和IEEE期刊和国际会议的审稿人。
1 摘要
2 引言
3 文献综述方法
4 基于物理信息的机器学习
4.1 物理嵌入特征空间
4.1.1 物理引导的输入特征增强
4.1.2 迁移学习
4.2 数据增强的物理模型优化
4.3 物理信息正则化
4.3.1 基于物理信息的神经网络
4.3.2 数据驱动的微分方程求解
(以上标记章节为本文内容)
4.4 物理引导的架构设计
5 讨论
6 结束语
状态监测在确保各种工程系统的可靠性和最佳性能方面起着至关重要的作用。传统的状态监测方法依赖于基于物理的模型和统计分析技术。然而,这些方法在处理复杂系统以及面对精确物理模型可用性有限的情况时,往往面临挑战。近年来,基于物理信息的机器学习(PIML)作为一种有前景的状态监测方法应运而生,它结合了基于物理的建模和数据驱动的机器学习的优势。本研究全面概述了 PIML 技术在状态监测中的应用。推动 PIML 发展的核心概念是将已知的物理定律和约束条件融入机器学习算法中,使算法能够在从现有数据中学习的同时,保持与物理原理的一致性。通过将领域知识与数据驱动的学习相融合,与纯粹的数据驱动方法相比,PIML 方法在准确性和可解释性方面都有显著提升。在这项综述中,我们详细研究了将已知物理原理整合到机器学习框架中的方法,以及这些方法在状态监测特定任务中的适用性。将物理知识融入机器学习模型可以通过多种方法实现,每种方法都有其独特的优缺点。本文详细探讨了在数据驱动模型中整合物理知识的各种方法的独特优势和局限性,考虑因素包括计算效率、模型可解释性,以及在状态监测和故障检测中对不同系统的通用性。我们还介绍了一些利用这一新兴概念的案例研究和文献,以展示 PIML 在状态监测应用中的有效性。从综述的文献中,可以证明 PIML 在状态监测中的多功能性和潜力。新颖的 PIML 方法为解决状态监测的复杂性和相关挑战提供了创新的解决方案。这项综述为该领域未来的研究奠定了基础。随着技术的不断进步,PIML 有望在优化维护策略、提高系统可靠性以及提升工程系统的整体运行效率方面发挥关键作用。
关键词:机器学习;深度学习;基于物理信息的机器学习;状态监测;异常检测
在过去的十年中,机器学习(ML)算法由于其高效性和从数据中推断模式的能力,在各种行业中得到了迅速的发展。通过可用的数据,ML模型能够以最小的人工干预准确地表示给定的输入和输出之间的关系。这种性质使得ML模型非常适合于表示那些控制行为的关联和参数不易获得的复杂系统。然而,尽管ML模型具有诸多优点,但也存在一些不足。
一般而言,ML算法是一种数据驱动过程,旨在推导给定输入及其相应输出之间的关系。这一过程通常通过某种定义的优化算法执行,其中模型做出的预测被评估并不断调整以更好地反映给定数据。正如预期的那样,ML模型的性能严重依赖于其优化的数据。事实上,数据质量和可用性的限制是选择使用ML时的主要关注点之一(L'heureux等,2017)。对于许多工程应用而言,收集足够数量的数据以构建可靠模型可能具有挑战性、成本高昂,或者由于时间和资源限制而不可行。需要大量干净、具有代表性且非稀疏的数据才能正确构建模型(L'heureux等,2017)。数据量不足和/或不具有代表性的数据通常会导致对系统行为的歪曲表示,与真实的底层物理关系不一致,最终导致误导性结论。此外,ML模型被认为是“黑箱”模型,其中输入和输出之间的中间信息在产生输入与输出之间的关联时既不相关也不被需要。也就是说,在这些模型的开发中,往往没有考虑系统的潜在机制,尽管这些模型有效地表示了一个系统,但可能无法进一步帮助我们理解所说的系统(Rudin,2019)。
就基于先验知识的系统表示而言,传统上也采用了基于物理的建模。然而,纯粹基于对系统的理解而开发的模型,由于其适用性的诸多挑战,在模拟现实世界系统中的应用受到限制。首先,物理模型的计算成本高昂(Jia等,2019)。这是由于大多数现实世界物理系统的计算复杂性,以及每个特定物理主体或现象涉及的多种控制方程,完全建模这些系统所需的成本相当大。此外,由于对系统的理解缺失或不完整,物理模型通常代表了对系统的不完美解释。
自然地,研究人员意识到,将物理模型与数据驱动模型结合是预测和建模系统行为的下一步。这种物理信息机器学习(PIML)的范式最初由Lagaris等(1998)提出,他们首次展示了使用人工神经网络(ANN)求解常微分方程和偏微分方程。Karpatne等(2017)在其理论引导数据科学的研究中正式引入了这一范式,概述了领域知识与数据驱动解决方案之间的多种整合途径。通过这种统一,新的物理信息模型能够同时受益于基于物理的方法和数据驱动方法。自其发表以来,大量关于PIML范式的研究得以开展。以Raissi等(2019)为代表的学者通过引入物理信息神经网络(PINNs),进一步推动了理论与数据科学的融合。在PINNs中,以控制方程形式表示的物理定律被编码到神经网络(NNs)中。NN的架构和特性使其特别适用于近似偏微分方程(PDEs)的解。Raissi等(2019)在其研究中系统展示了解决非线性偏微分方程的方法论。Karniadakis等(2021)综述了物理与数据驱动技术整合的流行方法,并提出了对该技术局限性和潜在应用的见解。Meng等(2022)也对PIML领域的各种工作进行了综述,总结了其发展背后的核心动机、各种应用中常用的物理控制方程以及积分方法。从文献中可见,尽管新颖,PIML的应用已在多个领域崭露头角。
本综述重点考察状态监测(CM)背景下的PIML方法在各类工程应用中的具体应用。CM是工程行业的关键组成部分,对确保设备可靠性、安全性和效率至关重要。PIML在此领域的应用涉及对振动、温度、压力等关键参数的持续监测,这些参数可反映被监测设备的健康状态。通过持续采样这些参数,工程师可以在问题发生前识别潜在问题,并采取纠正措施以防止成本高昂的意外停机、设备故障甚至灾难性事故(2023)。近年来,随着PIML和信息能力的发展,出现了各种各样的集成物理知识的创新方法,以用于CM中的应用。在Xu等(2022)的综述中,作者已详细概述了PIML在CM中的具体应用。因此,本研究旨在为读者提供基于物理的知识与ML方法整合的最新方法的概述,而不是专注于具体的应用。因此,本文的总体目标是为读者提供一个理解其具体应用的基础,并更深入地理解PIML的潜在原理和机制。
正如本综述正文所述,PIML学习方法因能够在学习过程中融入基本物理定律和原理,相较传统ML技术展现出独特优势。PIML有效结合了ML算法的解释能力与物理的基础理解,利用先验知识引导学习过程。通常,这一学习过程会生成更准确且具有可解释性的模型。此外,由于基于物理的优化准则可以约束解空间并提供洞见,PIML方法减少了对大量标记训练数据的依赖,即使在数据稀缺场景下也能发挥作用。总体而言,物理信息方法在科学和工程应用中展现出更好的泛化性、鲁棒性和可解释性,使其优于传统ML方法。此外,这些方法在可解释人工智能(xAI)背景下为终端用户提供了更好的可解释性,而xAI是人工智能技术广泛采用的重要考量。
本综述的结构如下:第3节概述了待综述文章的检索方法;第4节详细解释了将物理知识整合到数据驱动解决方案中的方法学,并介绍了ML内流行的架构背景,以及不同领域学者如何将先验物理知识融入这些模型;第5节总结了近期趋势的解读,重点讨论了所综述方法的优势与局限;最后,第6节对综述进行了总结与概括。
本综述回顾了物理建模与ML在CM和异常检测中整合的最新进展。经过筛选后,共选取了107篇已发表的论文。从整理的文献中可明显看出,PIML范式在科研界正迅速普及。本综述的检索方法包括在Google Scholar、IEEE Xplore、ScienceDirect和ACM数字图书馆等平台上使用"physics-informed"、"physics-guided"、"physics-based"、"Machine learning"、"condition monitoring"、"fault detection"、"anomaly detection"等关键词进行搜索。结果根据相关性、年份和引用量进行筛选。
近期研究呈现出显著的趋势,即通过物理技术修改ML模型的输入特征空间,通过观测偏差引入物理知识。这种对输入空间的调整使模型能够学习物理一致的关系,从而限制不符合物理原则的映射。这种方法因其简单性和提升模型性能的有效性而广受欢迎。此外,综述强调了物理信息正则化技术的应用——模型会因偏离物理原理而受到惩罚。该方法已在多项研究中得到应用,证明了其在神经网络优化过程中整合物理原理的有效性。同时,综述还发现一些研究通过设计神经网络架构直接嵌入刚性约束,通过将学习参数和模型输出与物理量直接关联来增强可解释性。这些创新深化了对算法预测机制的理解,从而提高了模型的整体可靠性和性能。后续章节将详细探讨这些发现,讨论物理建模与ML相结合的方法学、应用、优势与局限。
本节详细阐述PIML模型的背景,并介绍将物理意义嵌入数据驱动解决方案的多种方法。PIML的实施方式因应用领域而异,存在多样化的实现方法。总体而言,物理建模与ML的结合通常通过以下框架实现:
1. 物理嵌入特征空间
2. 数据增强的物理模型优化
3. 物理信息正则化
4. 物理引导的架构设计
这些细节将在以下几个部分进行讨论。
4.1 物理嵌入特征空间
物理原理与ML方法相结合的最直接的方式可能是通过物理建模开发ML模型的特征空间。对特征空间的扩展或修改不会直接影响模型架构,所得模型仍被视为黑箱模型——即无需揭示结果推导机制即可产生相关结果的模型(Karniadakis等,2021)。然而,通过利用对底层物理的基本理解,这些方法以符合物理定律的方式塑造ML算法的特征空间。相较于传统ML方法,这种结合方式具有多项优势,可形成更鲁棒且数据高效的框架。通过这种结合,ML算法可设计为利用物理关系的先验知识,从而更精确高效地应用于各类工程场景。如Karniadakis等(2021)所述,此类结合方式主要关注引入观测偏差以提升ML模型性能。此处"观测偏差"指体现系统底层物理或先验知识的特定测量或特征。通过融入先验知识,各种输入增强程序引入的观测偏差可引导算法预测限制在物理合理范围内。多项研究表明,相较于纯数据驱动方法,此类算法能更有效地识别相关特征,从而提升建模能力并缓解数据限制(Deng等,2022;Gitzel等,2021;Leturiondo等,2017)。在CM应用中,常需在ML模型中设计对设备状态变化敏感且能有效区分正常与故障工况的工程特征。文献中可见多种实现方式,例如将物理生成的参数和变量作为附加输入纳入特征空间。物理信息特征的添加可通过ML流程中解析的附加增强数据集直接实现,或通过迁移学习等方法间接实现,即通过ML算法捕获物理信息源域的特征并重新利用。后续小节将通过案例讨论这些特征操作方法。
4.1.1 物理引导的输入特征增强
近年来,ML领域取得巨大进展,部分得益于可用于ML模型表达性和代表性训练的大型数据集(Lheureux等,2017)。然而在复杂工程任务中,收集和标注大量数据可能成本高昂、耗时,甚至不可行。此外,由于ML模型的黑箱特性,即使事先掌握系统信息,也难以单纯通过调整数据集来改变模型行为。
文献中主流的解决方案是利用系统模型生成合成特征来补充或替代真实数据,其主要优势在于可生成具有高度可变性的大规模数据集,同时遵守物理定律。该特性在工程应用中备受重视,因为少量观测数据可能无法准确反映系统或设备的全工况范围(Gardner等,2021;Hopwood等,2022)。例如,特定故障条件的观测数据往往稀缺且难以获取,导致可用数据集常存在类别不平衡和严重偏斜(Hopwood等,2022)。这对标准分类器构成重大挑战,因其易过度关注样本丰富的类别。在此类场景下,生成物理相关特征或数据成为获取干净、平衡数据集的有效方法。
该方法的局限通常涉及真实工况复杂性的准确复现,以及因物理先验知识不完整或错误导致生成数据无法反映设备真实行为的风险(Serre,2019)。尽管如此,许多学者仍选择通过已知物理原理生成物理一致的合成特征或数据来解决此问题。此方式中,生成模型通过已知物理原理形成或补充现有特征空间,其核心目标是以更高精度检测潜在问题,同时降低对真实数据采集的要求,并提升系统预期行为与物理原理的契合度。表1(受篇幅限制,可参看原文)总结了近期采用此框架的研究案例。
基于物理的模型可模拟多种物理系统。通过此类模型增强特征空间,ML算法可基于可靠(尽管可能不完整)的物理原理准确预测系统行为。此方法因易生成大量可靠数据且能规避实际伦理问题而受青睐(de Melo等,2021)。例如,可通过系统知识提取或生成附加特征形成增强特征空间(图1A)。或者,通过物理或数值仿真模型解析未标注输入生成标注数据,再将生成的标签和输出用于训练过程(图1B)。
图1 通过基于物理的方法生成合成数据的过程的一般概述
减法特征工程主要涉及特征选择——这是ML算法中常用技术,旨在选择对问题相关且有意义特征。利用基于物理的约束,一种基于物理信息的特征选择策略可能旨在识别和保留最关键的特征,以实现准确和可解释的预测。除上述众多方法外,生成对抗网络(GANs)等深度学习结构也实现了合成数据生成的半自动化。在此结构中,生成器和判别器神经网络通过物理信息正则化同步训练以生成物理一致的合成数据。更多关于此类网络的信息及其在文献中的实施案例可参见4.4.5节:生成式深度学习网络。
在PIML范式普及之前,早期的研究已经利用上述各种物理引导合成数据生成的优势和性质,大规模地生成物理上一致的结果,用于数据驱动模型的训练过程。这些研究并非通过从头定义数据驱动模型,而是使用在基于物理的模型中定义或由基于物理的模型定义的先验参数或变量来充分发挥作用。例如Tian等(2015)和Frank等(2016)分别在其ML模型中采用物理模型指导的数据预处理技术生成或补充输入特征空间。Tian等(2015)探索了基于谱峭度的特征提取策略应用于电机轴承故障监测与诊断,随后采用半监督K近邻(K-Nearest Neighbour,kNN)算法进行分类。Frank等(2016)提出建筑能耗故障诊断与异常检测的混合模型,采用高保真系统模型补充数据驱动模型所需数据。该模型结合健康与故障状态数据,通过支持向量机(SVM)和随机森林(RF)等分类算法识别异常行为。最近,Karandikar等(2021)提出了一种逻辑分类方案,利用已知的物理规律作为模型的约束条件,对机床的退化进行建模。在他们的研究中,切削速度和刀具寿命之间的非线性物理关系是通过对输入参数的对数操作嵌入的。通过将切削速度、时间等输入变量进行对数转换,构建出符合泰勒刀具寿命模型物理规律的特征空间,作为逻辑分类器模型的输入。这种方法在对数空间中强制实现线性关系,确保了模型预测结果与泰勒刀具寿命理论的一致性。同样,Li等(2020)提出了一种基于深度卷积神经网络(CNN)的代理模型用于刀具磨损监测。该模型利用传感器提供的高保真信息,通过振动模态分析或有限元分析等基于物理的方法获取信息。基于物理的方法不仅可以通过确定传感器位置来优化数据收集程序,而且可以作为构建健康指标的特征工程机制。随后训练一个ML模型来学习低保真信号与已建立的健康指标之间的关系。Hao等(2023)通过在输入特征空间中嵌入各种物理参数,提出了一种估计多晶合金缺口疲劳退化的框架。通过敏感性分析,确定了影响其性能的关键参数:由Basquin模型得到的无缺口试样参考寿命,由Neuber法则得到的缺口根部应力状态和应力比,以及由Smith-Watson-Topper模型得到的能量型损伤参数。总之,这篇文章提出的基于Latin超方形抽样的PIML模型具有良好的泛化能力和预测能力。
对于涉及固体结构的应用,例如结构健康或机械健康监测,现有文献中的一个共同主题是使用有限元模型来生成物理数据。有限元模型在模拟复杂的真实世界系统时具有固有的多功能性和鲁棒性,通过将复杂的几何结构离散为较小的单元,为预测和分析各种物理行为提供了一种系统的方法。更具体地说,每个元素都是使用描述控制特定元素行为的物理的数学方程建模的。在此方法框架下,代表系统物理特性的控制方程或本构方程可被嵌入机器学习模型的特征空间。质量守恒、动量守恒、能量守恒等物理定律,以及材料属性、边界条件等物理约束,均能以数学形式表征并通过弱约束形式实现。诸多研究通过有限元仿真建立物理模型,将系统物理特性融入数学公式体系。例如,Seventekidis等(2020)在结构健康监测的损伤识别研究中,将有限元模型作为仿真数据源训练机器学习模型,其实现流程遵循图1(B)所示的通用范式。
健康状态分类模型仅利用有限元模型在各种加载条件下产生的带标签的结构响应振动数据进行训练。通过有限元仿真获得的结构响应振动数据将作为CNN分类器的输入,该模型在基准线性梁结构应用中表现出优异的损伤状态判断精度。Seventekidis等(2020)的研究正是采用这种训练策略的典型案例。Rai和Mitra(2021)在铝板样本的兰姆波响应损伤定位研究中,采用有限元仿真构建损伤特征数据库的创新方法值得关注。研究人员通过建立损伤参数数据库,将其作为ANN训练过程的输入,并采用鲁棒的Levenberg-Marquardt算法进行参数更新,实现了损伤特征的有效学习。在齿轮箱故障诊断领域,Liu等人(2020)通过有限元方法数值模拟齿轮箱运行时的故障样本,将获取的时域和时频域信号分离,并基于此生成故障样本用于极限学习机模型的训练,展现了有限元仿真在复杂机械系统监测中的应用潜力。Bansal等(2022)关于异种材料接头电偶腐蚀的研究提出了创新性框架。通过建立考虑环境因素的有限元腐蚀模型模拟材料损耗,并基于敏感性分析结果选择与材料损耗最相关的参数作为特征,成功实现了基于物理信息机器学习(PIML)的节点代理建模。
在复杂系统建模领域,广义过程(GPs)作为一种贝叶斯非参数模型脱颖而出。GPs固有的不确定性量化(UQ)的能力,适用于需要预测置信度的复杂系统建模。在最近的文献中,GP在PIML中的可行性得到了很好的证明。Chen等(2021)的研究展示了如何利用GPs求解非线性偏微分方程(PDEs)并从中学到规律。该研究强调了GPs如何有效利用PDE的结构指导学习过程,从而提升模型的准确性和可解释性。作者提出了一个基于GPs的框架,用于求解非线性PDE及其反问题(如PDE中的参数识别)。该方法将配点核方法自然扩展到非线性PDE和反问题中,确保了对广泛PDE类的收敛性,并能计算特定PDE近似的误差边界。其核心思想是通过引入代表配点处解导数的附加变量,将无限维优化问题降维为有限维问题。最终,采用改进的高斯-牛顿法高效求解优化问题,该方法通过逐次线性化非线性PDE实现。此外,该方法的计算复杂度与当前最先进的稠密核矩阵求解器相当,具有实际应用价值。与传统方法不同,该算法可同时求解参数和PDE解,显著提升了效率。通过对非线性椭圆PDE、Burgers方程、正则化Eikonal方程以及达西流中的渗透率识别等问题的实验验证,该框架的有效性和通用性得到了充分体现。此外,论文为理论分析奠定了基础,提出了将线性回归分析技术推广到配点法求解非线性PDE的新研究方向。未来方向包括解决解的唯一性和收敛速率问题、获取严格的误差估计、学习分层核参数,以及将该框架与非高斯先验的贝叶斯逆问题结合。这项工作的核心贡献在于捕捉复杂动力系统的底层物理规律,并通过鲁棒的UQ实现高精度预测。这一能力在传统方法因计算限制或缺乏解析解而失效的仿真和建模场景中尤为重要。Yang等(2019)的另一项重要研究提出了一种多保真度建模方法。该方法通过协同克里金法(高斯过程的高级形式)将高保真和低保真数据与物理定律融合。该研究强调了多保真度建模在PIML中的重要性:通过原则性融合不同来源的信息(如实验数据和多分辨率仿真数据),可提升预测能力和UQ。Yang等证明了物理信息协同克里金法(CoPhIK)能有效整合异质数据源,同时遵守物理规律,从而实现数据与模型的高效收敛。论文提出的CoPhIK通过结合高保真数据(如观测值)和低保真数据(如随机物理模型的输出)提高精度。其核心是使用物理信息克里金(PhIK)构建低保真GP,并通过参数化GP建模低保真与高保真数据间的差异。该方法通过融入部分物理知识降低了超参数推断的优化成本,并证明其满足物理约束至误差界内。此外,CoPhIK结合贪婪主动学习算法指导新增观测位置的选取。通过函数重构、热输运问题状态重构以及稀疏测量下的示踪剂分布学习等案例,CoPhIK的效率和精度得以验证。这种多保真方法将高精度数据与易获取的低精度数据结合,提供了对建模系统的全面理解,从而在保持计算效率的同时增强了模型的预测能力。Kohtz等(2022)将高斯过程回归用于锂电池的剩余寿命预测。他们通过物理有限元仿真模拟了主要退化过程(固态电解质界面层的形成),并将仿真结果与实验数据结合训练基于协同克里金的多保真模型,最终建立了测量电压曲线与电池健康状态的经验关系。总体而言,GPs的概率特性具有显著优势。预测不确定性的量化能力不仅提高了模型的可靠性,还为预测置信度提供了宝贵洞见。这一特性在状态监测(CM)应用中尤为重要,因为基于模型预测的决策可能产生重大后果。通过评估和传达与预测相关的不确定性,用户可在考虑潜在风险和结果变异性的前提下做出明智决策。
在数据收集仍然是一个限制因素的系统中,合并综合生成的数据或特征可能是非常有价值的。PIML模型通常被用于预测各类应用中难以直接观测的变量。通过利用物理约束,这些模型能够深入揭示复杂系统的行为特征,即使直接测量手段受限或不可行。例如,Chao等(2019)的研究探索了一种混合方法用于发动机故障检测与隔离。在该研究中,作者构建了发动机的物理模型,并利用无迹卡尔曼滤波器推断不可观测的过程变量。通过这一过程,作者有效增强了两种数据驱动诊断模型(分别基于ANNs和变分自编码器(VAEs))的特征空间。以此研究为基础,作者进一步扩展模型,提出了用于发动机系统群的预测与剩余使用寿命(RUL)预测的混合框架(Chao et al., 2022)。同一团队的另一项研究则利用系统物理模型预测与组件健康状态相关的难测参数,并将估计参数与观测数据结合输入NN,形成物理增强的特征空间。其他案例包括Darr等(2023)的研究,其目标是检测并缓解推进系统在发射过程中与异常相关的问题。该团队提出了一种新型数据生成方案,通过自动化物理仿真过程生成异常数据,并利用长短期记忆网络(LSTM)检测异常行为和事件。Alotibi和Tipper(2022)创建了一个检测风电机组运行中虚假数据注入攻击的框架。通过基于物理的模型解析来自物理设备的功率输出等监测参数,该模型基于动能定律,为ML增加了可用的特征空间。异常检测采用基于物理信息的孤立森林。该算法将测量的历史时序数据与基于物理模型的特征增强相结合,以创建用于异常检测的随机森林集成。作者通过将该框架应用于真实世界的数据集,证明了在他们提出的框架中融合物理学的能提升异常检测精度。
在监测电化学应用中的健康状态,Li等(2021)采用了高保真的电化学热物理模型,用于生成电池中关于电化学状态的不可观测数据。生成的变量如锂离子浓度和电势被用于神经网络的训练过程中,该网络学习可观测数据和物理上无法测量的数据之间的非线性关系。在Hopwood等(2022)的另一项研究中,作者主要采用物理建模来克服与光伏阵列的高保真CM相关的成本问题。Hopwood等(2022)提出了一个完全合成的训练数据集,该数据集基于光伏阵列在健康状态、局部污损故障状态和电池裂纹故障状态下的物理模拟,其框架如图2所示。利用生成的数据训练一维CNN用于故障的分类,并通过观测数据验证了该方法的有效性。从实验来看,在合成数据集上训练的ML模型的精度与观测数据的精度相当。Zgraggen等(2022)采用了类似的策略,利用综合生成的数据来补充可用的标记故障数据。针对故障场景标记数据的稀缺性,基于给定跟踪传感器倾角产生的相关辐照度和功率的模型,提出了一种通过物理知情破坏可用正常运行数据的故障生成策略。通过物理模型,为CNN模型诊断光伏电站太阳能电池板群中跟踪传感器的异常状态增加了一组训练数据。
图2 在ML故障分类算法的训练过程中,采用数据增强的方法融合模拟故障和运行数据(源自Hopwood等(2022))
在结构部件健康监测应用方面,Tsai和Alipour(2023)通过其提出的长短期记忆网络(LSTM)进一步实现了结构受风激励作用下的监测与响应预测数据生成流程的自动化。研究者采用基于优化空气动力学和气动弹性参数的数学模型,生成结构响应的合成数据。为了进一步促进数据生成并避免与数学模型相关的计算成本,利用数学模型训练一个中介LSTM网络,以自动化地生成大量数据,同时保持对结构响应物理原理的相对遵守。进一步利用模拟响应产生的数据训练LSTM分类器,并结合监测数据预测结构响应。类似地,Kaneko等(2022)采用了一种基于物理信息的数据生成方案,用于估计海上钻井系统中的不可观测参数。模型的输入数据是通过系统的物理模型产生的,各种输入参数被输入到系统中以获得可测量的数据,并识别不可测量的数据。其一般过程如图3所示。
图3 该混合模型以基于物理的建模为基础,将可观测参数映射到不可观测参数,作为ML算法的输入
随后,训练一个门控循环单元(GRU)型的循环神经网络(RNN),用于从物理模型中导出各种输入、输出、参数和可测数据与不可测数据之间的关系。Liu等(2021)提出了一种新的可泛化的物理信息模型,用于增材制造过程中孔隙率的监测和预测。作者并不是直接将机器的工况与零件内部的孔隙率建立联系,而是推导了机器工况的直接物理效应,如能量密度和压力分布。使用物理解释作为输入特征,可以提供一个通用的、与机器无关的诊断框架,从而产生出卓越的预测能力。
除了对输入特征空间进行扩充外,物理引导的方法也被用于特征选择和特征工程。通过将物理约束、方程或关系集成到特征选择算法中,能够更好地识别与潜在物理机制相一致的本质特征,为数据分析、预测和决策提供更鲁棒和可解释的模型。在Li等(2019a)的工作中,作者提出了一种基于替代定理原理的具有物理解释的特征向量,用于电网系统中的故障定位。通过CNN对特征向量进行解析,以大幅降低有效故障定位所需的网络复杂度。另一个例子是Boushaba等(2022)的工作,作者比较了一种基于物理信息的CNN方法在感应电机故障检测中的有效性。需要特别指出的是,在其研究中, 在使用设计的网络进行分类之前,来自电机电流特征分析的测量数据通过傅里叶变换在频域进行预处理,形成网络的输入,如图4所示。
图4 基于物理的输入数据预处理(源自Boushaba等(2022))
在这里,预处理步骤主要用作特征选择的方法,从与故障相关的信号频谱中提取某些子带。Silva等(2020)实现了多故障类别系统中传感器故障检测过程的自动化。由于系统的复杂性和高维性,采用Proctor等( 2016 )定义的带控制的动态模态分解(DMDc)来辨识传感器读数关于时间的线性时不变模型。尽管DMDc是数据驱动的,但该方法本身允许从业者从复杂的数据中识别和提取潜在的相关结构或模式。由此,DMDc可以揭示系统中的主导行为模式,并展现其背后的物理机制。该模型采用卡尔曼观测器,实时提供健康状态下传感器测量变量的估计值。对于异常的分类,特征部分来源于DMDc过程。在验证过程中,可以通过线性时不变系统计算决策树期望的特征,并对测量异常进行分类。Ma等(2023)采用基于物理信息的LSTM网络研究了电动静液作动器系统的退化机理。由于退化机理的复杂性,作者对特征进行了物理意义上的选择,并基于系统的失效机理进行了模型超参数的选择。在他们的研究中,系统的物理状态用一个物理参数指标来表示:上升时间。根据系统的物理状态,选择监测数据集,并将其拆分为训练和测试数据集,用于训练和评估LSTM网络。通过选取的数据集进行不同超参数的网络性能评估,选取最准确预测对应的参数。最后,在Jakubowski等(2022)的工作中,作者提出了一种基于物理信息的自编码器模型,用于冷轧过程中设备中轧辊磨损的预测。与上述情况类似,使用基于物理的仿真模型进行输入空间扩增。在这种情况下,与冷轧磨损相关的参数信息,如摩擦系数和前滑,是在可获得的先验知识下产生的。轧辊磨损预测通过自编码器实现,其中结合从退化早期阶段提取的数据和物理衍生特征来训练自编码器。根据与既定标称状态的偏差对轧辊磨损进行了预测。此外,通过反事实解释方法,作者试图提高网络预测的可解释性。
研究者提出了针对随时间演变的特征空间选择方法。Green等(2022)提出了一种基于物理信息的特征空间评估策略,用于监测机电复合载荷。该研究通过载荷可分离性验证筛选特征,评估历史训练数据对未来分类的可靠性。基于主成分分析生成的超椭球区域几何构型,该方法将时变演化过程中的物理机制进行数学表征。通过这种创新方法,研究者有效解决了多载荷工况下系统运行漂移或性能退化导致的特征可分性问题。研究团队通过支持向量机和NN两类线性和非线性分类器验证了该方法的有效性。
总体而言,基于已知物理原理的特征增强方法为实施ML算法的柔性约束提供了一条便捷途径。通过构建与物理规律相适配的特征空间,算法预测能力被有效限制在物理可行域内。然而值得关注的是,尽管这类模型建立在物理一致性训练数据基础上,其内部决策机制仍存在"黑箱"特性。更为关键的是,由于仅对特征空间实施柔性约束而非模型本体约束,此类算法在特定场景下仍可能产生违背物理定律的偶发性预测。这种特性在工程应用中可能引发关键误判风险,需要研究人员持续关注并改进约束机制。
ML算法的另一种集成方法可能是通过迁移学习( TL )过程。TL是ML和深度学习应用中常用的一种技术,通过训练执行特定任务的模型来执行与原任务相似的替代任务。由于其提高性能和降低训练要求的能力而变得突出,并且由于其时间和数据效率在图像分析、自然语言处理和语音识别等应用中得到了大量的使用。通过迁移学习,预训练的模型有效地充当了特征提取器,利用从源域学习到的特征,并对目标域进行重新定位。通过这一过程,所需的训练时间和资源大幅减少,使得TL适合于降低复杂深度学习架构的成本。搜集到的相关工作汇总如表2(受篇幅限制,可参看原文)。
TL框架的定义可参考Pan和Yang(2010)。对于给定的目标域和未知的学习任务,迁移学习框架的目标是基于从源域和已知学习任务中获得的潜在知识,使用学习到的预测函数。目前,TL框架在深度学习应用中得到了广泛的应用。由于神经网络的强大逼近能力,预测函数很容易被非线性前馈函数逼近。典型TL框架的总体操作流程如图5所示。
图5 作为ML中的一种技术,迁移学习的原理和功能:利用从一个任务中获得的知识来提高另一个相关任务的性能
在文献中,有两种主要的方法可以将迁移学习纳入PIML框架:通过利用源域知识,经过训练的模型可迁移至各类工程应用的目标域。源域既可基于物理模型构建,也可通过定义物理一致性约束确保模型符合物理原理。相较于传统ML方法需在大规模数据集上从头训练的耗时耗能过程,基于物理的模型能更准确地表征系统底层动力学特性。TL通过整合基于物理模型的系统动力学先验知识,可有效降低模型计算复杂度,实现高效训练与推理(Torrey和Shavlik, 2010; Zhuang等, 2020)。此外,基于物理或物理信息数据也可作为目标域训练数据,通过针对目标问题特性的小规模数据集进行模型微调。通过预训练参数初始化,模型已具备对目标特征的初步认知,从而加速微调过程的收敛速度。这种微调机制使模型能自适应调整特征表达,实现预训练模型在特定任务中的定制化改造。在此框架下,源域充当特征知识库的角色,迁移学习通过特征复用显著降低目标域数据需求,并大幅缩短训练周期。
TL方法的具体应用可见于Guc和Chen(2021)的研究。该团队提出了一种基于物理信息CNN的复杂动态系统故障源识别方法。通过动态模态分解构建系统的物理表征,形成线性降阶时空模态。这些动态模态随后通过连续小波变换被转换为时频域图像。故障状态的分类采用基于GoogLeNet(Szegedy等, 2015)预训练结构的CNN图像分类器实现,该网络架构包含22个主要层,采用加权Gabor滤波器的Inception架构。研究团队后续将该框架扩展应用于传感器多故障诊断,并通过目标系统实时速度控制的实验验证了框架的有效性(Guc和Chen, 2022)。
通过利用已学习相关特征的预训练模型,迁移学习显著降低了对标注数据量的需求。相较于在新数据集上从头训练,通过选择性更新网络特定层即可实现模型对新任务的适配。在状态监测和异常检测领域,基于物理的模型被广泛应用于缓解标注数据不足的挑战。例如,Gong等(2021)开发了面向航天控制力矩陀螺异常检测的物理信息迁移学习神经网络框架。该框架通过ANN捕捉遥测信号间的非线性功率消耗关系,采用TL方法对健康状态模型的最后一层进行微调以表征设备退化状态。基于马氏距离构建性能指标,结合核密度估计方法实现异常检测。Ye等(2022)提出多保真度建模框架,利用基于物理的低保真数据预训练神经网络,结合有限的高保真实验数据进行模型再校准,成功实现了颗粒材料填充式阻尼器的鲁棒表征。Schröder等(2022)将迁移学习范式应用于风力涡轮机运行的异常检测,通过基于物理的蒙特卡洛模拟生成预训练数据,结合监测数据验证了该物理约束神经网络在涡轮叶片角度异常检测中的优越性。该模型在数据有限的条件下展现出卓越的预测精度和鲁棒性。Miele等(2023)近期提出面向结构健康监测的迁移学习启发式神经网络框架。受高保真模型计算资源限制,研究者选择基于二维有限元模拟的低保真物理模型进行初步网络训练,保持模型权重不变的情况下增加网络层,通过三维高保真有限元模拟数据实现模型再校准。该混合模型在混凝土试件概率分类任务中展现出良好性能。
数字孪生(DTs)作为源领域物理约束数据的重要载体,是通过融合传感器数据、物理模型和机器学习算法构建的物理系统数字镜像。这种虚拟副本能够实时模拟真实系统行为,在预测性维护和状态监测领域得到广泛应用,显著提升了各类工程任务的效率(Liu等, 2022)。图6展示了数字孪生框架与机器学习协同工作的通用实现方案。
图6 TL在DT环境下的应用表示,是对一个物理实体或系统的虚拟表示,展示了从一个预先存在的DTs环中迁移知识的过程。
DT的一个关键优势在于能够实现物理系统的实时监控、分析和优化,使用户能够识别潜在问题并基于数据驱动做出优化决策,从而提升系统性能和运行效率。近年来,学术界对将DTs与ML算法结合构建PIML框架的关注度持续升温。该方法的核心理念是:利用数字孪生生成的数据训练机器学习模型,进而将模型应用于真实物理系统,实现系统行为预测与性能优化。
TL为降低数字孪生在CM应用中的计算资源需求提供了重要策略。尽管TL通过复用预训练模型或跨领域知识实现领域适应,从而提升模型效率和精度,但它并不能完全消除DT开发与部署过程中固有的计算负担。其核心价值在于通过加速模型收敛速度和降低ML模型的训练数据需求,实现现有计算资源的高效利用。在基于DT的状态监测场景中,TL可构建一个复用既有DTs模型知识的框架,从而加速PIML模型的开发进程。具体实施流程通常包含以下四个阶段:
1. 构建目标物理系统或过程的高精度数字孪生模型,确保其能够模拟系统在多种工况下的动态行为。
2. 通过参数化调整DT模型的输入参数和监测系统的输出变量,系统性生成大规模仿真数据集。
3. 利用仿真数据集训练机器学习模型,实现从源域(DT模型)到目标域(具体状态监测任务)的知识迁移。
4. 使用少量真实系统运行数据对预训练模型进行参数微调,提升模型在目标系统上的泛化性能和工况适应性。
真实数据被用于调整模型参数,使其更贴合特定系统的实际行为。一旦训练完成,经调适的ML模型即可部署用于系统行为预测或异常检测。多个工程领域已应用了上述框架的典型案例:Xia等(2021)提出了用于诊断三缸泵系统故障的迁移学习框架。通过构建物理设备的DT模型生成符合系统底层物理约束的数据,同时开发了新型深度降噪自编码器。该自编码器利用DT生成的健康状态数据进行预训练,最终架构可应用于物理设备的异常检测。Deebak和Al-Turjman(2022)提出了类似的DT辅助故障诊断TL框架,专注于机床设备的状态监测。通过引入堆叠稀疏自编码器结构,解决了真实数据匮乏的难题,在降低网络的物理数据需求量的同时提升了模型整体鲁棒性。Teng等(2023)将DT技术应用于桥梁结构损伤诊断,通过仿真数据训练CNN。相较于物理特征未优化的TL分类方法,该模型展现出更优的收敛速度和准确率,验证了仿真知识迁移的有效性。Feng等(2023)将该框架拓展至齿轮表面退化监测领域,基于直齿轮箱系统动力学与退化行为的控制方程开发DT模型,并通过CNN分析DT数据实现齿面点蚀与齿形变化的评估。
通过领域知识的有效迁移,上述TL算法成功整合物理相关知识,显著增强了自动化学习的预测能力。该过程凸显了多项优势:除前文所述的训练时间与数据需求缩减外,TL算法可根据训练数据集特性实现更优的泛化性能。此外,预训练模型通过揭示学习表征及其对决策的影响特征,显著提升了模型预测过程的可解释性。本质上,TL算法专为任务适配的微调而设计,这为实践者提供了构建最终学习流程的额外灵活性——无论流程组件侧重物理推导还是数据驱动,均可实现优化配置。
4.2 数据增强的物理模型优化
在现有文献中,另一个常见的范式是将ML模型作为校正机制,用于修正物理模型预测结果与观测数据之间已知的误差或缺陷。当前应用中,物理模型往往基于简化的假设构建,这些假设可能无法准确捕捉现实世界现象的复杂性。因此,物理模型在预测过程中会产生误差或不准确性。多项研究聚焦于开发数据驱动模型以解决这些问题:这些模型通过学习观测偏差的模式,最终将基于物理的模型与机器学习模型协同使用,共同生成预测结果。本节讨论的研究表明,机器学习模型能够与物理模型并行工作,通过结合两者的输出来优化预测结果。表3汇总了采用此类整合策略的代表性研究。
表3 利用数据驱动模型与基于物理的模型相结合的方法
在此方法中,首先使用物理模型生成初始预测,随后通过机器学习算法进行调整。算法从包含物理模型输入特征及其对应真实结果的训练数据集中学习,并将学习成果应用于对物理模型的预测进行修正。在文献中,这种策略常被称为混合建模或残差建模。图7展示了此类方法的通用流程。
图7 通过数据驱动方法对基于物理的建模进行修正的总体流程
这种方法的例子在多个场景中都有。例如Shi等(2022)将基于物理的退化模型与深度学习网络相结合来估计锂离子电池的健康状态。该模型整合了基于电化学机理的日历老化和循环老化物理模型,以及一个LSTM。通过引入表征电池运行应力的参数,模型首先计算电池老化的物理预测值。随后,LSTM网络学习观测到的电池状态与物理老化模型预测值之间的时序偏差。实验表明,这种物理信息LSTM模型能够准确捕捉电池的整体退化趋势。 Subramanian和Mahadevan(2023)提出一种基于贝叶斯状态估计的数据驱动校正框架。该框架通过概率机器学习结构学习物理模型误差的分布形式:首先利用物理模型生成初始预测,再通过贝叶斯方法量化模型形式误差。最终,整合后的模型在含高斯噪声和非高斯噪声的线性与非线性系统中均表现出鲁棒的预测能力。Li等(2023)采用双向LSTM网络估计观测退化数据与两阶段随机退化物理模型之间的残差。物理驱动的随机退化模型基于材料疲劳理论构建,而双向LSTM则专注于学习实际观测数据与理论预测的局部偏差。通过将残差项与物理模型输出叠加,该方法显著提升了桥面板钢筋结构退化预测的准确性。
正则化技术自机器学习诞生之初就是模型训练的基础。传统的正则化方法(如Lasso(L1)或Ridge(L2)正则化)通过引入额外的惩罚项来降低模型对非系统性数据的过拟合能力,从而产生更简单且更鲁棒的解决方案。尽管这类方法已被广泛应用,但当前的新趋势是将基于物理的正则化与ML结合。该方法旨在结合物理模型的优势,提升传统数据驱动解决方案的准 确性、可解释性和鲁棒性。通过将物理系统的先验知识以约束条件或正则化项的形式整合到学习过程中,有效编码物理约束以引导优化过程生成符合物理意义的解。
过去基于物理的正则化实现方法涉及求解物理方程,并将其作为约束条件融入优化问题(Oware等, 2013; Ruhnau等, 2007)。然而,这种方法计算成本高昂,且仅适用于已被充分了解的物理系统。随着深度学习技术的进步和大规模数据的可获得性,新兴技术将基于物理的建模与机器学习结合,实现了更高效和可扩展的解决方案。例如,在Raissi等(2019)的开创性工作中,提出了一种利用物理系统结构学习更高效表征的新型正则化方法。这种被称为PINNs的方法,将控制物理系统的偏微分方程作为正则化项融入损失函数。表4(受篇幅限制,可参看原文)汇总了采用该技术的文献。
物理引导的正则化主要通过对数据驱动模型施加定制化约束,使其在训练阶段更倾向于生成与底层物理一致的预测。这类约束也被Karniadakis等(2021)定义为学习偏置,并通过物理信息损失函数实现。此类损失函数通过惩罚偏离物理定律的预测,促使模型输出符合物理合理性的解。传统ML算法中的损失函数仅衡量模型预测与真实观测数据之间的经验差异,其目标是通过迭代过程最小化该差异。模型通过调整参数来缩小预测能力与真实数据间的差距。与之形成对比的是,物理信息损失函数额外整合了被建模系统的物理信息(如物理约束、守恒定律等),在惩罚偏离真实观测的同时,强制预测结果满足已知物理特性。通过该框架,ML算法能更有效地约束预测空间,避免违反物理原理。
采用这种形式的算法旨在同步最小化标记数据的误差和物理约束的违背。这一特性体现在损失函数的结构设计中:物理信息损失函数由数据驱动损失项和物理驱动损失项共同构成。数据驱动损失项衡量模型预测输出与真实观测数据之间的误差;物理驱动损失项则通过强制解满足特定问题的控制方程,确保预测符合底层物理规律。传统上,满足观测数据(数据驱动损失)通过最小化网络预测与真实状态间的残差实现,可采用均方误差(MSE)或交叉熵误差(CSE)等多种损失对已知物理定律的遵循则需根据具体案例定制实现方式,但上述评估方法已在文献中广泛采用。此类损失函数的通用形式可表示为:
其中参数λ1和λ2是正则化因子,用于调整损失项以使系统特性最佳。因此,在这种架构下,研究者们引入了一种将控制方程融入网络损失最小化方向的方法论。在文献中,物理信息正则化已被用于整合系统在不同故障模式下预期故障特征的知识,以确保模型即使在存在噪声或其他混杂因素的情况下,仍能准确检测和分类故障。例如:Sun等(2021)提出了一种基于电磁声换能器的微裂纹缺陷无损检测与量化方法,该装置通过激发导波进行裂纹检测。Sun等开发了一种名为GuwNet的新型物理信息架构,该网络将卷积层、全连接层和GRU等深度学习模块与裂纹扩展变量的物理参数相结合。通过数据驱动层和物理基础层之间的多种连接关系,以及网络参数对物理过程的表征,该网络采用混合前馈和反馈损失函数进行优化,其中既包含经验误差项也包含物理信息误差项,将超声导波无损检测的物理原理整合到网络训练过程中。物理信息项来源于缺陷深度与超声导波透射波强度、反射波强度的定量关系。相较于传统深度学习方法,该方法在裂纹长度、深度和扩展方向的检测精度上显示出显著提升。
Freeman等(2022)提出了一种涡轮转子叶片异常和故障检测的混合方法,通过将涡轮 功率信号提取的故障特征与环境数据结合,确保符合流体动力转子的动力学特性。该框架采用连续小波变换提取统计特征,并通过多项回归进行分类。研究者证实所选时域特征具有物理显著性,能准确反映信号中与湍流强度相关的高频波动行为。基于降维特征空间提取的时域特征,采用神经网络进行湍流强度分类,并通过混合损失函数施加物理约束——对偏离湍流强度动态特性的预测进行惩罚。
正则化技术同样应用于疲劳应力和寿命监测领域。Zhang等(2021)通过物理增强特征工程和物理信息正则化,约束了不锈钢试样蠕变疲劳寿命的预测过程。该前馈模型引入了两个物理信息损失项:根据试样蠕变疲劳的预期行为,在损失函数中设置对负值及极端寿命值的惩罚机制。与基准经验方法和纯数据驱动模型相比,该模型展现出优越性能。Kim等(2022a)采用低保真物理特征增强的数据驱动预后模型,提出了获取未标记外推数据训练参数的创新方法。该预测框架通过物理基础正则化项对偏离低保真物理模型的行为进行惩罚,从而同步最小化可用数据的插值误差和嵌入式物理模型的外推误差。研究者通过验证疲劳裂纹扩展与Paris定律的符合性,证实了该方法的有效性。Santos等(2023)在传统海上风力机疲劳监测框架基础上扩展了监测时间维度。传统损伤监测模型侧重于十分钟尺度的疲劳损伤估计,而该研究将方法拓展至长期疲劳累积监测。提出的PINN模型通过最小化Minkowski对数误差,以损伤估计矩的形式获得更保守的疲劳损伤评估。该损失函数的设计确保模型在短期损伤预测和长期损伤估计的精度间取得平衡。
Li等(2022)将物理信息损失函数拓展至元学习领域,提出了刀具磨损预测策略。该方法通过跨物理-数据融合建模,将物理推导的模型输入和物理信息损失项与系列机器学习模型相结合。元学习被定义为基于机器学习模型在多任务中的性能表现,系统性地从元数据或积累经验中学习的过程,属于ML子领域,旨在训练AI模型更高效地自主解决问题。研究者从刀具磨损动态关系中构建深度学习算法的输入特征空间,增强模型可解释性和鲁棒性。基于Wang等(2020)提出的跨物理-数据融合方法论,构建了包含三个ML模型的元学习框架,用于学习不同磨损阶段资产退化状态的预测经验。通过物理信息损失函数对测试算法进行优化,该函数根据刀具磨损固有属性和切削力-磨损关系对磨损速率施加约束。
PINNs是一个快速发展的领域,它利用神经网络从数据中学习复杂模式和关系,同时融入系统所遵循的潜在物理原理(如PDEs或常微分方程(ODEs))。这种物理信息正则化的具体实现方式,使得预测模型不仅能做出准确预测,还能为系统行为提供物理层面的见解。PINNs之所以被称为“物理信息”,是因为它们将基于物理的知识或约束融入模型训练过程,即对控制性PDE的解空间进行预测。通过引入学习偏置,PINN显著放宽了深度学习算法在训练数据量上的限制(Xu等,2023)。PINNs以少量数据产生高精度预测的能力著称,这在数据获取成本高昂或具有挑战性的场景中尤为重要。此外,PINNs严格遵循系统的物理定律和约束进行设计,其预测结果兼具卓越的准确性和物理意义。这些特性使得PINNs特别适用于物理原理已被充分理解的系统。
利用神经网络的计算能力求解微分方程的概念最初由Lagaris等(1998)提出。近年来,Raissi等(2019)通过其研究推广了这一概念,他们证明了PINNs在解决与物理系统控制微分方程相关的前向和逆向问题方面的有效性。PINNs的有效性(如Raissi等(2019)所定义)部分源于其对神经网络万能逼近能力的应用(Hornik等,1989)——该理论指出,具有激活函数的单层前馈神经网络只要包含足够数量的神经元,即可逼近任何函数。自然地,研究者将这一特性扩展到复杂非线性微分方程的求解中,尤其是在数值解或经验解难以获得的情况下。在此类场景中,PINNs被用于学习输入数据与输出变量之间的映射关系,同时严格满足系统的物理约束。除了整合先验知识的能力外,PINNs还能从非完整数据或含噪数据中学习ODEs或PDEs的解,同时满足系统的控制方程,这使其在数据稀缺或获取成本高的应用中尤为实用(Raissi等,2019)。通过这一框架,研究者可以构建既精确又能揭示底层物理过程的模型,使其成为众多科学与工程应用的宝贵工具(Raymond & Camarillo,2021)。
Raissi等(2019)提出的原始PINN架构基于前馈结构,用于求解一阶非线性PDE。文献中对该结构有多种命名,如前馈神经网络、ANNs、多层感知器神经网络及深度神经网络。前馈神经网络由多个互连的节点(即神经元)层构成,通过加权连接传递信息。在PINNs的语境下,网络的输入层对应物理域,输出层则代表目标问题的解。中间层(即隐藏层)提供必要的计算能力以实现输入到输出的映射。
ANN可以描述为一系列非线性变换。根据网络的数学定义:对于给定的N个神经元的输入层,可以表示为 ,其中 表示输入空间 内的一个特征。该网络可定义为包含 个隐藏层,每层包含 个神经元。由此,第 层隐藏层的输出 可表示为 ,其中 表示第 层隐藏层的第 个神经元。对于每一个隐层,输出 是通过将非线性激活函数 应用于从上一层的输入的加权和来计算的,可以写成:
其中 表示连接第 层中第 个神经元到当前层 中第 个神经元的权重, 表示上一层中第 个神经元的输出, 表示第 个隐藏层中与第 个神经元相关的偏置项。第 个隐含层的输出为:
输出层由 个神经元组成,预测输出表示为 。因此,神经网络的输出可以计算为:
其中 表示连接 层第 个神经元到输出层第 个神经元的权值, 是 层第 个神经元的输出, 是与输出层第 个神经元相关的偏置项。总的来说,可以写作:
PINN采用该现有框架作为PDE解的逼近器。一般情况下,非线性PDE以 为参数,它的初始条件和边界条件可以表示如下:
在定义域 内, ,边界为 。表示定义未知函数 及其导数与参数之间关系的非线性函数。所定义的PDE有隐藏解 ,输入空间可能由空间变量 和时间变量 组成。后续综述的一些文献,所讨论的系统可能是与时间无关的,因此,上述方程中与时间有关的项是不相关的。该PDE具有初始条件 和边界条件 。神经网络试图从输入空间(Karandikar等, 2021; Raissi等, 2019)对解 进行计算逼近。NN对解空间的近似表示为:
该近似解的导数可通过自动微分技术计算,利用微积分链式法则(Baydin等,2018)精确求解函数对其输入变量的导数。基于预测解𝑢𝑁𝑁及其导数,可重构控制系统的PDE及其初始条件与边界条件。该重构过程需通过以下三方面进行评估:所提供的标记数据、微分方程本身的残差、对上述任何项的偏差所提供的任何边界或初始条件。这些评估项可表示为:
其中参数 代表各损失项的调节权重。在反向传播过程中,通常以均方误差(MSE)衡量的偏差被最小化,神经网络参数(如权重和偏置)根据控制方程进行相应调整。通过梯度下降等优化算法最小化总偏差,使得网络在建立输入与输出空间映射关系的同时,始终符合已知物理定律和约束条件(见图8)。
图8 PINN架构
在CM领域,PINNs通过融合数据驱动与物理建模方法实现了精准预测。其独特优势体现在:可有效处理稀疏噪声数据(Kim等, 2022a)、具备训练数据范围外的外推能力,并提供可解释性结果。这种特性使其能够实现早期故障检测、降低误报率,并支持在线监测应用。自Raissi等(2019)的开创性工作以来,大多数后续研究延续了原始的前馈神经网络架构。然而,研究中已开始尝试将物理约束与各类主流深度学习架构相结合,包括CNN、RNN及其变体、编码器-解码器网络以及图神经网络等。后续章节将详细阐述物理正则化方法在不同神经网络架构中的集成策略。
4.3.2 数据驱动的微分方程求解
大量文献研究利用传统深度学习架构中编码的固有对称性和不变性,这与物理正则化的理念相契合。本节介绍的文献主要采用物理信息正则化作为将物理知识编码入系统的主要方法。研究者们通过发挥特定架构对特定数据类型的独特计算效能,在原始PINN框架基础上进行了重大创新,并将其应用于各自的专业领域。
以CNN架构为例,其独特的卷积层能够自动提取特征而无需人工特征工程,这一特性使其在相关特征难以理解或量化的复杂应用中具有不可替代的价值。McGowan等(2022)的研究就是典型代表,他们通过设计一组损失函数来监测增材制造过程中的孔隙率。该网络的正则化包含标准交叉熵数据损失,以及由物理参数构建的损失项——这些损失项会惩罚熔池温度、长宽比等参数与理想模拟值的偏差。Zhang等(2020)则建立了结构地震响应代理模型,其训练过程通过表征地面激励下动态系统的运动方程进行物理约束。
部分文献尝试将物理信息损失函数作为最小化物理模型与数据驱动模型间差异的方法。Shen等(2021)开发了变转速工况下轴承故障检测的物理信息CNN混合模型,该模型与基于包络谱幅值阈值判据的物理模型协同工作。定制化的物理信息损失函数会对偏离阈值模型(表征健康/损伤轴承的物理极限)的预测进行惩罚,但该方法的有效性依赖于物理模型预测完全正确的强假设。Huang等(2022)在结构健康监测中采用了类似思路,通过有限元模型构建物理域特征,与数据域特征共同输入CNN进行联合训练。其创新的跨物理-数据域损失函数同时评估分类器在标记数据上的表现,以及两个特征域之间的差异度。Yin等(2023)针对车载荷载下的桥梁结构损伤定位问题,基于Visual Geometry Group 16架构(Sim和Zisserman, 2014)开发了数值模拟与实测数据融合框架。混合损失函数包含数据驱动的交叉熵损失和物理信息损失,后者通过惩罚加速度信号时频图特征与数值模拟结果的偏差来实现物理约束(见图10)。这种双域一致性优化策略有效缩小了物理模型与数值模型间的差异。
在编码器-解码器架构(如自编码器)的应用方面,这类网络通过编码器将输入数据压缩为低维表征,再经解码器重构原始数据。由于中间层的低维特性迫使网络学习压缩表示,自编码器特别适合CM任务——它们能学习系统正常工况的表征,并通过重构误差检测异常(Zhou和Paffenroth, 2017)。该策略已被用于后续的研究中,用于有效地进行异常检测,而不需要额外的标记数据。Li和Deka(2021a)设计的物理信息卷积自编码器通过电压-电流椭圆轨迹的物理关系构建混合损失项,解决了配电网高阻抗故障检测中标记数据不足的问题。Russell和Wang(2022)则提出工业状态监测大数据压缩框架,其损失函数融合了传统均方误差、皮尔逊相关系数损失和频域敏感的物理约束项,通过对运行工况的潜在表示进行独立学习来实现最优故障表征(见图11)。
图11 跨物理-数据融合,如Wang等(2020)提出的基于数据域(由来自标记监测数据的特征组成)和物理域(由来自未标记数据的特征组成)信息的预测同时映射到一个共享空间,并进行串联。两者都通过回归层进行处理,用于最终的预测。
针对时域监测任务,研究者利用RNN提取时序不变特征的能力也取得显著成果。Wang等(2020)通过跨物理-数据域特征融合方法建模刀具损伤累积,将双域特征映射到共享特征空间后,两个域的预测结果在网络的回归层进行拼接和预测,采用物理信息损失函数最小化双向GRU与经验方程间的差异。Liu等(2023)提出了用于海上结构监测的物理信息RNN。该方法采用最优奇异值分解程序进行结构模态识别,将物理信息模态识别过程公式化为本征系统,并利用RNN求解该本征系统的控制微分方程。
在损失函数评估方法的创新方面,Chen等(2022b)摒弃传统最小化目标值偏差的思路,提出基于马氏距离最大化的LSTM超参数选择策略。该策略通过先验知识生成故障状态振动特征,以健康状态与物理信息故障状态间的差异最大化作为优化目标。总体而言,物理信息正则化技术通过引导算法适应物理可行域(如本节诸多案例所示),成为深度学习训练中引入约束的强大工具。尽管效果显著,该方法仍面临损失函数景观复杂度增加、泛化能力受限等挑战,促使研究者探索通过架构改造引入物理约束的新途径——这将是下一节重点讨论的内容。