首页/文章/ 详情

综述 | 基于物理信息的机器学习:在异常检测和状态监测中的应用综述(上)

8小时前浏览1

    本期给大家推荐Gadsden教授的基于物理信息的机器学习:在异常检测和状态监测中的应用综述(上)状态监测对保障工程系统可靠性至关重要,但传统方法在处理复杂系统以及面对精确物理模型可用性有限的情况时,往往面临挑战。物理信息机器学习PIML)通过物理约束与数据驱动的融合,成为解决该问题的有效途径。本文系统梳理PIML在状态监测中的技术路径:归纳物理知识嵌入机器学习模型的方法及适用场景,对比分析计算效率、可解释性等性能差异;结合典型应用案例验证PIML障检测精度与跨系统泛化能力的优势;论证其在维护策略优化中的潜力。研究表明,PIML通过物理机理与数据特征的协同建模,为复杂系统状态监测提供了创新解决方案。

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:Physics-informed machine learning: A comprehensive review on applications in anomaly detection and condition monitoring

    论文期刊:Expert Systems With Applications

    论文日期:2024年

    论文链接

    https://doi.org/10.1016/j.eswa.2024.124678

    作者:Yuandi Wu, Brett Sicard, Stephen Andrew Gadsden*

    机构:McMaster University, 1280 Main Street West, Hamilton, ON L8S 4L8, Canada

    通讯作者邮箱: gadsden@mcmaster.ca

    作者简介:

    Stephen Andrew Gadsden(Senior Member, IEEE),加拿大安大略省汉密尔顿市麦克马斯特大学机械工程系的副教授、智能和认知工程实验室主任。在加拿大汉密尔顿的麦克马斯特大学获得机械工程和管理(商业)学士学位和机械工程博士学位。曾在加拿大安大略省汉密尔顿市的机电一体化和混合技术中心做了近三年的博士后研究工作。研究方向包括控制和估计理论、人工智能和机器学习以及认知系统。他与NASA、美国陆军研究实验室、美国农业部和美国国家标准与技术研究所的多位学者保持着合作关系。Gadsden博士是ASME的Fellow、安大略省的专业工程师、经过认证的项目管理专家,担任多个ASME和IEEE期刊和国际会议的审稿人。

    目录

    1 摘要

    2 引言

    3 文献综述方法

    4 基于物理信息的机器学习

          4.1 物理嵌入特征空间

        4.1.1 物理引导的输入特征增强

        4.1.2 迁移学习

    4.2 数据增强的物理模型优化

    4.3 物理信息正则化

        4.3.1 基于物理信息的神经网络

        4.3.2 数据驱动的微分方程求解

    (以上标记章节为本文内容)

    4.4 物理引导的架构设计

    5 讨论

    6 结束语

    1 摘要

    状态监测在确保各种工程系统的可靠性和最佳性能方面起着至关重要的作用。传统的状态监测方法依赖于基于物理的模型和统计分析技术。然而,这些方法在处理复杂系统以及面对精确物理模型可用性有限的情况时,往往面临挑战。近年来,基于物理信息的机器学习(PIML)作为一种有前景的状态监测方法应运而生,它结合了基于物理的建模和数据驱动的机器学习的优势。本研究全面概述了 PIML 技术在状态监测中的应用。推动 PIML 发展的核心概念是将已知的物理定律和约束条件融入机器学习算法中,使算法能够在从现有数据中学习的同时,保持与物理原理的一致性。通过将领域知识与数据驱动的学习相融合,与纯粹的数据驱动方法相比,PIML 方法在准确性和可解释性方面都有显著提升。在这项综述中,我们详细研究了将已知物理原理整合到机器学习框架中的方法,以及这些方法在状态监测特定任务中的适用性。将物理知识融入机器学习模型可以通过多种方法实现,每种方法都有其独特的优缺点。本文详细探讨了在数据驱动模型中整合物理知识的各种方法的独特优势和局限性,考虑因素包括计算效率、模型可解释性,以及在状态监测和故障检测中对不同系统的通用性。我们还介绍了一些利用这一新兴概念的案例研究和文献,以展示 PIML 在状态监测应用中的有效性。从综述的文献中,可以证明 PIML 在状态监测中的多功能性和潜力。新颖的 PIML 方法为解决状态监测的复杂性和相关挑战提供了创新的解决方案。这项综述为该领域未来的研究奠定了基础。随着技术的不断进步,PIML 有望在优化维护策略、提高系统可靠性以及提升工程系统的整体运行效率方面发挥关键作用。  

    关键词:机器学习深度学习;基于物理信息的机器学习;状态监测;异常检测

    2 引言

    在过去的十年中,机器学习(ML)算法由于其高效性和从数据中推断模式的能力,在各种行业中得到了迅速的发展。通过可用的数据,ML模型能够以最小的人工干预准确地表示给定的输入和输出之间的关系。这种性质使得ML模型非常适合于表示那些控制行为的关联和参数不易获得的复杂系统。然而,尽管ML模型具有诸多优点,但也存在一些不足。

    一般而言,ML算法是一种数据驱动过程,旨在推导给定输入及其相应输出之间的关系。这一过程通常通过某种定义的优化算法执行,其中模型做出的预测被评估并不断调整以更好地反映给定数据。正如预期的那样,ML模型的性能严重依赖于其优化的数据。事实上,数据质量和可用性的限制是选择使用ML时的主要关注点之一(L'heureux等,2017)。对于许多工程应用而言,收集足够数量的数据以构建可靠模型可能具有挑战性、成本高昂,或者由于时间和资源限制而不可行。需要大量干净、具有代表性且非稀疏的数据才能正确构建模型(L'heureux等,2017)。数据量不足和/或不具有代表性的数据通常会导致对系统行为的歪曲表示,与真实的底层物理关系不一致,最终导致误导性结论。此外,ML模型被认为是“黑箱”模型,其中输入和输出之间的中间信息在产生输入与输出之间的关联时既不相关也不被需要。也就是说,在这些模型的开发中,往往没有考虑系统的潜在机制,尽管这些模型有效地表示了一个系统,但可能无法进一步帮助我们理解所说的系统(Rudin,2019)。

    就基于先验知识的系统表示而言,传统上也采用了基于物理的建模。然而,纯粹基于对系统的理解而开发的模型,由于其适用性的诸多挑战,在模拟现实世界系统中的应用受到限制。首先,物理模型的计算成本高昂(Jia等,2019)。这是由于大多数现实世界物理系统的计算复杂性,以及每个特定物理主体或现象涉及的多种控制方程,完全建模这些系统所需的成本相当大。此外,由于对系统的理解缺失或不完整,物理模型通常代表了对系统的不完美解释。

    自然地,研究人员意识到,将物理模型与数据驱动模型结合是预测和建模系统行为的下一步。这种物理信息机器学习(PIML)的范式最初由Lagaris等(1998)提出,他们首次展示了使用人工神经网络(ANN)求解常微分方程和偏微分方程。Karpatne等(2017)在其理论引导数据科学的研究中正式引入了这一范式,概述了领域知识与数据驱动解决方案之间的多种整合途径。通过这种统一,新的物理信息模型能够同时受益于基于物理的方法和数据驱动方法。自其发表以来,大量关于PIML范式的研究得以开展。以Raissi等(2019)为代表的学者通过引入物理信息神经网络(PINNs),进一步推动了理论与数据科学的融合。在PINNs中,以控制方程形式表示的物理定律被编码到神经网络(NNs)中。NN的架构和特性使其特别适用于近似偏微分方程(PDEs)的解。Raissi等(2019)在其研究中系统展示了解决非线性偏微分方程的方法论。Karniadakis等(2021)综述了物理与数据驱动技术整合的流行方法,并提出了对该技术局限性和潜在应用的见解。Meng等(2022)也对PIML领域的各种工作进行了综述,总结了其发展背后的核心动机、各种应用中常用的物理控制方程以及积分方法。从文献中可见,尽管新颖,PIML的应用已在多个领域崭露头角。

    本综述重点考察状态监测(CM)背景下的PIML方法在各类工程应用中的具体应用。CM是工程行业的关键组成部分,对确保设备可靠性、安全性和效率至关重要。PIML在此领域的应用涉及对振动、温度、压力等关键参数的持续监测,这些参数可反映被监测设备的健康状态。通过持续采样这些参数,工程师可以在问题发生前识别潜在问题,并采取纠正措施以防止成本高昂的意外停机、设备故障甚至灾难性事故(2023)。近年来,随着PIML和信息能力的发展,出现了各种各样的集成物理知识的创新方法,以用于CM中的应用。在Xu等(2022)的综述中,作者已详细概述了PIML在CM中的具体应用。因此,本研究旨在为读者提供基于物理的知识与ML方法整合的最新方法的概述,而不是专注于具体的应用。因此,本文的总体目标是为读者提供一个理解其具体应用的基础,并更深入地理解PIML的潜在原理和机制。

    正如本综述正文所述,PIML学习方法因能够在学习过程中融入基本物理定律和原理,相较传统ML技术展现出独特优势。PIML有效结合了ML算法的解释能力与物理的基础理解,利用先验知识引导学习过程。通常,这一学习过程会生成更准确且具有可解释性的模型。此外,由于基于物理的优化准则可以约束解空间并提供洞见,PIML方法减少了对大量标记训练数据的依赖,即使在数据稀缺场景下也能发挥作用。总体而言,物理信息方法在科学和工程应用中展现出更好的泛化性、鲁棒性和可解释性,使其优于传统ML方法。此外,这些方法在可解释人工智能(xAI)背景下为终端用户提供了更好的可解释性,而xAI是人工智能技术广泛采用的重要考量。

    本综述的结构如下:第3节概述了待综述文章的检索方法;第4节详细解释了将物理知识整合到数据驱动解决方案中的方法学,并介绍了ML内流行的架构背景,以及不同领域学者如何将先验物理知识融入这些模型;第5节总结了近期趋势的解读,重点讨论了所综述方法的优势与局限;最后,第6节对综述进行了总结与概括。

    3 文献综述方法

    本综述回顾了物理建模与ML在CM和异常检测中整合的最新进展。经过筛选后,共选取了107篇已发表的论文。从整理的文献中可明显看出,PIML范式在科研界正迅速普及。本综述的检索方法包括在Google Scholar、IEEE Xplore、ScienceDirect和ACM数字图书馆等平台上使用"physics-informed"、"physics-guided"、"physics-based"、"Machine learning"、"condition monitoring"、"fault detection"、"anomaly detection"等关键词进行搜索。结果根据相关性、年份和引用量进行筛选。  

    近期研究呈现出显著的趋势,即通过物理技术修改ML模型的输入特征空间,通过观测偏差引入物理知识。这种对输入空间的调整使模型能够学习物理一致的关系,从而限制不符合物理原则的映射。这种方法因其简单性和提升模型性能的有效性而广受欢迎。此外,综述强调了物理信息正则化技术的应用——模型会因偏离物理原理而受到惩罚。该方法已在多项研究中得到应用,证明了其在神经网络优化过程中整合物理原理的有效性。同时,综述还发现一些研究通过设计神经网络架构直接嵌入刚性约束,通过将学习参数和模型输出与物理量直接关联来增强可解释性。这些创新深化了对算法预测机制的理解,从而提高了模型的整体可靠性和性能。后续章节将详细探讨这些发现,讨论物理建模与ML相结合的方法学、应用、优势与局限。  

    4 基于物理信息的机器学习

    本节详细阐述PIML模型的背景,并介绍将物理意义嵌入数据驱动解决方案的多种方法。PIML的实施方式因应用领域而异,存在多样化的实现方法。总体而言,物理建模与ML的结合通常通过以下框架实现:  

    1. 物理嵌入特征空间  

    2. 数据增强的物理模型优化  

    3. 物理信息正则化  

    4. 物理引导的架构设计  

    这些细节将在以下几个部分进行讨论。

    4.1 物理嵌入特征空间

    物理原理与ML方法相结合的最直接的方式可能是通过物理建模开发ML模型的特征空间。对特征空间的扩展或修改不会直接影响模型架构,所得模型仍被视为黑箱模型——即无需揭示结果推导机制即可产生相关结果的模型(Karniadakis等,2021)。然而,通过利用对底层物理的基本理解,这些方法以符合物理定律的方式塑造ML算法的特征空间。相较于传统ML方法,这种结合方式具有多项优势,可形成更鲁棒且数据高效的框架。通过这种结合,ML算法可设计为利用物理关系的先验知识,从而更精确高效地应用于各类工程场景。如Karniadakis等(2021)所述,此类结合方式主要关注引入观测偏差以提升ML模型性能。此处"观测偏差"指体现系统底层物理或先验知识的特定测量或特征。通过融入先验知识,各种输入增强程序引入的观测偏差可引导算法预测限制在物理合理范围内。多项研究表明,相较于纯数据驱动方法,此类算法能更有效地识别相关特征,从而提升建模能力并缓解数据限制(Deng等,2022;Gitzel等,2021;Leturiondo等,2017)。在CM应用中,常需在ML模型中设计对设备状态变化敏感且能有效区分正常与故障工况的工程特征。文献中可见多种实现方式,例如将物理生成的参数和变量作为附加输入纳入特征空间。物理信息特征的添加可通过ML流程中解析的附加增强数据集直接实现,或通过迁移学习等方法间接实现,即通过ML算法捕获物理信息源域的特征并重新利用。后续小节将通过案例讨论这些特征操作方法。  

            4.1.1 物理引导的输入特征增强

    近年来,ML领域取得巨大进展,部分得益于可用于ML模型表达性和代表性训练的大型数据集(Lheureux等,2017)。然而在复杂工程任务中,收集和标注大量数据可能成本高昂、耗时,甚至不可行。此外,由于ML模型的黑箱特性,即使事先掌握系统信息,也难以单纯通过调整数据集来改变模型行为。

    文献中主流的解决方案是利用系统模型生成合成特征来补充或替代真实数据,其主要优势在于可生成具有高度可变性的大规模数据集,同时遵守物理定律。该特性在工程应用中备受重视,因为少量观测数据可能无法准确反映系统或设备的全工况范围(Gardner等,2021;Hopwood等,2022)。例如,特定故障条件的观测数据往往稀缺且难以获取,导致可用数据集常存在类别不平衡和严重偏斜(Hopwood等,2022)。这对标准分类器构成重大挑战,因其易过度关注样本丰富的类别。在此类场景下,生成物理相关特征或数据成为获取干净、平衡数据集的有效方法。

    该方法的局限通常涉及真实工况复杂性的准确复现,以及因物理先验知识不完整或错误导致生成数据无法反映设备真实行为的风险(Serre,2019)。尽管如此,许多学者仍选择通过已知物理原理生成物理一致的合成特征或数据来解决此问题。此方式中,生成模型通过已知物理原理形成或补充现有特征空间,其核心目标是以更高精度检测潜在问题,同时降低对真实数据采集的要求,并提升系统预期行为与物理原理的契合度。表1(受篇幅限制,可参看原文)总结了近期采用此框架的研究案例。

    基于物理的模型可模拟多种物理系统。通过此类模型增强特征空间,ML算法可基于可靠(尽管可能不完整)的物理原理准确预测系统行为。此方法因易生成大量可靠数据且能规避实际伦理问题而受青睐(de Melo等,2021)。例如,可通过系统知识提取或生成附加特征形成增强特征空间(图1A)。或者,通过物理或数值仿真模型解析未标注输入生成标注数据,再将生成的标签和输出用于训练过程(图1B)。

    图1 通过基于物的方法生成合成数据的过程的一般概述

    减法特征工程主要涉及特征选择——这是ML算法中常用技术,旨在选择对问题相关且有意义特征。利用基于物理的约束,一种基于物理信息的特征选择策略可能旨在识别和保留最关键的特征,以实现准确和可解释的预测。除上述众多方法外,生成对抗网络(GANs)等深度学习结构也实现了合成数据生成的半自动化。在此结构中,生成器和判别器神经网络通过物理信息正则化同步训练以生成物理一致的合成数据。更多关于此类网络的信息及其在文献中的实施案例可参见4.4.5节:生成式深度学习网络。  

    在PIML范式普及之前,早期的研究已经利用上述各种物理引导合成数据生成的优势和性质,大规模地生成物理上一致的结果,用于数据驱动模型的训练过程。这些研究并非通过从头定义数据驱动模型,而是使用在基于物理的模型中定义或由基于物理的模型定义的先验参数或变量来充分发挥作用。例如Tian等(2015)和Frank等(2016)分别在其ML模型中采用物理模型指导的数据预处理技术生成或补充输入特征空间。Tian等(2015)探索了基于谱峭度的特征提取策略应用于电机轴承故障监测与诊断,随后采用半监督K近邻(K-Nearest Neighbour,kNN)算法进行分类。Frank等(2016)提出建筑能耗故障诊断与异常检测的混合模型,采用高保真系统模型补充数据驱动模型所需数据。该模型结合健康与故障状态数据,通过支持向量机(SVM)和随机森林(RF)等分类算法识别异常行为。最近,Karandikar等2021提出了一种逻辑分类方案,利用已知的物理规律作为模型的约束条件,对机床的退化进行建模。在他们的研究中,切削速度和刀具寿命之间的非线性物理关系是通过对输入参数的对数操作嵌入的。通过将切削速度、时间等输入变量进行对数转换,构建出符合泰勒刀具寿命模型物理规律的特征空间,作为逻辑分类器模型的输入。这种方法在对数空间中强制实现线性关系,确保了模型预测结果与泰勒刀具寿命理论的一致性。同样,Li等2020提出了一种基于深度卷积神经网络(CNN的代理模型用于刀具磨损监测。该模型利用传感器提供的高保真信息,通过振动模态分析或有限元分析等基于物理的方法获取信息。基于物理的方法不仅可以通过确定传感器位置来优化数据收集程序,而且可以作为构建健康指标的特征工程机制。随后训练一个ML模型来学习低保真信号与已建立的健康指标之间的关系。Hao等2023通过在输入特征空间中嵌入各种物理参数,提出了一种估计多晶合金缺口疲劳退化的框架。通过敏感性分析,确定了影响其性能的关键参数:由Basquin模型得到的无缺口试样参考寿命,由Neuber法则得到的缺口根部应力状态和应力比,以及由Smith-Watson-Topper模型得到的能量型损伤参数。总之,这篇文章提出的基于Latin超方形抽样的PIML模型具有良好的泛化能力和预测能力。  

    对于涉及固体结构的应用,例如结构健康或机械健康监测,现有文献中的一个共同主题是使用有限元模型来生成物理数据。有限元模型在模拟复杂的真实世界系统时具有固有的多功能性和鲁棒性,通过将复杂的几何结构离散为较小的单元,为预测和分析各种物理行为提供了一种系统的方法。更具体地说,每个元素都是使用描述控制特定元素行为的物理的数学方程建模的。在此方法框架下,代表系统物理特性的控制方程或本构方程可被嵌入机器学习模型的特征空间。质量守恒、动量守恒、能量守恒等物理定律,以及材料属性、边界条件等物理约束,均能以数学形式表征并通过弱约束形式实现。诸多研究通过有限元仿真建立物理模型,将系统物理特性融入数学公式体系。例如,Seventekidis等(2020)在结构健康监测的损伤识别研究中,将有限元模型作为仿真数据源训练机器学习模型,其实现流程遵循图1(B)所示的通用范式。  

    健康状态分类模型仅利用有限元模型在各种加载条件下产生的带标签的结构响应振动数据进行训练。通过有限元仿真获得的结构响应振动数据将作为CNN分类器的输入,该模型在基准线性梁结构应用中表现出优异的损伤状态判断精度。Seventekidis等(2020)的研究正是采用这种训练策略的典型案例。Rai和Mitra(2021)在铝板样本的兰姆波响应损伤定位研究中,采用有限元仿真构建损伤特征数据库的创新方法值得关注。研究人员通过建立损伤参数数据库,将其作为ANN训练过程的输入,并采用鲁棒的Levenberg-Marquardt算法进行参数更新,实现了损伤特征的有效学习。在齿轮箱故障诊断领域,Liu等人(2020)通过有限元方法数值模拟齿轮箱运行时的故障样本,将获取的时域和时频域信号分离,并基于此生成故障样本用于极限学习机模型的训练,展现了有限元仿真在复杂机械系统监测中的应用潜力。Bansal等(2022)关于异种材料接头电偶腐蚀的研究提出了创新性框架。通过建立考虑环境因素的有限元腐蚀模型模拟材料损耗,并基于敏感性分析结果选择与材料损耗最相关的参数作为特征,成功实现了基于物理信息机器学习(PIML)的节点代理建模。  

    在复杂系统建模领域,广义过程(GPs)作为一种贝叶斯非参数模型脱颖而出。GPs固有的不确定性量化(UQ)的能力,适用于需要预测置信度的复杂系统建模。在最近的文献中,GP在PIML中的可行性得到了很好的证明。Chen等(2021)的研究展示了如何利用GPs求解非线性偏微分方程(PDEs)并从中学到规律。该研究强调了GPs如何有效利用PDE的结构指导学习过程,从而提升模型的准确性和可解释性。作者提出了一个基于GPs的框架,用于求解非线性PDE及其反问题(如PDE中的参数识别)。该方法将配点核方法自然扩展到非线性PDE和反问题中,确保了对广泛PDE类的收敛性,并能计算特定PDE近似的误差边界。其核心思想是通过引入代表配点处解导数的附加变量,将无限维优化问题降维为有限维问题。最终,采用改进的高斯-牛顿法高效求解优化问题,该方法通过逐次线性化非线性PDE实现。此外,该方法的计算复杂度与当前最先进的稠密核矩阵求解器相当,具有实际应用价值。与传统方法不同,该算法可同时求解参数和PDE解,显著提升了效率。通过对非线性椭圆PDE、Burgers方程、正则化Eikonal方程以及达西流中的渗透率识别等问题的实验验证,该框架的有效性和通用性得到了充分体现。此外,论文为理论分析奠定了基础,提出了将线性回归分析技术推广到配点法求解非线性PDE的新研究方向。未来方向包括解决解的唯一性和收敛速率问题、获取严格的误差估计、学习分层核参数,以及将该框架与非高斯先验的贝叶斯逆问题结合。这项工作的核心贡献在于捕捉复杂动力系统的底层物理规律,并通过鲁棒的UQ实现高精度预测。这一能力在传统方法因计算限制或缺乏解析解而失效的仿真和建模场景中尤为重要。Yang等(2019)的另一项重要研究提出了一种多保真度建模方法。该方法通过协同克里金法(高斯过程的高级形式)将高保真和低保真数据与物理定律融合。该研究强调了多保真度建模在PIML中的重要性:通过原则性融合不同来源的信息(如实验数据和多分辨率仿真数据),可提升预测能力和UQ。Yang等证明了物理信息协同克里金法(CoPhIK)能有效整合异质数据源,同时遵守物理规律,从而实现数据与模型的高效收敛。论文提出的CoPhIK通过结合高保真数据(如观测值)和低保真数据(如随机物理模型的输出)提高精度。其核心是使用物理信息克里金(PhIK)构建低保真GP,并通过参数化GP建模低保真与高保真数据间的差异。该方法通过融入部分物理知识降低了超参数推断的优化成本,并证明其满足物理约束至误差界内。此外,CoPhIK结合贪婪主动学习算法指导新增观测位置的选取。通过函数重构、热输运问题状态重构以及稀疏测量下的示踪剂分布学习等案例,CoPhIK的效率和精度得以验证。这种多保真方法将高精度数据与易获取的低精度数据结合,提供了对建模系统的全面理解,从而在保持计算效率的同时增强了模型的预测能力。Kohtz等(2022)将高斯过程回归用于锂电池的剩余寿命预测。他们通过物理有限元仿真模拟了主要退化过程(固态电解质界面层的形成),并将仿真结果与实验数据结合训练基于协同克里金的多保真模型,最终建立了测量电压曲线与电池健康状态的经验关系。总体而言,GPs的概率特性具有显著优势。预测不确定性的量化能力不仅提高了模型的可靠性,还为预测置信度提供了宝贵洞见。这一特性在状态监测(CM)应用中尤为重要,因为基于模型预测的决策可能产生重大后果。通过评估和传达与预测相关的不确定性,用户可在考虑潜在风险和结果变异性的前提下做出明智决策。  

    在数据收集仍然是一个限制因素的系统中,合并综合生成的数据或特征可能是非常有价值的。PIML模型通常被用于预测各类应用中难以直接观测的变量。通过利用物理约束,这些模型能够深入揭示复杂系统的行为特征,即使直接测量手段受限或不可行。例如,Chao等(2019)的研究探索了一种混合方法用于发动机故障检测与隔离。在该研究中,作者构建了发动机的物理模型,并利用无迹卡尔曼滤波器推断不可观测的过程变量。通过这一过程,作者有效增强了两种数据驱动诊断模型(分别基于ANNs和变分自编码器(VAEs))的特征空间。以此研究为基础,作者进一步扩展模型,提出了用于发动机系统群的预测与剩余使用寿命(RUL)预测的混合框架(Chao et al., 2022)。同一团队的另一项研究则利用系统物理模型预测与组件健康状态相关的难测参数,并将估计参数与观测数据结合输入NN,形成物理增强的特征空间。其他案例包括Darr等(2023)的研究,其目标是检测并缓解推进系统在发射过程中与异常相关的问题。该团队提出了一种新型数据生成方案,通过自动化物理仿真过程生成异常数据,并利用长短期记忆网络(LSTM)检测异常行为和事件。Alotibi和Tipper(2022)创建了一个检测风电机组运行中虚假数据注入攻击的框架。通过基于物理的模型解析来自物理设备的功率输出等监测参数,该模型基于动能定律,为ML增加了可用的特征空间。异常检测采用基于物理信息的孤立森林。该算法将测量的历史时序数据与基于物理模型的特征增强相结合,以创建用于异常检测的随机森林集成。作者通过将该框架应用于真实世界的数据集,证明了在他们提出的框架中融合物理学的能提升异常检测精度。  

    在监测电化学应用中的健康状态,Li等(2021)采用了高保真的电化学热物理模型,用于生成电池中关于电化学状态的不可观测数据。生成的变量如锂离子浓度和电势被用于神经网络的训练过程中,该网络学习可观测数据和物理上无法测量的数据之间的非线性关系。在Hopwood等(2022)的另一项研究中,作者主要采用物理建模来克服与光伏阵列的高保真CM相关的成本问题。Hopwood等(2022)提出了一个完全合成的训练数据集,该数据集基于光伏阵列在健康状态、局部污损故障状态和电池裂纹故障状态下的物理模拟,其框架如图2所示。利用生成的数据训练一维CNN用于故障的分类,并通过观测数据验证了该方法的有效性。从实验来看,在合成数据集上训练的ML模型的精度与观测数据的精度相当。Zgraggen等(2022)采用了类似的策略,利用综合生成的数据来补充可用的标记故障数据。针对故障场景标记数据的稀缺性,基于给定跟踪传感器倾角产生的相关辐照度和功率的模型,提出了一种通过物理知情破坏可用正常运行数据的故障生成策略。通过物理模型,为CNN模型诊断光伏电站太阳能电池板群中跟踪传感器的异常状态增加了一组训练数据。

    图2 在ML故障分类算法的训练过程中,采用数据增强的方法融合模拟故障和运行数据(源自Hopwood等(2022))

    在结构部件健康监测应用方面,Tsai和Alipour(2023)通过其提出的长短期记忆网络(LSTM)进一步实现了结构受风激励作用下的监测与响应预测数据生成流程的自动化。研究者采用基于优化空气动力学和气动弹性参数的数学模型,生成结构响应的合成数据。为了进一步促进数据生成并避免与数学模型相关的计算成本,利用数学模型训练一个中介LSTM网络,以自动化地生成大量数据,同时保持对结构响应物理原理的相对遵守。进一步利用模拟响应产生的数据训练LSTM分类器,并结合监测数据预测结构响应。类似地,Kaneko等(2022)采用了一种基于物理信息的数据生成方案,用于估计海上钻井系统中的不可观测参数。模型的输入数据是通过系统的物理模型产生的,各种输入参数被输入到系统中以获得可测量的数据,并识别不可测量的数据。其一般过程如图3所示。

    图3 该混合模型以基于物理的建模为基础,将可观测参数映射到不可观测参数,作为ML算法的输入

    随后,训练一个门控循环单元(GRU)型的循环神经网络(RNN),用于从物理模型中导出各种输入、输出、参数和可测数据与不可测数据之间的关系。Liu等(2021)提出了一种新的可泛化的物理信息模型,用于增材制造过程中孔隙率的监测和预测。作者并不是直接将机器的工况与零件内部的孔隙率建立联系,而是推导了机器工况的直接物理效应,如能量密度和压力分布。使用物理解释作为输入特征,可以提供一个通用的、与机器无关的诊断框架,从而产生出卓越的预测能力。  

    除了对输入特征空间进行扩充外,物理引导的方法也被用于特征选择和特征工程。通过将物理约束、方程或关系集成到特征选择算法中,能够更好地识别与潜在物理机制相一致的本质特征,为数据分析、预测和决策提供更鲁棒和可解释的模型。在Li等(2019a)的工作中,作者提出了一种基于替代定理原理的具有物理解释的特征向量,用于电网系统中的故障定位。通过CNN对特征向量进行解析,以大幅降低有效故障定位所需的网络复杂度。另一个例子是Boushaba等(2022)的工作,作者比较了一种基于物理信息的CNN方法在感应电机故障检测中的有效性。需要特别指出的是,在其研究中, 在使用设计的网络进行分类之前,来自电机电流特征分析的测量数据通过傅里叶变换在频域进行预处理,形成网络的输入,如图4所示

    图4 基于物理的输入数据预处理(源自Boushaba等(2022))

    在这里,预处理步骤主要用作特征选择的方法,从与故障相关的信号频谱中提取某些子带。Silva等(2020)实现了多故障类别系统中传感器故障检测过程的自动化。由于系统的复杂性和高维性,采用Proctor等( 2016 )定义的带控制的动态模态分解(DMDc)来辨识传感器读数关于时间的线性时不变模型。尽管DMDc是数据驱动的,但该方法本身允许从业者从复杂的数据中识别和提取潜在的相关结构或模式。由此,DMDc可以揭示系统中的主导行为模式,并展现其背后的物理机制。该模型采用卡尔曼观测器,实时提供健康状态下传感器测量变量的估计值。对于异常的分类,特征部分来源于DMDc过程。在验证过程中,可以通过线性时不变系统计算决策树期望的特征,并对测量异常进行分类。Ma等(2023)采用基于物理信息的LSTM网络研究了电动静液作动器系统的退化机理。由于退化机理的复杂性,作者对特征进行了物理意义上的选择,并基于系统的失效机理进行了模型超参数的选择。在他们的研究中,系统的物理状态用一个物理参数指标来表示:上升时间。根据系统的物理状态,选择监测数据集,并将其拆分为训练和测试数据集,用于训练和评估LSTM网络。通过选取的数据集进行不同超参数的网络性能评估,选取最准确预测对应的参数。最后,在Jakubowski等(2022)的工作中,作者提出了一种基于物理信息的自编码器模型,用于冷轧过程中设备中轧辊磨损的预测。与上述情况类似,使用基于物理的仿真模型进行输入空间扩增。在这种情况下,与冷轧磨损相关的参数信息,如摩擦系数和前滑,是在可获得的先验知识下产生的。轧辊磨损预测通过自编码器实现,其中结合从退化早期阶段提取的数据和物理衍生特征来训练自编码器。根据与既定标称状态的偏差对轧辊磨损进行了预测。此外,通过反事实解释方法,作者试图提高网络预测的可解释性。  

    研究者提出了针对随时间演变的特征空间选择方法。Green等(2022)提出了一种基于物理信息的特征空间评估策略,用于监测机电复合载荷。该研究通过载荷可分离性验证筛选特征,评估历史训练数据对未来分类的可靠性。基于主成分分析生成的超椭球区域几何构型,该方法将时变演化过程中的物理机制进行数学表征。通过这种创新方法,研究者有效解决了多载荷工况下系统运行漂移或性能退化导致的特征可分性问题。研究团队通过支持向量机和NN两类线性和非线性分类器验证了该方法的有效性。  

    总体而言,基于已知物理原理的特征增强方法为实施ML算法的柔性约束提供了一条便捷途径。通过构建与物理规律相适配的特征空间,算法预测能力被有效限制在物理可行域内。然而值得关注的是,尽管这类模型建立在物理一致性训练数据基础上,其内部决策机制仍存在"黑箱"特性。更为关键的是,由于仅对特征空间实施柔性约束而非模型本体约束,此类算法在特定场景下仍可能产生违背物理定律的偶发性预测。这种特性在工程应用中能引发关键误判风险,需要研究人员持续关注并改进约束机制。  

            4.1.2 迁移学习  

    ML算法的另一种集成方法可能是通过迁移学习( TL )过程。TL是ML和深度学习应用中常用的一种技术,通过训练执行特定任务的模型来执行与原任务相似的替代任务。由于其提高性能和降低训练要求的能力而变得突出,并且由于其时间和数据效率在图像分析、自然语言处理和语音识别等应用中得到了大量的使用。通过迁移学习,预训练的模型有效地充当了特征提取器,利用从源域学习到的特征,并对目标域进行重新定位。通过这一过程,所需的训练时间和资源大幅减少,使得TL适合于降低复杂深度学习架构的成本。搜集到的相关工作汇总如表2(受篇幅限制,可参看原文)  

    TL框架的定义可参考Pan和Yang(2010)。对于给定的目标域和未知的学习任务,迁移学习框架的目标是基于从源域和已知学习任务中获得的潜在知识,使用学习到的预测函数。目前,TL框架在深度学习应用中得到了广泛的应用。由于神经网络的强大逼近能力,预测函数很容易被非线性前馈函数逼近。典型TL框架的总体操作流程如图5所示。

    图5 作为ML中的一种技术,迁移学习的原理和功能:利用从一个任务中获得的知识来提高另一个相关任务的性能  

    在文献中,有两种主要的方法可以将迁移学习纳入PIML框架:通过利用源域知识,经过训练的模型可迁移至各类工程应用的目标域。源域既可基于物理模型构建,也可通过定义物理一致性约束确保模型符合物理原理。相较于传统ML方法需在大规模数据集上从头训练的耗时耗能过程,基于物理的模型能更准确地表征系统底层动力学特性。TL通过整合基于物理模型的系统动力学先验知识,可有效降低模型计算复杂度,实现高效训练与推理(TorreyShavlik, 2010; Zhuang, 2020)。此外,基于物理或物理信息数据也可作为目标域训练数据,通过针对目标问题特性的小规模数据集进行模型微调。通过预训练参数初始化,模型已具备对目标特征的初步认知,从而加速微调过程的收敛速度。这种微调机制使模型能自适应调整特征表达,实现预训练模型在特定任务中的定制化改造。在此框架下,源域充当特征知识库的角色,迁移学习通过特征复用显著降低目标域数据需求,并大幅缩短训练周期。  

    TL方法的具体应用可见于Guc和Chen(2021)的研究。该团队提出了一种基于物理信息CNN的复杂动态系统故障源识别方法。通过动态模态分解构建系统的物理表征,形成线性降阶时空模态。这些动态模态随后通过连续小波变换被转换为时频域图像。故障状态的分类采用基于GoogLeNet(Szegedy, 2015)预训练结构的CNN图像分类器实现,该网络架构包含22个主要层,采用加权Gabor滤波器的Inception架构。研究团队后续将该框架扩展应用于传感器多故障诊断,并通过目标系统实时速度控制的实验验证了框架的有效性(GucChen, 2022)。  

    通过利用已学习相关特征的预训练模型,迁移学习显著降低了对标注数据量的需求。相较于在新数据集上从头训练,通过选择性更新网络特定层即可实现模型对新任务的适配。在状态监测和异常检测领域,基于物理的模型被广泛应用于缓解标注数据不足的挑战。例如,Gong等(2021)开发了面向航天控制力矩陀螺异常检测的物理信息迁移学习神经网络框架。该框架通过ANN捕捉遥测信号间的非线性功率消耗关系,采用TL方法对健康状态模型的最后一层进行微调以表征设备退化状态。基于马氏距离构建性能指标,结合核密度估计方法实现异常检测。Ye等(2022)提出多保真度建模框架,利用基于物理的低保真数据预训练神经网络,结合有限的高保真实验数据进行模型再校准,成功实现了颗粒材料填充式阻尼器的鲁棒表征。Schröder等(2022)将迁移学习范式应用于风力涡轮机运行异常检测,通过基于物理的蒙特卡洛模拟生成预训练数据,结合监测数据验证了该物理约束神经网络在涡轮叶片角度异常检测中的优越性。该模型在数据有限的条件下展现出卓越的预测精度和鲁棒性。Miele等(2023)近期提出面向结构健康监测的迁移学习启发式神经网络框架。受高保真模型计算资源限制,研究者选择基于二维有限元模拟的低保真物理模型进行初步网络训练,保持模型权重不变的情况下增加网络层,通过三维高保真有限元模拟数据实现模型再校准。该混合模型在混凝土试件概率分类任务中展现出良好性能。  

    数字孪生(DTs)作为源领域物理约束数据的重要载体,是通过融合传感器数据、物理模型和机器学习算法构建的物理系统数字镜像。这种虚拟副本能够实时模拟真实系统行为,在预测性维护和状态监测领域得到广泛应用,显著提升了各类工程任务的效率(Liu, 2022)。图6展示了数字孪生框架与机器学习协同工作的通用实现方案。

    图6 TL在DT环境下的应用表示,是对一个物理实体或系统的虚拟表示,展示了从一个预先存在的DTs环中迁移知识的过程。  

    DT的一个关键优势在于能够实现物理系统的实时监控、分析和优化,使用户能够识别潜在问题并基于数据驱动做出优化决策,从而提升系统性能和运行效率。近年来,学术界对将DTsML算法结合构建PIML框架的关注度持续升温。该方法的核心理念是:利用数字孪生生成的数据训练机器学习模型,进而将模型应用于真实物理系统,实现系统行为预测与性能优化。  

    TL为降低数字孪生在CM应用中的计算资源需求提供了重要策略。尽管TL通过复用预训练模型或跨领域知识实现领域适应,从而提升模型效率和精度,但它并不能完全消除DT开发与部署过程中固有的计算负担。其核心价值在于通过加速模型收敛速度和降低ML模型的训练数据需求,实现现有计算资源的高效利用。在基于DT的状态监测场景中,TL可构建一个复用既有DTs模型知识的框架,从而加速PIML模型的开发进程。具体实施流程通常包含以下四个阶段:  

    1. 构建目标物理系统或过程的高精度数字孪生模型,确保其能够模拟系统在多种工况下的动态行为。   

    2. 通过参数化调整DT模型的输入参数和监测系统的输出变量,系统性生成大规模仿真数据集。  

    3. 利用仿真数据集训练机器学习模型,实现从源域(DT模型)到目标域(具体状态监测任务)的知识迁移。  

    4. 使用少量真实系统运行数据对预训练模型进行参数微调,提升模型在目标系统上的泛化性能和工况适应性。  

    真实数据被用于调整模型参数,使其更贴合特定系统的实际行为。一旦训练完成,经调适的ML模型即可部署用于系统行为预测或异常检测。多个工程领域已应用了上述框架的典型案例:Xia等(2021)提出了用于诊断三缸泵系统故障的迁移学习框架。通过构建物理设备DT模型生成符合系统底层物理约束的数据,同时开发了新型深度降噪自编码器。该自编码器利用DT生成的健康状态数据进行预训练,最终架构可应用于物理设备的异常检测。Deebak和Al-Turjman(2022)提出了类似的DT辅助故障诊断TL框架,专注于机床设备的状态监测。通过引入堆叠稀疏自编码器结构,解决了真实数据匮乏的难题,在降低网络物理数据需求量的同时提升了模型整体鲁棒性。Teng等(2023)将DT技术应用于桥梁结构损伤诊断,通过仿真数据训练CNN。相较于物理特征未优化的TL分类方法,该模型展现出更优的收敛速度和准确率,验证了仿真知识迁移的有效性。Feng等(2023)将该框架拓展至齿轮表面退化监测领域,基于直齿轮箱系统动力学与退化行为的控制方程开发DT模型,并通过CNN分析DT数据实现齿面点蚀与齿形变化的评估。  

    通过领域知识的有效迁移,上述TL算法成功整合物理相关知识,显著增强了自动化学习的预测能力。该过程凸显了多项优势:除前文所述的训练时间与数据需求缩减外,TL算法可根据训练数据集特性实现更优的泛化性能。此外,预训练模型通过揭示学习表征及其对决策的影响特征,显著提升了模型预测过程的可解释性。本质上,TL算法专为任务适配的微调而设计,这为实践者提供了构建最终学习流程的额外灵活性——无论流程组件侧重物理推导还是数据驱动,均可实现优化配置。

    4.2 数据增强的物理模型优化  

    在现有文献中,另一个常见的范式是将ML模型作为校正机制,用于修正物理模型预测结果与观测数据之间已知的误差或缺陷。当前应用中,物理模型往往基于简化的假设构建,这些假设可能无法准确捕捉现实世界现象的复杂性。因此,物理模型在预测过程中会产生误差或不准确性。多项研究聚焦于开发数据驱动模型以解决这些问题:这些模型通过学习观测偏差的模式,最终将基于物理的模型与机器学习模型协同使用,共同生成预测结果。本节讨论的研究表明,机器学习模型能够与物理模型并行工作,通过结合两者的输出来优化预测结果。表3汇总了采用此类整合策略的代表性研究。

    表3 利用数据驱动模型与基于物理的模型相结合的方法

    在此方法中,首先使用物理模型生成初始预测,随后通过机器学习算法进行调整。算法从包含物理模型输入特征及其对应真实结果的训练数据集中学习,并将学习成果应用于对物理模型的预测进行修正。在文献中,这种策略常被称为混合建模或残差建模。图7展示了此类方法的通用流程

    图7 通过数据驱动方法对基于物理的建模进行修正的总体流程

    这种方法的例子在多个场景中都有。例如Shi等(2022)将基于物理的退化模型与深度学习网络相结合来估计锂离子电池的健康状态。该模型整合了基于电化学机理的日历老化和循环老化物理模型,以及一个LSTM。通过引入表征电池运行应力的参数,模型首先计算电池老化的物理预测值。随后,LSTM网络学习观测到的电池状态与物理老化模型预测值之间的时序偏差。实验表明,这种物理信息LSTM模型能够准确捕捉电池的整体退化趋势。 Subramanian和Mahadevan(2023)提出一种基于贝叶斯状态估计的数据驱动校正框架。该框架通过概率机器学习结构学习物理模型误差的分布形式:首先利用物理模型生成初始预测,再通过贝叶斯方法量化模型形式误差。最终,整合后的模型在含高斯噪声和非高斯噪声的线性与非线性系统中均表现出鲁棒的预测能力。Li等(2023)采用双向LSTM网络估计观测退化数据与两阶段随机退化物理模型之间的残差。物理驱动的随机退化模型基于材料疲劳理论构建,而双向LSTM则专注于学习实际观测数据与理论预测的局部偏差。通过将残差项与物理模型输出叠加,该方法显著提升了桥面板钢筋结构退化预测的准确性。

    4.3 物理信息正则化

    正则化技术自机器学习诞生之初就是模型训练的基础。传统的正则化方法(如Lasso(L1)或Ridge(L2)正则化)通过引入额外的惩罚项来降低模型对非系统性数据的过拟合能力,从而产生更简单且更鲁棒的解决方案。尽管这类方法已被广泛应用,但当前的新趋势是将基于物理的正则化与ML结合。该方法旨在结合物理模型的优势,提升传统数据驱动解决方案的准 确性、可解释性和鲁棒性。通过将物理系统的先验知识以约束条件或正则化项的形式整合到学习过程中,有效编码物理约束以引导优化过程生成符合物理意义的解。

    过去基于物理的正则化实现方法涉及求解物理方程,并将其作为约束条件融入优化问题(Oware等, 2013; Ruhnau等, 2007)。然而,这种方法计算成本高昂,且仅适用于已被充分了解的物理系统。随着深度学习技术的进步和大规模数据的可获得性,新兴技术将基于物理的建模与机器学习结合,实现了更高效和可扩展的解决方案。例如,在Raissi等(2019)的开创性工作中,提出了一种利用物理系统结构学习更高效表征的新型正则化方法。这种被称为PINNs的方法,将控制物理系统的偏微分方程作为正则化项融入损失函数。表4(受篇幅限制,可参看原文)汇总了采用该技术的文献。

    物理引导的正则化主要通过对数据驱动模型施加定制化约束,使其在训练阶段更倾向于生成与底层物理一致的预测。这类约束也被Karniadakis等(2021)定义为学习偏置,并通过物理信息损失函数实现。此类损失函数通过惩罚偏离物理定律的预测,促使模型输出符合物理合理性的解。传统ML算法中的损失函数仅衡量模型预测与真实观测数据之间的经验差异,其目标是通过迭代过程最小化该差异。模型通过调整参数来缩小预测能力与真实数据间的差距。与之形成对比的是,物理信息损失函数额外整合了被建模系统的物理信息(如物理约束、守恒定律等),在惩罚偏离真实观测的同时,强制预测结果满足已知物理特性。通过该框架,ML算法能更有效地约束预测空间,避免违反物理原理。

    采用这种形式的算法旨在同步最小化标记数据的误差和物理约束的违背。这一特性体现在损失函数的结构设计中:物理信息损失函数由数据驱动损失项和物理驱动损失项共同构成。数据驱动损失项衡量模型预测输出与真实观测数据之间的误差;物理驱动损失项则通过强制解满足特定问题的控制方程,确保预测符合底层物理规律。传统上,满足观测数据(数据驱动损失)通过最小化网络预测与真实状态间的残差实现,可采用均方误差(MSE)或交叉熵误差(CSE)等多种损失对已知物理定律的遵循则需根据具体案例定制实现方式,但上述评估方法已在文献中广泛采用。此类损失函数的通用形式可表示为:

     

    其中参数λ1和λ2是正则化因子,用于调整损失项以使系统特性最佳。因此,在这种架构下,研究者们引入了一种将控制方程融入网络损失最小化方向的方法论。在文献中,物理信息正则化已被用于整合系统在不同故障模式下预期故障特征的知识,以确保模型即使在存在噪声或其他混杂因素的情况下,仍能准确检测和分类故障。例如:Sun等(2021)提出了一种基于电磁声换能器的微裂纹缺陷无损检测与量化方法,该装置通过激发导波进行裂纹检测。Sun等开发了一种名为GuwNet的新型物理信息架构,该网络将卷积层、全连接层和GRU等深度学习模块与裂纹扩展变量的物理参数相结合。通过数据驱动层和物理基础层之间的多种连接关系,以及网络参数对物理过程的表征,该网络采用混合前馈和反馈损失函数进行优化,其中既包含经验误差项也包含物理信息误差项,将超声导波无损检测的物理原理整合到网络训练过程中。物理信息项来源于缺陷深度与超声导波透射波强度、反射波强度的定量关系。相较于传统深度学习方法,该方法在裂纹长度、深度和扩展方向的检测精度上显示出显著提升。

    Freeman等(2022)提出了一种涡轮转子叶片异常和故障检测的混合方法,通过将涡轮 功率信号提取的故障特征与环境数据结合,确保符合流体动力转子的动力学特性。该框架采用连续小波变换提取统计特征,并通过多项回归进行分类。研究者证实所选时域特征具有物理显著性,能准确反映信号中与湍流强度相关的高频波动行为。基于降维特征空间提取的时域特征,采用神经网络进行湍流强度分类,并通过混合损失函数施加物理约束——对偏离湍流强度动态特性的预测进行惩罚。

    正则化技术同样应用于疲劳应力和寿命监测领域。Zhang等(2021)通过物理增强特征工程和物理信息正则化,约束了不锈钢试样蠕变疲劳寿命的预测过程。该前馈模型引入了两个物理信息损失项:根据试样蠕变疲劳的预期行为,在损失函数中设置对负值及极端寿命值的惩罚机制。与基准经验方法和纯数据驱动模型相比,该模型展现出优越性能。Kim等(2022a)采用低保真物理特征增强的数据驱动预后模型,提出了获取未标记外推数据训练参数的创新方法。该预测框架通过物理基础正则化项对偏离低保真物理模型的行为进行惩罚,从而同步最小化可用数据的插值误差和嵌入式物理模型的外推误差。研究者通过验证疲劳裂纹扩展与Paris定律的符合性,证实了该方法的有效性。Santos等(2023)在传统海上风力机疲劳监测框架基础上扩展了监测时间维度。传统损伤监测模型侧重于十分钟尺度的疲劳损伤估计,而该研究将方法拓展至长期疲劳累积监测。提出的PINN模型通过最小化Minkowski对数误差,以损伤估计矩的形式获得更保守的疲劳损伤评估。该损失函数的设计确保模型在短期损伤预测和长期损伤估计的精度间取得平衡。

    Li等(2022)将物理信息损失函数拓展至元学习领域,提出了刀具磨损预测策略。该方法通过跨物理-数据融合建模,将物理推导的模型输入和物理信息损失项与系列机器学习模型相结合。元学习被定义为基于机器学习模型在多任务中的性能表现,系统性地从元数据或积累经验中学习的过程,属于ML子领域,旨在训练AI模型更高效地自主解决问题。研究者从刀具磨损动态关系中构建深度学习算法的输入特征空间,增强模型可解释性和鲁棒性。基于Wang等(2020)提出的跨物理-数据融合方法论,构建了包含三个ML模型的元学习框架,用于学习不同磨损阶段资产退化状态的预测经验。通过物理信息损失函数对测试算法进行优化,该函数根据刀具磨损固有属性和切削力-磨损关系对磨损速率施加约束。

    4.3.1 基于物理信息的神经网络  

    PINNs是一个快速发展的领域,它利用神经网络从数据中学习复杂模式和关系,同时融入系统所遵循的潜在物理原理(如PDEs或常微分方程(ODEs))。这种物理信息正则化的具体实现方式,使得预测模型不仅能做出准确预测,还能为系统行为提供物理层面的见解。PINNs之所以被称为“物理信息”,是因为它们将基于物理的知识或约束融入模型训练过程,即对控制性PDE的解空间进行预测。通过引入学习偏置,PINN显著放宽了深度学习算法在训练数据量上的限制(Xu等,2023)。PINNs以少量数据产生高精度预测的能力著称,这在数据获取成本高昂或具有挑战性的场景中尤为重要。此外,PINNs严格遵循系统的物理定律和约束进行设计,其预测结果兼具卓越的准确性和物理意义。这些特性使得PINNs特别适用于物理原理已被充分理解的系统。

    利用神经网络的计算能力求解微分方程的概念最初由Lagaris等(1998)提出。近年来,Raissi等(2019)通过其研究推广了这一概念,他们证明了PINNs在解决与物理系统控制微分方程相关的前向和逆向问题方面的有效性。PINNs的有效性(如Raissi等(2019)所定义)部分源于其对神经网络万能逼近能力的应用(Hornik等,1989)——该理论指出,具有激活函数的单层前馈神经网络只要包含足够数量的神经元,即可逼近任何函数。自然地,研究者将这一特性扩展到复杂非线性微分方程的求解中,尤其是在数值解或经验解难以获得的情况下。在此类场景中,PINNs被用于学习输入数据与输出变量之间的映射关系,同时严格满足系统的物理约束。除了整合先验知识的能力外,PINNs还能从非完整数据或含噪数据中学习ODEs或PDEs的解,同时满足系统的控制方程,这使其在数据稀缺或获取成本高的应用中尤为实用(Raissi等,2019)。通过这一框架,研究者可以构建既精确又能揭示底层物理过程的模型,使其成为众多科学与工程应用的宝贵工具(Raymond & Camarillo,2021)。

    Raissi等(2019)提出的原始PINN架构基于前馈结构,用于求解一阶非线性PDE。文献中对该结构有多种命名,如前馈神经网络、ANNs、多层感知器神经网络及深度神经网络。前馈神经网络由多个互连的节点(即神经元)层构成,通过加权连接传递信息。在PINNs的语境下,网络的输入层对应物理域,输出层则代表目标问题的解。中间层(即隐藏层)提供必要的计算能力以实现输入到输出的映射。

    ANN可以描述为一系列非线性变换。根据网络的数学定义:对于给定的N个神经元的输入层,可以表示为      ,其中      表示输入空间      内的一个特征。该网络可定义为包含      个隐藏层,每层包含      个神经元。由此,第      层隐藏层的输出      可表示为      ,其中      表示第      层隐藏层的第      个神经元。对于每一个隐层,输出      是通过将非线性激活函数      应用于从上一层的输入的加权和来计算的,可以写成:

       
     

    其中      表示连接第      层中第      个神经元到当前层      中第      个神经元的权重,      表示上一层中第      个神经元的输出,      表示第      个隐藏层中与第      个神经元相关的偏置项。第      个隐含层的输出为:

       
     

    输出层由      个神经元组成,预测输出表示为      。因此,神经网络的输出可以计算为:

       
     

    其中      表示连接      层第      个神经元到输出层第      个神经元的权值,            层第      个神经元的输出,      是与输出层第      个神经元相关的偏置项。总的来说,可以写作:

       
     

    PINN采用该现有框架作为PDE解的逼近器。一般情况下,非线性PDE以      为参数,它的初始条件和边界条件可以表示如下:

       
       
       
     

    在定义域      内,      ,边界为      。表示定义未知函数      及其导数与参数之间关系的非线性函数。所定义的PDE有隐藏解      ,输入空间可能由空间变量      和时间变量      组成。后续综述的一些文献,所讨论的系统可能是与时间无关的,因此,上述方程中与时间有关的项是不相关的。该PDE具有初始条件      和边界条件      。神经网络试图从输入空间(Karandikar等, 2021; Raissi等, 2019)对解      进行计算逼近。NN对解空间的近似表示为:

       
     

    该近似解的导数可通过自动微分技术计算,利用微积分链式法则(Baydin等,2018)精确求解函数对其输入变量的导数。基于预测解𝑢𝑁𝑁及其导数,可重构控制系统的PDE及其初始条件与边界条件。该重构过程需通过以下三方面进行评估:所提供的标记数据、微分方程本身的残差、对上述任何项的偏差所提供的任何边界或初始条件。这些评估项可表示为:

       
     

    其中参数      代表各损失项的调节权重。在反向传播过程中,通常以均方误差(MSE)衡量的偏差被最小化,神经网络参数(如权重和偏置)根据控制方程进行相应调整。通过梯度下降等优化算法最小化总偏差,使得网络在建立输入与输出空间映射关系的同时,始终符合已知物理定律和约束条件(见图8)。

     

    图8 PINN架构

    在CM领域,PINNs通过融合数据驱动与物理建模方法实现了精准预测。其独特优势体现在:可有效处理稀疏噪声数据(Kim等, 2022a)、具备训练数据范围外的外推能力,并提供可解释性结果。这种特性使其能够实现早期故障检测、降低误报率,并支持在线监测应用。自Raissi等(2019)的开创性工作以来,大多数后续研究延续了原始的前馈神经网络架构。然而,研究中已开始尝试将物理约束与各类主流深度学习架构相结合,包括CNN、RNN及其变体、编码器-解码器网络以及图神经网络等。后续章节将详细阐述物理正则化方法在不同神经网络架构中的集成策略。    

    4.3.2 数据驱动的微分方程求解

     

    大量文献研究利用传统深度学习架构中编码的固有对称性和不变性,这与物理正则化的理念相契合。本节介绍的文献主要采用物理信息正则化作为将物理知识编码入系统的主要方法。研究者们通过发挥特定架构对特定数据类型的独特计算效能,在原始PINN框架基础上进行了重大创新,并将其应用于各自的专业领域。  

    以CNN架构为例,其独特的卷积层能够自动提取特征而无需人工特征工程,这一特性使其在相关特征难以理解或量化的复杂应用中具有不可替代的价值。McGowan等(2022)的研究就是典型代表,他们通过设计一组损失函数来监测增材制造过程中的孔隙率。该网络的正则化包含标准交叉熵数据损失,以及由物理参数构建的损失项——这些损失项会惩罚熔池温度、长宽比等参数与理想模拟值的偏差。Zhang等(2020)则建立了结构地震响应代理模型,其训练过程通过表征地面激励下动态系统的运动方程进行物理约束。  

    部分文献尝试将物理信息损失函数作为最小化物理模型与数据驱动模型间差异的方法。Shen等(2021)开发了变转速工况下轴承故障检测的物理信息CNN混合模型,该模型与基于包络谱幅值阈值判据的物理模型协同工作。定制化的物理信息损失函数会对偏离阈值模型(表征健康/损伤轴承的物理极限)的预测进行惩罚,但该方法的有效性依赖于物理模型预测完全正确的强假设。Huang等(2022)在结构健康监测中采用了类似思路,通过有限元模型构建物理域特征,与数据域特征共同输入CNN进行联合训练。其创新的跨物理-数据域损失函数同时评估分类器在标记数据上的表现,以及两个特征域之间的差异度。Yin等(2023)针对车载荷载下的桥梁结构损伤定位问题,基于Visual Geometry Group 16架构(Sim和Zisserman, 2014)开发了数值模拟与实测数据融合框架。混合损失函数包含数据驱动的交叉熵损失和物理信息损失,后者通过惩罚加速度信号时频图特征与数值模拟结果的偏差来实现物理约束(见图10)。这种双域一致性优化策略有效缩小了物理模型与数值模型间的差异。

    图10 通过特征融合将基于物理和数据驱动结合,其中CNN作为特征提取器。源自Huang等(2022)和Yin等(2023)

    在编码器-解码器架构(如自编码器)的应用方面,这类网络通过编码器将输入数据压缩为低维表征,再经解码器重构原始数据。由于中间层的低维特性迫使网络学习压缩表示,自编码器特别适合CM任务——它们能学习系统正常工况的表征,并通过重构误差检测异常(Zhou和Paffenroth, 2017)。该策略已被用于后续的研究中,用于有效地进行异常检测,而不需要额外的标记数据。Li和Deka(2021a)设计的物理信息卷积自编码器通过电压-电流椭圆轨迹的物理关系构建混合损失项,解决了配电网高阻抗故障检测中标记数据不足的问题。Russell和Wang(2022)则提出工业状态监测大数据压缩框架,其损失函数融合了传统均方误差、皮尔逊相关系数损失和频域敏感的物理约束项,通过对运行工况的潜在表示进行独立学习来实现最优故障表征(见图11)。

    图11 跨物理-数据融合,如Wang等(2020)提出的基于数据域(由来自标记监测数据的特征组成)和物理域(由来自未标记数据的特征组成)信息的预测同时映射到一个共享空间,并进行串联。两者都通过回归层进行处理,用于最终的预测。  

    针对时域监测任务,研究者利用RNN提取时序不变特征的能力也取得显著成果。Wang等(2020)通过跨物理-数据域特征融合方法建模刀具损伤累积,将双域特征映射到共享特征空间后,两个域的预测结果在网络的回归层进行拼接和预测,采用物理信息损失函数最小化双向GRU与经验方程间的差异。Liu等(2023)提出了用于海上结构监测的物理信息RNN。该方法采用最优奇异值分解程序进行结构模态识别,将物理信息模态识别过程公式化为本征系统,并利用RNN求解该本征系统的控制微分方程。  

    在损失函数评估方法的创新方面,Chen等(2022b)摒弃传统最小化目标值偏差的思路,提出基于马氏距离最大化的LSTM超参数选择策略。该策略通过先验知识生成故障状态振动特征,以健康状态与物理信息故障状态间的差异最大化作为优化目标。总体而言,物理信息正则化技术通过引导算法适应物理可行域(如本节诸多案例所示),成为深度学习训练中引入约束的强大工具。尽管效果显著,该方法仍面临损失函数景观复杂度增加、泛化能力受限等挑战,促使研究者探索通过架构改造引入物理约束的新途径——这将是下一节重点讨论的内容。


    编辑:陈宇航
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈莹洁、王金、赵诚,肖鑫鑫
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除


    来源:故障诊断与python学习
    System振动疲劳非线性化学旋转机械通用航空航天建筑农业ANSAADSAVL裂纹理论电机材料创新方法
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-05-21
    最近编辑:8小时前
    故障诊断与python学习
    硕士 签名征集中
    获赞 77粉丝 109文章 198课程 0
    点赞
    收藏
    作者推荐

    多视角故障诊断论文学习 | 基于自适应协同注意力融合网络的多视角旋转机械故障诊断

    天蓝风不燥,祝各位读者假期快乐。本期分享西南交通大学团队的论文投稿:基于自适应协同注意力融合网络的多视角旋转机械故障诊断方法。智能故障诊断作为保障工业系统安全与高可靠性运行的关键技术,近年来引发了广泛关注,并在方法研究层面取得了显著进展。然而,当前主流方法普遍依赖于单一视角的振动信号,较少关注多视角信号之间的共识性特征与互补性信息,限制了诊断性能的进一步提升。针对上述问题,提出一种新颖的多视角故障诊断方法—COFU(Co-attention Fusion Network),该方法基于协同注意力机制构建融合框架,旨在有效整合多视角信号中的判别性特征,从而提升旋转机械故障识别的准确性与鲁棒性。通过三种结构差异化的编码器分别对多个视角的输入信号进行特征提取,构建其对应的高阶特征空间;引入自适应协同注意力融合网络,以动态建模不同视角特征之间的深层关系,并学习统一的融合表示。本研究为多视角融合在旋转机械故障诊断中的应用提供了一种鲁棒性的解决方案。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Multi-view rotating machinery fault diagnosis with adaptive co-attention fusion network论文期刊:Engineering Applications of Artificial Intelligence论文日期:2023年5月论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0952197623003226作者:Xiaorong Liu, Jie Wang, Sa Meng ∗, Xiwei Qiu, Guilin Zhao机构:School of Computing and Artificial Intelligence, Southwest Jiaotong University, Chengdu, China.目录1 摘要2 引言3 相关工作3.1 单视角故障诊断方法3.2 多视角故障诊断方法4 所提方法4.1 问题表述4.2 所提框架概述4.3 视角特定编码器4.4 自适应协同注意力融合4.5 故障诊断5 实验5.1 数据集5.2 基准模型5.3 结果讨论6 结论1 摘要智能故障诊断是保障工业生产安全与可靠性的重要研究方向,近年来受到了广泛关注,并在故障诊断方法的发展方面取得了显著进展。尽管如此,现有大多数方法主要依赖单一的振动信号视角,忽略了信号在不同视角之间的共识性与互补性。为此,本文提出了一种新颖的方法——COFU,即基于协同注意力融合网络的多视角学习模型,用于旋转机械的故障诊断,该模型旨在充分挖掘多视角之间的一致性与互补特征。具体而言,首先采用三种不同的编码器分别提取多视角信号的高阶特征表示;随后构建自适应协同注意力融合网络,以学习融合特征表示,在此过程中充分考虑各特征空间之间的关联性;最后,设计基于融合表示的故障检测器,实现对故障类型的准确识别。为验证所提方法的有效性,本文在三个数据集上进行了全面评估。实验结果表明,COFU方法在上述数据集上的故障识别准确率分别达到100%、99.95%和100%。结果进一步显示,所提方法在噪声干扰环境下同样具有优越的诊断性能,显著优于所有基准对比方法。该研究为多视角融合在旋转机械故障诊断中的应用提供了一种具有广阔前景的解决方案。关键词:多视角融合,协同注意力,故障诊断2 引言旋转机械作为复杂工业设备中的关键组成部分,在工业生产中正扮演着日益关键的角色(Shi 等, 2023)。由于其长期运行于恶劣工况环境之下,其核心部件(如齿轮、轴承等)极易发生损坏(Ge 等, 2022;Zheng 等, 2023)。因此,旋转机械故障诊断因与设备运行的安全性与可靠性密切相关,而成为现代工业应用中的研究热点(Zhao 等, 2020)。在过去数十年间,已有大量诊断方法被开发并成功应用于多个工业过程与系统的故障识别(Lu 等, 2021;Wang 等, 2021c,b,a)。早期的故障诊断方法主要采用信号处理技术以抑制噪声与谐波干扰、增强信号特征,如小波变换(Yan 等, 2014)、经验模态分解(Lei 等, 2013)与变分模态分解(Dragomiretskiy 和 Zosso, 2014)。随后,专家通过频谱分析,从处理后的信号中识别故障特征频率。然而,这些方法往往依赖大量领域知识,难以保证诊断结果的稳定性与可靠性,因此具有明显的耗时性与高人力成本(Peng 等, 2021)。在过去几十年中,机器学习技术被广泛应用于故障诊断。典型的分类模型,如支持向量机(SVM,Widodo 和 Yang, 2007)、极限学习机(ELM,Luo 等, 2016)与朴素贝叶斯分类器(NB,Cai 等, 2017),能够不依赖人工知识,自动建立特征与故障类别之间的映射,从而实现诊断智能化,显著降低人工干预。一般而言,机器学习方法需借助特征提取技术从原始信号中提取有效特征以建立映射关系。常用特征包括时域与频域的简单统计量以及非线性评估指标,如分形维数(Yang 等, 2007)。然而,这些特征往往较为浅层,所包含的判别性隐藏信息有限,可能导致映射函数存在偏差,进而影响分类模型的泛化性能,甚至导致其退化。近年来,深度学习技术被广泛关注,并逐渐成为弥补传统机器学习方法局限性的有效手段(Rubio, 2021;Rubio 等, 2021;Jiang 等, 2023)。其显著优势在于能自动提取深层特征并从数据中挖掘隐藏信息。随着相关技术的迅速发展,深度学习方法已被广泛应用于故障诊断中(Zhang 等, 2022;Liang 等, 2022;Zhao 等, 2023),并取得了良好效果,部分经典神经网络结构也被引入到该领域(Anon, 2023;Liang 等, 2023)。目前,基于深度学习的故障诊断方法大致可分为单视角方法与多视角方法。如图1(a)所示,单视角方法通常依赖于原始信号变换后所提取的某一类特征。然而,来自不同视角的信息之间存在紧密联系,若能有效利用这些联系,模型性能有望进一步提升(Wu 等, 2022b)。但该类方法未考虑多视角融合对故障诊断可能带来的益处,导致诊断过程中缺乏全面线索。如图1(b)所示,多视角方法则联合利用多个视角中提取的不同特征,尽管可以提供更多信息,但往往难以充分建模这些特征之间的复杂语义交互。然而,这些交互信息对于多视角学习至关重要,它有助于在不同视角之间建立更紧密的联系,从而提供更全面的诊断线索。传统的多视角特征融合方法通常采用简单拼接策略,可能会引入无关甚至噪声信息。为解决这一问题,近年来引入了注意力机制,用以选择性地从每个视角中提取最相关的信息。尽管取得了进展,目前多数方法仍仅在编码器末端引入单一注意力层,这限制了对多种对象间交互关系的深入建模(Wu 等, 2023;Zhang 等, 2023)。为缓解上述问题,本文提出了一种渐进式深度协同注意力融合网络,以提升旋转机械故障诊断的性能,该方法被称为COFU。受到人类对多视角信息理解过程(如图文结合的多媒体新闻)的启发(Wang 等, 2020),COFU模型设计了一种自适应协同注意力融合网络,用于捕捉时间视角、频率视角和小波视角之间的复杂语义交互关系。通过这些视角间的迭代交互,COFU利用时间引导的频率注意力、频率引导的时间注意力、小波引导的时频注意力,以及时频引导的小波注意力,生成最终的跨视角融合表示。从根本上看,与传统的单视角和多视角方法不同,COFU在设计中引入了多视角之间丰富关联的初始建模机制,如图1(c)所示。在技术实现方面,本文提出了一种基于协同注意力网络的渐进式跨视角融合技术,用以捕捉不同视角之间的深层交互,以提升故障类别的识别能力。具体而言,首先通过三个特定的神经网络,从原始振动信号中提取时间视角、频率视角和小波视角的高阶特征表示;随后,构建自适应协同注意力融合网络,将三种独立的多视角特征进行渐进融合,逐步学习其交互信息;最终,利用融合网络最后一层输出的表示进行故障类别的识别。图1(a)基于单视角方法;(b)采用拼接操作的多视角方法;(c)考虑语义交互的多视角方法。本研究的主要贡献如下:1) 所提出的COFU方法利用自适应协同注意力融合网络,捕捉多视角表示之间的复杂语义交互,能够有效学习时间视角、频率视角与小波视角之间的深度依赖关系,相较传统融合方法在多视角学习中表现更优。2) 所提COFU方法在CWRU轴承数据集、SEU轴承数据集与SEU齿轮数据集上进行了评估。结果显示,在各数据集上的诊断准确率分别达到100%、99.95%和100%。此外,在Precision和Recall指标上,COFU亦优于当前主流方法。值得一提的是,即使在噪声数据条件下(SNR=4dB),COFU在三个数据集上的平均准确率仍可保持在95%,展现出其显著的鲁棒性与有效性。3 相关工作3.1 单视角故障诊断方法单视角故障诊断方法主要集中于将原始振动信号在不同变换域(如时域、频域与时频域)中的形式作为输入引入深度学习模型。Teager-Kaiser能量算子(TKEO)因其可直接在时域内计算,已被广泛应用于包括齿轮箱与轴承在内的机械故障诊断中。然而,仅依赖时域信息在准确判定故障性质方面存在一定局限性。为弥补该缺陷,研究者引入频域技术,用于提取信号中与故障相关的谱分量,从而提升诊断精度。Li等(2021a)提出了一种归一化频域能量算子(FDEO),用于断条转子故障的诊断。此外,将一维原始信号转换为二维图像所获得的时频输入方式也各不相同。Zhang等(2020)指出,单一的时域或频域分析方法难以有效提取关键特征,因而提出了一种基于时频图像的故障诊断方法。Kang和Kim(2014)提出了一种基于Shannon小波的二维灰度图像表示,用于感应电机故障检测。Yu(2020)则提出了一种集中型时频分析工具,用于轴承故障诊断。尽管单视角故障诊断技术因其简单有效而获得了广泛应用,并推动了智能故障诊断技术的发展,但仅凭单一视角所获得的信息仍不足以实现对模型的全面理解。为克服此局限性,多视角方法的研究与发展逐渐成为趋势。3.2 多视角故障诊断方法在多视角任务中,来自不同视角的特征整合始终是一个关键问题(Wang 等, 2023)。Abdul和Al-Talabani(2022)将其获得的线性组合拼接成特征向量,并采用SVM进行故障分类。Lu和Yin(2021)提出了CFCNet模型,在特征融合阶段采用特征拼接策略。Peng等(2021)则提出了一种基于GP与集成学习的多视角特征构建方法,用于滚动轴承故障诊断。此外,典型相关分析(CCA)是一种广泛应用的经典方法,其通过将两个变量映射到公共子空间中,以捕捉其间相关性。Jiang等(2022a)从多视角学习的角度出发,提出了一种基于CCA的特征增强型故障诊断框架。该框架能够识别相关性最强的数据投影对,从而增强特征学习能力。Zhu等(2021)进一步提出了一种谐波多视角典型相关分析方法(HMCCA),构建了一个用于轴承故障诊断的谐波相关特征学习模型。尽管上述多视角故障诊断方法已取得一定成效,但在多视角信息融合方面仍存在一定局限性。具体而言,特征拼接方法无法刻画复杂语义交互关系,而CCA在提取多视角数据高阶关联方面存在性能瓶颈(Li 等, 2019)。从本质上看,这些方法未能充分考虑多视角数据之间的共识性与互补性。针对上述限制,本文提出一种新型的多视角旋转机械故障诊断方法,融合协同注意力机制。与现有方法相比,本文所提方法在融合过程中引入渐进式机制,能够有效捕捉不同视角之间的交互信息。4 所提方法4.1 问题表述 如图2所示,模型的输入为一条信号,输出为故障类别。给定一维振动信号 ,我们对其进行若干信号变换操作,以获得多视角特征集 。具体而言,振动信号 直接作为时间视角特征 使用,无需任何预处理操作;为了获取频率视角特征,对 应用快速傅里叶变换(FFT),将其从时间域转换为频率域,得到频率视角特征 ;对于小波视角,则通过连续小波变换(CWT)作用于 ,得到小波视角特征 。 图2 COFU方法的流程图4.2 所提框架概述本文提出了一种新型的多视角旋转机械故障诊断架构COFU(Co-attention Fusion),该架构能够自适应地学习不同视角之间的共享语义。图3展示了所提方法的整体框架结构。如下所示,COFU架构由三个模块组成:视角特定编码器:如图3中部所示,在多视角特征提取过程中,时间域视角、频率域视角与小波域视角分别独立处理,其间的相互依赖关系未被建模。然而,这三者之间的内部关系对于全面理解信号所承载的信息具有关键作用。为此,本文设计了一个自适应协同注意力融合网络,以融合上述三个视角的特征表示。该方法有效增强了多视角特征的共识性与互补性。故障检测:如图3右侧所示,为实现对不同类型故障的识别,在完成第二模块中的多视角特征融合之后,提取出的深层特征向量被输入到一个包含两个线性层的故障分类器中,以完成最终的故障类型判别。 图3 所提出的多视角协同注意力融合网络(COFU)示意图4.3 视角特定编码器给定振动信号 作为时间视角特征,分别采用快速傅里叶变换(FFT)与连续小波变换(CWT)获取其对应的频率视角特征与小波视角特征。随后,为获取由三类特征构成的多视角表示,本文根据各自特性设计了三个神经网络编码器。4.3.1 时间视角编码器对于时间视角,特征 直接来源于振动信号 ,无需额外的数据预处理。随后,采用长短期记忆网络(LSTM)作为编码器,用于表示时间特征 。LSTM是一种循环神经网络(RNN)变体,旨在解决长时依赖学习的问题。形式化地,在时间步 ,记忆单元 与隐藏状态 的更新过程如下所示。 其中, 表示按元素相乘运算, 表示按元素作用的Sigmoid函数。 、 与 分别表示时间步 的输入门、遗忘门与输出门; 为时间步 的输入向量; 为仿射变换,依赖于网络的参数 和 。为同时捕捉时间域中来自过去与未来的信息,本文采用双向LSTM作为特征提取器。因此,在每一个时间步 ,由正向隐藏状态 与反向隐藏状态 拼接形成最终的时间特征表示。 上述过程用BiLSTM(⋅)形式化表示。本文使用BiLSTM(⋅)来获得时间视角样本的更高级别表示。这个过程可以表示为: 4.3.2 频率视角编码器对于频率视角,使用快速傅里叶变换(FFT)将每个样本样本从时间视图转换为频率视角。在此操作之后,本文也可以通过BiLSTM(.)获得频率视角的高级表示。对应的过程表示为 4.3.3 小波视角编码器为了获得信号 的小波视角特征 ,本文采用连续小波变换(CWT)操作。此外,卷积神经网络(CNN)在图像特征提取方面因其优越性而被广泛应用与认可。在故障诊断领域,一些研究(Liang 等, 2022;Wen 等, 2018)也已利用 CNN 的优势对图像内容进行编码。在本研究中,小波视角特征 的变换形式被视作图像信息,采用CNN对其进行编码,以便在多个尺度上提取局部特征。假设卷积层包含多个滤波器,其第 个输出由以下过程定义。将该过程记为 ,具体如下所述。 其中, 表示非线性激活函数,符号 表示卷积操作; 表示第 层中第 个样本对应的特征图;参数 与 分别表示第 层的卷积核权重与偏置项,是CNN模型需学习的参数; 表示CNN模型的层数。在本任务中,该过程可具体表示如下: 4.4 自适应协同注意力融合如前文所述,不同视角之间的相互依赖关系应被充分考虑,以弥合其语义差异。为此,本文设计了多视角协同注意力融合模块,用于捕捉不同视角之间复杂的语义交互关系。在融合阶段,多个视角特征将被逐步融合,其过程如下所示:时间引导的频率注意力机制:通常而言,时域中的故障信号位置与特定频率点存在关联。因此,引入由时间信号引导的频率注意力模块,用以确定频域中应关注的区域。为了在频率视角上生成注意力分布,将上述两个表示输入一个单层神经网络,并接 softmax 函数处理。该过程可形式化表示为: 其中, 、 与 为模型参数,满足 , , ; 与 为偏置项。此外,记号 表示时间特征矩阵与频域特征向量的拼接操作。矩阵与向量之间的拼接是通过将向量拼接到矩阵的每一列上实现的。与 相关的新的频率向量可通过注意力分布获得,注意力分布为每个频率向量分配相应的权重。该过程可表示为: 在前述过程中,本文通过时间视角引导的注意力机制获得了与时间序列 相关的新的频率表示。相应地,本文也需计算由频率引导的时间视角特征,其具体计算步骤如下所示。 其中, , ; 、 与 为偏置项。至此,已基于时间视角与频率视角完成了两轮交互式注意力计算。时间视角引导的注意力用于判断标签预测应关注的频率区域;而频率引导的注意力机制则可识别时间序列中与标签最相关的区段。然而,仍需进一步探索小波视角与时频融合表示之间的注意力分数关系。首先,通过时间视角与频率视角的互引导机制,得到一个新的表示 ,具体如公式所示。接下来,引入频率视角信息与 ,以进行协同注意力计算。 其中, ,其中 表示时频融合特征的维度, 表示每个融合特征的长度。在多数情况下,故障特征通常集中在小波图像的局部区域。因此,若直接利用整张图像的特征进行标签预测,可能会引入与故障无关的区域信息,从而导致结果次优。为避免该问题,本文引入时频融合引导的小波注意力模块,以判定应关注的小波图像区域。 其中, , 表示图像区域的数量; 和 为模型参数,满足 , , ; 与 为偏置项。时频融合引导的注意力机制能够判定小波视角中哪些图像区域应成为标签预测的关注重点,以及哪些区域更直观地反映故障特征。然而,仍需进一步确定时频融合序列中哪些片段与标签更为相关。因此,本文引入小波视角与时频融合表示之间的引导注意力机制整合,以此获得新的图像向量 。 其中, 和 为模型参数,满足 , , 。与时间域引导的注意力操作类似,本文使用符号 表示时频融合矩阵与小波向量的拼接操作,即将小波向量拼接至矩阵的每一列。最终,基于能量函数与概率分布,得到全局注意力表示 。 4.5 故障诊断所提方法通过协同注意力网络获取多视角特征表示 。随后,故障检测器利用多层感知机(MLP)对每个特征向量进行分类。该过程可总结如下: 本文使用交叉熵损失函数进行模型训练。概率的对数由以下表示: 其中, 表示第 个样本的真实标签, 表示该样本属于第 个标签的概率分布。5 实验5.1 数据集为评估所提COFU方法的有效性,本文在三个公开数据集上进行了实验,包括CWRU、SEU_bearing和SEU_gear数据集。CWRU 轴承数据集:该数据集由凯斯西储大学轴承数据中心提供,其测试平台如图4所示。测试平台包括电动机、扭矩传感器、两个加速度计和测功机。两个加速度计分别安装于驱动端外壳和风扇端外壳上,用于采集振动信号。采样频率为12 kHz或48 kHz,振动信号在四种不同电机负载下进行记录。故障类型分为三类:轴承内圈故障、滚动体故障、外圈故障,故障直径分别为0.007、0.014和0.021英寸。本文采用驱动端在12 kHz采样频率下的数据。表1将健康状态、内圈故障、滚动体故障和外圈故障四种类型,按照故障程度划分为十类(包含一种健康状态与九种故障状态)。图4 CWRU轴承测试实验台表1 CWRU数据集SEU bearing数据集:该数据集来源于东南大学提供的齿轮箱数据集(SEU2)。如图5所示,模拟平台由电动机、制动器、控制模块和两个测试用变速箱构成。轴承数据集包含八路振动信号,本文选用第二路信号。加速度传感器分别安装于驱动电机、行星齿轮箱和平行齿轮箱上。实验设置包含两个工作状态,转速–负载(RS-LC)分别为20 Hz–0 V和30 Hz–2 V。每种工况下包含五类故障类型:裂纹内圈、裂纹滚柱、裂纹钢球、裂纹外圈以及健康状态,详细信息见表2。图5 SEU轴承测试实验台表2 SEU轴承故障数据集表3 SEU齿轮故障数据集5.2 基准模型CNN模型:一种同时包含一维(1D)与二维(2D)卷积通道的模型,能够学习周期信号中相邻与非相邻区间之间的局部相关性。LSTM:一种能够良好捕捉测量振动信号时间特性的模型。MCNN-LSTM:一种融合多尺度卷积神经网络与长短期记忆网络的模型,用于滚动轴承故障诊断。MHGAT:首个在轴承故障诊断领域引入多头图注意力网络的模型。多视角方法:通过与依赖多视角信息的技术进行对比,评估所提模型的性能表现。具体而言,Cat、Dot与Add为COFU方法的消融变体,其性能亦被纳入评估。MCCA(Jiang 等, 2022a):一种基于典型相关分析(CCA)的多视角学习方法,用于最大化振动信号与电流信号特征之间的相关性。为确保公平比较,我们将其多层特征提取部分替换为本文所提出的视角特定编码器。Concatenation:一种将不同视角的高阶表示直接拼接后,经过线性变换进行故障类型识别的多视角融合方法,其处理流程如图6(a)所示。Dot:一种将不同视角的高阶表示相乘后,进行线性变换并识别故障类型的多视角融合方法,处理流程如图6(b)所示。Add:一种将不同视角的高阶表示相加后,经线性变换完成故障类型识别的多视角融合方法,其处理流程如图6(c)所示。图6 “Concatenation + FC”、“Dot + FC” 和 “Add + FC” 的示意图5.3 结果讨论5.3.1 方法结果对比表4展示了本文提出的COFU方法与多个基线方法在性能上的对比评估。实验结果表明,在 CWRU、SEU_bearing和SEU_gear三个数据集上,COFU在准确率(ACC)、精确率(P)和召回率(R)三个指标上均优于其他方法。表4 不同模型诊断结果比较同时,基于表中结果可得出以下几点观察:(1) 在多种用于故障诊断的单视角方法中,MHGAT取得了最优的性能。这可归因于其采用了图神经网络与多头注意力机制等先进技术,能够在不同尺度上提取判别性特征,并构建增强的综合特征用于故障诊断。此外,将频率视角作为输入,在传统CNN和LSTM模型中也表现出更优的效果,说明频率视角特征在提取关键信息方面具有重要作用。尽管如此,诸如 MCNN-LSTM与MHGAT等结构设计合理的模型,在使用时间视角输入时同样能取得可比的性能表现。(2) 多视角方法的整体性能普遍优于单视角方法。观察发现,即便是简单的多视角融合技术,如Cat、Dot和Add,也在大多数情况下优于单视角方法。上述结果验证了多视角信息集成有助于显著提升故障检测性能的假设。然而,仍需注意,部分单视角模型(如 MHGAT)在性能上甚至超过了最基础的多视角融合方法。这可能是由于简单拼接融合方式可能引入一定噪声,反而削弱了多视角方法的效果。(3) 本文提出的COFU方法在所有基线方法中表现最为优越。尽管MCCA采用了典型相关分析以学习多视角间复杂的语义相关性,其融合策略相对复杂,但在三个数据集上,COFU 的整体性能仍优于MCCA。具体而言,COFU在三个数据集上均获得了最高的ACC、P与R。在CWRU与SEU_gear数据集上,所提出模型的准确率、精确率与召回率均为100%;在SEU_bearing数据集上,COFU模型的准确率、精确率与召回率分别为99.95%、99.95%与99.95%。该优越性能归因于协同注意力融合网络能够有效利用不同视角间的共识信息与互补特征,从而显著提升旋转机械故障诊断的准确性与鲁棒性。5.3.2 COFU诊断表现为更有针对性地分析各类故障类别的诊断效果,本文绘制了混淆矩阵以验证实验结果。如图7所示,混淆矩阵全面记录了不同数据集上的诊断与分类结果,包含正确分类信息与误分类信息。混淆矩阵的纵轴表示真实标签,横轴表示预测标签,因此对角线上的元素表示各数据集的诊断准确率。从图中可以看出,本文所提出的方法在三个数据集上对10类故障状态样本均实现了有效识别,模型在各数据集上的准确率分别为100%、99%与100%。对于SEU_bearing数据集,存在两个分类错误的样本,这两个样本均为工况“20_2”下的ball故障,被错误预测为“30_2 ball”。本文认为,该现象部分原因可能是这两个故障类别本身同属于ball故障类,二者在特征表现上具有一定相似性,从而导致了误分类的出现。图7 COFU在各数据集上的混淆矩阵图示5.3.3 抗噪性能表现本文通过在信噪比(SNR)范围从-4dB到4dB的条件下对信号数据进行实验,分析了所提出方法的抗噪性能。详细结果如图8所示。在SNR = -4dB条件下,COFU方法的诊断准确率明显高于其他对比方法。随着SNR的增加,各方法的诊断准确率整体提升;在SNR = 4dB时,COFU的诊断准确率接近95%。该结果表明,COFU在工业噪声环境下具有更优越的抗干扰能力。图8 模型在不同噪声环境下的性能5.3.4 特征可视化为验证COFU中协同注意力网络的有效性,本文在CWRU数据集上对COFU所学习的三视角融合表示进行t-SNE可视化,结果如图9所示。为了揭示多视角方法所提取的特征,本文采用t-SNE降维算法对特征进行可视化处理。从图9可以看出,在经过三种简单多视角方法提取特征后,不同故障类别之间存在重叠,表明其无法有效区分不同故障。而COFU提取的特征在类别间表现出更高的可分性。在COFU的自适应协同注意力融合网络作用下,主要特征得到有效增强,从而有助于不同故障类别之间的分离。图9 CWRU 数据集上提取特征的 t-SNE 可视化结果经过多轮协同注意力融合后,各类故障在空间分布上表现出明显差异;同一类故障的样本聚集在一起,表明COFU能够有效区分不同类型的故障。综上所示,相较于其他方法,本文提出的COFU能够更好地学习多视角下的故障交互特征,从而更有助于故障类别的判别与分离。6 结论本文提出了一种用于旋转机械故障诊断的多视角方法,称为多视角自适应协同注意力融合网络(COFU)。与传统单视角输入方法不同,COFU通过利用特定的神经网络编码器,对三种视角的特征表示进行融合,从而获取更为全面的故障特征信息。此外,本文还提出了一种新型的融合方法,以有效利用多视角数据的共识性与互补性。最终,COFU 被应用于CWRU、SEU_bearing和SEU_gear三个数据集,以实验方式验证其相较于基线方法的学习性能,分别在三者上取得了100%、99.95%和100%的准确率。实验结果表明,所提出的COFU方法是一种有效且便捷的解决方案,具有较强的适应性,能够理想地识别故障信息,并成功实现滚动轴承的自动化故障诊断。考虑到CWRU与SEU数据集本身的局限性,如数据干净、样本构造简单、故障类型数量有限以及难以模拟真实工业环境等因素,所训练模型在实际部署中的性能可能受到一定影响。因此,未来工作将致力于结合多视角学习方法,引入小样本学习与领域自适应技术,以增强模型在更贴近实际工业环境中的泛化能力。编辑:Jin校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚、肖鑫鑫该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈