首页/文章/ 详情

综述 | 基于物理信息的机器学习:在异常检测和状态监测中的应用综述(下)

13小时前浏览2

    综述 | 基于物理信息的机器学习:在异常检测和状态监测中的应用综述(上)本期给大家推荐Gadsden教授的基于物理信息的机器学习:在异常检测和状态监测中的应用综述(下)状态监测对保障工程系统可靠性至关重要,但传统方法在处理复杂系统以及面对精确物理模型可用性有限的情况时,往往面临挑战。物理信息机器学习(PIML)通过物理约束与数据驱动的融合,成为解决该问题的有效途径。本文系统梳理PIML在状态监测中的技术路径:归纳物理知识嵌入机器学习模型的方法及适用场景,对比分析计算效率、可解释性等性能差异;结合典型应用案例验证PIML在故障检测精度与跨系统泛化能力的优势;论证其在维护策略优化中的潜力。研究表明,PIML通过物理机理与数据特征的协同建模,为复杂系统状态监测提供了创新解决方案。

    论文链接:通过点击本文左下角阅读原文进行在线阅读及下载

    论文基本信息

    论文题目:Physics-informed machine learning: A comprehensive review on applications in anomaly detection and condition monitoring

    论文期刊:Expert Systems With Applications

    论文日期:2024年

    论文链接
    https://doi.org/10.1016/j.eswa.2024.124678

    作者:Yuandi Wu, Brett Sicard, Stephen Andrew Gadsden*

    机构:McMaster University, 1280 Main Street West, Hamilton, ON L8S 4L8, Canada

    通讯作者邮箱: gadsden@mcmaster.ca

    作者简介:

    Stephen Andrew GadsdenSenior Member, IEEE),加拿大安大略省汉密尔顿市麦克马斯特大学机械工程系的副教授、智能和认知工程实验室主任。在加拿大汉密尔顿的麦克马斯特大学获得机械工程和管理(商业)学士学位和机械工程博士学位。曾在加拿大安大略省汉密尔顿市的机电一体化和混合技术中心做了近三年的博士后研究工作。研究方向包括控制和估计理论、人工智能和机器学习以及认知系统。他与NASA、美国陆军研究实验室、美国农业部和美国国家标准与技术研究所的多位学者保持着合作关系。Gadsden博士是ASMEFellow、安大略省的专业工程师、经过认证的项目管理专家,担任多个ASMEIEEE期刊和国际会议的审稿人。

    目录

    1 摘要

    2 引言

    3 文献综述方法

    4 基于物理信息的机器学习

    4.1 物理嵌入特征空间

    4.2 数据增强的物理模型优化

    4.3 物理信息正则化

    4.4 物理引导的架构设计

        4.4.1 前馈神经网络

        4.4.2 卷积神经网络

        4.4.3 循环神经网络

        4.4.4 图神经网络

        4.4.5 生成式深度学习神经网络

    5 讨论
    5.1 阐释与展望
    5.2 本综述的局限

    6 结束语

    (以上标记章节为本文内容)

    1 摘要

    状态监测在确保各种工程系统的可靠性和最佳性能方面起着至关重要的作用。传统的状态监测方法依赖于基于物理的模型和统计分析技术。然而,这些方法在处理复杂系统以及面对精确物理模型可用性有限的情况时,往往面临挑战。近年来,基于物理信息的机器学习(PIML)作为一种有前景的状态监测方法应运而生,它结合了基于物理的建模和数据驱动的机器学习的优势。本研究全面概述了PIML技术在状态监测中的应用。推动PIML发展的核心概念是将已知的物理定律和约束条件融入机器学习算法中,使算法能够在从现有数据中学习的同时,保持与物理原理的一致性。通过将领域知识与数据驱动的学习相融合,与纯粹的数据驱动方法相比,PIML方法在准确性和可解释性方面都有显著提升。在这项综述中,我们详细研究了将已知物理原理整合到机器学习框架中的方法,以及这些方法在状态监测特定任务中的适用性。将物理知识融入机器学习模型可以通过多种方法实现,每种方法都有其独特的优缺点。本文详细探讨了在数据驱动模型中整合物理知识的各种方法的独特优势和局限性,考虑因素包括计算效率、模型可解释性,以及在状态监测和故障检测中对不同系统的通用性。我们还介绍了一些利用这一新兴概念的案例研究和文献,以展示 PIML在状态监测应用中的有效性。从综述的文献中,可以证明PIML在状态监测中的多功能性和潜力。新颖的PIML方法为解决状态监测的复杂性和相关挑战提供了创新的解决方案。这项综述为该领域未来的研究奠定了基础。随着技术的不断进步,PIML有望在优化维护策略、提高系统可靠性以及提升工程系统的整体运行效率方面发挥关键作用。

    关键词:机器学习;深度学习;基于物理信息的机器学习;状态监测;异常检测

    4 基于物理信息的机器学习

    4.4 物理引导的架构设计

    除了损失函数之外,ML算法本身的架构可以设计为包含基于物理的约束。从文献来看,该领域的发展主要集中在设计能够高效编码偏置并学习系统底层物理特性的神经网络架构。为了解决工程应用中的独特挑战,研究者提出了多种专用神经网络架构。

    其中一种方法是通过给隐藏层数值赋予物理意义,在“黑箱”结构中编码物理信息。特别是在深度学习架构中,可为中间节点或输出分配物理意义,从而促进网络内基于物理引导且可解释的信息流动。根据具体应用,通过专用操作和/或对网络层间保留数据进行的变换,中间节点的物理相关性可在网络中传递。

    另一种常用方法是对节点间的连接赋予物理意义。通过这种节点连接方式,可在网络层间指定固定的物理操作或变换,以不同方法实现信息流中物理原理的保持。后续小节将详细阐述上述架构设计在主流深度学习框架中的具体应用。此外,本节还将解析传统深度学习架构在物理信息架构设计框架中的工作机制,包括其架构细节及对特定数据类型物理特性的适用性分析。

            4.4.1 前馈神经网络

    文献中存在多种此类架构调整的案例。由于前馈神经网络架构已在第4.3.1节“基于物理信息的神经网络”中讨论,本节不再赘述其结构描述。尽管近期架构创新不断,前馈神经网络依然因其简单性、相对高效的计算能力及连续函数通用逼近特性被广泛采用。其自身结构使前馈网络更便于分析与物理相关性编码,因此诸多研究者以该框架为基础开发可解释的物理信息架构。表5简要汇总了在前馈架构中嵌入物理知识的现有研究工作:

    表5 以前馈神经网络架构创新性改进为核心的物理信息架构设计的文献总结

    该领域的大部分文献试图通过约束前馈网络的传播过程提升模型可解释性。Chen和Liu(2021)的研究是典型案例,他们将物理参数作为网络节点以确保信息流符合底层物理规律。该团队提出概率方法,采用前馈模型学习应力与疲劳寿命分布关系的均值和标准差。通过约束优化过程将先验知识植入网络:将疲劳应力、疲劳寿命及样本试验完成度等物理参数设置为输入节点,输出节点则定义疲劳寿命概率分布的均值与标准差参数。网络权重和偏置根据参数间已知物理关系进行约束,强制中间值符号一致性。Yan等(2022)结合物理信号处理技术与正则化方法开发了全架构可解释神经网络。所设计的三隐藏层前馈网络对应希尔伯特变换、平方包络和傅里叶变换的信号处理数学表达。通过混合损失函数优化健康指标敏感性等特性,成功应用于机械振动信号的退化建模。

    与上述研究类似,Wang等(2022)通过为网络各层赋予适当的物理意义,开发了一个可解释框架。研究者将其提出的极限学习机框架应用于机械健康监测。极限学习机可定义为传统神经网络的一个子集,其强调使用简化模型实现高效可扩展的学习。该框架最初由Huang等(2006)提出,与传统神经网络的多隐藏层不同,极限学习机通常由单一隐藏层构成,基于固定权重实现输入到输出的映射。相较于标准神经网络,此类模型更易训练,且所需数据量和计算资源显著减少。为弥补模型简化带来的不足,极限学习机强调采用先进的特征提取、数据预处理和数据融合技术,使模型能够学习数据中的复杂模式。

    在本研究中,作者通过额外的前馈层对采样输入特征实施小波变换、平方包络和傅里叶变换(如图12所示),这一设计与Yan等(2022)的研究具有相似性。传统上,极限学习机的隐藏节点采用随机初始化方式生成随机输入权重和偏置。基于此结构,极限学习机模型仅需精确学习输出层参数,从而直接规避传统反向传播优化方法所需的大量时间和计算资源。Wang等(2022)对此架构进行了创新改进:引入特定稀疏性度量替代随机初始化的隐藏层,显著提升网络可解释性。采用的创新性变换与评估指标包括基尼指数、峭度、平滑度指数和负熵。

    图12 将具有物理可解释性的特征提取与极限学习机的结合使用

    相比之下,Chen等(2023)在疲劳寿命预测中提出了一种基于架构整合物理知识的替代方法。研究者采用多保真度模型,通过数据驱动神经元与新型物理信息神经元的组合,将控制疲劳寿命的物理规律嵌入系统。值得注意的是,作者基于纯物理模型(如Walker平均应力模型和Basquin关系模型),为模型中 特定节点应用了物理驱动的激活函数。最终模型结构(如图13所示)包含与数据驱动神经元协同工作的物理神经元,通过网络节点间的关联关系强制节点本身的物理相关性。

    图13 神经网络中基于物理的sigmoid激活函数与传统sigmoid激活函数的结合

    由于结构简单,该特定架构已在众多研究中得到广泛应用。如前文所述案例所示,前馈神经网络通过多种创新改进展现出显著效能。近年来,该领域大量研究持续优化基础神经网络结构,使其更适配特定数据类型与结构特性——此内容将在后续章节详述。

    4.4.2 卷积神经网络  

    除了直接的前馈模型,CNNs在学术界也广受欢迎。通过其与生俱来的架构,卷积神经网络有能力对其训练的数据中固有的某些不变性或对称性进行编码,使其能够根据先验知识对某些偏差进行编码。通过设计,CNN通过使用卷积层和池化层先天地考虑了空间不变性。CNN独特的卷积层为中提取物理意义提供了高效且自动化的方法:这些层从输入数据中提取空间特征,并与施加物理约束的物理信息层协同工作。

    具体到卷积层的运作机制:在卷积层内部,网络通过一组滤波器作用于输入数据。每个滤波器负责检测输入中的特定特征或模式,使得网络能够识别输入数据不同区域的局部模式,不受其空间位置影响。在每个卷积层中,滤波器根据步长在输入数据范围内滑动卷积运算。此过程的输出称为特征图——即由局部加权和形成的张量。二维卷积运算可表示为:

     

    通过将输入数据I与滤波器核K进行卷积运算,CNN能够实现局部连接,从而具备位置不变特征检测能力(LeCun等,2015,1998)。卷积运算后通常施加非线性激活函数以引入系统非线性。池化层通常插入卷积层之间,通过降低维度同时保留特征描述信息。在池化层中,对特征图各区域进行子采样操作,取代卷积层输出的精确特征位置信息,后续处理基于池化层汇总的特征进行,增强网络对特征位置变化的鲁棒性。池化层还通过降低输入空间分辨率(通常采用局部区域最大值或平均值)引入空间不变性,使网络对输入数据的微小变化(如平移或形变)更具鲁棒性。根据具体应用场景,网络还可编码旋转不变性、尺度不变性或排列不变性。这一特性使CNN在故障特征多变的设备CM任务中具有重要价值。表6汇总了采用物理信息CNN框架的研究案例。

    表6 以CNN架构创新性改进为核心的物理信息架构设计的文献总结

    通过设计专用层或架构,网络能在保持深度学习预测精度的同时捕捉底层物理规律。当前文献中常见方法是将针对特定物理问题设计的傅里叶特征层等物理启发层整合到CNN架构中(Jing等,2017)。其核心设计理念是在网络层内集成基于物理的信号处理技术,可视化与物理相关的故障特征,并为决策过程提供物理解释视角。在Kim等(2022b)、Li等(2021)、Lu等(2023,2019)的研究中,物理信息CNN的特定层被专门设计用于提取目标故障类型的相关特征。这些层生成的物理相关特征图可在CNN架构内通过多级抽象传递,使得后续层专注于更复杂的特征提取与分类,提升监测系统的精度与鲁棒性(Wang等,2022b;Li等,2019b)。  

    得益于固有结构与编码的对称性/不变性,物理信息CNN在时频数据分析中表现突出。此类应用常通过振动信号评估设备状态:对一维振动信号采用一维时频域映射图像采用二维CNN。Sadoughi和Hu(2019)通过改进卷积滤波器(即核函数)在CNN中表征物理过程,开发了滚动轴承故障诊断框架(见图14(A))。该框架针对频域信号处理改进传统CNN分类方案,新增谱峭度层、包络分析层等预处理层,并采用快速傅里叶变换层对预测特征图进行后处理。滤波器核根据轴转速与轴承特征频率生成,其物理驱动特性降低了对超参数的依赖,故障检测精度显著优于传统深度学习方法。Li等(2021)提出的小波核网络(见图14(B))引入连续小波卷积层,提升轴承故障振动信号脉冲特征提取能力。Kim等(2022b)开发了健康自适应时标表示模型,将时频域故障特征物理信息嵌入CNN进行时频图像分析。该框架采用与上述研究类似结构,通过健康自适应时标表征模块生成指标。  

    图14 CNN网络的物理信息层设计,源自:(A)Sadoughi和Hu(2019)基于物理的核生成方案,通过物理驱动生成卷积滤波器实现物理信息卷积。(B)Li等(2021)使用卷积层处理连续小波变换的示例架构。(C)Lu等(2023)采用物理信息的特征选择层。  

    Lu等(2019)在Sadoughi和Hu(2019)基础上提出物理特征加权机制(见图14(C)),利用轴承特征故障频率先验知识对振动特征加权。Lu等(2023)进一步改进该模型,在CNN分类前增设特征加权层与信号处理层,强化与轴承故障特征频率匹配度高的特征。相较于Sadoughi和Hu(2019)的时域处理,该框架直接在频域构建CNN输入空间,显著降低计算复杂度且保持同等精度。Perez-Sanjines等(2023)提出基于循环平稳分析的振动信号处理方法。通过二维循环谱相干图提取物理信息,结合机器学习进行异常检测。健康状态数据训练的卷积自编码器重构循环谱相干图,评估旋转部件异常时产生的非稳态信号。Deng等(2022)开发物理信息时序CNN评估轴承刚度退化,集成物理增强输入特征空间、物理信息损失函数与物理驱动网络架构。特别设计的物理信息层模拟振动特征与剩余使用寿命间的物理映射关系,确保网络计算符合先验物理知识。  

    Ni等(2022)针对桥梁挠度监测提出多分支CNN架构(见图15),融合基于应变与加速度的位移重构方法。针对加速度法在准静态位移重构的不足与应变法在动态的误差,双分支CNN独立学习准静态与动态位移分量特征。各分支特征图相互独立,避免交叉干扰,结合残差编-解码块增强信息传递,并通过基于加速度残差最小化的物理信息损失函数监督训练。Rahimi等(2021)提出融合物理振动分析与CNN谱特征的铣削颤振监测框架。该混合框架结合基于能量的颤振检测模型与CNN实时训练,动态更新颤振概率,有效抑制动态工况下瞬态振动引发的误报警。  

    图15 对位移形式的应变和加速度测量进行单独建模的多分支CNN。源自Ni等(2022)  

    4.4.3 循环神经网络

    另一种在学术界广受欢迎的深度学习架构是RNN。自诞生以来,RNN因其处理序列数据的能力而备受青睐:其能够考虑先前输入的上下文信息。通过将前一时间步的信息(即隐藏状态)与当前输入数据共同解析为新时间步的输入,网络得以将历史输入信息融入当前处理过程。因此,RNN本质上被设计用于编码时间不变性,并已被证明在涉及理解时间动态与关系的任务中具有不可替代的价值。RNN的架构如图16(A)所示。

    图16 (A)RNN的一般结构,(B)每个RNN单元内部的计算过程

    传统RNN通过整合输入空间    和前一隐藏状态    ,将时间𝑡的输入    映射至输出    。给定输入    和前一隐藏状态    ,单个RNN单元的隐藏状态可表示为:

     

    其中,         分别表示与先前时间步隐藏状态和当前输入状态相关联的权重矩阵,     表示当前隐藏状态的偏置项。通过逐元素应用非线性激活函数𝑔(·)  ,生成当前时间步的隐藏状态:

     

    随后,时间步𝑡的输出    可表示为:

     

    其中        分别代表相关联的权重和偏置项。激活函数𝑔(·)(通常为softmax或sigmoid函数)被应用于隐藏单元状态的线性变换,以生成最终的输出。上述计算过程的可视化表示见图16(B)。通过其反馈连接,RNN能够维持捕获先前时间步信息的隐藏单元状态,从而获得处理序列数据并捕捉时序的能力。此外,与CNN等其他结构不同,RNN及其变体具有处理和输出可变长度序列的灵活性,使其可应用于涉及动态长度数据的过程(这是现实监测应用中的常见特性)。

    LSTM和GRU是为解决传统RNN训练过程中普遍存在的梯度消失问题而开发的两种流行RNN变体。LSTM和GRU都使用门控机制来选择性地存储或丢弃内部记忆信息。这些机制使LSTM和GRU能够捕捉数据中的长期依赖关系,同时缓解梯度消失问题。LSTM由Hochreiter和Schmidhuber1997提出,现已成为使用最广泛的RNN变体之一。LSTM通过额外的内部单元状态表示长期记忆,并采用三个门控机制来调节信息流:输入门选择性地用单元网络输入的新信息更新记忆单元,同时阻止无关信息添加到现有记忆状态;遗忘门选择性地从记忆单元中移除无关信息;输出门选择性地将相关信息从记忆传递到下一个隐藏状态和输出,有效控制整个网络的信息流动。GRU是Chung等2014提出的较新RNN变体,作为LSTM的简化版本,它使用两个门控机制:更新门决定新输入应在记忆单元中存储多少,遗忘门决定应遗忘多少先前的记忆  

    除这些变体外,双向RNN架构也得到深入研究——以增加计算资源为代价,将前向时间步处理信息的两个RNN隐藏状态相结合,使网络能同时捕获过去和未来的上下文信息。尽管很受欢迎,RNN及其变体在计算效率方面存在重大局限。这种局限源于RNN计算的顺序特性Kolen & Kremer, 2001。对于序列数据处理任务,RNN并行计算的低效性可能成为主要限制,特别是在处理大规模数据集时。由于其计算涉及顺序依赖和隐藏状态,RNN需要大量时间和计算资源来处理每个数据点(尤其是长序列或深层架构)。这种顺序依赖性也使得跨时间步的计算并行化具有挑战性,因为隐藏状态需要按顺序计算,严重限制了RNN利用GPU或TPU等并行处理架构的能力,导致监测过程出现进一步延迟和低效。  

    表7(受篇幅限制,可参看原文)展示了所综述文献。文献中普遍采用的方法是将基于物理的约束直接整合到RNN架构中,即设计将物理模型作为架构内在组成部分的神经网络架构。这可以通过在神经网络中加入物理方程或约束作为附加层(与传统神经网络层一起训练)来实现。例如Yu等2020b通过在特定RNN单元中嵌入物理信息残差块来增强RNN结构,用于结构动力学仿真。残差值表示预测与已知物理规律的偏差。在他们的工作中,残差块旨在精确建模动态系统各时间步间的不一致性,并通过所提出的RNN进行迭代最小化(如图17所示)。Chen等2022a提出了一种涉及LSTM的轴承故障检测和预测架构,该方法被称为退化一致性RNN。该网络通过整合机械部件的单调退化行为实现物理信息嵌入。作者通过在网络中引入表示时间退化量的中间变量(嵌入LSTM单元内)来强化轴承退化行为的不可逆性。他们还实现了物理信息损失函数,在训练阶段根据标记数据评估性能,并通过物理信息项(基于中间退化变量)预测任意状态的观测退化量,进一步强化LSTM表征的底层物理规律。

    图17 通过将物理信息融入到RNN单元中的深度残差RNN,源自Yu等(2020b)  

    近期流行的方法是基于RNN的累积损伤建模。Nascimento和Viana2019首次采用RNN模型来捕捉机群的时间动态特性。作者通过将基于物理的模型元素(称之为欧拉积分单元,如图18所示)直接整合到RNN架构中,将相关机器的物理领域知识融入模型。采用欧拉前向方法,作者将离散化的系统状态表述为先前系统状态和输入向量的函数。在这个特定实例中,基于控制裂纹扩展的帕里斯定律,在传统RNN架构的单元内加入了物理信息层,以建模影响裂纹扩展的机械因素。与传统数据驱动模型协同工作,物理模型估计应力强度因子范围。这两种模型与RNN单元的结合,实现了对样本时间动态和累积损伤的精确预测。在发表该成果后,作者还采用相同模型在有限观测条件下预测飞机的疲劳裂纹扩展长度Nascimento & Viana, 2020  

    图18 通过欧拉积分将物理特性融合到RNN单元中,源自Viana等(2021)  

    后续其他作者的工作对该框架进行修改用于不同场景。例如,Yucesan和Viana2019, 2021a, 2022的研究应用该框架的修改版来建模风力涡轮机轴承的疲劳,其中数据驱动模型与已知物理规律结合,用于预测润滑对失效的未知影响。通过在单元内结合数据驱动元素以及Palmgren-Miner准则等基于物理的层,作者试图通过组合网络来表征轴承疲劳与润滑退化之间的关系。为此,网络结构设计考虑了两种退化行为的参数,并准确表征了每种退化形式相对于另一种形式的特点。作者进一步创新该模型,将其应用扩展到润滑退化过程引入不确定性的案例YucesanViana, 2020a, 2020b, 2021b  

    Viana等2021提出了一种利用该模型估计缺失物理量的方法,其中采用数据驱动层来近似物理模型的不确定行为。值得注意的是,Viana等2021选择将RNN架构作为常微分方程的纯物理解决方案,并增加一个数据驱动节点来量化已知物理与观测结果之间的差异。作者通过多个案例研究验证了该方法,包括基于既定物理模型的疲劳建模:用于疲劳裂纹扩展的帕里斯定律、用于疲劳裂纹扩展的Walker方程以及用于疲劳寿命预测的Palmgren-Miner准则。  

    Dourado和Viana2019探索了这种混合RNN架构应用的另一个方向,他们采用类似框架来预测腐蚀效应的系统累积损伤。在他们的工作中,RNN的结构设计用于表示帕里斯方程,其中应力强度因子由物理方法确定,其余参数由单元内的数据驱动前馈模块确定。作者后来扩展了他们的工作,引入数据驱动补偿器来修正Walker裂纹扩展模型,其中采用数据驱动层来建模由于腐蚀导致的损伤累积偏差Dourado & Viana, 2020。累积损伤模型也被广泛应用于锂离子电池的退化行为建模例如,基于他们之前的工作,Nascimento等2021a修改了现有框架以符合Nernst和Butler-Volmer方程,并在单元内加入多层感知器模块来表征模型形式的不确定性。该方法侧重于基于Nernst和Butler-Volmer方程构建降阶模型。与Viana等2021类似的想法,作者在他们修改的RNN单元结构中采用了多个数据驱动模块,以补偿已知物理与观测到的设备退化之间的偏差。作者进一步扩展了他们的工作以扩大应用范围。在Nascimento等2021b的工作中,将其应用于全机群数据集,从而识别偏离已建立机群标准的设备。而在Giorgiani do Nascimento等2023的研究中,作者通过基于新证据或信息修正假设或信念概率的贝叶斯更新策略,进一步扩展了该模型以处理设备历史使用数据不完整的情况。Kim等2022c将累积损伤框架应用于锂离子电池状态预测,在他们称为知识融合RNN的模型中实现。在他们的模型中,通过基于电池容量双指数模型的物理信息模块进一步修改了循环单元。此外,作者还在嵌入RNN单元的数据驱动前馈网络中引入了蒙特卡洛丢弃,以确保性能估计的鲁棒性和可靠性。

    4.4.4 图神经网络

    物理信息架构的另一个例子来自于图神经网络(GNNs)的结构组成。GNNs是一类能够处理图结构数据的深度学习模型,最初由Scarselli等(2008)提出这个概念。GNNs由节点和边组成。在这种表示中,网络内部的节点表示实体,边表示实体之间的连接或关系。该结构的示意图如图19。

    图19 GNN架构及其关键组件与信息流的示意图:GNN基于图结构数据运行,使其能够在复杂关系型数据集中实现高效的分析、推理和学习任务。

    对于图    ,其中    表示节点(亦称顶点),    表示边,每个节点可表示为    ,并具有特征向量    。GNNs的操作可定义为通过聚合邻节点信息来迭代更新节点特征向量表示,并利用这些更新后的表示进行预测或分类的过程。采用信息传递机制,节点与邻居节点交换信息,使其能够根据接收到的信息更新特征向量。该操作与CNN中应用的卷积操作类似,因为这两种操作都有效地聚合和处理相邻的实体,以更新该实体的值。每个节点使用一个可学习的函数来聚合来自其邻居的信息,该函数同时考虑了节点特征和边权重。然后将这些信息传递给每个节点的邻居。这可以理解为:对于每个节点    ,通过使用一个可学习的函数    聚合来自其邻居    的信息来计算信息向量    

     

    其中    是节点        之间的边特征向量,    是可学习函数,它将第    层输入的特征映射到第    层的结果信息。随后,每个节点通过在前一过程中从邻居节点接收到的信息与自己的原始表示相结合来更新自己的表示。这可以表示为通过将前面的特征向量与聚合信息相结合,计算每个节点    的新特征向量    

     

    上述信息传递和更新步骤会在固定数量的层中重复执行,直至为图中的每个节点获得最终表征。最终节点特征随后可用于下游任务(例如节点分类或链接预测)。函数        可以是任何可微分函数,并随具体应用而变化。在GNN中,通常使用深度学习结构(如前馈神经网络或GNN)来近似这些函数,并可通过训练期间的反向传播进行学习。通过这种连接架构,GNN能够捕获图中实体间的复杂关系(例如图的局部和全局结构),从而实现对图结构数据的精准预测及多样化任务处理。表8汇总了相关文献。GNN的固有结构使其能够处理图结构数据,因此特别适用于现实系统中的应用场景——这些系统的行为由各组件间复杂相互作用且可自然表征为图结构。

    表8 基于物理信息的GNN架构的应用的文献总结

    GNN的固有结构使其能够处理图结构数据,这使其适用于各种现实系统中的应用场景,这些系统的行为由各组件间的复杂相互作用决定,并能自然地表示为图。特别是,GNN已成为电力系统建模中的一种强大方法,适用于电力系统状态估计、负荷预测、故障检测与诊断以及最优潮流估计等应用(Gao等, 2020; Liao等, 2021; Yu等, 2022; Zhu等, 2022b)。GNN在电力系统建模中的普及性可归因于电力系统本身也具有内在的图状结构,由互连的节点(如发电机、变压器和负荷)和边(如代表功率与信息流动的输电线路和电缆)组成。例如,de Jongh等(2022)通过物理信息GNN在其研究中监测并进行了状态估计。电力系统以电网拓扑的形式展现出底层的不规则结构,这种结构可以用数学方法表示为图。由于这种结构,GNN等几何深度学习方法因其固有结构而适用。de Jongh等(2022)提出了一个通用框架,该框架使用几何深度学习技术和物理信息损失函数来解决电力系统中的潮流计算和状态估计任务。该框架在具有不同传感器渗透率的模拟中压电网拓扑中表现良好。Li和Deka(2021b)进一步提出了一种物理保持图网络,用于估计电网系统中的故障位置。该两阶段框架在有限数据条件下提供了节点故障位置的精确估计。通过一种新型可调邻接矩阵(稀疏故障电流通过该矩阵聚合),框架的第一阶段近似结构的拓扑;而框架的第二阶段则学习可观测数据与不可观测数据样本之间的相关性。Xing等(2022)调整了物理信息GNN框架以改进输电线路中的故障定位。作者通过建立已知故障类型的图结构,将故障类型与位置之间的固有关系整合到测量的模电压和模电流中。

    4.4.5 生成式深度学习网络

            生成对抗网络(GANs)是一类ML模型,旨在自动发现并学习训练数据中的规律,使得模型能够生成可能属于所提供数据集的逼真数据样本。GANs由两个在竞争环境中共同训练的神经网络组成:生成器网络主要学习生成与所提供训练数据相似的样本,  判别器网络学习区分生成的样本与真实训练数据(Wang等, 2017)。生成器网络以随机噪声或隐向量作为输入并生成合成数据样本。随着训练过程的推进,生成器网络逐渐学会生成越来越接近训练数据分布的逼真样本。判别器是二元分类器,其输入来自训练集的真实数据样本和生成器的合成样本,旨在区分真实样本与合成样本。随着生成器学会生成更逼真的样本,判别器网络也变得更擅长区分生成数据与真实数据,从而为生成器网络提供更具信息量的反馈。GANs的训练目标可被框架化为生成器与判别器之间的极小极大博弈:生成器旨在最小化判别器区分真假样本的能力,判别器则旨在最大化其判别准确率。该目标通常表述为最小化真实数据分布与生成数据分布之间的 JensenSh度或Wasserstein距离。该迭代过程持续进行,直至生成器网络能产生与真实训练数据无法区分的样本(Goodfellow等, 2020)。表9汇总了相关文献。
    表9 基于物理信息的GAN架构的应用的文献总结

    通过利用系统的底层物理规律,物理信息GANs已被用于生成可补充现有观测或测量数据的合成数据,从而实现更精确的建模与预测。其功能核心在于通过应用物理定律约束生成样本。Xu和Noh(2021) 提出了名为物理信息多源域对抗网络的框架,用于建筑物结构损伤的无监督识别。该方法采用多源域适应框架,从多个源域提取域不变特征。作者提出新型损失函数,额外考虑源域与目标域间的相似性,并优先从相似源域进行知识迁移。Sun等(2022) 提出循环GAN模型 ,在网络中嵌入滞回行为的物理规律以增强可用数据。具体地,作者旨在捕捉多轴加载下试件半寿命循环的滞回环与相应疲劳寿命的关系。通过傅里叶变换和半经验方程约束,生成符合真实疲劳行为分布特征的合成数据。利用动态时间规整算法及表征疲劳寿命与加载、应变加载、应力响应关系的半经验方程,剔除违背物理原理的样本。通过数据增强,使用试件的多轴疲劳寿命数据训练多个知名ML模型(包括前馈网络、随机森林、支持向量机和极限梯度提升算法),证明精度显著提升。 Zhou等(2023a) 针对齿轮故障诊断中 特定故障模式标记数据的高成本限制,提出卷积GAN模型扩展训练数据。该框架利用大量未标记训练数据中的故障特征生成代表新故障数据的样本,有效扩展深度卷积GAN的预测空间,从而推导已知与未知故障间的物理关联。  

    该框架也被广泛用于不确定性量化(UQ),典型方法是在已知不确定性的数据上训练网络,使GANs生成具有关联不确定性的合成数据样本。生成样本可用于估计和量化ML模型预测的不确定性,并通过生成覆盖所有可能具有不确定性的多样化数据样本以提升UQ方法的鲁棒性与可靠性。 Yang和Perdikaris(2019)将GAN架构用于PINNs中PDEs相关不确定性的量化与传播。受限于数据获取,作者提出基于先验知识(通过控制微分方程)的不确定性传播方法,利用隐变量模型获取系统状态的概率表示。在隐变量模型中,观测变量受一个或多个隐变量影响(这些隐变量未被直接观测但被假定为观测变量间关系的基础)。通过对抗推断过程训练模型,在深度GAN络的优化阶段以物理信息损失函数形式融入物理约束,使得小数据集训练成为可能。通过最小化反向Kullback–Leibler散度的误差近似解,确保预测结果与已知物理规律一致。作者利用物理信息约束作为正则化机制,训练深度生成模型生成物理系统代理,有效规避数据获取问题并通过表征物理系统输出的不确定性验证方法有效性。Zhou等(2022)将物理信息GAN整合至系统可靠性分析框架中。基于系统状态概率对网络结构进行建模,并对可靠性演化模型的控制方程进行编码。作者通过前向Kolmogorov方程的推导逐时间步表征系统性能,并将系统可靠性视为功能状态概率的集 合。进一步提出用于可靠性评估UQ的GAN网络:生成器基于系统状态概率导数或定义的状态转移生成合成数据,并受初始条件或系统持续运行观测数据约束;判别器生成数据置信度估计。两者通过竞争性损失函数正则化并在对抗环境中训练。特别地,生成器根据领域知识加入基于物理的正则化损失项。通过数值算例验证方法有效性,结果显示该方法与传统Runge–Kutta和蒙特卡洛模拟结果相似。

    5 讨论

    以上综述了107项研究,其总体目标是讨论和总结流行的PIML学习框架,并将其应用于异常行为和或工况的设备监测。在文献调研的工作中,基于物理的方法和数据驱动模型之间的集成方法被细分为四个不同的类别,如第4节所讨论。  

    5.1 阐释与展望  

    如图20(受篇幅限制,可参看原文)所示,展示了本综述所调研文献的分布情况。饼状图阐明了PIML在CM领域内不同研究方向的出版物分布。在调查的文献中,大量研究(36篇)采用基于物理的技术修改机器学习模型的输入特征空间,通过观测偏差引入物理知识。对输入空间的修改间接允许模型通过限制不符合物理原理的映射来学习物理一致性关系。此类实现因其简单性和易操作性广受欢迎。  

    文献显示,这类集成主要涉及两种方式。第一种是物理模型驱动的输入数据生成或特征空间增强21研究旨在生成合成数据或使用基于物理的方法创建新物理特征5研究使用基于物理的方法筛选判别性特征。尽管方法多种多样,但与上述方法的一个共同点是定制了特征空间,以便与传统的ML和深度学习模型一起使用。第二种是迁移学习框架下的物理知识集成。10项研究利用迁移学习理念,在已知源域预训练模型后针对目标域微调。绝大多数研究将源域定义为已知物理域,并通过知识迁移捕获可复用的物理规律;Guc和Chen(2021, 2022)的研究是个例外他们依赖源域的预训练特征,并在微调阶段融入物理知识。许多学者使用该框架来补充可用的数据和增强ML学习空间,以提高性能和鲁棒性。  

    就该技术的局限性而言,尽管易于实现且效果明显,但这种实现方式在学习过程中并没有直接纳入任何物理约束,导致了一种幼稚的黑箱模型,可解释性极低。虽然特征工程可能会间接限制模型对物理违例的处理能力,但在学习过程中没有强制执行任何约束。此外,该方法对物理模型的完整性与可靠性存在依赖,需确保生成特征的真实性。基于物理的约束虽可优化学习空间,但也会引入对特定物理方程对齐模式的偏向,可能忽视偏离预设物理框架的有效解。这种观测偏差可能限制算法在物理规律变化或未知场景中的适应性与泛化能力,且可能延续物理模型中的固有偏差,限制对新颖现象或非常规数据模式的探索。因此,该方法不适用于底层物理机制不明确的复杂系统(因其难以通过预定义特征捕获现实现象的复杂性)。  

    另一集成物理知识的方法是将数据驱动模块与物理模型协同应用,使数据驱动模型作为校正机制补充纯物理决策。有3项研究采用此形式。虽然该技术在上述文献中已经证明了一些成功,但使用ML作为物理模型的校正机制的作用并不是没有限制的。与大多数纯粹的数据驱动模型一样,该策略的一个主要局限是它无法捕获在它们所训练的领域中不存在的行为。在这种模式下,ML模型独立于基于物理的模型运行,直接导致在训练数据不能准确捕捉系统真实物理的情况下,作为物理系统误差的特征,ML算法可能会学习修正物理模型中的误差,但可能无法准确捕捉潜在的物理现象。关于物理与数据驱动模型的集成,另一个主要的限制来自ML模型的目标学习空间。由于ML模型学习的是系统的误差,而不是系统本身的误差,因此很难保证得到的修正量具有物理意义。在某些情况下,ML算法可能会识别数据中与底层物理无关的模式或关系,从而导致错误或虚假的修正。  

    近年来,通过多项开创性贡献,该系统的物理知识已与神经网络强大的逼近能力结合使用。训练神经网络的传统方法包含两个步骤:首先由神经网络生成初始预测,随后通过某种形式的距离评估(以损失函数形式衡量神经网络预测与先验知识的差异)进行优化。在监督学习方法中,优化过程始终围绕标记数据执行;该既定方法论自其诞生以来未发生改变。近期,部分研究者通过引入物理信息正则化对此过程进行创新。传统正则化方法(如L1或L2正则化)已被广泛应用于机器学习模型,作为解决过拟合问题并提升模型泛化能力的ML与统计建模方法。通过在损失函数中增加惩罚项,该方法有效权衡了模型对训练数据的拟合度与复杂度。  

    通过物理信息正则化,模型不再通过限制复杂度受惩罚,而是通过引入基于物理的损失项对其偏离物理原理的行为进行惩罚。38项研究采用这种正则化形式作为其方法论。正如Karniadakis等(2021)所述,基于物理的正则化通过学习偏差引入对底层物理系统的认知。深度学习架构的预测可通过多个优化周期内损失函数的迭代引导与已知物理规律保持一致。此外,有32项采用此方法论的研究利用基于物理的正则化求解控制常微分方程或偏微分方程。通过自变量输入,神经网络试图预测未知变量。利用自动微分,基础神经网络对变量的预测可用于重构微分方程及初始或边界条件。这些重构随后以损失函数形式评估,部分研究选择同时包含与标记数据相关的损失。Raissi等(2019)在该领域的早期研究使用传统前馈网络,但基于物理的正则化框架已迅速扩展至其他深度学习架构(6项研究)。CNN和RNN因其分别捕获空间与时不变特征的能力被采用,自编码器则因其无监督学习能力被应用。如上述研究所示,该方法的一些优势是显而易见的。  

    该形式的普及代表了一种在神经网络优化过程中融入物理原理先验知识的有效方法,且其相对于传统“朴素”方法的优越性已在多篇研究中得到验证(Haghighat等, 2021; Raissi等, 2019)。所构建模型对学习可用数据的依赖程度较低,使作者能减少训练深度学习架构的数据需求,并提升模型对噪声或不完整数据的鲁棒性。实际上,部分研究(8项)在优化过程中仅使用纯物理损失项。当可用数据有限时,以此形式训练模型可能具有优势。此外,由于不依赖数据,该方法降低了对噪声或不准确数据的敏感性。总体而言,数据驱动损失项还可通过训练期间的额外引导提升收敛性、稳定性及对未知数据的泛化能力。这类方法的局限性在于,PINNs的计算成本(尤其是采用深度学习结构的PINNs)可能因神经网络架构的复杂性和训练涉及的高维参数空间而显著增加。尽管具有潜力,PINNs在多数情况下可能无法超越传统数值分析方法(如有限元和时间推进算法),尤其是在这些传统方法已被深度优化的成熟问题上。维度灾难对PINNs构成另一挑战——在高维系统中,训练计算成本随输入维度数量呈指数级增长。此外,PINNs可能难以实现高数值精度(尤其在精确边界条件至关重要的场景中),部分归因于缺乏适当的正则化技术。在PDEs形式未知或存在性不确定的复杂系统中,PINNs可能引入数值分析偏差,导致错误结果与结论。尽管PINNs为从高保真模拟器(运行成本高昂)中快速学习动力学提供实用方法,但这种加速学习过程可能为计算效率牺牲精度。此外,PINNs在有效捕获模型不确定性方面可能面临挑战(尤其在数据有限或观测噪声较大的场景中)。尽管存在这些限制,当前研究正通过集成领域知识、探索新型正则化技术及与传统数值方法混合等手段应对挑战并提升PINNs的鲁棒性与可扩展性。  

    需注意的是,维度灾难对PINNs和GPs等传统ML算法均产生显著影响,严重制约其计算效率与精度。对PINNs而言,深度学习模型的复杂度随维度数量呈指数级增长,导致参数量激增,进而增加训练计算成本与数据需求。高维PDEs加剧了这些困难,因网络深度与架构复杂度需相应扩展,导致训练时间延长及过拟合/欠拟合风险上升。根据所求解问题,物理正则化器的加入可能整体增加损失函数的复杂度。当前优化方法主要依赖梯度下降及其变体(网络沿损失最小化方向逐步调整参数)。损失函数复杂度的增加(如局部极小值的出现)可能进一步阻碍优化过程。Krishnapriyan等(2021)的研究指出了基于物理正则化的这一特性——引入软正则化项会导致模型复杂度特征。该复杂性阻碍了PINNs在许多高维场景中的实际应用。Yang等(2020)的研究将物理信息生成对抗网络(PI-GANs)作为应对随机微分方程求解中高维挑战的有效方法。其研究证明该方法在30维问题中具备精度与有效性,表明此类创新可能缓解PINNs的维度灾难。该研究强调:传统PINNs虽在高维空间中表现不佳,但结合对抗训练方法可帮助管理复杂度与计算量,从而提升PINNs在高维问题中的可扩展性与适用性。类似地,GPs等经典ML算法在处理物理问题固有的高维复杂PDEs时也面临相同问题。对GPs而言,维度灾难主要表现为需对协方差矩阵求逆(该过程计算复杂度与数据点数量呈立方关系)。随着维度增加,计算成本与内存需求将变得不可行,使GPs无法大规模或高维场景。这种可扩展性问题是主要瓶颈,限制了GPs在常见高维输入的现实CM应用中的使用。此外,探索创新计算方法(如Zhou与Zhang(2021)在电力系统数据驱动暂态稳定预测中使用的量子TSA方法(2022))表明:创新型计算手段可为高维挑战提供可扩展的高效解决方案。尽管不直接相关,这表明了解决此类高维问题的潜在路径。  

    关于数值精度,尽管PINNs具备将物理定律直接融入学习过程的灵活性,但其对边界条件和PDEs解的逼近可能无法始终达到预期数值精度。在许多复杂系统中,PDEs的精确形式可能未知或不存在。在此情况下,PINNs可能在数值分析中引入显著偏差,影响预测精度。逼近质量高度依赖于网络架构、优化过程及边界条件施加方式,可能导致不准确性(尤其在边界或复杂边界条件处)。数值精度与边界条件施加带来额外挑战:对PINNs而言,尽管物理定律的集成具有优势,但其无法保证精确数值精度(尤其对复杂边界条件)。该限制系统建模与预测中的重大误差。对高斯过程而言,数值精度问题表现不同:GPs通常提供平滑连续预测,但难以处理精确边界条件与域内尖锐不连续或奇点。适当核函数与均值函数的选择可缓解部分问题,但实现复杂/非线性边界条件的精确拟合仍具挑战。该限制阻碍了GPs在需要高精度边界条件建模的领域中的应用。  

    此外,通过物理信息损失函数,基于物理的损失项在网络违反物理规律时充当惩罚机制,但其未被强制为刚性约束。这在涉及标记数据惩罚项的混合损失函数中可能成为问题(因数据不准确性可能导致相应损失项在混合损失函数中占主导地位)。就基于物理的正则化及PINNs总体而言,由于物理损失未被严格强制,网络仍可能产生物理违规或偏离预期物理行为。在探索PINNs与随机投影结合的案例中,尽管对结合这两种方法以提升计算效率存在显著热情,但近期文献中明确强调PINNs与随机投影集成的直接案例稀少。然而,随机投影本身在降维领域已确立地位,并被认为具有提升高维数据处理计算效率的潜力。集成随机投影与PINNs的基础原理在于随机投影可提供的理论与实际计算复杂度降低。该理念根植于利用随机投影的效率管理PINNs常处理的高维数据。这对由PDEs建模的复杂物理系统(常见高维输入空间)尤为重要。Li等(2006)的研究中讨论的稀疏随机投影技术展示了随机投影在处理高维数据时显著的计算效率与最小信息损失潜力。该概念与PINNs的结合为未来研究指明方向(整合两者优势)。Fabiani等(2023)在该领域的研究提出一种用于求解非线性常微分方程(ODEs)和一阶微分代数方程初值问题的PIML方案。该方法利用随机投影,重点通过牛顿迭代估计从隐层到输出层的权重。为解决最小二乘问题的不适定性,该方案对低维系统采用奇异值分解,对高维系统(如PDEs空间离散化产生的问题)采用带正则化的稀疏QR分解。超参数选择(包括高斯核形状参数均匀分布边界和积分区间)受偏差-方差权衡概念指导,并辅以基于局部误差控制算法的变步长方案。该方案有效性已通过七项基准问题评估。与传统MATLAB求解器的对比分析表明该方案可作为可行替代方案(Fabiani等, 2023)。  

    另一个应对复杂性的有前景路径(尤其当控制PDEs的形式与存在性存在不确定性时)可能在于无方程方法所概述的原理。无方程建模是复杂系统分析中的一种计算方法,用于传统描述系统行为的方程难以推导或无法推导的场景。该方法不依赖显式数学方程,而是利用仿真数据和数值算法研究系统动力学。其核心思想是:通过短时详细仿真收集系统状态信息,并应用该信息指导整体分析与预测。该方法允许对基于细尺度相互作用构建的模型进行直接宏观干预,有效绕过详细宏观描述的推导(Kevrekidis等, 2004; Kevrekidis & Samaey, 2009)。它通过计算实验和无矩阵数值分析在宏观尺度探索系统行为,适用于控制动力学未被充分理解或过于复杂而无法用传统PDE公式描述的系统。  

    流形学习技术与多尺度分析结合,为理解超越经典PDE模型能力的系统动力学提供了新方向。这些技术专注于识别高维数据中的底层几何结构,将复杂动力学简化为更易处理的低维表示(如多篇研究所讨论)。例如:关于潜在空间特征发现,多位学者尝试整合流形学习。与传统方法假设线性或强加特定结构不同,流形学习是用于理解复杂高维数据底层结构,旨在捕获数据固有几何(通常表示为高维空间中的低维流形)。通过揭示该流形,流形学习技术实现可视化、降维与特征提取(对模式识别、聚类和数据探索至关重要)。Galaris等(2022)在晶格玻尔兹曼模型PDEs仿真中将PIML与流形学习结合,采用 简约扩散映射和留一法交叉验证识别流形本征维度,为参数空间特征选择提供高效方法(用于分析晶格玻尔兹曼仿真的数值分岔)。该方法展示了结合先进机器学习技术与计算物理以增强复杂系统理解和分析的潜力。Burbulla(2023)通过引入微分同胚在PINNs中集成几何变换,实现包括阿基米德螺线上Eikonal方程求解、表面流形泊松问题、变形管中不可压缩斯托克斯流模拟及拉普拉斯算子形状优化等应用的鲁棒几何适应。Vaquero等(2024)将Hamilton-Jacobi PDE视为优化问题,利用ML技术近似解,提出在可积泊松流形上构建保持泊松几何的泊松积分器设计方法(基于泊松微分同胚与拉格朗日双截面对应关系)。Gracyk(2024)提出基于里奇流(Ricci flow)的流形自编码器方法,在物理信息框架下学习非线性动态(尤其是PDEs)。Krishnanunni与Bui-Thanh(2022)提出流形正则化的分层稀疏训练方法,展示其在神经架构适应中的有效性。  

    流形学习与多尺度数值分析方法的融合为传统PDEs失效的系统建模提供了潜在框架。Roberts等(2022)的无方程分块策略通过在小尺度分块上的计算实现大规模仿真(如异质弹性梁仿真),展示了无需详细宏观方程的高效多尺度仿真潜力。这些方法的应用标志着复杂系统分析范式的转变,为传统PDE模型不适用或不可用的系统提供了强大工具。  

    另一方面,学者们也尝试通过设计神经网络架构整合刚性约束。34项研究提供了将物理原理作为深度学习计算过程组成部分的创新方案。该方法通过将计算过程嵌入深度学习框架提升了可解释性——网络参数与输出可直接量,便于理解与验证预测。创新涵盖以下架构:传统的前馈神经网络(4项研究),CNN(9项研究),RNN(17项研究),GNN(3项研究)和(5项研究)。架构设计方面,多数研究通过中间节点/层赋予物理意义或采用约束优化(Chen & Liu, 2021)。除物理信息层外,许多研究还采用物理信息正则化为优化过程提供额外指导。部分研究(如Chen等, 2023)采用特定激活函数。前馈网络中,学者提出可解释层以阐明数据驱动模型的计算过程(物理意义赋权)。这种方法代表了一种基于物理的特征提取的替代形式。在结构健康监测振动数据应用中,传统信号处理技术(如傅里叶变换、包络分析和小波变换)被嵌入NN层作为物理信息特征提取手段。类似地,CNNs执行符合已知物理的计算过程进行特征选择或提取。  

    尽管上述框架与第3.1节讨论的单纯调整输入特征空间存在诸多相似性,但将预处理阶段整合至网络内部具有多项关键优势。首先,该框架本质上是一个端到端学习范式,整个网络(包括预处理阶段)均被整合至学习过程中。该设计的优势在于:网络能够同时适应并优化预处理与后续特征提取过程,从而消除手动特征工程的需求。此外,所得网络架构嵌入了物理知识,由于网络行为被强制与已知物理原理对齐,因此更具可解释性。通过显式建模和考虑特征提取过程中可物理建模的因素,网络能够学习提取更可靠且不变的特征,从而在富有挑战性的情况下实现性能提升。  

    网络架构设计也已被探索,如Ni等(2022)的研究所述——其引入分支网络以独立求解多个预定的物理关系。如Ni等(2022)和Haghighat等(2021)所述,尽管技术上可通过足够宽的网络层求解多个物理变量,但在关系可独立建模的情况下,分支网络分别建模各变量通常计算效率更高、精度更优。多项研究聚焦于RNN结构,将物理信息主要嵌入RNN单元的计算过程中。该领域的主要贡献者包括Nascimento和Viana(2019)率先使用欧拉积分单元在RNN单元中嵌入裂纹扩展物理机制,作为累积损伤建模的表征。该模型后被扩展至损伤时域传播建模及模型形式不确定性分析(Viana等, 2021; Yucesan与Viana, 2020b, 2021b)。在所调研的研究中,有14篇采用了此类整合形式。其他工作,如Yu等(2020b)的研究通过引入深度残差RNN进行了改进,这最初是由Kani和Elsheikh(2017)提出的。利用系统的嵌入式物理动力学更好地捕获依赖关系,并提高模型在更长的时间范围内做出准确预测的能力。3项研究采用GNN,利用其固有结构更好地建模和处理图结构数据(尤其在电力系统中广泛应用)。与传统神经网络不同,GNN通过图表示处理非欧几里得数据——图中节点代表实体,边代表实体间关系。GNN的独特结构不假设空间局部性(该假设常用于CNN,设计用于网格数据如图像)。此特性使GNN可处理任意尺寸和复杂拓扑的数据结构。5项研究主要涉及GANs的优化,其中,2项研究将GAN作为自动框架生成物理合理合成数据,而其余3项利用GAN表征和量化ML模型预测的不确定性。  

    通过将物理模型嵌入网络架构,物理原理得到了实行,从而通过架构本身实现理论的一致性。然而,与所有学习算法一样,模型解释细节的精细度与模型计算量之间存在权衡。除了所需的领域知识外,将物理原理整合到深度学习模型中会增加其复杂性。根据具体实现,物理信息架构可能比传统深度学习模型需要更多计算资源,这在需要计算速度的应用中可能成为限制因素。Viana等(2021)在其研究中已指出该限制——嵌入的物理模型复杂性可能变得难以驾驭。延伸而言,潜在进一步研究的路径可能是通过引导性简化或降阶模型来调整此类复杂模型。通过此形式引入的归纳偏置也可能限制学习模型,因其对数据和学习过程施加了强假设。尽管通过偏置施加的刚性约束可能通过显式指导提升效率,但也可能限制模型捕捉数据底层复杂性的灵活性和泛化能力。因此,必须仔细评估架构相对于其应用的适用性设计,以确保算法的有效性。  

    通过刚性约束和柔性约束的结合,研究人员已经能够定制当前的ML算法,以适应一些现实世界的CM应用的需求。目前的研究已经在准确性、对数据的依赖性、对噪声和/或不完整数据的鲁棒性等评价指标方面显示出巨大潜力。随着计算能力的持续进步,研究者能够应对更复杂、更现实的物理问题。增强的计算资源使更大规模、更全面的数据集探索成为可能,促进对原本隐藏的复杂关系与模式的发现。此外,更高的计算能力支持更精细的建模技术,使得准确捕捉以往难以处理的复杂物理现象和非线性动力学成为可能。  

    5.本综述的局限  

    本综述研究的局限性在于所调研文献的样本量。尽管PIML自诞生以来迅速扩展,但与其他技术领域相比,将PIML应用于CM系统的文献实例仍相对较少。本综述所概述的技术趋势与文献可能偏向某些作者或方法论,就CM应用而言,可能无法准确捕捉该技术的内在发展趋势。

    6 结束语  

    物理信息机器学习(PIML)方法为提升物理系统的预测建模提供了前景广阔的路径——其可通过利用底层基于物理的约束进一步增强传统数据驱动方法。通过将物理控制定律整合至学习算法中,PIML能够有效确定系统的非朴素且物理一致的表示,从而实现在训练数据之外的精确预测与外推。此外,PIML方法通过引导学习算法优先关注感兴趣区域并减少对大训练数据集的需求,促进了数据高效学习。物理定律的整合还增强了泛化能力,因为模型能自然处理外推并捕获不同条件或扰动下的行为。这项工作对这些方法进行了概述,重点是将物理知识集成到传统的机器朴素学习框架中的方法,以构建对系统底层物理原理具有更高理解深度与复杂性的预测模型。共计综述107篇文献,涵盖PIML在多个工程领域状态监测CM中的应用。在CM与故障检测的背景下,PIML方法利用已知物理原理与领域知识开发模型,以精确预测系统行为、检测异常并评估关键部件健康状态。通过这种整合,模型能更有效捕获系统变量间的复杂相互作用,从而以高灵敏度与特异性识别早期故障与异常。本研究详细探讨了当前将已知物理与ML方法整合的方法论,并根据系统物理知识的整合方式进行类别。此外,本研究综述了部分最流行的深度学习算法,简要解释其工作原理、固有优势及局限性。基于初步理解,本文详述了各学者研究中物理知识整合的最新创新。总的来说,确定了几个研究方向,包括物理引导的增强或特征空间,数据驱动的优化机制,物理指导的正则化,最后是物理引导的深度学习架构的设计。对每种研究途径的各种优势、缺点和局限性进行了解释,并就PIML范式与设备管理应用相结合的研究领域提出了建议。


    编辑:陈宇航
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈莹洁、王金、赵诚,肖鑫鑫
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除


    来源:故障诊断与python学习
    System振动疲劳非线性化学旋转机械形状优化通用航空建筑电力农业MATLABADSUG裂纹理论电机人工智能
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-05-21
    最近编辑:13小时前
    故障诊断与python学习
    硕士 签名征集中
    获赞 77粉丝 109文章 197课程 0
    点赞
    收藏
    作者推荐

    多视角故障诊断论文学习 | 基于自适应协同注意力融合网络的多视角旋转机械故障诊断

    天蓝风不燥,祝各位读者假期快乐。本期分享西南交通大学团队的论文投稿:基于自适应协同注意力融合网络的多视角旋转机械故障诊断方法。智能故障诊断作为保障工业系统安全与高可靠性运行的关键技术,近年来引发了广泛关注,并在方法研究层面取得了显著进展。然而,当前主流方法普遍依赖于单一视角的振动信号,较少关注多视角信号之间的共识性特征与互补性信息,限制了诊断性能的进一步提升。针对上述问题,提出一种新颖的多视角故障诊断方法—COFU(Co-attention Fusion Network),该方法基于协同注意力机制构建融合框架,旨在有效整合多视角信号中的判别性特征,从而提升旋转机械故障识别的准确性与鲁棒性。通过三种结构差异化的编码器分别对多个视角的输入信号进行特征提取,构建其对应的高阶特征空间;引入自适应协同注意力融合网络,以动态建模不同视角特征之间的深层关系,并学习统一的融合表示。本研究为多视角融合在旋转机械故障诊断中的应用提供了一种鲁棒性的解决方案。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Multi-view rotating machinery fault diagnosis with adaptive co-attention fusion network论文期刊:Engineering Applications of Artificial Intelligence论文日期:2023年5月论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0952197623003226作者:Xiaorong Liu, Jie Wang, Sa Meng ∗, Xiwei Qiu, Guilin Zhao机构:School of Computing and Artificial Intelligence, Southwest Jiaotong University, Chengdu, China.目录1 摘要2 引言3 相关工作3.1 单视角故障诊断方法3.2 多视角故障诊断方法4 所提方法4.1 问题表述4.2 所提框架概述4.3 视角特定编码器4.4 自适应协同注意力融合4.5 故障诊断5 实验5.1 数据集5.2 基准模型5.3 结果讨论6 结论1 摘要智能故障诊断是保障工业生产安全与可靠性的重要研究方向,近年来受到了广泛关注,并在故障诊断方法的发展方面取得了显著进展。尽管如此,现有大多数方法主要依赖单一的振动信号视角,忽略了信号在不同视角之间的共识性与互补性。为此,本文提出了一种新颖的方法——COFU,即基于协同注意力融合网络的多视角学习模型,用于旋转机械的故障诊断,该模型旨在充分挖掘多视角之间的一致性与互补特征。具体而言,首先采用三种不同的编码器分别提取多视角信号的高阶特征表示;随后构建自适应协同注意力融合网络,以学习融合特征表示,在此过程中充分考虑各特征空间之间的关联性;最后,设计基于融合表示的故障检测器,实现对故障类型的准确识别。为验证所提方法的有效性,本文在三个数据集上进行了全面评估。实验结果表明,COFU方法在上述数据集上的故障识别准确率分别达到100%、99.95%和100%。结果进一步显示,所提方法在噪声干扰环境下同样具有优越的诊断性能,显著优于所有基准对比方法。该研究为多视角融合在旋转机械故障诊断中的应用提供了一种具有广阔前景的解决方案。关键词:多视角融合,协同注意力,故障诊断2 引言旋转机械作为复杂工业设备中的关键组成部分,在工业生产中正扮演着日益关键的角色(Shi 等, 2023)。由于其长期运行于恶劣工况环境之下,其核心部件(如齿轮、轴承等)极易发生损坏(Ge 等, 2022;Zheng 等, 2023)。因此,旋转机械故障诊断因与设备运行的安全性与可靠性密切相关,而成为现代工业应用中的研究热点(Zhao 等, 2020)。在过去数十年间,已有大量诊断方法被开发并成功应用于多个工业过程与系统的故障识别(Lu 等, 2021;Wang 等, 2021c,b,a)。早期的故障诊断方法主要采用信号处理技术以抑制噪声与谐波干扰、增强信号特征,如小波变换(Yan 等, 2014)、经验模态分解(Lei 等, 2013)与变分模态分解(Dragomiretskiy 和 Zosso, 2014)。随后,专家通过频谱分析,从处理后的信号中识别故障特征频率。然而,这些方法往往依赖大量领域知识,难以保证诊断结果的稳定性与可靠性,因此具有明显的耗时性与高人力成本(Peng 等, 2021)。在过去几十年中,机器学习技术被广泛应用于故障诊断。典型的分类模型,如支持向量机(SVM,Widodo 和 Yang, 2007)、极限学习机(ELM,Luo 等, 2016)与朴素贝叶斯分类器(NB,Cai 等, 2017),能够不依赖人工知识,自动建立特征与故障类别之间的映射,从而实现诊断智能化,显著降低人工干预。一般而言,机器学习方法需借助特征提取技术从原始信号中提取有效特征以建立映射关系。常用特征包括时域与频域的简单统计量以及非线性评估指标,如分形维数(Yang 等, 2007)。然而,这些特征往往较为浅层,所包含的判别性隐藏信息有限,可能导致映射函数存在偏差,进而影响分类模型的泛化性能,甚至导致其退化。近年来,深度学习技术被广泛关注,并逐渐成为弥补传统机器学习方法局限性的有效手段(Rubio, 2021;Rubio 等, 2021;Jiang 等, 2023)。其显著优势在于能自动提取深层特征并从数据中挖掘隐藏信息。随着相关技术的迅速发展,深度学习方法已被广泛应用于故障诊断中(Zhang 等, 2022;Liang 等, 2022;Zhao 等, 2023),并取得了良好效果,部分经典神经网络结构也被引入到该领域(Anon, 2023;Liang 等, 2023)。目前,基于深度学习的故障诊断方法大致可分为单视角方法与多视角方法。如图1(a)所示,单视角方法通常依赖于原始信号变换后所提取的某一类特征。然而,来自不同视角的信息之间存在紧密联系,若能有效利用这些联系,模型性能有望进一步提升(Wu 等, 2022b)。但该类方法未考虑多视角融合对故障诊断可能带来的益处,导致诊断过程中缺乏全面线索。如图1(b)所示,多视角方法则联合利用多个视角中提取的不同特征,尽管可以提供更多信息,但往往难以充分建模这些特征之间的复杂语义交互。然而,这些交互信息对于多视角学习至关重要,它有助于在不同视角之间建立更紧密的联系,从而提供更全面的诊断线索。传统的多视角特征融合方法通常采用简单拼接策略,可能会引入无关甚至噪声信息。为解决这一问题,近年来引入了注意力机制,用以选择性地从每个视角中提取最相关的信息。尽管取得了进展,目前多数方法仍仅在编码器末端引入单一注意力层,这限制了对多种对象间交互关系的深入建模(Wu 等, 2023;Zhang 等, 2023)。为缓解上述问题,本文提出了一种渐进式深度协同注意力融合网络,以提升旋转机械故障诊断的性能,该方法被称为COFU。受到人类对多视角信息理解过程(如图文结合的多媒体新闻)的启发(Wang 等, 2020),COFU模型设计了一种自适应协同注意力融合网络,用于捕捉时间视角、频率视角和小波视角之间的复杂语义交互关系。通过这些视角间的迭代交互,COFU利用时间引导的频率注意力、频率引导的时间注意力、小波引导的时频注意力,以及时频引导的小波注意力,生成最终的跨视角融合表示。从根本上看,与传统的单视角和多视角方法不同,COFU在设计中引入了多视角之间丰富关联的初始建模机制,如图1(c)所示。在技术实现方面,本文提出了一种基于协同注意力网络的渐进式跨视角融合技术,用以捕捉不同视角之间的深层交互,以提升故障类别的识别能力。具体而言,首先通过三个特定的神经网络,从原始振动信号中提取时间视角、频率视角和小波视角的高阶特征表示;随后,构建自适应协同注意力融合网络,将三种独立的多视角特征进行渐进融合,逐步学习其交互信息;最终,利用融合网络最后一层输出的表示进行故障类别的识别。图1(a)基于单视角方法;(b)采用拼接操作的多视角方法;(c)考虑语义交互的多视角方法。本研究的主要贡献如下:1) 所提出的COFU方法利用自适应协同注意力融合网络,捕捉多视角表示之间的复杂语义交互,能够有效学习时间视角、频率视角与小波视角之间的深度依赖关系,相较传统融合方法在多视角学习中表现更优。2) 所提COFU方法在CWRU轴承数据集、SEU轴承数据集与SEU齿轮数据集上进行了评估。结果显示,在各数据集上的诊断准确率分别达到100%、99.95%和100%。此外,在Precision和Recall指标上,COFU亦优于当前主流方法。值得一提的是,即使在噪声数据条件下(SNR=4dB),COFU在三个数据集上的平均准确率仍可保持在95%,展现出其显著的鲁棒性与有效性。3 相关工作3.1 单视角故障诊断方法单视角故障诊断方法主要集中于将原始振动信号在不同变换域(如时域、频域与时频域)中的形式作为输入引入深度学习模型。Teager-Kaiser能量算子(TKEO)因其可直接在时域内计算,已被广泛应用于包括齿轮箱与轴承在内的机械故障诊断中。然而,仅依赖时域信息在准确判定故障性质方面存在一定局限性。为弥补该缺陷,研究者引入频域技术,用于提取信号中与故障相关的谱分量,从而提升诊断精度。Li等(2021a)提出了一种归一化频域能量算子(FDEO),用于断条转子故障的诊断。此外,将一维原始信号转换为二维图像所获得的时频输入方式也各不相同。Zhang等(2020)指出,单一的时域或频域分析方法难以有效提取关键特征,因而提出了一种基于时频图像的故障诊断方法。Kang和Kim(2014)提出了一种基于Shannon小波的二维灰度图像表示,用于感应电机故障检测。Yu(2020)则提出了一种集中型时频分析工具,用于轴承故障诊断。尽管单视角故障诊断技术因其简单有效而获得了广泛应用,并推动了智能故障诊断技术的发展,但仅凭单一视角所获得的信息仍不足以实现对模型的全面理解。为克服此局限性,多视角方法的研究与发展逐渐成为趋势。3.2 多视角故障诊断方法在多视角任务中,来自不同视角的特征整合始终是一个关键问题(Wang 等, 2023)。Abdul和Al-Talabani(2022)将其获得的线性组合拼接成特征向量,并采用SVM进行故障分类。Lu和Yin(2021)提出了CFCNet模型,在特征融合阶段采用特征拼接策略。Peng等(2021)则提出了一种基于GP与集成学习的多视角特征构建方法,用于滚动轴承故障诊断。此外,典型相关分析(CCA)是一种广泛应用的经典方法,其通过将两个变量映射到公共子空间中,以捕捉其间相关性。Jiang等(2022a)从多视角学习的角度出发,提出了一种基于CCA的特征增强型故障诊断框架。该框架能够识别相关性最强的数据投影对,从而增强特征学习能力。Zhu等(2021)进一步提出了一种谐波多视角典型相关分析方法(HMCCA),构建了一个用于轴承故障诊断的谐波相关特征学习模型。尽管上述多视角故障诊断方法已取得一定成效,但在多视角信息融合方面仍存在一定局限性。具体而言,特征拼接方法无法刻画复杂语义交互关系,而CCA在提取多视角数据高阶关联方面存在性能瓶颈(Li 等, 2019)。从本质上看,这些方法未能充分考虑多视角数据之间的共识性与互补性。针对上述限制,本文提出一种新型的多视角旋转机械故障诊断方法,融合协同注意力机制。与现有方法相比,本文所提方法在融合过程中引入渐进式机制,能够有效捕捉不同视角之间的交互信息。4 所提方法4.1 问题表述 如图2所示,模型的输入为一条信号,输出为故障类别。给定一维振动信号 ,我们对其进行若干信号变换操作,以获得多视角特征集 。具体而言,振动信号 直接作为时间视角特征 使用,无需任何预处理操作;为了获取频率视角特征,对 应用快速傅里叶变换(FFT),将其从时间域转换为频率域,得到频率视角特征 ;对于小波视角,则通过连续小波变换(CWT)作用于 ,得到小波视角特征 。 图2 COFU方法的流程图4.2 所提框架概述本文提出了一种新型的多视角旋转机械故障诊断架构COFU(Co-attention Fusion),该架构能够自适应地学习不同视角之间的共享语义。图3展示了所提方法的整体框架结构。如下所示,COFU架构由三个模块组成:视角特定编码器:如图3中部所示,在多视角特征提取过程中,时间域视角、频率域视角与小波域视角分别独立处理,其间的相互依赖关系未被建模。然而,这三者之间的内部关系对于全面理解信号所承载的信息具有关键作用。为此,本文设计了一个自适应协同注意力融合网络,以融合上述三个视角的特征表示。该方法有效增强了多视角特征的共识性与互补性。故障检测:如图3右侧所示,为实现对不同类型故障的识别,在完成第二模块中的多视角特征融合之后,提取出的深层特征向量被输入到一个包含两个线性层的故障分类器中,以完成最终的故障类型判别。 图3 所提出的多视角协同注意力融合网络(COFU)示意图4.3 视角特定编码器给定振动信号 作为时间视角特征,分别采用快速傅里叶变换(FFT)与连续小波变换(CWT)获取其对应的频率视角特征与小波视角特征。随后,为获取由三类特征构成的多视角表示,本文根据各自特性设计了三个神经网络编码器。4.3.1 时间视角编码器对于时间视角,特征 直接来源于振动信号 ,无需额外的数据预处理。随后,采用长短期记忆网络(LSTM)作为编码器,用于表示时间特征 。LSTM是一种循环神经网络(RNN)变体,旨在解决长时依赖学习的问题。形式化地,在时间步 ,记忆单元 与隐藏状态 的更新过程如下所示。 其中, 表示按元素相乘运算, 表示按元素作用的Sigmoid函数。 、 与 分别表示时间步 的输入门、遗忘门与输出门; 为时间步 的输入向量; 为仿射变换,依赖于网络的参数 和 。为同时捕捉时间域中来自过去与未来的信息,本文采用双向LSTM作为特征提取器。因此,在每一个时间步 ,由正向隐藏状态 与反向隐藏状态 拼接形成最终的时间特征表示。 上述过程用BiLSTM(⋅)形式化表示。本文使用BiLSTM(⋅)来获得时间视角样本的更高级别表示。这个过程可以表示为: 4.3.2 频率视角编码器对于频率视角,使用快速傅里叶变换(FFT)将每个样本样本从时间视图转换为频率视角。在此操作之后,本文也可以通过BiLSTM(.)获得频率视角的高级表示。对应的过程表示为 4.3.3 小波视角编码器为了获得信号 的小波视角特征 ,本文采用连续小波变换(CWT)操作。此外,卷积神经网络(CNN)在图像特征提取方面因其优越性而被广泛应用与认可。在故障诊断领域,一些研究(Liang 等, 2022;Wen 等, 2018)也已利用 CNN 的优势对图像内容进行编码。在本研究中,小波视角特征 的变换形式被视作图像信息,采用CNN对其进行编码,以便在多个尺度上提取局部特征。假设卷积层包含多个滤波器,其第 个输出由以下过程定义。将该过程记为 ,具体如下所述。 其中, 表示非线性激活函数,符号 表示卷积操作; 表示第 层中第 个样本对应的特征图;参数 与 分别表示第 层的卷积核权重与偏置项,是CNN模型需学习的参数; 表示CNN模型的层数。在本任务中,该过程可具体表示如下: 4.4 自适应协同注意力融合如前文所述,不同视角之间的相互依赖关系应被充分考虑,以弥合其语义差异。为此,本文设计了多视角协同注意力融合模块,用于捕捉不同视角之间复杂的语义交互关系。在融合阶段,多个视角特征将被逐步融合,其过程如下所示:时间引导的频率注意力机制:通常而言,时域中的故障信号位置与特定频率点存在关联。因此,引入由时间信号引导的频率注意力模块,用以确定频域中应关注的区域。为了在频率视角上生成注意力分布,将上述两个表示输入一个单层神经网络,并接 softmax 函数处理。该过程可形式化表示为: 其中, 、 与 为模型参数,满足 , , ; 与 为偏置项。此外,记号 表示时间特征矩阵与频域特征向量的拼接操作。矩阵与向量之间的拼接是通过将向量拼接到矩阵的每一列上实现的。与 相关的新的频率向量可通过注意力分布获得,注意力分布为每个频率向量分配相应的权重。该过程可表示为: 在前述过程中,本文通过时间视角引导的注意力机制获得了与时间序列 相关的新的频率表示。相应地,本文也需计算由频率引导的时间视角特征,其具体计算步骤如下所示。 其中, , ; 、 与 为偏置项。至此,已基于时间视角与频率视角完成了两轮交互式注意力计算。时间视角引导的注意力用于判断标签预测应关注的频率区域;而频率引导的注意力机制则可识别时间序列中与标签最相关的区段。然而,仍需进一步探索小波视角与时频融合表示之间的注意力分数关系。首先,通过时间视角与频率视角的互引导机制,得到一个新的表示 ,具体如公式所示。接下来,引入频率视角信息与 ,以进行协同注意力计算。 其中, ,其中 表示时频融合特征的维度, 表示每个融合特征的长度。在多数情况下,故障特征通常集中在小波图像的局部区域。因此,若直接利用整张图像的特征进行标签预测,可能会引入与故障无关的区域信息,从而导致结果次优。为避免该问题,本文引入时频融合引导的小波注意力模块,以判定应关注的小波图像区域。 其中, , 表示图像区域的数量; 和 为模型参数,满足 , , ; 与 为偏置项。时频融合引导的注意力机制能够判定小波视角中哪些图像区域应成为标签预测的关注重点,以及哪些区域更直观地反映故障特征。然而,仍需进一步确定时频融合序列中哪些片段与标签更为相关。因此,本文引入小波视角与时频融合表示之间的引导注意力机制整合,以此获得新的图像向量 。 其中, 和 为模型参数,满足 , , 。与时间域引导的注意力操作类似,本文使用符号 表示时频融合矩阵与小波向量的拼接操作,即将小波向量拼接至矩阵的每一列。最终,基于能量函数与概率分布,得到全局注意力表示 。 4.5 故障诊断所提方法通过协同注意力网络获取多视角特征表示 。随后,故障检测器利用多层感知机(MLP)对每个特征向量进行分类。该过程可总结如下: 本文使用交叉熵损失函数进行模型训练。概率的对数由以下表示: 其中, 表示第 个样本的真实标签, 表示该样本属于第 个标签的概率分布。5 实验5.1 数据集为评估所提COFU方法的有效性,本文在三个公开数据集上进行了实验,包括CWRU、SEU_bearing和SEU_gear数据集。CWRU 轴承数据集:该数据集由凯斯西储大学轴承数据中心提供,其测试平台如图4所示。测试平台包括电动机、扭矩传感器、两个加速度计和测功机。两个加速度计分别安装于驱动端外壳和风扇端外壳上,用于采集振动信号。采样频率为12 kHz或48 kHz,振动信号在四种不同电机负载下进行记录。故障类型分为三类:轴承内圈故障、滚动体故障、外圈故障,故障直径分别为0.007、0.014和0.021英寸。本文采用驱动端在12 kHz采样频率下的数据。表1将健康状态、内圈故障、滚动体故障和外圈故障四种类型,按照故障程度划分为十类(包含一种健康状态与九种故障状态)。图4 CWRU轴承测试实验台表1 CWRU数据集SEU bearing数据集:该数据集来源于东南大学提供的齿轮箱数据集(SEU2)。如图5所示,模拟平台由电动机、制动器、控制模块和两个测试用变速箱构成。轴承数据集包含八路振动信号,本文选用第二路信号。加速度传感器分别安装于驱动电机、行星齿轮箱和平行齿轮箱上。实验设置包含两个工作状态,转速–负载(RS-LC)分别为20 Hz–0 V和30 Hz–2 V。每种工况下包含五类故障类型:裂纹内圈、裂纹滚柱、裂纹钢球、裂纹外圈以及健康状态,详细信息见表2。图5 SEU轴承测试实验台表2 SEU轴承故障数据集表3 SEU齿轮故障数据集5.2 基准模型CNN模型:一种同时包含一维(1D)与二维(2D)卷积通道的模型,能够学习周期信号中相邻与非相邻区间之间的局部相关性。LSTM:一种能够良好捕捉测量振动信号时间特性的模型。MCNN-LSTM:一种融合多尺度卷积神经网络与长短期记忆网络的模型,用于滚动轴承故障诊断。MHGAT:首个在轴承故障诊断领域引入多头图注意力网络的模型。多视角方法:通过与依赖多视角信息的技术进行对比,评估所提模型的性能表现。具体而言,Cat、Dot与Add为COFU方法的消融变体,其性能亦被纳入评估。MCCA(Jiang 等, 2022a):一种基于典型相关分析(CCA)的多视角学习方法,用于最大化振动信号与电流信号特征之间的相关性。为确保公平比较,我们将其多层特征提取部分替换为本文所提出的视角特定编码器。Concatenation:一种将不同视角的高阶表示直接拼接后,经过线性变换进行故障类型识别的多视角融合方法,其处理流程如图6(a)所示。Dot:一种将不同视角的高阶表示相乘后,进行线性变换并识别故障类型的多视角融合方法,处理流程如图6(b)所示。Add:一种将不同视角的高阶表示相加后,经线性变换完成故障类型识别的多视角融合方法,其处理流程如图6(c)所示。图6 “Concatenation + FC”、“Dot + FC” 和 “Add + FC” 的示意图5.3 结果讨论5.3.1 方法结果对比表4展示了本文提出的COFU方法与多个基线方法在性能上的对比评估。实验结果表明,在 CWRU、SEU_bearing和SEU_gear三个数据集上,COFU在准确率(ACC)、精确率(P)和召回率(R)三个指标上均优于其他方法。表4 不同模型诊断结果比较同时,基于表中结果可得出以下几点观察:(1) 在多种用于故障诊断的单视角方法中,MHGAT取得了最优的性能。这可归因于其采用了图神经网络与多头注意力机制等先进技术,能够在不同尺度上提取判别性特征,并构建增强的综合特征用于故障诊断。此外,将频率视角作为输入,在传统CNN和LSTM模型中也表现出更优的效果,说明频率视角特征在提取关键信息方面具有重要作用。尽管如此,诸如 MCNN-LSTM与MHGAT等结构设计合理的模型,在使用时间视角输入时同样能取得可比的性能表现。(2) 多视角方法的整体性能普遍优于单视角方法。观察发现,即便是简单的多视角融合技术,如Cat、Dot和Add,也在大多数情况下优于单视角方法。上述结果验证了多视角信息集成有助于显著提升故障检测性能的假设。然而,仍需注意,部分单视角模型(如 MHGAT)在性能上甚至超过了最基础的多视角融合方法。这可能是由于简单拼接融合方式可能引入一定噪声,反而削弱了多视角方法的效果。(3) 本文提出的COFU方法在所有基线方法中表现最为优越。尽管MCCA采用了典型相关分析以学习多视角间复杂的语义相关性,其融合策略相对复杂,但在三个数据集上,COFU 的整体性能仍优于MCCA。具体而言,COFU在三个数据集上均获得了最高的ACC、P与R。在CWRU与SEU_gear数据集上,所提出模型的准确率、精确率与召回率均为100%;在SEU_bearing数据集上,COFU模型的准确率、精确率与召回率分别为99.95%、99.95%与99.95%。该优越性能归因于协同注意力融合网络能够有效利用不同视角间的共识信息与互补特征,从而显著提升旋转机械故障诊断的准确性与鲁棒性。5.3.2 COFU诊断表现为更有针对性地分析各类故障类别的诊断效果,本文绘制了混淆矩阵以验证实验结果。如图7所示,混淆矩阵全面记录了不同数据集上的诊断与分类结果,包含正确分类信息与误分类信息。混淆矩阵的纵轴表示真实标签,横轴表示预测标签,因此对角线上的元素表示各数据集的诊断准确率。从图中可以看出,本文所提出的方法在三个数据集上对10类故障状态样本均实现了有效识别,模型在各数据集上的准确率分别为100%、99%与100%。对于SEU_bearing数据集,存在两个分类错误的样本,这两个样本均为工况“20_2”下的ball故障,被错误预测为“30_2 ball”。本文认为,该现象部分原因可能是这两个故障类别本身同属于ball故障类,二者在特征表现上具有一定相似性,从而导致了误分类的出现。图7 COFU在各数据集上的混淆矩阵图示5.3.3 抗噪性能表现本文通过在信噪比(SNR)范围从-4dB到4dB的条件下对信号数据进行实验,分析了所提出方法的抗噪性能。详细结果如图8所示。在SNR = -4dB条件下,COFU方法的诊断准确率明显高于其他对比方法。随着SNR的增加,各方法的诊断准确率整体提升;在SNR = 4dB时,COFU的诊断准确率接近95%。该结果表明,COFU在工业噪声环境下具有更优越的抗干扰能力。图8 模型在不同噪声环境下的性能5.3.4 特征可视化为验证COFU中协同注意力网络的有效性,本文在CWRU数据集上对COFU所学习的三视角融合表示进行t-SNE可视化,结果如图9所示。为了揭示多视角方法所提取的特征,本文采用t-SNE降维算法对特征进行可视化处理。从图9可以看出,在经过三种简单多视角方法提取特征后,不同故障类别之间存在重叠,表明其无法有效区分不同故障。而COFU提取的特征在类别间表现出更高的可分性。在COFU的自适应协同注意力融合网络作用下,主要特征得到有效增强,从而有助于不同故障类别之间的分离。图9 CWRU 数据集上提取特征的 t-SNE 可视化结果经过多轮协同注意力融合后,各类故障在空间分布上表现出明显差异;同一类故障的样本聚集在一起,表明COFU能够有效区分不同类型的故障。综上所示,相较于其他方法,本文提出的COFU能够更好地学习多视角下的故障交互特征,从而更有助于故障类别的判别与分离。6 结论本文提出了一种用于旋转机械故障诊断的多视角方法,称为多视角自适应协同注意力融合网络(COFU)。与传统单视角输入方法不同,COFU通过利用特定的神经网络编码器,对三种视角的特征表示进行融合,从而获取更为全面的故障特征信息。此外,本文还提出了一种新型的融合方法,以有效利用多视角数据的共识性与互补性。最终,COFU 被应用于CWRU、SEU_bearing和SEU_gear三个数据集,以实验方式验证其相较于基线方法的学习性能,分别在三者上取得了100%、99.95%和100%的准确率。实验结果表明,所提出的COFU方法是一种有效且便捷的解决方案,具有较强的适应性,能够理想地识别故障信息,并成功实现滚动轴承的自动化故障诊断。考虑到CWRU与SEU数据集本身的局限性,如数据干净、样本构造简单、故障类型数量有限以及难以模拟真实工业环境等因素,所训练模型在实际部署中的性能可能受到一定影响。因此,未来工作将致力于结合多视角学习方法,引入小样本学习与领域自适应技术,以增强模型在更贴近实际工业环境中的泛化能力。编辑:Jin校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚、肖鑫鑫该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈