首页/文章/ 详情

双重注意引导的树状决策网络 | DATGN:一种适应强噪声与不平衡数据的故障诊断模型

3天前浏览20
     本期聚焦于复杂环境下轴承故障诊断的智能方法研究:在工业现场强噪声数据极度不平衡的条件下,传统诊断模型在多类别、分层次的故障识别中面临识别率低、泛化能力弱等诸多挑战。为此,本文提出了一种融合双重注意力机制的树状等级决策网络(Dual attention-guided tree-inspired grade decision network, DATGDN),构建了一个具备全局与局部感知能力的多层级智能诊断框架。该方法创新性地设计了三元注意力机制与多头卷积注意力模块,有效增强特征提取的鲁棒性,并通过树状结构的决策网络,实现对故障位置与严重程度的层次化判别。在多个信噪比场景与不平衡数据集上的实验证明,DATGDN不仅显著提升了识别精度,还增强了对复杂故障结构的解析能力,为智能制造中的精细化设备运维提供了可靠的新思路。

    论文链接:通过点击本文左下角阅读进行在线阅读及下载

    论文基本信息

    论文题目:

    Double attention-guided tree-inspired grade decision network: A method for bearing fault diagnosis of unbalanced samples under strong noise conditions

    论文期刊:Advanced Engineering Informatics

    论文日期:2025年

    论文链接:

    https://www.sciencedirect.com/science/article/pii/S1474034624006554?via%3Dihub

    作者:Zhilin Dong (a,b), Yonghua Jiang (b), Weidong Jiao (a,b), Feibin Zhang (c), Zhenya Wang (c), Jinfeng Huang (c), Xin Wang (d), Kun Zhang (e)

    机构:

    a: School of Engineering, Zhejiang Normal University, Jinhua 321004, China;

    b: Xingzhi College, Zhejiang Normal University, Lanxi 321100, China;

    c: Department of Mechanical Engineering, Tsinghua University, Beijing 100084, China;

    d: School of Aeronautics, Northwestern Polytechnical University, Xi’an 710072, China;

    e: Beijing University of Technology, Beijing 100124, China

    第一作者简介:董治麟老师浙江师范大学工学院研究生导师,现为浙江师范大学装备状态监测与智能维护技术研究所核心成员董老师是中国计算机学会(CCF)会员、中国振动工程学会会员、中国自动化学会制造自动化专业委员会委员,以及英国皇家物理学会(Institute of Physics, IOP)标准会员。现担任Robot Learning期刊青年编委。近年来,董老师在本领域权威期刊发表Top论文4篇,ESI高被引论文3篇,热点论文2篇,总引用次数超过300次。作为活跃的学术审稿人,他为20余种国内外期刊担任审稿工作,获IOP出版社授予“IOP Trusted Reviewer”荣誉研究方向包括:机械结构设计与运动学仿真、动力学机理建模、信号处理(信号分解与时频分析),特征指标构建(熵值复杂性理论),度量学习,机器学习(浅层与深度学习)、设备状态监测与故障诊断、寿命预测等。(来源: https://mypage.zjnu.edu.cn/20245567/zh_CN/index/343963/list/index.htm

    目录

    1 摘要

    2 引言

    3 双重注意力引导的树状等级决策网络

    3.1 三元注意力机制

    3.2 多头卷积自注意力机制

    3.3 树状等级决策层

    3.4 双重注意力引导的树状等级决策网络

    基于所提方法的故障诊断

    4.1 故障诊断流程图

    4.2 实验数据集概述

    4.3 参数选择

    5 实验验证

    5.1 实验结果

    5.2 消融实验

    6 结论

    1 摘要

    在强噪声条件下实现对不平衡轴承数据集的层次化多分类故障诊断是一项具有挑战性的任务。为此,本文提出了一种层次化多分类故障诊断模型,称为双重注意力引导的树状等级决策网络(DATGDN)。首先,设计了一种先进的三元注意力机制(Triplet attention, TA)和一种新颖的多头卷积注意力机制(Multi-head convolutional attention, MHCA),用于提取轴承故障特征。此外,这些机制可以集成到标准卷积神经网络中,构建形成双重注意力引导的主干网络。最后,通过结合一种创新的树状结构决策网络,DATGDN 实现了对轴承故障位置与严重程度的层次化决策。该模型在两组具有不同信噪比和多个不平衡比例的轴承数据上进行了测试。实验结果表明,与多种先进算法相比,所提出的方法不仅在各类任务中实现了更高的识别率,还能够对轴承故障的位置与程度进行分级决策。

    关键词:三元注意力机制多头卷积注意力机制树状决策结构故障诊断

    2 引言

    滚动轴承作为机械系统的核心部件,在机械制造与轨道交通等领域中发挥着关键作用。轴承的运行状态与性能直接影响整个系统的可靠性、稳定性、安全性及使用寿命。一方面,不同类型的轴承故障数据分布不均,使得模型的训练与测试过程更加复杂;另一方面,强噪声的存在进一步干扰了对轴承信号的特征提取与故障诊断过程。因此,在不平衡数据与强噪声干扰下实现轴承故障诊断仍是一项极具挑战性的任务

    在轴承故障诊断领域,时域分析、频域分析、时频分析、信号分解与浅层机器学习方法不断发展与演进。然而,面对复杂且高维的数据,传统方法因处理能力有限,常常变得难以奏效。卷积神经网络(CNN)和循环神经网络(RNN)等深度学习方法 凭借强大的特征学习与表示能力,能够从原始数据中提取更复杂的特征,逐步走向研究前沿

    CNN 之所以被广泛应用,主要得益于其稀疏连接、参数共享与等变表示三大优势。特别是,一维卷积神经网络(1D-CNN)因其输入数据形状能够与原始采集的轴承振动信号形状精确匹配,持续应用于轴承故障诊断。尽管 1D-CNN 在多个任务中取得了良好表现,但其在复杂任务中的性能仍有进一步提升的空间。注意力机制(Attention Mechanism,AM)是一种机器学习技术,可使模型在处理输入数据时有选择地关注或突出其中的特定部分。将不同类型的 AM 嵌入 CNN 或 RNN 中进一步提升了模型性能,在故障诊断领域广受关注。

    尽管融合注意力机制的 CNN 展现出强大的特征提取能力,并在复杂环境下的故障诊断任务中表现出良好效果,但仍存在两大显著缺陷:(1)仅关注输入信号与输出结果,忽视中间过程的实际推理,降低了诊断结果的可信度;(2)其在故障位置与程度的判定方式与人类思维方式不符。针对上述问题,已有研究指出,将决策树结构与卷积神经网络(CNN)结合,可显著提升识别准确率。

    关于树状结构深度学习的研究,主要聚焦于利用层次结构对复杂数据进行高效分类,同时优化学习过程 。Roy 等人提出了 Tree-CNN 模型,使网络在引入新类别时能够自适应地扩展其层次结构。该模型支持网络以树状方式不断扩展,以适应新的数据类别,同时保留对已学习类别的辨识能力。Ren 等人针对单一分类问题,提出了一种树状结构的循环神经网络(Tree-RNN),其层次结构可将大型分类任务划分为更小、可管理的子类,每个子类配备一个特定分类器。在故障诊断领域,Wang 等人提出了一种新型网络,称为基于深度卷积的树状网络(DCTN),该网络旨在有效区分轴承健康状态下的七种不同工况。该研究为层次化决策过程提供了坚实的理论基础。然而,该研究在决策机制方面仍存在一定不足,且在应对不同噪声干扰条件下对不平衡多类轴承数据的诊断能力仍有待提高

    为进一步探索树状等级决策网络并应对上述挑战,本文针对强噪声环境下的不平衡轴承数据集,构建了一种层次化多分类故障诊断模型,称为双重注意力引导的树状等级决策网络(DATGDN)。该模型通过层次化诊断有效降低了诊断任务的复杂度,并提升了故障识别的准确率。结合故障诊断领域的最新技术进展,所提出模型在以下几个方面展现出独特优势

    • 集成先进的三元注意力机制与创新的多头卷积自注意力机制于标准 CNN 架构中,用以从轴承故障信号中提取相关信息并剔除无关干扰特征;

    • 设计了一种新颖的两层决策树结构,包括种子节点与叶节点,实现了轴承故障位置的精确定位与故障严重程度的分级诊断。该多层次决策机制可系统性评估故障的位置与强度,更加契合工程运维的实际需求;

    • 在结构集成方面,通过将树状网络中种子节点的权重值继承自主干网络全连接层的概率分布,实现了无缝融合,有效增强了决策过程的鲁棒性并取得良好的识别效果。

    3 相关研究内容

    3.1 双重注意力引导的树状等级决策网络  

    三元注意力机制(Triplet Attention, TA)在同时建模通道注意力与空间注意力的同时,简化了参数数量。所提出的 TA 结构如图 1 所示。为了更全面地解释 TA 机制,首先需阐明“跨维交互(Cross-Dimension Interaction)”的概念,其次介绍 Z-pooling

     

    三元注意力机制的整体框架

    (a) 跨维交互:由于传统的通道注意力方法在信号处理中通常采用单一权重来衡量各通道的重要性,因此被认为缺乏通道与空间维度之间的交互能力。CBAM 模块通过在通道注意力的基础上引入空间注意力作为附加组件,提升了整体性能。

    为捕捉输入数据在通道与空间维度之间的依赖关系,TA 中引入了一种基于空间注意力的“跨维交互机制(Cross-Dimension Interaction)”。对于一个以       (通道、高度与宽度)表示的三维信号,其核心思想是联合建模以下三组维度对之间的交互关系:             与       。这种机制使注意力模块能够更有效地捕捉输入特征在不同维度间的复杂依赖关系,并增强其对关键特征的敏感性。

    TA 框架通过构建三个独立分支实现跨维交互,各分支分别独立地捕捉输入张量在通道与空间维度之间的依赖性,重点建模              与        的两两关系。

    (b) Z-pool:Z-pool 是一种用于将张量的第一个维度压缩为两个通道的操作层,其核心操作结合了全局最大池化(Global Max Pooling, GMP)与全局平均池化(Global Average Pooling, GAP)。

    通过将高维通道信息压缩为两个具有代表性的特征图,模型可以更容易地捕捉通道维与高度/宽度维之间的相关性,从而增强不同维度之间的交互能力。其数学表达形式如下所示的公式

         

    其中,0d表示张量形状为      时所对应的通道维。如果 C 表示该通道维的大小,则在经过 Z-pool 处理后,其值将被转换为 2。

    (c) 三元注意力机制(Triplet Attention)在计算过程中,TA 模块首先将输入张量        分别传递至其内部的三个分支进行处理。

    在第一个分支中,建立了        维与        维之间的交互关系。具体操作如下:输入张量       ,原始形状为       ,通过沿        轴的旋转转换为张量       ,其形状为       。为保持原始张量的内在结构特性并简化计算流程,采用 Z-pool 操作将张量的第        维降至       ,得到张量       ,其维度为       。随后,       经标准卷积与归一化处理,产生中间输出,其维度为       。该中间输出再通过 sigmoid 函数进行归一化,使其值限制在        区间,从而生成注意力权重,并将该权重应用于       。最终,为获得与原始输入一致的张量结构,对张量再次沿        轴进行旋转。

    第二个分支也需经过相似的处理步骤,包括张量旋转、通过 Z-pooling 进行降维、卷积与归一化处理,并通过 sigmoid 激活生成注意力权重不同于前两个分支,第三个分支无需进行两次旋转操作,因为该分支旨在表征空间注意力。为了便于后续表述,第二分支在 Z-pooling 后的张量记作       ,而        经卷积与归一化处理后的张量记作       ,其形状为       。第三分支中,输入张量直接经过 Z-pooling 后得到       ,其形状为       

    最后,通过直接求平均的方式,将上述三个分支生成的张量融合,得到最终的加权注意力输出张量       。该张量的维度与原始输入张量一致。该过程如下式所示:

         

    其中,            )用于表示第        个标准卷积操作,       表示 sigmoid 函数操作,公式表示如下:

         

    其中,       表示第        个跨维注意力机制。公式中的符号“–”表示旋转操作,用于保持初始输入张量的维度形状不变。综上所述,通过对张量的通道维与其宽度、高度维之间的交互关系以及张量的空间注意力进行直接平均计算所得到的结果,被称为三元注意力(Triplet Attention, TA)。

    3.2 多头卷积自注意力机制  

    传统的多头自注意力机制(Multi-head Self-Attention, MSA)存在以下两个缺点:

    • 计算量随着输入 token 数量的增加呈非线性增长,在训练与推理过程中带来显著的计算开销;

    • MSA 中每个注意力头仅负责部分嵌入维度,当每个注意力头对应的嵌入维度较小时,可能会导致网络性能下降。为应对上述问题,本文提出了一种多头卷积自注意力机制(Multi-head Convolutional Self-Attention, MCSA),其单头卷积自注意力(CSA)操作如图 2 所示。

     

    图 2 单头卷积注意力机制的整体框架图

    该注意力机制的工作流程如下:

    • 首先,将一维原始信号          通过嵌入编码方法转换为二维输入张量         ,其中          表示空间维度,         表示通道维度。

    • 类似于 MSA,MCSA 中通过一系列投影矩阵获得查询向量(Query,        )。同时,将二维输入 token          沿空间维度转换为三维张量         ,以压缩内存占用。

    • 将三维张量          输入深度卷积核,卷积核大小为         ,步长为         ,填充设为         ,以实现张量高度与宽度的下采样。此处参数          根据特征图尺寸或网络阶段数自适应设定。随后,对该三维张量进行层归一化处理。

    • 空间下采样后的新张量          被重塑为二维张量,即         ,其中         。然后将          输入两组投影层,分别获取键向量(Key,        )与值向量(Value,        )。

    • 最后,基于以下公式计算                          之间的注意力函数

         

         

    其中,采用标准的        卷积操作        来模拟不同注意力头之间的交互作用。       表示缩放维度。

    该配置使每个注意力头的注意力函数都能够依赖于全部的键(Key)与查询(Query)。然而,这种结构可能削弱 MSA 处理位于不同位置的多样表示子集信息的能力。为了恢复这种多样性表达能力,本文在注意力计算中引入了实例归一化(Instance Normalization,IN),其中        表示经过 Softmax 之后的点积矩阵。来自各个注意力头的输出结果随后被拼接并送入一个线性投影层,以生成最终的输出结果:

         

    其中,       表示由线性变换所生成的权重矩阵。

    3.3 树状等级决策层  

    在该模型的决策框架中,需准确表达故障类型与故障严重程度之间的逻辑关联。受决策树(Decision Tree, DT)的启发,本文设计了一种新颖的层次化诊断逻辑层,称为树状等级决策层(Tree-Inspired Grade Decision Layer, TGDL),以支持对故障严重程度的多层次分析。

    与传统神经网络不同,TGDL 中叶节点与根节点之间的输入–输出关系并非线性对应。 如图 3 所示,该结构主要包含两个诊断层级:故障类型与故障严重程度。在第一层中,通过输入样本识别故障类型,并据此确定其对应的上层类别属性;随后在第二层评估故障严重程度,以进一步确定其下层子类属性。该结构采用第一层节点识别故障类型,第二层节点判断故障等级,构成了所谓的树状结构决策层。其中,第一层节点对应不同类型的故障,第二层节点对应故障的不同严重程度。

     

    图 3 树状结构决策层的权重传递机制

    第二层节点的权重通过继承先前训练好的全连接层的参数进行定义。这一配置确保了故障严重程度判别性能与预训练主干网络保持一致。第        个叶节点权重的获取方式如下式所示:

         

    值得注意的是,在前向传播过程中,子类的特征表示将从其上层类别特征中继承并更新;因此,在反向传播阶段,与上层类别对应的叶节点权重及与子类对应的种子节点权重也将同步更新。

    3.4 双重注意力引导的树状等级决策网络

    DATGDN 被设计用于处理具有不同信噪比(SNR)的不平衡轴承数据,其目标是在优化故障诊断准确率的同时,为决策过程中的推理机制提供可解释的理论依据。所构建 DATGDN 的结构示意图如图 4 所示。

     

    图4 DATGDN的结构示意图

    (a) 主干网络的构建:如图 4 所示,所构建的三元注意力机制(TA)与多头卷积自注意力机制(MCSA)被集成至一个深度为        的标准卷积神经网络的第三层中,形成一个新型网络,称为双重注意力引导卷积神经网络(DACNN)。在构建的 DACNN 中,两种注意力机制分别独立作用于 CNN,用以增强其特征提取能力,确保两者所引导的特征之间不存在相互干扰。最终,分别由两种注意力机制增强的特征将被加权相加。此操作不仅保留了每个注意力机制增强后的特征所具有的独立语义,还保证了特征之间的互补性和增强效果,而非相互削弱。

    (b) 主干网络与树状等级决策层之间的连接:通过利用 DACNN 最终全连接层(FCL)中的权重,建立了一个结构化的层次体系,并系统地定义了嵌入特征的决策规则。这种方式有助于更全面地理解特征的分布情况。在预训练的 DACNN 中,FCL 提取出属于        个类别的种子节点的权重。 随后,这些权重通过 Softmax 分类器转换为预测概率,其过程如下式所示:

         

         

    其中,       表示全连接层(FCL)中第        列所对应的权重向量;       表示树状结构决策层的输入特征向量,同时也是最终卷积层的输出结果;       表示对第        类别的预测概率,其满足:

         

    种子节点的权重直接继承自预训练的全连接层。该方法确保了子类的识别能力与预训练的 DACNN 模型保持一致。

    (c) 基于决策损失的微调:本研究中设计的 DATGDN 模型对 DACNN 与 TGDL 的权重进行了联合微调。若需计算每个决策节点的决策概率,可通过 Softmax 函数进行求解。以图 4 所示结构为例,微调后满足如下关系:

         

    其中,       表示微调后第        个树状等级决策层的权重向量。上层类别(superclass)的分类结果为子类的微调与识别提供了先验知识。

    在每个节点上,基于路径概率应用 Softmax 分类,用以确定最终的故障诊断决策。种子节点的正确预测概率记作       ,而叶节点的正确预测概率记作       。因此,下式用于表示 TARTDN 模型的整体预测准确率概率:

         

    其中,       表示 TGDL 中路径的概率。最终的类别预测通过索引        中概率最高的值获得,如下式所示:

         

    完整的损失函数表示为       ,其通过公式中的交叉熵函数进行计算:

         

    在该框架中,预训练 DACNN 的真实标签记作       ,预测概率记作       ;而 DACNN 的准确标签记作       。为确保保留原始训练模型的性能,右侧公式的第一项同样采用预训练网络中的交叉熵函数。第二项则引入了一个新的损失项,该项与树状决策路径中所有预测概率相关。

    基于所提方法的故障诊断

    4.1 故障诊断流程图

    前文已系统阐述了 DATGDN 的基本原理。本节将该方法应用于滚动轴承故障识别任务。图 5 展示了基于 DATGDN 模型构建的故障诊断流程:

    图5 基于DATGDN的轴承故障诊断流程图

    • 振动信号采集:在故障测试平台上通过专用传感器采集滚动轴承在不同工况下所产生的不平衡振动信号。

    • 故障特征提取:利用新提出的 DATGDN 模型,从在不平衡条件下、具有不同噪声分布的轴承故障信号中提取关键特征。

    • 智能故障诊断:将具有已知状态的训练样本输入配置好的 DATGDN 进行训练;随后将状态未知的测试样本输入到已训练完成的 DATGDN 中,以判定其健康状态。

    4.2 实验数据集概述

    本研究选用两个数据集对所提出的 DATGDN 模型的测试效果进行验证。图 6 展示了两个实验平台,以下分别简要介绍各数据集的具体情况:

    图6 数据集A和B的实验设备

    (a) 数据集 A:该数据集由印度某研究团队提供 [40],实验平台如图 6(a) 所示。所用轴承为圆柱滚子轴承,故障由电火花加工技术人为制造为矩形凹槽。加速度传感器安装在轴承座顶部,用于采集振动信号。实验条件为:转速 2050 rpm,垂直载荷 200 N,采样频率 70 kHz。该数据集包含 10 类信号类型:内圈故障:1.01 mm、1.56 mm、2.03 mm(共 3 类);外圈故障:0.86 mm、1.55 mm、1.97 mm(共 3 类);滚动体故障:1.16 mm、1.73 mm、2.12 mm(共 3 类);正常轴承信号:1 类。

    (b) 数据集 B:该数据集来自湖南大学 [41],实验平台结构如图 6(b) 所示。实验条件为:转速 900 rpm,垂直载荷 6 N,采样频率 8192 Hz。平台采集了 9 组斜齿轮减速器的故障数据,包含:内圈、外圈与保持架故障(故障尺寸为 2 mm、4 mm 和 6 mm)。此外,采集 1 组正常轴承数据,用以提升分类任务的准确性。在实验框架中,将两个数据集 合并为 10 个类别,每类代表一种不同的健康状态。表 1 列出了各类别对应的标签说明。

    表1 不同试验台的数据标签

    为在不同失衡比(Unbalance Ratio, UR)与噪声干扰条件下进行轴承故障识别实验,根据公式向每种健康状态下长度为 2048 点的轴承信号中加入噪声。

       

    其中,     与      分别表示原始信号功率与所添加噪声的功率。

    此外,实验中包含了在噪声环境下具有不同失衡比的样本,如表 2 所示。其中,“300 + 150×9” 表示将 300 个样本分配给正常类别,其余 9 个故障类别各分配 150 个样本。

    表2 在噪声环境下具有不同失衡比的实验样本

     
    4.3 参数选择

    实验结果受批处理大小(batch size)与交叉熵参数      的显著影响。为优化这两个关键参数,本文在数据集 B 上进行了实验,其中失衡比(UR)设为 2:1,信噪比(SNR)设为 8。不同      值与批处理大小下的优化实验结果如图 7 所示。

    图 7 不同      值与批处理大小下的实验结果

    从图 7 可以看出,一旦      被设定,当批处理大小超过 16 时,整体识别率显著下降。当批处理大小设置为 8 或 16 时,识别率表现较好。在这些配置中,批处理大小为 16 时,性能最优。相比于批处理大小参数,     参数对实验结果的影响相对较小,但同样具有重要作用。实验结果表明,在确定批处理大小后,将      设置为 0.2 时,能够达到最优的整体识别率 98.73%。

    图 8 展示了在      和批处理大小为 16 条件下,所提出 DATGDN 模型的三维混淆矩阵。从图 8 中可以观察到,只有少量的滚动体故障(尺寸为 1.1)被误分类为尺寸为 2.03 的滚动体故障,且少量内圈故障(尺寸为 1.01)被误分类为正常样本。基于上述实验结果,后续实验中选定批处理大小为 16,并将交叉熵参数设置为 0.2。

    图 8 DATGDN 模型在      且批处理大小为 16 条件下的混淆矩阵

    5 实验验证

    5.1 实验结果    

    所提出的方法在两个实验方案中进行了验证,每个方案包含三组不平衡数据。每组不平衡数据均进行了四组不同噪声条件(信噪比 SNR 范围为 10 至 4)下的实验,以及一组无噪声实验。图 9 展示了在两个不同数据集上进行五次试验后,所提出 DATGDN 模型的分类性能。

     

    图 9 DATGDN 在两组数据集上五次运行的平均分类准确率

    从图 9 可以观察到,在两组实验数据中,随着失衡比(UR)的增加,DATGDN 的故障识别率逐渐下降;同时,随着 SNR 的升高,其识别率稳定上升。这一趋势符合客观规律,也与预期一致。在不同条件下,所提出的 DATGDN 的识别率范围在 92.21% 至 99.45% 之间,表明该模型能够在多种干扰环境与分布特性下,提取出有效特征,基本满足实际工程应用需求。此外,DATGDN 不仅具备较高的识别准确率,还展现出较强的推理能力与可解释性。以数据集 B 中的一个内圈样本与一个外圈样本为例,在无噪声、UR = 10 的条件下,所提出 DATGDN 的推理与决策过程如图 10 所示。

     

    图 10 所提出 DATGDN 的推理与决策过程示意图

    从图 10 (a) 可见,当输入一个故障样本时,第一层定位初步判断为外圈故障,其概率为 96.82%;随后,在进一步判别故障尺寸时,该样本被识别为 4 mm 外圈故障,概率为 95.26%。同样地,从图 10 (b) 可观察到,当输入新的故障样本时,模型在第一层分类中以 98.65% 的概率将其识别为内圈故障;随后进一步识别其故障尺寸,判定其为 4 mm 内圈故障,概率为 96.77%。结果表明,实验结果与输入数据的真实标签高度一致,验证了所提出模型在推理与分级诊断过程中的准确性与鲁棒性。

    5.2 消融实验  

    5.2.1 对比方法概述    

    为验证 DATGDN 的优势,本文设计了多种对比算法,具体如下:

    (1)决策树(DT):一种基本的浅层机器学习算法。本文选用CART 算法作为分类器。(2)CNN:标准的一维卷积神经网络(1D-CNN),包含三层卷积层,用于从轴承信号中提取故障特征,最终通过 Softmax 层进行故障类别判别。(3)CNN-DT:由上述 (a)  (b) 组合构成的复合模型。

    (4)CBAM 辅助 CNNCBAM-CNN:包含三层卷积结构,使用 CBAM 模块替代三元注意力 MCSA,并移除树状等级决策层(TGDL)。(5)三元注意力辅助 CNNTA-CNN:仅保留三层卷积与一个三元注意力机制。(6)多头卷积自注意力增强 CNNMCSA-CNN:仅包含三层卷积与一个 MCSA 模块。    
    (7)DCTN:以 1D-CNN 为主干网络,去除三元注意力 MCSA,保留TGDL作为决策层。(8)三元注意力引导的树状网络(TATN:去除MCSA,区别于树状等级决策层的仅为主干网络部分,采用 TA-CNN 替代原有CNN 结构。(9)多头卷积自注意力增强 CNN TGDLMCSATN:去除三元注意力,结构由三层卷积、一个 MCSA TGDL组成。    
    5.2.2 与其他方法的对比分析    

     11 展示了在两组数据集、不同失衡比(UR)与信噪比(SNR)条件下,不同方法的故障识别准确率对比。

     

    11 不同方法在两组数据集及不同失衡比(UR)与信噪比(SNR)条件下的诊断识别率对比  

    由图 11 可得知实验结果如下:  

    • 所提出的 DATGDN 模型在不同UR  SNR 条件下的诊断结果始终优于其他方法,突显其在轴承故障诊断中的显著优势。如图 11(c) 与图11(f) 所示,即使在 UR = 10:1SNR = 4 dB 的极端条件下,DATGDN 依然保持较高准确率,明显优于其他模型,具体表现为在数据集 A 上达到92.21%,在数据集上达到93.68%    

    • 在图 11 的每一个子图中,DT 曲线始终被CNN 曲线包围。例如,在图 11(c) 中,SNR = 4 dB 条件下,DT 的准确率仅为17%,而CNN 可达76.84%。整体上,DT 准确率普遍低于60%CNN 高于 60%体现了深度学习方法相较于浅层机器学习方法的优势    

    • CNN-DT 的诊断结果始终介于 CNN  DT 之间,准确率范围为59%  76.36%,说明将卷积层用于特征提取并结合 Softmax 分类,优于单纯的浅层机器学习方法

    • DCTN 的诊断结果相较于 CNN 显著提升。例如,在数据集 AUR = 10:1 条件下,DCTN 在不同 SNR 条件下准确率提高6.31%  19.47%,其中SNR = 4 dB 时提升最大,达到19.47%说明TGDL层次结构在深度网络支持下大幅增强了 CNN 的决策能力

    • DCTN 相较于 CNN-DT 的对比表明,TGDL的引入显著提升了决策能力。例如,在数据集 A UR = 2:1  SNR = 10 dB 条件下,准确率从74.55%提高至95.45%,进一步验证了 TGDL 的优势。

    •  TATN 相较于 DCTN 引入了TA 机制,进一步提升了特征提取能力和诊断性能。如在数据集 AUR = 10:1 条件下,TATN 准确率为96.65%,而DCTN 89.47%说明三元注意力机制在提升模型性能方面具有显著效果

    • 在数据集 BUR = 5:1 SNR = 4 dB 条件下,DATGDN 的准确率为94.64%,而 MCSATN 在相同条件下仅为80.72%。这一差异体现了 DATGDN TATN 基础上进一步引入 TA  MCSA 的并行融合机制,在噪声环境下的不平衡轴承数据中展现出更强的诊断能力

    6 结论

    本文提出了一种兼具诊断性能与可解释性的 DATGDN 模型,用于在噪声环境下对不平衡轴承数据集进行故障诊断。  

    (a) DATGDN 框架中,DACNN网络作为主干结构,结合三元注意力机制和多头卷积注意力机制,能够在噪声环境下有效提取与故障相关的特征;  

    (b) DATGDN 引入了 TGDL 架构,实现层次化决策。该结构首先进行故障分类,随后进行严重程度评估,模拟人类在系统性评估中的认知过程;  

    (c)在多个测试任务中,涵盖不同的数据不平衡和噪声条件,并基于两组实验数据集进行测试,所提出的 DATGDN 在识别率方面始终优于多种现有先进算法,从而验证了该模型的有效性与优越性。


    编辑:Jin
    校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈宇航、陈莹洁、赵诚
    该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除




    来源:故障诊断与python学习
    ACTMechanicalInspire振动非线性化学旋转机械航空轨道交通海洋理论电机试验
    著作权归作者所有,欢迎分享,未经许可,不得转载
    首次发布时间:2025-06-27
    最近编辑:3天前
    故障诊断与python学习
    硕士 签名征集中
    获赞 79粉丝 117文章 212课程 0
    点赞
    收藏
    作者推荐

    综述 | 基于物理信息的机器学习:在异常检测和状态监测中的应用综述(上)

    本期给大家推荐Gadsden教授的基于物理信息的机器学习:在异常检测和状态监测中的应用综述(上)。状态监测对保障工程系统可靠性至关重要,但传统方法在处理复杂系统以及面对精确物理模型可用性有限的情况时,往往面临挑战。物理信息机器学习(PIML)通过物理约束与数据驱动的融合,成为解决该问题的有效途径。本文系统梳理PIML在状态监测中的技术路径:归纳物理知识嵌入机器学习模型的方法及适用场景,对比分析计算效率、可解释性等性能差异;结合典型应用案例验证PIML在故障检测精度与跨系统泛化能力的优势;论证其在维护策略优化中的潜力。研究表明,PIML通过物理机理与数据特征的协同建模,为复杂系统状态监测提供了创新解决方案。论文链接:通过点击本文左下角的阅读原文进行在线阅读及下载。论文基本信息论文题目:Physics-informed machine learning: A comprehensive review on applications in anomaly detection and condition monitoring论文期刊:Expert Systems With Applications论文日期:2024年论文链接:https://doi.org/10.1016/j.eswa.2024.124678 作者:Yuandi Wu, Brett Sicard, Stephen Andrew Gadsden*机构:McMaster University, 1280 Main Street West, Hamilton, ON L8S 4L8, Canada通讯作者邮箱: gadsden@mcmaster.ca作者简介:Stephen Andrew Gadsden(Senior Member, IEEE),加拿大安大略省汉密尔顿市麦克马斯特大学机械工程系的副教授、智能和认知工程实验室主任。在加拿大汉密尔顿的麦克马斯特大学获得机械工程和管理(商业)学士学位和机械工程博士学位。曾在加拿大安大略省汉密尔顿市的机电一体化和混合技术中心做了近三年的博士后研究工作。研究方向包括控制和估计理论、人工智能和机器学习以及认知系统。他与NASA、美国陆军研究实验室、美国农业部和美国国家标准与技术研究所的多位学者保持着合作关系。Gadsden博士是ASME的Fellow、安大略省的专业工程师、经过认证的项目管理专家,担任多个ASME和IEEE期刊和国际会议的审稿人。目录1 摘要2 引言3 文献综述方法4 基于物理信息的机器学习 4.1 物理嵌入特征空间 4.1.1 物理引导的输入特征增强 4.1.2 迁移学习4.2 数据增强的物理模型优化4.3 物理信息正则化 4.3.1 基于物理信息的神经网络 4.3.2 数据驱动的微分方程求解(以上标记章节为本文内容)4.4 物理引导的架构设计5 讨论6 结束语1 摘要状态监测在确保各种工程系统的可靠性和最佳性能方面起着至关重要的作用。传统的状态监测方法依赖于基于物理的模型和统计分析技术。然而,这些方法在处理复杂系统以及面对精确物理模型可用性有限的情况时,往往面临挑战。近年来,基于物理信息的机器学习(PIML)作为一种有前景的状态监测方法应运而生,它结合了基于物理的建模和数据驱动的机器学习的优势。本研究全面概述了 PIML 技术在状态监测中的应用。推动 PIML 发展的核心概念是将已知的物理定律和约束条件融入机器学习算法中,使算法能够在从现有数据中学习的同时,保持与物理原理的一致性。通过将领域知识与数据驱动的学习相融合,与纯粹的数据驱动方法相比,PIML 方法在准确性和可解释性方面都有显著提升。在这项综述中,我们详细研究了将已知物理原理整合到机器学习框架中的方法,以及这些方法在状态监测特定任务中的适用性。将物理知识融入机器学习模型可以通过多种方法实现,每种方法都有其独特的优缺点。本文详细探讨了在数据驱动模型中整合物理知识的各种方法的独特优势和局限性,考虑因素包括计算效率、模型可解释性,以及在状态监测和故障检测中对不同系统的通用性。我们还介绍了一些利用这一新兴概念的案例研究和文献,以展示 PIML 在状态监测应用中的有效性。从综述的文献中,可以证明 PIML 在状态监测中的多功能性和潜力。新颖的 PIML 方法为解决状态监测的复杂性和相关挑战提供了创新的解决方案。这项综述为该领域未来的研究奠定了基础。随着技术的不断进步,PIML 有望在优化维护策略、提高系统可靠性以及提升工程系统的整体运行效率方面发挥关键作用。 关键词:机器学习;深度学习;基于物理信息的机器学习;状态监测;异常检测2 引言在过去的十年中,机器学习(ML)算法由于其高效性和从数据中推断模式的能力,在各种行业中得到了迅速的发展。通过可用的数据,ML模型能够以最小的人工干预准确地表示给定的输入和输出之间的关系。这种性质使得ML模型非常适合于表示那些控制行为的关联和参数不易获得的复杂系统。然而,尽管ML模型具有诸多优点,但也存在一些不足。一般而言,ML算法是一种数据驱动过程,旨在推导给定输入及其相应输出之间的关系。这一过程通常通过某种定义的优化算法执行,其中模型做出的预测被评估并不断调整以更好地反映给定数据。正如预期的那样,ML模型的性能严重依赖于其优化的数据。事实上,数据质量和可用性的限制是选择使用ML时的主要关注点之一(L'heureux等,2017)。对于许多工程应用而言,收集足够数量的数据以构建可靠模型可能具有挑战性、成本高昂,或者由于时间和资源限制而不可行。需要大量干净、具有代表性且非稀疏的数据才能正确构建模型(L'heureux等,2017)。数据量不足和/或不具有代表性的数据通常会导致对系统行为的歪曲表示,与真实的底层物理关系不一致,最终导致误导性结论。此外,ML模型被认为是“黑箱”模型,其中输入和输出之间的中间信息在产生输入与输出之间的关联时既不相关也不被需要。也就是说,在这些模型的开发中,往往没有考虑系统的潜在机制,尽管这些模型有效地表示了一个系统,但可能无法进一步帮助我们理解所说的系统(Rudin,2019)。就基于先验知识的系统表示而言,传统上也采用了基于物理的建模。然而,纯粹基于对系统的理解而开发的模型,由于其适用性的诸多挑战,在模拟现实世界系统中的应用受到限制。首先,物理模型的计算成本高昂(Jia等,2019)。这是由于大多数现实世界物理系统的计算复杂性,以及每个特定物理主体或现象涉及的多种控制方程,完全建模这些系统所需的成本相当大。此外,由于对系统的理解缺失或不完整,物理模型通常代表了对系统的不完美解释。自然地,研究人员意识到,将物理模型与数据驱动模型结合是预测和建模系统行为的下一步。这种物理信息机器学习(PIML)的范式最初由Lagaris等(1998)提出,他们首次展示了使用人工神经网络(ANN)求解常微分方程和偏微分方程。Karpatne等(2017)在其理论引导数据科学的研究中正式引入了这一范式,概述了领域知识与数据驱动解决方案之间的多种整合途径。通过这种统一,新的物理信息模型能够同时受益于基于物理的方法和数据驱动方法。自其发表以来,大量关于PIML范式的研究得以开展。以Raissi等(2019)为代表的学者通过引入物理信息神经网络(PINNs),进一步推动了理论与数据科学的融合。在PINNs中,以控制方程形式表示的物理定律被编码到神经网络(NNs)中。NN的架构和特性使其特别适用于近似偏微分方程(PDEs)的解。Raissi等(2019)在其研究中系统展示了解决非线性偏微分方程的方法论。Karniadakis等(2021)综述了物理与数据驱动技术整合的流行方法,并提出了对该技术局限性和潜在应用的见解。Meng等(2022)也对PIML领域的各种工作进行了综述,总结了其发展背后的核心动机、各种应用中常用的物理控制方程以及积分方法。从文献中可见,尽管新颖,PIML的应用已在多个领域崭露头角。本综述重点考察状态监测(CM)背景下的PIML方法在各类工程应用中的具体应用。CM是工程行业的关键组成部分,对确保设备可靠性、安全性和效率至关重要。PIML在此领域的应用涉及对振动、温度、压力等关键参数的持续监测,这些参数可反映被监测设备的健康状态。通过持续采样这些参数,工程师可以在问题发生前识别潜在问题,并采取纠正措施以防止成本高昂的意外停机、设备故障甚至灾难性事故(2023)。近年来,随着PIML和信息能力的发展,出现了各种各样的集成物理知识的创新方法,以用于CM中的应用。在Xu等(2022)的综述中,作者已详细概述了PIML在CM中的具体应用。因此,本研究旨在为读者提供基于物理的知识与ML方法整合的最新方法的概述,而不是专注于具体的应用。因此,本文的总体目标是为读者提供一个理解其具体应用的基础,并更深入地理解PIML的潜在原理和机制。正如本综述正文所述,PIML学习方法因能够在学习过程中融入基本物理定律和原理,相较传统ML技术展现出独特优势。PIML有效结合了ML算法的解释能力与物理的基础理解,利用先验知识引导学习过程。通常,这一学习过程会生成更准确且具有可解释性的模型。此外,由于基于物理的优化准则可以约束解空间并提供洞见,PIML方法减少了对大量标记训练数据的依赖,即使在数据稀缺场景下也能发挥作用。总体而言,物理信息方法在科学和工程应用中展现出更好的泛化性、鲁棒性和可解释性,使其优于传统ML方法。此外,这些方法在可解释人工智能(xAI)背景下为终端用户提供了更好的可解释性,而xAI是人工智能技术广泛采用的重要考量。本综述的结构如下:第3节概述了待综述文章的检索方法;第4节详细解释了将物理知识整合到数据驱动解决方案中的方法学,并介绍了ML内流行的架构背景,以及不同领域学者如何将先验物理知识融入这些模型;第5节总结了近期趋势的解读,重点讨论了所综述方法的优势与局限;最后,第6节对综述进行了总结与概括。3 文献综述方法本综述回顾了物理建模与ML在CM和异常检测中整合的最新进展。经过筛选后,共选取了107篇已发表的论文。从整理的文献中可明显看出,PIML范式在科研界正迅速普及。本综述的检索方法包括在Google Scholar、IEEE Xplore、ScienceDirect和ACM数字图书馆等平台上使用"physics-informed"、"physics-guided"、"physics-based"、"Machine learning"、"condition monitoring"、"fault detection"、"anomaly detection"等关键词进行搜索。结果根据相关性、年份和引用量进行筛选。 近期研究呈现出显著的趋势,即通过物理技术修改ML模型的输入特征空间,通过观测偏差引入物理知识。这种对输入空间的调整使模型能够学习物理一致的关系,从而限制不符合物理原则的映射。这种方法因其简单性和提升模型性能的有效性而广受欢迎。此外,综述强调了物理信息正则化技术的应用——模型会因偏离物理原理而受到惩罚。该方法已在多项研究中得到应用,证明了其在神经网络优化过程中整合物理原理的有效性。同时,综述还发现一些研究通过设计神经网络架构直接嵌入刚性约束,通过将学习参数和模型输出与物理量直接关联来增强可解释性。这些创新深化了对算法预测机制的理解,从而提高了模型的整体可靠性和性能。后续章节将详细探讨这些发现,讨论物理建模与ML相结合的方法学、应用、优势与局限。 4 基于物理信息的机器学习本节详细阐述PIML模型的背景,并介绍将物理意义嵌入数据驱动解决方案的多种方法。PIML的实施方式因应用领域而异,存在多样化的实现方法。总体而言,物理建模与ML的结合通常通过以下框架实现: 1. 物理嵌入特征空间 2. 数据增强的物理模型优化 3. 物理信息正则化 4. 物理引导的架构设计 这些细节将在以下几个部分进行讨论。4.1 物理嵌入特征空间物理原理与ML方法相结合的最直接的方式可能是通过物理建模开发ML模型的特征空间。对特征空间的扩展或修改不会直接影响模型架构,所得模型仍被视为黑箱模型——即无需揭示结果推导机制即可产生相关结果的模型(Karniadakis等,2021)。然而,通过利用对底层物理的基本理解,这些方法以符合物理定律的方式塑造ML算法的特征空间。相较于传统ML方法,这种结合方式具有多项优势,可形成更鲁棒且数据高效的框架。通过这种结合,ML算法可设计为利用物理关系的先验知识,从而更精确高效地应用于各类工程场景。如Karniadakis等(2021)所述,此类结合方式主要关注引入观测偏差以提升ML模型性能。此处"观测偏差"指体现系统底层物理或先验知识的特定测量或特征。通过融入先验知识,各种输入增强程序引入的观测偏差可引导算法预测限制在物理合理范围内。多项研究表明,相较于纯数据驱动方法,此类算法能更有效地识别相关特征,从而提升建模能力并缓解数据限制(Deng等,2022;Gitzel等,2021;Leturiondo等,2017)。在CM应用中,常需在ML模型中设计对设备状态变化敏感且能有效区分正常与故障工况的工程特征。文献中可见多种实现方式,例如将物理生成的参数和变量作为附加输入纳入特征空间。物理信息特征的添加可通过ML流程中解析的附加增强数据集直接实现,或通过迁移学习等方法间接实现,即通过ML算法捕获物理信息源域的特征并重新利用。后续小节将通过案例讨论这些特征操作方法。 4.1.1 物理引导的输入特征增强近年来,ML领域取得巨大进展,部分得益于可用于ML模型表达性和代表性训练的大型数据集(Lheureux等,2017)。然而在复杂工程任务中,收集和标注大量数据可能成本高昂、耗时,甚至不可行。此外,由于ML模型的黑箱特性,即使事先掌握系统信息,也难以单纯通过调整数据集来改变模型行为。文献中主流的解决方案是利用系统模型生成合成特征来补充或替代真实数据,其主要优势在于可生成具有高度可变性的大规模数据集,同时遵守物理定律。该特性在工程应用中备受重视,因为少量观测数据可能无法准确反映系统或设备的全工况范围(Gardner等,2021;Hopwood等,2022)。例如,特定故障条件的观测数据往往稀缺且难以获取,导致可用数据集常存在类别不平衡和严重偏斜(Hopwood等,2022)。这对标准分类器构成重大挑战,因其易过度关注样本丰富的类别。在此类场景下,生成物理相关特征或数据成为获取干净、平衡数据集的有效方法。该方法的局限通常涉及真实工况复杂性的准确复现,以及因物理先验知识不完整或错误导致生成数据无法反映设备真实行为的风险(Serre,2019)。尽管如此,许多学者仍选择通过已知物理原理生成物理一致的合成特征或数据来解决此问题。此方式中,生成模型通过已知物理原理形成或补充现有特征空间,其核心目标是以更高精度检测潜在问题,同时降低对真实数据采集的要求,并提升系统预期行为与物理原理的契合度。表1(受篇幅限制,可参看原文)总结了近期采用此框架的研究案例。基于物理的模型可模拟多种物理系统。通过此类模型增强特征空间,ML算法可基于可靠(尽管可能不完整)的物理原理准确预测系统行为。此方法因易生成大量可靠数据且能规避实际伦理问题而受青睐(de Melo等,2021)。例如,可通过系统知识提取或生成附加特征形成增强特征空间(图1A)。或者,通过物理或数值仿真模型解析未标注输入生成标注数据,再将生成的标签和输出用于训练过程(图1B)。图1 通过基于物理的方法生成合成数据的过程的一般概述减法特征工程主要涉及特征选择——这是ML算法中常用技术,旨在选择对问题相关且有意义特征。利用基于物理的约束,一种基于物理信息的特征选择策略可能旨在识别和保留最关键的特征,以实现准确和可解释的预测。除上述众多方法外,生成对抗网络(GANs)等深度学习结构也实现了合成数据生成的半自动化。在此结构中,生成器和判别器神经网络通过物理信息正则化同步训练以生成物理一致的合成数据。更多关于此类网络的信息及其在文献中的实施案例可参见4.4.5节:生成式深度学习网络。 在PIML范式普及之前,早期的研究已经利用上述各种物理引导合成数据生成的优势和性质,大规模地生成物理上一致的结果,用于数据驱动模型的训练过程。这些研究并非通过从头定义数据驱动模型,而是使用在基于物理的模型中定义或由基于物理的模型定义的先验参数或变量来充分发挥作用。例如Tian等(2015)和Frank等(2016)分别在其ML模型中采用物理模型指导的数据预处理技术生成或补充输入特征空间。Tian等(2015)探索了基于谱峭度的特征提取策略应用于电机轴承故障监测与诊断,随后采用半监督K近邻(K-Nearest Neighbour,kNN)算法进行分类。Frank等(2016)提出建筑能耗故障诊断与异常检测的混合模型,采用高保真系统模型补充数据驱动模型所需数据。该模型结合健康与故障状态数据,通过支持向量机(SVM)和随机森林(RF)等分类算法识别异常行为。最近,Karandikar等(2021)提出了一种逻辑分类方案,利用已知的物理规律作为模型的约束条件,对机床的退化进行建模。在他们的研究中,切削速度和刀具寿命之间的非线性物理关系是通过对输入参数的对数操作嵌入的。通过将切削速度、时间等输入变量进行对数转换,构建出符合泰勒刀具寿命模型物理规律的特征空间,作为逻辑分类器模型的输入。这种方法在对数空间中强制实现线性关系,确保了模型预测结果与泰勒刀具寿命理论的一致性。同样,Li等(2020)提出了一种基于深度卷积神经网络(CNN)的代理模型用于刀具磨损监测。该模型利用传感器提供的高保真信息,通过振动模态分析或有限元分析等基于物理的方法获取信息。基于物理的方法不仅可以通过确定传感器位置来优化数据收集程序,而且可以作为构建健康指标的特征工程机制。随后训练一个ML模型来学习低保真信号与已建立的健康指标之间的关系。Hao等(2023)通过在输入特征空间中嵌入各种物理参数,提出了一种估计多晶合金缺口疲劳退化的框架。通过敏感性分析,确定了影响其性能的关键参数:由Basquin模型得到的无缺口试样参考寿命,由Neuber法则得到的缺口根部应力状态和应力比,以及由Smith-Watson-Topper模型得到的能量型损伤参数。总之,这篇文章提出的基于Latin超方形抽样的PIML模型具有良好的泛化能力和预测能力。 对于涉及固体结构的应用,例如结构健康或机械健康监测,现有文献中的一个共同主题是使用有限元模型来生成物理数据。有限元模型在模拟复杂的真实世界系统时具有固有的多功能性和鲁棒性,通过将复杂的几何结构离散为较小的单元,为预测和分析各种物理行为提供了一种系统的方法。更具体地说,每个元素都是使用描述控制特定元素行为的物理的数学方程建模的。在此方法框架下,代表系统物理特性的控制方程或本构方程可被嵌入机器学习模型的特征空间。质量守恒、动量守恒、能量守恒等物理定律,以及材料属性、边界条件等物理约束,均能以数学形式表征并通过弱约束形式实现。诸多研究通过有限元仿真建立物理模型,将系统物理特性融入数学公式体系。例如,Seventekidis等(2020)在结构健康监测的损伤识别研究中,将有限元模型作为仿真数据源训练机器学习模型,其实现流程遵循图1(B)所示的通用范式。 健康状态分类模型仅利用有限元模型在各种加载条件下产生的带标签的结构响应振动数据进行训练。通过有限元仿真获得的结构响应振动数据将作为CNN分类器的输入,该模型在基准线性梁结构应用中表现出优异的损伤状态判断精度。Seventekidis等(2020)的研究正是采用这种训练策略的典型案例。Rai和Mitra(2021)在铝板样本的兰姆波响应损伤定位研究中,采用有限元仿真构建损伤特征数据库的创新方法值得关注。研究人员通过建立损伤参数数据库,将其作为ANN训练过程的输入,并采用鲁棒的Levenberg-Marquardt算法进行参数更新,实现了损伤特征的有效学习。在齿轮箱故障诊断领域,Liu等人(2020)通过有限元方法数值模拟齿轮箱运行时的故障样本,将获取的时域和时频域信号分离,并基于此生成故障样本用于极限学习机模型的训练,展现了有限元仿真在复杂机械系统监测中的应用潜力。Bansal等(2022)关于异种材料接头电偶腐蚀的研究提出了创新性框架。通过建立考虑环境因素的有限元腐蚀模型模拟材料损耗,并基于敏感性分析结果选择与材料损耗最相关的参数作为特征,成功实现了基于物理信息机器学习(PIML)的节点代理建模。 在复杂系统建模领域,广义过程(GPs)作为一种贝叶斯非参数模型脱颖而出。GPs固有的不确定性量化(UQ)的能力,适用于需要预测置信度的复杂系统建模。在最近的文献中,GP在PIML中的可行性得到了很好的证明。Chen等(2021)的研究展示了如何利用GPs求解非线性偏微分方程(PDEs)并从中学到规律。该研究强调了GPs如何有效利用PDE的结构指导学习过程,从而提升模型的准确性和可解释性。作者提出了一个基于GPs的框架,用于求解非线性PDE及其反问题(如PDE中的参数识别)。该方法将配点核方法自然扩展到非线性PDE和反问题中,确保了对广泛PDE类的收敛性,并能计算特定PDE近似的误差边界。其核心思想是通过引入代表配点处解导数的附加变量,将无限维优化问题降维为有限维问题。最终,采用改进的高斯-牛顿法高效求解优化问题,该方法通过逐次线性化非线性PDE实现。此外,该方法的计算复杂度与当前最先进的稠密核矩阵求解器相当,具有实际应用价值。与传统方法不同,该算法可同时求解参数和PDE解,显著提升了效率。通过对非线性椭圆PDE、Burgers方程、正则化Eikonal方程以及达西流中的渗透率识别等问题的实验验证,该框架的有效性和通用性得到了充分体现。此外,论文为理论分析奠定了基础,提出了将线性回归分析技术推广到配点法求解非线性PDE的新研究方向。未来方向包括解决解的唯一性和收敛速率问题、获取严格的误差估计、学习分层核参数,以及将该框架与非高斯先验的贝叶斯逆问题结合。这项工作的核心贡献在于捕捉复杂动力系统的底层物理规律,并通过鲁棒的UQ实现高精度预测。这一能力在传统方法因计算限制或缺乏解析解而失效的仿真和建模场景中尤为重要。Yang等(2019)的另一项重要研究提出了一种多保真度建模方法。该方法通过协同克里金法(高斯过程的高级形式)将高保真和低保真数据与物理定律融合。该研究强调了多保真度建模在PIML中的重要性:通过原则性融合不同来源的信息(如实验数据和多分辨率仿真数据),可提升预测能力和UQ。Yang等证明了物理信息协同克里金法(CoPhIK)能有效整合异质数据源,同时遵守物理规律,从而实现数据与模型的高效收敛。论文提出的CoPhIK通过结合高保真数据(如观测值)和低保真数据(如随机物理模型的输出)提高精度。其核心是使用物理信息克里金(PhIK)构建低保真GP,并通过参数化GP建模低保真与高保真数据间的差异。该方法通过融入部分物理知识降低了超参数推断的优化成本,并证明其满足物理约束至误差界内。此外,CoPhIK结合贪婪主动学习算法指导新增观测位置的选取。通过函数重构、热输运问题状态重构以及稀疏测量下的示踪剂分布学习等案例,CoPhIK的效率和精度得以验证。这种多保真方法将高精度数据与易获取的低精度数据结合,提供了对建模系统的全面理解,从而在保持计算效率的同时增强了模型的预测能力。Kohtz等(2022)将高斯过程回归用于锂电池的剩余寿命预测。他们通过物理有限元仿真模拟了主要退化过程(固态电解质界面层的形成),并将仿真结果与实验数据结合训练基于协同克里金的多保真模型,最终建立了测量电压曲线与电池健康状态的经验关系。总体而言,GPs的概率特性具有显著优势。预测不确定性的量化能力不仅提高了模型的可靠性,还为预测置信度提供了宝贵洞见。这一特性在状态监测(CM)应用中尤为重要,因为基于模型预测的决策可能产生重大后果。通过评估和传达与预测相关的不确定性,用户可在考虑潜在风险和结果变异性的前提下做出明智决策。 在数据收集仍然是一个限制因素的系统中,合并综合生成的数据或特征可能是非常有价值的。PIML模型通常被用于预测各类应用中难以直接观测的变量。通过利用物理约束,这些模型能够深入揭示复杂系统的行为特征,即使直接测量手段受限或不可行。例如,Chao等(2019)的研究探索了一种混合方法用于发动机故障检测与隔离。在该研究中,作者构建了发动机的物理模型,并利用无迹卡尔曼滤波器推断不可观测的过程变量。通过这一过程,作者有效增强了两种数据驱动诊断模型(分别基于ANNs和变分自编码器(VAEs))的特征空间。以此研究为基础,作者进一步扩展模型,提出了用于发动机系统群的预测与剩余使用寿命(RUL)预测的混合框架(Chao et al., 2022)。同一团队的另一项研究则利用系统物理模型预测与组件健康状态相关的难测参数,并将估计参数与观测数据结合输入NN,形成物理增强的特征空间。其他案例包括Darr等(2023)的研究,其目标是检测并缓解推进系统在发射过程中与异常相关的问题。该团队提出了一种新型数据生成方案,通过自动化物理仿真过程生成异常数据,并利用长短期记忆网络(LSTM)检测异常行为和事件。Alotibi和Tipper(2022)创建了一个检测风电机组运行中虚假数据注入攻击的框架。通过基于物理的模型解析来自物理设备的功率输出等监测参数,该模型基于动能定律,为ML增加了可用的特征空间。异常检测采用基于物理信息的孤立森林。该算法将测量的历史时序数据与基于物理模型的特征增强相结合,以创建用于异常检测的随机森林集成。作者通过将该框架应用于真实世界的数据集,证明了在他们提出的框架中融合物理学的能提升异常检测精度。 在监测电化学应用中的健康状态,Li等(2021)采用了高保真的电化学热物理模型,用于生成电池中关于电化学状态的不可观测数据。生成的变量如锂离子浓度和电势被用于神经网络的训练过程中,该网络学习可观测数据和物理上无法测量的数据之间的非线性关系。在Hopwood等(2022)的另一项研究中,作者主要采用物理建模来克服与光伏阵列的高保真CM相关的成本问题。Hopwood等(2022)提出了一个完全合成的训练数据集,该数据集基于光伏阵列在健康状态、局部污损故障状态和电池裂纹故障状态下的物理模拟,其框架如图2所示。利用生成的数据训练一维CNN用于故障的分类,并通过观测数据验证了该方法的有效性。从实验来看,在合成数据集上训练的ML模型的精度与观测数据的精度相当。Zgraggen等(2022)采用了类似的策略,利用综合生成的数据来补充可用的标记故障数据。针对故障场景标记数据的稀缺性,基于给定跟踪传感器倾角产生的相关辐照度和功率的模型,提出了一种通过物理知情破坏可用正常运行数据的故障生成策略。通过物理模型,为CNN模型诊断光伏电站太阳能电池板群中跟踪传感器的异常状态增加了一组训练数据。图2 在ML故障分类算法的训练过程中,采用数据增强的方法融合模拟故障和运行数据(源自Hopwood等(2022))在结构部件健康监测应用方面,Tsai和Alipour(2023)通过其提出的长短期记忆网络(LSTM)进一步实现了结构受风激励作用下的监测与响应预测数据生成流程的自动化。研究者采用基于优化空气动力学和气动弹性参数的数学模型,生成结构响应的合成数据。为了进一步促进数据生成并避免与数学模型相关的计算成本,利用数学模型训练一个中介LSTM网络,以自动化地生成大量数据,同时保持对结构响应物理原理的相对遵守。进一步利用模拟响应产生的数据训练LSTM分类器,并结合监测数据预测结构响应。类似地,Kaneko等(2022)采用了一种基于物理信息的数据生成方案,用于估计海上钻井系统中的不可观测参数。模型的输入数据是通过系统的物理模型产生的,各种输入参数被输入到系统中以获得可测量的数据,并识别不可测量的数据。其一般过程如图3所示。图3 该混合模型以基于物理的建模为基础,将可观测参数映射到不可观测参数,作为ML算法的输入随后,训练一个门控循环单元(GRU)型的循环神经网络(RNN),用于从物理模型中导出各种输入、输出、参数和可测数据与不可测数据之间的关系。Liu等(2021)提出了一种新的可泛化的物理信息模型,用于增材制造过程中孔隙率的监测和预测。作者并不是直接将机器的工况与零件内部的孔隙率建立联系,而是推导了机器工况的直接物理效应,如能量密度和压力分布。使用物理解释作为输入特征,可以提供一个通用的、与机器无关的诊断框架,从而产生出卓越的预测能力。 除了对输入特征空间进行扩充外,物理引导的方法也被用于特征选择和特征工程。通过将物理约束、方程或关系集成到特征选择算法中,能够更好地识别与潜在物理机制相一致的本质特征,为数据分析、预测和决策提供更鲁棒和可解释的模型。在Li等(2019a)的工作中,作者提出了一种基于替代定理原理的具有物理解释的特征向量,用于电网系统中的故障定位。通过CNN对特征向量进行解析,以大幅降低有效故障定位所需的网络复杂度。另一个例子是Boushaba等(2022)的工作,作者比较了一种基于物理信息的CNN方法在感应电机故障检测中的有效性。需要特别指出的是,在其研究中, 在使用设计的网络进行分类之前,来自电机电流特征分析的测量数据通过傅里叶变换在频域进行预处理,形成网络的输入,如图4所示。图4 基于物理的输入数据预处理(源自Boushaba等(2022))在这里,预处理步骤主要用作特征选择的方法,从与故障相关的信号频谱中提取某些子带。Silva等(2020)实现了多故障类别系统中传感器故障检测过程的自动化。由于系统的复杂性和高维性,采用Proctor等( 2016 )定义的带控制的动态模态分解(DMDc)来辨识传感器读数关于时间的线性时不变模型。尽管DMDc是数据驱动的,但该方法本身允许从业者从复杂的数据中识别和提取潜在的相关结构或模式。由此,DMDc可以揭示系统中的主导行为模式,并展现其背后的物理机制。该模型采用卡尔曼观测器,实时提供健康状态下传感器测量变量的估计值。对于异常的分类,特征部分来源于DMDc过程。在验证过程中,可以通过线性时不变系统计算决策树期望的特征,并对测量异常进行分类。Ma等(2023)采用基于物理信息的LSTM网络研究了电动静液作动器系统的退化机理。由于退化机理的复杂性,作者对特征进行了物理意义上的选择,并基于系统的失效机理进行了模型超参数的选择。在他们的研究中,系统的物理状态用一个物理参数指标来表示:上升时间。根据系统的物理状态,选择监测数据集,并将其拆分为训练和测试数据集,用于训练和评估LSTM网络。通过选取的数据集进行不同超参数的网络性能评估,选取最准确预测对应的参数。最后,在Jakubowski等(2022)的工作中,作者提出了一种基于物理信息的自编码器模型,用于冷轧过程中设备中轧辊磨损的预测。与上述情况类似,使用基于物理的仿真模型进行输入空间扩增。在这种情况下,与冷轧磨损相关的参数信息,如摩擦系数和前滑,是在可获得的先验知识下产生的。轧辊磨损预测通过自编码器实现,其中结合从退化早期阶段提取的数据和物理衍生特征来训练自编码器。根据与既定标称状态的偏差对轧辊磨损进行了预测。此外,通过反事实解释方法,作者试图提高网络预测的可解释性。 研究者提出了针对随时间演变的特征空间选择方法。Green等(2022)提出了一种基于物理信息的特征空间评估策略,用于监测机电复合载荷。该研究通过载荷可分离性验证筛选特征,评估历史训练数据对未来分类的可靠性。基于主成分分析生成的超椭球区域几何构型,该方法将时变演化过程中的物理机制进行数学表征。通过这种创新方法,研究者有效解决了多载荷工况下系统运行漂移或性能退化导致的特征可分性问题。研究团队通过支持向量机和NN两类线性和非线性分类器验证了该方法的有效性。 总体而言,基于已知物理原理的特征增强方法为实施ML算法的柔性约束提供了一条便捷途径。通过构建与物理规律相适配的特征空间,算法预测能力被有效限制在物理可行域内。然而值得关注的是,尽管这类模型建立在物理一致性训练数据基础上,其内部决策机制仍存在"黑箱"特性。更为关键的是,由于仅对特征空间实施柔性约束而非模型本体约束,此类算法在特定场景下仍可能产生违背物理定律的偶发性预测。这种特性在工程应用中可能引发关键误判风险,需要研究人员持续关注并改进约束机制。 4.1.2 迁移学习 ML算法的另一种集成方法可能是通过迁移学习( TL )过程。TL是ML和深度学习应用中常用的一种技术,通过训练执行特定任务的模型来执行与原任务相似的替代任务。由于其提高性能和降低训练要求的能力而变得突出,并且由于其时间和数据效率在图像分析、自然语言处理和语音识别等应用中得到了大量的使用。通过迁移学习,预训练的模型有效地充当了特征提取器,利用从源域学习到的特征,并对目标域进行重新定位。通过这一过程,所需的训练时间和资源大幅减少,使得TL适合于降低复杂深度学习架构的成本。搜集到的相关工作汇总如表2(受篇幅限制,可参看原文)。 TL框架的定义可参考Pan和Yang(2010)。对于给定的目标域和未知的学习任务,迁移学习框架的目标是基于从源域和已知学习任务中获得的潜在知识,使用学习到的预测函数。目前,TL框架在深度学习应用中得到了广泛的应用。由于神经网络的强大逼近能力,预测函数很容易被非线性前馈函数逼近。典型TL框架的总体操作流程如图5所示。图5 作为ML中的一种技术,迁移学习的原理和功能:利用从一个任务中获得的知识来提高另一个相关任务的性能 在文献中,有两种主要的方法可以将迁移学习纳入PIML框架:通过利用源域知识,经过训练的模型可迁移至各类工程应用的目标域。源域既可基于物理模型构建,也可通过定义物理一致性约束确保模型符合物理原理。相较于传统ML方法需在大规模数据集上从头训练的耗时耗能过程,基于物理的模型能更准确地表征系统底层动力学特性。TL通过整合基于物理模型的系统动力学先验知识,可有效降低模型计算复杂度,实现高效训练与推理(Torrey和Shavlik, 2010; Zhuang等, 2020)。此外,基于物理或物理信息数据也可作为目标域训练数据,通过针对目标问题特性的小规模数据集进行模型微调。通过预训练参数初始化,模型已具备对目标特征的初步认知,从而加速微调过程的收敛速度。这种微调机制使模型能自适应调整特征表达,实现预训练模型在特定任务中的定制化改造。在此框架下,源域充当特征知识库的角色,迁移学习通过特征复用显著降低目标域数据需求,并大幅缩短训练周期。 TL方法的具体应用可见于Guc和Chen(2021)的研究。该团队提出了一种基于物理信息CNN的复杂动态系统故障源识别方法。通过动态模态分解构建系统的物理表征,形成线性降阶时空模态。这些动态模态随后通过连续小波变换被转换为时频域图像。故障状态的分类采用基于GoogLeNet(Szegedy等, 2015)预训练结构的CNN图像分类器实现,该网络架构包含22个主要层,采用加权Gabor滤波器的Inception架构。研究团队后续将该框架扩展应用于传感器多故障诊断,并通过目标系统实时速度控制的实验验证了框架的有效性(Guc和Chen, 2022)。 通过利用已学习相关特征的预训练模型,迁移学习显著降低了对标注数据量的需求。相较于在新数据集上从头训练,通过选择性更新网络特定层即可实现模型对新任务的适配。在状态监测和异常检测领域,基于物理的模型被广泛应用于缓解标注数据不足的挑战。例如,Gong等(2021)开发了面向航天控制力矩陀螺异常检测的物理信息迁移学习神经网络框架。该框架通过ANN捕捉遥测信号间的非线性功率消耗关系,采用TL方法对健康状态模型的最后一层进行微调以表征设备退化状态。基于马氏距离构建性能指标,结合核密度估计方法实现异常检测。Ye等(2022)提出多保真度建模框架,利用基于物理的低保真数据预训练神经网络,结合有限的高保真实验数据进行模型再校准,成功实现了颗粒材料填充式阻尼器的鲁棒表征。Schröder等(2022)将迁移学习范式应用于风力涡轮机运行的异常检测,通过基于物理的蒙特卡洛模拟生成预训练数据,结合监测数据验证了该物理约束神经网络在涡轮叶片角度异常检测中的优越性。该模型在数据有限的条件下展现出卓越的预测精度和鲁棒性。Miele等(2023)近期提出面向结构健康监测的迁移学习启发式神经网络框架。受高保真模型计算资源限制,研究者选择基于二维有限元模拟的低保真物理模型进行初步网络训练,保持模型权重不变的情况下增加网络层,通过三维高保真有限元模拟数据实现模型再校准。该混合模型在混凝土试件概率分类任务中展现出良好性能。 数字孪生(DTs)作为源领域物理约束数据的重要载体,是通过融合传感器数据、物理模型和机器学习算法构建的物理系统数字镜像。这种虚拟副本能够实时模拟真实系统行为,在预测性维护和状态监测领域得到广泛应用,显著提升了各类工程任务的效率(Liu等, 2022)。图6展示了数字孪生框架与机器学习协同工作的通用实现方案。图6 TL在DT环境下的应用表示,是对一个物理实体或系统的虚拟表示,展示了从一个预先存在的DTs环中迁移知识的过程。 DT的一个关键优势在于能够实现物理系统的实时监控、分析和优化,使用户能够识别潜在问题并基于数据驱动做出优化决策,从而提升系统性能和运行效率。近年来,学术界对将DTs与ML算法结合构建PIML框架的关注度持续升温。该方法的核心理念是:利用数字孪生生成的数据训练机器学习模型,进而将模型应用于真实物理系统,实现系统行为预测与性能优化。 TL为降低数字孪生在CM应用中的计算资源需求提供了重要策略。尽管TL通过复用预训练模型或跨领域知识实现领域适应,从而提升模型效率和精度,但它并不能完全消除DT开发与部署过程中固有的计算负担。其核心价值在于通过加速模型收敛速度和降低ML模型的训练数据需求,实现现有计算资源的高效利用。在基于DT的状态监测场景中,TL可构建一个复用既有DTs模型知识的框架,从而加速PIML模型的开发进程。具体实施流程通常包含以下四个阶段: 1. 构建目标物理系统或过程的高精度数字孪生模型,确保其能够模拟系统在多种工况下的动态行为。 2. 通过参数化调整DT模型的输入参数和监测系统的输出变量,系统性生成大规模仿真数据集。 3. 利用仿真数据集训练机器学习模型,实现从源域(DT模型)到目标域(具体状态监测任务)的知识迁移。 4. 使用少量真实系统运行数据对预训练模型进行参数微调,提升模型在目标系统上的泛化性能和工况适应性。 真实数据被用于调整模型参数,使其更贴合特定系统的实际行为。一旦训练完成,经调适的ML模型即可部署用于系统行为预测或异常检测。多个工程领域已应用了上述框架的典型案例:Xia等(2021)提出了用于诊断三缸泵系统故障的迁移学习框架。通过构建物理设备的DT模型生成符合系统底层物理约束的数据,同时开发了新型深度降噪自编码器。该自编码器利用DT生成的健康状态数据进行预训练,最终架构可应用于物理设备的异常检测。Deebak和Al-Turjman(2022)提出了类似的DT辅助故障诊断TL框架,专注于机床设备的状态监测。通过引入堆叠稀疏自编码器结构,解决了真实数据匮乏的难题,在降低网络的物理数据需求量的同时提升了模型整体鲁棒性。Teng等(2023)将DT技术应用于桥梁结构损伤诊断,通过仿真数据训练CNN。相较于物理特征未优化的TL分类方法,该模型展现出更优的收敛速度和准确率,验证了仿真知识迁移的有效性。Feng等(2023)将该框架拓展至齿轮表面退化监测领域,基于直齿轮箱系统动力学与退化行为的控制方程开发DT模型,并通过CNN分析DT数据实现齿面点蚀与齿形变化的评估。 通过领域知识的有效迁移,上述TL算法成功整合物理相关知识,显著增强了自动化学习的预测能力。该过程凸显了多项优势:除前文所述的训练时间与数据需求缩减外,TL算法可根据训练数据集特性实现更优的泛化性能。此外,预训练模型通过揭示学习表征及其对决策的影响特征,显著提升了模型预测过程的可解释性。本质上,TL算法专为任务适配的微调而设计,这为实践者提供了构建最终学习流程的额外灵活性——无论流程组件侧重物理推导还是数据驱动,均可实现优化配置。4.2 数据增强的物理模型优化 在现有文献中,另一个常见的范式是将ML模型作为校正机制,用于修正物理模型预测结果与观测数据之间已知的误差或缺陷。当前应用中,物理模型往往基于简化的假设构建,这些假设可能无法准确捕捉现实世界现象的复杂性。因此,物理模型在预测过程中会产生误差或不准确性。多项研究聚焦于开发数据驱动模型以解决这些问题:这些模型通过学习观测偏差的模式,最终将基于物理的模型与机器学习模型协同使用,共同生成预测结果。本节讨论的研究表明,机器学习模型能够与物理模型并行工作,通过结合两者的输出来优化预测结果。表3汇总了采用此类整合策略的代表性研究。表3 利用数据驱动模型与基于物理的模型相结合的方法在此方法中,首先使用物理模型生成初始预测,随后通过机器学习算法进行调整。算法从包含物理模型输入特征及其对应真实结果的训练数据集中学习,并将学习成果应用于对物理模型的预测进行修正。在文献中,这种策略常被称为混合建模或残差建模。图7展示了此类方法的通用流程。图7 通过数据驱动方法对基于物理的建模进行修正的总体流程这种方法的例子在多个场景中都有。例如Shi等(2022)将基于物理的退化模型与深度学习网络相结合来估计锂离子电池的健康状态。该模型整合了基于电化学机理的日历老化和循环老化物理模型,以及一个LSTM。通过引入表征电池运行应力的参数,模型首先计算电池老化的物理预测值。随后,LSTM网络学习观测到的电池状态与物理老化模型预测值之间的时序偏差。实验表明,这种物理信息LSTM模型能够准确捕捉电池的整体退化趋势。 Subramanian和Mahadevan(2023)提出一种基于贝叶斯状态估计的数据驱动校正框架。该框架通过概率机器学习结构学习物理模型误差的分布形式:首先利用物理模型生成初始预测,再通过贝叶斯方法量化模型形式误差。最终,整合后的模型在含高斯噪声和非高斯噪声的线性与非线性系统中均表现出鲁棒的预测能力。Li等(2023)采用双向LSTM网络估计观测退化数据与两阶段随机退化物理模型之间的残差。物理驱动的随机退化模型基于材料疲劳理论构建,而双向LSTM则专注于学习实际观测数据与理论预测的局部偏差。通过将残差项与物理模型输出叠加,该方法显著提升了桥面板钢筋结构退化预测的准确性。4.3 物理信息正则化正则化技术自机器学习诞生之初就是模型训练的基础。传统的正则化方法(如Lasso(L1)或Ridge(L2)正则化)通过引入额外的惩罚项来降低模型对非系统性数据的过拟合能力,从而产生更简单且更鲁棒的解决方案。尽管这类方法已被广泛应用,但当前的新趋势是将基于物理的正则化与ML结合。该方法旨在结合物理模型的优势,提升传统数据驱动解决方案的准 确性、可解释性和鲁棒性。通过将物理系统的先验知识以约束条件或正则化项的形式整合到学习过程中,有效编码物理约束以引导优化过程生成符合物理意义的解。过去基于物理的正则化实现方法涉及求解物理方程,并将其作为约束条件融入优化问题(Oware等, 2013; Ruhnau等, 2007)。然而,这种方法计算成本高昂,且仅适用于已被充分了解的物理系统。随着深度学习技术的进步和大规模数据的可获得性,新兴技术将基于物理的建模与机器学习结合,实现了更高效和可扩展的解决方案。例如,在Raissi等(2019)的开创性工作中,提出了一种利用物理系统结构学习更高效表征的新型正则化方法。这种被称为PINNs的方法,将控制物理系统的偏微分方程作为正则化项融入损失函数。表4(受篇幅限制,可参看原文)汇总了采用该技术的文献。物理引导的正则化主要通过对数据驱动模型施加定制化约束,使其在训练阶段更倾向于生成与底层物理一致的预测。这类约束也被Karniadakis等(2021)定义为学习偏置,并通过物理信息损失函数实现。此类损失函数通过惩罚偏离物理定律的预测,促使模型输出符合物理合理性的解。传统ML算法中的损失函数仅衡量模型预测与真实观测数据之间的经验差异,其目标是通过迭代过程最小化该差异。模型通过调整参数来缩小预测能力与真实数据间的差距。与之形成对比的是,物理信息损失函数额外整合了被建模系统的物理信息(如物理约束、守恒定律等),在惩罚偏离真实观测的同时,强制预测结果满足已知物理特性。通过该框架,ML算法能更有效地约束预测空间,避免违反物理原理。采用这种形式的算法旨在同步最小化标记数据的误差和物理约束的违背。这一特性体现在损失函数的结构设计中:物理信息损失函数由数据驱动损失项和物理驱动损失项共同构成。数据驱动损失项衡量模型预测输出与真实观测数据之间的误差;物理驱动损失项则通过强制解满足特定问题的控制方程,确保预测符合底层物理规律。传统上,满足观测数据(数据驱动损失)通过最小化网络预测与真实状态间的残差实现,可采用均方误差(MSE)或交叉熵误差(CSE)等多种损失对已知物理定律的遵循则需根据具体案例定制实现方式,但上述评估方法已在文献中广泛采用。此类损失函数的通用形式可表示为: 其中参数λ1和λ2是正则化因子,用于调整损失项以使系统特性最佳。因此,在这种架构下,研究者们引入了一种将控制方程融入网络损失最小化方向的方法论。在文献中,物理信息正则化已被用于整合系统在不同故障模式下预期故障特征的知识,以确保模型即使在存在噪声或其他混杂因素的情况下,仍能准确检测和分类故障。例如:Sun等(2021)提出了一种基于电磁声换能器的微裂纹缺陷无损检测与量化方法,该装置通过激发导波进行裂纹检测。Sun等开发了一种名为GuwNet的新型物理信息架构,该网络将卷积层、全连接层和GRU等深度学习模块与裂纹扩展变量的物理参数相结合。通过数据驱动层和物理基础层之间的多种连接关系,以及网络参数对物理过程的表征,该网络采用混合前馈和反馈损失函数进行优化,其中既包含经验误差项也包含物理信息误差项,将超声导波无损检测的物理原理整合到网络训练过程中。物理信息项来源于缺陷深度与超声导波透射波强度、反射波强度的定量关系。相较于传统深度学习方法,该方法在裂纹长度、深度和扩展方向的检测精度上显示出显著提升。Freeman等(2022)提出了一种涡轮转子叶片异常和故障检测的混合方法,通过将涡轮 功率信号提取的故障特征与环境数据结合,确保符合流体动力转子的动力学特性。该框架采用连续小波变换提取统计特征,并通过多项回归进行分类。研究者证实所选时域特征具有物理显著性,能准确反映信号中与湍流强度相关的高频波动行为。基于降维特征空间提取的时域特征,采用神经网络进行湍流强度分类,并通过混合损失函数施加物理约束——对偏离湍流强度动态特性的预测进行惩罚。正则化技术同样应用于疲劳应力和寿命监测领域。Zhang等(2021)通过物理增强特征工程和物理信息正则化,约束了不锈钢试样蠕变疲劳寿命的预测过程。该前馈模型引入了两个物理信息损失项:根据试样蠕变疲劳的预期行为,在损失函数中设置对负值及极端寿命值的惩罚机制。与基准经验方法和纯数据驱动模型相比,该模型展现出优越性能。Kim等(2022a)采用低保真物理特征增强的数据驱动预后模型,提出了获取未标记外推数据训练参数的创新方法。该预测框架通过物理基础正则化项对偏离低保真物理模型的行为进行惩罚,从而同步最小化可用数据的插值误差和嵌入式物理模型的外推误差。研究者通过验证疲劳裂纹扩展与Paris定律的符合性,证实了该方法的有效性。Santos等(2023)在传统海上风力机疲劳监测框架基础上扩展了监测时间维度。传统损伤监测模型侧重于十分钟尺度的疲劳损伤估计,而该研究将方法拓展至长期疲劳累积监测。提出的PINN模型通过最小化Minkowski对数误差,以损伤估计矩的形式获得更保守的疲劳损伤评估。该损失函数的设计确保模型在短期损伤预测和长期损伤估计的精度间取得平衡。Li等(2022)将物理信息损失函数拓展至元学习领域,提出了刀具磨损预测策略。该方法通过跨物理-数据融合建模,将物理推导的模型输入和物理信息损失项与系列机器学习模型相结合。元学习被定义为基于机器学习模型在多任务中的性能表现,系统性地从元数据或积累经验中学习的过程,属于ML子领域,旨在训练AI模型更高效地自主解决问题。研究者从刀具磨损动态关系中构建深度学习算法的输入特征空间,增强模型可解释性和鲁棒性。基于Wang等(2020)提出的跨物理-数据融合方法论,构建了包含三个ML模型的元学习框架,用于学习不同磨损阶段资产退化状态的预测经验。通过物理信息损失函数对测试算法进行优化,该函数根据刀具磨损固有属性和切削力-磨损关系对磨损速率施加约束。4.3.1 基于物理信息的神经网络 PINNs是一个快速发展的领域,它利用神经网络从数据中学习复杂模式和关系,同时融入系统所遵循的潜在物理原理(如PDEs或常微分方程(ODEs))。这种物理信息正则化的具体实现方式,使得预测模型不仅能做出准确预测,还能为系统行为提供物理层面的见解。PINNs之所以被称为“物理信息”,是因为它们将基于物理的知识或约束融入模型训练过程,即对控制性PDE的解空间进行预测。通过引入学习偏置,PINN显著放宽了深度学习算法在训练数据量上的限制(Xu等,2023)。PINNs以少量数据产生高精度预测的能力著称,这在数据获取成本高昂或具有挑战性的场景中尤为重要。此外,PINNs严格遵循系统的物理定律和约束进行设计,其预测结果兼具卓越的准确性和物理意义。这些特性使得PINNs特别适用于物理原理已被充分理解的系统。利用神经网络的计算能力求解微分方程的概念最初由Lagaris等(1998)提出。近年来,Raissi等(2019)通过其研究推广了这一概念,他们证明了PINNs在解决与物理系统控制微分方程相关的前向和逆向问题方面的有效性。PINNs的有效性(如Raissi等(2019)所定义)部分源于其对神经网络万能逼近能力的应用(Hornik等,1989)——该理论指出,具有激活函数的单层前馈神经网络只要包含足够数量的神经元,即可逼近任何函数。自然地,研究者将这一特性扩展到复杂非线性微分方程的求解中,尤其是在数值解或经验解难以获得的情况下。在此类场景中,PINNs被用于学习输入数据与输出变量之间的映射关系,同时严格满足系统的物理约束。除了整合先验知识的能力外,PINNs还能从非完整数据或含噪数据中学习ODEs或PDEs的解,同时满足系统的控制方程,这使其在数据稀缺或获取成本高的应用中尤为实用(Raissi等,2019)。通过这一框架,研究者可以构建既精确又能揭示底层物理过程的模型,使其成为众多科学与工程应用的宝贵工具(Raymond & Camarillo,2021)。Raissi等(2019)提出的原始PINN架构基于前馈结构,用于求解一阶非线性PDE。文献中对该结构有多种命名,如前馈神经网络、ANNs、多层感知器神经网络及深度神经网络。前馈神经网络由多个互连的节点(即神经元)层构成,通过加权连接传递信息。在PINNs的语境下,网络的输入层对应物理域,输出层则代表目标问题的解。中间层(即隐藏层)提供必要的计算能力以实现输入到输出的映射。ANN可以描述为一系列非线性变换。根据网络的数学定义:对于给定的N个神经元的输入层,可以表示为 ,其中 表示输入空间 内的一个特征。该网络可定义为包含 个隐藏层,每层包含 个神经元。由此,第 层隐藏层的输出 可表示为 ,其中 表示第 层隐藏层的第 个神经元。对于每一个隐层,输出 是通过将非线性激活函数 应用于从上一层的输入的加权和来计算的,可以写成: 其中 表示连接第 层中第 个神经元到当前层 中第 个神经元的权重, 表示上一层中第 个神经元的输出, 表示第 个隐藏层中与第 个神经元相关的偏置项。第 个隐含层的输出为: 输出层由 个神经元组成,预测输出表示为 。因此,神经网络的输出可以计算为: 其中 表示连接 层第 个神经元到输出层第 个神经元的权值, 是 层第 个神经元的输出, 是与输出层第 个神经元相关的偏置项。总的来说,可以写作: PINN采用该现有框架作为PDE解的逼近器。一般情况下,非线性PDE以 为参数,它的初始条件和边界条件可以表示如下: 在定义域 内, ,边界为 。表示定义未知函数 及其导数与参数之间关系的非线性函数。所定义的PDE有隐藏解 ,输入空间可能由空间变量 和时间变量 组成。后续综述的一些文献,所讨论的系统可能是与时间无关的,因此,上述方程中与时间有关的项是不相关的。该PDE具有初始条件 和边界条件 。神经网络试图从输入空间(Karandikar等, 2021; Raissi等, 2019)对解 进行计算逼近。NN对解空间的近似表示为: 该近似解的导数可通过自动微分技术计算,利用微积分链式法则(Baydin等,2018)精确求解函数对其输入变量的导数。基于预测解𝑢𝑁𝑁及其导数,可重构控制系统的PDE及其初始条件与边界条件。该重构过程需通过以下三方面进行评估:所提供的标记数据、微分方程本身的残差、对上述任何项的偏差所提供的任何边界或初始条件。这些评估项可表示为: 其中参数 代表各损失项的调节权重。在反向传播过程中,通常以均方误差(MSE)衡量的偏差被最小化,神经网络参数(如权重和偏置)根据控制方程进行相应调整。通过梯度下降等优化算法最小化总偏差,使得网络在建立输入与输出空间映射关系的同时,始终符合已知物理定律和约束条件(见图8)。 图8 PINN架构在CM领域,PINNs通过融合数据驱动与物理建模方法实现了精准预测。其独特优势体现在:可有效处理稀疏噪声数据(Kim等, 2022a)、具备训练数据范围外的外推能力,并提供可解释性结果。这种特性使其能够实现早期故障检测、降低误报率,并支持在线监测应用。自Raissi等(2019)的开创性工作以来,大多数后续研究延续了原始的前馈神经网络架构。然而,研究中已开始尝试将物理约束与各类主流深度学习架构相结合,包括CNN、RNN及其变体、编码器-解码器网络以及图神经网络等。后续章节将详细阐述物理正则化方法在不同神经网络架构中的集成策略。 4.3.2 数据驱动的微分方程求解 大量文献研究利用传统深度学习架构中编码的固有对称性和不变性,这与物理正则化的理念相契合。本节介绍的文献主要采用物理信息正则化作为将物理知识编码入系统的主要方法。研究者们通过发挥特定架构对特定数据类型的独特计算效能,在原始PINN框架基础上进行了重大创新,并将其应用于各自的专业领域。 以CNN架构为例,其独特的卷积层能够自动提取特征而无需人工特征工程,这一特性使其在相关特征难以理解或量化的复杂应用中具有不可替代的价值。McGowan等(2022)的研究就是典型代表,他们通过设计一组损失函数来监测增材制造过程中的孔隙率。该网络的正则化包含标准交叉熵数据损失,以及由物理参数构建的损失项——这些损失项会惩罚熔池温度、长宽比等参数与理想模拟值的偏差。Zhang等(2020)则建立了结构地震响应代理模型,其训练过程通过表征地面激励下动态系统的运动方程进行物理约束。 部分文献尝试将物理信息损失函数作为最小化物理模型与数据驱动模型间差异的方法。Shen等(2021)开发了变转速工况下轴承故障检测的物理信息CNN混合模型,该模型与基于包络谱幅值阈值判据的物理模型协同工作。定制化的物理信息损失函数会对偏离阈值模型(表征健康/损伤轴承的物理极限)的预测进行惩罚,但该方法的有效性依赖于物理模型预测完全正确的强假设。Huang等(2022)在结构健康监测中采用了类似思路,通过有限元模型构建物理域特征,与数据域特征共同输入CNN进行联合训练。其创新的跨物理-数据域损失函数同时评估分类器在标记数据上的表现,以及两个特征域之间的差异度。Yin等(2023)针对车载荷载下的桥梁结构损伤定位问题,基于Visual Geometry Group 16架构(Sim和Zisserman, 2014)开发了数值模拟与实测数据融合框架。混合损失函数包含数据驱动的交叉熵损失和物理信息损失,后者通过惩罚加速度信号时频图特征与数值模拟结果的偏差来实现物理约束(见图10)。这种双域一致性优化策略有效缩小了物理模型与数值模型间的差异。图10 通过特征融合将基于物理和数据驱动结合,其中CNN作为特征提取器。源自Huang等(2022)和Yin等(2023)在编码器-解码器架构(如自编码器)的应用方面,这类网络通过编码器将输入数据压缩为低维表征,再经解码器重构原始数据。由于中间层的低维特性迫使网络学习压缩表示,自编码器特别适合CM任务——它们能学习系统正常工况的表征,并通过重构误差检测异常(Zhou和Paffenroth, 2017)。该策略已被用于后续的研究中,用于有效地进行异常检测,而不需要额外的标记数据。Li和Deka(2021a)设计的物理信息卷积自编码器通过电压-电流椭圆轨迹的物理关系构建混合损失项,解决了配电网高阻抗故障检测中标记数据不足的问题。Russell和Wang(2022)则提出工业状态监测大数据压缩框架,其损失函数融合了传统均方误差、皮尔逊相关系数损失和频域敏感的物理约束项,通过对运行工况的潜在表示进行独立学习来实现最优故障表征(见图11)。图11 跨物理-数据融合,如Wang等(2020)提出的基于数据域(由来自标记监测数据的特征组成)和物理域(由来自未标记数据的特征组成)信息的预测同时映射到一个共享空间,并进行串联。两者都通过回归层进行处理,用于最终的预测。 针对时域监测任务,研究者利用RNN提取时序不变特征的能力也取得显著成果。Wang等(2020)通过跨物理-数据域特征融合方法建模刀具损伤累积,将双域特征映射到共享特征空间后,两个域的预测结果在网络的回归层进行拼接和预测,采用物理信息损失函数最小化双向GRU与经验方程间的差异。Liu等(2023)提出了用于海上结构监测的物理信息RNN。该方法采用最优奇异值分解程序进行结构模态识别,将物理信息模态识别过程公式化为本征系统,并利用RNN求解该本征系统的控制微分方程。 在损失函数评估方法的创新方面,Chen等(2022b)摒弃传统最小化目标值偏差的思路,提出基于马氏距离最大化的LSTM超参数选择策略。该策略通过先验知识生成故障状态振动特征,以健康状态与物理信息故障状态间的差异最大化作为优化目标。总体而言,物理信息正则化技术通过引导算法适应物理可行域(如本节诸多案例所示),成为深度学习训练中引入约束的强大工具。尽管效果显著,该方法仍面临损失函数景观复杂度增加、泛化能力受限等挑战,促使研究者探索通过架构改造引入物理约束的新途径——这将是下一节重点讨论的内容。编辑:陈宇航校核:李正平、陈凯歌、赵栓栓、曹希铭、赵学功、白亮、任超、海洋、Tina、陈莹洁、王金、赵诚,肖鑫鑫该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除来源:故障诊断与python学习

    未登录
    还没有评论
    课程
    培训
    服务
    行家
    VIP会员 学习计划 福利任务
    下载APP
    联系我们
    帮助与反馈