在数据驱动的故障诊断研究中,深度学习方法已广泛应用于工业过程的智能故障诊断,并取得良好性能。然而,基于点估计的故障诊断可能会提供不可信的决策。越来越多的专家学者开始关注一个重要问题:模型推理的“不确定性”该如何理解和处理?近年来,贝叶斯推理通过使用深度学习模型量化决策的不确定性,被证明是一种很有前景的可信故障诊断方法。贝叶斯方法,作为处理和量化模型不确定性的经典工具,在这一领域发挥着越来越重要的作用。本文将用简洁易懂的语言,带大家走进贝叶斯公式的世界,并逐步引出贝叶斯神经网络的核心原理。非常适合对机器学习、不确定性建模以及故障诊断感兴趣的读者。
我们先来看看贝叶斯公式的基本形式:
其中, 是样本空间 的一个完备事件群(组), 为 中的一个事件。同时, 也被称为证据, 也被称为假设。即在证据存在的情况下,该公式用于推测某一假设发生的可能性。
对这个公式的通俗理解:(将事件 视为果,事件 视为因)
等号右边分母:事件 在所有可能的原因 下发生了;
等号右边分子:事件 和 同时发生;
等号左边:事件 (果)发生的原因正好是事件 这一情况的可能性。
贝叶斯理论的魅力,在于它不仅适用于简单事件的推断,还适用于连续空间中的参数建模。在密度函数公式中,可以将 理解为是生成 的本质参数,事物的本质也就是这个事物发生的原因。
为参数空间,对应贝叶斯公式中的完备事件群(组),即 的所有可能性。
为先验分布,即在抽取样本 之前对 的认识。
表示在 存在的情况下, 被生成的可能性。
为后验分布,代表一旦获取样本后,人们对 的认识发生变化和调整。贝叶斯学派的观点看,获取后验分布 后,一切统计推断都必须从 出发。
为边缘分布,也是计算贝叶斯公式的难点,因为现实中多数情况下难以获取到所有 。换句话说,边缘化整个参数空间,通常是不可能的。(备注:边缘化是指累加一个变量的可能值)
贝叶斯推理通常采用的近似推理技术有蒙特卡罗法、变分推理等。(备注:蒙特卡洛指建立一个概率模型或随机过程,使它的参数或数字特征等于问题的解,然后通过对模型或过程的观察或抽样试验来计算这些参数或数字特征,这样就可以获得参数的近似值)
我们通过机器学习方式在已有数据上构建的模型,为的是寻找一个模型,这个模型在拟合或生成该数据集方面有多好。
表示单一模型拟合数据的可能性,可能性越大,代表这个模型越好。
表示所有可能参数设置下的模型对数据的拟合效果,即模型的整体效果,也等于数据的可能性。
我们假设通过某种方式已经求出了 ,很明显就可以知道在拟合数据 上,哪一个模型更好用。这种操作即最大后验估计,但也只得到一个点估计,完全浪费了贝叶斯理论。
成熟的贝叶斯方法是完全预测分布:
即考虑了所有参数设置的模型,通过 和 ,直接求得 。 中的 为通过数据得到的某一具体参数的模型, 表示某一具体参数的模型下的权重。 为某一模型的预测标签概率。这样的操作称为贝叶斯模型平均。
实际中我们做不到完全预测分布,那可以做近似预测分布,称为预测分布的蒙特卡洛近似!只需要依据训练集 建模出权重分布 ,就可以依据蒙特卡洛方法,采样 个服从 分布的样本(这里的背景下,样本指模型),计算 。这与深度模型集成的理念完全一致。
贝叶斯神经网络(Bayesian Neural Network, BNN)是什么?(1)一种后验推理;(2)应用于神经网络架构。BNN 用一个概率分布来表示网络中的每一个权重参数,而不是确定的数值。
贝叶斯神经网络在求解后验的问题上,采取方式是用分布 逼近 !
那么此时的 就是高斯分布参数(这里对应贝叶斯神经网络的一个假设)
具体操作是最小化两个分布的KL散度:
将神经网络的权重参数设定为高斯分布参数,且权重相互独立。最终优化目标转化为 在贝叶斯神经网络下的损失函数:(推导过程可参考https://blog.csdn.net/dhaiuda/article/details/106383465)
案例研究贝叶斯深度学习框架下的可信故障诊断方案。该案例通过贝叶斯深度学习框架的优势量化样本的不确定性,并引入模型学习过程,提高故障诊断精度。原案例文章可通过点击最左下角的阅读原文进行在线阅读及下载。在工业故障诊断中,多种因素导致了深度学习模型的不确定性,包括数据固有噪声、数据收集不足、故障类别重叠以及训练集和测试集之间的差异。深度学习提供的不确定性可以指示诊断结果是否值得信赖,并提醒专家做出谨慎的决策。因此,量化不确定性并提高诊断结果的可信度是可取的。近年来,贝叶斯神经网络的研究已应用于健康监测,以评估诊断输出的可信度并识别未见故障。然而,贝叶斯神经网络的通用训练过程会平等对待每个样本,无论不确定样本是否经过良好学习。不确定样本对于深度模型来说也是难以学习的样本,这会损害诊断结果的可靠性并增加维护决策的难度。
文章提出了一种具有不确定性反馈机制的贝叶斯层次图神经网络 (Bayesian Hierarchical Graph Neural Networks,BHGNN),用于工业过程的可信故障诊断。具体而言,将变分丢弃法引入 BHGNN 模型,以量化认知不确定性和随机不确定性。然后,将不确定性作为反馈,调整时间一致性 (Temporal Consistency, TC) 损失函数和故障监督损失函数的权重值,使不确定性较高的样本的特征表示与时间序列中相邻样本的平均特征相似。
图1 BHGNN框架
BHGNN 模型是通过 dropout 变分推理进行学习的,案例中,BHGNN 模型遵循异方差噪声假设,即观测噪声可以随输入数据而变化,而不是整个数据集的观测噪声为恒定值。异方差模型可以判断数据的哪部分可能具有更高的噪声。为了捕捉异方差不确定性,假设观测噪声与数据相关,并且可以作为数据的函数进行学习。因此,BHGNN 同时包含均值和方差输出:
其中, 取自 BHGNN 模型的变分分布 。在 BDL 框架下,当给定一个图 评估 时,对 BHGNN 模型进行 次随机前向传递,用于训练和测试过程。模型均值输出通过 softmax 函数压缩以进行分类, ;在方差输出层应用 softplus 激活函数,以保证正域中方差的有效值 。因此,样本预测不确定性可以实现为:
将计算的不确定性作为样本不确定性,以此为基础,加入到神经网络训练loss中,学习难学习的样本。
编辑:任超
校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、曹希铭、冯珽婷、陈宇航、陈莹洁、王金、赵诚、肖鑫鑫