首页/文章/ 详情

中科院一区Top开源代码推荐｜用于跨机器工况下故障诊断的深度判别迁移学习网络

故障诊断与python学习

11天前浏览1279

迁移学习是当前故障诊断领域的研究热点，然而针对其开源代码较少，小编整理搜集了一些开源代码与大家进行分享。本期分享的是用于跨机器工况条件下故障诊断的深度判别迁移学习网络，该论文是重庆大学钱泉博士于2023年发表在中科院一区Top期刊Mechanical Systems and Signal Processing上的，并提供有该作者原创的开源代码和北交何超博士复现的pytorch框架代码，因此这篇开源代码适合参考借鉴并在上面进行改进学习，适合具备一定的深度迁移学习基础知识的学习者。

该方法是用多个轴承数据进行跨设备的智能诊断，很贴合实际工程应用场景，非常值得阅读！

1 论文基本信息

论文题目：Deep discriminative transfer learning network for cross-machine fault diagnosis

论文期刊：Mechanical Systems and Signal Processing

Doi：https://doi.org/10.1016/j.ymssp.2022.109884

论文时间：2023年

作者：Quan Qian, Yi Qin, Jun Luo, Yi Wang and Fei Wu

机构：

State Key Laboratory of Mechanical Transmission, Chongqing University, Chongqing 400044, People’s Republic of China; College of Mechanical and Vehicle Engineering, Chongqing University, Chongqing 400044, People’s Republic of China

第一作者简介：钱泉，重庆大学机械工程专业博士研究生，中共党员，重庆大学在校生最高荣誉——学生年度人物获得者，长期从事于机械装备故障诊断与预测性维护，共发表国际知名SCI论文15篇，其中以一作发表中科院一区9篇、中科院二区1篇、IF>10高水平论文3篇，谷歌学术累计被引380余次，累计影响因子110+；已经申请发明专利14项，其中以学生一作授权中国专利4项、公开中国专利5项和英国专利1项。

2 摘要

目前，研究者已经提出了很多用于解决目标域和源域之间的分布对齐和知识迁移问题的领域自适应方法。然而，大多数研究方法只关注到边缘分布对齐，忽略了目标域和源域之间判别性特征的学习。因此，在某些案例中，这些方法仍然不能很好地满足故障诊断要求。为了提高分布一致性，并且对齐两个域的边缘分布和条件分布，我们提出了一种改进联合分布自适应(Improved Joint Distribution Adaptation, IJDA)机制。在该方法中，我们将最大均值差异和相关对齐(Correlation Alignment, CORAL)方法相结合，作为一个新的分布差异度量方法用于提高分布的一致性。在此基础上，提出了一种改进的条件分布对齐机制。另外，我们提出了一种新的I-SoftMax损失，该损失相比原始SoftMax损失具有更强的分类能力，可以帮助网络学习到更多可分离的特征。我们利用IJDA机制和I-SoftMax损失，构建了深度判别迁移学习网络(Deep Discriminative Transfer Learning Network, DDTLN)来实现迁移故障诊断。基于没有标签的目标域样本，我们对六个跨机器诊断任务进行实验，证明该方法与其他典型的域自适应相比，具有更高的迁移故障诊断性能。

关键词：判别特征学习，联合域自适应分布对齐，分类损失，故障迁移诊断

3 目录

1 论文基本信息

2 摘要

3 目录

4 引言

5 所提方法

5.1 DDTLN框架

5.2 改进联合分布自适应

5.3 I-SoftMax 损失函数

5.4 优化目标

6 实验

6.1 数据集描述

6.2 故障诊断任务和实施细节

6.3 I-Softmax损失的有效性分析

6.4 实验结果与讨论

6.5 进一步实验研究

7 总结

注：本文只选中原论文部分进行分享，若想拜读，请下载原论文进行细读。

小编能力有限，如有翻译不恰之处，请多多指正~

4 引言

由于工业大数据和测量技术的快速发展，前沿的故障诊断和预测算法引起了许多研究人员的关注。由于深度学习方法不依赖人为经验，因此基于深度学习的故障诊断方法成为近五年来的研究热点。然而，在实际工程领域中，获取足够的标签是极其困难的，这意味着深度学习模型的鲁棒性和泛化能力无法得到有效的保证。另外，深度学习的诊断模型要求训练数据集和测试集满足相同概率分布。然而，旋转机械由于工作载荷、传递路径、噪声干扰、故障程度甚至复杂的机械结构等因素的影响，必然会产生显著的分布差异。

为了解决上述问题，迁移学习(Transfer Learning, TL)被提出，首先它减少目标域和源域之间的分布差异，然后将从有标签的源域中学习到的知识共享到有少量标签或没标签的目标域。域自适应(Domain adaptation, DA)减小了目标域和源域分布的差距，并学习域不变特征。主流的深度DA机制可以分为基于对抗的机制和基于统计度量的机制。例如，研究者提出了深度域混淆(Deep Domain Confusion, DDC) [6]和深度自适应网络(Deep Adaptation Network, DAN)[7]来执行具有最大平均差异(Maximum Mean Discrepancy, MMD)距离度量的跨域图像分类任务。深度相关对齐(Deep correlation alignment, DCORAL) [8]也获得了比典型协方差方法更好的结果。受生成对抗网络(Generative Adversarial Network, GAN)的启发，Ganin等人[4]提出了一个域识别器来区分源域和目标域。然后，通过特征提取器和域混淆器之间的对抗学习来实现域混淆。在故障迁移诊断领域，Long等人[9]采用三层稀疏自动编码器网络和MMD度量对西储大学(Case Western Reserve University, CWRU)轴承数据集进行故障诊断。为了进一步增强域混淆能力，作者[11]通过结合对抗机制和距离度量来提高不同负载下的迁移诊断准确率。针对各种类型的迁移任务，基于DA的方法可以分为部分域自适应[12]、闭集域自适应[13]、开集域自适应[14]、通用域自适应[15]、源域和目标域中的多对一域自适应[16]以及源域和目标域中的一对多域自适应[17]。例如，为了执行轴承和齿轮的部分迁移诊断，Li等人[12]提出了一种新的权重选择对抗网络。他们构造了一个辅助神经网络来获得源域样本和目标域样本的实例权重的网络。Zhang等人[15]建立了一种深度混合加权DA机制来诊断轴承故障，其中源域标签空间和目标域标签空间之间的先验关系是未知的。Chai等人[16]提出了一种多域精化迁移学习网络，通过权值选择机制从多个域中获取目标域对应的共享类，打破了每个源域的标签空间与目标域相等的假设。

尽管上述基于DA的方法在多个领域和迁移任务中取得了很好的结果，但是他们忽视了两个重要因素。首先，他们仅仅关注目标域和源域边缘分布对齐(Marginal Distribution Alignment, MDA)，而忽略了两域中对应类别的条件概率分布(Conditional Distribution Alignment, CDA)。Long等人[18]提出了包括MDA和CDA的联合分布，用来提高DA能力。然而，将类别条件概率分布近似替换条件概率分布一定程度影响了域混淆的能力。其次，分类迁移任务的目标是获得判别性且域不变特征。然而，几乎所有的DA模型主要考虑域不变的特征学习，同时忽略了判别特征学习。由于噪声干扰等因素的影响，故障传递函数比较杂乱，不利于故障的迁移诊断。因此，在DA中，我们更需要可区分的特征学习机制（判别性特征学习），也就是要求较小的类内距离和较大的类间距离。

在可区分特征学习中，相关工作可以被分为两个方面：损失函数的设计和网络架构。例如，Liu等人提出L-SoftMax和A-SoftMax通过将原始欧式距离特征空间映射到角空间来调整所需的边缘。然而，由于余弦函数的非单调性，优化是极其困难的。Wu等人设计了一种包括两个分类器的新网络架构，以通过最大分类器差异(Maximum Classifier Discrepancy, MCD)对抗机制获得更好的识别性能。

目前故障迁移诊断存在的关键问题是：（1）传统的联合分布自适应机制由于其机理近似性，不能较好地实现域混淆。（2）现有的DA诊断方法忽略了判别式特征学习。（3）现有的判别式特征学习方法存在优化困难或不稳定的问题。为了解决这些问题，提出了基于卷积神经网络(Convolutional Neural Network, CNN)的深度判别迁移学习网络(Deep Discriminative Transfer Learning Network, DDTLN)。DDTLN主要由改进的联合分布自适应(IJDA)和改进的Softmax(Improve SoftMax, I-Softmax)损失组成。在IJDA，CORAL和MMD相结合，作为一个新的分布差异度量(Distribution Discrepancy Metric, DDM)，以提高域混淆。此外，本文还提出了一种改进的CDA机制，以实现更大程度的域混淆。为了获得更高的诊断精度和学习更多的可分离的功能，我们提出了I-Softmax。本文的主要贡献如下：

考虑到现有CDA机制的近似性，我们提出了一种新的CDA机制，以更好地对齐两个域的真实的概率分布。改进后的CDA机制与 MDA机制相结合构成了IJDA机制。
为了从均值和协方差两个方面更好地度量分布距离，设计了一种结合MMD和CORAL的改进度量，进一步减小了分布差异。
为了学习更多可分离的故障特征，提出了一种新的具有灵活裕度的I-Softmax损失，使迁移框架在跨机器迁移诊断任务中具有更好的诊断能力。

5 所提方法

5.1 DDTLN框架

所提出的DDTLN的结构绘制在图1中。该框架包括五个一维卷积模块、一个全局平均池化(Global Average Pooling, GAP)层和两个全连接(Fully Connected, FC)层。每个“Cov1D”块由卷积层、批归一化(Batch Normalization, BN)层和最大池化层组成。GAP和BN可以加速网络收敛，减轻过拟合现象。

图1 DDTLN的网络结构；右箭头和左箭头分别表示前向传播和反向传播

表1 DDTLN的详细参数

5.2 改进联合分布自适应

为了克服方程中CDA近似的负面影响，我们提出了一种改进的CDA机制来对齐两个域中的条件概率分布。使用贝叶斯定理，条件概率分布可以转换为类条件概率分布的形式，其表示为：其中，类条件概率分布可以表示为，表示类别先验分布。

MDA的目标是对齐边缘概率分布，改进的CDA机制被表示为：

最终的IJDA机制可以定义为：

在定义IJDA机制之后，我们需要找到一个分布距离度量来评估等式中的边际分布差异和条件分布差异。由于大量的随机噪声，所采集的旋转机械的振动信号近似地经受高斯分布，该高斯分布包括两个估计参数（均值和方差）。因此，为了更好地实现IJDA机制，同时进一步增强域混淆能力，我们将CORAL和MMD分布差异度量组合为新的度量DDM(A, B):

将设计的DDM度量带入IJDA机制，最终的IJDA损失函数可以重写为:

5.3 I-SoftMax 损失函数

对于多分类任务，SoftMax函数由于其概率解释和简单性而广泛用于神经网络。但在某些情况下，它仍然不能满足类内紧性和类间可分性的要求。因此，设计了一种新的I-Softmax损失，以学习更多可分离的特征并提高迁移任务中的得分，其定义如下：

其中

表示由特征提取器输出的特征向量，

和

分别表示与Xi的标签索引对应的第c个元素和其他元素。n表示特征向量的数目，并且和是控制决策边界的超参数。如果m = 1且k = 0，则I-SoftMax损失将等于原始SoftMax损失。

5.4 优化目标

所提出的DDTLN模型包括两个优化目标：无监督训练挖掘IJDA损失和有监督训练挖掘分类I-SoftMax损失。

5.4.1 IJDA损失

在所提出的IJDA损失中，我们提供了改进的联合域自适应机制。此外，根据信号的正态分布特性，将MMD和CORAL相结合，实现了域混淆。IJDA损失方程中，目标域样本的标签信息由伪标签近似获得。通过IJDA损失对DDTLN进行优化后，得到的特征具有域不变性。另外，DDTLN可以直接通过梯度反向传播和链式法则进行优化。最后，对应于网络参数的IJDA损失梯度表示为：

以

和

为例，具体公式计算如下：

5.4.2 I-Softmax损失

与原始SoftMax损失不同，I-SoftMax损失可以分离和压缩学习特征。这对于在多分类任务上获得比原始Softmax损失更高的准确率更有帮助。给定向量Z由I-SoftMax函数及其独热标签向量Y输出，I-SoftMax损失的梯度计算如下：

5.4.3 全局损失

通常，分类交叉熵损失被应用于有标签的源域以用于学习区分性特征。为了在TL任务中学习更多可分离的特征，通过伪标签将I-Softmax损失应用于目标域样本。因此，全部分类损失界定为：其中和分别表示源域I-SoftMax损失和目标域I-SoftMax损失。参数是权衡参数。通过整合所提出的IJDA损失和I-SoftMax损失，整个目标函数被定义为：其中表示权衡参数。然后，利用RMSProp优化器来更新DDTLN的可训练参数：其中表示学习率。最终，DDTLN将获得域不变和更可分离的特征。

6 实验

6.1 数据集描述

在本章节使用三个数据集的完成跨机器诊断任务来验证所提出DDTLN模型的有效性。我们将在下面对三个数据集的具体细节进行介绍:

（1）CWRU：CWRU数据集由Case Western Reserve University收集，在轴承诊断案例中被广泛认为是基准数据集。它的实验平台包括驱动电机，加载电机，一个扭矩传感器，一个功率计和几个测试轴承。总共模拟四种负载：0 hp，1 hp，2 hp和3 hp。在轴承测试过程中，采集了包括正常状态（NC）、内圈故障（IF）、滚珠故障（BF）和外圈故障（OF）四种故障类型的原始振动信号。加速度传感器的采样频率设定为12000 Hz。

（2）RTS：RTS数据集是根据RTS转子动力学试验台建立的，RTS转子动力学试验台是定制的实验平台。RTS数据集的故障类型类似地由NC、IF、BF和OF组成。该试验台的结构由伺服电机、联轴器、轴承、两个转子和传感器组成。原始振动信号由放置在右轴承座上的CMS无线传感器收集。模拟包括0 kN、1 kN、2 kN和3 kN载荷以收集足够的原始振动信号，采样频率设定为8 000 Hz。轴承的输入转速为1000 r/ min、2000 r/min和3000 r/min。

（3）SWJTU：SWJTU轴承数据集由西南交通大学收集。SWJTU数据集的测试台由三相电机、两个轴承、加速度计和加载系统组成。故障类型也与CWRU和RTS轴承数据集相同。试验台还可以采集不同负载下的原始信号。加速度计的采样频率为10000 Hz。输入转速设定为896 r/min。

6.2 故障诊断任务和实施细节

在本章节使用三个数据集的完成跨机器诊断任务来验证所提出DDTLN模型的有效性。我们将在下面对三个数据集的具体细节进行介绍:

表2 三个数据集的详细信息

源域和目标域中每个类别的样本数为1000，因此源域和目标域分别有4000个样本。训练数据集包括源域样本和目标域样本，而测试数据集仅包括目标域样本。考虑到实际中故障样本较少，采用滑动采样技术对原始数据进行分割，以增加故障样本，相邻样本之间存在重叠点。另外，每个样本有3072个数据点，以获得足够的故障信息。为了减少额外的计算量和专家意见的影响，本文直接使用原始振动样本作为故障诊断模型的输入。

通过使用上述三个方位数据集，构建了六个跨机器迁移任务来验证DDTLN的有效性：A → B，B → A，A → C，C → A，B → C和C → B。需要说明的是，这六项跨机器迁移任务全面包含了负荷和速度迁移。以A → B为例，“A”和“B”分别表示有标签的源域和没有标签的目标域。这些数据集的所有参数对于健康状况是相互不同的。这表明，当使用DDTLN精确诊断故障时，六个迁移任务是一个挑战。

考虑到伪标签不等于真实标签，在等式3中将参数γ设置为γ = λ =0.1。该设置能够减少DDTLN训练期间IJDA损失和目标域I-SoftMax损失的影响。在实验过程中，学习率被设置为0.001。epoch设置为300，batch_size设置为256。此外，DDTLN在Tensorflow平台上使用NVIDIA 1050Ti的GPU进行训练。

6.3 I-Softmax损失的有效性分析

图2 I-Softmax在不同裕度下的测试精度

I-SoftMax公式通过(k，m)来控制判决裕度。因此，这个对提高DDTLN的准确性和性能是非常重要的。然而，如果将I-Softmax损失设置为相对较小的值，它将失去分离和压缩学习特征的能力。相反，如果将其设置为相对较大的值，则DDTLN将不会收敛。因此，I-SoftMax损失的值必须首先通过实验确认。为了提高I-SoftMax的测试性能，我们将所有数据集都合并为一个数据集。然后，将数据集以7：3的比例划分为训练数据集和测试数据集。不同裕度的测试结果如图2所示。当m = 3时，与m的其他值相比，测试精度随k略有变化，并且当k = 16时达到最大值。因此，在随后的诊断实验中选择m = 3和k = 16。在这里我们借用传统的A-Softmax损失和L-Softmax损失用于对比验证I-Softmax的优越性。然而，它们无法收敛。因此，未列出其测试结果。同样，我们也将其与Soft-margin Softmax 对比，结果发现所提出的I-Softmax损失具有更灵活的裕度来控制决策边界，并且具有更高的诊断准确性。

图3 投影到单位球体上的学习特征的可视化

为了直观地展示从不同边缘学习的特征的区分能力，这些特征从最后一个FC层投影到单位球体中，如图3所示。可以观察到，I-Softmax导致更严格的决策边界和更有区别的分布。与原始Softmax和Soft-margin Softmax相比，I-Softmax显式地减小了类内距离，增大了类间距离。

6.4 实验结果与讨论

为了进一步测试所提出的DDTLN的有效性和优越性，使用几种众所周知的DA方法进行比较，例如DDC, DCORAL, DANN, MCD, FTNN和JDA。DDC, DCORAL, FTNN和JDA是著名的基于距离度量的DA模型，MCD和DANN是典型的基于对抗机制的DA模型。和DDTLN一样，MCD和JDA也可以实现细粒度的类分布对齐。为了验证所提出的IJDA机制的优点，IJDA，包括原始SoftMax损失和IJDA损失也测试了六个迁移任务。这些比较方法的骨干网络和训练规则与DDTLN相同。

表3 实验结果

六个跨机器迁移任务的实施，以证明诊断的准确性和鲁棒性的DDTLN。为了确保DDTLN的可靠性，每个方法在每个迁移任务中执行10次。十种方法的平均诊断准确度和相应的标准偏差。如下图所示，提出的IJDA机制的平均准确率比原IDA机制高6.37%，反映了IJDA机制的有效性。此外，为了证明所提出的DDM和I-Softmax的有效性，我们进行了消融实验。在不使用I-SoftMax的情况下，分别基于MMD、CORAL和DDM的IJDA(MMD)、IJDA(CORAL)和IJDA(DDM)被应用于故障迁移诊断。从表3中我们可以清楚地知道，所提出的度量DDM在IJDA机制中具有更好的性能。特别地，所提出的DDTLN的平均准确度超过90%，与其他方法相比，它是30.83%。应该注意，DDTLN在每个迁移任务中是最高的。总之，建议的DDTLN方法具有更好的诊断能力比典型的DA方法。

图4 通过五种DA模型获得的学习特征的t-SNE映射

为了直观地展示DDTLN的优势，t分布随机邻居嵌入（t-SNE）用于将学习的高维特征映射到二维空间。对于任务A → B，通过五个模型获得的t-SNE图如图4所示。所提出的DDTLN模型可以获得最小类内距离和最大类间距离。这主要是因为与现有的DA模型相比，DDTLN可以更好地对齐目标域和源域的边缘分布和条件分布。换句话说，DDTLN可以学习更多的类别区分和域不变特征。比较结果进一步证明了DDTLN模型比典型的DA方法具有更高的精度。

6.5 进一步实验研究

虽然DDTLN模型在三个轴承数据集上表现出了良好的诊断性能，但这些数据集中的故障是由人工加工产生的，其故障形状通常是规则的。由此可见，三个数据集中的故障影响可能是相似的。IMS公共数据集[33]是一个众所周知的开放数据集，由辛辛那提大学收集。试验中，径向载荷（6000 lbs）通过弹簧机构直接施加到轴和轴承上，采样率设置为20000 Hz，输入速度为2000 r/min。与A、B和C相比，IMS中的故障是在轴承寿命周期试验过程中自然产生的，并且其形状不规则。因此，IMS与A、B和C有很大的区别。为了进一步评估DDTLN的有效性和优越性，利用存在实际故障的IMS构建了其他6个跨机器迁移任务，包括IMS → A、A → IMS、IMS → B、B → IMS、IMS → C和C → IMS。类似地，使用IMS数据集中在四种健康条件（NC、IF、BF和OF）下获得的样本。

表4 IMS的实验结果

实验结果如表4，可以看出DDTLN的平均准确率明显优于其他诊断模型，其诊断准确率超过84%。但比表4低5.97%。这可能是因为IMS数据集中的断层是不规则的，并且与A、B和C中的断层有很大差异。比较结果再次验证了MWSAN模型在跨机器迁移诊断中具有较强的泛化能力。

7 总结

本文提出了一种新的迁移学习网络DDTLN来实现跨机器故障诊断。DDTLN主要由IJDA机制和I-Softmax损失组成。在IJDA中，构造了一个新的由MMD和CORAL组成的分布差异度量来增强域混淆。此外，提出了一种改进的CDA机制，以提高源域和目标域之间的分布匹配程度。与原有的Softmax算法相比，I-Softmax损失算法在学习更多可分离特征方面具有更强的能力。此外，它可以灵活地控制决策边界，可以方便地优化。通过IJDA机制和I-Softmax损失，DDTLN获得了更多可分离但域不变的特征。DDTLN在六个跨机器迁移任务中平均准确率超过90%。最后，实验结果也验证了DDTLN比已知的DA方法具有更强的诊断能力。

本研究存在DDTLN的可解释性和源域与目标域之间可移植性评估的局限性。在未来的工作中，我们将结合一些信号处理算法结合到迁移学习神经网络，以提高其可解释性，并探讨如何评估两个域之间的可移植性。

往期推荐

[1] 故障诊断开源代码推荐 | MCNN-LSTM，免费获取！

[2] 故障诊断开源代码推荐 | 轴承故障诊断迁移学习综述，免费获取！

[3] 信号处理基础之噪声与降噪(四) | 进击的EMD族降噪及python代码实现

[4] 信号处理基础之噪声与降噪(三) | EMD降噪与VMD降噪及python代码实现

[5] 信号处理基础 | 不懂卷积？看完这篇就够啦

[6] 风力发电机行星齿轮箱数据集 | 写论文再也不用担心没数据集啦！

[7] 航空发动机轴承数据集 | 写论文再也不用担心没数据集啦！

编辑：曹希铭

校核：钱泉、李正平、张泽明、张勇、王畅、陈凯歌、赵栓栓、董浩杰

该文资料(DDTLN)搜集自网络，仅用作学术分享，不做商业用途，若侵权，后台联系小编进行删除