由于文章篇幅较长,将分四次帮助读者快速了解大模型PHM方向,大模型综述分享(1) | 健康管理大模型概述:概念、范例与挑战点击此处即可跳转。
论文题目:An Outline of Prognostics and Health Management Large Model: Concepts, Paradigms, and Challenges
论文期刊:Mechanical Systems and Signal Processing
论文日期:2025年
作者:
摘要
1 引言
2 系统分析:当前PHM领域面临的挑战和瓶颈
2.1 分析和描述:生命周期中PHM的问题
2.1.1 第一阶段:概念设计阶段
2.1.2 第二阶段:初步设计阶段
2.1.3 第三阶段:详细的设计阶段
2.1.4 第四阶段:研制阶段
2.1.5 第五阶段:在役使用阶段
2.2 PHM面临的挑战和瓶颈
2.2.1 PHM算法&模型层
2.2.2 PHM系统层
2.3 小结
3 大模型研究现状及优势特点分析
3.1 大模型综述
3.1.1 大模型原理
3.1.2 大模型优势分析
3.1.3 大模型成熟案例
3.2 大语言模型综述
3.2.1 大语言模型原理介绍
3.2.2 大语言模型关键技术
3.2.3 大语言模型优势分析
3.2.4 大语言模型的案例
3.3 小结
(以上标记章节为本文内容)
4 健康管理大模型概念与进阶研究范式
4.1 健康管理大模型概念
4.2 范式一:基于大语言模型的健康管理范式
4.2.1 路线1:基于大语言模型与知识图谱的健康管理知识工程
4.2.2 路线2:基于大语言模型的诊断专家
4.2.3 路线3:PHM算法模型辅助开发
4.2.4 路线4:PHM文字方案生成
4.2.5 路线5:基于大语言模型的维修决策支持
4.3 范式二:大语言模型与健康管理模型并行范式
4.3.1 路线1:知识与数据融合的PHM技术
4.3.2 路线2:PHM算法智能推荐
4.3.3 路线3:PHM算法模型逻辑性支撑
4.3.4 路线4:PHM算法模型智能优化更新
4.4 范式三:健康管理大模型构建与应用范式
4.4.1 健康管理大模型构建
4.4.2 路线1:智能装备全流程PHM设计
4.4.3 路线2:智能PHM数据生成
4.4.4 路线3:智能PHM能力生成
4.4.5 路线4:复杂系统PHM解决方案生成
4.4.6 路线5:智能PHM验证评价
4.5 基于PHM-LM范式的实践案例
4.5.1 案例一:基于LLM的轴承故障诊断框架
4.5.2 案例二:基于LLM模型的轴承剩余使用寿命预测
4.5.3 案例三:基于LLM模型的领域自适应维护方案生成
4.6 小结
5 PHM-LM基础数据集的跨领域多模态构建
5.1 跨领域、多模态的PHM-LM基础数据集构建
5.2 多模态健康信息的统一表达架构
5.3 多能力、可扩展的健康管理大模型结构设计
5.4 特定对象的健康管理专属能力向通用全科健康管理能力的转化
5.5 大模型健康管理输出结果的可解释、可溯源性
5.6 基于大模型的通用化PHM方法与现有专用式方法的协同
5.7 兼顾数据隐私与共享的健康管理大模型分布式隐私训练
5.8 关键挑战的优先级分析
6 结论
大模型是一种将海量无标签数据导入到具有亿级规模参数的模型当中,进行大规模预训练,进而将模型训练成为可适应下游各种任务的人工智能模型。大模型可分为通用领域大模型和垂直领域大模型,其中通用领域大模型是指能够处理多领域、多任务的大规模预训练模型,而垂直领域大模型则针对特定的领域或行业,专业性更高,特定任务效果更好,如图3.1所示。目前,应用最为广泛的大模型是通用领域大模型中的大语言模型。本章在介绍大模型的主要发展脉络基础上,重点分析大模型的系列优势与特点,以及在大模型构建、运用等系列过程中的新技术、新思想等,尤其是重点阐述大模型中大语言模型的优势,构思其在装备健康管理领域的运用的可行性,为后续与装备健康管理有机融合,并解决健康管理的系列问题提供可能。
图3.1 大模型研究现状与优势分析
随着深度学习的兴起和计算能力的增强,研究人员开始关注如何构建更大规模的模型来处理更复杂的问题。由此大模型的概念被引入并逐渐成为如今的发展热点。在信息技术时代,数据量每天都在爆发式增长,计算机的算力也在不断增加,如何处理非结构化的、多模态的数据是当今计算科学研究的重点方向。这些“数据革命”也使得大模型能获得更为丰富的训练资源,处理更为复杂的数据。2017年,Google提出了基于自注意力机制的Transformer架构,参数达到了上亿的规模。在Transformer的基础上,2018年,BERT模型的提出,使得大模型的参数首次突破了3亿的规模;随着GPT模型的提出,大模型的得到了越来越多的关注。
大模型利用海量数据来训练大量参数,从而能够处理传统机器学习和深度学习不能完成的复杂、抽象的任务。大模型的设计目的是为了提高模型的表示能力和性能,在处理复杂任务时能够更好地捕捉数据中的模式和规律。随着大模型的不断发展,其应用已经不仅仅局限于自然语言处理(Natural Language Processing, NLP)领域。大模型可以更好地拟合训练数据,从而提高模型的准确性和泛化能力;此外,其还可以学习更为复杂的特征,从而更好地处理复杂任务。因此,大模型在许多领域都得到应用,如金融、法律、医疗等等。而在健康管理领域所面临的各种困难与挑战,可尝试与大模型的各种优势结合,寻求新的发展突破。
目前,大部分大模型所采取的基本架构为Transformer架构,其克服了之前自然语言处理领域最常用的RNN的缺陷,因此被众多大语言模型乃至大模型所应用。除了最常用的Transformer架构以外,目前也有新的架构(如RWKV等)被提出,其为大模型的构建提供了新的思路。
(1)Transformer
Transformer是目前大模型运用最为广泛的架构,其于2017年被Google的研究人员提出。Transformer包含编码器(Encoders)模块和解码器(Decoders)模块。编码器由一个自注意力机制(self-attention)层和一个前馈神经网络组成,层中使用了残差连接和层规范化,编码器用于将输入的序列信息转换为一组表示向量;而解码器也利用了自注意力机制+前馈神经网络的组合,其由两个注意力层和一个前馈神经网络组成,层中同样使用了残差连接和层规范化,解码器用于输出预测序列。Transformer有效解决了长时依赖问题,增大了模型的并行性,在各个领域得到了广泛应用,并为BERT和GPT等模型奠定了基础。
(2)RWKV
RWKV是一种改进的循环神经网络(RNN)架构,其克服了传统的RNN架构因梯度消失问题而难以训练长序列的缺点,以及Transformer架构在计算时占用大量内存的不足。RWKV同时拥有Transformer和RNN的优势,既能够进行高效训练,又能够进行快速推理,是目前十分有价值的一类架构。
(3)RetNet
RetNet是由微软研究院和清华大学联合提出的一种架构,其由多个相同的块组成,每一个RetNet块包含一个多尺度保留(MSR)模块和一个前馈神经网络;此外,RetNet还引入了一种多尺度retention机制来代替自注意力机制,同时支持并行和循环两种计算模式。RetNet在长序列建模方面表现出色,其实现和部署也相对简单,为大模型架构的设计带来了新的思路和突破。
(1)预训练数据收集
大模型的训练需要从海量的数据当中学习知识并储存在其模型的参数当中,为了提高模型的训练效率,需要使用高质量的数据来对模型进行训练。由于实际数据当中噪音样本极多,因此需要对数据进行过滤。目前,过滤的方法主要可以分为基于模型的方法和基于启发式的方法。在数据过滤之后,需要对数据进行去重处理,可分为模糊去重(如SimHash)和基于子串的精确匹配去重两种方法。
(2)模型架构设计
通常来说,在对大模型进行训练时,数据和模型规模的增加都会提高训练的效果,然而,规模越大的模型,其占用的训练资源也就越多。因此需要采用能够高效计算的深度学习架构来构建大模型。目前,Transformer及其变体是构建大模型时使用最为广泛的深度学习架构。此外,模型的规模大小也应该与训练数据的规模相匹配,以避免大量算力的浪费。
(3)下游任务微调
在对大模型进行预训练之后,为了使其能够适应下游任务,需要对其进行微调,即导入特定的下游任务数据,使得大模型能够在预训练权重上继续训练,直至满足下游任务的需求。高效的微调方法对大模型能否充分发挥性能至关重要。目前,常用的微调方法有LoRA、Adapter、Prefix-tuning、P-turning、Prompt-tuning以及RLHF等。
(1)泛化能力
泛化能力指模型利用新数据做出正确预测的能力。当传统的深度学习模型参数过大、结构过于复杂时,容易发生过拟合现象;而大模型在经历了预训练和微调之后,其能够捕捉更多细节,更好地泛化到新的数据集和任务中。因此相较于传统的深度学习模型,大模型的泛化能力更强。
(2)涌现能力
传统的深度学习是针对某一个具体的任务来设计模型以解决问题,而大模型则是利用海量数据进行预训练,再根据特定的下游任务进行微调,进而可以适应大部分的任务。随着大模型参数规模的增大到某一个阈值,大模型对某些问题的处理能力呈现快速增长的趋势,即出现了涌现性(Emergent Abilities)。因此,相较于传统的深度学习模型,大模型能够在训练中产生意料之外的新能力,具备涌现能力,这为处理一些复杂任务提供了契机。
(3)推理能力
传统的深度学习很难像人类一样用几个简单的例子或指令就能完成一个新的任务,如自然语言处理等,而大模型则在这一方面表现出色,如GPT-3能够很好地完成替换句中单词、四则运算等推理任务。因此,大模型的推理能力更强。
(4)决策能力
决策能力主要体现在决策智能大模型当中。目前已有的决策智能大模型如GATO等,将预训练大模型移植到决策任务中,在强化学习决策、运筹优化决策等方面取得了进展,相较于传统的决策算法,大模型在跨任务决策能力和快速迁移能力上表现突出。
(5)生成能力
大模型的生成能力主要指模型生成内容的质量,是大模型最为核心的能力之一。如ChatGPT等大语言模型能够根据先前的文本来预测生成并补充后续的文本内容;One-2-3-45可根据单张图片甚至文本内容来生成3D模型。可以看出,大模型能够更好地捕捉和分析信息,并生成高质量的内容,在生成能力方面表现突出,具有很强的优势。
目前来说,大模型可以分为通用领域大模型和垂直领域大模型,部分成熟案例见表3.1。
表3.1 大模型部分成熟案例
通过调查,进一步梳理了主流大模型的计算能力,及所需成本、时间等,如表3.2所示。
表3.2 LLMS计算能力、成本、时间等需求
在各类的大模型中,大语言模型发展尤为突出。它是一种基于深度学习的自然语言处理模型,通过训练大规模的语料库来学习单词、短语和句子等语言的概率分布,从而能够生成流畅、语义准确的文本。目前市面上已经存在包括GPT系列等的应用案例。
作为让计算机理解人类所说的语言而存在的一种技术,自然语言处理的基本问题是词表示,即把自然语言种最基本的语言单位——词,转换成机器能够理解的表示。但词表示的过程中会出现许多问题,因此深度学习对此进行词嵌入处理,即从大规模文本中建立一个低维稠密向量空间,以减少存储空间的需求即词的稀疏问题。
基于以上技术,统计语言模型建立了起来,即根据前文来预测下一个单词,实现这个功能的做法叫做N-Gram语言模型,N-Gram语言模型遵循马尔可夫假设,通过统计前面出现几个词之后,后面出现的词的频率以估计下一个单词会是什么。
在语言模型的基础上,深度学习的出现使语言模型不断发展至神经语言模型、预训练模型乃至目前的大语言模型。
大语言模型技术基于已有的自然语言处理技术,通过对语言模型进行预训练、大语言模型的微调及为各种大语言模型将应对的任务设计适当的提示策略三个关键技术,完成大语言模型的建立。
预训练是在大型语言模型中的关键步骤之一,它是大语言模型获得强大能力的基础。通过利用大规模未标记的文本数据进行无监督学习,预训练可以学习到语言的统计特征和上下文关系。
在预训练阶段,模型接收大量文本数据作为输入,并使用自回归生成的方法进行训练,即模型根据已生成的部分文本来预测下一个单词或字符,从而逐步生成连贯的文本。
经过预训练,大语言模型能够学习到丰富的语言知识和概率分布,从而能够生成连贯、自然的文本,并提升对语言的理解和生成能力。
大语言模型的适配微调是在预训练之后,进一步使用有监督的标注数据对模型进行训练和优化的过程,可分为两种方法:指令微调与校准微调。指令微调是为了增强大语言模型的能力,对齐则是为了将大语言模型对语言文字的反应与人类价值观匹配,防止其出现相应道德问题等。
(1)指令微调
指令微调是一种调整模型输入的技术。通过调整给定给模型的指令或提示的方式,可以改善模型生成结果的质量。在指令微调中,不对模型进行参数的重新训练,而是通过设计更合适的输入指令,来引导模型生成更准确、相关的回答。指令微调的目标是通过设置更加明确的指令来影响模型的生成结果,使其更符合用户的需求,可用于各种任务和领域。这种微调可以提高模型的适应性、准确性和泛化能力,将模型有效地应用于指令相关的应用领域。
(2)对齐微调
尽管大语言模型展现出了惊人的能力,但其依然可能对人类社会造成一定危害,例如编造虚假信息、输出带有歧视的回答等。因此,需要将大语言模型与人类对齐,符合人的价值观与偏好,满足例如有用性、诚实性、无害性的标准。为此,有研究提出了基于人类反馈的强化学习(RLHF),通过收集高质量的人类反馈,使用学习奖励模型使大语言模型逐渐适配人类的标准。但也有研究表明对齐微调会在一定程度上弱化大语言模型的通用能力。
经预训练与适配微调后,大语言模型想要投入使用还需要为解决各种任务设计适当的提示策略,由此产生了上下文学习法(in-context learning, ICL)与思维链提示法(chain-of-thought prompting, COT)。
(1)上下文学习法
ICL在GPT-3中被首次提出,后成为使用大语言模型的典型方法。
ICL的基本思想是在生成文本的过程中,不仅仅依赖于当前输入的上下文,还利用先前生成的文本作为扩展的上下文。它在每一轮迭代中,将先前生成的文本与当前输入的上下文合并,得到一个更丰富的上下文表示。这种迭代的方式可以帮助解决长距离依赖问题,提高生成文本的质量和连贯性。
(2)思维链提示法
思维链提示是指模型在生成输出时,通过一系列与输入相关的中间步骤,给出可能的推理路径或关联概念。这些提示可以展示模型如何生成特定的答案或观点,并揭示模型在推理和语言表达方面的一些内部机制。 大语言模型中思维链提示是通过模型的语言理解和生成能力,结合内部表示和注意力机制,为解释模型生成输出的过程提供一种方法。这种方法可以帮助我们理解模型的推理过程并提供对模型输出的更深入解释。
大语言模型借助大规模的数据和优秀的学习算法,能够在自然语言处理任务中更强大、更准确和更灵活,从大模型的调查中可以看到,许多行业,例如金融、法律、医疗等,都开始与大语言模型结合,构建垂直领域大模型。而针对PHM领域,同样可以借助大语言模型的优势,开发新的研究范式:
(1)信息提取和决策支持
大语言模型能够自动从大量的文本数据中提取出关键信息,识别故障模式,为决策提供支持。它能够对装备运行数据、维修记录、技术手册等海量信息进行全面分析和理解,帮助工程师和维护人员快速定位问题和制定解决方案。
(2)构建专业知识库
大语言模型能够建立起一个包含大量PHM专业知识的知识库。通过学习和理解先前的故障案例、维修经验等知识,大语言模型能够给出相应的解决方案和建议,并能给出合理的解释,提高故障诊断的准确性和效率。
(3)多领域适用性
大语言模型具有很强的泛化能力和知识迁移能力,可以在不同领域的装备健康管理中应用,包括工业设备、航空航天、船舶、车辆等。它具有通用性和灵活性,可以根据具体领域的需求进行定制和优化,因此能够适应不同行业的装备健康管理需求。
(4)多模态数据处理
大语言模型可以同时处理多种形式的数据,如文字、图像、声音等。这意味着它不仅能够从装备的文本描述中提取信息,还能够分析装备的图像、声音等数据,实现更全面的装备状态评估和健康管理。
(5)算法智能推荐
大语言模型在问答环节能根据用户的偏好和历史行为生成个性化推荐结果。因此,大语言模型可用于PHM算法智能推荐,根据工程实际的不同情况,向工程师推荐适用指定健康管理案例的算法,满足不同任务需求。
各大型科技公司和学术界在自然语言处理深耕多年,近年来不断有大语言模型推陈出新。通过关注一些典型的大语言模型的,了解它们的特点与行业内的应用现状,可以为健康管理领域与大语言模型结合提供案例。
(1)GPT-4
GPT-4是Open AI发布的最新一代GPT系列的生成式预训练变换模型。GPT-4支持多模态的格式输入,可以在没有任何提示的情况下,解决数学、编码、医学等领域的复杂问题。目前GPT-4并未公布技术细节,无法在此基础上进行部署,但它的模型性能依然处于行业领先地位,一些垂直领域的大模型会参照与GPT-4的对话结果生成训练数据集。
(2)Llama
Llama是Meta AI发布的包含四种参数规模的开源基础语言模型集 合。在微调阶段,Llama根据特定任务的标签进行有监督的训练,进一步优化模型的性能。目前,许多垂直领域的大模型都是选择Llama为基座模型,通过添加不同的专业领域训练集,从而满足不同下游 行业的需求。而最新的Llama 2也已开源,相比上一代在性能、推理效率有明显提升。
3.3 小结
综上所述,大模型在内容生成能力、泛化能力、推理能力、决策能力等维度有着突出的表现。大模型的成功,进一步地证明了大数据、高算力和高效算法架构相结合的正确性。大模型在建立过程中当中利用了一系列的人工智能辅助技术,如机器学习、计算机视觉、知识图谱、自然语言理解等等,这也体现了人工智能技术在大模型构建过程中所发挥的重要作用。
大模型所具备的推理能力、决策能力、泛化能力、涌现能力、生成能力等特性,为解决健康管理目前存在如算法泛化能力弱、领域知识利用率低、算法模型通用性差等问题与挑战,带来了重要的机遇与可能,进而为大模型技术与健康管理技术的融合提供了天然的契机;另外,当前健康管理也大量应用了人工智能技术来解决相关问题(如故障诊断),由此,健康管理与大模型技术相结合在技术层面具有了一定的技术基础和技术可行性。将大模型相关技术与健康管理相融合,可以解决目前PHM对于算法模型、领域知识、泛化性能、开发门槛等方面的挑战,并能够使健康管理走向更加高效的研究新范式。
编辑:曹希铭
校核:李正平、陈凯歌、赵栓栓、赵学功、白亮、任超、Tina、陈宇航、海洋、陈莹洁、王金、赵诚、肖鑫鑫、张优
该文资料搜集自网络,仅用作学术分享,不做商业用途,若侵权,后台联系小编进行删除