论文 | 面向人-机-环境共融的数字孪生协同技术

1年前浏览6983

来源：机械工程学报

作者：鲍劲松、陆玉前、彭涛等

导读：

2022年7月上线论文“面向人-机-环境共融的数字孪生协同技术”，这篇文章由东华大学鲍劲松、奥克兰大学陆玉前、浙江大学彭涛等共同完成。提出面向人-机-环境共融的数字孪生协同技术，从环境和任务两个核心来展开数字孪生协同的人机共融科学问题。首先给出协作装配环境的数字孪生体系，以虚拟装配的形式为人-机-任务交互提供理解；建立相应的空间模型与协同模型，为共融的孪生协同提供理论支持；最后，以最典型的人机共融制造场景(装配任务)为案例，在决策层基于迁移学习算法为机器人提供装配操作指引，同时通过强化学习算法优化机器人的具体执行动作。在不同型号产品的人机协同装配任务中，均可以生成相应的人机协作装配规划方案，证明了所提方法的可行性。

2022年7月，文章发表于《机械工程学报》期刊

论文链接：

https://kns.cnki.net/kcms/detail/11.2187.TH.20220727.1224.066.html

引用本文：

鲍劲松,张荣,李婕,陆玉前,彭涛.面向人-机-环境共融的数字孪生协同技术[J/OL].机械工程学报:1-13.

原文阅读

面向人-机-环境共融的数字孪生协同技术

鲍劲松 ^{1, 2}，张荣 ¹，李婕 ¹ ，

陆玉前 ³，彭涛 ⁴

1. 东华大学机械工程学院

2. 东华大学纤维材料改性国家重点实验室

3. 奥克兰大学机械工程系

4. 浙江大学机械工程学院工业工程研究所

摘要

数字孪生正在制造系统中发挥重要作用，然而在面向人机协助完成的复杂制造场景中，人-机-环境及其构成的数字孪生系统呈现出任务异构复杂、环境动态多变及其交互实时等特点。目前欠缺人-机-环境共融的数字孪生协同过程中智能方法相关研究，尤其是数字孪生模型在协同中的迁移和强化，以满足制造系统的鲁棒性和自适应能力。提出面向人-机-环境共融的数字孪生协同技术，从环境和任务两个核心来展开数字孪生协同的人机共融科学问题。首先给出协作装配环境的数字孪生体系，以虚拟装配的形式为人-机-任务交互提供理解；建立相应的空间模型与协同模型，为共融的孪生协同提供理论支持；最后，以最典型的人机共融制造场景(装配任务)为案例，在决策层基于迁移学习算法为机器人提供装配操作指引，同时通过强化学习算法优化机器人的具体执行动作。在不同型号产品的人机协同装配任务中，均可以生成相应的人机协作装配规划方案，证明了所提方法的可行性。

关键词：人机协作；环境理解；数字孪生；迁移学习；强化学习

0 前言

随着智能制造的深入推进，个性化制造已成为现阶段最具特色的制造模式。为了满足个性化需求的同时实现高效率制造，机器人被广泛使用以替代人类完成一些简单枯燥的工作，同时，一些较复杂的工作仍由人类来执行，形成了初步的人机协作模式。在人机协作模式下，通常机器人经过离线编程，只负责执行固定的任务，其余大部分任务仍交予人类处理[1-4]。人类执行任务的不稳定性以及决策规划的不精确性，导致了人机协作并不能总是顺利地完成。

基于信息-物理系统(Cyber-physical system，CPS)的机器人智能制造系统在集成计算、通信与控制的基础上，通过人机交互接口实现与物理进程的交互，使用网络化空间以远程的、可靠的、实时的、安全的、协作的方式操控物理实体[5]。基于 CPS 技术，制造系统能够在作业环境感知的基础上，为物理系统提供计算、通信、控制以及自协调的能力。然而，CPS 系统重点在于物理空间与信息空间的交互融合，适用于自动化车间，而没有考虑到人机协作的新场景。人机协作不仅使得制造业所需要的工人数量减少，同时可以保证更高的生产效率。因此，进一步将 CPS 部署到制造企业的人机协作中，构成人在环路的人-信息-物理系统(Human-cyber- physical system，HCPS)，实现人与机器人-物理-信息的融合[6,7]。物理系统是智能制造系统的主体，网络系统占主导地位，人类是主人，HCPS 揭示了智能制造的技术机理，构成了智能制造的技术体系[8, 9]。人类在 CPS 中的作用主要包括数据采集、状态推理、驱动、控制、检测等。人机协作技术被认为是促进当前制造业发展变革的重点研究对象。

人与机器人展开协作任务的进程可分为三个阶段：人与机器人能够在共享空间中进行安全作业的初级目标[10]；其次，要求人类能够与机器人进行自然的交互；最终实现与具有自组织、自决策、自规划能力的机器人进行沉浸协作任务。丁汉等[11]将能与作业环境、人和其他机器人自然交互、自适应复杂动态环境并协同作业的机器人定义为共融机器人。王柏村等[12]认为，在人机共融体中，应坚持“以人为本”，真正关注人的全面发展和人类组织管理方式变革。人类作为智能制造的最终服务目标，不仅在制造过程中扮演着重要角色，在未来的制造智能化发展过程中更是发挥着关键作用[13]。其中，强化学习相关技术被广泛应用以提升机器人在人机协作场景中的适应性，实现人类友好型的人机协作[14,15]。同时，安全可信的人机信任模式，将大幅提升人类参与协作任务的舒适度[16,17]。以人为本的人机共融技术的提出，为动态环境情形下人机协作系统自适应问题的解决指明了研究方向。

在人机共融的相关研究方面，PANG 等[18,19]以提升机器人的力感能力为目标，研究了一种具有柔性、变刚性和灵敏度的协作机器人皮肤，保障了机器人与人一起工作时的安全性。禹鑫燚等[20]人基于多传感器融合，搭建了一个满足动作跟随，目标指定以及动态避障功能的人机共融系统。AKKALADEVI 等[21]基于语义知识的推理框架，将人类活动与装配过程联系起来，从而得出人类的行为意图。另外，许多学者对提升机器人的自学习能力以及固定任务的执行优化能力展开研究[22,23]。GHADIRZADEH 等[24]提出了一个基于强化学习的框架，以平衡机器人智能体实时动作的优势和采取不当动作的风险。CHENG 等[25]通过构建分层任务模型以避免机器人选择与人类重复的工作。FACCIO 等[1]通过分析产品特性对人机协作过程中合作程度的影响，识别产品特性与干扰之间的相关性。MUKHERJEE等[26]则从人机交互系统的输入以及机器人学习策略方面进行综述，提出数据集的缺乏制约着机器人模仿/演示学习能力的提升，同时，sim2real 的差异性也是实现真实人机协作的一大挑战。

数字孪生是一种集成多物理、多尺度、多学科属性，能够实现物理空间与信息空间交互与融合的技术手段[27, 28]。LI 等[29]构建了一个多源模型驱动的数字孪生系统，基于几何、物理和顺序规则描述，用于对机器人装配系统进行精确的实时仿真。MALIK 等[30-32]通过案例演示，探索了数字孪生在解决复杂协作生产系统中的应用。李浩等[33]对面向人机交互的数字孪生系统特征进行分析，提出了人机协作的安全控制技术以及孪生系统的态势感知和监测预警解决方案。近年来，数字孪生的概念被不断丰富，但在实际应用阶段均存在不同的难题，尤其是孪生模型与物理实体的映射交互方法，缺乏令人满意的映射效果。

本文提出的“面向人-机-环境共融的数字孪生协同技术”中，充分考虑到动态环境中所包含的人机特性以及任务内和任务间的动态性特点，基于数字孪生技术构造一种面向多任务的智能化人机协同作业空间，实现真正意义上的人机共融。

1 数字孪生协同体系

1.1►

数字孪生协同体系

在有人参与的制造业中，人类作为环境的主体构成部分，安全性是首要考虑的问题，其次，包括机器人在内的智能设备的引入，其目的在于提高生产效率的同时，降低人类的作业强度，让人类轻松地参与制造过程[34]。而操作任务作为人机协作的目标，需要在人机的共同参与下，沿着任务完成的方向不断前进，直至完成。因此，在人-机-环境共融的智能制造平台中，要以人为本，以任务为主线进行展开。

1.1.1 物理空间—以人为本

如图 1 所示，影响人类进行决策的因素主要来自于机器人和环境中的任务状态。机器人较高的运行速度以及与人的最近距离均会给人类参与者带来不同程度的压力。而压力往往会给人类作业带来灾难性的后果，处于紧张状态的人类更容易犯错。因此，定义来自机器人的人因影响如式(1)所示

I_R = {v, a, d_min ,s_R } (1)

式中，v 表示机器人末端执行器在三维空间中的运行速度，a 为对应的加速度， dmin 表示机器人与人类的最近距离， s_R 为机器人的状态，包括运动态或静止态。在静止态，v 和 a 的值均为 0。机器人的静止状态分为三类，如表 1 所示。

图 1 以人为本的孪生协同体系

表 1 机器人静态分类表

此外，人类进行自主行为前的分析过程还受任务环境的影响，包括任务的状态，零件的距离，以及人体当前的疲劳程度等。

I_Ti = {E_i, M_i, D_i} (2)

I_H = {T_i, ∑ⁱ_a=1M_i} (3)

式(2)与(3)分别表示任务影响与人类自身状态的影响。其中， Ei 表示任务完成进度状态， Mi 表示当前操作对象 i 的负荷强度， Di 表示作业位置及姿态的舒适度，Ti 表示休息时间与总作业时间的占比。根据作业位置与人类的距离以及操作方向的不同，人类的操作舒适度可分为三个等级，如表 2 所示。

表 2 作业位置及姿态舒适度分级

无论是心理因素还是生理因素的影响，其主要来自机器人、任务以及人类自身状态的综合影响，如图 2 所示。因此，人-机-环境共融场景中人类所受的综合影响因素可表达为式(4)

I_i = ∑（αI_R，βI_Ti，γI_H） (4)

图 2 共融环境中的人因构成

人类通过自主分析当前所处的情形，做出自主决策。人类自主决策往往符合一定的任务需求和逻辑。然而，在非稳定环境下人类的决策通常是不稳定的，执行过程也会存在一定的随机性，因此，进一步将人类的决策动作分为标准动作和随机动作。标准动作主要指人执行的行为是符合任务需求且具有逻辑性的。而非标准动作，则是指人类根据偏好或其他影响因素，在具有冗余方案的选择过程中做出了改变。

1.1.2 信息空间—以任务为主线

信息空间如同共融数字孪生协同环境的“大脑”，对全局信息进行识别、理解并给出解决方案。

首先，感知代理层通过各种传感设备以及特征提取技术，识别人机状态以及动作行为，并建立作业空间模型，同时，基于装配产品工艺文档，获取装配序列约束。其次，在认知层，基于不同总任务之间的相似度度量结果进行策略迁移，提高规划效率。基于装配零件间的特征相似度，在相似的子任务执行过程中，进行动作强化，以准确完成装配过程。

1.2►

数字孪生协同中的层级划分

1.2.1 任务层

不同批次产品的装配工艺通常会存在差异，因此，需要在任务层为每个产品建立相应的总任务装配行为序列模型。对于每个产品的总任务序列，均可再一次拆分为由单个零件间执行连接操作的子任务，对于每一个子任务的执行，根据具体的装配动作定义为对零件和工具的操作组合。

在孪生空间，基于高保真建模技术，构建与真实物理实体对应的孪生模型。对于装配任务，新设计产品通常带有 CAD 模型等三维模型文件，通过将该模型导入到孪生空间，在孪生空间中，映射物理空间的模型状态，并随着物理实体的状态变化进行同步更新。

1.2.2 规划层

在共融环境中进行协作装配策略规划。首先，对来自任务层图信息、表信息以及执行层的数字信息等进行处理，其次，采用迁移学习与强化学习算法，基于环境状态以及任务要求，根据人与机器人的属性及状态进行协作任务规划。将呈序列性的子装配任务分配给人与机器人进行执行。同时，为了实现动态规划功能，在规划过程中，物理任务信息通过物理传感被采集，而虚拟规划则通过 I/O 进行反馈。

1.2.3 执行层

在完成任务规划后，总装配任务根据时间序列被分为人执行的子任务序列和机器人执行的子任务序列。在执行过程中，由于各种不确定因素，人类的操作时间以及操作姿态是无法完全严格约束的。因此，要求机器人应该具有动态规划能力，机器人需要根据装配任务的特征以及人类的空间占用情况，学习适应当前情境的动作序列。

物理空间执行装配动作的同时，孪生空间不仅基于规划结果以动态模拟的方式引导人类执行操作，同时，根据真实的任务进度实时更新孪生空间的模型状态，实现虚实映射。

图 3 任务驱动的孪生协同

1.3►

数字孪生协同中的共融

在协同装配任务场景中，实现人-机-环境共融，即要求机器人在于执行一系列装配动作的同时，应符合人类预期需求，满足任务环境约束。而人类则一方面以完成任务为目标进行适应性操作，同时，自主行为的人类也会产生一些其他操作以改变任务需求或环境状态。

图 4 人-机-环境共融模式

1.3.1 人机与环境

在人类与环境交互方面，首先，基于各种物理传感设备，获取人类作业行为的图像或视频信息，接着输入到感知系统，提取人类行为的多维度特征，进一步的采用深度学习算法，求解当前状态所应采取的动作策略，在决策系统中，对认知的结果进行评价，对于满足要求的决策行为，通过可视化交互界面显示，以动态指引的方式为人类的动作选择提供引导。

相似的，机器人相对于人类具有数字化接口，可以直接将通过控制柜获取的数据用于认知决策系统，生成符合场景需求的动作序列，采用符合安全要求的规划算法求解机器人的运动路径，机器人以不断地调整自身动作以达到适应环境的目的。

1.3.2 人机之间

人类与机器人之间的共融是以人为本的。机器人在执行装配动作的同时，不仅要满足任务约束，同时要能够安全的与人类进行自然交互，适应人类状态的动态变化，以助力人类舒适的完成装配任务。其中，对于独立任务，机器人应与人类保持安全距离，同时主动避让人类以免发生碰撞。对于协作任务，机器人基于认知系统分析得到的人类意图进行协作动作，配合人类完成任务操作。

1.3.3 虚实之间

不同于物理空间实体与孪生空间模型之间的映射关系。在共融状态下，虚拟空间中还应作为各种处理系统的“后端”，执行各种具体的复杂运算进程，其计算结果作为系统的输出，在虚拟空间中以虚拟模型的动态变化作为反馈，在物理空间则以交互界面显示的形式进行输出。

物理空间中，人、机器人与环境任务不断进行交互迭代，其相关信息数据被输送到孪生空间进行优化计算，并对处理结果进行实时反馈。通过不断地迭代优化，提升各系统的性能，使人-机-环境共融系统能够更好地运行。

2 数字孪生共融环境建模

2.1►

协同任务建模

2.1.1 产品装配模型

产品的装配过程通常是指为各零件建立关联关系的操作行为集合。因此，可以相应地将产品定义为一系列零部件节点与连接方式集合所构成的联合体。某产品简化后的结构表示如图 5 所示，中间节点 AB 表示由零件 A 和零件 B 通过工艺 a1 进行装配后组成的产品子模块。

图 5 产品结构模型

对于装配任务，产品在进行装配前的加工制造阶段，通常都会经过相应的设计建模及计算，而这些设计好的产品结构模型及其属性信息可以用来帮助快速构造产品装配结构图，在指导装配作业过程中具有非常重要的作用。

2.1.2 子任务操作模型

每个产品装配任务的执行，都可以划分为若干的子装配步骤，定义每一个零件的连接操作为一个子任务行为。具体的，针对每一个零件的操作又可分两种模式，即需要协作的任务和不需要协作的任务。如卡扣或套入等操作，人类或机械手可以自主实现，不需要另一方参与协作。而对于粘合或螺栓连接等操作，借助到外部工具，则需要人与机器人协作来完成。对于零件和工具的执行分别定义动作过程如下

Part_i = {P_m1, P_u, P_m2, P_a, P_d} (5)

Tool_i = {T_m1, T_u, T_m2, T_a, T_m3, T_d} (6)

以式(6)为例，表示对于外部工具Tool_i 的操作可分为从初始状态移动到工具位置T_m1 ，抓取操作T_u ，移动至装配位置T_m2 ，执行装配操作T_a ，移动到工具放置位置T_m2 ，放回工具T_d 等过程。

在人机协作执行操作过程中，需要对每一个子步骤是否按要求执行完成进行确认，以便于进行下一个零件的装配工作。其中，对于机器人操作进度的判断可根据从机器人控制器获取的机器人动作反馈来进行度量，而对于人类的操作进度则基于定义的作业空间点，采用三维视觉设备提取人类当前操作位置进行执行进度计算。用e_n 表示已完成子任务的总数量，用e_N 表示产品零部件总数，则总体装配任务的完成度可简化为

E = e_n/e_N (7)

2.1.3 作业空间模型

在人机共融的作业环境中，所有的装配动作执行都应该在作业空间内进行。其中，机器人的作业空间如式(8)所示，由机器人的六个关节角度定义。工作台空间则受装配对象的影响，包括装配动作发生的空间点位置以及装配行为的空间姿态，如式(9)。由于人类具有动态性、随机性等特点，人类动作空间的定义是高度复杂的。在保障人机安全及作业需求的基础上，为减少额外工作量，对人类动作空间进行简化，根据实际的装配任务特点，设定人类的作业空间由人类位置坐标以及臂长 l 和正面视角θ共同定义，如式(10)所示。相应的，如式(11)，定义人机协作任务的共融空间由三者的交集构成。

C_R = {θ₁, θ₂, θ₃, θ₄, θ₅, θ₆}^T(8)

C_D = {x, y, z, r_x, r_y, r_z}^T (9)

C_H = {x, y, z, l, θ}^T (10)

C_co = C_R∩C_D∩C_H (11)

2.2►

数字孪生空间建模

数字孪生空间是物理实体空间的实时映射。物理实体采用数字化表达形式建立其相应的虚拟模型，并模拟物理实体在现实环境中的行为。数字孪生技术可以通过虚拟端与物理端的交互反馈以及数据融合、数据分析、决策优化等行为，增强物理实体隐含信息表达能力[28,35,36]。

对于数字孪生空间的搭建，首先导入机器人模型和工具模型，进行场景布局并构建与物理空间对应的通用装配工作台模型。其次，参考物理环境状态为每个孪生模型设置相应的参数属性，以实现孪生模型与真实实体具有相同的数学机理和物理属性。最后，对于每一个装配任务，导入其三维模型，并采用视觉传感基于图像识别与模型匹配的方法监测真实物理空间的零件位姿是否与孪生空间保持高度一致。其中，在进行物理实体到孪生模型的驱动过程中，视觉传感设备实时采集物理实体的变化信息，并以此为目标状态，驱动孪生空间模型达到相同的状态。

人的数字孪生建模不同于机器人或物体的数字孪生建模过程，以现有技术，人类抽象的主观意识是无法进行准确模拟的。因此，人的数字孪生模型并不包含真实人类所具有的意识部分，只是具有人体部分属性的模型，如人类的身高、体重以及技能、操作偏好、疲劳、压力状态等人体工程学因素。当人类的属性数据改变时，孪生体所记录的属性信息也随之改变。信息同步依赖于真人与孪生空间的通信技术，如 4G、5G、WiFi 等。通过各种智能传感设备以及其它交互系统等，不断获取人类的信息，并将这些信息连续的传送到孪生空间。人的孪生模型除了基于已获取数据对人体模型进行驱动使之与真实人类进行实时动作映射外，还需要进行一些复杂的工作，比如，对实时数据、历史数据、关联数据进行分析，挖掘人类在多信息共同作用下的状态信息，生成人类未来行为的预测、推理或决策建议，进而更好地驱动机器人与人类操作员之间的协作。

2.3►

人机协同建模

人与机器人协作装配的前提是，机器人要能够准确识别人类的操作行为以及动作意图，并在多约束条件下执行最优的装配动作。

2.3.1 行为识别模型

现阶段，人体行为识别技术已相对成熟。如图6 所示，在人机协作系统中，基于视觉传感设备获取人类参与者基于时间变化的一系列动作帧，通过Openpose 提取每帧图像中的人体骨架信息，构成一段时间范围内的人体姿态变化，进一步采用长短期记忆(LSTM)网络识别动作序列特征，然后经过输出层得到行为类别分布概率。

图 6 装配行为识别

2.3.2 意图预测模型

要想实现人类满意的协作行为，首先应了解人类的需求和意图。单纯的人体行为识别信息不足以为机器人提供高置信度的协作策略选择依据。正如虚拟空间机器人的模拟轨迹展示，人类可以很好的理解机器人的工作目的。如图 7 所示，预测人类的动作意图，需要在 LSTM 提取人体姿态信息的基础上，加入自注意力机制，关注人体姿态外的其他环境信息，如零件位置信息，人手的动作指向等，去推测人类接下来可能要执行的动作或操作的目标，以帮助机器人做出更好的协作。

图 7 人体动作意图预测

2.3.3 机器人智能决策模型

机器人智能决策的方法有多种，包括模仿学习、迁移学习、强化学习等。其中模仿学习需要大量的人类试验数据供机器人模仿实现，而迁移学习要求有近似的源域或元模型可供重用，同样需要足够的历史数据。强化学习基于设定的目标函数，并为机器人的行为设置相应的奖惩机制，机器人通过不断地试错学习，主动去寻找最优的决策行为。对于不同类型的任务，强化学习算法要求设定不同的目标函数及奖励函数，且在无任何经验的情况下，机器人从零开始学习探索的过程是非常耗时的。

为弥补迁移学习源域数据量不足的缺点以及强化学习效率低的劣势，提出了采用相似任务迁移引导的强化学习方法。如图 8 所示，首先，通过进行相似度判别查找相应的源域任务；其次，将源域任务的执行策略进行迁移以应对新的任务；最后，基于强化学习过程进行装配动作修正。

图 8 基于迁移与强化的智能决策

2.4►

孪生协同建模

在完成孪生空间建模后，需要保证孪生模型与物理实体的一致性，即物理实体与孪生模型协同运动变化。该过程包含两个部分，以实促虚和以虚促实。

以实促虚是指当物理空间模型状态发生变化时，孪生空间的模型也可以实时做出更新。由于物理实体本身不具备传感能力，因此在物理空间中布置外设传感，实时监测各物体的变化，并将变化的信息反馈到孪生空间，促使孪生空间对应的模型做出相应的变化。同时，孪生模型相较于物理实体具有更丰富的属性表达手段，即可通过形状、颜色、透明度等参数来体现模型所受的压力、形变以及干涉等现象，为物理装配提供反馈。

以虚促实通常发生在智能规划进程中，在孪生空间中，基于计算出的优化装配方案，模型以试装配的方式进行模拟运动，并生成相应的模拟运动轨迹以指导物理空间进行相应的动作，促使物理空间模型在人类或者机器人的循迹操作下完成相应的状态更新。

3 人机协作中的迁移与强化

在个性化需求驱动的制造业中，各种产品的迭代更新周期大幅缩短，呈现出装配任务动态变化的特点。在面向动态任务的人机协作环境中，实现人与机器人联合体对不同任务的快速应对能力对于提升人机协作技术至关重要。

面对相同类型产品不同型号或不同批次的迭代品，其综合结构相似，整体装配差异性较小。因此，为了避免相似任务的重新规划工作，提升装配效率，采用迁移学习的方法，对相似任务的历史经验进行复用，采用强化学习方法，对新任务中不同装配特征的装配动作进行自适应调整，以提升机器人的自主作业能力以及与人类参与者的主动协作能力。

3.1►

迁移方法

在历史装配任务与当前装配任务之间，其部分子任务所包含的零部件在形状、结构上存在相似性，因此基于特征识别与度量方法，求解适用于当前任务的人机协作装配方案。如图 9 所示，历史装配任务与当前装配任务共用编码器网络进行特征识别，接着通过特征距离判别，发现两者任务之间的相似特征，并对相似的共有特征信息进行解码器解码，求得相似的子任务类型及其对应的装配动作参数。

图 9 迁移模型流程和整体思路

3.1.1 总任务相似性度量

进行人机协作装配策略迁移之前，首先需要对新装配任务进行识别，发现新任务的特征，同时检索历史装配任务，采用相似度度量方法，将相似度最高的历史任务作为源域进行迁移。

装配任务是基于零部件的连接来进行的，识别任务的相似度，即可以细分为识别组成装配任务各零部件特征的相似度。在人机协作场景中，三维零件类型通常是先采用深度相机进行扫描，获得三维点云数据，其次采用 PointNet 网络进行特征提取。因此，采用点云分布距离作为装配任务可迁移性的判断指标。源域 P( p_i | i ∈ [1, N]) 与目标域Q(q_j | j ∈ [1, M]) 点云数据集之间的相似性采用Earth Mover’s Distance (EMD)进行度量。

EMD(P, Q) = ∑^N_i=1∑^M_j=1d_ij(12)

式中， d_ij 表示表示点 p_i 到 q_j的距离。

3.1.2 子任务特征距离度量

装配动作的执行与被装配零件的特征相关。经编码器提取的源域装配特征和目标域装配特征元素分别表示为 a_i 和b_i ，采用余弦相似度评价函数进行特征距离判别，如式(13)所示。

3.2►

强化方法

经过相似性计算，即可对子装配任务的装配策略进行迁移，即该子任务是由人类还是机器人进行操作，从而减少了任务再分配的时间。然而，对于分配给机器人的任务，由于任务的不完全相同，机器人需要进行自适应动作调整。因此，对于需要重新规划的新动作，提出采用强化学习方法在虚拟空间中进行试装配，最终基于学习到的有效动作在真实物理空间中进行装配。

在源域任务中，装配任务中每一个子任务的初始状态以及经装配操作后形成的稳定态均已被记录。基于相似任务的稳定态进行探索学习，将有利于提高机器人对于新动作的学习效率。因此，为了充分利用历史任务信息，提高机器人新动作执行的有效性，在新任务动作学习阶段，采用了源域任务同时学习的方法，作为新任务的指导。网络设计如图 10 所示。

图 10 相似任务驱动的 DDPG 模型

Actor 网络：主要根据当前时刻的环境状态 s选择相应的动作 a，在动作执行完毕后，环境状态更新为 s'，同时生成奖励 r。

Critic 网络：主要对 Actor 网络生成的动作 a 进行评估，并计算其对应的动作价值 Q。

目标 Actor 网络：对更新后的环境状态 s'进行动作采样，生成相应的动作 a'。其网络参数定期从本地 Actor 网络进行复制。

目标 Critic 网络：计算动作 a' 所对应的动作价值 Q'，其网络参数同样定期从本地 Critic 网络复制。

基于装配工艺要求，以零部件结合为稳定的复合体作为子任务目标，设定相应的奖励函数如式(14)所示， n_step 和 n_collision分别表示一个学习周期内机器人的移动步数以及与环境发生的碰撞次数，d_i,i-1表示当前操作零件与上一操作零件之间的距离。网络的价值函数更新过程如式(15)所示。

r = - α₁n_step - α₂n_collision - α₃d_i,i-1(14)

Q = Q + β(r + γQ_max) (15)

4 案例与验证

基于前述技术和方法，以 A 型号和 B 型号两种车用发电机为例，展开案例研究。两种产品在结构以及功能上具有非常大的相似性，但是在零件尺寸、零件数量等方面存在一定的差异。实验假设发电机各零件装配顺序固定，针对其中机器人具体的执行动作进行验证。

4.1►

共融试验环境

人-机-环境共融的协同装配试验环境如图 11 所示。物理空间即为发生真实装配试验的装配平台，包含操作工人、协作机器人、零件、操作工具，以及装配平台等。孪生空间为物理空间的虚拟映射，包含了物理空间实体对应的孪生模型，以及相应的数据处理算法。

图 11 数字孪生协同作业环境

首先，基于 CoppeliaSim 仿真平台，向虚拟装配环境中导入实体模型及产品工艺文档，孪生环境中的模型布局及属性参数支持编辑与修正。其次，通过 Socket 编程获取机器人位姿数据，并利用 Vrep接口编制脚本文件与虚拟装配单元建立通信，进而控制虚拟装配单元执行虚拟装配过程，获得模拟仿真数据。经过处理后生成的装配操作指引将在人机交互界面进行显示。在共融的数字孪生环境中，孪生体控制机器人运动，交互界面为工人操作提供指引。物理空间的装配动作在孪生空间中同步进行。

4.2►

发电机装配任务

针对两种不同型号发电机的虚实装配进行验证试验。其中，用于目标域装配实验的发动机总成包括 18 种结构件，其装配操作类型中包含 4 种螺母操作，2 种为螺钉操作(其中 1 种带有卡块)，2 种为嵌入式操作，3 种为套入式操作，4 种为非对称式放入操作，1 种为对称式放入操作。根据装配工艺要求，设定的装配约束关系如图 12 所示。

图 12 发电机装配任务序列

4.3►

方法验证

4.3.1 迁移模型

在进行装配特征相似度分析过程中，迁移模型中判别器的性能直接影响迁移的信息质量。在基于对抗判别的域自适应网络中，通过比较四种具有不同注意力层的特征提取模型的特征识别效果，调整网络参数，得到较优的迁移模型。

如图 13 所示为迁移学习过程中的目标域分类损失曲线与判别损失曲线。对于具有两层注意力层的点云特征提取模型收敛速度最快，且达到稳定后的损失值最小，而当注意力层为一层或四层时，收敛速度明显下降，且损失值发生较大的波动。同样的，对于判别损失的比较，发现两层注意力层的点云特征提取网络能够更好地实现领域混淆。

图 13 迁移学习模型的损失函数

4.3.2 强化模型

在机器人进行装配动作自适应调整的过程中，采用了强化学习(RL)进行从零探索的方法与基于迁移学习经验指导下的强化学习探索(RL+TL)进行比较。Critic 网络进行神经元随机丢弃后，叠加在本地强化学习网络的 critic 网络中，对 actor 动作进行评价，基于迁移历史知识的评价更有方向性。

如图 14 所示为两种方法对比的奖励函数曲线与损失函数曲线图。从图 14a 中可以发现，强化学习模型在加入迁移学习模型后，其奖励函数更快的进行收敛，证明迁移学习指引下，机器人更快的学到了正确的运动方式。在图 14b 中，RL+TL 模型训练过程的损失曲线比没有 TL 时损失曲线收敛得更早，且前者的最终损失值小于后者。出现该现象的原因是 TL 能够将从相似任务中学习到的经验参数传递到目标网络中，从而加快了训练过程。

图 14 强化模型的奖励与损失

4.4►

试验结果分析

对于源域中的历史装配产品(A 型号)，其后盖固定螺栓与定子卡块固定螺栓相同，而待装新产品(B 型号)的两种螺栓则不同。因此，在执行 B 型号产品装配过程中，需要对这两种螺栓的装配采用不同的动作，包括螺栓插入深度的不同，旋入时使用工具的不同。

最终，为了验证所提方法的有效性，设置基于预编程方法、强化学习方法、迁移学习的方法为对照组分别进行装配试验。三种方法与所提方法的装配效果对比如表 3 所示。通过对比发现，单独基于迁移学习的方法，装配成功率最低；而单独基于强化学习的装配效果综合表现较优，甚至超过了预编程的方案。然而，预编程方法对于每一个不同的新特征修改，平均需要 30～60 min 的额外时间。而强化学习在训练阶段所耗费的时间也通常以小时为单位进行度量。迁移学习则通常只需要一次预编程即可，平均时间耗费最短。

表 3 装配模式对比结果

总体来看，直接采用迁移学习方法，则会导致螺栓装配错误，存在较高的碰撞情况，但动作正确时，拥有较高的装配效率；基于强化学习的方法则会耗费大量的时间去探索螺栓的正确装配方式；基于离线编程的方法需要人工指定每一种螺栓所对应的装配位置，费时费力。

5 结论与展望

(1) 针对动态装配任务提出一种面向人-机-环境共融的数字孪生协同技术，针对不同的产品对象，构造可用于计算的产品结构模型，基于迁移学习算法获取任务对于人和机器人的分配方案，同时，机器人基于强化学习算法求解出最优的子任务执行动作策略。采用数字孪生协同技术，在孪生空间进行规划并展示机器人的预期路径，分配给人类的任务则将模拟装配过程高亮显示，用来指引人类操作，提升人与机器人作业行为间的协调性。本研究工作基于以人为本的理念，围绕有人参与的智能制造过程，充分考虑人类的参与度、任务状态更新以及机器人的自适应性，最大化机器人利用率的同时，提升人类的工作舒适度和幸福感，实现人类友好的人机协作。面向动态任务的人-机-环境和谐共融技术，将进一步完善以人为本的智能制造体系，推动制造业的智能化转型。

(2) 机器人的决策效率直接制约人机协作系统的柔顺性。虽然基于迁移引导的强化学习方法结合了两者的优势，表现出较好的效果。但对于复杂任务，干扰特征较多的情况下，会出现负迁移现象。下一步研究团队将继续坚持以人为本的理念，深度融合场景理解与知识表达技术，基于知识进行迁移，开展人机共融场景中的自然交互、自适应运动控制等研究，进一步提高人机协作效率，助力发展人本制造，降低人机协作的复杂度，提升人类工作舒服度和幸福感，推动我国制造业的高质量发展。