基于真实环境下的元宇宙场景搭建关键技术

7月前浏览2533

来源：信息通信技术与政策

作者：硕天鸾，董一民

摘要

基于真实物理环境构建的元宇宙场景是连接物理世界与数字世界的重要桥梁，也是实现数字孪生到虚实共生的重要途径。围绕三维重建、渲染等元宇宙场景搭建关键环节，总结了当前主流技术路径与创新态势，讨论了相关领域基于人工智能的优化提升以及神经渲染技术模型研究、理论优化等，分析了关键软硬件产品应用格局、创新方向，并提出了当下我国技术创新发展的建议。

关键词：元宇宙；三维重建；渲染；神经渲染；神经辐射场

0 引言

元宇宙综合了人工智能、空间计算、虚拟现实、区块链、数字资产等关键技术，是以人为中心、3D沉浸式、开放式的互联网新业态，自2021年元宇宙概念爆发以来，相关技术创新与应用模式快速发展，已成为孕育下一代互联网新元素、新业态、新趋势的起点。

从过去数十年互联网发展的历程来看，公众获取信息与交互的方式经历了以文字、图片、视频等为载体的二维时代，目前以元宇宙为核心载体的新一代互联网加速了三维信息传递与交互方式的创新，全方位提升了沉浸式的交互体验，同时在时间和空间上融合了物理世界和虚拟世界的信息，极大地拓宽了人类认知与影响社会生产生活的边界，将推动人类生活方式、社会分工、信息传播的演变。在元宇宙的发展过程中，从数字孪生到虚实共生是必经阶段，其要求在虚拟世界中对物理世界进行真实复刻与再现，并打通双向流动的数据通道，实现物理世界同虚拟世界的数据互通、协同联动。

围绕这一重要创新方向，元宇宙相关的各类关键技术正处于创新的快车道，其中综合了计算机图形学、计算机视觉等诸多领域的关键技术，基于真实物理环境的元宇宙场景搭建是元宇宙应用沟通物理世界和虚拟世界的重要桥梁，当前主流实现方式是通过对三维物体、物理场景的图像拍摄、雷达扫描等方式获取三维环境的几何、纹理、光照等表达信息，通过人工或自动方式复原场景三维结构与表面信息，实现三维空间表达，并通过可视化渲染技术最终服务于元宇宙应用创建。2020年以来，卷积神经网络（Convolutional Neural Networks，CNN）、生成式对抗网络（Generative Adversarial Networks，GAN）等人工智能技术逐步应用于元宇宙场景搭建，为三维重建和渲染中的数据处理、表面材质还原等提供了高效的辅助手段。

同时，以神经辐射场（Neural Radiance Field，NeRF）为代表的神经渲染技术创新热度空前，其创新性地借助多层感知机（Multilayer Perceptron，MLP），采用隐式几何表达方式，将三维重建同渲染过程分离，实现了更加真实、细致的环境复现。尽管目前神经渲染相关技术仍处于理论研究与产业化初期阶段，但一系列典型行业应用与新产品的初步探索均表明，这一技术创新方向将为未来三维重建领域特别是元宇宙应用的场景搭建提供巨大的技术支持。

1 场景搭建关键技术

基于真实环境的元宇宙场景搭建的主要过程包括三维重建与渲染，三维重建致力于由计算机对物理实体、环境建立三维几何表达；渲染致力于将三维几何表达经过光线处理与着色输出为可视化二维表达。二者相结合实现了从真实世界到虚拟世界的映射以及多视角的观察与交互。

三维重建与渲染两个过程，具体涵盖空间物理信息获取（图像获取）、相机标定、特征提取与匹配、表面重建、语义化分割、模型的人工或自动修正、相机与光源标定、光栅化或光线追踪、着色等关键环节，其搭建流程如图1所示。

图1 基于真实环境的元宇宙场景搭建流程

1.1 三维重建过程

在三维重建领域，当前主流的三维重建技术路线包括主动式和被动式两大类，主要特征如表1所示。主动式三维重建需要先通过特定硬件投射出预设的信号，经由物体的反射后再被特定传感器捕捉，主要包括结构光、激光等，其优势是借助精密、复杂的特殊设备进行三维信息的获取，能够较为精细地恢复物体、场景的三维特征，但其成本较高、流程较为复杂；被动式三维重建利用周围环境如自然光的反射，使用相机获取图像，然后通过特定算法计算得到物体的立体空间信息，主要包括单目三维重建、双目或多目立体视觉等，其优势是成本较低、对硬件设备要求不高，但成像精度较低。

表1 主流三维重建技术特征

主动式和被动式的三维重建技术，主要通过图像采集技术获取信息，并搭建了以点云、网格等显式几何表达形式构建的三维结构，其特点是能够清晰直观表示复杂物体的三维信息。但当前主流的三维重建技术仍然面临诸多挑战，例如三维重建结果仍需要耗费较高人力资源进行修正；面向多个对象组成的场景时，识别对象的几何形状与拓扑关系还存在精度不高、识别有误差等问题。

近年来，以深度学习为代表的人工智能技术加速创新，在三维重建中对数据质量管理、模型修复、三维语义分割等方面应用探索众多，相关理论探索与应用快速涌现。例如运用人工智能技术对获取原始数据中存在的色彩差异大、纹理模糊等问题进行自动预测修复，提升三维模型质量；通过图像分层等方式运用神经网络学习三维场景的对象拓扑信息，实现高效、精细场景的几何细节复原。

从当前元宇宙应用发展需求来看，根据场景空间大小主要分为单/多对象重建、中小尺度场景重建、大尺度场景重建等。其中，在“元宇宙+数字资产”“元宇宙+工业”等领域的应用中，面向单/多对象的三维重建尤为重要，其对于物体的三维信息表达精度具有较高要求，同时需要精细重现各组件间几何结构与拓扑关系，从而实现对象在虚拟空间的价值再现以及运行状态模拟、仿真、测试等。

相比之下，中小尺度场景的三维重建更多面向商贸会展、建筑装修、虚拟展厅等场景，其对于空间细节还原、场景交互性要求较高。大尺度场景的三维重建将更多面向“元宇宙+城市”“元宇宙+文旅”等场景，并结合传统地理信息测绘等技术，为景区、街区、园区等大尺度空间进行多层次三维还原，其更强调物理空间的多层次表达、动态运行监测与信息叠加。

1.2 渲染过程

渲染过程重点是将已搭建的三维模型/场景，按照设定好的环境、灯光、材质及渲染参数，二维投影成数字图像并在终端显示的过程。当前主流的渲染原理有两种，一是光栅化渲染，将三维模型上的顶点、三角面经过变换、裁剪、着色后投射到视点，在屏幕上形成图像的过程；二是光线追踪，从视点出发将光线投射到三维模型/场景中，沿着光线与几何体的反射、折射后的光路进行跟踪，从而精确模拟二维成像的过程。

其中，光栅化渲染因为对三维场景中的光线路径进行了简化，因此渲染速度较快，更适合对实时性要求较高的场景进行渲染；光线追踪对光路进行了充分模拟，能够有效表达全局效果以及阴影、反射、折射等真实效果，但运算复杂导致渲染所需的计算资源较高。

从当前元宇宙应用需求来看，面向不同场景的渲染方式主要包括两大类：离线渲染与实时渲染。离线渲染主要面向非实时性输出的场景需求，例如沉浸式影视制作、“元宇宙+会展”等，是在计算出画面时并不显示画面，计算机根据预先定义好的光线、轨迹渲染图像并连续输出的过程，其特点是不需要考虑渲染时间对结果的影响，可以输出更加精细的图像。

实时渲染主要面向“元宇宙+游戏”“元宇宙+社交”等对实时性、交互性有较高要求的场景，是指计算机逐帧渲染出画面并实时显示的过程，其特点是受系统的负荷能力限制，必要时需要牺牲画面效果来满足实时性要求。另外，结合当前移动端元宇宙应用的实时性渲染需要，云渲染技术是主流实时渲染中的重要分支，通过将渲染任务部署在云端、将渲染完成后的图像传输到手机或者Web端并进行交互，从而降低对交互界面设备计算能力的要求。

2 神经渲染技术创新分析

传统的三维场景搭建过程普遍采用基于点云、网格等显式几何表达搭建的三维模型，并通过光栅化、光线追踪等方式进行渲染，本质上是由二维到三维再到二维的过程。随着人工智能技术介入数据处理等关键环节以及算力的快速增强，传统方式能够按照不同的应用场景生成高质量场景图像，但在场景搭建过程中需要提前观测并预设物理参数，包括相机参数、光照参数、材质参数等，其场景搭建的精度同人力成本、设备成本、算力成本呈正相关，这给未来大尺度、高复杂度的高质量场景搭建工作带来了诸多挑战。

近年来神经渲染技术快速兴起，为高效、快捷搭建高质量的三维场景提供了新路径，其核心是借助神经网络模型来学习输入的二维场景图像，将三维场景模型隐含在神经网络模型中，训练结束后即可通过这个神经网络模型渲染生成任意角度的图像，跳过了三维建模过程，实现了从二维直接到二维的过程，即建模和渲染过程的分离。

神经渲染技术中以NeRF技术影响最为深远,相关领域创新最为活跃[1]。NeRF借助计算机图形学中的体渲染思路，采用MLP，基于距离函数等隐式几何表达方式，将若干不同角度的输入图像解析为若干采样点，输入五维向量（三维坐标以及相机位置与方向），经过模型输出该采样点的颜色和密度，并结合输入图像的渲染损失，持续优化MLP权重。经过训练的MLP可以输入任意视角并输出颜色和密度，进而输出完整、高清晰的图像。

以NeRF为代表的神经渲染技术相比于传统三维场景搭建方式，优势是能够基于真实场景优化输出结果，因此能够生成照片级的图像，相比之下传统的场景搭建方式由于采样精度、光照阴影等问题容易造成细节丢失、清晰度下降等。同时，神经渲染技术不需要昂贵的采样设备以及强大的终端算力作支撑，在未来的移动端应用具有广阔的前景。此外，相比于传统方式搭建的三维模型需要占用大量的存储空间，神经渲染技术形成的神经网络模型占用的空间相对较小，为未来在轻量级设备上部署高品质元宇宙应用提供了可能。

虽然以NeRF为代表的神经渲染技术理论创新众多，但当前仍存在不足，例如训练与渲染速度较慢，对于多个目标组成的复杂场景、大尺度场景适应性较差。针对上述问题，相关理论创新正在快速展开，针对NeRF训练与渲染速度问题，德国马克斯·普朗克研究所C.Reiser等提出的KiloNeRF模型通过将大型MLP拆解成数千个微模型的方式，加速训练与渲染速度；

针对多目标场景问题，德国马克斯·普朗克研究所M.Niemeyer等提出的GIRAFFE模型将NeRF同GAN相结合，提出将场景参数化为多个前景（目标）NeRF和单个背景NeRF的组合，学习由多个目标组成的场景生成模型；

针对大尺度场景，加利福尼亚大学伯克利分校M.Tanck等将Block-NeRF技术通过引入分块训练、外观匹配、环境变化匹配等特性，使其能够表征街区、城市级等大尺度场景。此外，跨模态渲染、实时性渲染等相关理论模型研究也在持续探索中。

目前，以NeRF为代表的神经渲染技术正处于由理论研究向工程化应用快速发展的重要阶段。虽然神经渲染技术为高质量、低成本搭建三维场景提供了一条可行的技术路线，但由于相关技术在训练速度、渲染速度、场景适用性等方面还存在较大的优化空间，因此短期内其应用主要面向场景还原度要求较高、但交互性不强的场景，例如街区、景区、文化场馆、体育赛事等，能够较大程度降低三维重建成本、提升场景逼真度。对于工业、游戏、社交等具有实时性渲染要求的场景，目前仍需要传统建模与渲染技术的支持。

3 关键软硬件产品创新态势

当前，建模和渲染技术对于质量和效率的需求日渐提升，三维重建、渲染软件通过多种途径整合重建与渲染能力，呈现一体化发展趋势，同时随着人工智能技术发展，越来越多软件引入CNN、GAN、强化学习等算法以提高精度和效率。硬件方面，厂商推出人工智能专用芯片用于三维重建和渲染，特别是围绕以NeRF为代表的神经渲染技术，软硬件厂商开始陆续推出适配产品，加速神经渲染产品化、规模化应用。

3.1 三维重建及渲染软件

目前，三维重建软件按照重建技术路径可分为被动式三维重建软件和主动式三维重建软件。被动式三维重建软件利用一组二维图像来生成三维模型，通常使用计算机视觉技术识别图像中的特征点，并通过对特征点进行匹配和三维几何计算，实现三维模型的构建，广泛应用于无人机测绘、建筑测量、考古研究、游戏开发、地理信息系统等领域，主要包括Agisoft Metashape、Autodesk ReCap Photo等软件。

主动式三维重建软件通过处理大量的点云数据，生成精确且高质量的三维模型，广泛应用于建筑、土木工程、石油和天然气、测绘、交通等领域，包括FARO Technologies Scene、Leica GeosystemsCyclone等软件。此外，为充分结合主动式与被动式两种重建方式优势，行业也涌现出混合三维重建软件，这类软件可以协同处理图像、点云等原始数据,并在准确性和效率方面实现平衡，例如Trimble RealWorks等软件。

目前，渲染软件可以分为实时渲染和离线渲染两大类。实时渲染主要侧重于以较低的延迟实现图像渲染，以便用户可以实时观察渲染结果，这类软件通常采用多种优化手段，如光照贴图、级联阴影映射等，以提高渲染效率，广泛应用于游戏开发、虚拟现实（VR）和增强现实（AR）等需要实时交互和快速反馈的领域，包括Unreal Engine、Unity等软件。离线渲染侧重于生成高质量、真实感强烈的图像，其通常采用较为复杂的数学模型和算法，如路径追踪、双向路径追踪等，以提高光影效果的真实感，并广泛应用于电影制作、动画制作、建筑可视化等需要高质量、真实感强烈的场景，包括Arnold、V-Ray等软件。

3.2 三维重建与渲染能力联动发展

软件技术发展和跨文件格式标准统一为三维重建与渲染软件协同、联动发展提供广泛基础，为用户提供更好的体验。在软件部署平台方面，越来越多的软件采用了基于云的解决方案，方便用户在不同设备和平台之间进行三维重建、渲染等工作协作。在文件格式方面，OBJ、FBX、COLLADA和glTF等格式成为了行业通用标准，文件格式之间可以相互转换。例如，现有的OBJ、FBX和COLLADA格式支持转换为glTF格式，从而提高了在不同软件之间的数据交换能力。

同时，许多软件开发商都在推动三维重建和渲染功能集成整合。例如，Blender、Maya、3ds Max、Cinema 4D等软件已经整合了三维重建和渲染功能。Blender内置了多种三维重建工具，如摄影测量和点云处理，同时支持Cycles和Eevee这两种强大的渲染引擎，可以实现高质量的渲染效果。3ds Max包含了一些三维重建功能，如摄影测量和点云处理，并且支持多种渲染引擎，如Arnold、V-Ray和Corona等。Maya支持点云处理和摄影测量等功能，并且内置了Arnold渲染引擎，并支持其他第三方渲染引擎。许多专门的渲染引擎也提供了与主流三维建模软件的插件，以便用户可以在同一个软件环境中进行渲染。

3.3 开源软件和商业软件共同推动行业发展

在三维重建及渲染领域，开源软件和商业软件各有优势，共同推动了技术和行业的进步，如表2所示。相较于商业软件，开源软件通常免费或成本较低，这使得开源软件在初创公司、学术界和个人用户中具有较高的吸引力。庞大的社区使得开源软件能够快速适应行业发展和用户需求，从而推动软件维护和改进。

例如，Meshroom是在第三版通用公共许可协议（GPLv3）许可下发布的开源软件，它的源代码托管在GitHub上，供任何人自由下载、修改和分发，主要为摄影测量、无人机航拍和文化遗产等领域提供基于图像的三维重建功能。OpenMVS是基于Apache 2.0许可的开源软件，源代码在GitHub上公开，用户可以自由地访问和使用，其在计算机视觉、机器人、地理信息系统等行业中具有一定的市场覆盖率。此外，COLMAP、Open3D这些开源软件在三维重建和渲染方面也有着广泛应用。而商业软件通常面向高质量三维重建和渲染需求，其功能会针对特定领域的需求进行优化，并提供更加专业化的功能和技术支持服务，从而在性能和稳定性方面有着更好的表现。此外，商业软件往往会成为行业标准，许多公司和机构会选择商业软件作为主要工具，这使得商业软件在行业内具有更好的兼容性。

表2 三维重建主流软件现状

3.4 软硬件工具同AI技术加速融合

三维重建及渲染软件通过内置人工智能算法工具提升性能及效率。在三维重建方面，CNN已被广泛应用于三维重建领域，特别是在点云数据处理中，通过学习点云的局部结构，能够有效地提高三维模型的精度和稳定性，3ds Max、Blender、Meshroom等引入卷积神经网络，协助处理点云数据,实现更高质量的模型生成。

在渲染方面，GAN可以通过学习真实场景的光照和材质特征，生成逼真的渲染效果，并将渲染时间缩短50%以上，Substance Designer、3ds Max等软件已经引入该算法，用于优化光照渲染，从而提高渲染质量和速度。强化学习算法可以实现参数自动调整，提高模型和渲染效果的质量，同时减少计算资源的消耗，使用了强化学习算法的Maya、Houdini和Unity等软件已经取得了显著的成果。

专用AI芯片满足三维重建和渲染计算能力需求。专用AI芯片针对特定人工智能算法进行了优化设计，以实现高效能、低功耗的运算。英伟达Quadro系列产品提供了较强的AI计算能力，支持实时光线追踪和高级视觉效果，该系列专门针对专业级应用进行了优化，以确保在这些应用中获得最佳性能。英特尔神经处理器（Intel Nervana）的专用硬件平台专为AI和神经渲染任务而设计，提供高性能的计算能力和低延迟的数据传输，在特定神经渲染任务上，其性能提升了3倍。AMD Radeon Instinct GPU集成了专为神经渲染和深度学习任务优化的高性能计算单元。

3.5 业界开展NeRF产品化初期探索

在NeRF技术方面，一些开源项目和实验性工具已经应用了NeRF，并展示了NeRF在逼真三维重建方面的潜力。2022年，英伟达研究员开源了Instant NeRF工具，支持通过几张2D照片快速创建3D和VR场景。2023年，商汤科技发布基于NeRF的3D内容生成平台，可基于3D内容生成技术实现对空间和物体的复刻与交互。

随着NeRF技术的应用推广，一些专门为NeRF算法设计的芯片也陆续被研发。2022年，上海科技大学团队研发了面向NeRF算法的神经渲染处理器架构ICARUS，实现了片上全流程NeRF渲染，能效大幅领先现有的GPU和CPU[8]。2023年，韩国研究机构KAIST面向手机终端，设计了基于NeRF的3D数据的实时处理器MetaVRain，与传统GPU相比，其渲染速度提高了911 倍，能耗降低了26 400 倍[9]，并且支持实时3D渲染、模型编辑，为移动设备上的元宇宙应用提供计算保障。

4 结束语

伴随虚拟现实、元宇宙等沉浸式应用的快速发展，三维重建与渲染技术创新日趋活跃，特别是人工智能技术和相关领域的深度融合，已成为当前理论创新与技术研发的重要方向之一，并且相关技术正在加速产品化、产业化进程。

从我国技术布局与应用建设需要来看，建议重点从以下几个方向推动相关领域创新布局。一是持续鼓励理论创新，抓住人工智能技术同三维重建、渲染等技术融合创新关键节点，特别是神经渲染技术“新赛道”方向，加强关键模型、算法等研发，优化性能，提升适用度。二是推动关键技术转移转化，抓住理论创新向工程实践转化的关键窗口期，加强产学研联合攻关，推动高水平理论研究成果的产品化、市场化应用。三是以应用为牵引，结合虚拟现实、元宇宙同经济社会各领域融合的广大需求，鼓励突破关键软硬产品技术门槛，培育标杆产品、骨干企业。

来源：数字孪生体实验室