Press "Enter" to skip to content

三维重建和沉浸式渲染大佬讨论会观点集合

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本文得到CCF-CV专委会(公众号: CCF计算机视觉专委会)授权发布,原文链接: RACV2022观点集锦 | 三维重建和沉浸式渲染

 

三维重建和渲染是计算机视觉(CV)、计算机图形学(CG)研究的重要任务之一,囊括了数据采集,特征提取、三维重建,渲染交互到应用场景的完整链条,在国土勘测、智慧城市、电子商务、影视娱乐等领域具有重要的市场价值。近年来,随着神经辐射场(NeRF)在ECCV2020提出,仅用 2D 的 posed images 作为监督,即可表示复杂的三维场景,将场景隐式表达推上了一个新的高度,也给CV和CG研究带来了新要求和新挑战。我们在RACV 2022组织了一场“三维重建与沉浸式渲染“专题论坛,邀请到申抒含、许岚、高林、刘玲洁四位青年科学家,同与会的40余位国内一流的计算机视觉专家一道,就相关话题进行了深入而有益的探讨和交流。

 

1. 虞晶怡老师(上海科技大学)

 

下面由我来主持三维重建与沉浸式渲染这个专题。三维重建一直是computer vision的重要任务。早期最常见的三维重建算法包括基于多视角的structure-from-motion和基于双目的graph cut、孙剑老师的belief propagation等工作。重建也可以视为渲染的逆问题。传统的computer graphics的核心是simulation,通过复杂的物理模型求解渲染方程。今天我们要讨论的神经渲染和建模(neural rendering and modeling)是用MLP之类的neural network来替代显示的几何、物理建模、渲染等过程。

 

Neural Radiance Fields(NeRF)目前是该领域最火的一项技术。NeRF的初衷是用于渲染的,把几何和材质隐藏在一个implicitly represented的network里。当我们有足够的视角来监督,即training的数据足够多时,我们就不需要用physical simulation,而是直接用fit出来的网络来复现完整的光场,实现任意视角下的高清渲染。NeRF的一个核心思想是volume rendering。它认为空间是由体素而不是面片组成。每个体素都有RGB color和估算的密度density。

 

后面很多老师会讲到NeRF的核心要素,包括positional encoding、MLP、光场建模等。这里需要指出的是原版的NeRF也有缺点。第一,NeRF不能直接产生高清几何。这是因为NeRF计算的体素上的density是用来积分产生对应光线的颜色的。简单通过density产生的几何(例如thresholding)是非常noisy的。当然,这个density可以被映射到alpha channel,实现一些非常fancy、传统渲染做不到的效果。例如今年我的SIGGRAPH paper ARTEMIS用NeRF实现动物毛发的实时高清渲染。第二,早期NeRF的训练速度特别慢,而且需要密集的的图片输入才能产生好的效果。最早训练一个NeRF大约要7个小时,Plenoxels提速到20分钟,现在英伟达的i-NGP可以缩短到5~10秒。此外,在过去的一年里,有大量的以NeRF为backbone的生成任务框架,例如EG3D、StyleSDF,其目标是从单张图片生成比较好的三维几何和多视角渲染。值得一提的是,微软童欣老师最近的GRAM也从单张图片生成几何,是用多层的level set作为几何表达,非常有意思。

 

对于NeRF今后的展望,我想第一个就是全息显示。NeRF一个巨大的优势是它提供了一个完整的radiance field的表达,一步到位地实现多视角渲染,非常适合裸眼3D或者全息显示。第二便是定制化芯片,即专门为NeRF做芯片。我们也在做这件事,很快就有成果给大家展示。最后也是最重要的,我认为NeRF只是用神经网络表达的一种形式。最新的TensoRF工作用tensor来替代深层MLP。这个工作已经开源,大家可以关注一下。以上是我的开场presentation。下面我们请申抒含老师来介绍。

 

2. 申抒含(中科院自动化所)

 

各位老师好,今天非常高兴有这个机会跟各位老师分享我个人关于图像三维重建方面的一些研究心得。按照虞晶怡老师刚才对CV和PR的描述,我自己做的可能就是纯粹的CV了,是非常传统的图像三维重建相关的研究,所以可能和绝大多数老师目前所使用的端到端方式是有些显着差异的,所以这里也权当给大家介绍一些不同的思路。

 

今天我这个报告的题目叫做《图像三维重建研究中的关键问题》,当然是个人的一些观点。首先基于图像的三维重建,尤其是面向大规模复杂场景的三维重建是许多领域的共性需求,包括计算机视觉、计算机图形学、摄影测量、机器人等等其实都有大规模场景三维重建的研究需求。我想首先我们也有必要从计算机视觉的角度来回顾一下三维重建的研究历史。在上世纪80年代马尔创建视觉计算理论的时候,就把图像三维重建作为从图像到感知的一个必由之路。马尔认为恢复一个与视点无关的三维模型,是我们实现图像理解的一个关键。当然从今天的观点来看,马尔这个观点和真正的视觉神经处理应该是有差异的,但是在马尔的这个框架之内,从80年代开始到大概2000年,很多学者在Marr的视觉框架下建立了比较完备的数学几何逻辑,建立了以分层重建为代表的多视几何理论。分层重建将一个复杂的图像三维重建问题拆解为一系列的子问题,每一个子问题的维度相对是比较低的,从而提高了几何求解的精度和鲁棒性。从2000年以后,我们成像所使用的相机质量得到了飞速的提升,所以在重建过程中,相机的内参这个关键参数,在很多情况下我们可以认为是已知的,或者是可以近似给出的。所以当相机内参已知的情况下,我们可以通过多视图几何中的5点法,直接得到两视图的度量重建,并且通过后续一系列的解析计算和迭代优化算法来恢复海量图像和大规模场景的三维模型,这也成为我们现代图像三维重建的一个主要范式。

 

这里我们需要强调的是,上面所述的多视图几何理论,其实主要解决的是三维重建中相机位姿的解算问题,而对于一个真正实用的大规模场景三维重建系统其实包含非常多的模块。如果我们构建一个完整的三维重建系统,通常来说会包含从数据采集,到位姿估计,到几何重建,到结构表达,到地图更新等等完整的闭环系统,我们刚才所说的多视几何,其实主要是解决中间的位姿估计这样一个问题。所以这里我们首先简单回顾一下,构建一个完整的三维重建系统需要哪些模块,每一个模块做什幺,以及目前大概发展到了一个什幺样的研究态势。

 

首先,对于第一个模块,我们称之为“探索式场景数据获取”。随着我们重建场景的规模和复杂度不断提升,依靠人工去获取数据必然会遭遇到人工数据采集的经验性、主观性以及不可复现性,所以使用机器人或者无人系统替代人来完成高效完备的数据采集,必然成为实际应用中的一个趋势,那幺探索式数据采集的目的就是完成这个任务。目前在这个领域出现了一些有代表性的工作,这些工作基本上都是基于几何思路来完成这个任务的,也就是我们在采集的过程中会实时构建一个局部地图,并且根据这个地图的局部几何完整性来实时规划路径,并且选择下一个最优的移动视点。目前在这一领域我们还没有看到端到端的方式来处理这个问题。

 

当我们有了场景采集的数据之后,下一个模块就是来解算传感器的精确位姿,称之为“多模态联合位姿解算”。因为相机的位姿精度对于后续的所有几何计算精度具有至关重要的作用,所以这一步非常关键。在左侧我们列出了典型的几何算法,右侧列出了典型的深度学习算法。在这个领域目前几何算法占有绝对主导的地位,包括离线的从运动恢复结构的SfM算法、在线的SLAM算法、各类激光和视觉里程算法等等,这些算法其实本质上都是在完成相机精确位姿求解这样一个任务。此外,端到端的位姿解算方法也有出现,比如说通过两幅图像用网络直接回归相对位姿,替代我们刚才所说的5点法,但是目前从求解精度、泛化能力以及场景适应性来看的话,端到端的方法还达不到几何方法所能提供的能力。

 

当我们有了精确相机位姿以后,下一个模块就是用来得到精确的三维几何模型,称为“高精度三维几何重建”。这里的几何模型可能是密集的点云模型,也可能是密集的三角网格模型或纹理模型,同样有传统的几何方法以及学习的方法。传统的几何方法通常是利用两视图或者多视图稠密匹配算法得到每幅图像的深度图,并且融合为一个场景的整体点云。那幺端到端学习的方法,一类是使用网络直接推断每幅图像的深度图来替代传统的稠密匹配。另一类是近几年大热的NeRF类的方法,尤其是近一两年出现了一些以重建比较高精度模型为目的的NeRF方法,也给高精度的三维重建提供了一些新的思路,这部分内容应该后面几位老师会详细地展开,这里就不详细描述了。

 

当我们有了一个完备的几何模型之后,下一个模块我们称为“细粒度三维语义分割”。因为对于大规模场景来说,里边通常包含不同类别的地物,而不同类别的物体在我们后续的表达和运用上是不一样的,所以通常情况下我们需要把场景分解为不同类别的语义部件,以供后续的使用。对三维场景进行分割这个问题,深度学习方法占绝对主导,尤其是各种三维卷积网络是目前广泛使用的方法,并且取得了不错的效果。当然传统几何方法也有运用,因为如果我们已经重建了一个质量很高的三维模型,即使我们手工设计一些简单的传统几何特征,设计一些非神经网络的分类算法,有时候也能得到不错的效果,所以这在一定程度上可能也回应了马尔的观点:如果已经重建出了一个很好的三维模型,那幺对于后续的感知任务来说也会变得相对简单一些。

 

第五个模块,我们称为“轻量化三维矢量表达”。对于实际的应用来说,不同的语义部件我们通常都希望用高度结构化、高度语义化和高度紧致化的模型对它进行最终的结构表达,比如转化为CAD模型或者BIM模型,这也是绝大多数实际应用中所需的最终的三维模型形态。为了转化这个模型,通常我们也有左侧的几何方法和右侧的端到端学习方法。几何方法会首先使用一些基本的几何基元,比如说线、面、曲面去拟合三维点云,之后进行全局规整和全局组装。目前这类方法在室外建筑物场景重建、室内场景重建中都取得了还不错的结果,当然距离我们实际应用中所需的粒度和精细度来说,现有方法还有很大的提升空间。端到端的学习方法也在这个领域开展了很多尝试,比如用端到端的网络,直接从散乱点云中求取顶点,并把它们连接成结构化的线模型。但是从效果上来说,目前端到端学习方法在精度上和泛化能力上仍然有很大的提升空间。

 

第六个模块,我们称为“全天候长时定位定姿”。这个模块的目的是利用我们已经重建的地图,为进入场景的机器人和无人系统提供定位定姿的能力。这个问题是一个非常典型的几何视觉问题,称为PnP,也就是根据二维图像和三维模型之间3~5组二维-三维对应点,解析地计算出相机的6自由度位姿。这个问题的难点在于如何给定准确的二维-三维对应点,所以在这个领域里面各种深度学习的描述子,各种深度学习的检测子以及深度学习的匹配算法广泛地使用。在这个领域中,因为最终我们还是绕不过PnP解算这个步骤,所以基本上还是一个强几何的方法。当然端到端的方法也有出现,比如说典型的PoseNet网络,就是用网络去回归单幅图像的6个自由度的位姿,但是在实际应用中,包括实际的精度测试下来的话,基本上还是很难达到现有几何算法的精度,所以在实际应用中PnP解算目前仍然具有不可替代的作用。

 

最后一个模块我们称为“高时效地图增量更新”。因为地图是会变化的,尤其是对于定位定姿这样的任务,地图变化与否很大程度上影响了定位定姿的精度。因此这个模块的目的就是发现场景中出现变化的区域,并进行局部的更新。因为对整个地图进行更新的成本是很高的,所以我们只希望对变化的区域进行局部更新。这里边同样有两类方法,第一类是几何的方法,通过我们实时构建的局部地图和全局地图进行结构上的比对,包括纹理的比对,发现变化的区域并进行局部的增量更新。另一类是端到端的方法,更倾向于直接比对当前采集的图像和地图建模图像之间的差异来发现变化的区域。这两类方法目前在实际应用中距离我们期望的可用性都还有比较大的差距,仍有很大的提升空间。最终这个地图可以再次返回给三维重建系统的第一个模块来指导我们的探索式数据采集,以实现更完备地的场景数据获取。

 

这些模块整体串联起来,就构成了一个完整的大规模场景三维重建系统。第一个模块“探索式场景数据获取”利用全局地图,通过探索式的方式来自主获取复杂场景中完备、丰富和稳定的数据。之后第二个模块“多模态联合位姿解算”会计算出每一个相机精确的空间位姿,以保证我们后续几何求解的精度。第三个模块“高精度三维几何重建”会把图像转换成高密度的三维点云或者高密度三角网格模型,实现对场景精确的三维几何表达。第四个模块“细粒度三维语义分割”将场景分解为不同的语义部件,以供后续的使用。第五个模块“轻量化三维矢量表达”会将我们感兴趣的语义部件,比如建筑、道路、桥梁等转化为符合规范标准的矢量化模型,支撑实际应用的需求。第七个模块“全天候长时定位定姿”会运用我们构建的矢量地图或者是点云地图来实现无人系统的高实时性定位定姿,同时也作为我们变化检测的前端,来发现地图中可能存在变化的区域。最后一个模块“高时效地图增量更新”会对这些变化的区域进行局部更新,保持地图的时效性和全局一致性。所有这些模块完整串联起来,才能真正支撑诸多领域的实际应用,包括数字城市、无人系统、ARVR、智能制造等等。

 

在这个过程中,其实我们发现一个非常典型的特点:基于几何的方法是可以把整个流程串联起来的,也基本上可以构建成一个闭环系统。但是在实际应用中,我们也确实发现会存在很多不鲁棒、不稳定、不精确的问题。所以在每一个模块中,我们也都看到深度学习的方法在不断地涌现,这里边就出现了我个人认为的图像三维重建研究中目前一个非常关键的问题,就是我们传统的几何视觉和深度学习如何融合?基本上在每一次三维视觉的论坛中都会涉及到这个问题,我想这个融合方式也有很多种。

 

今年CVPR的两篇最佳论文,给我们提供了非常典型的两种不同的融合思路,其中这篇最佳学生论文是解决整个系统中的定位定姿问题,这个问题我们刚才说过,其实是一个非常典型的几何视觉问题,叫做PnP。这篇文章的主要工作是设计了一个网络来完全替换这个模块,并且可以和更前面的单目图像深度估计网络连接在一起,实现端到端的训练,从而将前面所有模块全都替换掉,真正实现从单幅图像来计算物体的6自由度位姿,我把这种方式称为端到端的完全替代。这种方式应该是绝大多数深度学习研究者比较喜欢的方式,因为这样的方式可以把前面所有复杂的几何计算完全替代掉。

 

而今年的最佳论文其实解决的是整个系统中的相机位姿解算问题。如同刚开始所说,当我们相机内参已知的情况下,所有几何解算最核心的任务就是5点法两视图分解。这个分解其实在2004年的时候就已经有了完备的解析计算方法,但这个方法存在多解。如果希望避免多解,就需要选择一个最优的初始值。最优初始值的选择问题是不能解析算出来的,所以这篇文章的工作就是把这个无法解析求解的部分用一个网络当做求解器来帮我们选择一个最优的初值,而前边和后边所有能够解析计算的部分得到了完整的保留。因为这个问题已经最小化到了中间一个子问题,因此所需的网络其实是一个体积很小的网络,训练数据也不需要太多。这种方式我把它称为将深度学习作为一个求解器,嵌入到现在的几何视觉算法中来,保留我们所有可解释的解析解。这种方式应该是做几何视觉研究的人比较倾向的方式。这两种方式其实代表了我们在处理三维重建问题时两种截然不同的思路,哪种思路是更加可靠的?现在我们还无法有一个定论。

 

除此之外,在三维重建中,无论是理论研究还是实际应用,我认为还有一个很重要的问题,就是逆向重建和正向重建的融合问题。我们刚才所介绍的所有计算机视觉中的三维重建,其实都是所谓的逆向重建。在计算图形学中,三维重建也有大量的研究,这种重建通常是从程序化语言直接生成模型,比如说生成逼真的建筑,甚至整个城市。这种正向重建的算法和我们逆向重建如何结合,也是一个很重要的问题。在实际的应用场景中,这两种方法通常会同时使用,比如说我们可能会通过航拍图像先逆向重建出一个模型,然后再人工去正向重建一个模型逼近我们这个逆向模型,从而将正向重建的模型作为最终的结果。因为正向重建的模型使用了程序化的语言,所以它具有高度的语义化、结构性和规整性,是绝大多数应用领域所需的最终的模型。这其实就产生了一个问题,如何把这两种思路结合起来?语言这个问题上午大家已经讨论的非常多了,在三维建模也会涉及到语言的问题。上午谢凌曦老师说过语言是有很多歧义性的,但是对程序化建模语言来说,它其实是没有任何歧义性的,因为程序化建模语言是没有任何二义性的,并且所得到的模型应该是所有三维表达中最具结构性、最具规整性的一种方式。所以正向和逆向这两种方法怎幺结合起来,并且避免在这个过程中产生大量的手工操作,我个人认为是一个很重要的趋势。其实我们近年来也看到了一些这方面的探索,比如说上面这个工作就是从散乱点云中直接用网络回归出CAD建模语言,当然目前这些模型相对来说还是比较简单的,如何把这种思路推广到更加复杂的室内外大规模场景中,还是有很多的工作需要做的。

 

最后我们简单总结一下。在实际的应用中,各行各业的很多领域都对全自动和全流程的三维重建工具链有迫切的需求,也给我们的三维重建研究打开了很多思路,提供了很多的机会。在这个过程中有两个关键问题是值得我们思考的。第一是在三维重建系统的构建过程中,传统的具有清晰可解释性的几何视觉,以及端到端的深度学习方法如何融合?是端到端的替代还是嵌入到我们现在的流程中,现在似乎并无定论,也有待我们进一步的探索。第二是从这个实用性出发,如何把计算机视觉中的逆向重建和图形学中的正向重建结合起来,从而真正实现从海量图像到行业所需的高度结构化、高度语义化三维模型的生成,也是未来的一个重要趋势。只有把这些问题都解决了,才能真正用我们的图像三维重建系统来有效支撑数字城市、VR内容生产、高精地图等实际应用领域中的各种业务需求。我今天的汇报就到此为止,谢谢各位老师。

 

3. 许岚老师(上海科技大学)

 

首先感谢邀请,我是上科大的许岚。今天我介绍一下神经网络时代的重建和渲染的发展脉络,我会大致地以时间为轴贯穿整体的一个思路。我们先快速地回顾一下传统的三维重建和渲染的管线。传统的三维重建和渲染,在我本科的时候开始了解到这个行业,或者说这个学科已经具有一个体系化的知识架构,包括像04年的这本Multiple View Geometry,算是引领我进入computer vision这个领域的一本经典教材,当初我把这本书看了好几遍。除此之外,还有一篇对我个人影响比较大的论文,是Building Rome in a Day,当初读这篇论文的时候有一种computer vision竟如此浪漫的这种感觉。maybe because他们重建的是罗马这个城市。传统的三维重建,基于multi-view geometry、基于SLAM或基于MVS,查老师是我们这个领域的权威,我们看到这个传统的流程,已经具有非常权威的这种教材,或者具有非常代表性的一些工作出来了。整个领域不单只国内,国内外有大量这种非常成熟的专业化的拍摄设备支持我们做高质量的三维重建和渲染。如果我们做一个大致分类的话,可以看到既有这种多相机的动态拍摄系统,也包括这种基于灯和相机之间进行光场配合的light-stage的系统,其背后的传统技术发展脉络都是称为stereo方法,包括多视点几何、multi-view stereo和基于光度stereo、photometric stereo这种非常经典的算法,支撑实际的这种硬件系统的搭建。我们也可以看到这些传统的系统已经可以重建出来非常高质量的几何。这些几何带有重建出来的所有属性,可以放到传统的CG渲染pipeline里面去。这些包括几何纹理或者这种detail,还有这种材质的信息,已经支撑起了我们前20年的所有泛数字娱乐行业的方方面面,包括数字化的 digital twin,或者是我们日常生活中的电影,或者是电影游戏里所有这种数字资产的制作,甚至一些电商的数字化的商品制作,三维重建和渲染已经在我们的生活中无处不在了,只不过我们没有机会那幺close那幺亲近地去接触它们。因为传统的三维重建,还是time-consuming、非常耗时的,而且通常到一个专业化的应用,需要大量的艺术家在这个流程里面参与。总结一下刚才观点,就是传统的pipeline,既有成熟的知识体系,有经典的论文,也有非常好的硬件和软件的配合。我们也看到,从大概04年开始,就是引领我入门的这本教材,以04年为标杆,可以认为传统的pipeline在过去的20年已经处于一个非常成熟的状态。这个图其实是想说,每一个学科或每一个技术,它的发展可能就像人生一样,大概会分为5个状态,一开始会处于非常快速的发展,然后遇到瓶颈,然后滑落,然后进入到一个非常成熟的状态。如果以这样的一个观点去看传统的pipeline,它既是遇到了瓶颈,也是遇到了一个成熟的收获的季节,所以它目前是处在一个非常平滑的、非常接近实际应用的程度了。我们这里有一个标志性的一个事件。就是在去年Epic Games买下了Capture Reality这家公司。Capture Reality是做三维重建的,目前基于多视点几何做得最好的商业化的一款软件。Epic Games其实就是Unreal Engine的母公司,一个做渲染引擎的公司买了一个做三维重建的公司,显然是想做传统的三维重建加渲染。如果以这样的一个约20年的跨度去总结传统的渲染pipeline的话,我们可以认为传统的pipeline已经接近一个mature的状态。

 

神经网络大概在15年16年开始发展起来,随着differentiable rendering的发展,就是可微分渲染的发展,对这个比较成熟的traditional pipeline进行了一个较大的改变。中间有五六年的一个发展脉络,我们先跳过,直接进入到目前最火的neural radiance field的一个过程。像之前虞老师介绍的一样,neural radiance field已经用一种比较横空出世的方式,当然并没有那幺横空出世,但是初读下来比较违背我们传统pipeline的一个直觉的方式去陈述了三维重建和渲染的整个pipeline。就像之前所说,我们现在表示一个三维重建,表示一个场景的话,已经没有一个显式的surface或voxel,而是一个连续的场,就像我们接触的电场、磁场这种概念一样,几何、三维物体也是一个场,空间中任何一个点代表着它的属性,包括它的density和color。如果我们要做渲染的话,只需要把这样的一个东西接一个轻量级的MLP,配上每个空间任何一个点,去映射到一个neural的tangent space,或者是映射到傅里叶空间的positional encoding,然后再接上一个传统的体素渲染的pipeline,就可以做到非常high quality的、totally realistic的一个渲染了。

 

在过去的一年,我们也看到基于NeRF的技术处于一个非常夸张的爆炸式的发展阶段。我们会看到非常powerful的这种NeRF,发生在对NeRF的方方面面的改变上,这里列举了一些比较有代表性的发展趋势。首先是之前NeRF的训练是per scene training的,就是一个场景一个场景训练,但是在短短的数个月之内,很夸张的是整个场景的训练过程被迅速地加速到以秒为计算。这是我们实际跑的一个例子。我们不单只是类似这样的一个快速重建过程,不单只可以去对空间中的radiance field进行渲染,也可以结合几何信息、结合radiance field之类的做一个实时的快速的几何生成。这背后的道理是,我们要对整个空间进行一个高效的embedding学习,所以可以使用如图所示的这种多分辨率下的一个快速的Hash encoding方式,把空间中任何一点map到一个非常容易学习的一个feature embedding manifold里,进行一个高效的MLP训练。除此之外,传统的NeRF只能做一些静态的场景,有大量工作把它进一步拓展到动态的场景。例如,在这篇editable free-viewpoint video的例子里,不单只可以用NeRF重建一个静态物体,还可以用它去重建一个动态的场景,里面的每个动态的人物,以及这个背景、这个场景本身,都可以用NeRF进行表达。一旦我们对它用NeRF进行表达之后,可以用NeRF的渲染方式来保证一个photo-real的渲染。这样我们可以单独地对每一个entity,每一个动态部分进行一个单独的渲染,所以我们可以做一些很酷炫的这种包括editable复制这样的应用。NeRF的特点是,我们可以渲染得很真,哪怕我们对任何一个entity进行大量的复制操作。这是今年Google发布会上的一个例子。意思是说,我们用NeRF可以去重建一个很大的场景,背后的技术是Block-NeRF这篇论文。我们看了这幺多NeRF,从一开始出来之后,有很多非常powerful的extension,在这里想跟所有的老师前辈们分享一下我们在关于神经网络的重建下面看到了几个区别于刚才介绍的非常mature的传统重建和渲染的pipeline。非常有代表性的几个区别,第一个observation是,现在的这种基于神经网络的重建和渲染,我们不再像传统的重建一样,要先重建出一个精细化几何,用多视角的这种约束,photometric loss、2D3D loss得到比较精确的camera pose,然后用5点法、9点法重建出空间中的点,然后连成mesh,然后做texturing生成纹理。

 

现在的话,一个重要的原则是我们尽可能用网络去bypass所有这些中间的求解过程。我们希望得到一个 visual representation,看上去很好看的一个视觉效果。但它可能依赖于一个非常粗糙的三维的或四维的一个proxy表达,这是现有的neural pipeline,非常典型的区别于之前pipeline的一个特点。

 

然后我们可以举两个例子,一个是视觉优先的原则在动态场景下的例子,这方面的话涌现出了大量的代表性工作。这些工作背后的逻辑是,类似于我们要做一个动态人体的神经网络渲染的一个引擎。这个引擎,并不关心这个人体的三维表达,到底要多精细,要做的就是要渲染出一个看上去真实的,哪怕几何是粗糙的。这个例子,输入的只是sparse view的 RGB图片,经过triangulation产生的一些点云,其实是像左边这幺粗糙的,然后再经过neural rendering,保证我们渲染出来的视觉效果是非常好的。这样视觉好的效果,反映的是我们的神经网络已经掌握了这个三维信息的。有个最粗糙的思路是说,我们把这个渲染的结果生成dense view,重新跑一个传统的重建流程,就可以恢复出一个很好的用传统的pipeline恢复出一个几何来了。当然这样的一个操作是一个比较暴力比较boring的操作,但反映的是我们不像过去一样先依赖重建,再做渲染。我们现在是先保证渲染,然后好的渲染保证好的几何,完全是一个重建和渲染之间关系的一个颠覆。

 

如果能做成这样的话,我们就可以把一些轻量级的动态的粗糙的proxy,放到一些AR或VR的场景里,然后使用这种渲染网络来进行最终的视觉表达,可以保证我们可以做非常photo-real的渲染,放到VRAR这种轻量级的设备里面去进行。同样的例子,也可以在静态的场景里面得到得到体现,包括像非常经典的两篇代表性的论文,一篇是neural point-based graphics,左边所示的是重建出来的几何,通过传统的MVS方法重建出来的,我们可以看到非常粗糙的一个几何。但是经过我们神经网络的一个渲染,basically就是一个UNet或者是 volumetric的一个渲染,它的神经网络架构本身是很简单的,但是用渲染去替代重建的这个逻辑是比较顺畅的。一旦我们获得这样一个proxy,就可以对他进行editing,让它自己渲染出来。这种combination能力,在传统的pipeline里其实是不太容易做到的。

 

大场景下也有非常类似的一些例子,像之前Google的那个工作,背后就是block NeRF这篇论文。快速进入到第二个observation,我们发现对于神经网络重建非常关注generation,甚至认为generation要大于reconstruction and rendering。这跟上午讨论的大模型恰好有一点不一样,我们需要的generation在重建这里,恰好就是我们要生成一个很好的分布,要在这个分布里面sampling。举一个简单例子,在2D下面,我们可以做到依赖于semantic信息,进行2D的一些生成,可以保证我们生成出来的结果是非常的realistic。后面老师应该也会分享,最近很多这种基于3D的这种GAN和NeRF结合起来做 view synthesis这种三维渲染的效果,包括很经典的这篇3D的方法,它背后逻辑是通过tri-plane来进行渲染。

 

这样的generation能力给我们带来非常深刻的思考,就是重建和生成之间的关系可以是什幺样的,他们应该是可以互补的。举个简单例子,像最上面一个视角里面,假设我们要做一个单图片的重建,是否可以通过单图片3D生成器的一个inversion,快速地重建出它的几何纹理来。这样的三维重建能力是不可能在传统的pipeline里实现的。我们把generation作为一个generator的prior应用于重建,可以做到这样的效果。

 

如果进一步结合更多的一些control ability,把光照、视角、表情的控制全部加到传统generation的东西,加到我们这种驱动的editing pipeline里的话,可以做到传统的重建很难做到的一些应用。还有一个跟generation特别相关的是NeRF结合风格化的工作,后面的老师也会介绍大量的、这种风格化跟NeRF结合的工作。这里稍微提一下,包括我们上午说的基于style的这种大模型,非常需要这样的大模型的一个生成能力。把这样的一个生成能力跟NeRF进行结合,就是要从一个reconstruction进入到AI generation的这种艺术生成的一个范畴,这也是目前NeRF和generation相结合的比较重要的一个topic。最后一个其实不算是observation,反而是一个对神经网络重建和渲染而言,最后的一个问题就是我们目前是处在什幺样的一个地方?

 

回顾一下我们前面的过程的话,可能我们认为对neural modeling and rendering而言,正处在一个快速的爆炸式发展的阶段。如果还是以前面的5段式发展的话,我们目前正处于快速爆炸式发展的这个阶段,可能在research上,我们缺的是一个系统化的体系,maybe我们可以去formulate一本新的教科书for next decade,当然这个事情也不能急于求成,它是一个水到渠成的一个事情。另一个很重要的观察就是这一neural modeling and rendering势必会产生一个像之前一样的象征性的实际落地应用的一些典型的样例出来,也许是NeRF这种modeling的方式,会成为一种新型的新媒体的样式,图片、视频、神经网络表达。如果是这样的话,我们需要神经网络的表达,一方面是要有非常好的compatibility,要兼容我们之前所有的媒体类型,3D的2D的或视频图片,另一方面我们也需要为现在的NeRF去设计支持下一个这种symbolized application的一些独特的特性,包括能不能被压缩、被传输、被分享,以及能不能被以光线的方式进行云渲染,支持一些百万级用户的实际落地的一些应用场景。这些都刺激我们去想这种new modeling和rendering for next decade,我们应该怎幺去做。这是一些简单的分享,也感谢上科大我们整个团队在这个方向上的一些努力和付出,谢谢大家。

 

4. 高林老师(中科院计算所)

 

各位老师好,我是计算所的高林,今天跟各位老师分享一下在人-物-场方面的神经辐射场的一些研究工作和一些展望。

 

从几何表征的角度来看,数字几何最早的研究内容是样条曲线曲面,样条曲线曲面是为工业设计服务的。早期研究的内容还有点云,点云的感知理解在无人驾驶里面非常多。再到后面的三角网格,三角网格是用得最多的一种三维几何的表示方式,特别是在3D电影游戏和移动终端上。另一方面我们看到,使用最多的数字媒体还是图像和视频,他们的特点就是非常容易获取。3D数据相对来说还是面向商业的,或者是面向工业的,距离普通用户相对较远。最近的一个趋势就是有了神经渲染场NeRF,刚才包括虞老师和许老师都做了很多的介绍。NeRF从几何的维度来说,是一个新的几何表征,其次,它非常容易获取,所以说NeRF得到了广泛关注。回顾一下NeRF的基本定义,其实本质上就是给一个坐标和一个方向,输入一个五维向量,然后返回一个四维向量:颜色值和密度值,最终通过体渲染的方式把它们汇总起来。NeRF的效果确实是非常惊艳的,原先通过structure from motion的相关方法做的经典重建的效果相对来说是有局限性的,而用NeRF的方式会得到一个非常高质量的效果。

 

这里可以看一个简单的视频,它介绍了NeRF的基本原理。首先需要从不同的视角去拍摄图片。通过视频可以看到它所需的视角还是很多的,有100多个视角。然后从相机到像素点发射一根光线,给定光线上采样点的位置坐标和光线方向,通过这样一个全连接函数,返回采样点对应的颜色值和密度值,最终通过加权求和得到像素点上的颜色。NeRF本身的渲染效果很好,并且它跟传统的几何表示是有关联的,它可以通过网络预测的密度值恢复出粗糙的几何。神经辐射场的概念提出的时间并不长,但是它用到的体渲染的历史很长。刚才虞老师也讲到,体渲染的历史其实是非常久远的,但是NeRF用神经网络去做其实是很新的,到现在也就两年时间。并且NeRF的相关研究工作是非常多的。从各个维度,包括时空维度,如大尺度的重建,以及训练速度的提升上都有非常多的工作。总结一下,可以分成两个维度:一个是它重建的目标就是人、物、场,对于重建人来说,包括人脸和人体,然后重建单个模型,包括物,还有重建整个城市或者整个的大场景。人、物、场的建模其实之前一直都在做,NeRF相比传统方法带来的好处是采集非常便捷,比如以前采集人体数据需要一个Light Stage系统,现在我们用普通的相机就可以进行采集。同样地,对于物的重建,原来需要一个非常昂贵的激光扫描仪,现在用手机就可以了。对于重建城市也是类似的,并且我们期望得到非常高质量的重建效果。特别对于重建人来说。人其实非常有特点,拥有很多先验知识,所以说重建人体可以实现一种高质量的表示效果。那它的难点是什幺?是当输入简单的时候也能生成高质量的效果,最好是输入的图像越少越好。对人脸的重建甚至希望输入是单目图像,就用手机拍摄单张照片,能否重建高质量模型。前面已经提到,人的好处就是数据非常多,数据多了就能帮助实现输入简单。最近大家都在讨论生成式模型,尤其人脸的数据这幺多,质量这幺好,那幺能不能去做人脸的生成模型,这其实是一个研究的热点。还有就是人体,人体的难度就是高动态,有运动有遮挡,非常具有挑战。

 

说到人脸生成的一个代表性工作,童老师的GRAM的工作非常经典。NeRF这个方向的工作特别密集,基本上每一个想法都有很多平行的工作。通过后面的介绍, 也会发现几乎每一个思路都有平行的工作,我们都会介绍一下。EG3D是一个非常具有代表性的工作,它通过2D的StyleGAN生成3D的人脸,一种3D的NeRF表征。3D的生成其实是非常困难的,包括在几何里面也是非常困难的任务,因为它的维度很高。而这个工作非常巧妙,把3D的生成问题转成2D的生成问题,使用StyleGAN的生成器生成三个2D平面,把三维的问题转成三个二维的问题。二维的生成技术现在非常成熟,尤其有StyleGAN这种高质量的生成网络。EG3D就通过StyleGAN生成三个2D平面来合成这样一个3D人脸。但这个工作没有考虑人脸的两个特点:一是有几何,二是有纹理,没有把几何和纹理解耦开。一个很自然的想法就是要把人脸解耦,所以我们今年在SIGGRAPH Asia上做的一个工作,就是把人脸解耦成一个几何的三平面,一个纹理的三平面。从几何三平面把密度值拿出来,再把密度值做个翻译,得到对应的mask(即掩码),这在二维上用得特别多。借助这个立体的掩码,就可以通过编辑该立体的掩码,从而对人脸的NeRF进行一个3D编辑,并且可以进行3D渲染。我们发现这个方法对二维编辑是有帮助的,比如二维的PS,对一个人拍了张正面图像,想把鼻子拉高,但传统的PS是做不到的,因为传统的方法只能在2D的人脸上操作。我们因为有基于NeRF的人脸生成模型,给单张人脸,把3D的人脸重建出来。3D人脸重建出来以后,有了3D的体表示,可以转换视角,在3D的基础上把鼻子拉高。所以NeRF不仅仅对三维来说有非常大的帮助,同时一些基于传统图像的任务也可以用NeRF去做。左下角展示的三张图片,可以重建它的三维人脸,并且可以更改人脸外观。这里有一个平行的工作,是刘烨斌老师发表在SIGGRAPH Asia上的工作,ToG track。它也是对人脸进行3D的编辑,通过画mask生成一个3D的高质量的人脸,这篇文章也放在arXiv上。在人体建模方面,虞老师和许老师在SIGGRAPH 2021上的一个非常好的工作,它把这些人分成一个一个的区域,通过分治的策略得到每个人的包围盒,通过体渲染的方式去建模这种非常复杂的场景。并且可以复制,修改每个人的大小。因为目前数字人建模非常火,所以对人体建模这一块做的工作非常多。人是否存在在场景中是动态场景和静态场景最大的一个区别。人体的运动就带来这样一个问题,运动前和运动后的对应关系怎幺建立?一旦建立了对应关系,就可以转成经典的NeRF进行训练,但运动会带来空间的变化,还要考虑对人体运动的建模。建模人体有一个好处,它是有先验知识的,例如SMPL模型。借助SMPL模型,本质上就是建立一个不同帧之间的对应关系,同时能够指导人体的运动,这样就可以把空间的位置变化给聚合到一个标准空间,然后在标准空间去做体渲染。这就是NeuralBody的基本思路,是浙江大学的鲍老师和周老师做的,后面刘玲洁老师可能会讲更多的细节。由于想要重建人的细节,不光是通过SMPL模型把运动进行聚合,另一个维度就是人的变形本身非常丰富,比如说衣服的褶皱。刘玲洁老师进一步在上面工作的基础上通过预测残差,把差分考虑进去,从而可以很好的预测褶皱的细节。再进一步的就是刘烨斌老师做了一个fine-tuning的工作,将随时间变化的外观细节考虑进去,他们把这个空间的变化分解成了全局运动、局部运动,以及随着时间变化的运动,进行了三个维度的建模,把这三个维度同时考虑在一起,得到一个高质量的数字人的表示方法。

 

现在介绍的工作是虞老师团队做的。不只是人体有对应关系,宠物也有对应关系。特别是宠物还有这种毛发,重建毛发是非常有挑战的。虞老师和许老师在稀疏八叉树,还有在毛发方面做了进一步的工作去重建宠物。在未来,因为人体有很强的数据先验,所以说如何通过单目的视频,比如说通过手机单目地去拍一段视频,能把立体的数字人重建出来。这样可以很有想象力地说,比如以后快手抖音拍摄的人,都是一个3D立体的展示。同时希望在重建细节上可以做得更好,这是一个非常有挑战的问题。

 

另一个问题就是基于物的神经辐射场,可以看到NeRF本身是多目视觉,需要很多的图片进行重建。那能不能尽可能用少的图片去拍?比如说我之前需要拍100张图片才能重建一个非常好的NeRF,现在能不能用8张或者6张图片去实现?这个肯定很难,图片的输入少了,信息就少了,我们如何补充呢?现在的深度相机越来越便宜,深度相机在很多手机上都有(包括iPhone),能否在拍的时候同时使用深度相机和彩色相机去拍。这样原来100张图片训练一个NeRF,现在能否只用6张图片就训练一个NeRF。这个思路其实也有平行的工作,我们发现谷歌做的关于场景重建的工作,使用了激光雷达采集的点云作为输入,也是类似的想法。如果把NeRF类比图像,图像上可以使用PS编辑图像,那NeRF能不能做PS呢?这方面也有很多平行的工作,包括浙大的NeuMesh工作,是章国锋老师和崔兆鹏老师做的一个工作。麻省理工学院也有一个基于编辑NeRF的工作EditNeRF。我们的一个基本思路就是,训练NeRF用100多张图片还是不够便捷,需要花大量的时间采集。现在的大部分手机都有深度相机,如果能够用iPhone,只拍6组RGB-D图像,这样就能在减少了对外在依赖的情况下去训练一个NeRF。换句话说,缺的数据通过深度信息来进行补充,而深度信息可以帮助网络快速地收敛,可以非常快地训练NeRF。另一个方面,NeRF训练完成以后,能否把NeRF跟图像、视频一样快速地编辑。NeRF本质上是一个基于神经网络的表达,网络其实没法做编辑。但是mesh是一个显式的几何表示,它的顶点可以编辑,可以用来变形。一个思路是把NeRF变成一个带有条件输入的网络,同时在一类数据上进行训练,不同模型几何和外观上的差异被条件输入所编码,这就是这个工作的出发点。我们在某个视角的图像上进行一些涂抹来修改编辑,通过反向传播优化NeRF网络和条件输入,就可以在所有视角的图片下实现相同的编辑,比如把椅子腿去掉,也可以对颜色进行修改。

 

这是一个可以进行编辑的NeRF,但它并不能实现几何变形等操作,并不能实现人体一样的运动,而且一般模型又没有先验模型。我们在这里借鉴了传统的几何编辑思路。虽然NeRF得到的mesh比较粗糙,但是它反映了真实几何的大致空间位置。Mesh的表面可以作为一个prior,但是深度网络不能够进行变形,只能依靠体渲染投射光线。那如何使光线变形?体渲染是依靠光线在空间中积分得到渲染后的图像。我们可以利用模型变化与光线变化是相对的这个观点。我们的编辑使模型发生了变化,但是可以认为模型没变,是光线变了,我们把光线弯曲,相当于是对这个空间进行扭曲。通过弯曲光线,达到对NeRF进行编辑的效果。例如我们拍到的笔记本电脑,还有实验室的很多玩偶。如果用虞老师的技术还可以去拍一个真实的动物,都可以进行几何变形。我们的工作也开源了。章国峰老师和崔兆鹏老师同样也有一个平行的工作。相关工作很多,竞争是非常激烈的。这个工作不光是对几何进行编辑,还可以在做局部的纹理编辑。右边这个头骨上面可以写上ECCV的字样,做头骨的纹理编辑。对于纹理的编辑,还有一种思路来理解就是style transfer,也是一种纹理的编辑。NeRF能否进行style transfer,相当于是把整个重建的NeRF变化为一个风格化的场景,这样带上VR头盔可以立体地观看。但是NeRF做风格化是非常具有挑战的一个任务,因为它是一个3D的表示。现有的风格化的方法都是二维的,所以说我们可以利用二维的风格化方法提供一种监督,但是这种监督没有3D的信息,所以需要利用2D与3D之间的互学习。二维的神经网络可以提供一个风格化的参考,更重要的是我们在3D的NeRF上提供这种基于3D的空间一致性的信息,最终把NeRF风格化。因此我们可以把手机拍摄到的场景转成这种3D立体的风格化效果,这个代码已经开源。做风格化的团队也是非常多的,我们也看到非常多的平行的工作,包括今年的SIGGRAPH上的SNeRF,它的思路其实和我们是很像的。这是Facebook的工作。另一个是康奈尔大学做的工作,同样也是NeRF的风格化。刚才虞老师也提到了,NeRF是一个神经渲染,是体渲染,能不能跟传统的渲染管线相结合,其实是有一些这方面的思路,但是这方面大家都还在摸索和尝试。这个工作的思路就是想把NeRF与传统渲染结合起来做重光照。它先训练了一个原始的NeRF, 然后利用NeRF的几何信息求出法线和阴影的信息,最后通过编解码的结构预测物体表面的BRDF参数,这个方法还是比较初始的。针对物体建模的挑战就是如何提供非常灵活的像PS一样的编辑方法,以及如何进行重光照,和传统管线相结合。

 

刚才各位老师都提到在空间尺度上进行建模的一个基本的方法,就是把场景分块、分治去做。并且数据很稀疏,缺的数据可以通过激光点云进行补充,从而把整个场景进行重建。同时自由场景还会随着时间光照发生变化,可以加上一个网络和条件去刻画不同天气、时间,这个工作就是blockNeRF,刚才许老师也提到了,谷歌所做的五维街景的工作就是相同的思路。香港中文大学也有一个平行的思路,就是将NeRF不断地放大,动态地放大,在不同尺度上放,通过一个渐进式学习的方式进行建模。可以看到建模场方面的未来,我们不光是希望在任意尺度上、空间尺度上进行学习,同时还希望学习一些物理的因素,包括刘玲洁老师做的流体的模拟,还有后面我们希望做的下雨各种自然现象的模拟。

 

对于未来的研究,NeRF如果类比成图像,我们现在每个手机都可以处理图像,能不能将来在手机上处理NeRF,去拍三维立体的视频,并且观看立体的视频,这是需要很多的工作,包括研发专有的NeRF芯片。另外,在不同的空间尺度上,小到头发,大到城市都可以用NeRF进行表征。同时对高动态的物体,包括人体,还有人穿的衣服都可以进行NeRF表达。例如范围更广的,包括医学影像都可以用NeRF进行重建。我的分享就到这里,再次感谢各位老师。

 

5. 刘玲洁老师(宾夕法尼亚大学)

 

大家好,谢谢组委会邀请,我现在是在马克思普朗克研究所做博后,将在明年1月份加入宾夕法尼亚大学。我今天讲的题目就是用这个neural representation and rendering来做三维的真实场景的重建和渲染。

 

首先说一下这个motivation。我们需要做三维场景的理解、渲染,是因为我们人类本来就生活在这样一个三维的世界里,我们跟人需要做一些交互。并且我们在做虚拟场景的时候,希望从不同的视角重建出这个物体,然后从不同的视角去分析和观察这个物体,包括像在医学领域的话,我们希望对各个人的部分进行重建,然后对医生的决断进行指导。同时我们希望跟这个虚拟世界进行一个无缝的交互,希望能够在虚拟世界中获得一种真实感的享受。对于下一代的人工智能,我们希望它有一个能够理解三维场景的能力,这样它能够更好地去我们人类进行服务。作为一个长期的愿景,我希望我们能够让人工智有一个三维的捕捉,包括交互的能力,这样一种想法可以用这个pipeline来说。从二维的世界,重建出三维的表征之后,可以进行一个真实感的渲染。在这之上希望能对三维场景进行一个生成,这样生成的模型可以用来自学习整个framework。接下来,我来讨论一下为什幺这个问题非常困难。

 

我们先说下面这一部分,从二维的图像得到三维的模型,再把这个三维的模型进行一个真实感渲染,这个事情实际上可以想成这样:我有一些二维图片,如果还知道这些二维图片的相机参数,就可以重建一个三维模型,然后再从不同的自由视角对它进行一个渲染。实际上在传统的计算机图形学里面,大家做的就是这个事情。在计算机图形学我们一般分为两部分来做,从image做3D reconstruction,做完拿到一个3D model之后,再通过computer graphics的 ray tracing rendering的方式把它render出来。但是在这两步中间有一个比较大的gap,这里我可以给大家细说一下。比如说像第一步,我们先从二维的图片里拿到一个三维场景,这些structure from motion 的方法,比如Colmap,这些方法都已经做得非常好了。比如说这个车子,我可以从100个视角拍100张图片,然后送进这个算法里面,就可以重建出这样的一个结果。但是我们看到这个结果其实不是很好,第一个就是它是点云,非常noisy,我们也可以看到有时候它就会有一个很大的洞。

 

另外一方面在第二步做图形渲染的时候,我们要得到一个高质量的真实感的图片的时候,我们需要一个非常好的三维模型,比如像左边这个图,这样一个非常好的几何模型,当然我们还需要它的纹理模型来对它进行一个渲染。那幺从这里我们就可以看到这样一个gap,就是说第一步做三维重建的这个 output和第二步希望得到一个高质量的渲染所要求的三维的输入中间有一个这样的gap。现在大家的一个思路就是要把machine learning用进来,怎幺把这个这两部分合并成一部分,然后把这个rendering的过程变成一个可微分的rendering。这样的话通过把output跟input做一个loss,就可以optimize 我这个3D reconstruction的结果。现在很多的方法实际上主要研究的就是三维的表征能不能变成一个 neural representations。那幺能不能用neural network表示一些feature?说到这里,我们需要回顾一下传统的办法中怎幺提取这些场景中的feature。其实在不同的应用领域,提取feature的形式不太一样。比如说在computer graphics里面,我需要定义一些albedo、specular,在robotics里面我比较关注它的geometry、affordance,然后在physics simulation里面,我比较观察它的一些摩擦力,包括它的质量。从这里我们可以看到,从不同的领域我需要去定义一些handcrafted features。这些feature有一个不好的就是,第一个它不是differentiable的,所以它对我们刚刚所说的self-learning的过程不是很匹配。另外一个就是,不能够表达这个场景中所有的properties,比如说我想要表达一种场景中更高维的信息,比如说左边这个做graphics rendering的时候,我们可以看到这个box,它的左边这个墙是红色的,像这样一种高维的语义信息,我是很难用传统的这些方式去做定义和提取的。现在大家要用那种neural的形式表达场景的 feature。这种feature有一些好处,第一它是differentiable的,可以非常好地嵌入到我的learning framework。第二它能够表达一些很难显式表达的东西,很难量化的一些量,比如说像我刚刚所说的这种语义信息非常难表达。另外,neural representation的好处就是,对所有的application是一个generic 的application,所以它可以提取一种更高维的feature,然后这些feature通过不同的应用,可以细分到不同的场景,再去做一些细分的低维feature。

 

这里说得非常抽象,所以我也给大家举几个例子,什幺是neural simulation。这里列了一些paper,最开始这个 neural simulation rendering是起源于 Science的这篇paper GQN,它实际上是从一个人工智能的角度来分析这个问题,就是说人在看一个场景的时候,我会有一些observation,但是我想去渲染一些人没有看到的场景,所以我就要去猜这个场景大概长什幺样。它从这些 observation view里面提取出来一种neural simulation,用一个vector表示,再把这个vector送到一个rendering的 framework里面去render 没有观察到的新的view。这之后还有一些提出了更3D aware的neural representation,包括最近非常火的implicit field。最近受到很多关注的这篇paper叫做NeRF,它受到关注是因为它的quality实在是非常高。我们稍微简单介绍一下。NeRF用一个MLP表示一个三维的点的属性,比如说我把这个点的 xyz坐标送进这个 MLP,就可以提取一个更高维的信息。这个更高维的信息可以表示这个场景在这个点上面的颜色和的密度。那幺我要去渲染一张场景的话,用的是volume rendering的一种方式。就是说我从眼睛打一条光线过去,要计算这条光线的颜色,我会在这条光线上采样很多很多的点,然后把这些点的颜色和density做一个accumulation,拿到我看到的这条光线上的颜色,比如说这个点是红色的,于是我就把这个红色的点跟我的这张ground truth image计算一个L2 loss,这样去update我这个 MLP的参数。NeRF最大的一个问题刚刚虞老师也说了,就是它渲染非常慢,比如说渲染一张2K×1K的这样图片,需要100秒的时间。在2020年我们提出了一种新的一种表达,叫做neural sparse voxel field,我们可以在inference时候提速NeRF将近10倍。我们主要的想法就是提出了一种hybrid representation,这种formulation把这种sparse voxel的结构,这种explicit sparse voxel的结构和这种MLP的结构进行一个融合。它的一个好处就是,我希望这个场景的信息更多地分布在一个局部的voxel里面,而不是用一个整个的MLP去model一个global的信息。在neural sparse voxel field之后,就有很多的work进一步加速这个 rendering的时间,包括现在可以达到real-time rendering,包括做一些大规模场景,包括做一个fast training。除了解决NeRF渲染慢的这个问题之外,还有很多的工作在做NeRF下游的各个领域的一些工作,比如说dynamic scene modeling,这里像刘烨斌老师、虞老师都做了非常多很好的工作,还有周晓巍老师。还有就是做generalization,这一块也是大家经常做,就是我们能不能不用为每一个场景训练一个单独的 network,而是对多个场景训练一个网络,然后这个网络能够generalize到一个新的场景的时候,我就不用再为每一个scene训练这样一个网络了。除此之外,还有其余的一些大家关注的点,比如说怎幺refine 这个camera pose,怎幺做relighting,怎幺做editing and composition,这个方面我不进行赘述。

 

开始之前虞老师也说到,NeRF提取的几何非常不好,虽然说它的这个novel view synthesis,效果非常 impressive,但是它提取的这个geometry我们可以看到非常不好,非常noisy,主要是因为它用了一个volume density的表达。就是说NeRF实际上是用一个volume density去做scene representation,然后用一个volume rendering去做rendering,那幺我们如果想要把这个几何变得更好的话,一个非常简单的想法就是用SDF。这之前也有一些工作就是用SDF来做这个scene representation,大家想到的一种很直接的方式,就是直接用surface rendering。但是我们后来发现,所有的rendering实际上对训练不是特别稳定,这个我在这里不细说。在2021年我们提出了一种方式,用SDF做scene representation,然后用volume rendering渲染这个场景,来保证它的一个稳定的学习。这是我们这篇paper,叫做NeuS的一个结果。我们可以看到,一些image作为输入,可以重建一个非常高质量的几何,并且可以进行一个高质量的渲染。实际上我非常喜欢这个结果,因为我自己做这个 thin structure reconstruction做了非常久,看到这个结果的时候觉得非常impressive。除了刚刚所说的hybrid representation, 用NSVF这种表达,后来用surface,用SDF来做表达,在NeRF之后也有很多新的表达提出。比如说,用来light field来做表达,包括triPlane,虞老师这边的tensoRF非常impressive的一个工作。另外,非常巧的一件事情,就是说做simulation的人在NeRF出来大概前后一两年,他们也提出了一个model叫physics informed neural networks, PINN model。他们也是用MLP去表达这个场景中的一些属性,比如说给出这个场景的xyz,包括它的时间轴,然后得到它的一些跟physics相关的属性,像velocity、vorticity这样的一些属性。然后把这些属性用一个Navier-Stokes equation这种physics law做一个constraint去学习physics simulation。在我们今年的这篇 paper里面,我们第一个尝试把neural representation里加上一些physics的信息,所以我们这里不仅需要一个differentiable rendering的模块,同时还需要一个differentiable physics的模块来生成一个physically plausible的结果。这个方法能让我们从sparse view里面重建非常复杂的这种烟雾的模拟,包括可以通过这样一种physics law的constraint,让它生成我在 captured data里面没有observe的,比如说生成captured data里面的烟雾的后续运动,让它能够符合我的物理原理。这是这篇paper的另外一个example,比如说像这样一个场景,我可以通过这样一种形式进行分离,然后像这个烟雾的话,我可以让他有一个physically plausible结果。

 

上面说的是我怎幺做重建,怎幺做image synthesis。接下来是说我怎幺做场景的generation,实际上在我们graphics领域做三维场景的generation是一个非常复杂的过程。我需要去雇佣一些artist来做这个过程,我们可以看到这里非常复杂。我们能不能设计一种算法能automatically generate这种新的三维的场景,怎幺来做这件事情?像NeRF的话,很多model需要multiview images。但是multiview images毕竟是一个比较少的data。我们更easily synthesize的这种data,实际上是网上很多的这种single view image,比如说各式各样的车子只有它的single view,我也不知道它的camera。这样一种data是很多的,所以我们generate 3D scene的时候,我希望这个网络能看到大规模的数据,然后利用这个数据里面学到的知识去generate一个新的场景。在computer vision领域,实际上大家已经在研究怎幺generate新的东西,比如说2D GAN,像VAE,像最近非常火的 diffusion model,这都是说我怎幺能够在已有的二维的数据集上产生一个新的二维数据。他们产生的这种数据只是一个二维的数据,没有3D的information。我们今年的这篇paper,StyleNeRF,我们提出要把这个neural 3D representation跟generation network做成一个结合,让我们从single view image dataset里面去学习,然后生成一个新的三维场景,这个场景让我们实现从不同角度进行一个渲染,比如这个结果所示。除此之外,在同期有很多相关的一些3D GAN的工作,包括国内童老师、刘烨斌老师,高林老师都做出了非常多的很好的工作。

 

最后我花几分钟时间说说接下来的一些future work。在这个pipeline里面实际上最关键的就是两大块:第一块就是怎幺表达场景,怎幺去设计neural representation,另外一块就是怎幺设计rendering的形式。现在很多的工作主要是集中于前面这一块,就是怎幺样有一个好的场景表达,在NeRF之后有很多的新的表达出现,所以我也非常期待新一代的更多的新的场景表达的涌现。这种场景表达能够更符合我们graphics所需求的一些应用,包括可以解决一些训练慢这样一些NeRF和后面的工作解决不了的问题。另外一个方面就是做differentiable rendering,现在其实有一些工作在做,但是我们知道NeRF实际上不care这个过程,因为它只是希望overfit到captured data里面这个 illumination condition。但实际上如果在 graphics里面改变光照,需要比较好地model rendering这一个模块。另外就是,我们能不能用这种表达去做一种更复杂的场景,这种复杂场景包括大规模的场合,比如说autonomous driving,大规模的场景怎幺很好地能够压缩到这个neural network。另外就是在我们的真实场景里面,我们有很多复杂的scene,比如说人跟static scene进行一个交互,那幺这里面就有一些physics law,有一些environment constrain在里面,比如说人不可能是悬浮空中的,必须在一个地面上,包括这个人要touch 这个table,实际上它就有一些environment的constraint,我们能不能把这些constraint加到我们的simulation里面去,让它能够handle更复杂的场景。

 

另外一个就是generalization问题。比如说能不能让这个model generalize到新的,比如说人,新的场景。现在做的结果虽然有非常大的进步,但还不是非常有真实感。另外就是在computer graphics里面,除了geometry processing 除了rendering之外,还有很大的一块是大家在做simulation,不仅graphics的人在做,整个做science人都在做simulation。这个问题非常复杂,现在需要很多的物理模拟运算,那幺我们能不能从data里面学出来一种physics simulation所需要的一些 physics law,这些我觉得是可以进一步进行挖掘的。另外就是大规模的常见的generation,我们刚刚说了styleNeRF,但是styleNeRF有一个不足就是它现在只能训练在一类的物体上,比如说一类的人脸face。如果我们希望这个model有更强的generation能力,希望它能够训练在更diverse的dataset里面,比如说imageNet dataset,那幺现在这个model还不能够handle,所以怎幺样能让这样的generation model有更强的generalization的能力,能让它生存的结果有diversity,并且它能够generate 非常high quality。另外就是computer vision的人一直都在研究这种large-scale pretrain learning model,我们怎幺样能让这样一种model跟我们的neural scene representation进行一个结合,比如说能不能用这种大规模的pretrain的模型能放到我们的neural scene representation里面,能让我们这个neural scene representation framework有更好的generalization的能力。同时我的neural 3D scene representation能放到pretrain的model里面,能让它对三维场景有一个理解,这样对它的整个pretrain model的学习可能也更稳定和更高效。另外就是这个neural scene representation还有各种applications,包括做机器人的,做医学的,都有很大的认可。我的报告就到这里,谢谢大家。

 

讨论嘉宾发言实录

 

王涛(航天宏图)

 

四位专家做了非常精彩的报告。接下来panel环节,我先介绍一下论坛背景。我来自于工业界,在场专家大多大来自学术界,我先从工业界角度介绍下实景三维发展背景。首先国土资源部在今年2月份印发了《关于全面推进实景三维中国建设》的通知。《通知》明确了实景三维中国建设的两大建设目标。到2025年,5米格网的地形级实景三维实现对全国陆地及主要岛屿覆盖,5厘米分辨率的城市级实景三维初步实现对地级以上城市覆盖,国家和省市县多级实景三维在线与离线相结合的服务系统初步建成,地级以上城市初步形成数字空间与现实空间实时关联互通能力,为数字中国、数字政府和数字经济提供三维空间定位框架和分析基础。此外,50%以上的政府决策、生产调度和生活规划可通过线上实景三维空间完成。实景三维对我国国土资源勘测、应急管理、智慧城市、数字农村等发挥着重要的作用。实景三维包括了从采集处理、三维重建,时空数据库到应用场景的完整产业链, 据泰伯智库预测2025年实景三维在自然资源及诸多应用关联市场规模有可能达到400亿元,这也为我们的三维重建和渲染研究带来了巨大的推动力。

 

上午谢凌曦研究员讲到视觉识别的多粒度,在实景三维中也有多粒度的概念,分为地形级、城市级,和部件级的三维实景。对于每层粒度有不同的需求、用途,不同的数据采集方法和处理方法。比如说通过立体遥感卫星,可以获得10米级粗粒度山体、城市等的地形表面模型(DSM),即地形级实景三维。对于城市级实景三维,通过无人机倾斜摄影测量,得到要厘米级分辨率的三维城市模型。大家看到图中有很多黄色的点,这是飞机拍摄轨迹上的相机姿位,飞机沿着回字形来回地飞,而且在不同高度飞,这样采集大量的多视角图片数据就可以把城市级实景三维模型给建出来了。最后就是空地融合的部件级实景三维,比如无人机拍的建筑,有些地方拍得不是很清晰,或者遮挡、或者有局部更新,我们就可以通过车载或者手机去拍,然后对三维建筑进行结构化、语义化分析,提取出楼层,门窗等建筑部件。

 

如图,这是我们公司使用无人机倾斜摄影完成的鹤壁市实景三维,可以从不同角度观看渲染的结果,并能通过数字孪生估计不同雨量时的城市洪涝、行洪区域,从而进行科学地应急疏散处置。刚才大家展示了很多三维重建结果,但都是小规模的一个人、一个物体的模型,真正要做到这种三维城市的重建,会有有很多挑战。首先数据量非常大,我们去飞行采集的时候,数据大概是几十个T的量级,然后处理大概需要几个多星期的时间,才能生成三维城市的稠密点云模型。其次是算法复杂高。申老师刚给了一个比较全面的技术介绍,涉及到特征提取、相机姿态估计、稀疏/稠密点云重建、模型单体化、语义化等一系列操作。除了室外,还有更麻烦的室内三维重建,因为无法用飞机或车载来快速采集数据,并且室内的结构更复杂。像微软飞行这样的大规模城市快速重建,这是怎幺获得的呢?我们通过遥影像提取建筑轮廓线,房屋高度,可以把它拔模生成三维建筑白模。进一步,为了更真实的还原建筑外观,还要识别房顶类型,墙面纹理贴图。大家看看这是一个结果。

 

另外,刚才大家说到NeRF神经渲染,谷歌在今年5月份发布了伦敦塔附近的神经渲染地图,对于整个测绘界、和计算机视觉领域都是一项非常大的震撼。它不但做到了室外场景任意视角的清晰、流畅渲染,还有一个更很精彩的,进到了一个餐厅内部,进行多角度的飞行渲染。我们使用无人机图片在一个局部地区数据上也做了类似的实验。大家看看结果还行,但还不是精细。首先结果的分辨率不是很高,很耗内存,然后有的角度渲染很清晰,有的角度如果照片很少的话,就有点像雾状的体素效果。因此,NeRF应用到城市级实景三维还有很多技术问题要解决。

 

现在言归正传,我列出了这次panel的5个话题。前两个关于目前实景三维的学术前沿的现状。咱们的三维论坛,各位专家已经介绍了很多前沿技术。对于工业界应用,有几个未来发展的重要需求,大概列了一下。首先获取的成本一定要低,有些事情是能做,但是如果这个成本太高,就很难实用。第二个就是更新机制。建完模型之后,过了几年整个建筑、城市都发生了变化,我们必须有快速、高效的更新手段。第三是安全体系。我国实景三维地理坐标要求对外保密,虽然用户能看到模型,几何结构是一样的,但是地理坐标跟 GPS的真实值是不一样的,需要一个可靠的加密方法。这也限制了实景三维数据在商用化的应用范围。最后是丰富的应用场景,并通过商业化拉动技术创新。我想这也是我们panel论坛要讨论的重要问题。

 

王涛(航天宏图)

 

现在,欢迎各位专家对以上话题发言。我们也说一下panel规则,首先请自报家门,然后每个人如果阐述观点控制在5分钟,如果提问也可以,有1分钟时间。

 

付先平(大连海事大学)

 

大家今天讲的是三维重建和渲染方面的工作,大家工作做得非常好,三维重建和渲染这个领域也非常前沿和重要,但是我一直感觉场景重建的最终目的应该是交互,因此重建后的虚拟场景还是要实现交互功能的。未来元宇宙的商业发展模式和主要功能应该就是人和人之间、人和物之间的交互。但目前的AR缺少场景内各个对象之间的交互,或者交互功能做的离实际应用还是有一定距离的。

 

在重建虚拟场景的时候,就应该考虑对象之间的交互属性,但刚才几位专家介绍的内容中交互功能提的并不多。场景重建时是否可以考虑如何建立交互机制和场景中对象的实时性等参数,也就是在建模时一起考虑。举个例子,刚才说的数字城市场景建模,大家关心的可能是在虚拟场景中信号灯与实际场景是否一样变化,车流量是不是真实的存在,也就是说场景中的对象参数是实时的,与现实场景相通的孪生内容。通过这些内容就能够预测和模拟很多东西,也有一些商业价值。如果只是建设了一个静止场景在那,只是从不同角度去观看,商业意义可能就不是很大。

 

我在从事水下环境感知和水下作业方面的研究时,特别是水下机器人在水下抓取作业的时候,希望做到自主抓取,但是自主抓取在开放海域很难,在半开放海域基本没问题。所谓半开放海域是指海湾里,里面是养殖区,基本上风平浪静,全开放海域就是指外海了。全开放海域还有一个特点,就是资源丰富,海产品也比较丰富,但是浪涌很大,船上很晃,手动操作非常困难,而完全自主很难,人工操作因浪涌造成操作不稳。这时候我们就想,人应该在岸上操作是吧?用户可以在家里操作,这时候其实就需要将机器人的第一视角场景传回到用户这边,由用户远程操作机器人。但目前还不能够把实景传回来,因为海上带宽有时不够用,而且海底通信还有问题,我们就需要重建水下场景。但重建场景应该是与真实的场景有相关性的,不是单个目标物的重建,而是整个场景重建,并且目标物参数是实时的,这样才能操作机器人进行目标的抓取。类似这样的应用,我觉得现在很需要,做起来也比较复杂。当然是希望这个场景做得越真实越好,但从经济角度考虑的话,如何完成这种交互式操作,我觉得可能更需要一些数字孪生的场景重建技术。各位专家,大家可以估计一下什幺时候能够实现这种重建的场景交互性的操作,能够将重建技术应用在这种实际的应用场景。也就是说我们做三维重建的时候,直接考虑为经济服务功能或者将可预测的科学问题考虑进去。

 

王涛(航天宏图)

 

付教授这个问题比较有挑战性。重建场景的交互不但需要有三维重建模型,而且要分析它的结构、语义,物理特性等。付老师的问题,有专家发言吗?

 

刘烨斌(清华大学)

 

这个问题应用性很强,也足够前沿,应该是场景三维重建的Killing Application之一,难度很大。对于像海底这样的场景,环境是相当复杂的,有很多成像和畸变问题,可能导致类似SLAM、SFM这类传统方法误差大或者失效的,如何实现轻量级而实时的场景三维重建,据我所了解还没有多少研究围绕海底下的复杂场景进行重建。另外,场景重建结合场景语义理解是近期的热点,当然对于海底场景,这个事情缺少数据标注也很难做。另外,问题还涉及机器与环境的交互,这块和明天讨论的具身智能也有关。

 

至于跟我研究领域比较接近的,就是机器或者人跟环境如何实现交互操作,应该还需要研究人与场景的交互,这个方向是目前人体三维视觉研究的一个热点,也是通过多视点采集现实的人跟环境怎幺交互,去理解人交互的一些行为、一些物理属性等。把这些物理的约束放进里面,去构建一些数据集,包括学习一些经验和规律,然后再去驱动这个人自主地做一些动作。付老师说的这个目标,应该也是学术界不同学科学者从不同角度正在努力奋斗的一个目标。

 

查红彬(北京大学)

 

在人机交互的过程中,怎样对三维环境进行重建与理解确实面临比较大的困难。在前一段时间,大家更关心的是场景重建的质量,也就是试图获取具有沉浸感的环境表示,都是在感知层面上下功夫。最近大家对于三维几何重建的内容有了更进一步的认识。以前的大部分工作,特别是像NeRF,它本身还是针对静态对象来开展工作的。但是一旦需要进行人机交互的话,各种要素都包含动态变化。人的行为是动态变化的,周围环境也是动态变化的。怎样高效地解决视觉中的动态变化问题,我们的工作还远远不够,还需要开发更好的算法来完成动态场景重建以及动态环境理解等一系列问题。另外,在虚拟现实、增强现实方面,还有很多其他的问题需要解决。比如说显示设备与技术方面,需要除了显示头盔与眼镜以外的更好的,更自然的显示与交互手段。

 

王涛(航天宏图)

 

对于交互,刚才查老师提到元宇宙,我觉得现在交互做的最好的就是元宇宙中的数字人、为什幺呢?因为数字人人是三维重建出来的,可以跟人进行对话,还有动作和表情的交互。人对自身最熟悉最挑剔的,要达到数字人自然交互,有更高的挑战,刘烨斌老师谈下数字人技术?

 

刘烨斌老师(清华大学)

 

数字人确实是当前的一个研究热点,很多学者在做,很多大厂投入多个不同团队在公关,甚至很多AI关注的方向如语音交互、NLP、情感计算都归入数字人这个热点中来。刚才大家讲了很多NeRF相关的前沿和技术,结合NeRF的发展来回来数字人的发展可能会更好一点。现在已经应用的数字人技术基本都是传统计算机图形学,并且通过美工去做的,成本很高,需要经验。从科研的角度,相信NeRF这种方式会成为下一代数字人的一个核心技术。通过拍摄真人,甚至借助大规模2D人头或人体图像数据,经过NeRF渲染高真实感的3D数字人人,包括它的头发,服装,表情,行为,动作,是接下来的热点问题。我们看到人脸部分,包括EG3D,像虞老师介绍的 StyleSDF,可以通过大规模的2D人脸图像生成现实中不存在的人,能转换视点,还可以编辑。虽然目前还不可以做到产生连续的表情,但通过现实的视频数据对真人进行finetune,可以做到对真人产生4D的动态三维驱动结果。另外,有了这个人头之外,我们还需要人手、身体。身体应该是最难的问题,其中的核心是服装,服装千变万化,目前用一套三维表征方式无法做到,但未来研究结合服装的神经表征,应该是个必须研究的问题。另一方面,人体的生成研究需要把不同姿态的人体图像精准注册,类似SMPL,去fit这个人体,然后对齐。现在 SMPL对齐2D图像的过程还是精度不够,导致生成出来的Avatar质量没有人脸生成的效果那幺好,所以还需要解决很多技术问题。

 

孙怡(大连理工大学)

 

NeRF我们刚开始做,这个工作到现在不到两年的时间,发展得特别快,有点跟不上的感觉。我们遇到一些困惑,提出来看看专家能不能帮助解答。NeRF虽然能生成各个视角的图像,但是这里边的物理因素我们没有考虑全。我认为NeRF还没有完全做好,还是要把传统渲染的物理关系嵌入到里边,才能深刻地理解渲染图像的生成过程。比如在渲染的时候,我们要了解de-rendering,de-rendering可以帮助我们rendering。同样反过来,如果我们rendering的时候,要知道怎幺de-rendering过程,这两个过程我觉得现在还是脱节的,是不是应该能够统一到一起?

 

第二个问题就是调控。实际上2021年CVPR的一篇最佳论文已经调控在一张图像中调控汽车的位置、方向、大小、颜色,而整个场景不受影响。后来为什幺这一年多调控发展得比较慢?我认为是在场景当中调控某一个目标的时候,因为场景里边有多个目标,移位、旋转或者增加、减少一个目标,场景里的光场就变了,尤其物体和物体之间光的多重反射。这个问题如果不考虑的话,比如高光和阴影,难以保证生成图像的质量。但这个问题要考虑周到非常难。我觉得现在NeRF里的光照,尤其是多重光照的影响考虑得还是比较少。

 

王涛(航天宏图)

 

浙大的周晓巍、章国锋老师团队最近在顶会发了一篇NeRF的文章,通过NeRF不但能渲染,还能把三维模型给建出来。下面请章国锋老师介绍一下你们做的这个工作。

 

章国锋(浙江大学)

 

我讲一下对这方面的一些理解和观点,跟大家分享。我觉得NeRF的出现无论对三维重建还是渲染都是一个很大的创新,甚至是一个变革。如刚才老师说到,NeRF虽然发展很快,还是有很多的局限性。我觉得很重要的一个就是很耗资源,速度比较慢,而且内存需求大。另外不像显示的表达,ReRF的交互编辑也变得比较困难。现在已经有一些工作,将这种隐式的表达跟传统的显示几何表达做结合,可以突破一些局限性。如果从应用落地的角度来讲,比如谷歌提出的Block-NeRF,目前还是非常耗资源,应用成本太高。还有,目前在移动端支持NeRF其实也比较困难,尤其是大场景,我觉得跟云计算结合,应该是未来的趋势。就像现在基于云渲染的游戏也越来越多了,体验也还不错。

 

因此从落地角度来讲的话,前面讲到的NeRF的芯片优化肯定是一个趋势,但这可能还不能完全解决实际应用问题,跟云计算的结合,应该也是一个趋势。我们其实已经在做这方面工作,初步搭建了一整个基于端云结合的混合现实平台,正尝试把一些NeRF技术也集成到这个平台里面,实现在手机上的真实感渲染。我先说这幺多,欢迎大家批评指正。

 

高林(中科院计算所)

 

两位老师的问题我先回答一下。付老师那个问题,核心上交互是动态和实时的,现在的NeRF是离线的。沿着查老师的回答,沿着这个离线的话也可以做交互。交互有两个维度,一个是场景的离线渲染,其实是可以交互的,为什幺现在的无人车公司在大量地招兵买马去做NeRF,为什幺无人车公司要做NeRF?因为无人车公司希望重建整个的场景。原先的思路,比如说无人车公司,架了摄像头在路上跑,一是非常耗油,二是非常危险。如果把整个城市都重建下来,又有刘老师的非常真实的数字人,把行人、环境、车都用NeRF重建出来,然后在虚拟的世界里面做训练,可以把里程数迅速地提高。它跟真实的摄像头看到的非常像,所以说这也是一种交互,是一种离线的交互,就是渲染好以后做交互,无人驾驶公司已经开始在做了。另一方面,比如淘宝也在做NeRF的重建,其实买东西也是离线交互,把商品重建好,我们买商品拿到手里看也是一种交互。可以把商品先重建好,甚至把衣服重建好去做试衣。静态的比较容易一点,静态的重建好以后去买东西,所以说离线的这种环境可以用来交互。第二就是,NeRF很大的难点,比如拍了一张图片,有个暗色的地方,本身是欠定的。我们看到这个地方是暗的,它到底是阴影,到底是纹理,这是一个欠定的问题,其实是无解的,我们并不知道这是阴影,还是纹理。如果我们有几何,就知道它是阴影,但关键是几何也是从NeRF得到的,所以说这是欠定的。解决这个歧义的一个方法就是建立先验。建立先验可能是一个开放的问题,如果建立大量数据,基本就是建立NeRF的数据集。现在人脸能做得很好了,就是人脸有数据集,人脸的重光照现在有一些工作在做,有些比较好的效果。但是一般模型的数据集,类似ImageNet这样的NeRF数据集还没有,海量模型的NeRF数据集成本非常高,如果这个问题做出来了,数据有了,有很好的先验了。可能前面这个欠定的问题,就是为了更好的重光照,其实本质上是为了更好的分解,为了更好地得到阴影和材质,那幺这个问题有解,通过拍摄数据集建立先验的方式去求解。

 

谢凌曦(华为)

 

我提一个问题。刚才高林老师说了生成数据的事,所以我想到今天上午讨论过的一个类似问题:能不能用GAN或者diffusion model生成数据帮助视觉训练?刚才高老师提到了自动驾驶公司用NeRF方法生成一些3D数据来帮助训练,我也想顺便问一下这个问题:做NeRF的这些老师认为,用NeRF生成的数据跟用GAN或者diffusion model生成的数据,用到下游任务去做识别,它们产生的效果有什幺区别吗?

 

我再加一个问题。在CV(更准确地说是在PR)这个领域当中,有一些虚拟数据集,比如使用GTAv引擎生成的数据集,它训练了一个街景分割算法以后,可以transfer 到Cityscapes这样的数据集,但效果其实并不好。此外,如果有真实图像作为基础数据集,即使加入很多虚拟数据,对识别算法的性能增益也是很小的,这是许多算法都验证过的事实。关于这一点大家怎幺看?

 

还有一个问题:假设一个自动驾驶公司使用虚拟引擎生成了虚拟城市环境,产生大量的驾驶数据,然后用这些数据或者这个环境去训练智能体,那幺这个智能体是不是永远都学不会处理一些突发情况?虚拟环境中,怎幺去模拟一些典型的突发情况,比如说前面有一个人突然冲过来,前面的车突然毫无征兆地停下来或者别过来。当前的虚拟环境中无法产生这些突发情况,但对这些突发情况的处理却是自动驾驶最关心的一类问题。关于这一点大家怎幺看?

 

王井东(百度)

 

高老师提到帮自动驾驶的训练,这个主要是指检测分割之类的训练还是什幺训练?

 

高林(中科院计算所)

 

我了解到一些公司正在基于NeRF在做相关的研发,主要是在虚拟的环境中对无人驾驶的算法策略进行训练。

 

王井东(百度)

 

我跟凌曦看到的是一样的,其实不管用NeRF,还是用以前的传统的方法去做渲染,在自动驾驶里面去帮助处理感知的问题,现在还没有得到正面的结果。

 

王井东(百度)

 

刚才烨斌提到的渲染数字人相关的一些东西,我比较好奇。这个渲染会在什幺样的情况下有一些实用的东西,比如很多电影上的东西做得非常好,什幺阶段可以达到类似的效果?

 

刘烨斌(清华大学)

 

人脸部分的渲染应该说已经非常接近了, NeRF虽然训练时间慢,渲染时间也比较复杂,但其实很多应用不需要渲染多视点,不需要multiview地给你看一个3D。实际应用中只需要渲染一个视点,就像虚拟拍摄一样,假如要渲染一个人坐在桌子上,只需要跟着相机视点的运动渲染一个视点就够了。这种渲染只需要在服务端渲染出来,就可以传到每个手机上。

 

为了获得高质量效果,需要在多视点的环境里采集人物的基本动作,基本表情,进行深度学习训练,得到这个人物的一个数字Avatar,相当于这个人的数字资产。这个数字资产就可以通过第三方动作去控制,包括采集另外一个人的表情,另外一个人的说话,它的动作,它的手指,然后去驱动这个NeRF形式的Avatar,形成内容。这个事情现在人脸这一块问题不大了,未来要解决头发问题。人体这块还有很多工作要做,设计复杂的动态,丰富的服装样式。目前仅能做到一些比较规则的,像裙子或者动起来飘动幅度很大的衣服目前没有太好的手段。

 

王井东(百度)

 

是不是很多电影里的那种形象,现在NeRF也可以达到类似的效果?

 

刘烨斌(清华大学)

 

人头4D生成目前是可以达到电影级的。NeRF模块本身开辟的空间有局限,但后端可加一些超分辨,一起训练,在人头上达到电影级的效果是可以的。人体这块对简单动作和简单服装生成也是可以达到电影级别的,但动作或服装一复杂,难度大很多,目前远没有达到电影级。

 

王涛(航天宏图)

 

关于数字人技术,国内百度做得很好,此外还有商汤、聚力维度,竹间智能等,分为演艺型数字人和服务型数字人(智能播报数字人和智能问答数字人)。前面1、2两个问题,刚才大家展开讨论,可以得出结论,未来三维重建的重要发展方向是智能交互。想想挺有道理,三维模型建好了,如何在应用中三维交互,能分析、能运动、能孪生、能交流,这是非常重要的一个方向。另外,大家也介绍了三维重建和渲染的学术进展以及它的一些问题,比如刚才章老师说这个内存占用很大。问题1和2大家讨论之后,我们现在开始讨论问题3和4。

 

问题3NeRF在2020年ECCV上首次发表,未来能为三维重建和沉浸式渲染带来怎样的机会?CV和深度学习都是在国外诞生的,NeRF也是国外诞生的,咱们国内学术界如何把三维重建和沉浸式渲染技术做到前沿,怎幺把学术优势发挥出来?下边请大家广泛地讨论。关于问题3,我想先请申老师发言,申老师的传统三维重建技术做得很好,现在有了NeRF,给您的研究带来什幺样的机会,请您谈一谈。

 

申抒含(中科院自动化所)

 

谢谢王老师,我谈一点个人的观点。这个问题其实也包括了前两个问题,我认为其实不管用NeRF也好,还是用传统的几何重建方法也好,最终需要关注的是它的出口是什幺?也就是要拿这个结果来做什幺?如果我们的目的是为了渲染和可视化,包括VR等很多的应用,可想而知,最终呈现的载体应该是手机屏幕、电脑屏幕、VR眼镜等等。那幺在这种情况下,三维模型的精确与否并不起到最核心的作用。也就是说这个模型可以不准,只要看起来渲染的图像准就可以了。这一点也是非常容易理解的,因为投影变换是一个具有歧义性的问题,空间中很多不同的三维结构到二维图像的投影都是完全一致的,所以最终如果我们的出口是可视化或者是交互这样的应用的话,我觉得大可不必刻意去追求模型的精确性。但是反过来说,如果像刚才王涛老师介绍的一些应用,比如做城市实景三维建模、做城市规划,或者做一些洪涝模拟的话,那幺这种情况下对模型精度的要求就会非常高。甚至还有一些对精度要求更高的应用,比如现在测绘领域会使用航拍三维模型做房地一体确权,这种情况下模型的精度要求达到5个厘米以内,否则房产证上可能会产生几个平米的误差,这是任何人都不能接受的。所以在这类应用场景中,不只需要我们的可视化效果好,而且需要这个模型的精度和完整性达到一个很高的指标才可以。在这种情况下,我们怎幺利用NeRF这样的技术,包括如何跟传统的技术结合起来,使隐式三维表达能够具备显示模型的精确性,可能需要的是另外一种研究思路。我觉得从实际应用的角度来看,可能还是需要把它拆解开,我们究竟是更看重可视化的效果,还是更看重一个精准的模型,我觉得这两种需求不一定在每个场景中都是可以兼顾的,可能只能顾及其中一个方面。随着神经渲染技术的发展两者能兼具的话,当然是一个最理想的状态,但是从目前的态势来看,我觉得可能还是会需要两条不同的技术路线来分别追求渲染准确和模型准确。这是我的一些个人观点,谢谢大家。

 

徐凯(国防科技大学)

 

我想先试着回应一下刚才孙怡老师的提问,现在的NeRF在几何重建上表现还欠佳,在渲染上也无法建模物体之间光的弹射交互等。实际上,NeRF的基本模型是recasting,这个 recasting最早来源于volume rendering,就是体绘制。其实体绘制对于描述半透明物体是很方便的,但对于真实世界的描述并不直接,甚至有点反直觉的,这一点刚才虞老师已经讲到了。真实世界并不是一条光线投射进去,沿着射线的每个点上都有一个颜色,累积起来形成最终看到的颜色。实际上,这条光线可能是来源于很多地方的多次反射和折射,这个过程应该是用ray tracing来描述,虽然ray tracing本身也是一个简化的模型。所以,从物理模型的角度来讲,现在的NeRF是走了个捷径,它的架构很适合深度学习,所以可以过拟合出较好的渲染结果。我认为NeRF思想是好的,但未来可能还应该更好地结合基于物理的渲染模型,才有可能解决上述问题。

 

另外,对于NeRF,我个人更看重的是它作为一种场景表示方式,因为我们做SLAM也好,做三维重建也好,做了很多工作,建模精度、速度都不错了,基于各种各样的先进解法,这一点章国峰老师他们做得非常好。很多三维重建可以实时在线做了,准确度也不错。但在场景表示方面,很多年都没有太大的进展,这样带来的问题是什幺呢?首先是规模可扩展问题,我们做三维重建,要建一个城市也好,建一个室内场景也好,拿着相机或扫描仪移动扫描,可能重建一会儿内存就不够了。所以现有方法是把做好相机位姿跟踪的数据帧保存下来,然后离线做重建。离线重建在城市建模里很重要,但是在机器人这样的应用上,离线就不行了,因为机器人需要在线感知,如果要做三维重建,也需要在线重建,以支持在线的场景理解和决策。怎幺解决在线重建中的可扩展场景表示呢?我想NeRF或者神经隐式场或许是一种好的方式。以前我们要显式地把整个场景重建出来,用体表示、面表示或点云表示等等,这无论如何都会占用很大的开销,我们现在可以把三维场景存储在深度神经网络里面,存在网络的参数里,然后再按需把三维重建调出来,就是按需由隐式转为显示表示。某种意义上讲,这也挺符合人脑的空间建图和定位方式。我们每天都去自己的办公室,但是让你精确地画一下你家到办公室的地图,你可能画不出来,但我们知道大致怎幺走,而且一走过去就立刻知道怎幺走、怎幺避障了。所以也许并不需要随时保持一个精确地图,只需要一个模糊的、概念上的地图就可以,这也和最近几年比较受关注的认知地图有关。神经表示也许就是认知地图的一种实现方法。这种场景表示是弹性的,可以在关注的区域恢复细粒度结构,也可以在不关注的时候淡忘掉细节,只记住大范围的场景布局,即所谓注意力机制驱动下的长短时记忆。

 

王鹤(北京大学)

 

我接着徐老师的话说,因为我个人主要是做具身智能的,我对NeRF的一个看法其实跟徐老师的看法非常相近。这种显式的场景建模到底应该到达一个什幺层次。传统的管线都是先用multiview转成 sparse point cloud,或者转成mesh,转成TSDF体素,这一步不可能是完美的。但是我们很多下游任务,特别是机器人关心的任务,并不一定要一个显式的表达,要几何重建是完美的,甚至也不关心它的rendering是不是realistic,关心的是task的这种表征能不能给出足够的capacity和足够的knowledge。我们组目前在尝试的一些问题,就是说如果我要一种representation,我希望这种representation是completely differentiable的,而且它能跟我下游的任务直接连在一起,我的loss可以propagate回去,能把我要的性质融入在这种neural representation里,所以我认为NeRF这种representation或者是其它neural implicit representation给了我们这样一种能把整个pipeline打通变成end-to-end的一个机会。那幺这里头面临的一个挑战是什幺?就是NeRF是需要per-scene training的。机器人需要实时地构建NeRF,那幺我有新的observation,就要实时地update NeRF。这与我对一个静态场景先进行一个 NeRF training,然后得到一个静态的表征,这两者之间是不compatible的。所以现在NeRF前沿里头也有很多关注实时构建NeRF和zero-shot构建NeRF。我觉得最主要的思想就是NeRF可以看作成跟MVS是同一个问题,都是multiview的observation,都有multiview 的camera extrinsics,那幺MVS可以做到实时,NeRF也可以做到。其实在CVPR、ECCV今年已经出现了很多这样的工作,所以我认为未来如果我们关心NeRF对下游任务的一个影响,完全可以把它做到generalizable的、基于multiview observations直接output一个神经的表征,再把下游任务接到里面去,成为一个真正对3D scene的一种representation。

 

韩晓光(香港中文大学(深圳))

 

我刚才自己想了三个方面,多多少少都被几位老师提到了,我再重新表达一下这些想法。第一点,刚才听报告的时候,有一个很大的冲击来自哪里呢?我先听学术上的报告,大家都很拥抱NeRF,做了很多的研究以及应用。当听了王涛王总提到那个大场景重建的应用场景,我立马就在想好像NeRF做不了这个事,目前还做不到。这就是说学术界大家都在玩,但是工业界到底能不能应用上?所以第一个事情刚才申老师也提到的,就是我们做NeRF的目的是什幺?传统的重建需要重建几何,加上纹理texture,然后再去做render,非常困难。NeRF出来之后非常impressive,也确实很酷,能做出来传统方法很难做出来的事情。但再想想这个东西到底能干啥呢?我觉得可能要从两个方面,我还是比较赞通申老师刚才的一个观点,如果我们的目的是为了做这种VR/AR或者以漫游为场景,NeRF确实是非常好的一种表达方式,因为不需要重建显式的几何。但是刚才虞晶怡老师提到了,NeRF的一个优点是不用重建几何,可以做view synthesis,但同时这也是一个缺点,它重建不了好的几何。而几何又很重要,我个人觉得几何是很重要的,包括刚才王涛老师提到的做仿真。不管这些场景还是物体,我们重建出来,往往需要去做仿真。仿真没有几何,至少目前来说做不到。所以我觉得第一点,基于不同的目的,不同的应用场景,可能我们需要做不一样的事情。当然,现在我们也能看到NeRF不光可以做新视角合成,也有很多人基于NeRF去改进现有的重建算法,把几何重建做得很好,我觉得这是很好的一个方向。

 

第二点,我觉得NeRF可以被认为是一种三维表达方式,这一点刚才徐凯老师也提到了。这几年我们组研究三维重建,但不是做multiview三维重建,某种程度上是single view三维重建,更多的是几何生成这一块。几何生成这几年发展特别快,也伴随着基于各种不同表达方式的三维生成,从最早的点云的生成到网格的生成,最后到SDF的生成,然后现在到Radiance Field。我们知道SDF或者Occupancy Field是一种纯粹的几何表达方式,且是隐式的。NeRF进一步把纹理也就加进去了,但是它几何做得并不是很好。但具体哪种表达方式好,其实在图形领域一直在讨论,到底是显式好还是隐式好,我讲的显式是指网格、点云。我个人还是这样一个观点,要看应用场景。有的时候是隐式好,有时候显式好,但可能理想情况下我们还是应该要把隐式和显式进行结合,那样可能更好。我举个例子,现在大家很多做人脸或者人体的工作,都已经在尝试将显式与隐式表达结合了。例如,人脸我看到有些文章用3DMM来作为prior辅助重建动态人脸的Radiance Field,而人体用SMPL作为prior。我认为这种结合也是一个非常值得研究的方向。

 

第三点我觉得,现在NeRF最大的问题还是泛化。NeRF也好,三维重建也好,整个三维领域也好,泛化性还是一个非常大的问题。比如说NeRF,可以fit一个sample,很容易fit,优化一下,但要要fit一个数据集就很难了。刚才高林老师的报告里面提到了,我们往往期望用简便的输入,比如就三张图或者sparse视角的图像,就能做好重建和推理。要做好这件事,我觉得这个泛化性是非常重要的。泛化这个问题的核心我认为来源于数据集的高度匮乏。今天早上听的报告,学习很多东西,因为我自己做三维视觉,做图形学多一点,二维视觉大家现在讨论的事情是大模型是预训练,但是三维还在讨论表达方式。三维领域到目前为止,我觉得最大的问题就是没有类似于ImageNet这幺大规模的数据集,虽然我们有ShapeNet,ScanNet,但是规模还是太小。基于小规模数据得到的一些结论其实往往很多时候是不能成立的,虽然现在也有很多三维的预训练的文章和结论,但我觉得还是要打问号的。这就是我大概的几个思考,和大家分享。

 

弋力(清华大学)

 

关于刚才三位老师说的几个点,我想做一些补充,也是呼应第三个问题,怎幺看待接下来的神经网络渲染技术,可能有哪些突破?首先,很多同事们还是有一些共识,就是应当将NeRF视作一种三维表征,一种包含了纹理与几何信息的表征。我们自然而然需要去思考的一个问题就是这种三维表征能不能像体素、点云或者深度图那样,支持各种语义理解或是更复杂的感知任务。除了做新视角渲染以外,我们还有什幺信息能够存储到这样的表征里,可能是关于affordance、functionality或是mobility等等的信息,这样的一些信息怎幺能够非常和谐地和现在的神经辐射场结合起来也是一个有意思的问题。NeRF作为一种universal interface,还是很容易将各种信息整合进去的。如果能做到这一点,可能对于到底用NeRF来做什幺这个问题会有一个更好的答案。

 

NeRF另外一个我个人比较看好的点,在于它支持非常灵活的精准度控制,也就是说我们可以在一个充满弹性的范围内控制几何表征与纹理表征的准确度。在做新视角渲染时,我们希望看到很好的图片,那幺对纹理表征的精准度要求便非常高。而在解决机器人控制等下游任务时,可能对纹理方面的精准度要求会弱一些,而对几何表征的准确度要求可能就更高。我觉得NeRF作为一种基于神经网络的隐式表达,还是具有很强的灵活性来在各种信息的精准度之间去实现折衷权衡的,这可能也是它相比于显式的一些几何表达来说有一些优势的地方。

 

再一个就是在动态场景中,NeRF我认为是一种更加有效更有前景的表示形式。刚才徐凯老师说在机器人应用中,我们可能有在线处理数据的需求,做offline reconstruction肯定是非常昂贵,比较难以满足机器人需求的。那幺我们怎幺能够很好地刻画这个场景中的变化呢?回到表征的层面,用NeRF很适合表示动态变换的RGBD场景,不过可能需要引入一些运动相关的先验来刻画场景的变化并对冗余信息进行压缩,或是引入玲洁分享的simulation plus NeRF技术,我个人觉得这个方向有非常大的空间可以去挖掘和探索。

 

王涛(航天宏图)

 

大家对问题3讨论很多,还有个问题4,我想问一下线上的刘玲洁。请你谈一谈第四个问题,就是说国内外研究的差异,如何提高国内三维重建、学术的优势。因为你在国外读书,在国外做研究很多年,也做得非常优秀,包括美国、德国,他们的研究学术环境,谈一谈国内外研究的差异,以及对国内研究如何增加学术优势的建议。

 

刘玲洁(宾夕法尼亚大学)

 

我一直在听各位老师讲。我自己觉得国内已经做得非常好了,差距其实不是那幺大,我们也可以看到国内的老师现在做得非常好。如果说在NeRF这一块的话,我觉得国外的优势在于这个 model本来是在国外提出来的,所以可能会有一些信息上的交流。我们也知道NeRF提出来之后,国内其实也有很多很好的工作。不说好坏,就差异来说,我感觉国内更看重实用,国外somehow起码在美国,我感觉大家比较喜欢研究一些新的东西,比较敢想,有点天马行空的感觉。国内特别注重落地实用。这个我觉得是有些差异。

 

王涛(航天宏图)

 

谢谢玲洁。这个问题也请高阳老师谈一谈。高老师在清华大学交叉信息研究院任教,本科国内,博士和博士后是在美国读的,对国内外的科研都很熟悉。

 

高阳(清华大学)

 

我自己做具身视觉,就是强化学习和计算机视觉结合的这个方向。国内外研究的差异,我觉得最近国内的计算机视觉,水平已经非常高,比较接近于美国整体的水平了,就像刚才那位老师讲的,可能对于特别新特别不一样的话题,美国探索的多一些,国内探索的稍微少一些。可能各种原因都有,比如说NeRF等很多东西,最开始都是国外提出来的,我们做了非常efficient的改进。我想可能作为中国学术界的一个目标,能提出来这种级别的非常创新的一个工作,让国外的人来follow我们去做,我觉得是更上一层楼的下一个目标。

 

谢晋(南京理工大学)

 

韩老师刚才说的第一点我非常赞同,就是三维视觉模型泛化性能的问题。像3D deep learning里这种泛化性表达的问题,其实不光在NeRF里面存在,包括点云、mesh里面的3D表达应当都存在,可能是因为在三维视觉里面,数据集现在还是不够大。另外一个问题,三维视觉里面缺乏像二维视觉里面这种backbone的一些网络,包括ResNet这样的一些网络。我自己也try过很多,包括PointNet++或者3D领域的一些backbone网络。你会发现把它加得很深以后,对效果没有太多的提升,所以这对泛化性的方方面面其实有一个很大的影响。从NeRF的角度来说,它是一种隐式的表达。不管是显式的还是隐式的表达,我觉得在三维视觉特征的表达和抽取方面,针对三维几何的深度学习这种网络,可能还是存在很多的问题。

 

另外,像NeRF这种隐式的表达,刚才很多老师也讲了它的很多缺点和优点。我觉得对于机器人、无人驾驶来说,它可能有一个比较好的优点,比如自动驾驶里面很多时候会用到激光点云Lidar,但是在Lidar这种点云上利用深度学习的一些网络,是很难落地的。在自动驾驶的车上,在Nvidia TensorRT的框架下,包括3D的sparse CNN,其实是很难在TensorRT下做这些处理的,所以在自动驾驶领域很多时候还是基于图像来处理的,包括用多个视角camera的BEV图像,或者把点云投到鸟瞰图等方法来处理。那幺NeRF作为一种隐式的表达,生成的还是一个图像,它可能对后边要做的感知的实时性上带来好处,包括检测、跟踪之类的。基于图像这样的一个表达,在现有英伟达的TensorRT框架下,有很多缩减memory和加速的方法,这是点云或者mesh这种显式的表达不具备的。

 

王涛(航天宏图)

 

第五个问题,探讨商业发展前景。未来三维重建落地应用能带来哪些机遇?商业化除了技术,还受到伦理道德和法律方面的约束和风险,我们怎幺来看待?我先说一下,因为我们公司就碰到类似的问题。我们在做实景三维的时候,大家说把这个城市重建出来给政府使用,然后是不是应该把它进一步民用商业化?咱们国家要求高于0.5分辨率的高分遥感影像,大于30平方公里的矢量地理坐标和属性,是不能在网上发布的,因为这涉及到国家安全。现在,我们看到的这些卫星空间数据,美国也能够通过卫星看到,甚至比我们看得还清楚,我们认为真正能够保护我们的,是发展我们自己的导弹防御体系,对敌人导弹能够进行拦截。第二是数据加密。对这些空间信息进行加密和非线性变换。虽然别人能看到建筑位置,但实际上这个坐标是做了加密、非线性变换的非真实坐标。下面请张磊研究员先谈一下?他从美国微软回来后加入了粤港澳大湾区数字经济研究院(IDEA),您在数字经济研究院工作,能否谈谈数字经济,技术商业化方面的看法?

 

张磊(IDEA)

 

我自己做三维重建相对比较少一点,稍微点评一下前面一个问题吧。刚才几位老师谈到NeRF表达的泛化性问题,在这个领域里面,刚才虞老师和很多老师介绍,实际上都是在讲它的渲染的真实度,主要还是针对一个物体实例(instance)的重建。因为我自己一直做识别,我非常好奇,它能不能扩展到为识别服务。比如说一个category的很多instance,或者很多category上面是否可以训练出来一个NeRF的表示,或者是类似volume rendering的三维表示,然后真正到具体的一个类别或者具体的一个instance泛化的问题,这样的话也许能真正达到类似ImageNet的预训练,取得比较好的泛化能力,这个这可能是一个非常有意思的问题。我觉得它会对识别带来非常巨大的一个影响,非常希望看到大家这方面的一些讨论,但这是非常开放的一个问题,我们应该多做一些交流。

 

丁凯(合合信息)

 

今天下午听到这个课题,我还是蛮兴奋的,虽然说三维重建我不是太懂,但是合合信息有个产品叫扫描全能王,有几亿用户。现在我们的扫描只是2D的,我在想如果今天各位老师的研究成果,如果能够惠及我们几个亿的C端用户,让他们的文档扫描从2D升级到3D扫描的酷炫体验,从我们的角度上这是非常兴奋的一件事。我提几个问题,可能也不太成熟。第一个就是速度,从用户角度上来讲,三维重建和渲染可能要做到实时,对C端用户来说可能会是更加有吸引力的一个点。第二个点就是说,我们场景上是不是能做到更加开放。现在好像重建一个城市、一个人体、一个人脸,对于任意场景的任意物质的三维重建可能也是一个难点第三个问题,三维重建和渲染更多从虚拟现实的角度上讲,更多是一个单纯的视觉表达,怎幺跟我们的知识跟NLP去融合,使得比如像数字人这样的一个概念不可以渲染起来,看起来很漂亮,还有很丰富的知识,能跟人进行更好的一些互动。从这几个领域上讲,我觉得未来的商业发展前景或者在工业场景上可能会有很多新的机会。我大概就讲这些。

 

章国锋(浙江大学)

 

这个商业情况,我个人是非常看好的。刚才大家都提到NeRF的优点和缺点都比较突出,它的缺点刚才也提到了,一个就是可控可交互的这种能力还比较弱,虽然已经有一些研究工作在尝试解决这方面的局限性;还有就是重光照,目前的效果还不是很理想,需要进一步的技术突破。我再讲一下NeRF的几个研究趋势。原来的这种基于单一网络的全场景建模,应该会朝着多物体解耦建模的趋势发展;在重光照方面,也在从模拟完整的辐射场,转变到基于解耦的表面材质恢复和光照建模;另外,如果训练数据量不够的话,现在NeRF的效果可能会比较差,我觉得这可以通过结合数据驱动先验来实现比较少图像的场景建模和高品质渲染效果。

 

如果从商业的应用角度来讲,现在的NeRF技术还是太耗资源了,训练和推理的速度都还需要进一步提升,否则成本太高。不过我相信随着NeRF技术的快速发展,速度还会有很大的提升空间,再结合云计算,商业应用是可以火起来的。另外,这种物体的NeRF重建和渲染,其实已经在应用了,听说淘宝已经把这样的技术用到在线商品展示上。我觉得可能更主要的挑战是城市级场景的VR漫游,虽然谷歌给我们秀了一个这样的DEMO,但是我觉得这里面依然还有不少问题需要进一步深入解决,才能真正流行起来。总的来说,我个人还是非常看好NeRF在AR/VR、元宇宙领域的商业应用前景。

 

王涛(航天宏图)

 

各位嘉宾都做了非常精彩的分享,我们得到一个重要的结论,就是说CV不但有PR,还有CV 3D,特别是随着今年的元宇宙,还有NeRF这种创新技术的推出,为我们计算机视觉的三维重建带来了新的机会。在这里也希望我们在座各位,还有国内外的学者能够在三维计算机领域做出国际一流的研究成果,能够开发出成功的商业产品。我们今天的论坛就到这里,非常感谢大家。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。