对话奥比中光CV博士：今年三维重建与计算机视觉可以关注哪些热点？-轻识

12月23日至26日，第五届中国模式识别与计算机视觉大会（PRCV 2022）在深圳举办，铂金赞助商奥比中光以“群英荟萃博视未来”为主题亮相。在25日主会场演讲中，奥比中光研究院算法专家王琳博士预告了奥比中光即将量产上市的Femto Mega新一代iToF深度相机，以及Gemini、Astra系列深度相机标品，满足全球科研工作者、开发者、学生等群体的3D视觉多元开发需求。

在PRCV 2022召开之际，3D视觉工坊对话了王琳博士与奥比中光研究院算法团队负责人钱贝贝博士，为读者带来三维重建、计算机视觉、深度学习等不同方向的业界前沿成果分享。

王琳博士

奥比中光算法专家。上海交通大学博士，有近二十年机器学习、机器视觉、三维重建等领域的算法和相关产品研发工作经历。

图注：奥比中光王琳博士在PRCV 2022主会场演讲

我一直从事机器视觉和机器学习的算法和产品研发工作。刚毕业的时候，机器视觉并不像现在这么热门，当时更热门的专业是通讯和控制等，很多机器视觉专业的毕业生都转行到这些行业，而我觉得我只能做做机器视觉这个领域的事儿。谁能想到十多年后的今天，随着人工智能特别是深度神经网络技术的崛起，机器视觉俨然变成了一门“显学”。

加入奥比中光后，我主要作为技术专家参与三维重建方向的预研和产品落地方案规划，也关注了三维重建中利用神经网络进行隐式表达方面的进展。

物体表面的隐式表达90年代就开始用于三维重建。2011年微软的消费级RGBD相机Kinect推出后，几乎同时就有了基于隐式表达的实时三维重建系统KinectFusion。隐式表达区别于显式表达的地方在于，物体表面并不是由三维坐标表示表面点的，而是利用稠密的空间点（规则划分的空间格子称为Voxel，对应二维图像中的Pixel）存储该点到三维表面的距离，距离数值根据处在表面内外的正负号不同，这种曲面隐式表达方式称为带符号的距离场SDF。

近年来，结合神经网络的隐式表面重建的研究逐渐增多，比较出名的比如NeRF、PIFu等。根据输入的多张已知视角的物体的RGB图像，神经网络可以渲染出物体新视角的RGB图像，同时也能推理出物体三维表面形状。

而针对拓扑结构相近的特定物体，比如人体和人脸等，这种方法具有只看到局部表面就推断出全局结构的能力。比如输入一张人体正面的RGB图像或深度图，系统能推断出完整的人体表面结构。这其实和人类的推理能力类似，我们看到一个人的正面照片，能对他的背面做出大致的估计或猜测。神经网络训在练过程中包含了特定物体的先验信息，而输入的单帧观测数据结合这种先验，就有能力猜出看不到的表面的大致形状。

会不会有猜不准的情况？肯定会。我们只能用引入新的观测，比如拍摄更多的照片对模型进行更新。这也可以从贝叶斯定理“观测对先验的更新”角度来理解。原理上，环绕人体进行多帧拍摄的信息是足够重建出完成人体模型的，至少对人脑来说是足够的，但对于计算机来说会遇到许多困难。对图像进行理解分析，比如从图像恢复三维结构的问题的求解，其实是试图从结果推断原因的归纳法，充满了不确定性，实际求解过程中强烈依赖先验假设，所以关于贝叶斯推理有句话叫“不做假设就无法进行推理”。各种传统的机器学习模型，和现在流行的神经网络方法，可以说都是在如何利用和组织先验信息上做文章的，这也是机器视觉领域几十年来能不断发展的动力。

尽管学术研究领域非常红火，但现在的神经网络隐式表达方法在落地时还是遭遇了很多问题。第一个是计算效率，它的算力要求很高，比如一般场景或物体的NeRF应用，可资利用的数据只是输入的RGB图像序列，要利用它们同时推理出新视角图像和三维表面。而对于一个新场景来说神经网络的训练是从零开始的。

第二个是它非常依赖输入图像精确的6自由度的姿态信息，现阶段还是依赖传统的基于多视几何的相机位姿估计方法(SFM、MVS等)。另外，要想得到丰富的三维表面的几何细节，有时单靠减小Voxel的尺寸是不够的。实际上针对这些问题学术界已经提出了新的解决方法，比如出现了更偏重于用于三维重建的隐式表达模型，以及基于Mesh结构而非SDF的表面表达等。另外，我们觉得结合深度相机和传统的MVS重建，可能对重建的效果和效率都有提升。

对于重建项目来说，我们希望能有更多的手段，不管是传统的MVS还是流行的神经表达方式，希望工具箱里有尽可能多的工具，针对不同应用就有不同的工具。假如只有基于深度学习的手段，可能在许多计算受限的场景，比如移动端的重建就会束手无策。就像多年前很多人在做图像特征匹配时言必称SIFT一样，实际上因为计算量的原因，在很多要求实时性的应用(比如SLAM)它就并不适合。

钱贝贝博士

新加坡国立大学博士毕业，现任奥比中光算法团队负责人，致力于机器学习和深度学习在视觉领域的前沿算法研发和落地。在无人机、服务机器人、3D感知等领域有多年的研发经验。曾参与两项国家自然科学基金，多项深圳市科学基金项目。2017年入选深圳市科技专家库，深圳市海外高层次人才。

奥比中光研究院钱贝贝博士。

我们团队在做的方向有3D人脸识别、3D人体姿态估计（3D骨架）、3D抠图以及3D视觉AI开放平台，在不断探索深挖算法能力的同时，还需支持算法工程化的落地。

这个过程其实对研发团队的要求还是很高的，因为很多时候，创新和落地实际上是不断冲突的：创新也意味着不确定性，会有沉默成本，而落地需要的是尽可能的确定性，能交付，能商业化。这就要求我们对团队能力要合理搭配，和对精力要合理分配，这样创新和落地之间才能做好平衡。

经过这几年的不断打磨，我们的算法已经应用在人脸门锁、直播抠图、运动健身、康复医疗、虚拟人等领域。目前，人脸识别方向和在市场上已经很成熟了，但仍有大量的难点等待我们去攻克。今年在模式识别与计算机视觉领域，我关注的热点主要是Transformer与CNN的融合以及轻量化。Transformer最近这两年特别火，最开始是在NLP上发现效果很不错，后来又延伸到CV领域，发现效果比CNN更好，于是大家都想发现新大陆一样，对Transformer充满了好奇和期待。

但是CV中使用Transformer的话，有几个局限：一个是训练数据量的要求会比CNN高很多；另一个是transformer的计算量还是太大，尤其是在移动端进行推理部署的时候，会非常吃力。那能否将Transformer和CNN的各自特点结合起来，做到提升精度的同时，降低对训练数据量的要求，又能复用目前已经在移动端对CNN的推理部署做的大量优化工作呢？

微软和中科大团队在今年CVPR上发表的Mobile-Former就是一个不错的尝试。文章提出的Mobile-Former，是一种通过双线桥将MobileNet和Transformer并行的结构。这种方式融合了MobileNet局部性表达能力和Transformer全局表达能力的优点，这个桥能将局部性和全局性双向融合。和现有Transformer不同，Mobile-Former使用很少的tokens(例如6个或者更少)随机初始化学习全局先验，计算量更小。