无需多视图!Google重磅升级NeRF仅需一张平面图即可生
9月13日 托天庙投稿 编辑:LRS【新智元导读】NeRF最大的弊端被攻克!
人类视觉中,有一个很重要的能力就是可以从二维图像中理解图像的三维形状。
理解三维几何对于了解物体和场景的物理和语义结构至关重要,但当下计算机的视觉仍然很难从二维照片中抽取出三维几何信息。
2020年,神经辐射场(NeRF)模型发布,仅根据二维图像即可生成三维模型,不过缺陷也很明显:模型需要同一个场景(scene)的多个视图(views)作为监督学习的输入。
如果多视角数据不足,模型就无法估计体积表征,生成的场景很容易崩溃成平面,这也是NeRF的主要瓶颈,因为真实场景中多视角数据很难获得。
曾有研究人员设计了一些不同的架构,通过结合NeRF和生成对抗网络(GANs),使用判别器来保证多视图的一致性,可以缓解对多视图训练数据的需求。
还有没有更激进的方法,只用单视图来生成三维模型?
最近,来自英属哥伦比亚大学,西蒙菲莎大学和GoogleResearch的研究人员发表在CVPR2022上的一篇论文中提出了一个全新模型LOLNeRF,对于同一类物体来说,仅需单一视角即可训练NeRF模型,而无需对抗监督。一旦共享的生成模型训练完毕,模型即可提供近似的相机姿态(cameraposes)。
论文链接:https:arxiv。orgabs2111。09996
简而言之,NeRF不再需要多视图,并且相机也无需非常精确就可以达到令人信服的效果。
具体来说,LOLNeRF使用预测的二维landmarks将数据集中的所有图像大致对齐到一个典型的姿态,以此来确定应该从哪个视图渲染辐射场以再现原始图像。
对于生成模型部分,LOLNeRF采用了一个自解码器框架。为了提高通用性,研究人员又进一步训练两个模型,一个用于前景,即数据集中常见的物体类别;另一个用于背景,因为背景在整个数据中往往是不一致的,因此不太可能受到三维一致性偏差的影响。
值得注意的是,该方法不需要在训练时渲染整个图像,甚至不需要渲染patch。在自解码器的框架内,模型从数据集中重建图像,同时为每个图像找到最佳的潜表征。目标函数基于单个像素定义,因此可以用任意尺寸的图像进行训练,而不会在训练过程中增加内存使用量。
相比之下,现有的利用GANs的方法通过判别器监督像素间的关系,极大地限制了模型在图像分辨率的伸缩能力。
GLONeRF打破多视角需求
GANs过去一直是图像生成的标准模型,其成功可以归因为两点:
1、解决了困难的鞍点优化问题,可以解释为生成器和判别器之间的对抗博弈;
2、将生成器和判别器参数化为深度卷积神经网络。
2019年,研究人员提出GenerativeLatentOptimization(GLO),使用简单的重建损失来训练深度卷积生成器,可以合成视觉上吸引人的样本、在样本之间进行平均插值,并对噪声向量进行线性运算。
最重要的是:这些效果的实现都不需要对抗优化方案。
论文链接:https:arxiv。orgpdf1707。05776。pdf
NeRF需要多视角数据不就是为了对抗性训练吗?
如果GLO无需对抗训练即可实现GAN,那二者结合起来,岂不就是不需要多视角的NeRF!
GLO是一种通用的方法,通过共同学习解码器神经网络和潜码表来学习重建一个数据集(如一组二维图像),该编码表也是解码器的输入。
每一个潜码都从数据集中重新创建了一个单一的元素(如图像)。由于潜伏代码的维度少于数据元素本身,网络需要对数据进行泛化,学习数据中的共同结构(如狗鼻子的一般形状)。
NeRF是一种非常善于从二维图像重建静态三维物体的技术。它用一个神经网络表示一个物体,为三维空间中的每个点输出颜色和密度。颜色和密度值是沿着射线积累的,二维图像中的每个像素都有一条射线。然后使用标准的计算机图形体积渲染将这些值结合起来,计算出最终的像素颜色。
重要的是,所有这些操作都是可微的,可以进行端到端的监督训练。通过强制要求每个渲染的像素(三维)与基准(二维)像素的颜色相匹配,神经网络可以创建一个从任何视角渲染的三维。
将NeRF与GLO结合起来,给每个物体分配一个潜码,与标准的NeRF输入相连接,使其有能力重建多个物体。
在GLO之后,研究人员在训练期间将这些潜码与网络权重共同优化以重建输入图像。
与需要同一物体的多个视图的标准NeRF不同,LOLNeRF只用一个物体的单个视图(但该类型物体的多个例子)来监督训练。
因为NeRF本身是三维的,所以模型可以从任意的视角来渲染物体。将NeRF与GLO结合起来,使其有能力从单一视图中学习跨实例的公有三维结构,同时仍然保留了重新创建数据集的特定实例的能力。
为了让NeRF正常运行,模型需要知道每张图像的确切摄像机位置,以及相对于物体的位置,但正常来说这个数据都是不可知的,除非在拍摄图像时具体测量过。
研究人员使用MediaPipeFaceMesh来从图像中提取五个landmark位置,这些二维预测的每一个点都对应于物体上的一个语义一致的点(例如,鼻尖或眼角)。
对于猫来说也是一样。
然后,我们可以为这些语义点推导出一组典型的三维位置,以及对每张图像的摄像机位置的估计,这样典型点在图像中的投影就会与二维landmark尽可能地一致。
标准的NeRF对于准确地再现图像是有效的,但在单视角情况下,往往会产生在offaxis观看时看起来很模糊的图像。
为了解决这个问题,模型中还引入了一个新的硬表面损失(hardsurfaceloss),促使密度采用从外部到内部区域的尖锐过渡,减少模糊现象,实质上是告诉网络创建固体表面,而不是像云一样的半透明表面。
研究人员还通过将网络分割成独立的前景和背景网络获得了更好的结果,使用MediaPipeSelfieSegmenter的一个掩码和一个损失来监督这种分离,以促使网络specialization,可以使得前景网络只专注于感兴趣的对象,而不会被背景分心,从而可以提高生成质量。
在实验部分,先看一下模型在CelebAHQ、FFHQ、AFHQ和SRNCars数据集上训练后的可视化效果。
在量化比较部分,由于LOLNeRF是用图像重建metric来训练的,所以研究人员首先进行实验来评估训练数据集中的图像被重建的程度。
用峰值信噪比(PSNR)、结构相似度指数峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)指标来比较后可以发现,LOLNeRF的指标都大幅领先。
研究人员还对图像拟合进行了一个更直接的比较,在一组训练期间未被网络看到的图像上进行测试。在从FFHQ数据集中抽取了200张图像后,使用在CelebA图像上训练的模型进行重建,在量化指标上仍然有优势。
为了评估模型学习到的三维结构的准确性,研究人员对合成的新视图(synthesizednovelviews)进行图像重建实验。通过对来自人类多视图行为图像(HUMBI)数据集的单帧进行图像拟合,并使用相同人物的其他groundtruth视图的相机参数重建图像。
实验结果显示,对于比较模型GAN来说,LOLNeRF模型从新的视图中实现了明显更好的重建,也表明该方法确实比GAN学到了更好的三维形状空间,也就是说模型可以泛化到未见数据的形状空间,而不仅仅是从查询视图中再现查询图像。
参考资料:
https:ai。googleblog。com202209lolnerflearnfromonelook。html
投诉 评论
清明,春色染绿了新柳,留不住我们的欢聚又一个梦雨飘瓦,灵风习习的清明时节。思念逝去的亲友,想起了同学,想起了天国中的同学。一hr河北滦师七五。三班入学时有40名同学,如今只剩下36名,有4名已经永远地离开了我……
冬已至,别忘补,这3款应季茶记得喝!滋润五脏六腑,缓解疲劳严寒冬季,北风凛冽,人体新陈代谢速度减慢,此时正是进补的黄金期。根据天气干燥和寒冷的特点来选择合适的茶饮配方,滋润五脏六腑又暖身。不同的茶饮配方适合不同的人群,看看哪种适合你。……
祖国妈妈我想对你说我常常骄傲,我是您的儿女;我常常自豪,我是一名中国人;我常常自我陶醉,我是炎黄子孙,我是龙的传人!在您70岁生日之际,我想深情地对您说亲爱的祖国妈妈,历经五千年的风……
春天孩子长个快,6样家常菜多给孩子吃,含钙高有营养现在已经过了春天的第2个节气了,天气越来越暖,早春时节,天气乍暖还寒,在饮食上一定要注意。慢慢的天气转暖,一定要在这个季节多给孩子吃6样家常菜,这些菜品含钙高营养价值好,孩子们……
孕妇补铁哪些食物不能吃孕妇不能吃哪些食物一直是准妈妈和家人所关心的问题。虽然,在孕期补充营养是不可缺少的,但是有些食物是会影响母体健康和胎儿发育的。那么孕妇补铁哪些食物不能吃呢?下面本站就来讲讲相关……
丘吉尔庄园睁开眼睛看英爱看完大英博物馆,吃了饭,汽车开向郊外。在车上,吕导游喋喋不休地告知我们这次英、爱游共有7个自费旅游景点,如果要参加,需交390英镑。听完导游的景点介绍,我忍不住问:怎不去……
国庆前三天,湖南文旅市场营收超40000万元央广网北京10月5日消息据文旅湖南微信公众号消息,国庆假期前三天,湖南全省文化和旅游市场复苏强劲、平稳有序。数据显示,10月1日至3日,湖南省共纳入假日统计监测单位939……
选择在哪儿分娩要早做准备小编友情提醒广大准爸准妈妈,选择在哪儿分娩要尽早做准备,以便你在预产期之前分娩,不至于手忙脚乱,下面,我们就一起来看看相关详细内容。选择在哪儿分娩要早做准备(1)如……
夏季炎热天气家常菜做法大全俗话说民以食为天,健康合理的饮食不仅能为身体补充营养,而且还可预防多种疾病。但是,在炎热的夏季,很多人都出现食欲不佳的症状,面对做好的饭菜吃了两口便不想再食用了。对此,家庭主妇……
懒觉要睡好,早餐要吃好,晒我一周半小时早餐,网友吃着真舒服懒觉要睡好,早餐要吃好,晒我一周半小时的早餐,网友:吃着真舒服!早餐吃什么是个问题吗?说简单就是很简单、简单到根本不是事的位置。但要说纠结,也是经常有的,面包牛奶、方便面……
仙境造句用仙境造句大全151、今天,他们在这里举行了难得的庆祝:首先,进行的是一场游行,爱丽丝仙境花车、鸣叫的呜呜祖啦以及穿着维多利亚时装、打扮成艺伎、拉拉队员、蜘蛛侠的工人。152、左岸的新……
历史探秘刘备的身世之谜刘备是三国时期的霸主,在诸葛亮和一批武将的辅佐下与曹操、孙权建立三国鼎立的局面,而对于刘备,他的身世一直是广大三国迷广为探讨的。那么刘备的身世是什么呢,今天小编就合大家一起揭开……