(转载:www.idcew.com) 《热硬件》(Hot Hardware)杂志的保罗·莉莉(Paul Lilly)等科技观察人士指出,他们从2d到3d的转变是个新闻。当路径是将3-D转换为2- d时,这并不奇怪,但是“在不提供系统3-D数据的情况下创建3-D模型要困难得多。”
Lilly引用了研究团队中负责渲染方法的高俊的话。“从本质上说,这是有史以来第一次你可以用任何二维图像来预测相关的三维特性。”
他们从2d图像中生成3d对象的法宝是“可微分的基于插值的渲染器”(DIB-R)。Nvidia的研究人员将他们的模型训练在包含鸟类图像的数据集上。经过训练后,DIB-R具备了拍摄鸟类图像并提供3d图像的能力,其形状和纹理与3-D鸟类的形状和纹理相同。
Nvidia进一步描述了转换成特征图或向量的输入,这些特征图或向量用于预测特定信息,如图像的形状、颜色、纹理和光照。
为什么重要:Gizmodo的标题总结了这一点。“英伟达教会人工智能从平面二维图像中即时生成纹理完整的三维模型。”“即刻”这个词很重要。
DIB-R可以在不到100毫秒的时间内从2-D图像生成3-D对象,Nvidia的Lauren Finkle说。这是通过改变一个多边形球体来实现的——传统的模板代表一个三维形状。DIB-R改变了它,使其与二维图像中描绘的真实物体形状相匹配。”
Andrew Liszewski在Gizmodo中强调了这个100毫秒的时间元素。“令人印象深刻的处理速度使这个工具特别有趣,因为它有潜力极大地改善机器人或自动驾驶汽车等机器如何看待世界,并了解它们面前的情况。”
关于自动驾驶汽车,Liszewski说,“从摄像机实时视频中提取的静态图像可以立即转换成3d模型,例如,自动驾驶汽车可以精确地测量它需要避开的大型卡车的尺寸。”
英伟达可以快速地将二维图像转换成三维模型 研究小组测试了DIB-R在四张2D鸟类图片上的表现(最左边)。第一个实验使用了一张黄色莺的图片(左上),并产生了一个3D物体(最上面两行)。信贷:英伟达 一个能够从二维图像中推断出三维物体的模型将能够更好地进行物体跟踪,于是Lilly开始考虑它在机器人领域的应用。他说:“通过将二维图像处理成三维模型,一个自主机器人将处于更安全、更有效地与环境互动的更好位置。”
英伟达指出,为了做到这一点,自主机器人“必须能够感知和理解周围的环境”。DIB-R可能会改善这些深度感知能力。”
与此同时,Gizmodo的Liszewski提到了Nvidia方法在安全方面的作用。“DIB-R甚至可以改善用于识别和跟踪人的安全摄像头的性能,因为即时生成的3d模型可以让人在视野中移动时更容易进行图像匹配。”
英伟达的研究人员本月将在温哥华举行的神经信息处理系统(NeurIPS)年会上展示他们的模型。
那些想要了解更多关于他们的研究的人可以查看他们关于arXiv的论文,“学习使用基于插值的可微分渲染器来预测3d对象。”作者是陈文政、高军、凌欢、爱德华·j·史密斯、贾克科·莱赫蒂宁、亚历克·雅各布森和桑佳·菲德勒。
他们提出了“一个完整的基于栅格的可微分渲染器,可以对其梯度进行分析计算。”当包裹在一个神经网络中时,他们的框架学会了从单个图像中预测形状、纹理和光线,他们说,他们展示了他们的框架来“学习三维纹理形状的生成器”。
在他们的摘要中,作者观察到“许多机器学习模型对图像进行操作,但忽略了一个事实,即图像是由三维几何和光相互作用形成的二维投影,这个过程称为渲染”。使ML模型能够理解图像的形成可能是推广的关键。”
他们提出DIB-R作为一个框架,允许对图像中所有像素的梯度进行分析计算。
他们说,他们的方法的关键是“将前景栅格化视为局部属性的加权插值,将背景栅格化视为全局几何的基于距离的聚合”。我们的方法允许通过各种照明模型对顶点位置、颜色、法线、光方向和纹理坐标进行精确优化。” (转载:www.idcew.com) |