以前,我们一直认为传统相机将3D世界转换为2D图像,已可以满足我们对于图像的应用,而2D图像中丢失的三维似乎并不重要。
但随着计算机视觉(CV)的飞速发展以及与深度学习的结合,许多雄心勃勃的研究人员试图使机器通过摄像头更好地了解我们的世界,以便它们可以通过许多任务来增强人类的能力。其中最有意义的是找回2D图像中丢失的深度信息。
在如今诸多火爆的智能硬件中,如体感交互、远程遥控机器人、无人驾驶等场景里,CV发挥着重要作用,成功完成诸如手写识别,对象分类、辅助驾驶之类的工作。但是,当处理真实的3D世界时,CV就存在瓶颈。人类有两只眼睛,使我们能够自然地感知深度。但是,大多数CV应用程序都依靠一台摄像机来捕获和解释其周围的环境,难以获取深度信息。丢失的三维尺寸严重限制了CV的性能,可以说传感器的性能就是如今虚拟与现实世界之间的瓶颈。
深度传递关键信息——我们将需要深度感测和2D成像来捕获现实世界的全部信息。
深度传感器的三种技术
目前人们如果想探测环境深度信息,主要依赖于三种技术,分别是相机阵列, TOF(time of flight)技术,以及基于结构光的深度探测技术。
●结构光:
接收器使用激光光源投射目标物,检测反射目标物的变形,以基于几何形状计算深度图。它必须扫描整个平面以获得需要时间的深度图,因此它是非常准确的。但是,此方法对环境亮度敏感,因此通常仅在黑暗或室内区域使用。
●飞行时间(ToF):
ToF主要有两种方法。
第一个很简单:激光源发出一个脉冲,传感器检测到该脉冲在目标物体上的反射,以记录其飞行时间。知道了光的恒定速度后,系统可以计算出目标物体的距离。为了确保高精度,脉冲周期必须短,这导致较高的成本。另外,需要高分辨率的时间数字转换器,这会消耗很多功率。这种方法通常可以在高性能ToF传感器中找到。
计算时间的另一种方法是发出调制光源并检测反射光的相位变化。相变可以通过混合技术容易地测量。调制激光源比发出短脉冲更容易,并且混合技术比时间数字转换器更易于实现。此外,LED可用作调制光源来代替激光。因此,基于调制的ToF系统适合于低成本ToF传感器。
●相机阵列:
摄像头阵列方法使用放置在不同位置的多个摄像头来捕获同一目标的多个图像,并根据几何结构计算深度图。在计算机视觉中,这也称为“立体视图”。
最简单但最受欢迎的相机阵列是双相机,其中两个相机相隔一定距离以模仿人眼。对于空间中的每个点,在两个摄像机图像中的位置均出现可测量的差异。然后,通过基本几何来计算深度。
相机阵列的主要挑战是如何在多个图像中找到匹配点。匹配点搜索涉及复杂的CV算法。目前,深度学习可以帮助您找到准确度较高的匹配点,但是其计算成本很高。另外,有很多点很难找到匹配点。
例如,在上面的瓦格纳雕像的两个视图中,鼻子是最容易匹配的点,因为它的特征易于提取和比较。但是,对于面部的其他部分(尤其是面部无纹理的表面),很难找到匹配点。当两个相机图像的遮挡不同时,匹配会更加复杂。目前,相机阵列作为深度传感器的鲁棒性仍然是一个具有挑战性的问题。
三种深度感测技术的对比
●整体表现
对于深度感测,最重要的指标是深度精度。结构光具有最佳的深度精度性能,而相机阵列往往具有最大的深度误差。
就深度感测范围而言,结构光的范围最短,而ToF的范围取决于光源的发射功率。例如,智能设备可能只需要几米的距离,而自动驾驶汽车则需要几百米。同样,摄像机阵列的测量范围取决于两个摄像机之间的空间。对于常规摄像机阵列,最佳性能测量范围通常在10m左右,尽管也显示了某些具有极窄空间的特殊摄像机阵列可以在1m左右测量深度。
对于深度图分辨率,结构光的性能优于ToF,因为可以精确控制结构发光图案并精确捕获其反射图案。从理论上讲,摄像机阵列具有良好的分辨率,但这是基于两个图像中的完美点匹配。使用非理想的点匹配(如光滑表面)时,分辨率会降低。
最后,我们需要考虑对环境亮度的限制。结构光需要黑暗的环境,而ToF传感器由于快速发展的背景消除技术而可以承受更大范围的环境亮度。对于摄像机阵列,明亮的环境效果最佳。在黑暗的房间中,相机阵列捕获的图像会变得嘈杂,并且对比度变差,因此点匹配变得极为困难,从而导致深度估计不准确。
●成本