如何实现360度视频序列全景图拼接系统的设计与实现

提出了一种视频序列到全景图的快速转换方法。首先对视频进行抽帧, 获得初始帧序列,利用特征点匹配及RANSAC方法计算帧匹配质量及匹配区域, 选取匹配质量高的帧进行拼接并通过加权平均法进行图像融合,最后得到全景图。

[关键词] 特征匹配 RANSAC 视频 全景图

如何实现360度视频序列全景图拼接系统的设计与实现  特征匹配 RANSAC 视频 全景图 第1张

1 引言

通常制作360度全景图可以使用专业的全景设备直接获取,也可先使用普通的成像设备拍摄足够多的具有重叠区域的图像序列,然后将这些图像拼接组成一幅全景图像。

由于成本较低,不需要昂贵的专业设备,利用序列图像进行全景图拼接是近年来的研究热点,其中又分为对静态序列图像拼接的研究,以及对视频序列拼接的研究。

静态图像序列中的每一张图像都是单独拍摄,能够精确设置控焦距、曝光等拍摄参数,因而够获得较好的成像质量,但操作过程却相对复杂。

视频序列拍摄操作简单,只需使用录像设备旋转一周录制,但不能准确控制拍摄参数。旋转过程中光源位置、景物距离的变化,以及拍摄时出现抖动等情况都会导致视频序列的成像质量较低,给后期拼接工作带来麻烦。

本文主要研究视频序列的拼接,提出了一种视频序列到全景图的快速转换方法,通过帧的选取、匹配、拼接等步骤生成全景图像。

2 现状

目前,用于制作全景图的软件很多,其中较著名的有Helmut Dersch公司开发的PTGUI以及Pablo d'Angelo 为主开发开源全景摄影图像拼接软件hugin等,这些软件都是基于Helmut Dersch's Panorama Tools,通过控制点对静态图像拼接,输出一张更大幅面的全景图像。

另外还有一些用于制作全景图的手机应用,如利用视频制作全景图的bubbli,目前该应用只能运行在系统为ios7以上的设备。

3 关键算法

3.1 图像匹配

图像匹配技术是一种通过对图像内容、特征、结构、关系、纹理及灰度等对应关系,相似性和一致性的分析,寻求相同图像目标的方法。目前图像匹配的方法有很多种,根据图像的维数可以分为 2D 和 2D 匹配、2D和 3D 匹配、3D和 3D匹配;根据图像特征提取的层次可以分为基于灰度的匹配、基于特征的匹配。

本系统采用了基于特征的图像匹配方法。

基于特征的匹配方法首先在原始图像中提取特征,然后用相似性度量函数和约束条件确定几何变换,最后将该变换关系作用于待匹配图像。常用的特征匹配基元包括区域、边缘、轮廓、直线、兴趣点、颜色、纹理、矩等显著特征,总的概括为点、边缘及面等特征,由于面特征提取过程比较复杂,耗时较多,因此基于特征的匹配算法主要研究利用点特征和边缘特征进行匹配。

3.2 Sift算法

尺度不变特征变换算法,即 SIFT(Scale InvARiant Feature Transform)算法是一种提取局部特征的算法,由 David Lowe 于 1999 年提出的一种基于尺度空间的,对图像平移、旋转、缩放等特性保持不变的图像局部特征描述子。

相较于其它特征提取算法,SIFT 算法对亮度变化、尺度缩放、旋转、噪声和仿射变换有很好的鲁棒性,特征描述子信息丰富,独立性好、算法稳定。

SIFT算法在尺度空间寻找极值点,提取位置、尺度、旋转不变量其构造步骤分为尺度空间的构造、检测尺度空间的极值点、精确确定极值点位置、特征点方向分配、生成特征点描述子五个具体步骤。

SIFT 特征点描述子的生成过程如下:

1) 以关键点为圆心将关键点邻域旋转 θ,θ 为关键点的梯度主方向,从而保证了旋转的不变性。

2) 在旋转后的图像中,以关键的中心取 16×16 的邻域窗口,即为关键点的邻域窗口,每个小格代表关键点邻域窗口中的一个像素,箭头的长度为像素的模值,箭头的方向为像素的方向,这个方向是旋转后的像素方向。

3) 将 16×16 的矩形窗口均匀分为 16 个 4×4 个子区域,采用高斯模糊的方法,然后计算每个区域中 8 个方向的梯度累加值。

4) 得到特征点描述子特征向量,为 4×4×8=128 维向量。经过以上的变换,SIFT 特征向量已经剔除了尺度变换、旋转变化的影响,接着将特征点描述子进行归一化处理进一步减少光照的影响。此外,为了减少大梯度值的影响,为其设定一个阈值为 0.2,如果向量中某一维的值大于 0.2,则将其重置为 0.2,并重新进行归一化处理。

3.3 RANSAC算法

SIFT 算法将待匹配的特征点用 BBF 方法找到 k 个最近邻,然后利用最近邻比率方法判断特征点的匹配度。最近邻比率方法广泛用于基于特征的图像匹配,该方法简单方便并且比较稳定,但匹配的准确率往往不够理想。需通过其他方法提高 SIFT 特征点的匹配精度。

RANSAC 算法是一种鲁棒参数估计方法,它通过迭代的方法对一组观测数据集进行数学模型拟合,然后采用随机抽样验证去除噪声点。其优点是可靠性强、精度高、鲁棒性强,对图像噪声和提取不准确的特征点有强健的承受能力,并具有较好的剔除误匹配点的能力,SIFT 匹配对通过 RANSAC 几何校验之后可以有效滤除错误匹配,从而使得结合 RANSAC 的 SIFT 的性能更加优良,应用更为广泛。

3.4 图像融合

图像融合是采用某种算法对两幅或多幅图像进行综合处理,最终形成一幅新的图像。根据融合处理所处的阶段不同,图像的融合处理通常可以在三个不同层次上进行像素级图像融合、特征级图像融合以及决策级图像融合。

像素级图像融合方法可大体分为七类加权融合和主成分分析图像融合方法、假彩色图像融合方法、基于马尔可夫随机场的图像融合方法、基于调制的图像融合方法、基于统计的图像融合方法、基于神经网络的图像融合方法以及基于多分辨率分解的图像融合方法。

其中最直接的融合方法就是对源图像进行加权平均作为融合结果。加权平均运算提高了融合图像的信噪比,但削弱了图像的对比度,在一定程度上使得图像中的边缘、轮廓变模糊了。这种方法具有算法简单、融合速度快的优点,适用于序列图像的融合。