账号:
密码:
CTIMES / 文章 /   
深度资讯编码对於高效率、高品质之要求
 

【作者: 許庭瑋】2019年07月11日 星期四

浏览人次:【424】
  

随着多媒体技术及相关设备的发展,使用者体验受到越来越多的重视,例如影片从过往黑白无声的画面,至今日进入超高画质的阶段。高解析的影片如HD、Full HD 解析度的影片已取代类比电视 480P 解析度成主流,目前随着硬体设备的进步已提升至4K即3840*2160 pixels。


除了影像画面本身的解析度提升之外,呈现方式亦从使用者单方面的接收内容,发展至今如自由视角(Free-View Video, FVV)等使用者可叁与显示内容之形式,或跳脱平面之三维视讯( 3-D Video)如3-D电影等新型态的应用来获取近似於身历其境的体验。


自由视角视讯与三维视讯的实现,为拍摄时利用多组摄影机组成摄影机阵列对场景进行不同角度的拍摄,对於摄影机未拍摄的视角,即可利用相邻的摄影机视角进行合成,应用时传送多个不同视角的资讯至使用者端,再对使用者所要求的视角进行合成与显示。


然而此类应用由於需要传送多个不同视角的资料,加上画面解析度及品质的提升等考量,需要传送的资料量更为庞大,因此如何提升压缩效率以减少传送成本是个重要的议题。


对此议题,国际电信联盟(International Telecommunication Union, ITU)的视讯编码专家群(Video Coding Experts Group,VCEG)和国际标准组织(International Organization for Standardization/International Electrotechnical Commission, ISO/IEC)共同组成的联合视讯小组(Joint Video Term, JVT),开发一个可供使用者选择观看视角的多视角视讯编解码技术(Multi-view Video Coding, MVC),此技术建构於MPEG-4 AVC/H.264标准上,其中便包含了立体视讯显示与自由视角两大应用。


深度资讯编码知识背景

影像区域的分割

电脑视觉(Computer Vision)随着科技的进步,被应用在非常多不同的应用,如近年来很流行的体感游戏、社群网站上传影像後,可以直接进行人脸辨识、或是手机拍照後,可以将前後背景或物件分离,影像区域分割(image segmentation)技术的发展,占了非常重要的一环。


将一张输入的影像,依照色彩相似度或纹理特性等许多不同的特徵值,分割为许多不同的区域或物件。然而数位影像是由许多像素(Pixel)所组成的矩形区域,而每个单一像素却只能表达自身的区域资讯,无法提供与相邻区域的关联性。


因此,区域划分须透过影像处理,将画面内的像素依照特性进行分群(clustering),得到的结果相会是特性相近的区域,即可将资讯应用於影像检所、动态估测等不同的领域。


许多研究电脑视觉影像的学者分别提出许多不同的影像区域划分方法,将这些被提出的演算法搜集後,区分为主要三大类别:Region-Based Segmentation Methods、Data clustering以及Edge-Based Segmentation Method。


(1)区域为基础的分割方式(Region-Based Segmentation Methods):


此分割方法主要是假设同一区域内的相邻像素应具有相似的数值。经由比对此像素若是与相邻之像素具有相似性,则可将此像素归纳至同一分群之中。因此,相似性判定标准将会影响到区域划分的结果。文献中也提到相关延伸之区域划分方法如Seeded Region Growing、Unseeded Region Growing、Region Splitting and Merging。图1为Region Splitting and Merging采用四分树(Quad-tree)的架构进行区域划分。



图1 : 四分树(Quad-tree)的架构图
图1 : 四分树(Quad-tree)的架构图

(2)资料分群(Data clustering):


资料分群是被广泛应用於影像分割和统计的方法之一。其主要的概念是在於找出影像资料中较相似的几个群聚(clusters),并找出其代表点,称为中心点(centroids)以达分割的效果。主要可分为阶层式(Hierarchical)和分割式(Partitional)聚类。类似的演算法,如Squared Error、K-means或Mean Shift。


(3)边界为基础的分割方式(Edge-Based Segmentation Method):


此方法通常使用边缘检测後进行分类,如梯度算子(Gradient operators)和希尔伯特变换(Hilbert transform)。而另一种方式不同於使用边缘侦测工具,则是利用边缘的变化的特性,如分水岭分割算法(Watershed Segmentation Algorithm)。该演算法为找出影像中的分岭线(Watershed line)进而影像进行切割。如图2、3。



图2 : 影像分水岭示意图
图2 : 影像分水岭示意图

图3 : 分水岭式区域划分方法
图3 : 分水岭式区域划分方法

立体视觉视讯、原理与架构

立体影像的原理为双眼接收到同一场景之不同角度的影像时,会於脑中将之合成为立体影像。人类的左眼与右眼间的距离约为5至8公分,因此对於同一场景而言,两眼个可捕捉到另一眼所无法捕捉的画面,再加上角度不同所产生的误差所产生的两眼画面不同,这些误差即称为视差(disparity)。


人类的大脑会将视差进行处理,进而使人类感受到视觉上的远近关系,因此欲产生立体视讯,则必须至少有两个视角的资料,再由相关的硬体设计,如偏振切割、时间切割等技术,使不同视角的画面分别显示於两眼,藉此达到立体画面的效果,如图4所示。



图4 : 立体成像架构?
图4 : 立体成像架构?

自由视角视讯原理与架构

自由视角视讯(Free-Viewpoint Television Vidoe)利用多台经过校准的摄影机阵列进行拍摄,然後再进行编码与传送,其架构如图5。


透过多视角视讯的讯息,可以在接收端合成任一角度的虚拟视讯。如图6中分别表示了三种因应不同的系统限制(如硬体或频宽等)之多视角视讯编码架构,可对应使用者的使用环境选择於传送端或接收端进行影像合成。



图5 : 自由视角编码架构
图5 : 自由视角编码架构

图6 :  FTV画面合成
图6 : FTV画面合成

现有相关深度资讯编码架构

区块为基础的编码方式━3-D HEVC Extension深度资讯编码

深度影像的编码在3-D HEVC叁考软体中,以附加工具(3-D HEVC Extension)的形式提供,其基本架构承袭HEVC编码架构而来,因此诸如画面内预测(intra-prediction)、运动估测与补偿(motion-compensated prediction)、视差补偿估测(disparity-compensated prediction)、变换编码(transform coding)等工具,均如同应用於纹理编码一般可套用於深度资讯编码。


然而基於纹理资讯与深度资讯的差异,3-D HEVC Extension针对某些编码工具进行了新增或修改,使其符合深度编码的特性,如色彩取样模式因深度资讯为数值范围0-255的灰阶影像,因此仅使用4:0:0色彩取样模式。


为了因应不同角度的摄影机所撷取之画面可能有景深极大值与极小值不同,而造成同一深度平面却有不同深度值的问题,而新增了Z-near z-far compensation(ZZC)工具以确保进行画面间预测(inter-frame prediction)时,所有叁考画面皆可以处於相同的叁考点进行比较。


3-D HEVC Extension新增了四种不同的区块模型模式(modeling mode)来对当前编码区块进行模拟,此四种模型的概念皆为将当前编码区块划分为两块常数区块,因此仅需对划分方式以及切割後的两区块内深度常数值进行编码,即可达到节省位元率的目的。


区块的划分工具可分为楔形波为基础(wedgelet-based)以及轮廓为基础(contour-based)的区域划分方式,楔形波为基础的划分方式适用於当前编码区块,可被一条直线划分为两个常数区块;轮廓为基础的区域划分,则是用於不规则外型的区块,如图7所示。



图7 : 3D-HEVC新增的区域划分方式
图7 : 3D-HEVC新增的区域划分方式

3D-HEVC Extension的Mode4则为利用当前编码画面的对应纹理画面进行画面间预测,如图 8 所示。利用纹理图进行二值化运算之後得到的结果,应用於当前深度编码区块,并以解码端的纹理资讯进行轮廓之重建,即可节省编码轮廓所需的位元。



图8 : 3D-HEVC Extension画面间预测模式
图8 : 3D-HEVC Extension画面间预测模式

区域为基础的编码方式

一张深度图可以看成以多个轮廓及轮廓内深度值的区域所构成的影像。基於此特点,舍弃传统以区块为基础(Block-based)的编码架构,并提出以区域为基础(Region-based)之编码架构。


首先将愈编码的深度影像进行区域切割为由相似深度值所构成的区域,并将区域边界及内部的数值进行编码。解码时先进行边界的重建後填入对应的深度值,即可重建完整的影像。由於完整的保存了深度影像的边界资讯,故在合成视角时可得到较好的影像品质。


实验显示若两相邻像素的深度值不相等时,即存在着断裂边界(Crack Edge, CE)。运用画面内CE资讯即可将深度影像区分成三个部分:边界资讯CE、多个CE围成之区域及区域内之常数数值,如图 9所示。D为像素点座标,红色数字则为该项数的深度值,V为垂直边界而H为水平边界,并以红色及绿色表示该边界是否启用。



图9 : 深度影像使用CE切割的示意图
图9 : 深度影像使用CE切割的示意图

影像中的CE可使用二维的布林阵列表示,布林值0为不启用、1则代表启用边界。因此CE的资料可看成是以一串的二元数值所构成的字串,其特性相当符合算术编码(Arithmetic Coding)的编码之特性(少量的符号以不相等之出现机率)。


同时由於物件边界具有高度相似结构的特性,因此文献提出以收集CE资讯後预测当前编码的CE,并利用内容预测式算术编码(Context-based Arithmetic Coding)进一步提升编码效率减少鸨(Entropy)。如图10所示,绿色线段为已经编码CE,红色虚线为当前编码CE,利用已知的CE预测编码的方式使得资料分布更加集中,进而提升编码效率。



图10 : CE预测样板
图10 : CE预测样板

以彩度边界辅助深度资讯编码的方式

上一小节介绍了以区域为基础的编码方式,其编码方式为直接进行深度影像的深度划分,然而这样的编码方式仍需要传送大量的深度资讯,所以文理影像与深度影像的边界资讯有着极高的关联性,如图11所示。加上纹理影像在编码端及解码端都可以得到。


基於此论点,提出以彩度资讯辅助深度影像编码的方式,只需传送使用纹理影像所划分出来的区域内深度值,即可在解码端重建完整的深度影像。



图11 : 纹理影像与深度影像边界资讯比较图
图11 : 纹理影像与深度影像边界资讯比较图

以纹理资讯辅助深度资讯编码的架构图,如图12所示。首先将重建後的纹理影像进行区域分割,并将分割的结果提供给深度影像运算所对应区域的深度值,并与区域划分资讯整合为单一码流传送至解码端。使用重建後的纹理影像进行区域划分之原因,为确保解码端和编码端视使用相同的画面来分割以免造成漂移误差(Drift Error),确保系统的闭??路特性(Closed-loop Property)。



图12 : 以纹理资讯辅助深度资讯编码的架构图
图12 : 以纹理资讯辅助深度资讯编码的架构图

若只单纯使用纹理影像进行区域分割,可能会发生虽然深度影像有边界但纹理影像对应区域之颜色较相近,导致纹理影像在进行区域分割时被归属在同一个区域,造成影像重建时有很大的差异,如图13。



图13 : 因纹理资讯过於相似导致遗失深度边界
图13 : 因纹理资讯过於相似导致遗失深度边界

因此提出补足此缺点之编码架构(图14)下,以导入深度资讯之纹理区域划分方法於深度资讯编码系统,架构图如15。先由深度图取得深度边界CE,并将支给予纹理图协助其分割,若有启用的CE即便纹理影像之特性相近,也不会进行合并,如此便可以良好的保持深度边界资讯,如图16所示。



图14 : 混合式区域划分编码架构
图14 : 混合式区域划分编码架构

图15 : 以深度边界的纹理区域划分方法於深度资讯编码系统
图15 : 以深度边界的纹理区域划分方法於深度资讯编码系统

图16 : 导入深度CE後可保有良好的深度边界
图16 : 导入深度CE後可保有良好的深度边界

?


深度资讯编码的发展

自由视角视讯与三维视讯之原始影片采用格式为多视角彩度加深度(multiview view video plus depth, MVD),使用以深度资讯(depth information)辅助纹理资讯(texture information)进行视角合成的技术。


传送端仅送出特定视角的纹理与相对应的深度资讯,以节省传送所有视角所需的成本,未传送的部分则以接收之资讯进行合成,其中深度资讯准确性会明显影响合成视角的品质。


深度资讯记录了场景物件与摄影机的距离,相较於呈现色彩差异的纹理资讯,深度资讯所记录的为场景中各物件之空间位置关系,可用於虚拟视角合成时选取叁考画面之依据,应用於自由视角视讯与三维视讯,可使得最後的虚拟视角合成成果更加精确。


尽管MVC技术以舍弃部分视角资讯的方式减少传送成本,然而在减少了纹理资讯的同时,亦增加了深度资讯的负担,因此深度资讯的编码与压缩即成为重要议题,自2008年MVC技术制定完成後备受重视,至今仍有需多相关研究进行。


於2013年制定完成之高效率视讯编码(High-EfficiencyVideo Coding, HEVC),亦於其叁考软体提供针对深度资讯特性修改的编码扩充工具3D-HEVC Extension,足见传统编码架构应用於深度资讯有其不足之处。


影像编码技术可以运用在数位电视、行动视讯、影音串流等各项新兴多媒体服务中,而且都具有极高的应用价值。现阶段数位科技蓬勃发展使得编码技术日趋重要,但如何在更有效率的形况下达到良好的编码品质,是目前最重要的课题。


(本文作者许庭??任职於凌群电脑软体工程师)


资料来源

[1] HEVC https://en.wikipedia.org/wiki/High_Efficiency_Video_Coding


[2] M. Tanimoto, “Free Viewpoint Television - FTV”, Picture Coding Symposium 2004, Session 5, December 2004.


[3] 3D- HEVC?


https://blog.csdn.net/tianzhaixing2013/article/details/21248073


[4] ITU-T and ISO/IEC JTC1, “Joint draft 8.0 on multi-view video coding,” JVT-AB204, July 2008.


[5] P. Merkle et al., “Multi-view video plus depth representation and coding,”in ICIP, Oct 2007.


[6] ITU-T and ISO/IEC JTC1, “Joint draft 8.0 on multi-view video coding,” JVT-AB204, July 2008.


[7] K. Muller, “3D video coding with depth modeling modes and view synthesis optimization, ”Signal & Information Processing Association Annual Summit and Conference, p.p. 1-4, 2012.


[8] J. Hanca ea al., “Segmentation-based intra coding of depth maps using texture information,”Digital Signal Processing, pp. 1-6, July 2013.


[9] M. Maceira et al., “Fusion of colour and depth partitions for depth map coding,”Digital Signal Processing, pp. 1-7, July 2013.


相关文章
以微机电整合远端红外线与蓝牙戒指的厂办系统
凌群电脑:聪明Ayuda将智慧带入政府单位与企业
reVISION加速监控系统应用开发
图像巨量资料时代来临
企业电子化开发整合之道
comments powered by Disqus
相关讨论
  相关新闻
» 趋势科技率先利用 AWS Transit Gateway 提供高效能在线式网路资安防护
» Autodesk 2020新品发表暨新知论坛 共享各领域知识及资讯
» 最新ANSYS版本加速跨产业数位转型 强化设计、工程和制造间的数位设计流程
» 串列设备、Modbus设备也能轻松上云 - Moxa推出
» 达梭数位巴黎计画 将有助於圣母院5年内重建
  相关产品
» JIUN推出新款云端医学影像管理系统
» 优必达借力Azure服务为全球市场提供混合式云游戏与人工智慧服务的解决方案
» 精益科技推出SmartOffice PS186家务商务双达人
» Microsoft 365商务版 防堵资安漏洞、提高协作生产力
» 戴尔推出Dell Cloud for Microsoft Azure Stack解决方案

AD


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2019 远播信息股份有限公司版权所有 Powered by O3
地址:台北市中山北路三段29号11楼 / 电话 (02)2585-5526 / E-Mail: webmaster@ctimes.com.tw