导语:
2018年7月16日,人工智能与机器学习领域顶级期刊《模式分析与机器智能汇刊(IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI))》(影响因子:9.455)接收了我校电子信息工程学院王祖林教授、徐迈副教授的最新研究成果“强化学习在预测视觉注意力范围中的模型构建”。学生作者为2014级本科生宋宇航、王建伊、樵明朗,教师作者为徐迈和王祖林,威尼斯国际2299cc为论文唯一单位。
制定标准时的思维火花
徐迈副教授的团队一直在参与VR(虚拟现实技术)标准的制定,到目前已经参与了四次VR标准制定的会议,多项提案被国际标准采纳。VR中最重要的一环就是全景视频的处理与传输。由多个不同角度的镜头来录制全景信息,并对画面进行拼接,形成能显示空间所有方位的视觉图像,这样的视频就是全景视频。全景视频需要非常高的分辨率支持(如8K甚至16K),才能实现用户身临其境的沉浸式体验。
图1.全景视频
在参与VR相关标准制定的过程中,徐迈副教授认为,当前的标准主要分为两个方向---球面映射和用户体验,因此,一直带领团队致力于提升用户体验和解决相关实际问题。高分辨率视频的处理需要消耗大量的计算资源和通信带宽,而由于VR头盔自身计算能力和无线传输带宽的限制。如何在保持视频质量不变的前提下,减少处理和传输的数据规模,提升用户体验,就成为了当前全景视频及VR研究的重点问题。针对这一问题,徐迈副教授带领他的团队展开了探索。
实验室强项与问题结合
人眼有数十亿的视锥视杆细胞,相当于十多亿像素高清相机,而眼部与大脑之间的神经节细胞仅为数万个,相当于数据传输速率只有8Mbps,这说明说大脑并没有全部处理所有图像数据,而是选择性地处理了一些区域,而这些区域就被称为感知区域。根据人眼工作机理,建立全景视频注意力模型就成为了团队的重要研究工作。
在观看全景视频的时候, 人类通过控制头部运动从而来控制视野范围,进而产生身临其境的交互式沉浸体验。因此,预测头部运动是构建全景视频注意力模型的关键。该论文首次建立了一个全景视频注意力的数据库,获得58名被测者观看76个全景视频序列时的头动及眼动位置。经过四个月的数据清洗和处理,通过对头动数据的追踪,形成每个视频逐帧的热点图。最终,论文首次揭示了人类观看全景视频的视觉机理。
图2.不同算法预测结果对比
在对热点图分析后,团队发现,尽管不同的人观看同一内容时感知区域存在一定差异,但与视频内容依然具有强关联性。基于此,可构建预测模型,预测人类观看全景视频时的头动位置。而这种模型的构建机理,又与强化学习方法有本质上的联系。因此,他们提出一种新型的深度强化学习(DRL)模型,构建智能体模拟人类行为,预测人类观看全景视频时的头部运动。首次提出全景视频视场热点图的生成方法,可离线地预测全景视频视场,并提出一种全景视频的在线生成方法,可在线实时预测全景视频视场。最后,实验结果验证:与传统算法相比,论文提出的算法所预测视野热点图,CC(和真实结果的相关系数)精度提升超过20%。论文对全景视频的压缩,渲染,感知,有着广泛的应用场景,为提升全景视频用户体验提供了理论支撑。
图3.全景视频视觉注意力模型示意图
图4.对中心偏见取不同标准差和权重系数下预测结果的CC值拟合曲面
本科生科研与不懈探索
此项研究成果完全由三个本科生在徐迈副教授的指导下完成,徐迈副教授对他们有很高的评价:“本科生有较强的研究积极性,同时在齐心协力合作上表现很好,虽然学位上比起其他的投稿人欠缺一些说服力,但最终结果还是好的。”三位同学表示,在他们的首次科研过程中遇到了很多困难,徐迈副教授非常认真负责的帮助他们解决遇到的每一个问题,经常凌晨一两点发出的问题都能迅速的收到详尽的回复和解答;每周都要集体开会讨论进度、所遇到的问题和接下来的方向;在论文第一次收到大修意见后,徐迈副教授鼓励大家继续努力,并且和他们一起对论文进行了数次修改,才最终被接收。
结语:
新思路与新视角会带来新的变革,使用不同于传统信号处理的深度学习和强化学习等多种方法,徐迈副教授和他的团队从新的角度完成了对全景视频视觉注意力模型的构建,实现了全景视频所需计算资源与通信带宽的压缩,为VR大规模实用化提供了非常有利的条件,有很广的应用价值。接下来他们将会继续将研究深入下去,逐步解决在实际应用中所遇到的问题,进一步改善全景视频的用户体验。除了在全景视频领域进行了开创性的研究外,徐迈副教授和他的研究团队也在对包括图像、普通视频的各方面进行着提升用户体验的研究。相信在未来,他们能继续在这个领域取得更多的突破性成果。
该论文得到了国家自然科学基金及北航青年拔尖人才基金的支持。
论文链接:https://ieeexplore.ieee.org/document/8418756/
项目链接: https://github.com/YuhangSong/DHP
文案:曾嘉琪、曹嘉辉
采访:曾嘉琪
设计:杨彦卓
编审:北航门户网站总编总监工作室
投稿:geoos@buaa.edu.cn