近日,我院几何计算与智能媒体技术研究所以智能视觉感知为切入点,在高效低光图像增强、高鲁棒图像拼接、高质量深度图像复原、高精度三维目标检测方面取得四项科研成果,被CVPR 2021 (IEEE Conference on Computer Vision and Pattern Recognition)录用,录用率仅为23.71%(1663/7015)。CVPR是CCF推荐A类会议,谷歌2020学术影响力榜单显示,CVPR在工程和计算机科学类榜单所有期刊/会议中排名第1。目前以上部分成果已被应用于团队所做的无人驾驶立体视觉感知设备和水下目标抓取机器人等系统。
我院刘日升教授、博士研究生马龙、硕士研究生张嘉奥、樊鑫教授与罗钟铉教授共同合作完成的论文“Retinex-inspired Unrolling with Cooperative Prior Architecture Search for Low-light Image Enhancement”提出了一种全新的高效低光图像增强方法,解决了现有方法应用难的问题。该项研究以神经网络结构搜索(NAS)为核心手段,结合团队前期在深度展开优化的技术积累,提出面向真实低光场景的RUAS,其具备多方面的优点,如模型轻量,计算资源消耗少,增强效果佳。首先基于Retinex理论引入先验约束建立低光图像增强模型,并通过展开其优化求解过程以构建整体的网络架构。进一步通过设计一种无参考的协作学习策略,以从自定义的紧致搜索空间中发现面向低光先验的高效深度网络结构。最后,大量评估性与分析性实验充分证明了RUAS相对于其他先进方法的优越性。
我院贾棋副教授、硕士研究生李正军、樊鑫教授、本科生赵浩天、本科生滕世宇、叶昕辰副教授、美国天普大学Longin Jan Latecki教授共同合作完成的论文“Leveraging Line-point Consistence to Preserve Structures for Wide Parallax Image Stitching”实现了在拼接过程中同时保持局部与全局几何结构,克服了图像拼接过程中导致的伪影及失真现象。该项研究通过对图像的共面局部子区域进行匹配得到具有一致关联的点线特征对,进而估计图像之间的最优配准变换,从而消除拼接重叠区图像的伪影。另外,考虑到人眼对直线结构的敏锐感知力,该研究针对拼接结果的直线匹配程度及共线性,提出一种更为全面的图像拼接质量衡量方法,并将全局直线约束引入网格能量函数,在维持直线结构的同时实现对非重叠区域的失真保护。在诸多数据集的实验测试中,该研究在定量和定性分析方面都优于现有的图像拼接方法。
我院硕士研究生孙宝利、叶昕辰副教授、李豪杰教授、王智慧教授、徐睿副教授及百度研究院科学家Baopu Li共同合作完成的论文“Learning Scene Structure Guidance via Cross-Task Knowledge Transfer for Single Depth Super-Resolution”提出了基于跨任务知识迁移的深度图像复原方法,突破现有基于彩色指导的场景深度复原方法的局限性,即在训练及测试阶段同时需要高分辨率彩色图像和降质深度图像作为网络输入来估计高质量深度图像(在实际测试环境中,同视角的高分辨率彩色辅助信息并不容易获得),解决了深度传感系统获取的场景深度图像分辨率低和细节丢失等问题。该项研究通过在训练阶段从彩色图像蒸馏出场景结构信息来辅助提升深度复原性能,而测试阶段仅提供单张降质深度图像作为输入即可实现深度图像重建。该算法框架同时构造了深度估计任务(彩色图像为输入估计深度信息)及深度复原任务(低质量深度为输入估计高质量深度),并提出了基于师生角色交换的跨任务知识蒸馏策略以及不确定度引导的结构正则化学习来实现双边知识迁移,通过协同训练两个任务来提升深度复原任务的性能。大量的实验表明,在实际部署和测试中,该方法模型更轻量,算法速度更快,且在缺少高分辨率彩色信息辅助的情况下可以获得更优的性能。
我院李豪杰教授及悉尼大学博士研究生马新柱(我院硕士毕业生)、张胤民(我院本科毕业生)、欧阳万里副教授等人共同合作完成的论文“Delving into Localization Errors for Monocular 3D Object Detection”通过解构三维目标并逐步替换预测元素的方法对基于图像的三维目标检测误差来源展开了深入分析,并进一步从样本标注,损失函数,样本权重方面分别提出改进方法,解决了现有三维目标检测算法的精度与鲁棒性的关键技术瓶颈。该研究首先发现了三维目标标注在二维图像平面的投影与二维标注不匹配的现象,且通过替换训练标注消除这一不匹配问题,进而提升定位精度。其次,该研究提出了一种新的面向基于单目图像的三维目标检测损失函数,能够隔离深度估计不准确这一问题对其他预测量的影响。最后,该研究还对训练样本进行深入分析,发现存在一些过于困难的样本无法应用于模型训练过程,通过移除此部分样本(或者降低改部分样本权重)能够提升整个算法的检测精度和鲁棒性。
相关介绍:
几何计算与智能媒体技术研究团队隶属于皇冠体育·(中国)官方网站皇冠体育·(中国)官方网站,与立命馆大学合作建立健康医疗智能计算联合研究中心。研究课题包括机器学习、深度学习、计算机视觉、多媒体技术、优化方法等当前最前沿的领域,及其在医疗和健康领域中的应用。近年来在IEEE TPAMI、TIP、TNNLS、TMM、NeurIPS、IJCAI、AAAI、CVPR、ECCV、ACM MM等人工智能、多媒体技术等多领域的重要期刊及会议上发表论文达100余篇。近一年来针对可学习优化的理论及应用研究已发表顶级会议和期刊(包括NeurIPS, AAAI, IJCAI, ACM MM, TIP, TNNLS等)论文30余篇。研究所在科学研究的基础上,还面向国家重大战略需求,如开展全天候车载多波段立体视觉感知单元研发,在重大项目实物竞标中取得第一名;开展水下目标抓取机器人研发,在水下目标自主抓取中取得突破等。
责任编辑:潘树孟