近日,我院几何计算与智能媒体技术研究所三项成果被CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition)录用。CVPR是计算机视觉领域最顶级会议。根据谷歌2019学术影响力榜单:CVPR跃升总榜前10,H5-index: 240,在计算机学科所有期刊/会议中排名第1。本届CVPR大会共收到6656篇论文投稿,录用1420篇,录用率仅为22%。
录取论文简介
论文“Discriminative Feature-oriented Gaussian Mixture Model for Fine-grained Image Recognition”由我院王智慧副教授、研究生王世杰和李豪杰教授共同完成。在细粒度图像识别的任务中,如何准确的挑选出细粒度图像间的判别性区域是核心问题之一。该工作发现深度神经网络在深层的特征图上会产生判别性区域扩散问题,增加基于深层特征图准确挑选判别性区域的难度,从而影响图像识别的准确性。针对上述问题,该工作进一步提出了将高斯混合模型嵌入到深度神经网络中的DF-GMM模型。该模型使用高斯混合模型来获得深层特征图的一组低秩的特征表示,然后将低秩的特征表示恢复到原始的坐标空间来得到低秩的特征图,缓解深层特征图上的判别性区域扩散问题。与直接在深层特征图上挑选判别性区域相比,在低秩特征图上挑选的判别性区域将更加准确。实验表明该研究提出的模型在细粒度图像识别准确性和效率方面都达到了目前最优的结果。
论文“A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection”由我院张淼副教授与信息与通信工程学院卢湖川教授团队合作完成。该工作针对现有RGB-D显著性检测方法中存在高计算/内存消耗和在测试时对深度图的依赖问题,设计了一个深度蒸馏器,将网络的预测图及注意力图作为传输深度知识的桥梁。首先,提出一个自适应深度蒸馏策略来自适应地最小化RGB流与深度流预测图之间的差异,该策略可以实现深度知识传输的有效控制。其次,提出一个注意力深度蒸馏策略来促进RGB流与深度流注意力图的一致性,该策略可以将深度图所包含的定位信息有效传输至RGB流的图像特征中。此外,该研究提出的深度蒸馏器可用于大幅提高现有RGB-D模型的大小和速率,提升了其实际应用性。实验证明该研究提出的网络结构在5个RGB-D的数据库取得目前最优的结果,并且与目前最优的RGB-D方法相比,测试速率快12倍,模型大小减少76%。
论文“Select, Supplement and Focus for RGB-D Saliency Detection”由我院张淼副教授与信息与通信工程学院卢湖川教授团队合作完成。该工作针对现有RGB-D显著性检测方法均受到不理想深度样本的负面影响,提供了一个新的解决思路。首先,提出多尺度消融卷积模块,首次从网络深层挖掘显著性边缘细节,并整合到显著性定位特征上。其次,设计了一个新颖的跨模态引导的注意力机制,高效地消除跨模态特征之间的差距,并针对性地从深度模态深入挖掘有效补充信息。此外,对于训练阶段存在的不理想深度样本,不同于以往思路舍弃次优选择,作者提出了一个新的损失函数,引导网络关注困难样本的学习,从RGB模态挖掘显著性相关的有效信息。该方法的引入,使得网络具有更强的泛化能力和鲁棒性。在六个广泛使用的RGB-D数据集上大量实验证明,该方法优于目前最先进的RGB和RGB-D显著性物体检测方法。
相关介绍
几何计算与智能媒体技术研究团队依托于辽宁省泛在网络与服务软件重点实验室。研究课题包括机器学习、深度学习、计算机视觉、多媒体技术、优化方法等当前最前沿的领域。近年来在IEEE TPAMI、TIP、TNNLS、TMM、NeurIPS、IJCAI、AAAI、CVPR、ECCV、ACM MM等人工智能、多媒体技术等多方领域的重要期刊及会议上发表论文达100余篇。