近日,我院计算几何与智能媒体技术研究团队在多源图像融合领域取得科研新成果。此项研究面向国家重大需求,基于多源图像的成像方式和真实环境的干扰因素,设计出了高效、鲁棒、精准的红外可见光图像融合算法,有助于辅助无人系统在恶劣工作环境下的高效持续感知。
研究成果“Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion”由皇冠体育·(中国)官方网站本科生黄展搏、软件学院博士研究生刘晋源、樊鑫教授、刘日升教授、仲维副教授、罗钟铉教授共同合作完成。
近些年,随着国家“高精尖”硬件制造业的快速发展,多模态传感器成像通过结合中波红外成像与可见光图像中的互补信息,可以生成比单一模态具有更高信息熵的融合图片,正在逐渐成为计算机视觉系统的重要基石。此种融合图像在视觉上更具有吸引力,更重要的是可以大幅度提升监控、自动驾驶等后续实际应用的精准度和全时段可用性。此前的图像融合算法面向像素级配准图像构建、存在大量冗余参数,造成算法鲁棒性差、计算时间长。实际工作环境中,非同步多源传感器成像通常含有轻微错位、成像畸变等误差,且目标跟踪等部分高级视觉任务对融合运算速度具有较高要求。该项研究针对此类问题,构建了一种图像矫正与融合的高效联合框架。该框架“去伪存真”利用逐次迭代消除多源图像间成像差异、削弱成像畸变,充分利用现代图形计算单元进行并行计算,高效地利用实际场景中含有误差的多模态图像对进行融合,为人机交互与智能自主作业提供了精准的连续感知。该研究方法所生成的融合结果不但在人眼观感上领先,且在多种计算机视觉感知任务结果中,定量测试指标较现有最先进的方法有显著提升。研究成果链接:https://github.com/dlut-dimt/reconet
图表1:框架流程图及定性、定量分析结果
相关成果已被计算机视觉重要学术会议ECCV 2022接收。会议论文集由Springer出版,欧洲计算机视觉大会(European Conference on Computer Vision)创办于1990年,在世界范围内每两年召开一次,是计算机视觉领域的国际旗舰会议,与计算机视觉模式识别会议(CVPR)和国际计算机视觉大会(ICCV)并称计算机视觉方向的三大顶级会议,在业内具有极高的影响力。
近年来,作为我校26个“三早”试点工作坊之一,几何计算与智能媒体技术团队致力于推动本科生早进课题、早进实验室、早进研究团队,在科研实验中不断培育创新型人才。同时,皇冠体育·(中国)官方网站设有支持“三早”奖助学金政策,现有70余名本科生参与课题研究。黄展搏同学此次的成果也是学院推进'三早'人才培养创新模式的体现。
我院几何计算与智能媒体技术研究团队与立命馆大学合作建立健康医疗智能计算联合研究中心,研究课题包括机器学习、深度学习、计算机视觉、多媒体技术、优化方法等当前最前沿的领域,及其在医疗和健康领域中的应用。近年来,在IEEE TPAMI、TIP、NeurIPS、CVPR、ECCV、IJCAI、AAAI、ACM MM等人工智能、多媒体技术等多领域的重要期刊及会议上发表论文达100余篇。团队也一直致力于面向国家重大需求,加强关键共性技术研究,已经在全天候车载多波段立体视觉感知单元、水下目标自主抓取机器人等应用研发方面取得突破。
责任编辑:潘树孟