皇冠体育·(中国)官方网站-最新App Store

近日，我院科研团队在多模态图像融合领域研究新成果被计算机视觉领域顶级会议ICCV 2023录用。研究成果Semantic-guided Multi-interactive Feature Learning for Joint Multi-modal Image Fusion and Scene Parsing由刘晋源博士、刘铸博士研究生、吴冠尧硕士研究生、马龙博士、刘日升教授、仲维副教授、罗钟铉教授、樊鑫教授(通讯作者)合作完成，是几何计算与智能媒体技术研究所团队在该领域的最新研究成果。

现有的融合模型只关注于单一视觉任务，没有针对下游语义感知设计，图像融合与后续感知任务难以统筹兼顾，该团队创新性地提出了语义引导的多交互特征学习架构，利用后续感知与融合任务的相关性提升两者的性能。该架构采用级联结构，包含一个融合子网络与分割子网络，通过精心设计的分层交互注意力模块实现任务之间语义信息的精细映射，从而使模态/语义特征能够充分融合。此外，论文中引入了任务动态权重因子来自动调整每个任务间相应权重，从而平衡交互特征对应关系，避免了超参数繁琐调整。多个数据集上的大量实验表明，提出方法可以生成视觉友好的融合图像，并在语义分割任务中性能指标（mIoU）比现有方法高出7.66%。该相关工作已开源至：https://github.com/JinyuanLiu-CV/SegMiF。

研究团队构还建了一个智能多波段双目成像系统，收集用于融合和分割任务，具有15个注释像素级类别的多模态语义分割数据集。该数据集标注率高达98.16%，包含在不同光照条件下的各种真实驾驶场景，还包括带有雨、雾、强光等特殊情况的挑战场景。所提出的数据集克服了领域现存数据类别较少、注释稀疏和场景单调的问题，用以促进实际的自动驾驶和语义理解任务的发展。

据悉，ICCV(IEEE International Conference on Computer Vision)是计算机视觉领域最顶级会议。根据谷歌2022学术影响力榜单：ICCV跃升总榜前17，H5-index: 239。本届ICCV大会共收到8088篇论文投稿，录用2160篇，录用率仅为26.7%。

团队介绍：皇冠体育·(中国)官方网站几何计算与智能媒体技术研究团队与立命馆大学合作建立健康医疗智能计算联合研究中心，研究课题包括机器学习、深度学习、计算机视觉、多媒体技术、优化方法等当前最前沿的领域，及其在医疗和健康领域中的应用。近年来在IEEE TPAMI、TIP、NeurIPS、CVPR、ECCV、IJCAI、AAAI、ACM MM等人工智能、多媒体技术等多领域的重要期刊及会议上发表论文达100余篇。该团队也一直致力于面向国家重大需求，加强关键共性技术研究，已经在全天候车载多波段立体视觉感知单元，以及水下目标自主抓取机器人等应用研发方面取得突破。

责任编辑：潘树孟

上一条：【科研动态】我院科研团队在多媒体领域取得系列研究成果下一条：【科研动态】我院科研团队在可解释图像生成领域取得新成果

【关闭】

首页

学院概况

院务公告

招生就业

学科与科研

师资队伍

教育教学

党群工作

合作交流

校园生活

【科研动态】我院科研团队在多模态图像融合领域取得新成果