皇冠体育·(中国)官方网站-最新App Store

近日，我院几何计算与智能媒体技术研究所取得系列研究成果，8项研究成果被ACM MultimediaConference 2023录用。ACM MM（国际多媒体会议）是多媒体领域的顶级会议，也是中国计算机学会推荐的A类国际学术会议。

研究成果“Fearless Luminance Adaptation: a Macro-Micro-Hierarchical Transformer for Exposure Correction”由大三本科生李戈辉、刘晋源博士、马龙博士、博士研究生姜智颖、樊鑫教授和刘日升教授（通讯作者）合作完成。此项研究创新提出了一种基于多尺度注意力的对比学习架构，以解决曝光矫正后结果的细节与颜色失真严重的问题。在曝光矫正、低光增强、低光人脸检测和低光语义分割等多个任务的实验表明，该架构可以提供色彩丰富的与曝光一致的曝光矫正结果，并为上下游任务都提供了一个良好的解决方案。

研究成果“WaterFlow: Heuristic Normalizing Flow for Underwater Image Enhancement and Beyond”由硕士研究生张曾翕、博士研究生姜智颖、刘晋源博士、樊鑫教授、刘日升教授(通讯作者)合作完成。此项研究致力于平衡视觉与应用的需求，在改善水下图像视觉质量的同时，隐式的提取图像的感知信息，从而提升检测任务性能。

研究成果“Bilevel Generative Learning for Low-Light Vision”由硕士研究生刘英池、博士研究生刘铸、马龙博士、刘晋源博士、樊鑫教授与刘日升教授（通讯作者）共同合作完成。此项研究引入RAW域数据生成模块来连接多种低光视觉任务，解决了现有方法在RGB域图像信息受损和复杂场景建模的核心挑战，进而提出高效计算与高精度求解的双层学习策略，在低光图像增强、夜间目标检测与语义分割等任务性能显著提升。

研究成果“PEARL: Preprocessing Enhanced Adversarial Robust Learning of Image Deraining for Semantic Segmentation”由硕士研究生焦翔昊、博士研究生刘耀华、博士研究生高嘉馨、硕士研究生褚鑫源、樊鑫教授、刘日升教授（通讯作者）共同合作完成。此项研究首次尝试同时处理针对语义分割任务的自然因素（如雨线）、人为因素（如对抗攻击）不同类型降质因素，提出了预处理增强对抗鲁棒学习训练框架框架，提升了分割模型在真实恶劣场景下的性能鲁棒性。代码已开源在https://github.com/JiaoXianghao/PEARL。

研究成果“PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant Semantic Segmentation”由博士研究生刘铸、刘晋源博士、硕士研究生张本壮、马龙博士、樊鑫教授与刘日升教授（通讯作者）共同合作完成。此项研究提出了一种面向语义感知的红外可见光融合方法，用来提高在对抗攻击场景下的鲁棒性。通过鲁棒网络结构搜索与自适应学习策略从网络结构与参数学习两方面综合设计解决方案，实现语义分割性能15.3%的显著提升。代码链接https://github.com/LiuZhu-CV/PAIF。

研究成果“Multi-Spectral Image Stitching via Spatial Graph Reasoning”由博士研究生姜智颖、硕士研究生张曾翕、刘晋源博士、樊鑫教授和刘日升教授（通讯作者）合作完成。此项研究首次提出了一种基于空间图推理的多光谱图像拼接方法，利用图卷积网络（GCN）在建模特征关系方面的优势有效实现不同视角下多光谱图像的变形和融合。该项研究还提出了一个大视差多光谱图像拼接数据集ChaMS，为该任务的性能评估提供了新的选择。该工作代码已开源：https://github.com/Jzy2017/SGR-MSIS。

研究成果“Exploring Coarse-to-Fine Action Token Localization and Interaction for Fine-grained Video Action Recognition”由孙宝利博士研究生、叶昕辰副教授、王智慧教授(通讯作者)、李豪杰教授、悉尼大学Zhiyong Wang教授合作完成。此项研究聚焦于判别性运动区域定位、细粒度交互和模型压缩，在视频细粒度行为识别任务中实现了高的识别精度和效率。

研究成果“Learning Pixel-wise Alignment for Unsupervised Image Stitching”,由贾棋副教授、刘宇副教授、樊鑫教授、美国天普大学Longin Jan Latecki教授指导博士二年级冯晓美完成。此项研究提出了一种逐像素的图像拼接方法，打破了单应矩阵的共面性约束，产生了更精准的像素级对齐，并在图像拼接任务中的性能指标(RMSE)比现有的方法降低了34.42%。该相关工作已开源至https://github.com/Fengxixiaom/PWANet。

团队介绍：皇冠体育·(中国)官方网站几何计算与智能媒体技术研究团队聚焦无人系统全时多域视觉感知基础理论、关键技术、系统装备研究，近年来在CCF-A类期刊会议发表论文200余篇，8次获得国际权威会议最佳论文奖，授权美国、中国专利100余项，完成多项超百万成果转化，承担国家重大科研仪器研制项目、重点项目、杰青、优青等项目数十项，研制感知装备已在多个行业龙头企业实现应用落地。

供稿：姜智颖

责任编辑：潘树孟

上一条：【科研动态】我院科研团队在医学影像配准领域取得新成果下一条：【科研动态】我院科研团队在多模态图像融合领域取得新成果

【关闭】

首页

学院概况

院务公告

招生就业

学科与科研

师资队伍

教育教学

党群工作

合作交流

校园生活

【科研动态】我院科研团队在多媒体领域取得系列研究成果