《跨模态图文检索场景下一种新颖的分层对齐方案研究》作者：孙文乐，邹俊伟【PDF】

书呆熊 · 发表于 2025-7-25 00:38

跨模态图文检索场景下一种新颖的分层对齐方案研究
孙文乐，邹俊伟
（北京邮电大学电子工程学院，北京，100876）
摘要：图像文本检索是多模态信息检索领域的核心任务之一旨在解决图文之间的有效信息关联。众所周知，跨模态图文检索的关键是将图像、文本编码器抽取出的特征信息放入公共特征空间中融合。然而，来自不同模态之间的细粒度交互还未能系统地建立，如部分现有方法仅将两个编码器最后一层的输出直接融合，还有的选择两种模态间多次信息融合使得模型结构冗余。为了解决该问题，本文提出了一个多层次的高效信息交互模型。首先分析了文本与图像的特征结构并选择合适的向量编码器。然后将两种模态的全局信息与局部信息按照一定规则抽出，进行同粒度特征对齐，运用提出的多重注意力融合机制模块匹配图文对，很好地弥合了异构数据的语义鸿沟问题。最终为了评估本文方案的可行性，在MSCOCO、Flickr3OK等基准数据集上进行了大量实验，最终结果证明了本文算法的优秀性能。
关键词：跨模态图文检索；模态融合；特征分层对齐；对比学习
中图分类号：TP18

		自动登录	找回密码
密码			立即注册

[论文] 《跨模态图文检索场景下一种新颖的分层对齐方案研究》作者：孙文乐，邹俊伟【PDF】

本帖子中包含更多资源

评分

浏览过的版块

爱心会员勋章

重建论坛爱心会员勋章

重建论坛勋章

版主勋章

分区版主勋章