阡陌居

 找回密码
 立即注册
搜索
热搜: 新人报到
查看: 5|回复: 0

[论文] 《跨模态图文检索场景下一种新颖的分层对齐方案研究》作者:孙文乐,邹俊伟【PDF】

[复制链接]

用户组:分区版主

我,秦始皇,打钱

爱心会员勋章重建论坛爱心会员勋章重建论坛勋章版主勋章分区版主勋章

      UID
51
      积分
21110
      回帖
1377
      主题
2163
      发书数
757
      威望
16183
      铜币
85196
      贡献
2400
      阅读权限
100
      注册时间
2025-2-27
      在线时间
3914 小时
      最后登录
2025-12-17
发表于 2025-7-25 00:38 | 显示全部楼层 |阅读模式
跨模态图文检索场景下一种新颖的分层对齐方案研究
孙文乐,邹俊伟
(北京邮电大学电子工程学院,北京,100876)
摘要:图像文本检索是多模态信息检索领域的核心任务之一旨在解决图文之间的有效信息关联。众所周知,跨模态图文检索的关键是将图像、文本编码器抽取出的特征信息放入公共特征空间中融合。然而,来自不同模态之间的细粒度交互还未能系统地建立,如部分现有方法仅将两个编码器最后一层的输出直接融合,还有的选择两种模态间多次信息融合使得模型结构冗余。为了解决该问题,本文提出了一个多层次的高效信息交互模型。首先分析了文本与图像的特征结构并选择合适的向量编码器。然后将两种模态的全局信息与局部信息按照一定规则抽出,进行同粒度特征对齐,运用提出的多重注意力融合机制模块匹配图文对,很好地弥合了异构数据的语义鸿沟问题。最终为了评估本文方案的可行性,在MSCOCO、Flickr3OK等基准数据集上进行了大量实验,最终结果证明了本文算法的优秀性能。
关键词:跨模态图文检索;模态融合;特征分层对齐;对比学习
中图分类号:TP18




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

评分

参与人数 1威望 +1 铜币 +2 收起 理由
飞乌与渔 + 1 + 2 论坛有您更精彩!

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2025-12-17 16:26 , Processed in 0.080640 second(s), 30 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表