首页  科学研究  科研成果  成果展示 | 新闻详情

基于模态特定和共享生产对抗网络的跨模态检索方法

来源:自动化科研   发布时间:2024-10-29

成果名称

基于模态特定和共享生产对抗网络的跨模态检索方法

成果联系人

吴飞

职称

副教授

所在单位

3200威尼斯vip、3200威尼斯vip

联系电话


Email

wufei_8888@126.com

技术成熟度

基本原理

技术分类

信息应用

核心专利号

 

所属学科方向

一级学科

计算机科学与技术

二级学科

计算机应用技术

应用行业

互联网

项目概况:

 

2020年下半年互联网网络信息中心发表的第46次《中国互联网络发展状况统计报告》可知:2020年的上半年我国网民规模达9.4亿,互联网普及率达到67%,当今社会已经全面进入了大数据时代。电商直播、短视频软件以及新闻网站等每时每刻都在产生海量的数据,这些数据通常具有数据量大、数据源广泛、数据增长速度快、数据模态种类多等特点。以互联网新闻为例,通常包括文字介绍,照片,视频和音频的报道。文本、图像、视频、音频等多模态数据虽然数据形式不同,但反映的是同一信息,人们可以从多个角度去高效地获取同一信息的多个不同方面。

随着数据量的增大,用户获取这些多模态信息的成本也在增加,信息检索受到越来越多人的关注。用户不仅仅需要单一模态数据之间地检索,检索需要更加灵活多变,例如从文本模态去检索视频模态的数据。跨模态检索指的是输入任意一种模态的查询数据,检索并输出与被查询数据语义相关联的其它模态的数据,更加符合大数据时代的要求。

说明:C:\Users\fei\AppData\Roaming\Tencent\Users\854017689\QQ\WinTemp\RichOle\ZJ89J47SA`1]~2{M)39%R1J.png

1. 图像-文本跨模态检索示意图

 

 

关键技术:

 

现有跨模态检索方法大多侧重于模态共享信息的挖掘,将不同模态的数据映射到一个公共空间中,以获得公共的表示,而没有考虑模态特定信息的挖掘和利用。针对该问题,本研究团队提出了一种新的跨模态检索方法,即模态特定和共享生成对抗网络。该项工作的意义在于:(a)采用两个前馈网络学习每个模态的模态特定特征,然后使用一个公共子网络学习模态共享特征。学习的模态特定特征表示与共享特征表示相结合以进行检索。(b)网络训练采用对抗学习机制。生成模型用标签信息对模态间和模态内的相似性进行建模,并确保特定和共享特征之间的差异;判别模型对模态共享特征的模态属性进行分类,以提升模态不变性。(c)在多个公开的多模态数据集上的实验结果(检索精度)表明,该方法的性能优于相关的研究工作。该项成果发表Pattern Recognition期刊。

说明:C:\Users\fei\AppData\Roaming\Tencent\Users\854017689\QQ\WinTemp\RichOle\O%}9(4GOZC[T%%UTI6KAE]A.png

2. 模态特定和共享生成对抗网络架构图

 

 

应用领域和市场前景:

随着互联网多模态数据的大量出现和传播,“管不住”和“用不好”两大问题也日益突出。“管不住”是指多模态大数据中隐藏着大量涉恐、涉暴等有害信息,极大地危害着国家安全和社会稳定,目前还缺乏有效的自动的分析与识别技术。“用不好”是指现有技术主要是单模态分析与识别,仅针对信息有限的单模态数据,难以对多模态数据进行有效利用。如何让计算机看懂世界,实现对互联网多模态大数据的有效监管与利用,是目前急需解决的重大问题。所设计模型能够有效提升跨模态检索精度,可用于涉及多媒体计算的多种应用场景。

 

合作方式(技术转让,技术开发,技术服务,技术咨询,技术入股):

 

技术开发

技术服务


联系我们
地址:南京市亚东新城区文苑路9号
邮编:210023
电话:025-85866506
传真:025-85866504
院长信箱:zdh@njupt.edu.cn
书记信箱:ai@njupt.edu.cn

版权所有©3200威尼斯vip(集团)有限公司