【计算机研究与发展】视听相关的多模态概念检测-发表云网

首页 > 期刊 > 计算机研究与发展 > 视听相关的多模态概念检测【正文】

视听相关的多模态概念检测

奠雨洁; 金琴中国人民大学信息学院; 北京100872

多模态信息语义概念视频概念检测视频特征视频语义理解

摘要：随着在线视频应用的流行,互联网上的视频数量快速增长.面对互联网上海量的视频,人们对视频检索的要求也越来越精细化.如何按照合适的语义概念对视频进行组织和管理,从而帮助用户更高效、更准确地获取所需视频,成为亟待解决的问题.在大量的应用场景下,需要声音和视觉同时出现才能确定某个视频事件.因此,提出具有视听信息的多模态概念的检测工作.首先,以名词动词二元组的形式定义多模态概念,其中名词表达了视觉信息,动词表达了听觉信息,且名词和动词具有语义相关性,共同表达语义概念所描述的事件.其次,利用卷积神经网络,以多模态概念的视听相关性为目标训练多模态联合网络,进行端到端的多模态概念检测.实验表明:在多模态概念检测任务上,通过视听相关的联合网络的性能超过了单独的视觉网络和听觉网络.同时,联合网络能够学习到精细化的特征表示,利用该网络提取的视觉特征,在Huawei视频数据集某些特定的类别上超过ImageNet预训练的神经网络特征;联合网络提取的音频特征,在ESC50数据集上,也超过在Youtube8m上训练的神经网络音频特征约5.7%.

简介：《计算机研究与发展》（CN：11-1777/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

文秘咨询投稿咨询

视听相关的多模态概念检测

相关期刊

期刊推荐

订购杂志

文秘咨询