基于CLIP 的多模态视频文本检索系统
作者 叶柯 陈相余 麻福旦
发表于 2023年8月

摘 要:计算机视觉(Computer Vision,CV)与自然语言处理(Natural Language Processing,NLP)技术已逐渐趋于成熟,结合视觉和语言的多模态领域技术将成为学界和业界的研究热点。文章使用CLIP 预训练模型,结合图像与语言两种模态信息,进一步将图像拓展至视频,利用 Fmpeg 处理视频,并对视频与文本信息进行嵌入(embedding)和余弦相似度匹配,从而实现利用纯文本检索视频中符合该文本语义的片段。

关键词:多模态;CLIP;FFmpeg 处理;文本检索视频

中图法分类号:TP311文献标识码:A

1 引言

随着社交媒体和视频分享平台的迅猛发展,人们每天都生产大量的视频内容,这些视频包含丰富的视觉信息。然而,要从庞大的视频库中检索到与特定文本语义相关的片段却变得愈发具有挑战性,除了用人眼进行人工检索这种费时费力的解决方案外,传统的基于文本的检索方法难以充分利用视频中的视觉信息,而基于视觉的方法又难以理解文本语义。因此,将视觉和语言进行融合的多模态技术成为解决这一难题的关键。

综上所述,高效可用的多模态视频文本检索具有广泛的应用前景和重要的实际意义,可以为大规模视频内容的管理和组织提供强有力的工具。

2 发展现状

近年来, 深度学习和预训练模型快速发展,Zhang[1] 总结了视频文本定位任务的基本概念和当前的研究现状,并对主流的解决方案进行了分类。主流视频文本检索方案如图1 所示。

目前,视频文本定位方案通常需要经过训练,以便模型能够学会正确地定位视频中的文本。例如,Gao[2] 第一次提出了视频文本定位的范式,利用滑动窗口的方式截取视频片段并与标签进行匹配,随后Yuan[3] 去掉了滑动窗口算法,引入attention,Zhan 在VSLNet[4] 中引入了query⁃guide⁃highlight 机制,进一步提升了检索精度;为了训练这样的模型,其采用了使用标注的start 和end 标签来指示文本在视频中的位置。在标注数据集时,标注人员根据视频中出现的文本内容和时间点,手动标注出文本的起始位置和结束位置。基于此,在训练过程中模型可以通过学习这些标签来理解文本在视频中的位置关系。

然而,这种训练方式往往导致模型的泛化性较差,即在面对新的、未见过的视频场景时,模型无法准确地进行文本定位。并且训练过程产生的成本通常较高,故期望能够采用无监督的方式进行视频文本定位,不仅可以保证更好的鲁棒性,而且更能节省人工标注等数据及相关的训练成本。

本文刊登于《计算机应用文摘》2023年15期
龙源期刊网正版版权
更多文章来自
订阅