专利 一种基于场景片段和多模态特征增强的短视频分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221019621 1.1 (22)申请日 2022.03.01 (71)申请人东北大学地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人孔灿灿　张博　朱志良　于海　张伟　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师李在川 (51)Int.Cl. G06F 16/75(2019.01) G06F 16/78(2019.01) G06F 16/783(2019.01) G06V 10/762(2022.01)G06V 10/764(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06V 20/40(2022.01) (54)发明名称一种基于场景片段和多模态特征增强的短视频分类方法 (57)摘要本发明提供一种基于场景片段和多模态特征增强的短视频分类方法，涉及短视频分类技术领域；抓取短视频平台的短视频及其附加信息，对短视频数据进行标注以构建一个短视频数据集；将视频按照场景分割成多个场景片段，并提取出每个场景片段中的多模态信息，包括关键帧、音频和字幕；利用预训练的深度学习模型提取出各个模态特征；动态选择出短视频多个场景片段的同一类型模态中的信息密集型特征和信息稀疏型特征，并利用前者来增强后者语义，通过与原始特征连接获得视频粒度上增强后的模态特征；将视觉模态作为主导模态，其他模态作为辅助模态，将辅助模态中的特有性特征与主导模态连接，得到短视频分类结果。权利要求书4页说明书9页附图2页 CN 114741556 A 2022.07.12 CN 114741556 A 1.一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，具体包括以下步骤：步骤1：爬取短视频平台的短视频及其附加信息，构建一个短视频数据集；附加信息包括视频描述、标签、视频时长、播放次数；步骤2：将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段，并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态；步骤3：利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量，并统一保存到一个h5文件中；预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器；步骤4：对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征，并利用信息密集型特征来增强信息稀疏型特征语义；将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征，连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征；步骤5：将视频粒度上的视觉模态特征向量作为主导模态，视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态，计算主导模态与辅助模态之间的关联性，获得辅助模态中与主导模态关联性不大的特有性分数向量，将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类，从而得到短视频分类结果。 2.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤1具体为：步骤1.1：选取短视频平台上一些粉丝数量较多的用户作为种子用户，爬取种子用户的粉丝列表的视频相关信息，包括视频描述、标签、视频时长、播放次数信息；步骤1.2：对步骤1.1得到的视频相关信息中的标签提取特征，使用聚类算法K ‑means进行聚类，把越相似的标签聚成一簇；步骤1.3：根据步骤1.2聚类得到的一些簇，人工定义每个簇所属类别，称之为类别关键词，如美食、萌宠、美妆；步骤1.4：在短视频平台上搜索处输入步骤1.3的类别关键词，爬取搜索出的短视频及其附加信息，构建一个短视频数据集。 3.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤2具体为：步骤2.1：使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段，并保存分割时产生的关键帧图片作为视觉模态；步骤2.2：使用开源视频分割工具从每个场景片段中分离出音频文件，作为声音模态；步骤2.3：使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息，作为字幕模态。 4.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤3具体为：步骤3.1：使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征，然后对每个权　利　要　求　书 1/4 页 2 CN 114741556 A 2场景片段的所有关键帧采用最大池化策略，最终为每个场景片段生成一个视觉模态特征向量；步骤3.2：使用预训练的声音模态特征提取器来提取声音特征；然后对音频文件的特征采取最大池化，最终为每个场景片段生成一个声音模态特征向量；步骤3.3：将每个场景片段的关键帧中的字幕连接成一个句子，然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量；步骤3.4：将视觉、声音、字幕模态特征向量与该视频对应的类别保存到 h5文件中。 5.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤4具体为：步骤4.1：根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示：其中，和分别表示第j个场景片段的模态m的原始特征向量、高级语义特征向量、激活函数和可训练的权重矩阵， m∈{v,a,s}分别表示视觉模态、声音模态和字幕模态；步骤4.2：从多个场景片段的同一类型模态中，动态选择出信息密集型特征和信息稀疏性特征，所述的同一类型模态是指同为视觉模态或声音模态或字幕模态；步骤4.3：计算信息密集型特征与信息稀疏型特征之间的欧式距离计算所有信息密集型与信息稀疏型特征的欧式距离之和loss，将其作为损失函数，使信息稀疏型特征向信息密集型特征靠近，实现利用信息密集型特征增强信息稀疏型特征的语义；步骤4.4：根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征。 6.根据权利要求5所述的一种基于场景片段和多模态特征增强的短视频分类方法，其特征在于，所述步骤4.2具体为：步骤4.2.1：初始化可学习的权重矩阵 C表示类别数量， Dm表示模态m的特征维度，计算多个场景片段的同一类型模态对应的权重矩阵的分数大小，所述同一类型模态是指视觉模态或声音模态或字幕模态；其中， Q[α, β ]表示矩阵Q中第α 行第β 列的权重值，表示第j个场景片段的模态m 的权重矩阵的分数；步骤4.2.2：计算多个场景片段的同一类型模态的分数最大的权重矩阵，表示为Z，该权重矩阵对应的特征为信息密集型的场景片段模态特征，表示为其他场景片段的该模态权　利　要　求　书 2/4 页 3 CN 114741556 A 3

专利 一种基于场景片段和多模态特征增强的短视频分类方法

专利一种基于场景片段和多模态特征增强的短视频分类方法