(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221019621 1.1
(22)申请日 2022.03.01
(71)申请人 东北大学
地址 110819 辽宁省沈阳市和平区文化路3
号巷11号
(72)发明人 孔灿灿 张博 朱志良 于海
张伟
(74)专利代理 机构 沈阳东大知识产权代理有限
公司 21109
专利代理师 李在川
(51)Int.Cl.
G06F 16/75(2019.01)
G06F 16/78(2019.01)
G06F 16/783(2019.01)
G06V 10/762(2022.01)G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
G06V 20/40(2022.01)
(54)发明名称
一种基于场景片段和多模态特征增强的短
视频分类方法
(57)摘要
本发明提供一种基于场景片段和多模态特
征增强的短视频分类方法, 涉及短视频分类技术
领域; 抓取短视频平台的短视频及其附加信息,
对短视频数据进行标注以构建一个短视频数据
集; 将视频按照场景分割成多个场景片段, 并提
取出每个场景片段中的多模态信息, 包括关键
帧、 音频和字幕; 利用预训练的深度学习模型提
取出各个模态特征; 动态选择出短视频多个场景
片段的同一类型模态中的信息密集型特征和信
息稀疏型特征, 并利用前者来增强后者语义, 通
过与原始特征连接获得视频粒度上增强后的模
态特征; 将视觉模态作为主导模态, 其他模态作
为辅助模态, 将辅助模态中的特有性特征与主导
模态连接, 得到短视频分类结果。
权利要求书4页 说明书9页 附图2页
CN 114741556 A
2022.07.12
CN 114741556 A
1.一种基于场景片段和多模态特征增强的短视频分类方法, 其特征在于, 具体包括以
下步骤:
步骤1: 爬取短视频平台的短视频及其附加信息, 构建一个短视频数据集; 附加信息包
括视频描述、 标签、 视频时长、 播 放次数;
步骤2: 将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,
并提取出每个场景片段中的关键帧、 音频和字幕分别作为视 觉模态、 声 音模态和字幕 模态;
步骤3: 利用预训练的深度学习模型分别对步骤2得到的视觉模态、 声音模态和字幕模
态提取特征向量, 并统一保存到一个h5文件中; 预训练的深度学习模 型包括预训练的视觉、
声音、 文本模态特 征提取器;
步骤4: 对多个场景片段中的视觉模态、 声音模态和字幕模态分别动态选择出信 息密集
型特征和信息稀疏型特征, 并利用信息密集型特征来增强信息稀疏型特征语义; 将步骤3中
提取的视觉、 声音、 字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输
入到两层神经网络中学习更具有表达能力的视觉、 声音、 字幕模态特征, 连接多个场景片段
中更具有表达能力的特 征获得视频 粒度上增强后的视 觉模态、 声 音模态和字幕 模态特征;
步骤5: 将视频粒度 上的视觉模态特征向量作为主导模态, 视频粒度 上的声音模态特征
向量和字幕模态特征向量作为辅助模态, 计算主导模态与辅助模态之间的关联性, 获得辅
助模态中与主导模态关联性不大的特有性分数向量, 将辅助模态中的特有性分数向量作为
主导模态的互补信息与主导模态连接成该视频 的最终多模态融合特征向量进行短视频分
类, 从而得到短视频分类结果。
2.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法, 其
特征在于, 所述 步骤1具体为:
步骤1.1: 选取短视频平台上一些粉丝数量较多的用户作为种子用户, 爬取种子用户的
粉丝列表的视频相关信息, 包括视频描述、 标签、 视频时长、 播 放次数信息;
步骤1.2: 对步骤1.1得到的视频相关信息中的标签提取特征, 使用聚类算法K ‑means进
行聚类, 把越相似的标签聚成一簇;
步骤1.3: 根据步骤1.2聚类得到的一些簇, 人工定义每个簇所属类别, 称之为类别关键
词, 如美食、 萌 宠、 美妆;
步骤1.4: 在短视频平台上搜索处输入步骤1.3的类别关键词, 爬取搜索出的短视频及
其附加信息, 构建一个短视频 数据集。
3.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法, 其
特征在于, 所述 步骤2具体为:
步骤2.1: 使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多
个场景片段, 并保存分割时产生的关键帧图片作为视 觉模态;
步骤2.2: 使用开源视频分割工具从每 个场景片段中分离出音频文件, 作为声 音模态;
步骤2.3: 使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息, 作 为字
幕模态。
4.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法, 其
特征在于, 所述 步骤3具体为:
步骤3.1: 使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征, 然后对每个权 利 要 求 书 1/4 页
2
CN 114741556 A
2场景片段的所有关键帧采用最大池化策略, 最终为每个场景片段生成一个视觉模态特征向
量;
步骤3.2: 使用预训练的声音模态特征提取器来提取声音特征; 然后对音频文件的特征
采取最大池化, 最终为每 个场景片段生成一个声 音模态特 征向量;
步骤3.3: 将每个场景片段的关键帧中的字幕连接成一个句子, 然后使用预训练的文本
特征提取器为从每 个场景片段中的字幕信息生成一个字幕 模态特征向量;
步骤3.4: 将视 觉、 声音、 字幕模态特征向量与该视频对应的类别保存到 h5文件中。
5.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法, 其
特征在于, 所述 步骤4具体为:
步骤4.1: 根据步骤3中提取的视觉模态、 声音模态和字幕模态的特征向量分别经过非
线性变换获得其高级语义表示:
其中,
和
分别表示第j个场景片段的模态m的原始特征向量、 高级语
义特征向量、 激活函数和可训练的权重矩阵, m∈{v,a,s}分别表 示视觉模态、 声音模态和字
幕模态;
步骤4.2: 从多个场景片段的同一类型模态中, 动态选择出信息密集型特征和信息稀疏
性特征, 所述的同一类型模态是指同为视 觉模态或声 音模态或字幕 模态;
步骤4.3: 计算信息密集型特征与信息稀疏型特征之 间的欧式距离
计算所有信息密
集型与信息稀疏型特征的欧式距离之和loss, 将其作为损失函数, 使信息稀疏型特征向信
息密集型 特征靠近, 实现利用信息密集型 特征增强信息稀疏 型特征的语义;
步骤4.4: 根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒
度上增强后的模态特 征。
6.根据权利要求5所述的一种基于场景片段和多模态特征增强的短视频分类方法, 其
特征在于, 所述 步骤4.2具体为:
步骤4.2.1: 初始化可学习的权重矩阵
C表示类别数量, Dm表示模态m的特征
维度, 计算多个场景片段 的同一类型模态对应的权重矩阵的分数大小, 所述同一类型模态
是指视觉模态或声 音模态或字幕 模态;
其中, Q[α, β ]表示矩阵Q中第α 行第β 列的权重值,
表示第j个场景片段的模态m 的
权重矩阵的分数;
步骤4.2.2: 计算多个场景片段的同一类型模态的分数最大的权重矩阵, 表示为Z, 该权
重矩阵对应的特征为信息密集型的场景片段模态特征, 表示为
其他场景片段的该模态权 利 要 求 书 2/4 页
3
CN 114741556 A
3
专利 一种基于场景片段和多模态特征增强的短视频分类方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:16:27上传分享