(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210116942.0
(22)申请日 2022.02.08
(65)同一申请的已公布的文献号
申请公布号 CN 114155477 A
(43)申请公布日 2022.03.08
(73)专利权人 成都考拉悠然科技有限公司
地址 610041 四川省成 都市中国(四川)自
由贸易试验区成都高新区天府五街
200号4号楼A区10层1001、 1002、 1003
室
(72)发明人 徐行 蒋寻 沈复民 申恒涛
(74)专利代理 机构 成都弘毅天承知识产权代理
有限公司 5123 0
代理人 朱丹
(51)Int.Cl.
G06F 40/126(2020.01)
G06V 20/40(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06K 9/62(2022.01)
G06F 40/279(2020.01)
(56)对比文件
CN 113934887 A,202 2.01.14
CN 113392864 A,2021.09.14
CN 113723378 A,2021.1 1.30
CN 113939827 A,202 2.01.14
US 20210215 39 A1,2021.01.21
WO 2018104834 A1,2018.0 6.14
薛继伟 等.基 于深度学习的视频检索方法
研究. 《计算机与数字 工程》 .2021,第49卷(第4
期),
王金甲 等.基 于平均教师模型的弱标记半
监督声音事件检测. 《复旦学报 (自然科 学版) 》
.2020,第59卷(第5期),
Ankit P. Shah 等.AUDIO-VISUAL SC ENE-
AWARE DIALO G AND REASON ING USING AUDIO-
VISUAL TRANSFORM ERS WITH JOINT STUDENT-
TEACHER LEARN ING. 《arXiv》 .2021,1- 5.
审查员 黄娟
(54)发明名称
一种基于平均教师模型的半监督视频段落
定位方法
(57)摘要
本发明公开了一种基于平均教师模型的半
监督视频段落定位方法, 涉及 多模态视频理解中
的跨模态内容检索领域, 解决现有视频段落定位
的技术问题, 通过结合对比学习和段落级别的上
下文建模, 本发明较好地实现了视频 ‑文本的粗
粒度模态对齐和多事件的上下文建模, 同时利用
平均教师模 型, 实现了半监督条件 下的视频段落
定位, 有效降低了对标注数据的依赖; 本发明可
用于各种多模态视频理解场合, 如网络视频APP、
智慧安防系统、 大规模视频内容检索等, 可改善
用户软件使用体验, 提高视频、 安防、 社会治理等
相关领域工作人员的工作效率。
权利要求书3页 说明书9页 附图1页
CN 114155477 B
2022.04.29
CN 114155477 B
1.一种基于平均教师模型的半监 督视频段落定位方法, 其特 征在于, 包括以下步骤:
步骤1: 选择训练数据集; 将数据集划分为标注数据和未 标注数据;
步骤2: 加载预训练的3D卷积神经网络的模型参数, 对步骤1中的数据集提取原始视频
特征;
步骤3: 对于步骤1中数据集、 给定自然语言查询段落Q, 其具有lS个句子, 具有lW个单词;
使用GloVe编码, 将各个单词表示 为维度为3 00的词向量、 作为 查询文本编码;
步骤4: 提取一组或多组原始视频特征和查询文本编码、 作为原始数据输入到教师模
型; 复制提取 的一组或多组原始视频特征和查询文本编码, 并使用多模态数据扰动模块向
复制的原始视频特征和查询文本编码、 分别引入噪声, 作为扰动数据再输入到学生模型; 所
述学生模型和教师模型的结构完全一致, 包含一个多层Transformer的编码器和多层
Transformer的解码器;
步骤5: 学生模型和教师模型根据输入的扰动数据、 原始数据, 分别预测段落中描述的
多个视频片段在给定视频中的归一化位置; 预测完成后, 同时启动相互独立的步骤6、 步骤7
和步骤8;
步骤6: 根据教师模型和学生模型的输出, 计算 一致性损失;
步骤7: 根据学生模型中对比编码器的输出, 计算视频 ‑文本的比较损失;
步骤8: 根据学生模型的最终输出, 计算 监督信息损失;
步骤9: 步骤6、 步骤7和步骤8计算完成后, 将一致性损失、 对比损失、 监督损失进行加权
求和, 作为 最终的训练目标, 提供训练准则;
步骤10: 采用Adam优化器, 并使用恒定学习率策略对模型进行训练学生模型; 教师模型
由学生模型使用指数滑动平均策略进行 更新;
所述步骤5更详细地包括, 学生模型的预测过程包括 步骤5.1至步骤5.3;
步骤5.1: 输入的扰动数据包括扰动文本编码E'W, 通过映射函数对扰动文本编码E'W的
每个单词编码进行处理, 得到单词级文本特征FW, 同时将段落拆分为多个句子, 使用两层双
向门控循环单元对每个句子进 行独立的编 码, 并取每个句子的最后一个单词的编 码结果作
为对应的句子级 文本特征Fs;
步骤5.2: 使用由多层transformer构成的编码器分别对单词级文本特征FW和扰动视频
特征F'V进行编码, 并将编码后的两个特 征进行融合, 得到多模态融合特 征Fmen:
步骤5.3: 将句子级文本特征Fs输入到由多层 transformer构成的解码器中, 对编码后的
多模态融合特 征Fmen进行解码, 并使用多层感知机预测每 个事件的归一 化位置:
T=MLP(Ψ(Fmen, Fs))
其中Fs为句子级文本特征, Ψ( ·)为多层transformer构成的解码器, MLP( ·)为多层感
知机, T为 查询段落描述的每 个事件在对应视频中的归一 化位置;
步骤5.4: 教师模型使用未经过多模态数据扰动处理的原始数据作为输入, 按照步骤
5.1、 步骤5.2、 步骤5.3进行计算, 得到预测每 个事件的归一 化位置。
2.根据权利要求1所述的一种基于平均教师模型的半监督视频段落定位方法, 其特征
在于, 还包括验证方式:
步骤11: 使用训练完成的基于平均教师模型的半监督视频段落定位模型中的学生模型
作为测评模型, 对视频和段落文本对进行视频多片段检索, 以验证模型效果。权 利 要 求 书 1/3 页
2
CN 114155477 B
23.根据权利要求1所述的一种基于平均教师模型的半监督视频段落定位方法, 其特征
在于, 所述 步骤4更详细地包括,
假设经3D卷积网络提取后的原始视频特征FV, GloVe编码后的查询文本编码为EW, 多模
态特征扰动模块可以由以下公式表示:
F'V=RandomShift(FV, μ )
E'W=RandomMask(EW, λ )
其中, F'V为扰动后的扰动视频特征、 E'W为扰动后的扰动文本编 码, RandomShift( ·)为
随机时序移位函数, 即在时序通道上, 随机选取一定比例的特征进行错位迁移, μ为通道数
比例; RandomMask( ·)为随机掩码函数, 随机将一部分单词 置为空值, λ是每个单词的置空
概率超参数。
4.根据权利要求1所述的一种基于平均教师模型的半监督视频段落定位方法, 其特征
在于, 所述 步骤6更详细地包括,
使用步骤5中教师模型和学生模型的预测结果计算 一致性损失
其中, N为总事件数, Γ( ·)、 Γ'(·)分别代指学生模型和教师模型, X、 X'分别代指输
入的扰动数据和原特 数据。
5.根据权利要求4所述的一种基于平均教师模型的半监督视频段落定位方法, 其特征
在于, 所述 步骤7更详细地包括,
使用步骤5中学生模型在编码器中得到的单词级文本特征FW和扰动视频特征F'V计算对
比损失
其中,
分别为构造的视频三元组和文本三元组, 用以计算
对比损失;
依次为正样本视频特征、 正样本 单词级文本 特征、 负样本
单词级文本特征、 负样本视频特征;
为三元损失函数。
6.根据权利要求5所述的一种基于平均教师模型的半监督视频段落定位方法, 其特征
在于, 所述 步骤8更详细地包括,
使用步骤5中的学生模型对带标注部分数据的预测结果进行监督学习, 计算监督损 失
其中, Ti、
分别指第i个事件的归一化 预测结果和实际标注, ai、
分别指第i个事件的权 利 要 求 书 2/3 页
3
CN 114155477 B
3
专利 一种基于平均教师模型的半监督视频段落定位方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:16:50上传分享