(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210197831.7
(22)申请日 2022.03.02
(65)同一申请的已公布的文献号
申请公布号 CN 114677536 A
(43)申请公布日 2022.06.28
(73)专利权人 北京医准智能科技有限公司
地址 100083 北京市海淀区知春路7号 致真
大厦A座12层1202-120 3号
(72)发明人 李小星 马璐 丁佳 吕晨翀
(74)专利代理 机构 北京乐知新创知识产权代理
事务所(普通 合伙) 11734
专利代理师 兰海叶
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
(56)对比文件
CN 111726621 A,2020.09.2 9
CN 113570689 A,2021.10.2 9
US 202016793 0 A1,2020.0 5.28
审查员 杨莹莹
(54)发明名称
一种基于Tran sformer结构的预训练方法及
装置
(57)摘要
本发明公开了一种基于Tran sformer结构的
预训练方法及装置, 该方法先获取目标对象 的图
像和视频; 针对图像和视频中任一分割区域: 将
分割区域的特征符号作为分割区域的标签; 分别
对图像的部分分割区域和视频的部分分割 区域
进行掩膜处理得到第一训练样本和第二训练样
本; 基于Transformer结构对第一训练样本中掩
膜区域的特征符号进行有监督预测学习得到初
始模型; 之后基于初始模型初始化预训练模型得
到初始预训练模 型; 最后利用初始预训练模型对
第一训练样本和第二训练样本中进行有监督联
合训练得到最终预训练模型。 由此, 使得模型同
时学习到视频数据的空间特征和时间特征, 进而
为下游任务 提供了很好的预训练模型。
权利要求书3页 说明书11页 附图5页
CN 114677536 B
2022.12.16
CN 114677536 B
1.一种基于Transformer结构的预训练方法, 其特 征在于, 包括:
获取目标对象的图像和视频; 其中, 所述图像和所述视频分别被分割成若干分割区域;
针对所述图像和所述视频中任一分割区域: 获取所述分割区域的特征符号, 将所述特
征符号作为所述分割区域的标签;
对所述图像的部分分割区域进行掩膜处理, 得到第一训练样本; 对所述视频的部分分
割区域进行掩膜处 理, 得到第二训练样本;
基于Transformer结构, 对所述第一训练样本中掩膜区域的特征符号进行有监督的预
测学习, 得到初始模 型; 基于所述初始模型的模型参数初始 化预训练模型, 得到初始预训练
模型;
利用所述初始预训练模型, 对所述第 一训练样本中掩膜区域的特征符号进行有监督的
预测学习, 生成第一损失函数;
利用所述初始预训练模型, 对所述第 二训练样本中掩膜区域的特征符号进行有监督的
预测学习, 生成第二损失函数;
对所述第一损失函数和所述第二损失函数进行加权处 理, 得到总损失函数;
迭代调节所述初始预训练模型的模型参数, 当所述总损 失函数趋于最小时, 得到最终
预训练模型。
2.根据权利 要求1所述的方法, 其特征在于, 所述基于Transformer结构, 对所述第一训
练样本中掩膜区域的特 征符号进行有监 督的预测学习, 生成初始模型, 包括:
对所述第一训练样本中所有分割区域进行图像特征提取, 得到第 一训练样本对应的图
像特征;
对所述第一训练样本对应图像特征进行空间上采样处理, 并将空间上采样后特征和所
述第一训练样本对应的图像特 征拼接后经 过线性层进行融合处 理, 得到第一融合特 征;
对所述第一融合特 征进行空间上采样处 理, 得到第一训练样本的最终特 征;
基于所述第一训练样本的最终特征, 利用softmax分类器对掩膜区域中每个分割区域
对应的特 征符号进行有监 督的预测学习, 生成第一损失函数;
当所述第一损失函数趋 于最小时, 对 模型参数进行调节, 生成初始模型。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述第 一训练样本中所有分割区域
进行图像特 征提取, 得到第一训练样本对应的图像特 征, 包括:
针对所述第 一训练样本 中的任一所述分割区域: 利用线性嵌入层对所述分割区域进行
拉伸降维处理; 将拉伸降维处理后特征依次经过两个连续的transformer block, 对 所述分
割区域进行 特征提取, 得到第一特 征;
利用空间下采样层对若干所述第一特 征进行拼接降维处 理, 得到第一图像特 征;
将所述第一图像特征依次经过六个连续的transformer block, 对所述分割区域进行
特征提取, 得到第二特征; 利用空间下采样层 对若干所述第二特征进 行拼接降维处理, 得到
第二图像特 征;
将所述第二图像特征依次经过四个连续的transformer block, 对所述分割区域进行
特征提取, 得到第一训练样本对应的图像特 征。
4.根据权利要求1所述的方法, 其特征在于, 所述利用所述初始预训练模型, 对所述第
二训练样本中掩膜区域的特 征符号进行有监 督的预测学习, 生成第二损失函数, 包括:权 利 要 求 书 1/3 页
2
CN 114677536 B
2对所述第二训练样本进行时间下采样处 理;
对下采样后第 二训练样本 中分割区域进行图像特征提取, 得到第 二训练样本对应的图
像特征;
对所述第二训练样本对应的图像特征进行空间上采样处理, 并将空间上采样后特征和
所述第二训练样本对应的图像特 征拼接后经 过线性层进行融合处 理, 得到第二融合特 征;
将所述第二融合特 征依次经 过时间上采样和空间上采样, 得到采样后特 征;
基于所述采样后特征, 利用softmax分类器对掩膜区域中每个分割区域对应的特征符
号进行有监 督的预测学习, 生成第二损失函数。
5.根据权利要求1所述的方法, 其特征在于, 所述对所述视频的部分分割区域进行掩膜
处理, 得到第二训练样本, 包括:
从所述视频中连续选取若干帧图像, 并在选取的每帧图像相同位置所对应的分割区域
进行掩膜处 理;
基于所述视频中掩膜处 理后的帧图像和未掩膜处 理的帧图像, 得到第二训练样本 。
6.根据权利要求1所述的方法, 其特征在于, 所述针对所述图像和所述视频中任一分割
区域: 获取所述分割区域的特征符号, 将所述特征符号作为所述分割区域的真实标签; 包
括:
针对所述图像中任一分割区域: 利用视觉标记器模型对所述分割区域进行处理, 得到
对应的图像特 征符号; 将所述图像特 征符号作为所述分割区域的标签;
针对所述视频中任一分割区域: 利用视觉标记器模型对所述分割区域进行处理, 得到
对应的视频 特征符号; 将所述视频 特征符号作为所述分割区域的标签。
7.一种基于Transformer结构的预训练装置, 其特 征在于, 包括:
第一获取模块, 用于获取目标对象的图像和视频; 其中, 所述图像和所述视频分别被分
割成若干分割区域;
第二获取模块, 用于针对所述图像和所述视频中任一分割区域: 获取所述分割区域的
特征符号, 将所述特 征符号作为所述分割区域的标签;
掩膜处理模块, 用于对所述图像的部分分割区域进行掩膜 处理, 得到第 一训练样本; 对
所述视频的部分 分割区域进行掩膜处 理, 得到第二训练样本;
初始化模块, 用于基于Transformer结构, 对所述第一训练样本中掩膜区域的特征符号
进行有监督的预测学习, 得到初始模型; 基于所述初始模型的模型参数初始 化预训练模型,
得到初始预训练模型;
联合训练模块, 用于利用所述初始预训练模型, 对所述第一训练样本中掩膜区域的特
征符号进行有监 督的预测学习, 生成第一损失函数;
利用所述初始预训练模型, 对所述第 二训练样本中掩膜区域的特征符号进行有监督的
预测学习, 生成第二损失函数;
对所述第一损失函数和所述第二损失函数进行加权处 理, 得到总损失函数;
迭代调节所述初始预训练模型的模型参数, 当所述总损 失函数趋于最小时, 得到最终
预训练模型。
8.根据权利要求7 所述的装置, 其特 征在于, 所述初始化模块包括:
特征提取单元, 用于对所述第一训练样本中所有分割区域进行图像特征提取, 得到第权 利 要 求 书 2/3 页
3
CN 114677536 B
3
专利 一种基于Transformer结构的预训练方法及装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:15:47上传分享