安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210197831.7 (22)申请日 2022.03.02 (65)同一申请的已公布的文献号 申请公布号 CN 114677536 A (43)申请公布日 2022.06.28 (73)专利权人 北京医准智能科技有限公司 地址 100083 北京市海淀区知春路7号 致真 大厦A座12层1202-120 3号 (72)发明人 李小星 马璐 丁佳 吕晨翀  (74)专利代理 机构 北京乐知新创知识产权代理 事务所(普通 合伙) 11734 专利代理师 兰海叶 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) (56)对比文件 CN 111726621 A,2020.09.2 9 CN 113570689 A,2021.10.2 9 US 202016793 0 A1,2020.0 5.28 审查员 杨莹莹 (54)发明名称 一种基于Tran sformer结构的预训练方法及 装置 (57)摘要 本发明公开了一种基于Tran sformer结构的 预训练方法及装置, 该方法先获取目标对象 的图 像和视频; 针对图像和视频中任一分割区域: 将 分割区域的特征符号作为分割区域的标签; 分别 对图像的部分分割区域和视频的部分分割 区域 进行掩膜处理得到第一训练样本和第二训练样 本; 基于Transformer结构对第一训练样本中掩 膜区域的特征符号进行有监督预测学习得到初 始模型; 之后基于初始模型初始化预训练模型得 到初始预训练模 型; 最后利用初始预训练模型对 第一训练样本和第二训练样本中进行有监督联 合训练得到最终预训练模型。 由此, 使得模型同 时学习到视频数据的空间特征和时间特征, 进而 为下游任务 提供了很好的预训练模型。 权利要求书3页 说明书11页 附图5页 CN 114677536 B 2022.12.16 CN 114677536 B 1.一种基于Transformer结构的预训练方法, 其特 征在于, 包括: 获取目标对象的图像和视频; 其中, 所述图像和所述视频分别被分割成若干分割区域; 针对所述图像和所述视频中任一分割区域: 获取所述分割区域的特征符号, 将所述特 征符号作为所述分割区域的标签; 对所述图像的部分分割区域进行掩膜处理, 得到第一训练样本; 对所述视频的部分分 割区域进行掩膜处 理, 得到第二训练样本; 基于Transformer结构, 对所述第一训练样本中掩膜区域的特征符号进行有监督的预 测学习, 得到初始模 型; 基于所述初始模型的模型参数初始 化预训练模型, 得到初始预训练 模型; 利用所述初始预训练模型, 对所述第 一训练样本中掩膜区域的特征符号进行有监督的 预测学习, 生成第一损失函数; 利用所述初始预训练模型, 对所述第 二训练样本中掩膜区域的特征符号进行有监督的 预测学习, 生成第二损失函数; 对所述第一损失函数和所述第二损失函数进行加权处 理, 得到总损失函数; 迭代调节所述初始预训练模型的模型参数, 当所述总损 失函数趋于最小时, 得到最终 预训练模型。 2.根据权利 要求1所述的方法, 其特征在于, 所述基于Transformer结构, 对所述第一训 练样本中掩膜区域的特 征符号进行有监 督的预测学习, 生成初始模型, 包括: 对所述第一训练样本中所有分割区域进行图像特征提取, 得到第 一训练样本对应的图 像特征; 对所述第一训练样本对应图像特征进行空间上采样处理, 并将空间上采样后特征和所 述第一训练样本对应的图像特 征拼接后经 过线性层进行融合处 理, 得到第一融合特 征; 对所述第一融合特 征进行空间上采样处 理, 得到第一训练样本的最终特 征; 基于所述第一训练样本的最终特征, 利用softmax分类器对掩膜区域中每个分割区域 对应的特 征符号进行有监 督的预测学习, 生成第一损失函数; 当所述第一损失函数趋 于最小时, 对 模型参数进行调节, 生成初始模型。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述第 一训练样本中所有分割区域 进行图像特 征提取, 得到第一训练样本对应的图像特 征, 包括: 针对所述第 一训练样本 中的任一所述分割区域: 利用线性嵌入层对所述分割区域进行 拉伸降维处理; 将拉伸降维处理后特征依次经过两个连续的transformer  block, 对 所述分 割区域进行 特征提取, 得到第一特 征; 利用空间下采样层对若干所述第一特 征进行拼接降维处 理, 得到第一图像特 征; 将所述第一图像特征依次经过六个连续的transformer  block, 对所述分割区域进行 特征提取, 得到第二特征; 利用空间下采样层 对若干所述第二特征进 行拼接降维处理, 得到 第二图像特 征; 将所述第二图像特征依次经过四个连续的transformer  block, 对所述分割区域进行 特征提取, 得到第一训练样本对应的图像特 征。 4.根据权利要求1所述的方法, 其特征在于, 所述利用所述初始预训练模型, 对所述第 二训练样本中掩膜区域的特 征符号进行有监 督的预测学习, 生成第二损失函数, 包括:权 利 要 求 书 1/3 页 2 CN 114677536 B 2对所述第二训练样本进行时间下采样处 理; 对下采样后第 二训练样本 中分割区域进行图像特征提取, 得到第 二训练样本对应的图 像特征; 对所述第二训练样本对应的图像特征进行空间上采样处理, 并将空间上采样后特征和 所述第二训练样本对应的图像特 征拼接后经 过线性层进行融合处 理, 得到第二融合特 征; 将所述第二融合特 征依次经 过时间上采样和空间上采样, 得到采样后特 征; 基于所述采样后特征, 利用softmax分类器对掩膜区域中每个分割区域对应的特征符 号进行有监 督的预测学习, 生成第二损失函数。 5.根据权利要求1所述的方法, 其特征在于, 所述对所述视频的部分分割区域进行掩膜 处理, 得到第二训练样本, 包括: 从所述视频中连续选取若干帧图像, 并在选取的每帧图像相同位置所对应的分割区域 进行掩膜处 理; 基于所述视频中掩膜处 理后的帧图像和未掩膜处 理的帧图像, 得到第二训练样本 。 6.根据权利要求1所述的方法, 其特征在于, 所述针对所述图像和所述视频中任一分割 区域: 获取所述分割区域的特征符号, 将所述特征符号作为所述分割区域的真实标签; 包 括: 针对所述图像中任一分割区域: 利用视觉标记器模型对所述分割区域进行处理, 得到 对应的图像特 征符号; 将所述图像特 征符号作为所述分割区域的标签; 针对所述视频中任一分割区域: 利用视觉标记器模型对所述分割区域进行处理, 得到 对应的视频 特征符号; 将所述视频 特征符号作为所述分割区域的标签。 7.一种基于Transformer结构的预训练装置, 其特 征在于, 包括: 第一获取模块, 用于获取目标对象的图像和视频; 其中, 所述图像和所述视频分别被分 割成若干分割区域; 第二获取模块, 用于针对所述图像和所述视频中任一分割区域: 获取所述分割区域的 特征符号, 将所述特 征符号作为所述分割区域的标签; 掩膜处理模块, 用于对所述图像的部分分割区域进行掩膜 处理, 得到第 一训练样本; 对 所述视频的部分 分割区域进行掩膜处 理, 得到第二训练样本; 初始化模块, 用于基于Transformer结构, 对所述第一训练样本中掩膜区域的特征符号 进行有监督的预测学习, 得到初始模型; 基于所述初始模型的模型参数初始 化预训练模型, 得到初始预训练模型; 联合训练模块, 用于利用所述初始预训练模型, 对所述第一训练样本中掩膜区域的特 征符号进行有监 督的预测学习, 生成第一损失函数; 利用所述初始预训练模型, 对所述第 二训练样本中掩膜区域的特征符号进行有监督的 预测学习, 生成第二损失函数; 对所述第一损失函数和所述第二损失函数进行加权处 理, 得到总损失函数; 迭代调节所述初始预训练模型的模型参数, 当所述总损 失函数趋于最小时, 得到最终 预训练模型。 8.根据权利要求7 所述的装置, 其特 征在于, 所述初始化模块包括: 特征提取单元, 用于对所述第一训练样本中所有分割区域进行图像特征提取, 得到第权 利 要 求 书 2/3 页 3 CN 114677536 B 3

.PDF文档 专利 一种基于Transformer结构的预训练方法及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Transformer结构的预训练方法及装置 第 1 页 专利 一种基于Transformer结构的预训练方法及装置 第 2 页 专利 一种基于Transformer结构的预训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:15:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。