专利 一种基于Transformer结构的预训练方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210197831.7 (22)申请日 2022.03.02 (65)同一申请的已公布的文献号申请公布号 CN 114677536 A (43)申请公布日 2022.06.28 (73)专利权人北京医准智能科技有限公司地址 100083 北京市海淀区知春路7号致真大厦A座12层1202-120 3号 (72)发明人李小星　马璐　丁佳　吕晨翀　 (74)专利代理机构北京乐知新创知识产权代理事务所(普通合伙) 11734 专利代理师兰海叶 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) (56)对比文件 CN 111726621 A,2020.09.2 9 CN 113570689 A,2021.10.2 9 US 202016793 0 A1,2020.0 5.28 审查员杨莹莹 (54)发明名称一种基于Tran sformer结构的预训练方法及装置 (57)摘要本发明公开了一种基于Tran sformer结构的预训练方法及装置，该方法先获取目标对象的图像和视频；针对图像和视频中任一分割区域：将分割区域的特征符号作为分割区域的标签；分别对图像的部分分割区域和视频的部分分割区域进行掩膜处理得到第一训练样本和第二训练样本；基于Transformer结构对第一训练样本中掩膜区域的特征符号进行有监督预测学习得到初始模型；之后基于初始模型初始化预训练模型得到初始预训练模型；最后利用初始预训练模型对第一训练样本和第二训练样本中进行有监督联合训练得到最终预训练模型。由此，使得模型同时学习到视频数据的空间特征和时间特征，进而为下游任务提供了很好的预训练模型。权利要求书3页说明书11页附图5页 CN 114677536 B 2022.12.16 CN 114677536 B 1.一种基于Transformer结构的预训练方法，其特征在于，包括：获取目标对象的图像和视频；其中，所述图像和所述视频分别被分割成若干分割区域；针对所述图像和所述视频中任一分割区域：获取所述分割区域的特征符号，将所述特征符号作为所述分割区域的标签；对所述图像的部分分割区域进行掩膜处理，得到第一训练样本；对所述视频的部分分割区域进行掩膜处理，得到第二训练样本；基于Transformer结构，对所述第一训练样本中掩膜区域的特征符号进行有监督的预测学习，得到初始模型；基于所述初始模型的模型参数初始化预训练模型，得到初始预训练模型；利用所述初始预训练模型，对所述第一训练样本中掩膜区域的特征符号进行有监督的预测学习，生成第一损失函数；利用所述初始预训练模型，对所述第二训练样本中掩膜区域的特征符号进行有监督的预测学习，生成第二损失函数；对所述第一损失函数和所述第二损失函数进行加权处理，得到总损失函数；迭代调节所述初始预训练模型的模型参数，当所述总损失函数趋于最小时，得到最终预训练模型。 2.根据权利要求1所述的方法，其特征在于，所述基于Transformer结构，对所述第一训练样本中掩膜区域的特征符号进行有监督的预测学习，生成初始模型，包括：对所述第一训练样本中所有分割区域进行图像特征提取，得到第一训练样本对应的图像特征；对所述第一训练样本对应图像特征进行空间上采样处理，并将空间上采样后特征和所述第一训练样本对应的图像特征拼接后经过线性层进行融合处理，得到第一融合特征；对所述第一融合特征进行空间上采样处理，得到第一训练样本的最终特征；基于所述第一训练样本的最终特征，利用softmax分类器对掩膜区域中每个分割区域对应的特征符号进行有监督的预测学习，生成第一损失函数；当所述第一损失函数趋于最小时，对模型参数进行调节，生成初始模型。 3.根据权利要求2所述的方法，其特征在于，所述对所述第一训练样本中所有分割区域进行图像特征提取，得到第一训练样本对应的图像特征，包括：针对所述第一训练样本中的任一所述分割区域：利用线性嵌入层对所述分割区域进行拉伸降维处理；将拉伸降维处理后特征依次经过两个连续的transformer block，对所述分割区域进行特征提取，得到第一特征；利用空间下采样层对若干所述第一特征进行拼接降维处理，得到第一图像特征；将所述第一图像特征依次经过六个连续的transformer block，对所述分割区域进行特征提取，得到第二特征；利用空间下采样层对若干所述第二特征进行拼接降维处理，得到第二图像特征；将所述第二图像特征依次经过四个连续的transformer block，对所述分割区域进行特征提取，得到第一训练样本对应的图像特征。 4.根据权利要求1所述的方法，其特征在于，所述利用所述初始预训练模型，对所述第二训练样本中掩膜区域的特征符号进行有监督的预测学习，生成第二损失函数，包括：权　利　要　求　书 1/3 页 2 CN 114677536 B 2对所述第二训练样本进行时间下采样处理；对下采样后第二训练样本中分割区域进行图像特征提取，得到第二训练样本对应的图像特征；对所述第二训练样本对应的图像特征进行空间上采样处理，并将空间上采样后特征和所述第二训练样本对应的图像特征拼接后经过线性层进行融合处理，得到第二融合特征；将所述第二融合特征依次经过时间上采样和空间上采样，得到采样后特征；基于所述采样后特征，利用softmax分类器对掩膜区域中每个分割区域对应的特征符号进行有监督的预测学习，生成第二损失函数。 5.根据权利要求1所述的方法，其特征在于，所述对所述视频的部分分割区域进行掩膜处理，得到第二训练样本，包括：从所述视频中连续选取若干帧图像，并在选取的每帧图像相同位置所对应的分割区域进行掩膜处理；基于所述视频中掩膜处理后的帧图像和未掩膜处理的帧图像，得到第二训练样本。 6.根据权利要求1所述的方法，其特征在于，所述针对所述图像和所述视频中任一分割区域：获取所述分割区域的特征符号，将所述特征符号作为所述分割区域的真实标签；包括：针对所述图像中任一分割区域：利用视觉标记器模型对所述分割区域进行处理，得到对应的图像特征符号；将所述图像特征符号作为所述分割区域的标签；针对所述视频中任一分割区域：利用视觉标记器模型对所述分割区域进行处理，得到对应的视频特征符号；将所述视频特征符号作为所述分割区域的标签。 7.一种基于Transformer结构的预训练装置，其特征在于，包括：第一获取模块，用于获取目标对象的图像和视频；其中，所述图像和所述视频分别被分割成若干分割区域；第二获取模块，用于针对所述图像和所述视频中任一分割区域：获取所述分割区域的特征符号，将所述特征符号作为所述分割区域的标签；掩膜处理模块，用于对所述图像的部分分割区域进行掩膜处理，得到第一训练样本；对所述视频的部分分割区域进行掩膜处理，得到第二训练样本；初始化模块，用于基于Transformer结构，对所述第一训练样本中掩膜区域的特征符号进行有监督的预测学习，得到初始模型；基于所述初始模型的模型参数初始化预训练模型，得到初始预训练模型；联合训练模块，用于利用所述初始预训练模型，对所述第一训练样本中掩膜区域的特征符号进行有监督的预测学习，生成第一损失函数；利用所述初始预训练模型，对所述第二训练样本中掩膜区域的特征符号进行有监督的预测学习，生成第二损失函数；对所述第一损失函数和所述第二损失函数进行加权处理，得到总损失函数；迭代调节所述初始预训练模型的模型参数，当所述总损失函数趋于最小时，得到最终预训练模型。 8.根据权利要求7 所述的装置，其特征在于，所述初始化模块包括：特征提取单元，用于对所述第一训练样本中所有分割区域进行图像特征提取，得到第权　利　要　求　书 2/3 页 3 CN 114677536 B 3

专利 一种基于Transformer结构的预训练方法及装置

专利一种基于Transformer结构的预训练方法及装置