专利 一种基于多模态特征融合的零样本学习分类方法及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210207381.5 (22)申请日 2022.03.03 (71)申请人中海华瑞智能科技（天津）有限公司地址 300450 天津市滨海新区天津自贸试验区(中心商务区)新华路3678号宝风大厦11层H1101-02 (72)发明人曹伟朋　吴宇豪　张兴俭　庄浩　蔡恒　刘鑫　 (74)专利代理机构北京君慧知识产权代理事务所(普通合伙) 11716 专利代理师肖鹏 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/77(2022.01)G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多模态特征融合的零样本学习分类方法及设备 (57)摘要本发明公开了一种基于多模态特征融合的零样本学习分类方法及设备，属于图像识别技术领域，用于解决现有的基于生成模型的零样本学习模型中存在域偏移问题和视觉特征域偏移问题。方法包括：根据训练样本的语义特征以及视觉主成特征，得到多模态融合条件特征；根据训练样本的真实特征与多模态融合条件特征，得到合成视觉特征；对合成视觉特征进行映射，得到语义模态对齐损失函数；通过生成器，对语义嵌入特征进行重构，得到重构样本视觉特征，并计算视觉模态对齐损失函数；根据模型总损失函数，对生成器中的相关参数进行优化；根据优化后的生成器，对未见类图像样本进行分类，得到对应的未见类伪样本，以将未见类伪样本用于训练分类器。权利要求书3页说明书10页附图3页 CN 114821148 A 2022.07.29 CN 114821148 A 1.一种基于多模态特征融合的零样本学习分类方法，其特征在于，所述方法包括：根据训练样本的语义特征以及视觉主成特征，得到多模态融合条件特征；根据所述训练样本的真实特征与所述多模态融合条件特征，得到合成视觉特征，并计算所述合成视觉特征的编码损失函数以及判别器损失函数；通过第一编码器，对所述合成视觉特征进行映射，得到语义嵌入特征，并计算所述语义特征与所述语义嵌入特征的循环一致性损失，得到语义模态对齐损失函数；通过生成对抗网络的生成器，对所述语义嵌入特征进行重构，得到重构样本视觉特征，并计算视觉模态对齐损失函数；根据模型总损失函数，对所述生成器中的相关参数进行优化，直至所述模型总损失函数的值小于第一预设阈值；其中，所述模型总损失函数由所述编码损失函数、所述判别器损失函数、所述语义模态对齐损失函数以及所述视觉模态对齐损失函数所决定；根据优化后的所述生成对抗网络的生成器，对未见类图像样本进行分类，得到对应的未见类伪样本，以将所述未见类伪样本用于训练分类器。 2.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据训练样本的语义特征以及视觉主成特征，得到多模态融合条件特征，具体包括：通过预训练模型ResNet ‑101，提取所述训练样本中的所述真实特征；其中，所述真实特征为2048维视觉特征向量；对所述训练样本的类别特征进行概括，提取所述语义特征；通过深层主成特征提取网络，提取所述训练样本中的所述视觉主成特征；根据所述语义特征以及所述视觉主成特征，对所述训练样本进行特征提取以及特征融合，得到所述多模态融合条件特征。 3.根据权利要求2所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据所述语义特征以及所述视觉主成特征，对所述训练样本进行特征提取以及特征融合，得到所述多模态融合条件特征，具体包括：通过特征提取函数，对所述训练样本进行特征提取；根据Le＝E[logθ(x)]，得到所述特征提取过程的损失；其中， x 为所述真实特征， θ( ·)为所述特征提取函数， E为期望值；通过特征层融合模块，根据对所述语义特征与所述视觉主成特征进行特征融合，得到所述多模态融合条件特征c；其中， xp为所述视觉主成特征， a为所述语义特征，为联结符号。 4.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据所述训练样本的真实特征与所述多模态融合条件特征，得到合成视觉特征，并计算所述合成视觉特征的编码损失函数以及判别器损失函数，具体包括：通过第二编码器，对所述真实特征与所述多模态融合条件特征进行编码，得到随机噪声；根据得到所述编码损失函数其中， z为随机噪声， E(x,c)为第二编码器的期望， logG(z,a)为所述生成对抗网络的生成器的重构误差， KL( ·)用于计算KL散度距离， β 为KL散度的权重参数， p(z|a)表示高斯权　利　要　求　书 1/3 页 2 CN 114821148 A 2分布的先验概率， a为所述语义特征， c为所述多模态融合条件特征， E为期望；通过变分自编码器VAE的解码器，对所述随机噪声以及所述语义特征进行解码，得到所述合成视觉特征；其中，所述生成对抗网络的生成器共享所述变分自编码器V AE的解码器；通过所述对抗生成网络的判别器，计算所述真实特征与所述合成视觉特征的相似度；根据得到所述判别器损失函数其中，为所述真实特征x与所述合成视觉特征的相似度， λE[(||D(x ′,a)||2‑1)2]为带有Lipschitz约束的梯度惩罚项， λ为惩罚参数， x ′ 为语义‑视觉特征的联合分布，其中α ～U(0,1)。 5.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，通过第一编码器，对所述合成视觉特征进行映射，得到语义嵌入特征，并计算所述语义特征与所述语义嵌入特征的循环一致性损失，得到语义模态对齐损失函数，具体包括：根据对所述语义嵌入特征与所述语义特征进行模态对齐，得到所述语义模态对齐损失函数其中， Enc()为编码运算，用于得到所述语义嵌入特征 a为所述语义特征， E为期望；其中，所述模态对齐是用来增加所述训练样本之间类内紧凑性与类间可分离性。 6.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，通过生成对抗网络的生成器，对所述语义嵌入特征进行重构，得到重构样本视觉特征，并计算视觉模态对齐损失函数，具体包括：通过生成对抗网络的生成器，对所述语义嵌入特征进行重构，得到重构样本视觉特征；对所述合成视觉特征与所述重构样本视觉特征进行模态对齐；根据得到所述视觉模态对齐损失函数其中，为所述重构样本视觉特征， Dec()为解码运算， x为真实特征， E为期望。 7.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据模型总损失函数，对所述生成器中的相关参数进行优化，直至所述模型总损失函数的值小于第一预设阈值，具体包括：根据得到所述模型总损失函数L；其中，为双模态对齐损失函数，为所述语义模态对齐损失函数，为所述视觉模态对齐损失函数；其中， β 双重模态对齐损失的超参数，为所述编码损失函数，为所述判别器损失函数；根据梯度下降方法，对所述生成对抗网络的生成器的相关参数，进行多轮梯度下降，以减少损失量；在所述模型总损失函数的值小于所述第一预设阈值后，得到所述生成器的最优相关参数，实现对所述生成器的迭代优化。 8.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据优化后的所述生成对抗网络的生成器，对未见类图像样本进行分类，得到对应的未见类伪样本，以将所述未见类伪样本用于训练分类器，具体包括：权　利　要　求　书 2/3 页 3 CN 114821148 A 3

专利 一种基于多模态特征融合的零样本学习分类方法及设备

专利一种基于多模态特征融合的零样本学习分类方法及设备