(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210112946.1
(22)申请日 2022.01.29
(71)申请人 北京有竹居网络技 术有限公司
地址 101299 北京市平谷区林荫北街13号
信息大厦802室
(72)发明人 江毅 刁其帅 文彬 孙佳
袁泽寰 赵修影
(74)专利代理 机构 北京英创嘉友知识产权代理
事务所(普通 合伙) 11447
专利代理师 魏云鹿
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06K 9/62(2022.01)
G06T 9/00(2006.01)
(54)发明名称
图像分类方法、 装置、 可读介质和电子设备
(57)摘要
本公开涉及一种图像分类方法、 装置、 可读
介质和电子设备, 该方法可 以包括: 获取待分类
图像和待分类图像的多模态信息, 多模态信息包
括文本信息、 时空信息和属性信息, 根据待分类
图像和所述多模态信息, 通过预先训练好的图像
分类模型, 确定待分类图像的图像分类结果, 其
中, 图像分类模 型用于获取待分类图像对应的 图
像编码向量和多模态信息对应的多模态编码向
量, 并对图像编码向量和多模态编码向量进行融
合, 得到目标分类向量, 并根据目标分类向量, 确
定图像分类结果。 本公开通过图像 分类模型在待
分类图像的基础上, 结合了多模态信息来进行图
像分类, 能够准确地完成细粒度图像分类任务,
确保图像分类结果的准确性。
权利要求书2页 说明书11页 附图4页
CN 114511744 A
2022.05.17
CN 114511744 A
1.一种图像分类方法, 其特 征在于, 所述方法包括:
获取待分类图像和所述待分类图像的多模态信息; 所述多模态信息包括文本信息、 时
空信息和 属性信息;
根据所述待分类图像和所述多模态信息, 通过预先训练好的图像分类模型, 确定所述
待分类图像的图像分类结果;
其中, 所述图像分类模型用于获取所述待分类图像对应的图像编码向量和所述多模态
信息对应的多模态编码向量, 并对所述图像编码向量和所述多模态编码向量进行融合, 得
到目标分类向量, 并根据所述目标分类向量, 确定所述图像分类结果。
2.根据权利要求1所述的方法, 其特征在于, 所述图像分类模型包括图像编码模块、 多
模态信息编码模块、 信息融合模块和分类器; 所述根据所述待分类图像和所述多模态信息,
通过预先训练好的图像分类模型, 确定所述待分类图像的图像分类结果, 包括:
通过所述图像编码模块对所述待分类图像进行编码, 得到所述图像编码向量;
通过所述多模态信 息编码模块获取所述多模态信 息对应的多模态特征向量, 并对所述
多模态特 征向量进行编码, 得到所述多模态编码向量;
通过所述信 息融合模块对所述图像编码向量和所述多模态编码向量进行融合, 得到所
述目标分类向量;
通过所述分类 器根据所述目标分类向量, 确定所述图像分类结果。
3.根据权利要求2所述的方法, 其特征在于, 所述通过所述信 息融合模块对所述图像编
码向量和所述多模态编码向量进行融合, 得到所述目标分类向量, 包括:
通过所述信 息融合模块对所述图像编码向量、 所述多模态编码向量和预设编码向量进
行融合, 得到融合向量, 并根据所述融合向量, 确定所述目标分类向量。
4.根据权利要求3所述的方法, 其特征在于, 所述预设编码向量包括第 一预设编码向量
和第二预设编码向量, 所述融合向量包括第一融合向量和第二融合向量; 所述通过所述信
息融合模块对所述图像编码向量、 所述多模态编码向量和预设编码向量进行融合, 得到融
合向量, 并根据所述融合向量, 确定所述目标分类向量, 包括:
通过所述信息融合模块对所述图像编码向量进行降采样, 得到第一图像编码向量, 并
对所述第一图像编码向量、 所述多模态编码向量和所述第一预设编码向量进行融合, 得到
所述第一融合向量;
通过所述信息融合模块对所述第一图像编码向量进行降采样, 得到第二图像编码向
量, 并对所述第二图像编 码向量、 所述多模态编码向量和所述第二预设编 码向量进 行融合,
得到所述第二融合向量;
根据所述第一融合向量和所述第二融合向量, 确定所述目标分类向量。
5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述图像分类模型是通过以下
方式训练得到的:
获取训练样本集; 所述训练样本集包括训练分类图像、 所述训练分类图像的训练多模
态信息以及所述训练分类图像对应的训练图像分类结果;
根据所述训练样本集对预设模型进行训练, 得到所述图像分类模型。
6.根据权利要求5所述的方法, 其特征在于, 所述根据所述训练样本集对预设模型进行
训练, 得到所述图像分类模型, 包括:权 利 要 求 书 1/2 页
2
CN 114511744 A
2按照遮挡比例对所述训练多模态信息进行遮挡处 理, 得到处 理后的训练样本集;
根据所述处 理后的训练样本集对所述预设模型进行训练, 得到待定模型;
按照预设比例步长, 降低所述遮挡比例, 得到更新后的遮挡比例;
重复执行所述按照遮挡比例对所述训练多模态信 息进行遮挡处理, 得到处理后的训练
样本集至所述按照预设比例步长, 降低所述遮挡比例, 得到更新后的遮挡比例的步骤, 直至
所述遮挡比例小于预设比例阈值, 并将所述待定模型作为所述图像分类模型。
7.一种图像分类装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取待分类图像和所述待分类图像的多模态信息; 所述多模态信息包
括文本信息、 时空信息和 属性信息;
处理模块, 用于根据所述待分类图像和所述多模态信息, 通过预先训练好的图像分类
模型, 确定所述待分类图像的图像分类结果;
其中, 所述图像分类模型用于获取所述待分类图像对应的图像编码向量和所述多模态
信息对应的多模态编码向量, 并对所述图像编码向量和所述多模态编码向量进行融合, 得
到目标分类向量, 并根据所述目标分类向量, 确定所述图像分类结果。
8.根据权利要求7所述的装置, 其特征在于, 所述图像分类模型包括图像编码模块、 多
模态信息编码模块、 信息融合模块和分类 器; 所述处 理模块用于:
通过所述图像编码模块对所述待分类图像进行编码, 得到所述图像编码向量;
通过所述多模态信 息编码模块获取所述多模态信 息对应的多模态特征向量, 并对所述
多模态特 征向量进行编码, 得到所述多模态编码向量;
通过所述信 息融合模块对所述图像编码向量和所述多模态编码向量进行融合, 得到所
述目标分类向量;
通过所述分类 器根据所述目标分类向量, 确定所述图像分类结果。
9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行
时实现权利要求1 ‑6中任一项所述方法的步骤。
10.一种电子设备, 其特 征在于, 包括:
存储装置, 其上存 储有计算机程序;
处理装置, 用于执行所述存储装置 中的所述计算机程序, 以实现权利要求1 ‑6中任一项
所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 114511744 A
3
专利 图像分类方法、装置、可读介质和电子设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:20:19上传分享