专利 图像分类方法、装置、可读介质和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210112946.1 (22)申请日 2022.01.29 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人江毅　刁其帅　文彬　孙佳　袁泽寰　赵修影　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师魏云鹿 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06K 9/62(2022.01) G06T 9/00(2006.01) (54)发明名称图像分类方法、装置、可读介质和电子设备 (57)摘要本公开涉及一种图像分类方法、装置、可读介质和电子设备，该方法可以包括：获取待分类图像和待分类图像的多模态信息，多模态信息包括文本信息、时空信息和属性信息，根据待分类图像和所述多模态信息，通过预先训练好的图像分类模型，确定待分类图像的图像分类结果，其中，图像分类模型用于获取待分类图像对应的图像编码向量和多模态信息对应的多模态编码向量，并对图像编码向量和多模态编码向量进行融合，得到目标分类向量，并根据目标分类向量，确定图像分类结果。本公开通过图像分类模型在待分类图像的基础上，结合了多模态信息来进行图像分类，能够准确地完成细粒度图像分类任务，确保图像分类结果的准确性。权利要求书2页说明书11页附图4页 CN 114511744 A 2022.05.17 CN 114511744 A 1.一种图像分类方法，其特征在于，所述方法包括：获取待分类图像和所述待分类图像的多模态信息；所述多模态信息包括文本信息、时空信息和属性信息；根据所述待分类图像和所述多模态信息，通过预先训练好的图像分类模型，确定所述待分类图像的图像分类结果；其中，所述图像分类模型用于获取所述待分类图像对应的图像编码向量和所述多模态信息对应的多模态编码向量，并对所述图像编码向量和所述多模态编码向量进行融合，得到目标分类向量，并根据所述目标分类向量，确定所述图像分类结果。 2.根据权利要求1所述的方法，其特征在于，所述图像分类模型包括图像编码模块、多模态信息编码模块、信息融合模块和分类器；所述根据所述待分类图像和所述多模态信息，通过预先训练好的图像分类模型，确定所述待分类图像的图像分类结果，包括：通过所述图像编码模块对所述待分类图像进行编码，得到所述图像编码向量；通过所述多模态信息编码模块获取所述多模态信息对应的多模态特征向量，并对所述多模态特征向量进行编码，得到所述多模态编码向量；通过所述信息融合模块对所述图像编码向量和所述多模态编码向量进行融合，得到所述目标分类向量；通过所述分类器根据所述目标分类向量，确定所述图像分类结果。 3.根据权利要求2所述的方法，其特征在于，所述通过所述信息融合模块对所述图像编码向量和所述多模态编码向量进行融合，得到所述目标分类向量，包括：通过所述信息融合模块对所述图像编码向量、所述多模态编码向量和预设编码向量进行融合，得到融合向量，并根据所述融合向量，确定所述目标分类向量。 4.根据权利要求3所述的方法，其特征在于，所述预设编码向量包括第一预设编码向量和第二预设编码向量，所述融合向量包括第一融合向量和第二融合向量；所述通过所述信息融合模块对所述图像编码向量、所述多模态编码向量和预设编码向量进行融合，得到融合向量，并根据所述融合向量，确定所述目标分类向量，包括：通过所述信息融合模块对所述图像编码向量进行降采样，得到第一图像编码向量，并对所述第一图像编码向量、所述多模态编码向量和所述第一预设编码向量进行融合，得到所述第一融合向量；通过所述信息融合模块对所述第一图像编码向量进行降采样，得到第二图像编码向量，并对所述第二图像编码向量、所述多模态编码向量和所述第二预设编码向量进行融合，得到所述第二融合向量；根据所述第一融合向量和所述第二融合向量，确定所述目标分类向量。 5.根据权利要求1 ‑4中任一项所述的方法，其特征在于，所述图像分类模型是通过以下方式训练得到的：获取训练样本集；所述训练样本集包括训练分类图像、所述训练分类图像的训练多模态信息以及所述训练分类图像对应的训练图像分类结果；根据所述训练样本集对预设模型进行训练，得到所述图像分类模型。 6.根据权利要求5所述的方法，其特征在于，所述根据所述训练样本集对预设模型进行训练，得到所述图像分类模型，包括：权　利　要　求　书 1/2 页 2 CN 114511744 A 2按照遮挡比例对所述训练多模态信息进行遮挡处理，得到处理后的训练样本集；根据所述处理后的训练样本集对所述预设模型进行训练，得到待定模型；按照预设比例步长，降低所述遮挡比例，得到更新后的遮挡比例；重复执行所述按照遮挡比例对所述训练多模态信息进行遮挡处理，得到处理后的训练样本集至所述按照预设比例步长，降低所述遮挡比例，得到更新后的遮挡比例的步骤，直至所述遮挡比例小于预设比例阈值，并将所述待定模型作为所述图像分类模型。 7.一种图像分类装置，其特征在于，所述装置包括：获取模块，用于获取待分类图像和所述待分类图像的多模态信息；所述多模态信息包括文本信息、时空信息和属性信息；处理模块，用于根据所述待分类图像和所述多模态信息，通过预先训练好的图像分类模型，确定所述待分类图像的图像分类结果；其中，所述图像分类模型用于获取所述待分类图像对应的图像编码向量和所述多模态信息对应的多模态编码向量，并对所述图像编码向量和所述多模态编码向量进行融合，得到目标分类向量，并根据所述目标分类向量，确定所述图像分类结果。 8.根据权利要求7所述的装置，其特征在于，所述图像分类模型包括图像编码模块、多模态信息编码模块、信息融合模块和分类器；所述处理模块用于：通过所述图像编码模块对所述待分类图像进行编码，得到所述图像编码向量；通过所述多模态信息编码模块获取所述多模态信息对应的多模态特征向量，并对所述多模态特征向量进行编码，得到所述多模态编码向量；通过所述信息融合模块对所述图像编码向量和所述多模态编码向量进行融合，得到所述目标分类向量；通过所述分类器根据所述目标分类向量，确定所述图像分类结果。 9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1 ‑6中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1 ‑6中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114511744 A 3

专利 图像分类方法、装置、可读介质和电子设备

专利图像分类方法、装置、可读介质和电子设备