安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210213195.2 (22)申请日 2022.03.04 (71)申请人 西安交通大 学 地址 710049 陕西省西安市咸宁西路28号 (72)发明人 魏平 马泽宇 李环 郑南宁  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 李鹏威 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/00(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于Transformer模型的图像人-物交互定 位方法及系统 (57)摘要 本发明公开了一种基于Tran sformer模型的 图像人‑物交互定位方法及系统, 所述方法包括 以下步骤: 获取待预测图像以及描述性短语; 其 中, 所述描述性短语用于描述待预测图像中的 人‑物交互关系; 所述待预测图像包括人 ‑物交互 场景; 对待预测图像以及描述性 短语分别进行特 征提取, 获得图像特征以及语言特征; 将图像特 征以及语言特征输入预训练好的人 ‑物交互定位 模型, 输出获得待预测图像所有符合描述性短语 的人、 物定位框, 实现人 ‑物交互定位。 本发明中 将多实例定位问题转化为集合预测问题, 可直接 从跨模态特征中预测出结果, 且预测准确率较 高。 权利要求书4页 说明书10页 附图2页 CN 114663915 A 2022.06.24 CN 114663915 A 1.一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 包括以下步骤: 获取待预测图像以及描述性短语; 其中, 所述描述性短语用于描述待预测图像 中的人‑ 物交互关系; 所述待预测图像包括人 ‑物交互场景; 对待预测图像以及描述 性短语分别进行 特征提取, 获得图像特 征以及语言特 征; 将图像特征以及语言特征输入预训练好的人 ‑物交互定位模型, 输出获得待预测图像 所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 其中, 所述人 ‑物交互定位模型包括: 融合编码器, 用于输入待融合的视觉 ‑语言特征并进行跨模态融合, 获得融合后的跨模 态特征; 其中, 所述待融合的视觉 ‑语言特征的为将图像特征以及语言特征映射至一致的通 道, 并沿特 征维度拼接形成的特 征; 解码器及预测头, 用于输入融合后的跨模态特征并进行解码, 通过预测头预测获得待 预测图像中所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 所述融合编码器为第 一预设层数的自注意力编码器; 所述解码器为第 二预设层数的自 注意力解码器。 2.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 所述描述 性短语的表述形式为< human, interacti on, object>三元组。 3.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 所述对待预测图像以及描述性短语分别进行特征提取, 获得图像特征以及语言特 征的步骤具体包括: 对待预测图像采用预训练的backbone卷积神经网络以及Transformer编码器进行特征 提取, 得到图像特 征; 对描述性短语采用预训练的BERT模型进行 特征提取, 得到语言特 征。 4.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 第一预设层数和第二预设层数均为6层。 5.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 所述预训练好的人 ‑物交互定位模型的获取步骤 包括: 获取训练样本集; 所述训练样本集的每个样本均包括: 图像样本、 描述性短语样本以及 图像样本中满足描述 性短语样本的所有人、 物边界框坐标 标签; 基于训练样本集中每个训练样本, 对预测结果集合和标签真值间进行匈牙利匹配, 对 每种匹配组合σ(i)计算代价函数, 通过最小化综合匹配代价函数以获得最优匹配结果; 其 中, 所述代价函数包括: 人 ‑物边界框L1距离代价 人‑物边界框GIoU代价 以及交互 得分代价 表达式分别为:权 利 要 求 书 1/4 页 2 CN 114663915 A 2式中, 分别为第i对中人、 物边界框坐标真值, 分别为第i种匹配 中人、 物边界框坐标预测结果, Φ为无真值匹配的检测结果集, αb、 αg、 αs分别为人 ‑物边界框 L1距离代价 人/‑物边界框GIoU代价 以及交互得分代价 的权重, si为第i对人/ 物对的交 互得分; 基于最优匹配结果计算训练损失, 达到预设收敛条件完成训练; 其中, 训练损失包括 人‑物边界框L1距离损失、 人 ‑物边界框GI oU损失以及交 互得分损失, 表达式分别为: 式中, 为匹配得到的最优匹配, 为有真值匹配的检测结果集, βb、 βg、 βs为各损失函 数的权重, γ为二值交叉熵损失 的样本不均衡权重, 为第i对人 ‑物对的预测交互得分, 当该人‑物对有真值匹配时yi取1, 否则取0, Nq为输出人‑物对数目。 6.一种基于Transformer模型的图像人 ‑物交互定位系统, 其特 征在于, 包括: 获取模块, 用于获取待预测图像以及描述性短语; 其中, 所述描述性短语用于描述待预 测图像中的人 ‑物交互关系; 所述待预测图像包括人 ‑物交互场景; 特征提取模块, 用于对待预测图像以及描述性短语分别进行特征提取, 获得图像特征 以及语言特 征; 预测定位模块, 用于将图像特征以及语言特征输入预训练好的人 ‑物交互定位模型, 输 出获得待预测图像所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 其中, 所述人 ‑物交互定位模型包括: 融合编码器, 用于输入待融合的视觉 ‑语言特征并进行跨模态融合, 获得融合后的跨模 态特征; 其中, 所述待融合的视觉 ‑语言特征的为将图像特征以及语言特征映射至一致的通 道, 并沿特 征维度拼接形成的特 征; 解码器及预测头, 用于输入融合后的跨模态特征并进行解码, 通过预测头预测获得待 预测图像中所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 所述融合编码器为第 一预设层数的自注意力编码器; 所述解码器为第 二预设层数的自 注意力解码器。权 利 要 求 书 2/4 页 3 CN 114663915 A 3

.PDF文档 专利 基于Transformer模型的图像人-物交互定位方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer模型的图像人-物交互定位方法及系统 第 1 页 专利 基于Transformer模型的图像人-物交互定位方法及系统 第 2 页 专利 基于Transformer模型的图像人-物交互定位方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:20:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。