安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210213195.2 (22)申请日 2022.03.04 (71)申请人 西安交通大 学 地址 710049 陕西省西安市咸宁西路28号 (72)发明人 魏平 马泽宇 李环 郑南宁 (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 李鹏威 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/00(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于Transformer模型的图像人-物交互定 位方法及系统 (57)摘要 本发明公开了一种基于Tran sformer模型的 图像人‑物交互定位方法及系统, 所述方法包括 以下步骤: 获取待预测图像以及描述性短语; 其 中, 所述描述性短语用于描述待预测图像中的 人‑物交互关系; 所述待预测图像包括人 ‑物交互 场景; 对待预测图像以及描述性 短语分别进行特 征提取, 获得图像特征以及语言特征; 将图像特 征以及语言特征输入预训练好的人 ‑物交互定位 模型, 输出获得待预测图像所有符合描述性短语 的人、 物定位框, 实现人 ‑物交互定位。 本发明中 将多实例定位问题转化为集合预测问题, 可直接 从跨模态特征中预测出结果, 且预测准确率较 高。 权利要求书4页 说明书10页 附图2页 CN 114663915 A 2022.06.24 CN 114663915 A 1.一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 包括以下步骤: 获取待预测图像以及描述性短语; 其中, 所述描述性短语用于描述待预测图像 中的人‑ 物交互关系; 所述待预测图像包括人 ‑物交互场景; 对待预测图像以及描述 性短语分别进行 特征提取, 获得图像特 征以及语言特 征; 将图像特征以及语言特征输入预训练好的人 ‑物交互定位模型, 输出获得待预测图像 所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 其中, 所述人 ‑物交互定位模型包括: 融合编码器, 用于输入待融合的视觉 ‑语言特征并进行跨模态融合, 获得融合后的跨模 态特征; 其中, 所述待融合的视觉 ‑语言特征的为将图像特征以及语言特征映射至一致的通 道, 并沿特 征维度拼接形成的特 征; 解码器及预测头, 用于输入融合后的跨模态特征并进行解码, 通过预测头预测获得待 预测图像中所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 所述融合编码器为第 一预设层数的自注意力编码器; 所述解码器为第 二预设层数的自 注意力解码器。 2.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 所述描述 性短语的表述形式为< human, interacti on, object>三元组。 3.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 所述对待预测图像以及描述性短语分别进行特征提取, 获得图像特征以及语言特 征的步骤具体包括: 对待预测图像采用预训练的backbone卷积神经网络以及Transformer编码器进行特征 提取, 得到图像特 征; 对描述性短语采用预训练的BERT模型进行 特征提取, 得到语言特 征。 4.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 第一预设层数和第二预设层数均为6层。 5.根据权利要求1所述的一种基于Transformer模型的图像人 ‑物交互定位方法, 其特 征在于, 所述预训练好的人 ‑物交互定位模型的获取步骤 包括: 获取训练样本集; 所述训练样本集的每个样本均包括: 图像样本、 描述性短语样本以及 图像样本中满足描述 性短语样本的所有人、 物边界框坐标 标签; 基于训练样本集中每个训练样本, 对预测结果集合和标签真值间进行匈牙利匹配, 对 每种匹配组合σ(i)计算代价函数, 通过最小化综合匹配代价函数以获得最优匹配结果; 其 中, 所述代价函数包括: 人 ‑物边界框L1距离代价 人‑物边界框GIoU代价 以及交互 得分代价 表达式分别为:权 利 要 求 书 1/4 页 2 CN 114663915 A 2式中, 分别为第i对中人、 物边界框坐标真值, 分别为第i种匹配 中人、 物边界框坐标预测结果, Φ为无真值匹配的检测结果集, αb、 αg、 αs分别为人 ‑物边界框 L1距离代价 人/‑物边界框GIoU代价 以及交互得分代价 的权重, si为第i对人/ 物对的交 互得分; 基于最优匹配结果计算训练损失, 达到预设收敛条件完成训练; 其中, 训练损失包括 人‑物边界框L1距离损失、 人 ‑物边界框GI oU损失以及交 互得分损失, 表达式分别为: 式中, 为匹配得到的最优匹配, 为有真值匹配的检测结果集, βb、 βg、 βs为各损失函 数的权重, γ为二值交叉熵损失 的样本不均衡权重, 为第i对人 ‑物对的预测交互得分, 当该人‑物对有真值匹配时yi取1, 否则取0, Nq为输出人‑物对数目。 6.一种基于Transformer模型的图像人 ‑物交互定位系统, 其特 征在于, 包括: 获取模块, 用于获取待预测图像以及描述性短语; 其中, 所述描述性短语用于描述待预 测图像中的人 ‑物交互关系; 所述待预测图像包括人 ‑物交互场景; 特征提取模块, 用于对待预测图像以及描述性短语分别进行特征提取, 获得图像特征 以及语言特 征; 预测定位模块, 用于将图像特征以及语言特征输入预训练好的人 ‑物交互定位模型, 输 出获得待预测图像所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 其中, 所述人 ‑物交互定位模型包括: 融合编码器, 用于输入待融合的视觉 ‑语言特征并进行跨模态融合, 获得融合后的跨模 态特征; 其中, 所述待融合的视觉 ‑语言特征的为将图像特征以及语言特征映射至一致的通 道, 并沿特 征维度拼接形成的特 征; 解码器及预测头, 用于输入融合后的跨模态特征并进行解码, 通过预测头预测获得待 预测图像中所有符合描述 性短语的人、 物定位框, 实现人 ‑物交互定位; 所述融合编码器为第 一预设层数的自注意力编码器; 所述解码器为第 二预设层数的自 注意力解码器。权 利 要 求 书 2/4 页 3 CN 114663915 A 3
专利 基于Transformer模型的图像人-物交互定位方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 01:20:43
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
GB-T 25000.12-2017 系统与软件工程 系统与软件质量要求和评价(SQuaRE) 第12部分:数据质量模型.pdf
T-SSCI 002—2021 学校室外运动场地合成材料面层 铺装技术规程.pdf
GB-T 41717-2022 核电厂老化管理与寿命管理术语.pdf
易观分析 AIGC产业研究报告2023——视频生成篇.pdf
广州市绿色建筑和建筑节能管理规定.pdf
GB-T 19707-2005 冰刀鞋.pdf
GB-Z 20985-2007 信息安全技术 信息安全事件管理指南.pdf
GB-T 30303-2013 工业用甲胺和甲胺水溶液试验方法.pdf
20230129-中信建投-人工智能行业从CHAT_GPT到生成式AI(Generative AI):人工智能新范式,重新定义生产力.pdf
GB-T 32146.2-2015 检验检测实验室设计与建设技术要求 第2部分:电气实验室.pdf
长亭科技 云图攻击面管理-产品白皮书-v1.1.pdf
GB-T 32917-2016 信息安全技术 WEB应用防火墙安全技术要求与测试评价方法.pdf
DB61-T 1505-2021 数字化转型 企业新型能力识别技术规范 陕西省.pdf
T-CSAE 77—2018 电动汽车再生制动系统制动效能 恒定性试验方法.pdf
DB32-T 4553-2023 医疗机构医疗器械不良事件监测工作指南 江苏省.pdf
SL-T791-2019 水库降等与报废评估导则.pdf
GB-T 32427-2015信息技术SOA成熟度模型及评估方法.pdf
GB-T 37697-2019 露天煤矿边坡变形监测技术规范.pdf
T-CIECCPA 011—2020 工业节能监察人员业务培训导则.pdf
DB3305-T 197-2021 绿水青山就是金山银山 生态资源数字化建设与应用指南 湖州市.pdf
1
/
3
17
评价文档
赞助2.5元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。