(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210164323.9
(22)申请日 2022.02.22
(71)申请人 珠海数字动力科技股份有限公司
地址 519000 广东省珠海市大 学路101号清
华科技园4栋401-40 5
(72)发明人 刘振锋 刘正中 梁延研
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 侯丽燕
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于神经架构搜索的轻量级人体姿态估计
方法及装置
(57)摘要
本发明是关于一种基于神经架构搜索的轻
量级人体姿态估计方法及装置, 其中, 方法包括:
构建多通道和多分辨率的网络模 型的搜索空间;
利用来自目标移动终端的原始图像训练集和所
述网络模型的搜索空间进行迭代模型搜索, 其
中, 所述模 型搜索包括通道层次的搜索和模型层
次的搜索, 所述原始图像训练集中的原始图像包
含人体关键点数据; 利用模型搜索过程得到的梯
度对通道和网络模型的拓扑连接进行剪枝操作,
并对剪枝后的网络模型进行微调, 以得到轻量级
卷积神经网络模 型; 利用所述轻量级卷积神经网
络模型对所述目标移动终端采集的测试图像进
行识别, 以输出所述测试图像对应的人体关键点
图像。
权利要求书2页 说明书7页 附图3页
CN 115273129 A
2022.11.01
CN 115273129 A
1.一种基于神经架构搜索的轻量级人体姿态估计方法, 其特 征在于, 所述方法包括:
构建多通道和多分辨 率的网络模型的搜索空间;
利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型
搜索, 其中, 所述模 型搜索包括通道层次的搜索和模型层次的搜索, 所述原始图像训练集中
的原始图像包 含人体关键点数据;
利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作, 并对剪枝
后的网络模型进行微调, 以得到轻量级卷积神经网络模型;
利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别, 以
输出所述测试图像对应的人体关键点图像。
2.根据权利要求1所述的方法, 其特征在于, 所述网络模型的搜索空间包括茎部结构、
多个特征融合模块、 多个平行模块和头 部结构;
通过所述茎部结构对输入的原始图像进行升维处理和下采样处理, 以增加图像的通道
数量和减小图像的分辨 率, 得到多通道和多分辨 率的特征图像;
通过所述特征融合模块将不同分辨率的特征图像处理为同一分辨率的特征图像并进
行融合处 理;
通过所述平行模块传输同一分辨 率之间的特 征图像;
通过所述头部结构选取目标 特征图像, 并进行 人体关键点的预测。
3.根据权利要求2所述的方法, 其特征在于, 所述茎部结构包括两个步长为2的3 ×3的
卷积模块和4个残差瓶颈模块, 其中, 所述卷积模块包括卷积层、 BN层和Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元, 所述可搜索单元包括1 ×1的第
一卷积模块、 三个并列的纵深卷积模块和1 ×1的第一卷积模块, 三个并列的纵深卷积模块
分别为: 3 ×3纵深卷积模块、 5 ×5纵深卷积模块、 7 ×7纵深卷积模块;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统
一分辨率, 以通道作为 维度方向进 行拼接操作, 并通过一个1 ×1卷积模块将通道数压缩为N
个, 代表需要预测的N个人体姿态关键点。
4.根据权利要求3所述的方法, 其特征在于, 所述模型搜索过程中采用的搜索策略包
括:
其中,
表示搜索过程的总损失函数,
表示预测的人体关键点与真实人体关键点
的均方误差, γ表示BN层的缩放因子, 与可搜索单元中的纵深卷积模块的通道 一一对应, 用
于衡量每个通道的重要性, l表示可搜索单元中纵深卷积模块的每 一个通道的延迟, λ1、 λ2表
示正则化权重, λ1=10‑6, λ2=10‑4, β用来衡量特征融合模块中特征图像之间的拓扑连接的
重要性;
经过若干轮迭代后, 分别将γ和β与预设阈值进行比较, 以将γ和β小于所述预设阈值
的通道和拓扑 结构进行剪枝操作。
5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
根据所述目标移动终端的内存大小和计算速度, 确定所述预设阈值。权 利 要 求 书 1/2 页
2
CN 115273129 A
26.一种基于神经架构搜索的轻量级人体姿态估计装置, 其特 征在于, 所述装置包括:
构建模块, 用于构建多通道和多分辨 率的网络模型的搜索空间;
搜索模块, 用于利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间
进行迭代模型搜索, 其中, 所述模型搜索包括通道层次的搜索和模型层次的搜索, 所述原始
图像训练集中的原 始图像包 含人体关键点数据;
剪枝模块, 用于利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝
操作, 并对剪枝后的网络模型进行微调, 以得到轻量级卷积神经网络模型;
识别模块, 用于利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图
像进行识别, 以输出 所述测试图像对应的人体关键点图像。
7.根据权利要求6所述的装置, 其特征在于, 所述网络模型的搜索空间包括茎部结构、
多个特征融合模块、 多个平行模块和头 部结构;
所述茎部结构, 用于对输入的原始图像进行升维处理和下采样处理, 以增加图像的通
道数量和减小图像的分辨 率, 得到多通道和多分辨 率的特征图像;
所述特征融合模块, 用于将不同分辨率的特征图像处理为同一分辨率的特征图像并进
行融合处 理;
所述平行模块, 用于传输同一分辨 率之间的特 征图像;
所述头部结构, 用于 选取目标 特征图像, 并进行 人体关键点的预测。
8.根据权利要求7所述的装置, 其特征在于, 所述茎部结构包括两个步长为2的3 ×3的
卷积模块和4个残差瓶颈模块, 其中, 所述卷积模块包括卷积层、 BN层和Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元, 所述可搜索单元包括1 ×1的第
一卷积模块、 三个并列的纵深卷积模块和1 ×1的第一卷积模块, 三个并列的纵深卷积模块
分别为: 3 ×3纵深卷积模块、 5 ×5纵深卷积模块、 7 ×7纵深卷积模块;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统
一分辨率, 以通道作为 维度方向进 行拼接操作, 并通过一个1 ×1卷积模块将通道数压缩为N
个, 代表需要预测的N个人体姿态关键点。
9.根据权利要求8所述的装置, 其特征在于, 所述模型搜索过程中采用的搜索策略包
括:
其中,
表示搜索过程的总损失函数,
表示预测的人体关键点与真实人体关键点
的均方误差, γ表示BN层的缩放因子, 与可搜索单元中的纵深卷积模块的通道 一一对应, 用
于衡量每个通道的重要性, l表示可搜索单元中纵深卷积模块的每 一个通道的延迟, λ1、 λ2表
示正则化权重, λ1=10‑6, λ2=10‑4, β用来衡量特征融合模块中特征图像之间的拓扑连接的
重要性;
经过若干轮迭代后, 分别将γ和β与预设阈值进行比较, 以将γ和β小于所述预设阈值
的通道和拓扑 结构进行剪枝操作。
10.根据权利要求9所述的装置, 其特 征在于, 所述装置还 包括:
确定模块, 用于根据所述目标移动终端的内存大小和计算速度, 确定所述预设阈值。权 利 要 求 书 2/2 页
3
CN 115273129 A
3
专利 基于神经架构搜索的轻量级人体姿态估计方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:22:00上传分享