专利 基于神经架构搜索的轻量级人体姿态估计方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210164323.9 (22)申请日 2022.02.22 (71)申请人珠海数字动力科技股份有限公司地址 519000 广东省珠海市大学路101号清华科技园4栋401-40 5 (72)发明人刘振锋　刘正中　梁延研　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师侯丽燕 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于神经架构搜索的轻量级人体姿态估计方法及装置 (57)摘要本发明是关于一种基于神经架构搜索的轻量级人体姿态估计方法及装置，其中，方法包括：构建多通道和多分辨率的网络模型的搜索空间；利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。权利要求书2页说明书7页附图3页 CN 115273129 A 2022.11.01 CN 115273129 A 1.一种基于神经架构搜索的轻量级人体姿态估计方法，其特征在于，所述方法包括：构建多通道和多分辨率的网络模型的搜索空间；利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。 2.根据权利要求1所述的方法，其特征在于，所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构；通过所述茎部结构对输入的原始图像进行升维处理和下采样处理，以增加图像的通道数量和减小图像的分辨率，得到多通道和多分辨率的特征图像；通过所述特征融合模块将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理；通过所述平行模块传输同一分辨率之间的特征图像；通过所述头部结构选取目标特征图像，并进行人体关键点的预测。 3.根据权利要求2所述的方法，其特征在于，所述茎部结构包括两个步长为2的3 ×3的卷积模块和4个残差瓶颈模块，其中，所述卷积模块包括卷积层、 BN层和Relu激活层；所述特征融合模块和所述平行模块中包括可搜索单元，所述可搜索单元包括1 ×1的第一卷积模块、三个并列的纵深卷积模块和1 ×1的第一卷积模块，三个并列的纵深卷积模块分别为： 3 ×3纵深卷积模块、 5 ×5纵深卷积模块、 7 ×7纵深卷积模块；所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率，以通道作为维度方向进行拼接操作，并通过一个1 ×1卷积模块将通道数压缩为N 个，代表需要预测的N个人体姿态关键点。 4.根据权利要求3所述的方法，其特征在于，所述模型搜索过程中采用的搜索策略包括：其中，表示搜索过程的总损失函数，表示预测的人体关键点与真实人体关键点的均方误差， γ表示BN层的缩放因子，与可搜索单元中的纵深卷积模块的通道一一对应，用于衡量每个通道的重要性， l表示可搜索单元中纵深卷积模块的每一个通道的延迟， λ1、 λ2表示正则化权重， λ1＝10‑6， λ2＝10‑4， β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性；经过若干轮迭代后，分别将γ和β与预设阈值进行比较，以将γ和β小于所述预设阈值的通道和拓扑结构进行剪枝操作。 5.根据权利要求 4所述的方法，其特征在于，所述方法还包括：根据所述目标移动终端的内存大小和计算速度，确定所述预设阈值。权　利　要　求　书 1/2 页 2 CN 115273129 A 26.一种基于神经架构搜索的轻量级人体姿态估计装置，其特征在于，所述装置包括：构建模块，用于构建多通道和多分辨率的网络模型的搜索空间；搜索模块，用于利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索，其中，所述模型搜索包括通道层次的搜索和模型层次的搜索，所述原始图像训练集中的原始图像包含人体关键点数据；剪枝模块，用于利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作，并对剪枝后的网络模型进行微调，以得到轻量级卷积神经网络模型；识别模块，用于利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别，以输出所述测试图像对应的人体关键点图像。 7.根据权利要求6所述的装置，其特征在于，所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构；所述茎部结构，用于对输入的原始图像进行升维处理和下采样处理，以增加图像的通道数量和减小图像的分辨率，得到多通道和多分辨率的特征图像；所述特征融合模块，用于将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理；所述平行模块，用于传输同一分辨率之间的特征图像；所述头部结构，用于选取目标特征图像，并进行人体关键点的预测。 8.根据权利要求7所述的装置，其特征在于，所述茎部结构包括两个步长为2的3 ×3的卷积模块和4个残差瓶颈模块，其中，所述卷积模块包括卷积层、 BN层和Relu激活层；所述特征融合模块和所述平行模块中包括可搜索单元，所述可搜索单元包括1 ×1的第一卷积模块、三个并列的纵深卷积模块和1 ×1的第一卷积模块，三个并列的纵深卷积模块分别为： 3 ×3纵深卷积模块、 5 ×5纵深卷积模块、 7 ×7纵深卷积模块；所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率，以通道作为维度方向进行拼接操作，并通过一个1 ×1卷积模块将通道数压缩为N 个，代表需要预测的N个人体姿态关键点。 9.根据权利要求8所述的装置，其特征在于，所述模型搜索过程中采用的搜索策略包括：其中，表示搜索过程的总损失函数，表示预测的人体关键点与真实人体关键点的均方误差， γ表示BN层的缩放因子，与可搜索单元中的纵深卷积模块的通道一一对应，用于衡量每个通道的重要性， l表示可搜索单元中纵深卷积模块的每一个通道的延迟， λ1、 λ2表示正则化权重， λ1＝10‑6， λ2＝10‑4， β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性；经过若干轮迭代后，分别将γ和β与预设阈值进行比较，以将γ和β小于所述预设阈值的通道和拓扑结构进行剪枝操作。 10.根据权利要求9所述的装置，其特征在于，所述装置还包括：确定模块，用于根据所述目标移动终端的内存大小和计算速度，确定所述预设阈值。权　利　要　求　书 2/2 页 3 CN 115273129 A 3

专利 基于神经架构搜索的轻量级人体姿态估计方法及装置

专利基于神经架构搜索的轻量级人体姿态估计方法及装置