专利 基于深度强化学习的涂装轨迹智能规划方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221083127 7.3 (22)申请日 2022.07.15 (71)申请人清华大学地址 100084 北京市海淀区清华园 (72)发明人王国磊　李亚昕　张剑辉　刘兴杰　徐嵩　艾嘉文　吴丹　 (74)专利代理机构北京鸿元知识产权代理有限公司 11327 专利代理师王守梅　袁文婷 (51)Int.Cl. G06F 30/20(2020.01) G06F 30/27(2020.01) G06N 3/08(2006.01) (54)发明名称基于深度强化学习的涂装轨迹智能规划方法 (57)摘要本发明涉及人工智能技术领域，揭露一种基于深度强化学习的涂装轨迹智能规划方法，通过将喷涂过程抽象为马尔科夫决策过程，利用喷涂过程中喷枪与仿真环境的交互，使得涂装轨迹的确定与待喷涂工件表面的实时状态息息相关；本发明的基于深度强化学习的涂装轨迹智能规划方法综合考虑了喷涂过程中的工艺参数和喷涂轨迹的耦合影响，有效获取最优的涂装轨迹，有效地解决了改善复杂曲面的涂层厚度控制和喷涂轨迹计算的问题。权利要求书4页说明书16页附图5页 CN 115408813 A 2022.11.29 CN 115408813 A 1.一种基于深度强化学习的涂装轨迹智能规划方法，应用于电子装置，其特征在于，所述方法包括：获取待喷涂工件的模型数据，并按照预设的涂装精度标准对所述待喷涂工件的模型进行格栅化划分，将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列，获得初始化的状态向量；将所述初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型，获取喷涂动作向量；并根据所述喷涂动作向量，确定下一时刻的喷涂轨迹；在仿真环境下，按照所述喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作，利用漆膜厚度沉积模型，确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响；根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响，更新下一时刻的状态向量；根据下一时刻的状态向量，利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹；循环执行，直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及所述喷涂动作向量所对应的喷涂轨迹。 2.如权利要求1所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，通过设定最大迭代次数，对基于深度强化学习的涂装控制策略模型进行迭代训练，所述迭代训练的方法包括：随机初始化所述基于深度强化学习的涂装控制策略模型的参数，初始化网络训练迭代次数为1，并清空深度强化学习的经验回放池；其中，所述基于深度强化学习的涂装控制策略模型包括以mn维状态向量s为输入， l维动作向量a为输出的Actor网络和Actortarget网络，以及，以l维动作向量a为输入，数值Q为输出的Critic网络和Critictarget网络；其中，所述的 Critic网络和CriticTarget网络各包括两个网络；所述基于深度强化学习的涂装控制策略模型的参数包括Actor网络的参数、 Actortarget网络的参数、 Critic网络的参数和Critictarget 网络的参数；所述Actortarget网络的参数通过复制对应的Actortarget网络的参数得到， Critictarget网络的参数通过复制对应的Critic网络的参数得到；更新状态向量st，基于状态向量st获取Actor网络的输出喷涂动作向量at；基于喷涂动作向量at计算喷涂动作向量对应的喷涂轨迹T，利用漆膜厚度沉积模型更新待喷涂工件的漆膜厚度分布情况，得到状态向量st+1；基于状态向量st+1和奖励函数R计算实时奖励reward；并以stb＝done是否成立，判断喷涂过程是否终止；根据所获取的状态向量st、喷涂动作向量at、动状态向量st+1和实时奖励reward，确定集合{st,at,st+1,reward,stb}；将所述集合{st,at,st+1,reward,stb}存入所述深度学习的经验回放池D，令t＝t+1，循环执行，直至达到经验回放池D的最大容量；从经验回放池D中进行m次随机采样，获得{sj,aj,sj+1,reward,sjb}， j＝1,2,...,m，计算当前策略π 下理论 Q值；使用均方差损失函数，通过神经网络的梯度反向传播对Critic网络的参数ω进行更新；当迭代次数为延迟更新基数d的整数倍时，使用损失函数通过神经网络的梯度反向传权　利　要　求　书 1/4 页 2 CN 115408813 A 2播对Actor 网络的参数θ进行更新，并将更新后的Critic网络的参数和Actor网络的参数分别复制给对应的Critictarget网络和Actortarget网络；进行迭代训练，直至达到设定最大迭代次数；获得训练好的基于深度强化学习的涂装控制策略模型。 3.如权利要求2中所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，状态向量s＝(ω0,ω1,ω2,...,ωmn‑1)T， ωi表示数组下标为i的点云簇中所有数据点的漆膜厚度 δ 的平均值；其中，点云簇Ω中数据点Ωk处漆膜厚度 δ 通过以下步骤获取：计算喷枪在轨迹点Ti的停留时间t；以轨迹点Ti为原点，构建局部坐标系Γlocal和漆膜厚度沉积模型，寻找点云簇Ω中位于涂覆面积中的数据点Ωk，计算数据点Ωk在时间t内获得的漆膜沉积厚度 δk；分别计算轨迹T中各轨迹点对数据点Ωk所产生的的漆膜沉积厚度 δk，则，最终的漆膜厚度 δ 为： δ ＝∑ δk。 4.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，所述漆膜厚度沉积模型为由平面涂层厚度模型转换得到的自由曲面涂层厚度分布模型；由平面涂层厚度模型转换得到的自由曲面涂层厚度分布模型，通过以下公式实现：其中， qΩ表示当前喷涂范围内点云簇Ω表面的数据点Ωi的涂层厚度沉积速率， qt表示基准平面的涂层厚度沉积速率， x,y表示数据点Ωi的坐标描述； d表示喷枪中心点到理论平面的距离高度， d'为喷枪中心点到基准平面的距离高度， α 表示数据点Ωi切平面法矢n与喷枪轴线方向的夹角， θ表示喷枪轴线与垂线段方向的夹角； a0,b0分别表示理论平面上喷涂椭圆的长短轴的长度， qmax表示理论平面的涂层沉积率系数， β1, β2表示沉积模型分布系数。 5.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法，其特征在于，获取待喷涂工件的模型数据，并按照预设的精度标准对所述待喷涂工件进行格栅化划分的方法，包括，获取待喷涂工件的模型数据；其中，所述模型数据为点云数据或CAD模型数据；根据所述待喷涂工件的模型数据，利用视觉传感器获取待喷涂工件的三维空间的点云数据，或将所述CAD模型数据转换为点云数据；按照精度需求确定分割的间隔尺寸，按照所述分割的间隔尺寸将待喷涂工件进行m ×n 栅格化划分，并反向映射至三维空间的点云数据中；将所述三维空间的点云数据分割为m ×n的点云簇，每个栅格对应一个数组，每个数组权　利　要　求　书 2/4 页 3 CN 115408813 A 3

专利 基于深度强化学习的涂装轨迹智能规划方法

专利基于深度强化学习的涂装轨迹智能规划方法