(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221083127 7.3
(22)申请日 2022.07.15
(71)申请人 清华大学
地址 100084 北京市海淀区清华园
(72)发明人 王国磊 李亚昕 张剑辉 刘兴杰
徐嵩 艾嘉文 吴丹
(74)专利代理 机构 北京鸿元知识产权代理有限
公司 11327
专利代理师 王守梅 袁文婷
(51)Int.Cl.
G06F 30/20(2020.01)
G06F 30/27(2020.01)
G06N 3/08(2006.01)
(54)发明名称
基于深度强化学习的涂装轨迹智能规划方
法
(57)摘要
本发明涉及人工智能技术领域, 揭露一种基
于深度强化学习的涂装轨迹智能规划方法, 通过
将喷涂过程抽象为马尔科夫决策过程, 利用喷涂
过程中喷枪与仿真环境的交互, 使得涂装轨迹的
确定与待喷涂工件表面的实时状态息息相关; 本
发明的基于深度强化学习的涂装轨迹智能规划
方法综合考虑了喷涂过程中的工艺参数和喷涂
轨迹的耦合影响, 有效获取最优的涂装轨迹, 有
效地解决了改善复杂曲面的涂层厚度控制和喷
涂轨迹计算的问题。
权利要求书4页 说明书16页 附图5页
CN 115408813 A
2022.11.29
CN 115408813 A
1.一种基于深度强化学习的涂装轨迹智能规划方法, 应用于电子装置, 其特征在于, 所
述方法包括:
获取待喷涂工件的模型数据, 并按照预设的涂装精度标准对所述待喷涂工件的模型进
行格栅化划分, 将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列, 获得初
始化的状态向量;
将所述初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型, 获取
喷涂动作向量; 并根据所述喷涂动作向量, 确定下一时刻的喷涂 轨迹;
在仿真环境下, 按照所述喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作,
利用漆膜厚度沉积模型, 确定每条喷涂 轨迹对待喷涂 工件的漆膜厚度分布情况的影响;
根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响, 更新下一 时刻的状态向
量;
根据下一 时刻的状态向量, 利用预训练好的基于深度强化学习的涂装控制策略模型确
定喷涂动作向量所对应的下一时刻的喷涂轨迹; 循环执行, 直至确定 喷涂过程中每一时刻
的状态向量、 喷涂动作向量以及所述喷涂动作向量所对应的喷涂 轨迹。
2.如权利要求1所述的基于深度强化学习的涂装轨迹智能规划方法, 其特征在于, 通过
设定最大迭代 次数, 对基于深度强化学习的涂装控制策略模型进行迭代训练, 所述迭代训
练的方法包括:
随机初始化所述基于深度强化学习的涂装控制策略模型的参数, 初始化网络训练迭代
次数为1, 并清空深度强化学习的经验回放池; 其中, 所述基于深度强化学习的涂装控制策
略模型包括以mn维状态向量s为输入, l维动作向量a为输出的Actor网络和Actortarget网络,
以及, 以l维动作向量a为输入, 数值Q为输出的Critic网络和Critictarget网络; 其中, 所述的
Critic网络和CriticTarget网络各包括两个网络; 所述基于深度强化学习的涂装控制策略模
型的参数包括Actor网络的参数、 Actortarget网络的参数、 Critic网络的参数和Critictarget
网络的参数; 所述Actortarget网络的参数通过复制对应的Actortarget网络的参数得到,
Critictarget网络的参数通过复制对应的Critic网络的参数 得到;
更新状态向量st, 基于状态向量st获取Actor网络的输出喷涂动作向量at;
基于喷涂动作向量at计算喷涂动作向量对应的喷涂轨迹T, 利用漆膜厚度沉积 模型更新
待喷涂工件的漆膜厚度分布情况, 得到状态向量st+1;
基于状态向量st+1和奖励函数R计算实时奖励reward; 并以stb=done是否成立, 判断喷
涂过程是否终止;
根据所获取的状态向量st、 喷涂动作向量at、 动状态向量st+1和实时奖励reward, 确定集
合{st,at,st+1,reward,stb};
将所述集合{st,at,st+1,reward,stb}存入所述深度学习的经验回放池D, 令t=t+1, 循环
执行, 直至达到经验回放池D的最大容 量;
从经验回放池D中进行m次随机采样, 获得{sj,aj,sj+1,reward,sjb}, j=1,2,...,m, 计算
当前策略π 下理论 Q值;
使用均方差损失函数, 通过神经网络的梯度反向传播对Critic网络的参数ω进行更
新;
当迭代次数为延迟更新基数d的整数倍时, 使用损 失函数通过神经网络的梯度反向传权 利 要 求 书 1/4 页
2
CN 115408813 A
2播对Actor 网络的参数θ进行更新, 并将更新后的Critic网络的参数和Actor网络的参数分
别复制给对应的Critictarget网络和Actortarget网络;
进行迭代训练, 直至达到设定最大迭代次数; 获得训练好的基于深度强化学习的涂装
控制策略模型。
3.如权利要求2中所述的基于深度强化学习的涂装轨迹智能规划方法, 其特征在于, 状
态向量s=(ω0,ω1,ω2,...,ωmn‑1)T, ωi表示数组下标为i的点云簇中所有数据点的漆膜
厚度 δ 的平均值;
其中, 点云簇Ω中数据点Ωk处漆膜厚度 δ 通过以下步骤获取:
计算喷枪在轨 迹点Ti的停留时间t;
以轨迹点Ti为原点, 构 建局部坐标系Γlocal和漆膜厚度沉积模型, 寻找点云簇Ω中位于
涂覆面积中的数据点Ωk, 计算数据点Ωk在时间t内获得的漆膜沉积厚度 δk;
分别计算轨迹T中各轨迹点对数据点Ωk所产生的的漆膜沉积厚度 δk, 则, 最终的漆膜厚
度 δ 为: δ =∑ δk。
4.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法, 其特征在于, 所述
漆膜厚度沉积模型为由平面涂层厚度模型转换 得到的自由曲面涂层厚度分布模型;
由平面涂层厚度模型转换 得到的自由曲面涂层厚度分布模型, 通过以下公式实现:
其中, qΩ表示当前喷涂范围内点云簇Ω表面的数据点Ωi的涂层厚度沉积速率, qt表示
基准平面的涂层厚度沉积速率, x,y表示数据点Ωi的坐标描述; d表示喷枪中心点到理论平
面的距离高度, d'为喷枪中心点到基准平面的距离高度, α 表示数据点Ωi切平面法矢n与喷
枪轴线方向的夹角, θ表示喷枪轴线与垂 线段方向的夹角; a0,b0分别表示理论平面 上喷涂椭
圆的长短轴的长度, qmax表示理论平面的涂层沉积率系数, β1, β2表示沉积模型分布系数。
5.如权利要求2所述的基于深度强化学习的涂装轨迹智能规划方法, 其特征在于, 获取
待喷涂工件的模型数据, 并按照预设的精度标准对所述待喷涂工件进行格栅化划分的方
法, 包括,
获取待喷涂 工件的模型 数据; 其中, 所述模型 数据为点云数据或CAD模型 数据;
根据所述待喷涂工件的模型数据, 利用视觉传感器获取待喷涂工件的三维空间的点云
数据, 或将所述CAD模型 数据转换为 点云数据;
按照精度需求确定分割的间隔尺寸, 按照所述分割的间隔尺寸将待喷涂工件进行m ×n
栅格化划分, 并反向映射至三维空间的点云数据中;
将所述三维空间的点云数据分割为m ×n的点云簇, 每个栅格对应一个数组, 每个数组权 利 要 求 书 2/4 页
3
CN 115408813 A
3
专利 基于深度强化学习的涂装轨迹智能规划方法
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:49:14上传分享