安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211114143.6 (22)申请日 2022.09.14 (71)申请人 广西大学 地址 530000 广西壮 族自治区南宁市西乡 塘区大学东路10 0号 (72)发明人 陈宁江 姚旭艺 曾浩洋  (74)专利代理 机构 深圳市六加知识产权代理有 限公司 4 4372 专利代理师 向彬 (51)Int.Cl. H04L 67/10(2022.01) H04L 41/14(2022.01) G06F 9/445(2018.01) (54)发明名称 基于经验共享深度强化学习的无服务器边 缘任务卸载 方法 (57)摘要 本发明公开了一种基于经验共享深度强化 学习的无服务器边缘任务卸载方法; 所述方法包 括: 对任务卸载性能优化问题进行建模, 通过基 于经验共享深度强化学习生成无服务器边缘任 务卸载方法; 本发明首先将在各个无服务器边缘 计算环境下的任务卸载优化问题建模为马尔可 夫决策过程, 并采用改进的演员评判家Actor ‑ Critic框架的深度强化学习求解; 然后, 各环境 通过位于云中心的回放缓存共享经验 数据, 以提 高数据的多样性、 样本效率, 降低探索成本; 最后 引入了一种基于种群指导的策略搜索方法, 加速 深度强化学习(Deep  Reinforcement  Learning, DRL)智能体收敛且具有更低的探索成本 。 权利要求书3页 说明书7页 附图3页 CN 115499440 A 2022.12.20 CN 115499440 A 1.一种基于经验共享深度强化学习的无服务器边缘任务卸载方法, 其特征在于, 包括 如下步骤: (1)基于经验共享深度强化学习的分布式任务卸载方法ES ‑DRL采用改进的Actor ‑ Critic框架的深度强化学习对任务卸载优化问题求解: 在无服务器边缘计算的有状态和无 状态结合的执行模型场景中, 将多任务卸 载问题转为联合优化问题, 并且将任务卸载决策 过程的性能优化问题建模为马尔可夫决策过程MDP; 利用深度强化学习DRL的优点, 采用在 目标Actor策略的输出动作中加入 策略噪声来平滑期望长期回报Q值、 在Cr itic网络中通过 学习两个Q值函数来避免Q值的过估计以及利用延迟策略更新以获得更小方差的Q值函数估 计的改进Actor ‑Critic框架的DRL 算法进行求 解; (2)利用基于经验共享深度强化学习的分布式任务卸载方法ES ‑DRL优化卸载性能: 为 提高样本多样性和样本效率, 基于经验共享深度强化学习的分布式任务卸载方法ES ‑DRL采 用经验共享分布式学习架构, 该架构中具有多个无服务器计算环境, 每个环境内部署DRL智 能体用于任务卸载决策和环境交互; 每个环境的智能体将经验数据上传至 云回放缓存进 行 共享, 并从中随机抽取批量经验数据进行学习并设计一种基于种群指导的策略搜索方法, 通过共享种群最佳个体信息, 指导种群进化学习, 优化个体网络以提高DRL智能体的收敛速 度, 降低探索成本 。 2.如权利要求1所述的基于经验共享深度强化学习的无服务器边缘任务卸载方法, 其 特征在于, 所述步骤(1)中, 在无服务器边缘计算的有状态和无状态结合的执行模型场景 中, 将多任务卸 载问题转为联合优化问题, 并且将任务卸载决策过程的性能优化问题建模 为马尔可 夫决策过程, 具体包括: 基于MDP的任务卸载优化问题建模: 将任务卸载问题转为联合优化问题; 延迟成本定义 为全部任务的处 理延迟成本之和如式(1): 其中, ai={0,1}, 0表 示任务oi在物联网(Internet  of Things, IoT)本地设备 处理, 1表 示任务oi卸载至边缘服务器中EFaaS处理; Ll表示任务卸载至IoT设备处理的延迟, Le表示任 务 卸 载 至 E F a a S 处 理 的 延 迟 ; 将 时 间 离 散 化 为 多 个 时 间 段 , 称 为 时 间 步 在MDP中, 策略π(At|St)在状态 下采取某个动作 与环 境交互, 环境返回奖励Rt和下一个状态St+1, 并定义SEC环境系统的MDP状态、 动作和奖励如 下: 1)状态: 定义系统状态S={F,G,H,U,qe}, 其中 表示任务信息集合, 表示IoT设备的状态信息集合, H={i,j, σ2}表示信道增益和背景噪声 方差的集合, 表示EFaaS的函数实例计算能力集合qe表示任务oi在EFaaS任 务执行队列的队列延迟, qi表示任务oi在本地任务执行队列的队列延迟, ui为IoT设备oi或 者EFaaS中处理任务oi的函数实例的计算能力; 2)动作: 是基于系统状态 做出的任务卸载决策, 每个任务决策是 一个二进制选择, 动作空间定义为ai∈{0,1}, 其中0表示任务在IoT设备执行, 1表示任务卸 载到EFaaS执行;权 利 要 求 书 1/3 页 2 CN 115499440 A 23)奖励: 为最小化SEC系统延迟成本, 因此定义奖励为系统成本的负值, 即 ‑Lsys, 反映在 时间步t采取动作At时的系统性能。 3.如权利要求1所述的基于经验共享深度强化学习的无服务器边缘任务卸载方法, 其 特征在于, 所述步骤(1)中, 利用DRL的优点, 采用在目标Actor策略的输出动作中加入策略 噪声来平滑期望长期回报Q值、 在Critic网络中通过学习两个Q值函数来避免Q值的过估计 以及利用延迟策略更新以获得更小方差的Q值函数估计的改进Actor ‑Critic框架的DRL算 法进行求 解, 具体包括: 利用改进Actor ‑Critic框架的DRL算法求解关于任务卸载的联合优化问题: 在Actor ‑ Critic框架中为鼓励DRL智能体探索, Actor输出任务卸载动作At后添加探索噪声, 探索噪 声采用高斯噪声; 添加探索噪声后的噪声动作At作用于SEC环境, 环境将向DRL智能体反馈 即时奖励Rt和下一个系统状态St+1, 其中即时奖励Rt等于负的系统延迟成本 值, 即‑Lsys; 经过 与环境的一次交互, 得到一条经验 数据元组(St,At,Rt,St+1)并用于随后网络参数的更新; 将 目标策略平滑集 成到Actor ‑Critic框架; 在目标Actor策略的输出动作中加入策略噪声, 平 滑地计算 Q值, 以避免过拟合, 如式(2): Critic网络在当前策略π下以状态动作对(St,At)作为输入, 并输出对应的期望长期回 报, 即Q值, 表示如式(3): Qπ(St,At)=E[Rt|St,At]    (3) 在边缘计算环境中完整的轨迹基本上是不可达, 采用一步时间差分方TD来近似目标Q 值并基于贝尔曼方程计算, 通过学习两个Q值函数来避免Q值的过估; DQN(Deep  Q‑Network) 使用最大Q值作为目标Q值, 采用深度学习的神经网络近似强化学习的策略时, Q网络算法中 的max操作存在Q值过估计问题, 而ES ‑DRL对Critic网络进行更新时使用最小的Q值作为目 标Q值, 如式(4): 采用均方差损失作为Critic网络的损失函数, 并以损失函数最小化更新网络参数, 计 算如式(5): 其中, B是用于DRL智能体训练的批量经验数据大小, θj表示在线Critic网络参数; A ctor 网络最大化总 折扣奖励的期望, 并使用Q函数近似总 折扣回报, 因此Actor网络的目标函数 为式(6): 其中, φ表示在线Actor网络参数; Actor策略网络参数基于式(6)的策略梯度更新; Actor网络和Critic网络的参数更新过程需经过多轮训练; ES ‑DRL的DRL算法使用经验回放 技术, 重用历史数据来提高样 本效率并赋能DRL智能体的学习能力, 弥补在线 策略算法样本 效率低的差距; 在每一轮训练中, 随机抽取小批量经验数据来更新网络参数。 4.如权利要求3所述的基于经验共享深度强化学习的无服务器边缘任务卸载方法, 其 特征在于, 为使在 线Actor网络达到收敛状态需要进 行多步梯度的更新, 使用目标网络提供权 利 要 求 书 2/3 页 3 CN 115499440 A 3

.PDF文档 专利 基于经验共享深度强化学习的无服务器边缘任务卸载方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于经验共享深度强化学习的无服务器边缘任务卸载方法 第 1 页 专利 基于经验共享深度强化学习的无服务器边缘任务卸载方法 第 2 页 专利 基于经验共享深度强化学习的无服务器边缘任务卸载方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:35:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。