(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910013868.8(22)申请日2019.01.08(71)申请人华中科技大学地址430074湖北省武汉市洪山区珞喻路1037号(72)发明人李强 张雪艳 楼瀚琼 葛晓虎 肖泳 黄晓庆 (74)专利代理机构华中科技大学专利中心42201代理人李智 曹葆青(51)Int.Cl.H04W52/24(2009.01)H04W52/26(2009.01)H04W52/38(2009.01)H04W72/04(2009.01)H04W72/08(2009.01)G06Q50/30(2012.01)G06Q10/06(2012.01)(54)发明名称一种基于深度强化学习DDPG算法的D2D用户资源分配方法(57)摘要本发明公开了一种基于深度强化学习DDPG算法的D2D用户资源分配方法,本发明利用蜂窝用户和D2D用户相关信息,利用深度强化学习方法获得了最优的D2D用户信道分配和发射功率联合优化策略,D2D用户通过选择合适的发射功率和分配信道,来降低对蜂窝用户的干扰,同时最大化自身的信息速率,在不影响蜂窝用户QoS的情况下实现了高效资源分配,提高了蜂窝网络的吞吐量,符合绿色通信的要求。DDPG算法有效解决D2D用户信道分配和功率控制的联合优化问题,不仅在一系列连续动作空间的优化中表现稳定,而且求得最优解所需要的时间步也远远少于DQN,与基于值函数的DRL方法相比,基于AC框架的深度策略梯度方法优化策略效率更高、求解速度更快。权利要求书3页说明书9页附图2页CN109862610A2019.06.07CN109862610A1.一种基于深度强化学习DDPG算法的D2D用户资源分配方法,其特征在于,所述D2D用户与蜂窝用户之间采用共用信道模式通信,所述方法包括以下步骤:步骤S1.采集D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率、D2D用户与蜂窝用户的共用信道信息,并设定蜂窝用户的目标数据速率;步骤S2.根据D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率和目标数据速率、D2D用户与蜂窝用户的共用信道信息,建立深度强化学习模型;步骤S3.利用DDPG算法优化深度强化学习模型;步骤S4.根据优化后的深度强化学习模型,得到最优D2D用户发射功率和信道分配策略。2.如权利要求1所述的D2D用户资源分配方法,其特征在于,第m个D2D用户在时刻t的可达数据速率Rm(t)计算公式如下:Rm(t)=Blog2(1+Γm(t))其中,B为信道带宽,Γm(t)为第m个D2D用户在时刻t的接收SINR,为第m个D2D用户对在时刻t的发射功率,Pc为蜂窝用户的发射功率,hm(t)为组成D2D用户对的D2D用户之间的信道系数,hc(t)为蜂窝用户和与其共用信道的D2D用户之间的信道系数,σ12为蜂窝用户和与其共用信道的D2D用户之间的通信链路中的加性高斯白噪声功率;与第m个D2D用户共用信道的蜂窝用户在时刻t的可达数据速率Rc(t)计算公式如下:Rc(t)=Blog2(1+Γc(t))其中,B为信道带宽,Γc(t)为与第m个D2D用户共用信道的蜂窝用户在时刻t的接收SINR,为第m个D2D用户对在时刻t的发射功率,Pc为蜂窝用户的发射功率,h′c(t)为蜂窝用户与基站之间的信道系数,h′m(t)为D2D用户与基站之间的信道系数,σ22为D2D用户与基站之间的通信链路中的加性高斯白噪声功率,1≤m≤M,M为基站信号覆盖范围的D2D用户对总个数。3.如权利要求1所述的D2D用户资源分配方法,其特征在于,对于第m个D2D用户对,其在时刻t共用信道信息为:若则第n个信道被蜂窝用户和第m个D2D用户对共用,同时有且i≠n,即M为基站信号覆盖范围的D2D用户对总个数,N为基站可用信道总数。4.如权利要求1所述的D2D用户资源分配方法,其特征在于,建立的深度强化学习模型权 利 要 求 书1/3页2CN109862610A2包括:状态空间为蜂窝用户对服务质量的满意度,在时刻t定义状态为若第m个D2D用户共用第n个信道,则有其中,Rth为蜂窝用户的目标数据速率,Rc(t)为蜂窝用户的可达数据速率,为第m个D2D用户对共用第n条信道时在时刻t的状态;D2D用户的动作空间包括发射功率和共用信道两个变量,表示为:其中,为第m个D2D用户在时刻t的发射功率,为第n个信道被蜂窝用户和第m个D2D用户共用情况;D2D用户的奖励函数为:其中,Rc(t)为蜂窝用户的可达数据速率,Rth为蜂窝用户的目标数据速率,Rm(t)为D2D用户的可达数据速率,Ψ为负常数;评估函数表示从状态开始,选择执行动作后产生的折扣奖励,Q值更新函数为:其中,为即时奖励函数,γ为折扣因子,为第m个D2D用户对共用第n条信道时在时刻(t+1)的状态,为第m个D2D用户在时刻(t+1)的动作,A为动作构成的动作空间,N为基站可用信道总数。5.如权利要求1所述的D2D用户资源分配方法,其特征在于,所述利用DDPG算法优化深度强化学习模型具体包括以下步骤:S301.训练回合数p初始化为1;S302.p回合中的时间步t初始化为1;S303.在线Actor策略网络根据输入状态st,输出动作at,并获取即时的奖励rt,同时转到下一状态st+1,从而获得训练数据(st,at,rt,st+1);S304.将训练数据(st,at,rt,st+1)存入经验回放池中;S305.从经验回放池中随机采样T个训练数据(si,ai,ri,si+1)构成数据集,发送给在线Actor策略网络、在线Critic评价网络、目标Actor策略网络和目标Critic评价网络;S306.根据采样得到的数据集,目标Actor策略网络根据状态si+1输出动作a′i+1,目标权 利 要 求 书2/3页3CN109862610A3Critic评价网络根据状态si+1和目标Actor策略网络输出的动作a′i+1,输出评估函数Q′(si+1,a′i+1|θ′)给损耗梯度函数在线Critic评价网络根据状态si、动作ai和即时奖励ri,输出评估函数Q(si,ai|θ)给抽样策略梯度和损耗函数梯度根据损耗函数梯度更新在线Critic评价网络参数θ;在线Actor策略网络将动作ai输出给抽样策略梯度并根据更新在线Actor策略网络参数δ,1≤i≤T;S307.根据在线网络参数δ和θ分别更新目标网络参数δ'和θ':δ′←τδ+(1-τ)δ′;θ′←τθ+(1-τ)θ′;其中,τ为在线网络参数的权重;S308.判断是否满足t<K,K为p回合中的总时间步,若是,t=t+1,进入步骤S303,否则,进入步骤S309;S309.判断是否满足p<I,I为训练回合数设定阈值,若是,p=p+1,进入步骤S302,否则,优化结束,得到优化后的深度强化学习模型。6.如权利要求5所述的D2D用户资源分配方法,其特征在于,参数更新梯度公式为:7.如权利要求1所述的D2D用户资源分配方法,其特征在于,步骤S4具体为:输入系统某时刻的状态信息sm(t),输出最优动作策略得到最优的D2D用户发射功率和分配信道8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的D2D用户资源分配方法。权 利 要 求 书3/3页4CN109862610A4一种基于深度强化学习DDPG算法的D2D用户资源分配方法技术领域[0001]本发明属于无线通信技术领域,更具体地,涉及一种基于深度强化学习DDPG算法的D2D用户资源分配方法。背景技术[0002]随着无线通信本地业务的日益增长,蜂窝网络承载压力越来越大。终端直接通信(D2D,Device-to-Device)技术作为5G通信关键技术之一,允许临近终端在基站的控制下,互相之间直接进行数据共用,形成数据共用网络,共用蜂窝网络的信道资源以达到减轻基站负担、提升频谱利用率、提高系统吞吐量的目的。[0003]D2D通信是一种允许终端之间通过共用小区资源直接进行通信的新型技术,它能够增加蜂窝系统的频谱利用效率、减轻蜂窝小区基站的负荷、降低终端发射功率、提升系统整体吞吐量,在一定程度上解决无线通信系统频谱资源匮乏的问题。D2D用户可以采用三种模式进行通信:①蜂窝模式,该通信模式与传统的蜂窝通信模式一样,即通过基站的中继来实现两用户之间的信息传输。当两个用户的距离较远时,通常会选择蜂窝模式;②专用信道模式,该模式下,两用户直接通信,不需要通过基站中继,使用专用的信道;③共用信道模式,该模式下,两用户直接通信。与专用信道模式不同,共用信道模式下,D2D用户与共用蜂窝用户(Cellular User,CU)共用信道。[0004]在D2D通信系统模型中,将D2D技术应用到蜂窝通信网中可以有效卸载基站流量,提高频谱利用率,但是D2D用户在共用蜂窝用户的信道时,会对已经接入的用户造成干扰,影响用户的性能,导致系统性能下降。因此,D2D用户如何自主选择合适的通信信道和发射功率,将直接影响整个通信系统的服务质量。发明内容[0005]针对现有技术的缺陷,本发明的目的在于解决现有技术中D2D用户在共用蜂窝用户的信道时,会对已经接入的用户造成干扰,影响用户的性能的技术问题。[0006]为实现上述目的,第一方面,本发明实施例提供了一种基于深度强化学习DDPG算法的D2D用户资源分配方法,所述D2D用户与蜂窝用户之间采用共用信道模式通信,所述方法包括以下步骤:[0007]步骤S1.采集D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率、D2D用户与蜂窝用户的共用信道信息,并设定蜂窝用户的目标数据速率;[0008]步骤S2.根据D2D用户的可达数据速率和发射功率、蜂窝用户的可达数据速率和目标数据速率、D2D用户与蜂窝用户的共用信道信息,建立深度强化学习模型;[0009]步骤S3.利用DDPG算法优化深度强化学习模型;[0010]步骤S4.根据优化后的深度强化学习模型,得到最优D2D用户发射功率和信道分配策略。[0011]具体地,第m个D2D用户在时刻t的可达数据速率Rm(t)计算公式如下:说 明 书1/9页5CN109862610A5[0012]Rm(t)=Blog2(1+Γm(t))[0013][0014]其中,B为信道带宽,Γm(t)为第m个D2D用户在时刻t的接收SINR,为第m个D2D用户对在时刻t的发射功率,Pc为蜂窝用户的发射功率,hm(t)为组成D2D用户对的D2D用户之间的信道系数,hc(t)为蜂窝用户和与其共用信道的D2D用户之间的信道系数,σ12为蜂窝用户和与其共用信道的D2D用户之间的通信链路中的加性高斯白噪声功率;[0015]与第m个D2D用户共用信道的蜂窝用户在时刻t的可达数据速率Rc(t)计算公式如下:[0016]Rc(t)=Blog2(1+Γc(t))[0017][0018]其中,B为信道带宽,Γc(t)为与第m个D2D用户共用信道的蜂窝用户在时刻t的接收SINR,为第m个D2D用户对在时刻t的发射功率,Pc为蜂窝用户的发射功率,hc(t)为蜂窝用户与基站之间的信道系数,h′m(t)为D2D用户与基站之间的信道系数,σ22为D2D用户与基站之间的通信链路中的加性高斯白噪声功率,1≤m≤M,M为基站信号覆盖范围的D2D用户对总个数。[0019]具体地,对于第m个D2D用户对,其在时刻t共用信道信息为:[0020][0021]若则第n个信道被蜂窝用户和第m个D2D用户对共用,同时有且i≠n,即M为基站信号覆盖范围的D2D用户对总个数,N为基站可用信道总数。[0022]具体地,建立的深度强化学习模型包括:[0023]状态空间为蜂窝用户对服务质量的满意度,在时刻t定义状态为[0024][0025]若第m个D2D用户共用第n个信道,则有[0026][0027]其中,Rth为蜂窝用户的目标数据速率,Rc(t)为蜂窝用户的可达数据速率,为第m个D2D用户对共用第n条