基于分簇协同Q-学习的频谱感知算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于分簇协同Q-学习的频谱感知算法
朱翠涛;谢碧锋
【摘要】Due to long sensing time,excess energy consuming and incapability of adaptive, this paper proposes a algorithm of spectrum sensing based on clustering cooperative Q-learning in large-scale cognitive radios systems. The algorithm uses cluster mechanism,divided the large-scale environment into small ones, using the collaborative q-learning in the divided clusters. Obtain the optimal threshold of spectrum detection by continuous processes of “trial and error” in the interac tion between agents and environment . Through this way, the system will have the ability of autonomous learning. The experimental results show that the detection performance of system improved significantly.% 针对大规模认知无线电网络中协同频谱感存在的感知时间长、能量消耗过多、缺乏自适应能力等问题，提出了一种基于分簇协同的Q-学习频谱感知算法。

该算法利用分簇机制，把大规模的环境变成小规模的簇内环境，分簇后簇内采用协同Q-学习，通过代理在与环境交互过程中不断试错来确定频谱检测的最佳门限值，使系统具有自主学习的能力。

实验结果表明：大规模环境下系统的检测性能有显著提高。

【期刊名称】《中南民族大学学报（自然科学版）》
【年(卷),期】2013(000)002
【总页数】4页(P77-80)
【关键词】认知无线电;频谱感知;分簇;协同Q-学习
【作者】朱翠涛;谢碧锋
【作者单位】中南民族大学电子信息工程学院，武汉430074;中南民族大学电子信息工程学院，武汉430074
【正文语种】中文
【中图分类】TM914
在认知无线电网络中，由于地形环境、信道变化和物体遮挡等因素，信号在传输过程中会受到不同程度的衰落、阴影效应等影响[1].为了提高频谱感知的准确性，充分利用空间分集特性，需要认知用户间进行协同感知.然而，对于大规模的认知无线电网络，大量认知用户间的协作会带来感知时间和能量的过多消耗，以及缺乏自适应能力等弊端.针对此问题，文献[2]提出了分簇方法，将接收信号相关性高的认知用户分在同一簇内，把大规模变成簇内的小规模.在认知无线电网络中，分簇应考虑周围环境对检测的影响和主用户的出现、消失、变化等因素.同时，在分簇的基础上，还应考虑簇内采用某种协作机制来提高协同检测的性能，不同簇有不同的噪声环境，因此,针对不同环境，如何自适应背景噪声来设置感知门限是一个有待研究的问题.文献[3]中,经过多次测量噪声功率,通过经验方法来设置能量检测中的门限值.然而在实际应用中，噪声功率是经常发生变化.文献[4]分析并仿真了噪声不确定性对频谱感知性能的影响,前提是假设噪声功率的动态范围是已知的,但是并没有说明如何得到噪声的动态范围.
基于此，本文提出了基于分簇协同的Q-学习频谱感知算法.由认知用户感知频谱信息的相关性进行分簇，相比于传统基于地理位置的分簇算法，更多地考虑频谱环境的特点.分簇后簇内采用协同Q-学习，通过代理在与环境的交互过程中不断试错来
确定频谱检测的最佳门限值.协同Q-学习解决了分簇算法不能自主学习的缺点.同时，分簇机制也解决了大规模认知无线电网络协同Q-学习网络负载增加及复杂性提高
的难题.
1 系统模型
假设认知无线电网络的某一个区域有I个主用户和J个认知用户，它们的地理位置是预先设定好的，不同认知用户与同一授权用户的距离是不相同的，同时它们之间的信号受到不同的衰落、阴影效应等影响，如图1所示.这一区域的频段被分为M 个非重叠的子信道，每个子信道的中心频率是认知用户被分成N个簇，每个簇内
有相等的节点数，选定其中一个作为簇头.
在认知无线电网络的检测期间，设xn(i)为主用户发送的信号，该信号经过信道到
达认知用户处为sn(i)，en(t)是高斯白噪声，均值为0，方差为
图1 系统模型Fig.1 System model
输入信号为xn(i)，认知用户接收的信号有下面两种模型，由下式来判断信道的占
用状态：
H0:sn(i)=en(t),
(1)
H1:sn(i)=h(x)xn(i)+en(t).
(2)
式中，sn(i)为认知用户接收到的信号，H0表示接收到的信号只有噪声，主用户未被占用；H1表示主用户被占用.判断信道状态的公式为：
(3)
式中，E为信号采样得到的能量值，Vt为判断门限值，d表示信道的占用状态.
2 系统总体框图
系统模块框图如图2所示.
图2 系统框图Fig.2 System chart
该系统分为5模块，各个模块的功能如下.
1)预分簇：根据认知节点的地理位置，所有节点做初步分簇，选出各簇内的簇头.
2)相关度分簇：计算簇头与各认知节点的相关度，在第一步的基础上做更准确的分簇，保证每个簇内都有相同数目的认知节点.
3)簇协同Q-学习：先预设一个门限值得到主用户的状态并发送到簇头，得到Q-学习的状态.用M-out-of-N规则得到簇的检测状态.
4)簇头间决策融合：簇头间通信后采用一致性的决策融合算法得到主用户的占用状态.并把该状态返回给CR，把该状态做为簇内协同Q-学习的实际状态.重复3)、4)，直到簇内主用户在的占用比率与簇间得到的主用户占用比率相差小于某个最小值时，循环结束.得到各个簇检测的门限值Vt，该门限值作为下一时段频谱感知的起始门限.
5)每一时刻由门限值得到各个主用户状态，检测结束得到所有时刻主用户的感知状态.
3 相关性分簇
系统根据地理位置进行一个预分簇处理，选定其中一个节点为簇头.计算认知节点
与簇头的相关性，相关性计算根据文献[2]中的公式：
Rn,m=,
(4)
则相关系数的分布函数[2]可以写为：
(5)
由(5)式的分布函数，积分即可得到两个信号的相关系数.系统一共有N个簇，每个
簇内有n个节点，除簇头外一共有N×(n-1)个认知节点，积分得到相关系数矩阵.分簇过程为：1)计算簇头与其它认知节点感知信号的相关系数，把相关系数按降序保存在N×(N×(n-1))矩阵中；2)其中矩阵每一行前(n-1)个是跟该簇头相关系数最高的；3)假如不同簇前面(n-1)个元素均不相同，则分簇结束.假如某个节点在某些簇中均属于前面(n-1)个元素，则该节点跟相关系数最大的节点属于同一簇，其它不足(n-1)个元素的簇由后面的元素补上，保证每个簇都有n个元素，分簇结束.
4 分簇协同Q-学习算法
假设一个簇内有n个CR协同检测某个信道的状态，每个CR在t时刻输出一位检测数据di,t,f,i=0,1,di,t,f∈{0,1},0表示信道空闲，1表示信道被占用，(n-1)个一位二进制可以构成个(n-1)位的二进制整数，用该整数来表示为Q-学习的状态[7]，状态范围为st,f∈[0,2n-1]，r为Q-学习的立即回报值，状态由下式得到：
(6)
在该系统中，立即回报值r通过下面的方法获得：
(7)
其中Rp=1,Rf=-1为常量N.该系统中行为a有两个动作：(1)增加门限值；(2)减小门限值.V0为初始门限值，Vt通过下式更新：
Vt=V0+0.05×Q,
(8)
Q值的更新公式为：
Q(s,a)=Q(s,a)+α·(r+γ·E(s′)-Q(s,a)),
(9)
Q(s,a)的初始值为，其中Q(s,a)∈[-10,10].
簇协同Q-学习算法流程为：
1)初始化Q表为全零，α=γ=0.1，初始门限值V0；
2)读取第一个采样值即t=1，认知用户采样能量值与门限值Vt比较，得到每个认
知用户检测状态di,t,f；
3)把各个认知节点的di,t,f发送到簇头用(6)式计算出簇内Q-学习的状态s=st,f，
簇头间通信得到系统的检测主用户的状态ssys.把该状态作为Q-学习的实际状态；
4)通过公式(7)选择动作执行，得到立即回报值；
5)由式(9)计算Q值.把Q值代入公式(8)更新门限值；
6)当|k1-k2|<0.001时循环结束，记录下此时每个簇内的门限值Vt，它作为下一
个时刻簇内频谱感知的起始值，记录下该次采样系统得到的检测状态；
7)跳到下一个采样时刻t←t+1,更新初始门限值跳到2)继续执行，直到到采样结束为止.频谱检测结束，得到每个采样时刻的状态.
5 簇头间决策融合
簇头通过少数服从多数来判断系统的检测状态，每个簇头输出一位二进制数
sc,k,k=1,2L,N,表示簇内频谱检测的状态，其中sc,k={0,1}，0表示信道未被占用，1表示信道被主用户占用.簇头间融合规则为m-out-of-n，融合后的决策称为ssys，则系统决策判断公式为：
.
(10)
判断系统性能的标准为检测概率和虚警概率：1)检测概率PD(当实际状态为“忙”时系统正确检测出信道的状态为“忙”的概率)；2)虚警概率(当实际状态为“空闲”检测为“忙”的概率).计算公式如下：
PD=,PFA= .
(11)
D为状态为“忙”的信道总数，FA为状态为“空闲”时的信道总数；d为检测到的状态为“忙”的信道数量，fa为状态为“空闲”时没有检测到的信道数量.
6 仿真与分析
该系统检测在固定区域内3个信道的占用状态，不同的认知用户的SNR不同，变化范围为-25～20 dB，认知用户接收的信号长度为N=512.本文直接调用系统的信道函数.下面的仿真均为检测3个主用户的信道状态.其中:簇内节点数=总节点数÷簇数,余数节点抛弃.
实验1：簇数为5和10，在不同认知节点数目下的检测概率和虚警概率.
认知节点数目图3 不同认知节点数目下的检测概率Fig.3 Detection probability in different total cognitive nodes
认知节点数目图4 不同认知节点数目下的虚警概率Fig.4 False-alarm probability in different total cognitive nodes
由图3,4可以看出，当簇内只有一个CR时检测概率较低.当簇内CR增加，簇内
Q-学习开始，检测概率逐渐增加.当节点数达到某个数时，检测概率稳定到最大值和虚假概率稳定到最小值.节点数目再增加检测效果不变.
实验2：在认知节点数目都为70，分簇数不同情况下的检测概率和虚警概率.
图5和图6说明，在70个认知节点的条件下，随着分簇数目的增加，检测概率增大，当分为8簇时检测概率最大和虚警概率最小，此时簇内认知节点数目也为8.当分簇数目再增加时检测概率开始减小和虚警概率开始增大.所以当分簇数和簇内节点数相等时，系统有最佳的检测效果.
分簇数目图5 不同分簇数的检测概率Fig.5 Detection probability in different total clusters
分簇数目图6 不同分簇数的虚警概率Fig.6 False-alarm probability in different total clusters
7 结语
本文针对大规模认知无线电网络中协同频谱感知系统中存在问题，提出了一种基于分簇协同的Q-学习频谱感知算法，该算法在分簇数目确定的情况下随着节点数目的增加能提高系统的检测概率；系统在节点数确定的情况下，当分簇数和簇内节点数相等时检测概率最大和虚警概率最小.实验结果表明:大规模环境下分簇Q-学习算法能显著提高系统的检测性能.
参考文献
【相关文献】
[1]Jia Juncheng,Zhang Jin,Zhang Qian.Cooperative relay for cognitive radio
networks[C]//IEEE.IEEE International Conference on Computer Communications
2009.Riode Janeiro:IEEE,2009: 2304-2312.
[2]孙剑锋,高锦春,刘元安,等.基于频谱感知结果的认知无线电用户分簇方法[J].电子与信息学
报,2012,34(4): 782-786.
[3]Bai Zhiquan,Wang Li,Zhang Haixia,et al.Cluster- based cooperative spectrum sensing for cognitive radio under bandwidth constraints [C]//IEEE.12th IEEE Internati onal Conference on Communication Systems 2010.Cape Town:IEEE,2010:569-573.
[4]Goli Sepideh Afkhami,Yousefi Hamed,Movaghar AliAn.Efficient distributed cluster-head election technique for load balancing in wireless sensor networks [C]//IEEE.2010 6th International Conference on Intelligent Sensors,Sensor Networks and InformationProcessing.Brisbane:IEEE,2010: 227-232.
[5]Guo Lejiang,Chen Fangxin,Dai Zhicheng,et al.WSN cluster head selection algorithm based on neural network [C]//IEEE.2010 International Conference on Machine Vision and Human Machine Interface.Kaifeng:IEEE,2010: 258-260.
[6]Mitola J,Maquire G J.Cognitive radios: making software radios more personal [J].IEEE Personal Communications,1999,6(4): 13-18.
[7]Zhe Chen,Rober C.Qiu.Cooperative spectrum sensing using Q-learning with experimental validation[J].IEEE Personal Communications,2011,6(4): 405-408.。