基于随机森林分类的快速标签检测_章沛_陈小瑜

合集下载

【原创】Random Forest (随机森林)文献阅读汇报PPT

【原创】Random Forest (随机森林)文献阅读汇报PPT
Sheng-Chen Zhou (SILC, SHU)
17
改进平衡随机森林算法(IBRF)
• 集成BRF和WRF 的特征。 • 引入区间变量m和d。
Sheng-Chen Zhou (SILC, SHU)
18
IBRF架构
Sheng-Chen Zhou (SILC, SHU)
19
算法实验结果
Sheng-Chen Zhou (SILC, SHU)
随机决策树 vs KNN
Sheng-Chen Zhou (SILC, SHU)
14
应用:客户流失预测
• 应维云. "随机森林方法及其在客户流失预测中 的应用研究." 管理评论 24.002 (2012): 140-145. • 客户流失数据中正负样本数量不平衡而且数据 量大,提出一种改进的平衡随机森林算法,应 用于某商业银行的客户流失预测。
Sheng-Chen Zhou (SILC, SHU)
5
随机森林的回归和分类算法
Sheng-Chen Zhou (SILC, SHU)
6
Sheng-Chen Zhou (SILC, SHU)
7
随机森林构建的特点
• 1、随机森林的随机性体现在每棵树的训练 样本是随机的,树中每个节点的分类属性 也是随机选择的。有了这2个随机的保证, 随机森林就不会产生过拟合的现象了。 • 2、随机森林中有两个量需要人为控制:一 个是森林中树的数量,另一个是m的大小。
Sheng-Chen Zhou (SILC, SHU)
11
随机森林树算法的特点
• 1)随机森林树是一个有效的预测工具。 • 2)适合高维输入变量的特征选择,不需要提前对变 量进行删减和筛选。 • 3)能够提高分类或回归问题的准确率,同时也能避 免过拟合现象的出现。 • 4)当数据集中存在大量缺失值时,能对缺失值进行 有效的估计和处理。 • 5)能够在分类或回归过程中估计特征变量或解释变 量的重要性。 • 6)泛化误差趋向于上界,表明对未知数据有较好的 泛化能力。

应用无人机可见光影像和面向对象的随机森林模型对城市树种分类

应用无人机可见光影像和面向对象的随机森林模型对城市树种分类

第52卷第3期东㊀北㊀林㊀业㊀大㊀学㊀学㊀报Vol.52No.32024年3月JOURNALOFNORTHEASTFORESTRYUNIVERSITYMar.20241)国家自然科学基金项目(31901298),西藏自治区科学技术重点研发计划项目(XZ202201ZY0003G),福建农林大学省级大学生创新创业训练项目(S202310389046),福建农林大学科技创新专项基金项目(KFb22033XA)㊂第一作者简介:陈逊龙,男,1998年10月生,福建农林大学林学院,硕士研究生㊂E-mail:1220496002@fafu.edu.cn㊂通信作者:张厚喜,福建农林大学林学院㊁南方红壤区水土保持国家林业和草原局重点实验室(福建农林大学)㊁海峡两岸红壤区水土保持协同创新中心(福建农林大学)㊁福建长汀红壤丘陵生态系统国家定位观测研究站,副教授㊂E-mail:zhanghouxi@126.com㊂收稿日期:2023年10月23日㊂责任编辑:王广建㊂应用无人机可见光影像和面向对象的随机森林模型对城市树种分类1)陈逊龙㊀孙一铭㊀郭仕杰㊀段煜柯㊀唐桉琦㊀叶章熙㊀张厚喜(福建农林大学,福州,350002)㊀㊀摘㊀要㊀为及时准确的了解城市树种空间分布信息,提升城市居民生活水平和推动城市生态系统可持续发展㊂以福州市仓山区城市森林为研究对象,应用无人机(UAV)监测城市树种空间分布及其动态变化的可见光影像,根据最佳尺度对影像进行分割,并提取分割对象的光谱㊁地形㊁指数㊁纹理和几何特征㊂通过对不同类型特征的组合构建不同的分类方案,利用递归特征消除法(RFE)筛选出优选特征子集,利用面向对象方法结合随机森林(RF)模型对城市树种进行分类㊂结果表明:在随机森林模型分类的过程中,利用光谱特征对树种分类的总体分类精度为82.12%;地形特征对树种分类的贡献度率为14.96%;指数特征和纹理特征的引入,在一定程度提高了树种的分类精度;几何特征的贡献较小,在分类过程中没有明显的贡献㊂特征优选子集的S10方案分类精度最高,总体精度达92.42%,Kappa系数为0.91㊂说明特征优选能够降低高维度特征的复杂性,在大幅减少数据冗余的同时提高了分类精度㊂在最优特征子集下,随机森林(RF)算法分类的总体精度比极致梯度提升(XGBoost)㊁轻量级梯度提升机(LightGBM)和k最近邻算法(KNN)分别提高了1.15%㊁1.81%和15.15%,Kappa系数分别提高了1%㊁2%和17%㊂关键词㊀城市树种;无人机影像;面向对象;随机森林模型;地形特征分类号㊀S771.8UrbanTreeSpeciesClassificationbyUAVVisibleLightImageryandOBIA-RFModel//ChenXunlong,SunYim⁃ing,GuoShijie,DuanYuke,TangAnqi,YeZhangxi,ZhangHouxi(FujianAgricultureandForestryUniversity,Fuzhou350002,P.R.China)//JournalofNortheastForestryUniversity,2024,52(3):48-59.Inordertoobtaintimelyandaccuratespatialdistributioninformationofurbantreespecies,improvethelivingstand⁃ardsofurbanresidents,andpromotethesustainabledevelopmentofurbanecosystems,thisstudytakestheurbanforestinCangshanDistrict,FuzhouCityastheresearchobject.Itappliesunmannedaerialvehicles(UAVs)tomonitorthevisiblelightimagesofurbantreespeciesspatialdistributionandtheirdynamicchanges.Theimagesweresegmentedbasedontheoptimalscale,andthespectral,terrain,Index,texture,andgeometricfeaturesofthesegmentedobjectsareextracted.Differentclassificationschemeswereconstructedbycombiningdifferenttypesoffeatures,andtheoptimalfeaturesubsetwasselectedusingtherecursivefeatureelimination(RFE)method.Theurbantreespecieswereclassifiedusingtheob⁃ject⁃orientedmethodcombinedwiththerandomforest(RF)model.TheresultsshowedthatintheprocessofRFmodelclassification,theoverallclassificationaccuracyoftreespeciesusingspectralfeatureswas82.12%.Thecontributionrateofterrainfeaturestotreespeciesclassificationwas14.96%.TheintroductionofIndexfeaturesandtexturefeaturesim⁃provestheclassificationaccuracyoftreespeciestoacertainextent.Geometricfeatureshaveasmallcontributionanddonothaveasignificantcontributionintheclassificationprocess.TheS10schemeoffeatureselectionsubsethadthehighestclas⁃sificationaccuracy,withanoverallaccuracyof92.42%andaKappacoefficientof0.91.Thisindicatesthatfeatureselec⁃tioncanreducethecomplexityofhigh⁃dimensionalfeatures,whilegreatlyreducingdataredundancyandimprovingclassifi⁃cationaccuracy.Undertheoptimalfeaturesubset,theoverallaccuracyofclassificationusingtheRFalgorithmwasin⁃creasedby1.15%,1.81%,and15.15%comparedtoextremegradientboosting(XGBoost),lightgradientboostingma⁃chine(LightGBM),andk⁃nearestneighboralgorithm(KNN),respectively.TheKappacoefficientwasincreasedby1%,2%,and17%,respectively.Keywords㊀Urbantreespecies;UAVimagery;Object-based;Randomforestmodel;Terrainfeature㊀㊀城市树木作为城市的重要组成部分是评估城市生态环境的重要指标之一,具有重要的生态㊁经济和社会效益[1]㊂随着城市化进程的不断深化,城市树木的生态效益也日渐凸显㊂然而,不同种类㊁种植结构和种植区域的城市树木会产生不同的生态环境效益[2]㊂因此,及时准确地获取城市树种的类别和空间分布信息对城市规划㊁城市树木的管理与维护具有重要意义[3]㊂传统的城市树种分类主要依靠地面调查,然而该方法存在成本高㊁耗时长且难以获取大尺度数据等不足[4]㊂近年来,遥感技术飞速发展,为城市树种的准确快速识别提供了新的途径㊂然而,传统的高分辨率卫星遥感影像易受天气和环境因素干扰㊁时效性较差且费用昂贵㊂此外,免费提供的卫星遥感影像空间分辨率低,难以适用于树种层面的识别研究[5]㊂相比传统的遥感平台,近地无人机(UAV)能在较小空间尺度上提供高分辨率的遥感影像和地理数据,具有更高的适用性,是遥感数据获取的重要手段之一[6]㊂然而,目前有关树种信息提取的无人机遥感研究多集中于多光谱㊁高光谱影像的分类领域,但由于搭载多光谱㊁高光谱传感器的无人机普遍价格昂贵,极大地限制了其在实际生产中的推广应用㊂随着数码技术的发展,通过搭载可见光传感器的无人机获取包含树种信息的遥感影像,具有获取方便㊁成本低㊁空间分辨率高等优点,已成为遥感影像识别树种研究方向上重要的数据源之一[7]㊂根据遥感影像分类单元的不同,可将分类方法归为基于像元和面向对象两类㊂基于像元的方法主要关注局部像素的光谱信息,在处理高分辨率遥感影像时对噪声比较敏感㊁稳健性差,极易出现错分㊁漏分现象[8]㊂为弥补基于像元方法的不足,面向对象的影像分析技术(OBIA)逐渐被用于处理高分辨率遥感影像[9]㊂OBIA方法综合考虑区域相邻像素的纹理㊁形态以及空间结构等多维特征,减少了 椒盐噪声 的同时,通常具有更高的准确率[10]㊂然而,随着特征维数的增加,数据处理的难度呈几何倍数增长,使得传统分类算法的应用受到一定限制㊂随机森林(RF)是一种基于集成学习思想集成多颗决策树的机器学习算法,通过对样本的决策树建模以及组合多棵决策树的预测,最终由分类树投票决定数据的分类[11]㊂随机森林算法不仅具有模型简单㊁分类精度更高㊁校正参数更少的特点,而且鲁棒性强,不易过拟合,在遥感领域高维特征分类中得到广泛应用[12]㊂面向对象方法可以有效减少 同物异谱 现象,而随机森林算法在处理高维数据时有其独特的性能优势,二者的结合在一定程度上提高了分类精度㊂宗影等[13]将面向对象方法和随机森林算法的有机结合,有效提高了滨海湿地植被的分类精度,总体精度达87.07%;赵士肄等[14]将面向对象方法和随机森林算法应用于耕地领域,并与其他机器学习分类算法进行对比验证,结果表明基于面向对象的随机森林模型取得了最高的耕地提取精度,并减弱了 椒盐 噪声,优化了分类结果;耿仁方等[15]研究结果表明,基于面向对象结合随机森林算法对岩溶湿地植被具有较高的识别能力,在95%置信区间内的总体精度为86.75%㊂虽然该方法的研究已经取得了一定的成功,但不同类型的特征对城市树种信息提取效果的影响尚不明确㊂因此,面向对象结合随机森林的方法对于城市树种分类的效果有待进一步探讨㊂此外,目前主流的数据源是大尺度的卫星影像和航空影像,或者是特征信息更加丰富的多光谱和激光雷达影像,而消费级无人机可见光影像在城市树种的精细分类方面还鲜有报道㊂因此,本文以福州市仓山区无人机可见光影像为研究对象,基于OBIA-RF模型,通过特征优选,构建最佳子集并比较不同机器学习算法的分类精度,并分析不同特征对城市树种分类的影响,构建该研究区城市行道树的最佳特征子集,比较不同分类算法对城市树种的分类效果,进一步评估OBIA-RF模型的分类性能和适用性,为城市生态系统保护及生态环境治理提供技术支持㊂1㊀研究区概况研究区位于福建省福州市仓山区(见图1),该区域属于南亚热带海洋性季风气候温暖湿润,冬季无严寒,夏季无酷暑㊂年日照时间1700 1980h,年降水量900 2100mm,气温20 25ħ㊂福州市仓山区典型树种包括白兰(Michelia✕alba)㊁荔枝(Li⁃tchichinensis)㊁芒果(Mangiferaindica)㊁南洋楹(Fal⁃catariafalcata)㊁榕树(Ficusmicrocarpa)㊁棕榈(Tra⁃chycarpusfortunei)㊁樟(Cinnamomumcamphora)等㊂研究区地势平坦,自然环境相对复杂,具备城市的基本特征,对研究城市树种分类具有一定的代表性㊂2㊀研究方法2.1㊀无人机数据采集与预处理实验数据于2020年2月8日采集,采用搭载FC6310S可见光镜头的大疆精灵4Pro(DJIPhantom4Pro)无人机进行航拍获取研究区影像,为削弱阴影对分类过程的干扰,选择天气状况良好无风有云的时间段进行作业㊂飞行相关参数设置如下:航高设置为60m,航向与旁向重叠率均为70%,镜头角度-90ʎ,光圈值f/5,曝光时间1/200s,IOS速度为IOS-400㊂本次飞行共获得450张航拍影像,照片分辨率为5472ˑ3078㊂通过瑞士Pix4Dmapper专业摄影测量软件对所采集的原始数据进行空中三角测量㊁点云重建㊁裁切以及镶嵌等操作,得到研究区的正射影像(DOM)和数字地表模型(DSM)㊂为了精确获得研究区的道路信息,采用天地图在线矢量影像作为辅助信息,并通过手绘的方式提取道路矢量数据㊂根据实际调查情况,利用缓冲分析,将缓冲距离设置为5m,得到了行道树的矢量分布图,然后,将矢量布图与原始影像叠加,最终裁剪出了研究区影像㊂2.2㊀地形特征提取归一化数字表面模型(nDSM)是一种反映地物绝对高度的高程模型[16],可为地物判别提供可靠依94第3期㊀㊀㊀㊀㊀㊀㊀陈逊龙,等:应用无人机可见光影像和面向对象的随机森林模型对城市树种分类据㊂使用ArcMap10.2软件进行地形特征提取㊂首先,通过人工目视解译方法从DSM中选取950个地面点,并批量提取栅格的高程信息,其中100个样本点的高程数据用以验证精度㊂其次采用插值的方法生成数字高程模型(DEM)㊂为获取更加精确的地面高程信息,比较常见的插值方法(克里金插值法㊁反距离权重法㊁样条插值法以及自然邻域法)生成的数字高程模型(DEM),以均方根误差㊁平均绝对值误差和决定系数(R2)作为评分指标(见表1)㊂4种插值方法均可得到较高精度的DEM数据,综合考虑决定系数(R2)㊁平均绝对值误差以及均方根误差,最终确定采用克里金插值法生成连续的DEM数据㊂最后,根据已生成的DEM数据,利用Arc⁃Map10.2软件中的栅格计算器,将DSM数据与DEM数据相减得到nDSM数据[17]㊂图1㊀研究区概况图表1㊀不同插值方法精度评价方㊀法决定系数(R2)平均绝对值误差均方根误差克里金插值法0.990.070.04反距离权重法0.990.080.04样条插值法0.990.080.05自然邻域法0.990.070.042.3㊀最佳分割尺度确定影像分割是面向对象方法中至关重要的初始环节,分割结果将直接影响分类精度[18]㊂本研究采用尺度参数评价工具(ESP2),结合目视解译的方法确定最佳分割尺度,所有图像分割过程均在eCogni⁃tion9.0Developer9.0软件完成㊂ESP2是用以评价不同尺度影像整体最大差异性的工具,通过计算整体局部方差均值随尺度变化率评估不同地物所对应的最佳尺度参数[19]㊂而ESP2计算出的尺度参数往往是多个值,需要结合人工目视才能确定最佳分割尺度㊂形状参数和紧致度参数是准确表示不同树种轮廓,使得对象内部同质性高的关键㊂综合考虑无人机影像的特点以及影像对象形状和紧致度因子的相互关系,将形状参数设置为0.5,紧致度参数设置为0.3㊂其他必要参数为:各波段的权重值设置为1㊁起始分割尺度为40㊁分割步长为1㊁迭代80次㊂随着尺度的增大,局部方差均值整体呈现上升的趋势,而尺度变化率呈现下降的趋势(见图2)㊂为了获得图像的过分割和欠分割之间的临界值,选取尺度变化率峰值为51㊁57㊁76㊁80㊁89㊁104㊁109和118作为相对最佳分割尺度参数,采用多尺度分割算法得到分割结果(见图3)㊂当分割尺度参数设置较大(分割尺度参数大于104)时,白兰㊁榕树和背景多处05㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀东㊀北㊀林㊀业㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第52卷被划分为同一个对象,不同树种存在混淆现象难以被区分㊂当分割尺度参数设置较小(分割尺度小于76)时,不同地物内部出现了过分割现象,增加了数据冗余㊂当分割尺度参数设置76 89时,植被与背景区分相对明显,不同的树种之间能够被分割成独立的对象,整体分割效果较为理想㊂权衡分割效果与实际情况的吻合度,最终确定研究区无人机影像最佳分割尺度参数为76,并利用该分割尺度参数进行城市行道树提取㊂图2㊀ESP2最佳分割尺度估计图图3㊀不同尺度参数分割效果图2.4㊀对象光谱特征提取光谱特征是遥感影像的重要特征之一,地物通常具有不同的光谱特征,因此根据可见光影像中的地物光谱信息的差异可以用来区分不同的地物类型[20]㊂植被指数利用植被在不同波段下反射和吸收的特性,增强植被信息的同时使非植被信息最小化[21],被广泛应用于林业病虫害防治㊁农作物生长量估计㊁生态环境监测等领域[22]㊂在遥感图像中,不同地物通常具有复杂程度不同的边缘特征,因此,形状特征可以作为快速准确识别地物类型的有效手段[23]㊂纹理特征是遥感影像的底层特征,不受图像亮度的影响,能够综合反映像素的灰度分布和结构信息,利用纹理特征可以有效弥补可见光影像光谱信息的不足[6]㊂在面向对象的分类过程中,结合纹理特征对于提升分类精度效果显著[24]㊂地形特征能真实反映不同地物的高程信息,在影像分类过程中对于区分不同类型的地物具有重要意义㊂因此,本研究共选取光谱㊁指数㊁纹理㊁几何以及地形5大特征,剔除无效特征筛选出40个子特征,具体如下:(1)光谱特征(SPEC):主要包括:红色(R)波段的像元亮度的均值(MR)㊁绿色(G)波段的像元亮度的均值(MG)㊁蓝色(B)波段像元亮度的均值(MB)㊁最大差异值(Md)㊁亮度值(Br)㊂(2)指数特征(INDE):包括植被颜色指数(ICIVE)㊁可见光波段差异植被指数(IVDVI)㊁联合指数2(ICOM2)㊁超绿指数(IEXG)㊁超绿超红差分指数(IEXGR)㊁植被指数(IVGE)㊁归一化红绿差异指数(INGRDI)以及归一化绿蓝差异指数(INGBDI)(见表2)㊂(3)几何特征(GEOM):包括面积㊁边界长㊁宽度㊁长度㊁不对称性㊁长宽比㊁边界指数㊁圆度㊁像素个数㊁紧致度㊁体积㊁密度㊁椭圆拟合㊁主方向㊁形状指数㊁最大封闭椭圆半径㊁最小封闭椭圆半径以及矩形拟合㊂15第3期㊀㊀㊀㊀㊀㊀㊀陈逊龙,等:应用无人机可见光影像和面向对象的随机森林模型对城市树种分类(4)纹理特征(GLCM):基于灰度共生矩阵(GLCM)提取影像的纹理特征,包括对比度(TCON)㊁相关性(TCOR)㊁相异性(TDIS)㊁熵(TENT)㊁同质度(THOM)㊁均值(TMEA)㊁角二阶矩(TASM)和标准差(TSD)等特征值[6](见表3)㊂(5)地形特征:归一化数字表面模型(nDSM)㊂表2㊀植被指数及表达式指数特征公㊀式归一化红绿差异指数(INGRDI)[25]INGRDI=(MG-MR)/(MG+MR)归一化绿蓝差异指数(INGBDI)[26]INGBDI=(MG-MB)/(MG+MR)超绿指数(IEXG)[27]IEXG=2MG-MB-MR超绿超红差分指数(IEXGR)[28]IEXGR=MG-MB-2.4MR可见光波段差异植被指数(IVDVI)[21]IVDVI=(2MG-MR-MB)/(2MG+MR+MB)植被颜色指数(ICIVE)[29]ICIVE=0.44MR-0.88MG-0.39MB+18.79植被指数(IVGE)[30]IVGE=MG/MaRM1-aB,a=0.667联合指数2(ICOM2)[31]ICOM2=0.36IEXG+0.47ICIVE+0.17IVGE㊀㊀注:MR㊁MG㊁MB分别为红㊁绿㊁蓝波段像元亮度的均值㊂表3㊀纹理特征及表达式纹理指标公㊀式角二阶矩(TASM)TASM=ðNgi=0ðNgj=0p(i,j)2对比度(TCON)TCON=ðNgi=0ðNgj=0p(i,j)ˑ(i-j)2相关性(TCOR)TCOR=ðNgi=0ðNgj=0((i-ux)ˑ(j-uy)ˑp(i,j)2)/σxσy相异性(TDIS)TDIS=ðNgi=0ðNgj=0p(i,j)ˑ|i-j|熵(TENT)TENT=ðNgi=0ðNgj=0p(i,j)ˑlnp(i,j)同质度(THOM)THOM=ðNgi=0ðNgj=0p(i,j)ˑ(1/(1+(i+j)2))均值(TMEA)TMEA=ðNgi=0ðNgj=0p(i,j)ˑi标准差(TSD)TSD=ðNgi=0ðNgj=0p(i,j)ˑ(i-ux)2㊀㊀注:其中i,j是像元在图像中的行列坐标,p(i,j)为像素对的频数,Ng为灰度级数,ux㊁σx分别为px的均值和标准差,uy㊁σy分别为py的均值和标准差㊂2.5㊀试验样本选取本实验通过实地调查获取样本数据㊂调查者沿着研究区的主要道路记录了绿化树种,并排除了数量较少或被其他冠层遮挡的树种,最终确定了7类树种(白兰(Michelia✕alba)㊁荔枝(Litchichinensis)㊁芒果(Mangiferaindica)㊁南洋楹(Falcatariafalca⁃ta)㊁榕树(Ficusmicrocarpa)㊁棕榈(Trachycarpusfor⁃tunei)㊁樟(Cinnamomumcamphora))以及草地㊁灌木作为研究对象㊂根据遥感影像中不同地物类型的分布位置与大致面积比例,共选取了1100个样本点㊂为了避免较小的样本数量影响模型分类精度,将最小样本数量设置为60㊂采用Scikit-learn中内置的train_test_split函数进行分层抽样,按7:3的比例将数据划分为训练集和测试集(见表4),使各类别样本点数量大致与该类别的总面积成比例㊂训练集用于构建分类模型,测试集用于验证分类精度㊂表4㊀训练和验证样本地物总样本数训练样本数测试样本数白兰20014060草地503515灌木503515荔枝1409842芒果20014060南洋楹1208436榕树1409842棕榈604218樟1208436总计11007703302.6㊀分类模型与参数优化2.6.1㊀随机森林算法随机森林算法(RF)是一种通过集成学习的装袋思想将多棵决策树集合起来的算法,每棵决策树都充当预测目标类别的分类器㊂随机森林模型在样本数据和分类特征选择方面具有随机性,不容易过拟合,并且表现出良好的稳健性,即使在处理具有缺失值的高维数据时,仍能保持较高的分类精度㊂因此,它被认为是当今最好的算法之一[32]㊂目前,随机森林算法已经广泛集成在各种软件包中,使用Stata数据管理统计绘图软件㊁R语言统计软件可以轻松实现㊂在模型构造的过程中,通常只需要确定每个树节点包含的特征数量(M)以及决策树数量(N),就足以保证模型的性能[33]㊂本文采取递归特征消除法(RFE)[34]结合交叉验证(Cross-Validation)确定最佳特征数(见图4)㊂随着特征维数的增加,整体分类精度曲线经历 几何增长 ㊁ 缓慢上升 这个两个阶段后趋于平稳㊂当特征数为20时,各分类精度曲线均处于相对最高点,因此最终将特征数量的参数设置为20㊂在使用装袋方法生成训练集的过程中,随机森林算法会导致原始数据集中大约37%的数据未被抽到,这部分数据被称为袋外(OOB)数据㊂利用袋外数据对随机森林模型进行评估是一种无偏估计方法,且在一定程度上能减少计算量,提高算法的运行效率[35]㊂因此,本文采取遍历不同数量(1 1000)决策树的方法,通过比较袋外误差的大小,确定最佳的决策树数量(见图5)㊂当决策树数量小于85时,不同子集的袋外数据误差均随着决策树数量的增加而急剧下降,而后随着决策树数量的增加袋外数据误差的下降速度逐渐迟缓,当决策树数量为200时,袋外数据误差处于相对最低点㊂因此,选择决策树25㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀东㊀北㊀林㊀业㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第52卷的最佳数量为200㊂图4㊀模型分类精度与特征数的关系曲线图5㊀袋外误差与决策树数量的关系曲线2.6.2㊀其他分类模型为充分探索随机森林算法对城市树种信息提取的适用性,引入当下流行的机器学习算法作为对照,包括极致梯度提升(XGBoost)㊁轻量级梯度提升机(LightGBM)以及k最近邻算法(KNN)㊂XGBoost是一种基于增强学习(Boosting)的集成算法,它通过在梯度下降方向上将弱分类器集成到强分类器中,并迭代生成新树以拟合先前树的残差㊂XGBoost能够自动利用中央处理器(CPU)的多线程进行分布式学习和多核计算,在保证分类准确度的前提下提高计算效率,尤其适用于处理大规模数据[36-37]㊂LightGBM也属于增强学习方法,基本原理与XG⁃Boost相似㊂但LightGBM使用基于直方图的决策树算法来减少存储与计算成本,并优化模型训练速度[38]㊂KNN算法是一种近似自变量与连续结果之间的关系的非参数方法[39],其基本思路是通过计算待分类样本与临近样本的距离(欧氏距离㊁曼哈顿距离)来确定所属类别,是一种简单而有效的分类算法㊂为了防止过拟合,本研究在JupyterNotebook平台上利用Scikit-learn库中的GridSearchCV包对这3种分类器参数进行了调优(见表5)㊂表5㊀不同分类器的超参数分类器参㊀数参数取值范围极致梯度提升(XGBoost)决策树数量[50,100,150,200]最大树深度[3,5,7,9]学习率[0.01,0.05,0.10]样本抽样率[0.6,0.8,1.0]特征抽样率[0.6,0.8,1.0]轻量级梯度提升机(LightGBM)学习率[0.01,0.05,0.10]决策树数量[50,100,150,200]叶子节点数[10,20,30,40]最大树深度[3,5,7,9]k最近邻算法(KNN)近邻数[1,2,3,4,5,6,7,8,9,10]2.7㊀试验方案构建不同树种之间单一特征的差异有限,难以满足树种分类的要求㊂因此,本研究采取增加特征数量的方式来提高分类精度,并探究不同特征组合对分类结果的影响(见表6)㊂表6㊀研究区各地物特征值地物特征不同地物的特征值草地灌木白兰荔枝芒果南洋楹榕树棕榈樟面积6859.673636.732928.797194.057200.108688.483457.752263.137325.01不对称性0.550.430.440.430.450.420.480.560.45边界指数1.741.462.011.971.991.842.062.191.79边界长578.70340.20431.95650.41669.29670.73488.16408.63601.00亮度值83.1078.79115.6974.0977.2081.1571.6396.8763.83植被颜色指数-29.14-33.17-47.78-21.15-18.89-21.62-29.96-17.74-20.18联合指数214.1116.2520.1911.7410.7511.6015.279.2511.82紧致度1.851.631.871.911.861.802.002.361.85密度2.032.102.042.102.102.161.971.822.09超绿指数76.6087.77117.8159.6253.9359.8280.8348.3158.52超绿超红差分指数-215.56-204.06-304.33-194.88-204.07-199.54-168.32-273.24-155.97椭圆拟合0.680.750.630.670.670.710.590.500.68角二阶矩000000000对比度556.77786.24877.55597.29614.12770.77714.25765.51514.11相关性0.870.820.820.880.880.840.850.860.90相异性17.1319.0521.6618.1218.6820.2819.7219.6216.64熵8.798.668.909.149.189.198.948.699.07同质度0.060.060.050.050.050.050.050.050.06均值127.03126.07125.67126.81126.68126.73126.23125.97126.8835第3期㊀㊀㊀㊀㊀㊀㊀陈逊龙,等:应用无人机可见光影像和面向对象的随机森林模型对城市树种分类续(表6)地物特征不同地物的特征值草地灌木白兰荔枝芒果南洋楹榕树棕榈樟标准差34.1734.6536.2336.4036.2335.7636.4037.6636.32长度143.4591.1085.96136.33136.90144.38100.0389.62138.31长宽比1.811.741.521.551.551.511.621.781.61主方向113.61130.6395.3296.5294.5694.5591.4883.5681.45最大差异值1.641.691.531.471.361.201.501.341.46蓝色(B)波段像元亮度的均值84.4766.8094.6274.2079.0881.7263.64105.5364.38绿色(G)波段像元亮度的均值136.22133.75189.36116.28116.90120.40118.79141.29101.72红色(R)波段像元亮度的均值111.38112.92166.2898.74100.7999.2693.11128.7580.55归一化数字表面模型0.321.7012.517.1612.0423.2010.9611.938.67归一化绿蓝差异指数0.210.270.270.200.170.180.260.130.21归一化红绿差异指数0.100.090.070.080.070.100.130.050.12像素个数6859.673636.732928.797194.057200.108688.483457.752263.137325.01最大封闭椭圆半径0.580.720.490.560.540.610.450.380.59最小封闭椭圆半径1.451.391.441.491.451.431.511.631.45矩形拟合0.820.860.800.820.820.830.780.740.82圆度0.860.670.950.930.920.821.061.250.86形状指数1.841.552.092.042.061.902.162.321.86可见光波段差异植被指数0.170.200.190.150.130.140.210.090.17植被指数1.361.431.381.301.261.301.461.181.37体积6859.673636.732928.797194.057200.108688.483457.752263.137325.01宽度80.7852.7558.0390.8190.4997.8862.9651.4688.94㊀㊀根据优选特征贡献率(见表7),将所选取的5大特征组合形成了10种试验方案(S1 S10)㊂光谱特征作为每幅遥感影像的基本特征,作为基础被纳入到这10种方案的构建中㊂其中,S1仅包含光谱特征;为了全面探究其他特征对分类结果的影响,在S1基础上引入了地形㊁指数㊁纹理等3个总体特征贡献率较高的特征,通过遍历这3个特征的各种组合得到了S2 S8;S9包含了所有的特征;根据20个优选特征组合建立S10,具体的分类方案见表8㊂表7㊀优选特征重要性优选特征重要性/%归一化数字表面模型14.96最大差异值12.41联合指数25.57植被颜色指数5.42绿色(G)波段像元亮度的均值4.84归一化绿蓝差异指数4.67超绿指数4.58亮度值4.36可见光波段差异植被指数3.42植被指数3.26红色(R)波段像元亮度的均值3.05角二阶矩2.90蓝色(B)波段像元亮度的均值2.86超绿超红差分指数2.78标准差2.25归一化红绿差异指数2.23熵2.03相关性1.97均值1.41边界指数1.28表8㊀分类方案方案特征子集特征数量S1光谱5S2光谱+地形6S3光谱+指数13S4光谱+纹理13S5光谱+地形+指数14S6光谱+地形+纹理14S7光谱+指数+纹理21S8光谱+地形+指数+纹理22S9光谱+地形+指数+纹理+几何40S10优选特征202.8㊀精度评价本文根据混淆矩阵对模型的分类精度进行定量评价㊂混淆矩阵也称为误差矩阵,是遥感影像二分类问题上的一种评价方法,反映了分类结果与真实地物类别之间的相关性[40]㊂混淆矩阵的评价指标包括总体精度(OA)㊁Kappa系数(Kp)㊁生产者精度(PA)以及用户精度(UA)㊂其中,总体精度指正确分类样本与总体样本的比值;生产者精度指分类结果与参考分类相符合的程度;用户精度指样本分类正确的可能性;Kappa系数是用于检验遥感影像分类结果的一致性,也可以用以均衡分类效果[41]㊂各指标计算公式如下:㊀㊀㊀㊀㊀OA=ðni=1xiiN;㊀㊀㊀㊀㊀Kp=Nðni=1xii-ðni=1xi+x+iN2-ðni=1xi+x+i;45㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀东㊀北㊀林㊀业㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第52卷㊀㊀㊀㊀㊀PA=xii/x+i;㊀㊀㊀㊀㊀UA=xii/xi+㊂式中:N为参与评价的样本总数;n为混淆矩阵的行列数;xii为混淆矩阵第i行㊁第i列上的样本数;xi+和x+i分别为第i行和第i列的样本总数㊂3㊀结果与分析3.1㊀随机森林算法的不同分类方案精度由表9可知,随着不同特征类型数量的增加,总体分类精度和kappa系数整体呈上升趋势㊂其中,仅利用光谱特征作为分类依据的方案S1精度最低,总体精度和kappa系数分别为82.12%和0.79,说明光谱特征是遥感影像最重要的特征之一,但仅利用光谱特征难以达到所需的分类精度㊂方案S2 S4是在S1的基础上分别加上地形㊁指数和纹理特征,相比方案S1,这3个方案的总体分类精度分别提高了5.15%㊁4.55%㊁1.82%,kappa系数分别提高了0.06㊁0.06㊁0.03㊂在分类过程中,地形特征相较于指数和纹理特征扮演着更重要的角色,大幅提高了分类精度㊂方案S5 S7是在光谱特征的基础上加入地形㊁指数和纹理特征的两两组合,旨在研究它们之间的相互作用对分类精度的影响㊂整体而言,与S2 S4相比,这3个方案的总体分类精度呈上升趋势㊂其中,S6具有最高的总体精度和kappa系数,分别达到90%和0.88;其次是S7,和S1相比,总体精度和kappa系数分别提高了7.27%和0.09;而S5总体精度和kappa系数只增长了6.36%和0.08㊂表明地形与指数特征交互作用在分类过程中提供了更大的贡献度㊂方案S8是由特征重要性靠前的光谱㊁地形㊁指数以及纹理特征构成㊂与包含所有特征的方案S9相比,S8反而具有更高的总体分类精度和kappa系数,分别达到92.12%和0.91㊂表明几何特征对分类精度具有负向影响,它的加入降低了分类精度㊂方案S10由优选特征组成,其获得了所有子集中最高的分类精度和kappa系数,分别为92.42%和0.91㊂与S9相比,分类精度提高了0.60%㊂说明特征优选方法能消除高维复杂特征间的信息冗余,使模型仅利用较少特征数量并获得更高的运行效率和分类精度㊂表9㊀不同分类方案分类精度方案总体精度/%Kappa系数方案总体精度/%Kappa系数S182.120.79S690.000.88S287.270.85S789.390.88S386.670.85S892.120.91S483.940.82S991.820.91S588.480.87S1092.420.91㊀㊀由表10可知,虽然S1方案的用户精度与生产者精度整体上处于最低水平,但棕榈树的用户精度达到了100%,表明棕榈与其他树种存在明显的光谱差异㊂方案S2加入地形指数后,各类地物的用户精度与生产者精度相比S1都有不同程度的提高,用户精度提升幅度1.88% 8.18%,生产者精度提升幅度2.78% 11.11%,因为地形特征的加入更好的反映了不同地物之间的空间关系,从而大幅提高了分类精度㊂方案S3在S1的基础上加入了指数特征,荔枝㊁榕树以及樟的用户精度分别提升了10.95%㊁9.18%和8.72%,说明植被指数对荔枝㊁榕树以及樟分类效果显著,但对于其他树种的区分能力有限㊂方案S4加入纹理特征,芒果和樟的用户精度提升了8.85%和9.00%,而棕榈和榕树的生产者精度分别提升了22.22%和11.9%,说明这些树种的纹理结构特异性强与其他地物的差异显著,因此纹理特征的加入对分类精度有正向影响㊂方案S5与S2相比,荔枝和榕树的用户精度提升了7.05%和5.12%,而草地的精度下降了5.88%;与S3相比,灌木的用户精度提升了4.47%㊂总体而言,地形特征与指数特征的组合对分类精度的提升不显著,并且在某些树种的分类上精度出现不同程度的下降,说明这二者的组合产生了冗余信息影响了分类精度㊂方案S6与S2相比,芒果与樟的用户精度分别提升了6.44%和7.66%,而棕榈树和榕树的生产者精度分别提升了27.78%和11.90%,这个结果与方案S4类似,说明地形特征和纹理特征的组合与树种的分类精度呈正相关㊂方案S7与S6相比,除个别树种外,整体精度出现了不同程度的降低,波动范围为-6.21% 4.04%㊂然而,与方案S5相比,总体分类精度有一定的提升,波动范围是-0.58% 7.55%㊂方案S8与表现最好的方案S7相比,荔枝和榕树的总体分类精度分别提升了9.42%和6.67%,其他树种的总体分类精度保持稳定,这表明高维度的特征组合带来了更多的信息,在一定程度上提高了分类精度㊂综合所有特征的方案S9与S8相比,总体分类精度呈现出不升反降的现象,波动范围为-10.23% 4.74%,说明高纬度的特征产生了冗余信息,影响了随机森林模型的分类性能㊂优选特征子集S10与S9相比,总体分类精度有所提升,其中灌木㊁草地以及荔枝的用户精度分别提升了10.23%㊁5.88%和3.55%㊂由此可见,特征优选通过对高维数据集的降维和优化,使模型仅利用较少的特征仍能保证良好的分类效果㊂3.2㊀应用优选特征子集对不同分类模型的精度评价由表11可知,随机森林模型的分类精度最高,总体精度为92.42%,比k最近邻算法(KNN)㊁极致55第3期㊀㊀㊀㊀㊀㊀㊀陈逊龙,等:应用无人机可见光影像和面向对象的随机森林模型对城市树种分类。

利用SNP标记鉴定青稞种质资源

利用SNP标记鉴定青稞种质资源

麦类作物学报 2024,44(1):65-73J o u r n a l o fT r i t i c e a eC r o ps d o i :10.7606/j.i s s n .1009-1041.2024.01.08网络出版时间:2023-11-10网络出版地址:h t t ps ://l i n k .c n k i .n e t /u r l i d /61.1359.S .20231108.1522.017利用S N P 标记鉴定青稞种质资源收稿日期:2023-03-03 修回日期:2023-04-03基金项目:国家自然科学基金青年项目(32101714);青海省自然科学基金面上项目(2020-Z J -908);第二次青藏高原综合科学考察研究项目(2019Q Z K K 0303)第一作者E -m a i l :c h e n t o n g r u i @n w i p b .c a s .c n (陈同睿)通讯作者E -m a i l :x u j q @n w i pb .c a s .c n (徐金青)陈同睿1,2,王蕾1,王寒冬1,尤恩1,2,邓超1,2,边海燕1,沈裕虎1,3,徐金青1(1.中国科学院高原适应与进化重点实验室/青海省作物分子育种重点实验室/青藏高原作物种质资源研究与利用实验室,中国科学院西北高原生物研究所,青海西宁810008;2.中国科学院大学生命科学学院,北京100049;3.中国科学院种子创新研究院,青海西宁810008)摘 要:近年来,青稞(H o r d e u mv u l ga r e v a r .n u d u m H o o k .f .)育种速度逐步加快,青稞品种的类别和数量日渐增多,形成了丰富的青稞品种资源㊂然而,在青稞资源的大量引种和品种资源交换过程中,造成了同名异物㊁同物异名的现象,因而建立高效㊁准确的青稞品种鉴定技术体系和数据系统迫在眉睫㊂为基于青稞品种基本信息实现青稞品种的快速和准确鉴定,本研究利用简化基因组(G B S )测序获得的青稞基因组高通量S N P 基因分型数据,对314份青稞种质资源进行群体结构分析;根据S N P 注释结果,筛选获得位于外显子区的S N P 并计算其杂合率和遗传多态性指数;用G e n s t a t 的去冗余(I R R E D U N D A N T )指令通过顺序算法(s e -q u e n t i a l a l g o r i t h m )获得能够区分参试青稞种质资源的核心S N P 位点组合,并构建D N A 指纹图谱,结合参试材料地理来源等基本信息构建青稞品种的分子身份证㊂结果表明,群体遗传结构分析可将314份参试青稞材料划分为3个类群,类群划分与其材料类型密切相关㊂从4954个位于外显子区域的高质量S N P 位点中筛选出14个多态性高且能完全区分青稞种质资源的S N P 位点,称其为核心S N P ;由14个核心S N P 组成青稞种质资源D N A 指纹图谱,同时结合种质资源地理来源等的基本信息进行数字编码,最终构建了每份青稞品种资源由17位数字组成的具有唯一标识的分子身份证,并生成相应的条形码和二维码㊂本研究构建的青稞种质资源D N A 指纹图谱和分子身份证,可为青稞品种真实性和纯度鉴定㊁种质管理及知识产权保护等提供参考㊂关键词:青稞;种质资源;核心S N P ;指纹图谱;分子身份证中图分类号:S 512.3;S 330 文献标识码:A 文章编号:1009-1041(2024)01-0065-09I d e n t i f i c a t i o no f t h eN a k e dB a r l e y G e r m p l a s m sU s i n g SN P M a r k e r s C H E NT o n g r u i 1,2,W A N GL e i 1,W A N G H a n d o n g 1,Y O UE n 1,2,D E N GC h a o 1,2,B I A N H a i y a n 1,S H E NY u h u 1,3,X UJ i n q i n g1(1.K e y L a b o r a t o r y o fA d a p t a t i o na n dE v o l u t i o no f P l a t e a uB i o t a /Q i n g h a i P r o v i n c i a lK e y L a b o r a t o r y o fC r o p M o l e c u l a rB r e e d i n g/L a b o r a t o r y f o rR e s e a r c ha n dU t i l i z a t i o no fQ i n g h a i -T i b e t a nP l a t e a uG e r m p l a s m R e s o u r c e s ,N o r t h w e s t I n s t i t u t e o f P l a t e a uB i o l o g y ,C h i n e s eA c a d e m y o f S c i e n c e s ,X i n i n g ,Q i n g h a i 810008,C h i n a ;2.C o l l e g e o fL i f eS c i e n c e s ,U n i v e r s i t y o fC h i n e s eA c a d e m y of S c i e n c e s ,B e i j i ng 100049,Chi n a ;3.I n n o v a t i o nA c a d e m y f o r S e e dD e s i g n ,C h i n e s eA c a d e m y o f S c i e n c e s ,X i n i n g,Q i n gh a i 810008,C h i n a )A b s t r a c t :R e c e n t l y ,t h eb r e e d i n g s p e e do f n a k e db a r l e y (H o r d e u mv u l ga r e v a r .n u d u m H o o k .f )h a sb e e n g r a d u a l l y ac c e l e r a t ed ,t he t y p e sa n d q u a n t i t y of t h en a k e db a r l e y v a r i e t i e sh a v e i n c r e a s e d ,a n d n a k e db a r l e y v a r i e t y r e s o u r c eh a sb e e ne n r i c h e d .H o w e v e r ,i nt h e p r o c e s so f l a r gen u m b e ro f i n t r o -d u c t i o na n dv a r i e t y r e s o u r c ee x c h a n g eo fn a k e db a r l e y r e s o u r c e s ,t h e p h e n o m e n o no fh o m o n ym o u s f o r e i g nb o d i e s a n dh o m o n y m o u s s y n o n y m s h a s b e e n c a u s e d ,a n d t h u s i t i s u r ge n t t o e s t a b l i s ha n ef f i -c i e n t a nd a c c u r a te n a k e d b a r l e y v a r i e t y i d e n t if i c a t i o n t e c h n o l og y s y s t e ma n d d a t a s y s t e m.Th e p u r p o s e o f t hi s s t u d y i s t o c o n s t r u c tD N Af i n g e r p r i n t s a n dm o l e c u l a r i d e n t i t y c a r d s o f n a k e db a r l e y g e r m p l a s m r e s o u r c e s u s i n g S N P m a r k e r s b a s e do nb a s i c i n f o r m a t i o no f n a k e db a r l e y v a r i e t i e s,t h e r e b y a c h i e v i n g r a p i d a n d a c c u r a t e i d e n t i f i c a t i o n o f n a k e d b a r l e y v a r i e t i e s.T h e314n a k e db a r l e y a c c e s s i o n sw e r e g e n o-t y p e db y t h e g e n o t y p i n g-b y-s e q u e n c i n g(G B S),a n d a n a l y z e db y t h e p o p u l a t i o n s t r u c t u r e a n a l y s i s.A c-c o r d i n g t o t h e r e s u l t s o f S N P a n n o t a t i o n,S N P s l o c a t e d i n t h e e x o n r e g i o nw e r e s c r e e n e d,a n d t h e h e t-e r o z y g o s i t y r a t e a n d p o l y m o r p h i s mi n f o r m a t i o nc o n t e n t(P I C)w e r ec a l c u l a t e d.W eu s e dt h eI R R E-D U N D A N Td i r e c t i v e i n t h e s o f t w a r e p a c k a g eG e n S t a tw i t h t h e s e q u e n t i a l a l g o r i t h mt o c o m p l e t e l y d i s-t i n g u i s hn a k e db a r l e yg e r m p l a s mr e s o u r c e s,a n d t h e c o m b i n a t i o no f c o r eS N P s t h a t c o u l dd i s t i n g u i s h t h en a k e db a r l e yg e r m p l a s m sw e r e s c r e e n e d a n d t h eD N Af i n g e r p r i n tw a s c o n s t r u c t e d.T h em o l e c u l a r I Do f t h e n a k e d b a r l e y v a r i e t i e sw a s c o n s t r u c t e d b y c o m b i n i n g t h e b a s i c i n f o r m a t i o n s u c h a s g e o g r a p h-i c a l o r i g i n o f t h e t e s t e dm a t e r i a l s.P o p u l a t i o n s t r u c t u r e a n a l y s i s r e v e a l e d t h a t t h e314b a r l e y a c c e s s i o n s w e r e d i v i d e d i n t o t h r e e g r o u p s,w h i c hw a s c l o s e l y r e l a t e dt o i t so r i g i n.F i n a l l y,14S N P sw i t hh i g h p o l y m o r p h i s m w h i c hc o m p l e t e l y d i s t i n g u i s h e dn a k e db a r l e yg e r m p l a s mr e s o u r c e sw e r eo b t a i n e d f r o m 4954S N P s t o f o r mt h e c o r e S N P,a n d t h eD N Af i n g e r p r i n t o f t h e n a k e db a r l e y v a r i e t i e s c o n s i s t i n g o f 14c o r eS N P sw e r ec o n s t r u c t e d.M e a n w h i l e,t h eb a s i c i n f o r m a t i o ns u c ha s g e o g r a p h i c a l d i s t r i b u t i o n a n d r e s o u r c e s f o r e a c hv a r i e t y w a s e n c o d e d i n t o s p e c i f i c n u m b e r s t r i n g s t o p r o d u c em o l e c u l a r i d e n t i t y c a r d sw i t hu n i q u e i d e n t i f i c a t i o no f17d i g i t s f o r e a c hn a k e db a r l e y v a r i e t y r e s o u r c e,a n d c o r r e s p o n d i n g b a r c o d e s a n d t w o-d i m e n s i o n a l c o d e sw e r e g e n e r a t e d.T h eD N Af i n g e r p r i n t a n dm o l e c u l a r I Dc a r do f n a k e db a r l e yg e r m p l a s m r e s o u r c e sc o n s t r u c t e di nt h i sa r t i c l e p r o v i d ed a t ar e f e r e n c ea n da v a i l a b l e m a r k e r s f o r t h ea u t h e n t i c i t y a n d p u r i t y i d e n t i f i c a t i o no fn a k e db a r l e y v a r i e t i e s,g e r m p l a s m m a n a g e-m e n t,a n d i n t e l l e c t u a l p r o p e r t yp r o t e c t i o n.K e y w o r d s:N a k e db a r l e y;G e r m p l a s m;C o r eS N P;D N Af i n g e r p r i n t;M o l e c u l a r i d e n t i t y c a r d青稞(H o r d e u mv u l g a r e v a r.n u d u m H o o k.f.)又称裸大麦,距今约3500年前,经由印度㊁尼泊尔传入西藏南部,在青藏高原地区得到广泛的种植[1]㊂青稞是青藏高原地区重要的粮食作物㊁饲料作物㊁酿造原料,其常年种植面积和总产量分别占青藏高原粮食作物种植面积和总产的43%和38%以上,对保障藏区粮食安全㊁促进畜牧发展具有重要意义[2]㊂青稞具有高纤维素㊁维生素㊁β-葡聚糖含量和低脂肪㊁低糖含量特征,对降血糖㊁降血脂㊁预防和辅助改善I I型糖尿病等具有一定的效果[3-5],逐渐成为重要的功能食品加工原料㊂随着育种速度的加快和种质资源鉴定与评价工作的深入,青稞品种的类别和数量日渐增多,那些综合性状优良㊁配合力好的骨干亲本被广泛利用,导致育成品种相似度增加,遗传基础日趋狭窄㊁脆弱,难以用形态学和生理生化方法准确鉴定品种的真实性和纯度[6-7]㊂因此,迫切需要建立高效㊁准确的青稞品种鉴定技术体系和数据系统,以有效管理和利用青稞种质㊂植物特异性㊁一致性和稳定性(d i s t i n c t n e s s,u n i f o r m i t y a n d s t a b i l i t y,D U S)测试是植物新品种保护的技术基础㊂D U S测试技术体系包括以植物农艺学形态特征测试为主的传统测试技术和对基因型测试的分子辅助技术两部分㊂传统的D U S测试周期长,受环境条件影响大,稳定性差,需要大面积的土地和专业的技术人才;以P C R技术为基础的分子标记检测技术因不受环境影响㊁操作简单㊁快速㊁成本较低等优点,已经被广泛用于植物品种鉴定和指纹图谱构建[7-12]㊂L i n等[13]利用4对S S R引物,建立了17个大麦品种的等位检测系统,可区分所有参试的大麦材料㊂王艳平等[14]筛选了28对S S R引物,对29个大麦D U S测试标准品种进行了遗传多样性分析,并构建了指纹图谱㊂曾乐等[7]利用28个S S R标记对44个大麦品种进行了分子鉴别㊂冯艳芳等[15]采用28个S S R标记对142份大麦申请品种进行D N A指纹图谱构建及遗传多样性分析㊂O w e n 等[16]利用38个S N P标记对大麦种子样品进行基因分型,可以区分在苏格兰商业生产中的大多数品种㊂以上研究均利用S S R或S N P标记构建㊃66㊃麦类作物学报第44卷大麦品种的D N A指纹图谱,用于大麦种质资源鉴定㊂与S S R标记相比,S N P标记在基因组中分布密度更高㊁更均匀,且分型简单,更适合数据整合和共享㊂此外,S N P标记与功能基因尤其是植物表型基因关联度较高,被认为是更具应用前景的分子标记技术,已在水稻㊁玉米等的品种鉴定中得到应用[11]㊂目前,尚未见利用S N P标记构建青稞种质资源分子身份证的报道㊂为了提高S N P标记在青稞品种鉴定中的有效性和重现性,本研究利用简化基因组测序数据,筛选位于外显子区的S N P标记,对314份青稞种质资源进行分子鉴定并构建其D N A图谱,以期为青稞种质资源的遗传多样性㊁群体结构及个体材料的分子鉴评提供参考依据㊂1材料与方法1.1供试材料供试青稞材料共计314份,其中野生大麦85份,青稞地方品种167份,育成品种(系)62份㊂材料选取时充分考虑了材料的类型和地理来源,所选材料覆盖了西藏㊁青海㊁甘肃㊁云南和四川等青藏高原主要的青稞种植区(图1)㊂图1野生大麦和青稞地方品种地理分布图F i g.1G e o g r a p h i c l o c a t i o n s o fw i l db a r l e y a n dn a k e db a r l e y l a n d r a c e s1.2基因组D N A提取用植物基因组D N A提取试剂盒(P l a n tG e-n o m i cD N A K i t,T I A N G E N)提取供试材料三叶期新鲜叶片的基因组D N A,用N a n o d r o p分光光度计和1%琼脂糖凝胶电泳检测D N A浓度和质量(O D260/O D280ʈ1.8)㊂1.3S N P基因分型参照E l s h i r e等[17]的方法,使用甲基化敏感的限制酶A p e KⅠ(G|C W C G)对基因组D N A进行消化处理并构建测序文库㊂该方法在避免剪切基因组重复区域的同时显著提高了对低拷贝区域的捕获能力,通过将D N A与两种接头(与限制性内切酶匹配的条形码接头盒通用接头)混合后,使用A p e KⅠ进行酶切反应,而后通过连接反应将两种接头连接到酶切片段上㊂对构建的混池进行P C R扩增以富集酶切片段㊂在I l l u m i n a H i S e q2000测序平台上获得A p e K I酶切位点侧翼区域的D N A序列㊂通过S O A P n u k e(h t t p://s o a p.g e n o m i c s.o r g.c n/)去除接头㊁修剪低质量r e a d s(Q<20)和去除 N 碱基>10%的r e a d s进行过滤㊂使用B WA0.7.15-r1140[18]将c l e a n r e a d s比对到大麦参考基因组[19]㊂通过P i c a r d1.119(h t-t p://b r o a d i n s t i t u t e.g i t h u b.i o/p i c a r d)对B a m文件进行排序和标记重复读取㊂变异信息的提取通过G A T K4[20]完成㊂首先,使用H a p l o t y p e C a l l e r为每个样本生成初始G V C F文件;其次,将所有G V C F文件与C o m b i n eG V C F组合成一个群组文件;最后,使用S e l e c t V a r i a n t s调用S N P并通过V a r i a n tF i l t r a t i o n过滤,S N P过滤参数设置为: Q D<2.0||MQ<40.0||F S>60.0||S O R>3.0||MQ R a n k S u m<-12.5||R e a dP o sR a n kS u m<S N P为-8.0 ㊂G A T K生成的㊃76㊃第1期陈同睿等:利用S N P标记鉴定青稞种质资源S N P使用V c f t o o l sV0.1.3[21]按如下条件进一步过滤:(1)保留具有多态性的位点;(2)去除最小等位基因频率(m i n o r a l l e l ef r e q u e n c y,MA F)ɤ0.05的位点;(3)去除缺失数据率ȡ5%的位点;(4)去除杂合率ȡ20%的位点㊂以大麦基因组作参考,使用S n p E f f4.3t(b u i l d2017-11-24)[22]对所有S N P的功能效应进行注释㊂筛选位于外显子区的S N P s,对获得的位于外显子区的高质量S N P数据集进行下一步分析㊂1.4群体结构分析使用P h y l i p V3.697(h t t p://e v o l u t i o n.g e-n e t i c s.w a s h i n g t o n.e d u/p h y l i p.h t m l)基于N e i 氏遗传距离矩阵利用邻接法(n e i g h b o r-j o i n i n g,N J)构建系统发育树,并使用i T o l(h t t p s://i t o l.e m b l.d e/)[23]进行可视化输出㊂使用E i ge n s of tV7.2.1[24]进行主成分分析,并利用前两个主成分作图㊂群体结构分析使用A d m i x t u r eV1.3.0[25]计算种群分层结构,群体数K值设定为2~10,并计算每个K 值对应的交叉验证误差(c r o s s-v a l i d a t i o n,C V)㊂采用V c f t o o l sV0.1.3[21]计算群体间遗传分化指数(f i x a t i o n i n d e x,F s t)㊂1.5数据处理与分子身份证生成利用P o w e rM a k e rV3.25[26]软件计算外显子区S N P标记的杂合率和遗传多态性信息指数(p o l y m o r p h i s mi n f o r m a t i o nc o n t e n t,P I C)㊂使用G e n A l E x V6.5[27]软件分析信息指数(i n f o r m a-t i o n i n d e x,I)㊁观测杂合度(o b s e r v e dh e t e r o z y-g o s i t y,H o)㊁期望杂合度(e x p e c t e dh e t e r o z y g o s i-t y,H e)㊁固定指数(f i x a t i o n i n d e x,F)和最小等位基因频率(MA F)㊂用G e n s t a t的去冗余(I R-R E D U N D A N T)指令通过顺序算法(S e q u e n t i a l a l g o r i t h m)[16,28]获取外显子区S N P中能将314份青稞材料完全区分开的核心S N P标记集,并用核心S N P构建供试青稞材料D N A指纹图谱㊂青稞品种资源基本信息由3位数字编码,分为地理来源代码和材料类型代码㊂地理来源代码用材料原产地省市的行政区划代码表示,即四川为51,云南为53,西藏为54,甘肃为62,青海为63,来源地不明的材料以00表示㊂材料类型代码的赋值方式:野生大麦为1,青稞地方品种为2,青稞育成品种为3㊂将青稞品种资源基本信息与D N A指纹图谱相结合构建青稞种质资源分子身份证[10],通过在线条码生成器(h t t p://w w w.w e-t o o l s.c o m/b a r c o d e)和二维码在线生成软件(h t-t p://q r-b a t c h.c o m/)以数字条码的形式展示青稞种质资源信息㊂2结果2.1基因分型与外显子区S N P s位点筛选简化基因组测序(G B S)结果表明,平均每个样本有18899957个r e a d s可以比对到大麦参考基因组上,其基因组覆盖率在2.21%至5.12%之间㊂删除缺失率ȡ5%㊁MA Fɤ0.05以及杂合率ȡ20%的位点,筛选到20598个S N P位点㊂大多数(40.44%)S N P s位于基因间区域,有24.05%的S N P s位于编码区,其中外显子区有1616个(7.85%)错义突变,2个(0.01%)起始密码子缺失突变,23个(0.11%)终止密码子获得突变,7个(0.03%)终止密码子缺失突变,这些变异位点可能导致显著的功能突变(表1)㊂位于外显子区4954个S N P s位点的平均杂合率为0.018,杂合率范围为0~0.199,其中4432个的杂合率小于0.05,占89.46%㊂4954个S N P s位点的MA F的平均值为0.224,P I C值范围为0.090~ 0.375,平均P I C值为0.254,其中P I C值大于0.250的S N P s位点占比达54.18%㊂这说明获得的4 954个位于外显子区的S N P s标记具有较高的多态性和可信度,可用于青稞种质资源指纹图谱和分子身份证的构建㊂2.2群体结构分析使用4954个S N P s进行群体结构分析,基于N e i氏遗传距离矩阵绘制的N J聚类树显示, 314份青稞种质资源可以划分为3个类群(图2A),类群Ⅰ含有145份青稞地方品种,12份育成品种(系)和1份野生大麦材料;类群Ⅱ含有21份青稞地方品种和46份育种品种(系);类群Ⅲ含有84份野生大麦材料,1份青稞地方品种和4份育成品种(系)㊂P C A结果(图2B)显示,第一主成分(P C A1)可以解释30.29%的遗传变异,可将类群Ⅲ与类群Ⅰ㊁类群Ⅱ分开;第二主成分(P C A2)可以解释15.69%的遗传变异,可将类群Ⅰ和类群Ⅱ分开㊂群体结构A d m i x t u r e分析结果显示,当K值设定为2~10时,交叉验证误差(C V)值呈下降趋势㊂因此,结合N J聚类树与P C A结果,将群体数K值设定为3㊂当K=2时,类群Ⅲ为独立群体,其余材料混合形成另外一个群体;当K= 3时,类群Ⅰ和类群Ⅱ分开;当K=4时,类群Ⅰ可进一步划分为两个亚群,主要分布在青海东部河㊃86㊃麦类作物学报第44卷表1S N P s的变异统计T a b l e1V a r i a t i o n s t a t i s t i c s o f t h e S N P s突变类型M u t a t i o n t y p e数目C o u n t占比P e r c e n t/%基因上游突变U p s t r e a m280413.61 5 _U T R上游U T R59934.82外显子E x o n i c495424.05无编码转录本外显子突变N o n_c o d i n g_t r a n s c r i p t_e x o n_v a r i a n t63起始密码子缺失S t a r t_l o s s2终止密码子缺失S t o p_l o s s7终止密码子获得S t o p_g a i n e d23终止密码子保留S t o p_r e t a i n e d_v a r i a n t5无义突变S y n o n y m o u s_v a r i a n t3238错义突变M i s s e n s e_v a r i a n t1616内含子I n t r o n i c4992.42剪接体S p l i c i n g280.14 3 _U T R上游U T R38884.31基因下游突变D o w n s t r e a m19019.23基因间I n t e r g e n i c832940.44剪切供体变异S p l i c e_d o n o r_v a r i a n t140.07剪切受体变异S p l i c e_a c c e p t o r_v a r i a n t180.09剪切体变异S p l i c e_r e g i o n_v a r i a n t1700.83湟谷地㊁甘肃河西走廊及甘肃中南部地区的地方品种组成亚群Ⅰ,主要来自西藏㊁四川西部㊁云南西北部㊁青海玉树㊁甘肃河西走廊中东部,甘肃南部地区的地方品种组成亚群Ⅱ㊂在类群Ⅰ中,Qȡ0.8的材料有107份,占此群体的67.72%,其中大部分为青稞地方品种(103份),育成品种(系)仅有4份;在类群Ⅱ中,Qȡ0.8的材料有31份,占此群体的46.27%,其中大部分为青稞育成品种(系)(26份),其余为青稞地方品种(5份);在类群Ⅲ中,Qȡ0.8的材料有63份,占此群体的70. 79%,且全部为野生大麦材料(图2C)㊂聚类分析㊁P C A和群体结构分析获得的结果高度一致,可互相印证㊂类群Ⅰ和类群Ⅱ的遗传分化系数F s t为0.121,属于中等程度的遗传分化㊂类群Ⅲ与类群Ⅰ和类群Ⅱ的遗传分化系数分别为0.195和0.194,均属于较大程度的遗传分化㊂2.3核心S N P标记的筛选及多态性分析用G e n s t a t的去冗余(I R R E D U N D A N T)指令通过顺序算法(S e q u e n t i a l a l g o r i t h m)[16,28]从4954个S N P s位点中优化筛选了14个多态性较高且覆盖了大麦7条染色体的S N P位点,形成了能完全区分314份参试材料的核心S N P㊂14个S N P s的P I C均值为0.349,其中S N P2287和S N P3598的P I C值最高,均为0.375㊂S N P2705的P I C值最低,为0.240㊂14个S N P的信息指数(I)平均值为0.646,观测杂合度(H o)平均值为0.024,期望杂合度(H e)平均值为0.456,固定指数(F)平均值为0.945,最小等位基因频率(MA F)平均值为0.387(表2),表明上述14个S N P具有较高的遗传多样性㊂14个S N P s在染色体3H和6H上分布数最多,均为4个,其次是4H,有2个,1H㊁2H㊁5H和7H上仅有1个S N P(表2)㊂2.4S N P指纹图谱构建对获得的14个S N P进行数字化编码,以构建青稞种质资源的分子身份证㊂在14个S N P 中,X Y(杂合型)㊁X X(野生纯合性)㊁Y Y(突变纯合性)和N N(缺失)4种基因型分别用数字1~4编码[10]㊂例如,地方品种 西宁白六棱青稞 14个S N P位点的基因为C C㊁T T㊁G G㊁T T㊁G G㊁T T㊁G G㊁N N㊁G G㊁G G㊁C C㊁T T㊁G G和T T,其单个位点的基因型为Y Y㊁Y Y㊁X X㊁X X㊁Y Y㊁Y Y㊁X X㊁N N㊁X X㊁X X㊁Y Y㊁Y Y㊁Y Y和X X,经赋值转换生成的14位S N P指纹码为33223324223332㊂2.5青稞种质资源分子身份证的构建青稞种质资源分子身份证由品种资源信息码和S N P指纹码构成,总数为17位㊂以西宁白六棱青稞为例,该品种为原产于青海的青稞地方品种,其品种资源信息码转化成数字码为632,其中㊃96㊃第1期陈同睿等:利用S N P标记鉴定青稞种质资源63 表示该品种的原产地是青海, 2表示为地方品种;其14个S N P 基因型转换成14位数字码为33223324223332㊂因此,西宁白六棱青稞的分子身份证为63233223324223332(图2A )㊂利用在线条码生成器和二维码在线生成软件,分别生成西宁白六棱青稞身份证的条形码和二维码(图2B )㊂用相同方式生成其余313份青稞种质资源分子身份证㊁条形码和二维码㊂利用该技术手段构建的青稞种质资源分子身份证包含了青稞种质的原产地㊁材料类型及14个核心S N P 标记,可直观㊁快速地鉴别314份参试材料㊂本研究选取的核心S N P 标记均位于外显子区,且具有高多态性㊁低杂合性及均匀分布于大麦7条染色体的特点,可靠性和稳定性均较高㊂A :聚类分析;B :主成分分析;C :群体结构分析㊂A :P h y l o g e n e t i c t r e e ;B :P r i n c i p a l c o m p o n e n t a n a l y s i s ;C :P o p u l a t i o ns t r u c t u r e a n a l ys i s .图2 314份青稞群体结构分析F i g .2 P o p u l a t i o n s t r u c t u r e a n a l y s i s o f t h e 314n a k e db a r l e y ac c e s s i o n s 表2 14个核心S N P 标记多态信息表T a b l e 2 P o l y m o r ph i c i n f o r m a t i o no f t h e 14c o r e S N P s 位点L o c u s染色体C h r o m o s o m e 位置P o s i t i o n多态信息量P I C 信息指数I 观测杂合度H o 期望杂合度H e 固定指数F 次等位基因频率MA FS N P 17c h r 1H 24804270.3610.6660.0100.4740.9800.385S N P 1106c h r 2H 6962770960.3740.6900.0250.4970.9490.462S N P 1449c h r 3H 109158410.3740.6910.0030.4980.9940.471S N P 1497c h r 3H 270511890.2600.4850.0100.3070.9680.189S N P 1748c h r 3H 5699934740.3650.6740.0320.4810.9330.402S N P 2057c h r 3H 6792534880.3620.6680.0330.4750.9310.389S N P 2179c h r 4H 75929580.3590.6620.0130.4690.9730.375S N P 2287c h r 4H 4030706930.3750.6920.0290.4990.9420.481S N P 2705c h r 5H 687838010.2400.4520.0290.2790.8970.168S N P 3528c h r 6H 80954900.3420.6300.0450.4390.8960.325S N P 3598c h r 6H 175722500.3750.6930.0160.5000.9680.492S N P 3725c h r 6H 1185236250.3630.6690.0290.4760.9390.391S N P 3729c h r 6H 1185239340.3740.6910.0230.4970.9540.464S N P 4429c h r 7H816571610.3680.6790.0450.4860.9080.417平均值A v e r a ge 0.3490.6460.0240.4560.9450.387㊃07㊃麦 类 作 物 学 报 第44卷A:分子身份证;B:身份证条形码㊂A:M o l e c u l a r I D;B:Q Rc o d e.图3西宁白六棱青稞身份证及条形码示意图F i g.3S c h e m a t i c d i a g r a mo fX i n i n g b a i l i u l e n g q i n g k e 3讨论3.1青稞种质资源S N P标记的基因分型S N P和S S R是国际植物新品种权保护联盟(U P O V)B MT分子测试指南中构建D N A指纹图谱和国内‘植物品种鉴定D N A指纹方法总则“(N Y/T2594-2016)中推荐使用的方法[29]㊂S S R具有数量多㊁多态性高㊁重复性好㊁突变率低㊁共显性㊁引物具有通用性等优点[7,16,30]㊂但是,由于每个S S R位点可能存在大量的复等位基因,而每个等位基因之间的碱基数差异较小且不容易互相区分,给数据的累加和横向比较造成困难[31]㊂与S S R相比,S N P在基因组中分布密度更高㊁更均匀,且分型简单,更适合数据整合和共享且与功能基因尤其是植物表型基因关联度较高[11],因此被公认为是更具应用前景㊂D N A指纹图谱应用于品种鉴定时,其结果的可靠程度主要依赖于分子标记的稳定性和多态性[8]㊂因此,在本研究中,我们选取位于外显子区域且多态性较高(平均P I C值为0.254)的S N P进行青稞种质分子鉴定㊁指纹图谱和分子身份证的构建,增加所构建的分子身份证对青稞种质资源鉴定的可用性和准确性,此方法为青稞品种真实性和纯度鉴定㊁种质管理及知识产权保护等提供参考㊂用基因编码区的S N P鉴定品种可以突出S N P标记与功能基因甚至植物表型关联度高的优点[11]㊂利用与表型性状关联的S N P标记既可以用于目标性状的检测,又可用于指纹图谱的构建,将其应用到D U S测试中,有利于减少田间种植成本㊁提高检测的可靠性和效率[8,11]㊂3.2青稞种质资源群体结构与其材料类型的相关性聚类分析和P C A将参试的314份青稞种质资源划分为3个类群,类群Ⅰ主要是青稞地方品种,类群Ⅱ主要是育成品种(系)和地方品种,类群Ⅲ主要是野生大麦(图2A)㊂在群体结构分析中,以Qȡ0.8的个体看,类群Ⅰ主要是青稞地方品种,类群Ⅱ主要是育成品种(系),类群Ⅲ主要是野生大麦㊂类群Ⅱ大部分个体(53.73%)基因组呈现混合状,表明类群Ⅱ中的个体与类群Ⅰ和类群Ⅲ均存在基因交流(图2C)㊂群体遗传分化分析表明,类群Ⅱ与类群Ⅰ的遗传分化程度小于与类群Ⅲ的遗传分化程度,主成分分析也显示,类群Ⅰ和类群Ⅱ的亲缘关系更近(图2B)㊂青稞品种选育主要以系统选择和杂交育种为主,在105份影响力高㊁推广范围大的青稞育成品种中,9个骨干亲本及其67个衍生品种构成育成品种的主体[6],说明育成品种与地方品种的亲缘关系较野生大麦更近㊂但在今后的青稞育种中,应注意包括野生大麦等在内的亲缘关系较远材料的应用,以拓宽其遗传基础㊂3.3核心S N P构建青稞指纹图谱为构建准确㊁稳定的青稞D N A指纹图谱,需筛选出一套核心S N P组合㊂核心S N P位点组合需要具备多态性高㊁重复性和稳定性好㊁杂合率低㊁在基因组上分布均匀等条件[12]㊂筛选能区分一定数量种质材料的最少S N P标记组合,可以缩短品种分子鉴定的时间,降低成本[10-12]㊂樊晓静等[10]从1786个候选S N P中筛选得到24个S N P 用于构建101份茶树品种的D N A指纹图谱㊂王升博等[12]获得了17个S N P,用其能够区分505份油菜品种㊂本研究获得了14个核心S N P,能够将314份青稞种质资源完全区分开㊂所选14个S N P分布于7条染色体上,且位于基因外显子区域,具有很好的重现性和稳定性,杂合率低㊂理论上,S N P为二态时,最少可用9个S N P(29= 512)即可将314份青稞完全区分㊂因此,本研究中获得的14个核心S N P在区分青稞品种上仍有较大的扩容空间,可继续对该S N P集合区分品种的能力进行评估㊂3.4青稞种质资源D N A分子身份证的价值与应用种质资源D N A分子身份证与D N A指纹图谱的基本功能相同,主要是用于区分不同的品种㊂㊃17㊃第1期陈同睿等:利用S N P标记鉴定青稞种质资源相较于D N A指纹图谱,分子身份证利用特定的数字编码成数字串,辅以条形码或者二维码可以实现快速识别[9]㊂本研究构建的青稞种质资源分子身份证既包含各品种的分子指纹码又与其原产地㊁类型等基本信息结合,可以快速了解青稞品种的有效信息,提高品种鉴别和评价的效率㊂在今后的工作中,可以将这种构建D N A分子身份证的方法应用于更多的青稞品种中,有利于实现青稞种质资源的有效管理与品种知识产权的保护㊂参考文献:[1]Z E N G X Q,G U O Y,X U QJ,e ta l.O r i g i na n de v o l u t i o no f q i n g k eb a r l e y i nT i b e t[J].N a t u r eC o mm u n i c a t i o n s,2018,9(1):2.[2]徐齐君,王玉林,杨春葆,等.利用全基因组重测序技术研究182份大麦和青稞的基因组结构变异[J].西北农业学报, 2020,29(10):1502.X U QJ,WA N G Y L,Y A N G C B,e ta l.S t u d y o n g e n o m i c s t r u c t u r a l v a r i a t i o n s o f182b a r l e y a n d q i n g k e b y u s e o fw h o l e g e n o m es e q u e n c i n g[J].A c t a A g r i c u l t u r a eB o r e a l i-o c c i d e n-t a l i sS i n i c a,2020,29(10):1502.[3]夏虎,晏熙玥,卢利聃,等.青稞的营养功能及其高值化利用研究进展[J].食品工业科技,2022,43(20):403.X I A H,Y A N X Y,L U L D,e ta l.P r o g r e s so nn u t r i t i o n a l f u n c t i o na n dh i g h-v a l u e u t i l i z a t i o no fh u l l e s sb a r l e y[J].S c i-e n c e a n dT e c h n o l o g y of F o o dI n d u s t r y,2022,43(20):403.[4]胡辉,刘鹏,程佩佩,等.小分子青稞β-葡聚糖辅助降血糖功能研究[J].食品研究与开发,2018,39(21):34.HU H,L I UP,C H E N GPP,e t a l.S t u d y o n t h e a u x i l i a r y h y-p o g l y c e m i c f u n c t i o no f s m a l lm o l e c u l eβ-g l u c a n f r o m h u l l-l e s sb a r l e y[J].F o o d R e s e a rc ha nd De v e l o p m e n t,2018,39(21):34.[5]李婷玉,杜艳,陈正行,等.发芽青稞辅助降血糖和降血脂功效研究[J].中国食品学报,2022,22(9):114.L IT Y,D U Y,C H E NZX,e t a l.H y p o g l y c e m i c a n dh y p o l i p i-d e m i c e f f e c to f g e r m i n a t e dh i g h l a n db a r l e y[J].J o u r n a lo fC h i n e s e I n s t i t u t eo f F o o dS c i e n c ea n d T e c h n o l o g y,2022,22(9):114.[6]李健,丰先红,蔡一林.青藏高原青稞育成品种的亲缘系数分析[J].中国农业科学,2019,52(16):2759.L I J,F E N G X H,C A IY L.C o e f f i c i e n to f p a r e n t a g ea n a l y s i s a m o n g n a k e db a r l e y v a r i e t i e s i n Q i n g h a i-T i b e tP l a t e a u[J]. S c i e n t i aA g r i c u l t u r aS i n i c a,2019,52(16):2759. [7]曾乐,杨天赐,姚佳延,等.不同大麦品种特异性S S R分子标记的筛选[J].麦类作物学报,2021,41(1):21.Z E N GL,Y A N G TC,Y A OJY,e t a l.S c r e e n i n g o f S S R m o-l e c u l a rm a r k e r s o f b a r l e y v a r i e t y d i s t i n c t n e s s[J].J o u r n a l o f T r i t i c e a eC r o p s,2021,41(1):21.[8]徐金青,边海燕,王寒冬,等.基于全基因组S N P高效鉴定燕麦种质资源[J].麦类作物学报,2022,42(6):680.X UJQ,B I A N H Y,WA N G H D,e ta l.E f f e c t i v e i d e n t i f i c a-t i o n f o r o a tv a r i e t i e sb yg e n o m e-w i d eS N P s[J].J o u r n a lo f T r i t i c e a eC r o p s,2022,42(6):680.[9]刘彬,赵雨露,杨鑫雷,等.251份藜麦种质资源遗传多样性及分子身份证构建[J].植物遗传资源学报,2022,23(3):706. L I U B,Z H A OYL,Y A N GXL,e t a l.G e n e t i c d i v e r s i t y o f251 g e r m p l a s m a c c e s s i o n sa n d c o n s t r u c t i o n o f m o l e c u l a rI D i n Q u i n o a(C h e n o p o d i u m q u i n o a W i l l d.)[J].J o u r n a l o f P l a n tG e n e t i cR e s o u r c e s,2022,23(3):706.[10]樊晓静,于文涛,蔡春平,等.利用S N P标记构建茶树品种资源分子身份证[J].中国农业科学,2021,54(8):1756.F A N XJ,Y U W T,C A ICP,e t a l.C o n s t r u c t i o no fm o l e c u-l a r I Df o r t e a c u l t i v a r s b y u s i n g o f s i n g l e n u c l e o t i d e p o l y m o r-p h i s m(S N P)m a r k e r s[J].S c i e n t i a A g r i c u l t u r a S i n i c a, 2021,54(8):1756.[11]李梓榕,袁雄,陈叶,等.基于全基因组S N P高效鉴定水稻种质资源并构建指纹图谱[J].分子植物育种,2020,18(18): 6051.L I ZR,Y U A NX,C H E N Y,e t a l.E f f e c t i v e i d e n t i f i c a t i o n f o r v a r i e t i e s b yg e n o m e-w i d eS N P s a n de s t a b l i s h m e n t o f f i n g e r-p r i n t f o rr i c e g e r m p l a s m[J].M o l e c u l a r P l a n tB r e e d i n g, 2020,18(18):6051.[12]王升博,黄一鸣,梁聪园,等.基于全基因组S N P构建甘蓝型油菜指纹图谱[J].中国油料作物学报,2022,44(5):967. WA N GSB,HU A N G Y M,L I A N GCY,e t a l.C o n s t r u c t i o n o f f i n g e r p r i n t f o r B r a s s i c a n a p u s g e r m p l a s mb y g e n o m e-w i d e S N P s[J].C h i n e s eJ o u r n a lo f O i lC r o p S c i e n c e s,2022,44 (5):967.[13]L I N Y,L I A O MJ,Y A N GGP,e t a l.I d e n t i f i c a t i o no f b a r l e y v a r i e t i e su s e di n b e e r p r o d u c t i o n b y m i c r o s a t e l l i t e D N A m a r k e r s[J].J o u r n a l o f t h eAm e r i c a nS o c i e t y o f B r e w i n gC h e m i s t s,2007,65(1):47.[14]王艳平,沈奇,张继红,等.大麦D U S测试标准品种的遗传多样性分析及指纹图谱的构建[J].麦类作物学报,2013,33 (2):273.WA N G YP,S H E N Q,Z H A N GJH,e t a l.G e n e t i cd i v e r s i t y a n a l y s i s a n db u i l d i n g o fD N Af i n g e r p r i n t s o f b a r l e y s t a n d a r d v a r i e t i e s i nD U S t e s t i n g b a s e do nS S R m a r k e r s[J].J o u r n a l o f T r i t i c e a eC r o p s,2013,33(2):273.[15]冯艳芳,马莹雪,李嫒嫒,等.大麦申请保护品种D N A指纹图谱构建[J].分子植物育种,2023,21(14):4685.F E NG YF,MA Y X,L IA A,e ta l.D N Af i n g e r p r i n tc o n-s t r u c t i o no fb a r l e y v a r i e t y f o r p r o d u c t i o n[J].M o l e c u l a r P l a n tB r e e d i n g,2023,21(14):4685.[16]OW E N H,P E A R S O N K,R O B E R T SA M,e t a l.S i n g l en u-c l e o t ide p o l y m o r p h i s ma s s a y t o d i s t i n g u i s h b a r l e y(H o r d e u m v u l g a r e L.)v a r i e t i e s i n s u p p o r t of s e e d c e r t i f i c a t i o n[J].G e-n e t i cR e s o u r c e s a n dC r o p E v o l u t i o n,2019,66(6):1243.[17]E L S H I E R RJ,G L A U B I T ZJC,S U N Q,e ta l.Ar o b u s t, s i m p l e g e n o t y p i n g-b y-s e q u e n c i n g(G B S)a p p r o a c hf o rh i g hd i ve r s i t y s p e c i e s[J].P l o SO n e,2011,6(5):2.[18]L I H,D U R B I N R.F a s ta n da c c u r a t es h o r tr e a da l i g n m e n t w i t hb u r r o w s-w h e e l e r t r a n s f o r m[J].B i o i n f o r m a t i c s,2009,㊃27㊃麦类作物学报第44卷25(14):1754.[19]MA S C H E R M,G U N D L A C H H,H I MM E L B A C H A,e t a l. Ac h r o m o s o m e c o n f o r m a t i o n c a p t u r e o r d e r e d s e q u e n c e o f t h eb a r l e yg e n o m e[J].N a t u r e,2017,544(7651):427.[20]M C K E N N A A,HA N N A M,B A N K SE,e ta l.T h e g e n o m ea n a l y s i s t o o l k i t:A M a p R e d u c e f r a m e w o r k f o r a n a l y z i n g n e x t-g e n e r a t i o n D N A s e q u e n c i n g d a t a[J].G e n o m e R e s e a r c h, 2010,20(9):1297.[21]D A N E C E KP,A U T O N A,A B E C A S I SG,e t a l.T h ev a r i a n tc a l lf o r m a ta nd V C F t o o l s[J].B i o i n f o r m a t i c s,2011,27(15):2156.[22]C I N G O L A N IP,P L A T T SA,WA N G LL,e t a l.A p r o g r a mf o r a n n o t a t i ng a n d p r e d i c t i n g th ee f f e c t so f si n g l en u c l e o t i d e p o l y m o r p h i s m s,S n p E f f:S N P s i nt h e g e n o m eo fD r o s o p h i l a m e l a n o g a s t e r s t r a i n w1118;i s o-2;i s o-3[J].F l y,2012,6 (2):80.[23]L E T U N I C I,B O R KP.I n t e r a c t i v e t r e e o f l i f e(i T O L)v3:A n o n l i n e t o o l f o r t h e d i s p l a y a n d a n n o t a t i o no f p h y l o g e n e t i c a n d o t h e r t r e e s[J].N u c l e i cA c i d sR e s e a r c h,2016,44(1):242.[24]P A T T E R S O N N,P R I C E A L,R E I C H D.P o p u l a t i o ns t r u c-t u r e a n de i g e n a n a l y s i s[J].P L o S G e n e t i c s,2006,2(12): 2074.[25]A L E X A N D E RD H,N O V E M B R EJ,L A N G E K.F a s tm o d-e l-b a s e d e s t i m a t i o nof a n c e s t r y i nu n r e l a t e d i n d i v i d u a l s[J].G e n o m eR e s e a r c h,2009,19(9):1655.[26]L I U KJ,MU S ES V.P o w e r M a r k e r:A n i n t e g r a t e da n a l y s i se n v i r o n m e n tf o rg e n e t i cm a r k e ra n a l y s i s[J].B i o i n f o r m a t-i c s,2005,21(9):2128.[27]P E A K A L LR,S MO U S EPE.G e n A l E x6.5:G e n e t i c a n a l y s i si nE x c e l.P o p u l a t i o n g e n e t i cs o f t w a r ef o rt e a c h i n g a n dr e-s e a r c h-a nu p d a t e[J].B i o i n f o r m a t i c s,2012,28(19):2537.[28]P A Y N E R W,P R E E C E D A.I d e n t i f i c a t i o nk e y sa n dd i a g-n o s t i c t a b l e s:Ar e v i e w[J].J o u r n a l o f R o y a l S t a t i s t i c a l S o-c i e t y:S e r i e sA(G e n e r a l),1980,143(3):253.[29]B U T T O N P.T h e i n t e r n a t i o n a lu n i o nf o rt h e p r o t e c t i o no f n e wv a r i e t i e s o f p l a n t s(U P O V)r e c o mm e n d a t i o n s o nv a r i e t y d e n o m i n a t i o n s[C].//I n t e r n a t i o n a l S y m p o s i u mo n t h eT a x-o n o m y o fC u l t i v a t e dP l a n t s,2007,799:191-200. [30]王富强,樊秀彩,张颖,等.S N P分子标记在作物品种鉴定中的应用和展望[J].植物遗传资源学报,2020,21(5):1308. WA N GF Q,F A N X C,Z HA N G Y,e ta l.A p p l i c a t i o na n d p r o s p e c t o f S N Pm o l e c u l a rm a r k e r s i n c r o p v a r i e t y i d e n t i f i c a-t i o n[J].J o u r n a l o f P l a n tG e n e t i cR e s o u r c e s,2020,21(5): 1308.[31]徐云碧,王冰冰,张健,等.应用分子标记技术改进作物品种保护和监管[J].作物学报,2022,48(8):1864.X U Y B,WA N G B B,Z H A N G J,e ta l.E n h a n c e m e n to f p l a n t v a r i e t y a n d r e g u l a t i o nu s i n g m o l e c u l a rm a r k e r t e c h n o l-o g y[J].A c t aA g r o n o m i c aS i n i c a,2022,48(8):1864.㊃37㊃第1期陈同睿等:利用S N P标记鉴定青稞种质资源。

一种改进的SSD目标检测算法

一种改进的SSD目标检测算法
典型的有R-CNN [81和Fast R-CNN⑼系列,其中
R-CNN米用selective search提取候选区域,然后进
行特征提取,用获得的特征进行分类,用非极大
值抑制和边界框回归进行精确检测。Fast R-CNN 是在R-CNN的基础上,进行了相关改进,将特征
提取、区域分类等融合在一起,将分类与回归同 时训练,极大地提升了训练中的空间耗费问题,
DSSD
ResNet-101 300x300 78.6
STDN DenseNet-169 300x300 78.1
FSSD
VGGNet 300x300 78.8
FP Reconfig VGGNet 300x300 79.6
于特征金字塔融合方法和级联检测器的两类方 法。特征金字塔融合方法主要有FPN⑵、TDM⑶、 DSSD [ 41FSSD⑸和FP Reconfig⑹,该类方法通 过将语义更深的特征聚集到较浅的层次来解决 小目标检测中的模糊性,通常,从主干中提取的 一组特征映射跨尺度融合在一起,产生金字塔式 的表示,在此基础上进行后续的检测操作。最早 Lin等人提出了特征金字塔网络(Feature Pyramid Network,FPN ),该网络通过迭代上采样和像素加 法,将较高层次的判别特征融合到较低层次上, 融入高层的语义信息和低层的位置信息。在此基
•108 -
础上,提出了TDM,将融合操作由像素加法改为
像素级联。除了这两项基础工作外,还提出了一
些更为复杂的特征金字塔融合方法,如FSSD重构
了特征金字塔,通过把网络中某些特征进行尺度 调整,特征图较小的层进行上采样来统一到同一
尺寸,并通过级联对特征连接。DSSD算法通过利
用上下文信息和反卷积操作,单向融合了低层特

一种改进的随机森林Boost多标签文本分类算法

一种改进的随机森林Boost多标签文本分类算法

一种改进的随机森林Boost多标签文本分类算法
邵孟良;齐德昱
【期刊名称】《计算机应用与软件》
【年(卷),期】2022(39)11
【摘要】针对目前Boosting算法计算成本高、学习时间长的问题,提出一种改进的随机森林提升(RF-Boost)算法(IRF-Boost)。

对训练特征进行排序;在每个Boosting轮中,过滤并使用排序靠前特征的较小子集;根据权重选择一个特征构建新的弱假设,弱假设搜索空间的大小从k降低至1。

实验检验并分析了信息增益、卡方、GSS系数、互信息、优势比、F1得分和准确度共7种特征排序方法。

实验结果表明:在所评价的特征排序法中,互信息最适用于RF-Boost;IRF-Boost的效率优于RF-Boost及AdaBost.MH,即IRF-Boost是解决实践应用和专家系统中分类问题的较好选择。

【总页数】8页(P215-221)
【作者】邵孟良;齐德昱
【作者单位】广州软件学院计算机系;华南理工大学计算机科学与工程学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种半监督的多标签Boosting分类算法
2.一种改进的RAKEL多标签分类算法
3.基于随机森林与特征提取算法的试验文本分类算法研究
4.基于标签语义相似的动态多标签文本分类算法
5.一种改进的TF-IDF文本分类算法
因版权原因,仅展示原文概要,查看原文内容请购买。

《心理学报》 2020 年第 52 卷总目录

《心理学报》 2020 年第 52 卷总目录

《心理学报》2020年第52卷总目录1 认知和实验心理学汉语普通话声调感知的老年化效应:来自ERP 的证据·········································肖 容 梁丹丹 李善鹏 (1) 认知重评和表达抑制情绪调节策略的脑网络分析:来自EEG 和ERP 的证据············孙 岩 薄思雨 吕娇娇 (12) 汉语复合词视觉识别的时间进程:基于同形语素的行为与ERP 证据····吴建设 常嘉宝 邱寅晨 Joseph Dien (113) 道德概念的空间形象性:语言因素和具身因素的共同作用·····················王汉林 蒋泽亮 冯晓慧 鲁忠义 (128) 分类学习与混合学习下的注意促进效应比较···················································孟迎芳 叶秀敏 马慧姣 (139) 双通道分配性注意对视听觉返回抑制的影响···················································唐晓雨 孙佳影 彭 姓 (257) 情绪对联合行动中共同表征能力的影响机制·······································宋晓蕾 贾筱倩 赵 媛 郭晶晶 (269) 句法结构和动词重复对汉语句子口语产生中句法启动效应的影响····································于 宙 张清芳 (283) 视觉工作记忆回溯线索效应的产生机制:认知阶段分离·································································叶超雄 胡中华 梁腾飞 张加峰 许茜如 刘 强 (399) 汉语口语词汇产生的音韵编码单元:内隐启动范式的ERP 研究·······································张清芳 王雪娇 (414) 概念加工深度影响道德概念水平方位隐喻联结························王丛兴 马建平 邓 珏 杨众望 叶一舵 (426) 文化影响亲属词性别概念加工中的空间隐喻与重量隐喻——来自彝族、白族和摩梭人的证据·····································································································张积家 付 雅 王 斌 (440) 语言能力的老化机制:语言特异性与非特异性因素的共同作用················吴翰林 于 宙 王雪娇 张清芳 (541) 长时联结表征对工作记忆的抑制效应················································张 引 梁腾飞 叶超雄 刘 强 (562)提取干扰对不同类型内隐记忆的影响····························································黄发杰 孟迎芳 严 颖 (572) 社会行为的效价信息对注意捕获的影响:基于帮助和阻碍行为的探讨·············································································郑旭涛 郭文姣 陈 满 金 佳 尹 军 (584) 基于客体的一致性效应的产生机制···················································宋晓蕾 王 丹 张欣欣 贾筱倩 (669)动作理解因境而异: 动作加工中情境信息的自动整合····························杨亦松 林 静 何晓燕 尹 军 (682) 他人面孔情绪知觉中自我参照与母亲参照的一致性:来自ERP 的证据·············································································丁小斌 王 睿 康铁君 刘建邑 周嘉宁 (694) 目标探测对记忆提取的影响····················································································黄晏清 孟迎芳 (706) 他人在场条件下的社会分享型提取诱发遗忘···························张 环 侯 双 王海曼 廉宇煊 杨海波 (716)面孔可爱度和客观熟悉度对婴儿面孔注意偏向效应的影响·····················雷 怡 夏 琦 莫志凤 李 红 (811)老年人声音诱发闪光错觉的大脑静息态低频振幅·····················周 衡 何 华 于 薇 王爱君 张 明 (823) 内源性空间线索有效性对视听觉整合的影响···························唐晓雨 吴英楠 彭 姓 王爱君 李 奇 (835)音乐训练促进诗句韵律整合加工的神经过程·······································张政华 韩 梅 张 放 李卫君 (847) 外语焦虑、紧张情绪与认知负荷对外语说谎的影响:来自中−英双语者的证据·························································································张积家 陆禹同 张启睿 张金桥 (861) 中文阅读中长距离回视引导机制的眼动研究···················································杨 帆 隋 雪 李雨桐 (921) 快速与慢速读者的中央凹加工对副中央凹预视的影响···············张慢慢 臧传丽 徐宇峰 白学军 闫国利 (933) 自我相关性影响情绪词汇加工的时间进程··········································张 琪 邓娜丽 姜秀敏 李卫君 (946) 数学焦虑个体近似数量加工的神经机制:一项EEG 研究·····················································刘 洁 李瑾琪 申超然 胡小惠 赵庭浩 关 青 罗跃嘉 (958) 语境预测性对阅读中字词加工过程的影响:眼动证据·························刘志方 仝 文 张智君 赵亚军 (1031) 藏语阅读中中央凹词频效应及对副中央凹预视效应的影响········高晓雷 李晓伟 孙 敏 白学军 高 蕾 (1143) 编码强度对字体大小效应的影响·····················································赵文博 姜英杰 王志伟 胡竞元 (1156) 分析思维降低情感预测影响偏差································································耿晓伟 刘 丹 牛燕华 (1168) 预期交流与创造力的关系:解释水平的调节作用···········································栾 墨 吴 霜 李 虹 (1178) 未意识到错误影响错误后调整的电生理证据·················································王丽君 索 涛 赵国祥 (1189) 科学发明情境中问题提出的脑机制再探········童丹丹 李文福 禄 鹏 杨文静 杨 东 张庆林 邱 江 (1253) 音乐训练与抑制控制的关系:来自ERPs 的证据············································陈洁佳 周 翊 陈 杰 (1365) 英汉双语者二语口语产生中音韵编码过程的同化机制·····································辛 昕 兰天一 张清芳 (1377) 自我关注重评和情境关注重评情绪调节策略及对随后认知控制的影响·····孙 岩 吕娇娇 兰 帆 张丽娜 (1393) A ct aP sy ch o lo g ic a S in i c a . All Rights Reserved.2 发展与教育心理学3~5岁幼儿权力概念多重隐喻的认知发展··································································贺晓玲 陈 俊 (149) 音乐训练对4~5岁幼儿普通话声调范畴感知能力的影响···············································姚 尧 陈晓湘 (456) 语音记忆和中央执行功能在不同年级儿童解码和语言理解中的作用·········································赵 鑫 李红利 金 戈 李世峰 周爱保 梁文佳 郭红霞 蔡亚亚 (469) 友谊质量与青少年直觉进食:链式中介模型及性别差异····································陈曦梅 罗一君 陈 红 (485) 小学低段汉字识别和听写的发展轨迹:语素意识的预测作用······························李利平 伍新春 程亚华 (623) 2~4岁普通话儿童前注意阶段的声调感知机制·················································杨婉晴 肖 容 梁丹丹 (730) 学校资源对青少年早期幸福感发展的影响:意向性自我调节的纵向中介作用·············································································常淑敏 郭明宇 王靖民 王玲晓 张文新 (874) 父母元情绪理念与青少年问题行为:迷走神经的调节作用·····················何晓丽 袁小龙 胡 铭 周丽晨 (971) 情节模拟对预期伴侣反应性及依恋安全感的影响·············································曹贤才 王大华 王 岩 (982) 小学高年级学生创造力的发展:性别差异及学校支持的作用·····张景焕 付萌萌 辛于雯 陈佩佩 沙 莎 (1057) 基于即时反馈的反应抑制训练对青少年和成人执行功能的训练效应和迁移效应·······················································································王 元 李 柯 盖笑松 曹逸飞 (1212) 记忆的前向测试效应对老年人学习新事物的作用···········································王堂生 杨春亮 钟 年 (1266) 母亲消极教养、同伴侵害与FKBP5基因对青少年抑郁的影响···························田相娟 曹衍淼 张文新 (1407) 3 生理与医学心理学 急性应激损害对威胁刺激的注意解除 ···········································罗 禹 念靖晴 鲍 未 张静静 赵守盈 潘 运 许 爽 张 禹 (26) 急性应激损伤错误监控与错误后调整························胡 娜 陈安涛 王宴庆 李 晴 许珍珍 龙泉杉 (162) 羽毛球运动重塑成年早期的大脑灰质和白质结构·····················白学军 邵梦灵 刘 婷 尹建忠 金 花 (173) 寻找丢失的自我——精神分裂症患者的自我面孔识别···周爱保 谢 珮 潘超超 田 喆 谢君伟 刘 炯 (184)咨询会谈中的人际互补及其与工作同盟、咨询效果的关系·································································倪 聪 朱 旭 江光荣 林秀彬 于丽霞 梁焕萍 (197) 注意线索对自闭特质个体疼痛共情的影响:来自事件相关电位的证据·······李 雄 李祚山 向滨洋 孟 景 (294) 共情对灾后青少年亲社会行为的影响:感恩、社会支持和创伤后成长的中介作用················王文超 伍新春 (307) 不同相关线索下海洛因成瘾者的反应差异及反应抑制特征:来自ERP 的证据·····················································郑志灵 王鹏飞 苏得权 郭伟杰 孙 楠 麻彦坤 曾 红 (317)中国人心理健康素养干预效果的元分析··········································任志洪 赵春晓 田 凡 闫玉朋 李丹阳 赵子仪 谭梦鸰 江光荣 (497) 左侧背外侧前额叶在程序性运动学习中的作用·····················································曹 娜 孟海江 王艳秋 邱方晖 谭晓缨 吴 殷 张 剑 (597) 抑郁倾向对合作的影响:双人同步近红外脑成像研究···张丹丹 王 驹 赵 君 陈淑美 黄琰淋 高秋凤 (609) 经前期综合征与奖赏进程失调——来自脑电的证据··········································侯璐璐 陈莅蓉 周仁来 (742) 回避与趋近性负性人格特质对应激心血管反应模式的不同影响···················································吕 薇 (758) 成人注意缺陷多动障碍在内外源冲突时的表现:眼动的证据··················李垚锦 张 微 扶 蓓 周兵平 (777) 自我肯定缓冲新冠疫情引发的焦虑反应:一项随机对照研究······李世峰 吴艺玲 张福民 许琼英 周爱保 (886) 左侧眶额皮层在自动情绪调节下注意选择中的作用:来自经颅直流电刺激的证据···········································································华 艳 李明霞 王巧婷 冯彩霞 张 晶 (1048) θ频段(4~8 Hz)的活动反映了汉语口语产生中音节信息的加工···························蒋宇宸 蔡 笑 张清芳 (1199) 整合性学习观的动物行为模型探索·····························································尹 彬 武晓睿 连 榕 (1278) 睾酮素与反社会倾向未成年犯的攻击行为:敌意注意偏向的中介和皮质醇的调节作用····················································任志洪 赵子仪 余香莲 赵春晓 张 琳 林羽中 张 微 (1288) 震后儿童创伤后应激障碍的症状网络演化····················································梁一鸣 郑 昊 刘正奎 (1301) 流动儿童歧视知觉与心理健康关系的元分析··························韩毅初 温恒福 程淑华 张淳淦 李 欣 (1313)A c t aP s y c h o lo g i c aS in i c a . All Rights Reserved.4 管理与消费心理学个性化工作协议对员工主动性职业行为和创造力的影响·························罗 萍 施俊琦 朱燕妮 房俨然 (81) 社会拥挤对自我提升类产品偏好的影响····································································丁 瑛 钟嘉琦 (216) 建言采纳如何促进员工建言:基于目标自组织视角的整合机制····························章 凯 时金京 罗文豪 (229) 行为公共管理学视角下公共决策的社会许可机制:“一提两抑”····························张书维 申翊人 周 洁 (240) 信任以稀为贵?下属感知被信任如何以及何时导致反生产行为····陈 晨 张 昕 孙利平 秦 昕 邓惠如 (329) 冲突对绩效的影响:个体、团队宜人性的调节作用··················魏 薇 房俨然 李剑南 施俊琦 莫申江 (345) 能力还是热情?广告诉求对消费者品牌认同和购买意向的影响···········朱振中 刘 福 Haipeng (Allan) Chen (357) “一”人代言的魅力:品牌代言人数如何影响消费者的品牌态度················冉雅璇 刘佳妮 张逸石 卫海英 (371) 最心安处是吾乡:本体安全感威胁对家乡品牌偏好的影响·········徐 岚 蒋怡然 崔 楠 张留霞 赵帅勤 (513) 新员工工作重塑会带来积极的结果吗?领导成员交换与个体传统性的作用·············胡巧婷 王海江 龙立荣 (659) 如何激发员工绿色行为?绿色变革型领导与绿色人力资源管理实践的作用···········································································彭 坚 尹 奎 侯 楠 邹艳春 聂 琦 (1105) 领导−下属情绪评价能力一致与员工建言:内部人身份感知与性别相似性的作用···············李树文 罗瑾琏 (1121) 拥挤影响消费者情绪和购物反应的元分析····················································柳武妹 马增光 卫旭华 (1237) 跨界行为对创造力影响的跨层次双刃剑效应··············朱金强 徐世勇 周金毅 张柏楠 许昉昉 宗博强 (1340) 外观新颖性对消费者购买意愿的影响:自我建构与产品类型的调节效应 ·······································································朱振中 李晓君 刘 福 Haipeng (Allan) Chen (1352)5 人格与社会心理学 情景预见对跨期决策的影响机制···············································································王盼盼 何嘉梅 (38) “追名弃利”:权力动机与社会存在对亲社会行为的影响··················································王建峰 戴 冰 (55) 脱贫内生动力机制的质性探究·······················傅安国 张再生 郑剑虹 岳 童 林肇宏 吴 娜 黄希庭 (66) 童年亲子关系与“好资源”对未婚男性性开放态度的影响·····································王 燕 侯博文 刘文锦 (207)得失情境下他人参照点及心理距离对自我−他人利益权衡的影响··高 娟 王 鹏 王晓田 孙 倩 刘永芳 (633) “别人家的孩子”vs.平庸的自己:社会比较对独特性寻求行为的影响·································宫秀双 张红红 (645) 社会价值取向对自我社会奖赏加工的影响——来自ERPs 的证据·············李 琎 孙 宇 杨子鹿 钟毅平 (786) 有志者, 事竟成:内在动机倾向、创意质量与创意实施·················································董念念 王雪莉 (801) 社会价值取向对自我−他人风险决策的影响及其机制·········································张银玲 虞 祯 买晓琴 (895) 天气和空气污染对诚信行为的影响:一项校园丢钱包的现场实验·························赵玉杰 高 扬 周欣悦 (909)群体认同对群际敏感效应及其行为表现的影响····································宋仕婕 佐 斌 温芳芳 谭 潇 (993) 传承动机对金融冒险行为的影响:未来自我连续性的中介·······························王 琳 陈增祥 何 云 (1004) 多元语言文化对个体情境下与社会情境下认知转换功能的差异性影响——来自锡伯族的证据···································································································郭人豪 王 婷 张积家 (1071) “涟漪效应”与“心理台风眼效应”:不同程度COVID-19疫情地区民众风险认知与焦虑的双视角检验···········································································温芳芳 马书瀚 叶含雪 齐 玥 佐 斌 (1087) 生命早期环境不可预测性对过度进食的影响:基于生命史理论··························罗一君 牛更枫 陈 红 (1224) 差距知觉的泛化效应:我和你之间的差距有多大?········································王天鸿 陈宇琦 陆静怡 (1327) 权力感对炫耀性亲社会行为的影响·················································姚 琦 吴章建 张常清 符国群 (1421) “仁者”还是“智者”:第三方惩罚对惩罚者声誉的影响··················································陈思静 徐烨超 (1436)6 心理统计与测量基于类别水平的多级计分认知诊断Q 矩阵修正:相对拟合统计量视角·······汪大勋 高旭亮 蔡 艳 涂冬波 (93) 计算机动态测验中问题解决过程策略的分析:多水平混合IRT 模型的拓展与应用····李美娟 刘 玥 刘红云 (528) 多维对数正态作答时间模型:对潜在加工速度多维性的探究····················詹沛达 Hong Jiao Kaiwen Man (1132) 基于基尼指数的双目标CD-CAT 选题策略········································罗 芬 王晓庆 蔡 艳 涂冬波 (1452)A c t aP s y c h o lo g i c aS ini c a . All Rights Reserved.。

基于MOABCO的多目标测试用例优先级排序

基于MOABCO的多目标测试用例优先级排序

基于MOABCO的多目标测试用例优先级排序张娜;张唯;吴彪;包晓安【摘要】为了提高回归测试的效率,提出了一种基于多目标人工蜂群优化(Multi-Objective Artificial BeeColony Optimization,MOABCO)算法的多目标测试用例优先级排序(Multi-Objective Test Case Prioritiza-tion,MOTCP)方法.针对标准多目标人工蜂群(Multi-Objective Artificial Bee Colony,MOABC)算法容易陷入局部最优解的问题,将差分变异策略融入到新蜜源更新阶段,且基于信息熵改进新蜜源选择方法,以避免算法陷入局部最优并增强了全局搜索能力;然后,将代码覆盖率和测试用例有效执行时间作为优化目标,并用MOABCO算法求Pareto最优解集,以解决MOTCP问题.实验结果表明,MOABCO算法求得的Pareto最优解集在逼近性和分布均匀性上均优于MOABC算法;在解决MOTCP问题上,相对于NSGA-Ⅱ算法具有更高的收敛速度和更高的缺陷检测率.【期刊名称】《测试技术学报》【年(卷),期】2019(033)002【总页数】7页(P93-98,103)【关键词】多目标人工蜂群优化算法;Pareto最优;多目标测试用例优先级排序;回归测试;软件测试【作者】张娜;张唯;吴彪;包晓安【作者单位】浙江理工大学信息学院,浙江杭州310018;浙江理工大学信息学院,浙江杭州310018;山口大学东亚研究科,山口753-8514;浙江理工大学信息学院,浙江杭州310018【正文语种】中文【中图分类】TP311.50 引言随着工业程序的日益复杂,将代码覆盖率、测试需求覆盖、平均错误检测率等因素之一作为测试用例排序准则的单目标测试用例优先级技术(Test Case Prioritization,TCP),已经难以满足回归测试的测试需求,研究者们亟需将研究重心转移至多目标测试用例优先级排序(Multi-Objective Test Case Prioritization,MOTCP)问题上[1].根据排序方法的不同,已有的关于MOTCP问题的研究可以分为加权法[2-6]和Pareto最优法两类[7-10],其中加权法占大多数,Pareto最优法的相对较少.同时,Pareto最优法的研究算法主要集中在以NSGA-II算法为代表的进化算法,关于其他智能搜索算法的研究还相对较少.MOTCP问题从本质上来说是求解最优测试用例执行次序的组合优化问题[11],可以描述为:对于给定的测试用例集T, PT为T的全排列集合,目标函数向量F=[f1(p),f2(p),…,fi(p),…,fM(p)], fi表示第i个优化目标的目标函数,fi∶PT→R,p∈PT,1≤i≤M.要求找到一个PT′属于PT,使∀p′∈PT′∩F达到Pareto最优.人工蜂群算法(Artificial Bee Colony Algorithm, ABC)相对于其他智能搜索算法具有结构简单、控制参数少、易于实现等特点[12].基于ABC算法的多目标人工蜂群优化(Multi-Objective Artificial Bee Colony,MOABC)算法,在解决多目标组合优化问题上表现出良好的特性[13,14].因此,可将MOABC算法引入到解决MOTCP问题中.本文针对已有MOABC算法存在易陷入局部最优等问题,对外部精英解集及全局最优解的更新、局部搜索和蜜源选择方式上做出了改进,提出了一种MOABCO算法.将测试用例的平均语句覆盖率和有效执行时间作为优化目标,并用MOABCO算法求Pareto最优解,以解决MOTCP问题.1 多目标人工蜂群优化算法基本的MOABC算法除了增加外部候选解集,在雇佣蜂、观察蜂和侦查蜂三个阶段的操作均与标准ABC算法相同,本文在基本MOABC的基础上进行改进.1.1 精英解集及全局最优解更新策略在基本的MOABC算法中,当某个蜜源经过limit次的开采后没有开采价值时与之对应的雇佣蜂转化为侦查蜂,并按照式(1)随机产生一个新蜜源代替.xij=xmin,j+rand(0,1)×(x max,j-xmin,j),(1)式中: xij为新蜜源的第j维分量,j∈{1,2,…,D},rand(0,1)为范围在(0,1)内的一个随机数,xmax,j和xmin,j分别为蜜源第j维分量的上下界.为了充分利用所搜过程中所产生的非劣解(蜜源),提高算法的收敛性和多样新,本文在外部建立精英解集,精英解集的更新策略,如下算法1所示.算法1:输入:外部精英集M,精英集的最大容量m,新蜜源个体S输出:外部精英集MIf (个体S至少被M中的一个个体支配)外部精英集M不更新;Else if (个体S支配M中的某些个体)将外部精英集M中被S支配的个体删除,并将S加入到M中;Elseif (外部精英集M中个体的个数<m)将S加入到外部精英集M中;ElseIf (个体S在外部精英解集的最拥挤区域)不更新外部精英集M;Else用个体S替换外部精英解集中最拥挤区域的个体,更新外部精英集M;End if在外部精英解集中,每一个非支配解相对其他的解而言都是最优的,而在算法运行过程中,只需要选取一个作为全局最优解.拥挤距离d(i)用于描述精英解集中某个解的密度值,本文首先计算精英解集中每个解的d(i)值并降序排列,取d(i)值大的前50%的精英解(即,处于Pareto前端的分散个体)作为全局最优解的候选者.拥挤距离的计算公式如式(2)所示,(2)式中:为第i个个体的第k个目标值,m为目标个数.为了提高精英解集中个体的多样性,同时使其均匀分布在目标空间上,本文采用如式(3)的随机选法.(3)式中: Num为非劣解的个数,xbest为全局最优解,A为精英解集中拥挤距离值较大的前50%的个体的集合,rand_int(0,i)为产生(0,i)内随机正整数的函数.1.2 最优个体引导差分变异的局部搜索已有的研究表明,充分利用精英解的特征信息能够有效地促进种群进化[15].而基本的MOABC算法在局部搜索过程中采用随机选择的方式挑选一个可行解作为局部搜索的引导信息,按照式(4)进行搜索并根据贪婪选择机制对蜜源进行更新,忽略了精英个体的引导作用.(4)式中:i,k∈{i=1,2,…,N}且i≠k,j∈{i=1,2,…,D}, R为[-1,1]中的随机数.同时,差分变异策略是差分进化算法中的变异方法,通过种群个体间的差分向量对个体进行扰动,实现个体的变异,能够有效利用群体分布特性,提高算法的搜索能力.本文将差分进化算法中的变异策略引入到人工蜂群算法中,同时采用精英个体引导策略对雇佣蜂的搜索模式进行改进,如式(5)所示.(5)式中: xbest为全局最优解,来自于外部精英解集; xr1,j和xr2,j为蜜源中随机选择的两个个体; F为缩放因子,F的值越小,算法跳出局部最优解的能力越强,但过小的缩放因子会导致收敛速度缓慢,影响算法的效率,F的值越大,有利于提高算法的开发能力,但是过大的F值会使算法陷入局部束缚.本文将当前蜜源与全局最优蜜源之间的欧氏距离作为F值,计算方法如式(6)所示,使算法在精英解的引导下能够根据个体与精英个体之间的相似度自适应地调整搜索范围的大小,从而提高算法的搜索效率.(6)1.3 基于信息熵的蜜源选择观察蜂通过雇佣蜂传来的信息,按照式(7)计算每个蜜源被选择的概率,用轮盘赌的方式选择具有一定的随机性.(7)式中: fiti为第i个蜜源的适应度值.信息熵能度量随机事件发生的不确定性,本文将信息熵引入到蜂群算法中,以信息熵值控制蜜源被选择的概率的大小.多目标的测试用例优先级排序问题属于离散的多目标优化问题,因此蜜源被选择的概率的信息熵计算如式(8)所示,(8)借鉴信息冗余度衡量信息源的相关性程度的思想,本文定义蜜源相关性程度a,计算公式如式(9)所示,a=1-H/Hmax,(9)式中: Hmax为最大熵值,即当pi=1/Dim时,Dim为所处理数据的维度.a的值越大表示蜜源与最优蜜源之间的相关性越小;反之,蜜源与最优蜜源之间的相关性越大.为了提高算法跳出局部最优的能力,本文按照式(10)进行选择,从而提高与当前最优解相似度较小的解被选择的概率,以保证蜜源个体的多样性.(10)2 基于MOABCO的多目标测试用例优先级排序2.1 优化目标回归测试旨在较短的时间内发现更多的软件错误,可以用软件缺陷检测率(Average Percentage of Fault Detect,APFD)作为度量准则.而在实际测试过程中,测试用例未执行之前,APFD的值未知,而一般情况下,测试用例对软件的语句、分支、块等的覆盖率越大,该用例能够发现软件中存在缺陷的概率就越大.因此,通常会用代码覆盖率代替APFD值作为优化目标,而将APFD值作为衡量优先级排序效果的准则.为了能让代码覆盖率较高且执行时间较短的测试用例优先执行,本文将平均语句覆盖率(Average Percentage of Statement Coverage, APSC)和有效执行时间(Effective Execution Time, EET)作为优化目标,计算方法如式(11)和(12)所示.(11)(12)式中: N为测试用例的个数,M为程序语句的个数,TSi为覆盖程序语句i的第一个测试用例在序列中的位置,ETi为测试用例i的执行时间.2.2 蜜源个体编码本文采用实数编码的方式,假设测试用例集TS中有N个测试用例,那么任意一个执行顺序可以表示为X={xr1,xr2,…,xrq,…,xrN},其中rq表示测试用例集TS中的第q个测试用例,xrq表示测试用例rq在测试用例集TS中的序号,且1≤xrq≤N.因此,测试用例集TS中所有测试用例的全排列组合构成了MOTCP问题的解空间.2.3 MOABCO算法基本流程输入:搜索维度D,蜜源个数FN,最大开采次数Limit,算法最大迭代次数k,算法运行次数t.输出:满足Pareto最优解的个体.根据D和FN,随机初始化得到一组包含FN个个体的可行解集M′,M′={X1,X2,…,Xi,…,XFN}.根据式(11)和(12)评估已有的可行解,将评估为非劣解的可行解加入到外部精英集M;Do在外部精英解集中按照式(3)选取全局最优解;If 开采次数< Limit利用式(5)进行局部搜索,获得新蜜源;根据式(11)和式(12)评价新蜜源;采用算法1判断是否更新精英解集M;利用式(8)~式(10)选择优质个体继续进行局部搜索;Else放弃该蜜源,并利用式(1)随机生成一个新蜜源;根据式(11)和式(12)对新蜜源进行评价;采用算法1判断是否更新精英解集M;While(运行次数t<最大迭代次数k)在外部精英解集M中挑选一个Pareto最优解,作为测试用例优先级排序的结果.3 实验结果分析为了验证本文所提出MOABCO算法在收敛性和易陷入局部最优解这两个问题上改善的有效性,本文参考文献[12]选取了ZDT1、 ZDT2、 ZDT3函数进行测试,并在 MATLAB R2016b上编码实现,测试函数的信息如表 1 所示.表 1 测试函数信息表Tab.1 The information of testing functions测试函数名函数表达式变量范围ZDT1minf1(x)=x1,minf2(x)=g(x)h(f1(x),f2(x)),g(x)=1+929∑30i=1xi, h(f1(x),f2(x))=1-f1(x)g(x)0≤xi≤11≤i≤30ZDT2minf1(x)=x1,minf2(x)=g(x)h(f1(x),f2(x)),g(x)=1+929∑30i=1xi , h(f1(x),f2(x))=1-f1(x)g(x)()20≤xi≤11≤i≤30ZDT3minf1(x)=x1,minf2(x)=g(x)h(f1(x),f2(x)),g(x)=1+929∑30i=1xi , h(f1(x),f2(x))=1-f1(x)g(x)-f1(x)g(x)()sin(10πf1(x))0≤xi≤11≤i≤30实验中,蜜源个数均为50,开采次数limit为100,最大迭代次数为1 000,维度D为30,精英解集大小为30,每次均独立运行10次,取平均值记录于表 2,括号内的数据是该指标对应的10次实验的方差值.本文选择逼近指标GD和分布指标SP作为比较两个算法的评价标准,GD和SP的值越小越好.表 2 MOABC算法与MOABCO算法的对比结果Tab.2 The GD and SP calculate value comparison among two algorithmMOABCMOABCOGDSPGDSPZDT14.4E-42.2E-31.6E-42.2E-4(3.2E-5)(2.8E-3)(1.3E-5)(1.7E-5)ZDT22.6E-41.8E-31.4E-41.3E-3(3.8E-4)(2.7E-4)(2.3E-5)(2.1E-4)ZDT33.8E-43.1E-32.4E-43.2E-3(3.7E-4)(3.0E-4)(3.1E-4)(2.7E-4)从表 2 的整体结果看,无论是GD还是SP,本文提出的MOABCO算法均优于基本的MOABC算法,说明本文的算法具有良好的求解性能.为了进一步分析本文改进策略对算法的影响,针对ZDT2优化问题,将本文所提的MOABCO算法记为算法1,使用本文所提的选择策略的MOABC算法记为算法2,使用本文所提局部搜索策略的MOABC算法记为算法3,设定评价次数为1 000的条件下进行实验,3种算法的Pareto最优解的对比结果如图 1 所示.图 1 不同多目标蜂群算法的Pareto最优解对比Fig.1 Comparison of Pareto optimal solution of different multi-object bee colony algorithm从图 1 中可以看出,算法3产生的Pareto最优解在接近理论最优的程度上要优于算法2,证明了本文所提的局部搜索方法能够有效地对解空间进行开采.但正是因为全局最优个体引导的开采而导致解的多样性降低,在图1 上表现出了聚集现象,而算法2的解则表现出分布均匀,证明了本文的选择策略能够有效保证算法运行过程中解的多样性.而多样性的增加导致Pareto最优解无法有效接近理论最优值.算法1在逼近理论最优和保持解的多样性上均表现良好,证明了本文所提的改进策略能够有效地避免算法早熟收敛和陷入局部最优解.为了验证本文所提算法在解决MOTCP问题的有效性,分别将优化目标函数NSGA-II算法和MOABCO算法相结合,在Visual Studio 2015上采用C语言编程实现测试用例优先级排序,将本文提出的MOABCO算法与NSGA-II算法进行比较.本文选取了5个常用评测程序作为实验基准,基本信息如表 3 所示,这些基准程序被广泛应用于测试用例对软件缺陷检测能力的研究.表 3 基准程序信息Tab.3 Benchmark program information被测程序编号被测程序名语句数用例池规模PG1Tcas731 608PG2Totinfo1221052PG3Schedule1292 650PG4Replace2735 542PG5Space3 8132 710实验中的每组实验数据均独立运行50次,取平均值记录,结果如图 2 所示.从图 2 中可以看出,随着程序规模的增大,NSGA-II和MOABCO算法所计算的APFD值均呈现下降趋势,但是MOABCO算法所计算的APFD值均优于NSGA-II算法,证明了由MOABCO算法进行的测试用例优先级排序的缺陷检测能力要优于NSGA-II算法.图 2 MOABCO算法与NSGA-II算法针对不同程序计算的APFD值Fig.2 The APFD calculate value of different programs comparison among two algorithm图 3 为PG5使用NSGA-II算法迭代300代和MOABCO算法迭代250代后算法运行30次时的Pareto解集分布.从图3中可以看出,MOABCO的Pareto解集中的个体分布更加均匀,分布范围更加广泛,且大多数个体均优于NSGA-II算法.证明了MOABCO算法可以加快种群的搜索速度,保证种群的多样性.图 3 MOABCO算法和NSGA-II算法的Pareto解集的分布Fig.3 Distribution of Pareto solution sets of MOABCO algorithm and NSGA-II algorithm4 结束语文本针对基本MOABC算法存在的问题,改进了局部搜索策略、蜜源的选择策略和外部精英解集及最优解更新策略,提高了算法的开采能力且增加了解的多样性,从而加快了算法的收敛速度,提升了算法的全局搜索能力.将MOABCO算法用于求解MOTCP问题中,相对于NSGA-II算法具有明显的优势.在今后的研究中,可以考虑增加优化目标的个数至3个及以上,以提升测试用例优先级排序的效率,降低回归测试用例的成本.参考文献:【相关文献】[1]陈翔,陈继红,鞠小林,等.回归测试中的测试用例优先排序技术述评[J].软件学报, 2013,24(8):1695-1712.Chen Xiang, Chen Jihong, Ju Xiaolin, et al.Survey of test case prioritization techniques for regression testing[J].Journal of Software, 2013, 24(8): 1695-1712.(in Chinese)[2]Rothermel G, Untch R H, Chu C, et al.Prioritizing test cases for regression testing[J].Acm Sigsoft Software Engineering Notes, 2000, 25(5): 102-112.[3]李龙澍, 李森, 廖敏, 等.基于多种群遗传算法测试用例优先级技术研究[J].计算机技术与发展, 2011, 21(4): 112-114.Li Longshu,Li Sen,Liao Min,et al.Research test case suite minimization based on multiple population genetic algorithm[J].Computer Chnologyand Development, 2011,21(4): 112-114.(in Chinese)[4]Marijan D, Gotlieb A, Sen S.Test case prioritization for continuous regression testing:an industrial case study[C].IEEE International Conference on Software Maintenance, IEEE, 2013.[5]张娜, 姚澜, 包晓安, 等.多目标优化的测试用例优先级在线调整策略[J].软件学报, 2015, 26(10):2451-2464.Zhang Na,Yao Lan,Bao Xiaoan,et al.Multi-objective optimization based on-line adjustment strategy of test case prioritization[J].Journal of Software, 2015, 26(10): 2451-2464.(in Chinese)[6]常龙辉, 缪淮扣, 肖蕾.基于历史信息的自适应测试用例优先级技术[J].计算机科学, 2015, 42(9):154-158.Chang Longhui,Miu Huaikou,Xiao Lei.Self-adaptive test case prioritization based onhistroy information[J].Computer Science,2015,42(9): 154-158.(in Chinese)[7]Epitropakis M G, Yoo S, Harman M, et al.Empirical evaluation of pareto efficient multi-objective regression test case prioritisation[C].International Symposium on Software Testing and Analysis, ACM, 2015: 234-245.[8]边毅, 袁方, 郭俊霞,等.面向CPU+GPU异构计算的多目标测试用例优先排序[J].软件学报, 2016, 27(4): 943-954.Bian Yi, Yuan Fang, Guo Junxia, et al.CPU+GPU heterogeneous computing orientated multi-objective test case prioritization[J].Journal of Software, 2016, 27(4): 943-954.(in Chinese)[9]石宇楠, 李征, 龚沛.基于多目标协同进化的测试用例优先排序[J].计算机科学, 2015, 42(12):124-129.Shi Yunan,Li Zheng,Gong Pei.Multi-objective coevolutionary test caseprioritization[J].Computer Science, 2015, 42(12): 124-129.(in Chinese)[10]Huang Y C, Peng K L, Huang C Y.A history-based cost-cognizant test case prioritization technique in regression testing[M].New York: Elsevier Science Inc., 2012. [11]邢行, 尚颖, 赵瑞莲, 等.面向多目标测试用例优先排序的蚁群算法信息素更新策略[J].计算机应用, 2016, 36(9): 2497-2502.Xing Xing, Shang Ying, Zhao Ruilian, et al.Pheromone updating strategy of ant colony algorithm for multi-objective test case prioritization[J].Journal of Computer Applications, 2016, 36(9): 2497-2502.(in Chinese)[12]葛宇, 梁静.一种多目标人工蜂群算法[J].计算机科学, 2015, 42(9): 257-262.Ge Yu, Liang Jing.Multi-objective artificial bee colony algorithm[J].Computer Science, 2015, 42(9): 257-262.(in Chinese)[13]倪志伟, 李蓉蓉, 方清华, 等.基于离散人工蜂群算法的云任务调度优化[J].计算机应用, 2016,36(1): 107-112.Ni Zhiwei,Li Rongrong,Fang Qinghua,et al.Optimization of cloud task scheduling based on discrete artificial bee colony algorithm[J].Journal of Computer Applications, 2016, 36(1): 107-112.(in Chinese)[14]吴亮红, 王耀南, 袁小芳, 等.基于快速自适应差分进化算法的电力系统经济负荷分配[J].控制与决策, 2013, 28(4): 557-562.Wu Lianghong,Wang Yaonan,Yuan Xiaofang,et al.Fast self-adaptive differential evolution algorithm for power economic load dispatch[J].Control and Decision, 2013,28(4): 557-562.(in Chinese)[15]谢承旺, 王志杰, 夏学文.应用档案精英学习和反向学习的多目标进化算法[J].计算机学报, 2017, 40(3): 757-772.Xie Chengwang,Wang Zhijie,Xia Xuewen.Multi-objective evolutionary algorithm basedon archive-elite learing and opposition-based learning[J].Journal of Computer, 2017, 40(3):757-772.(in Chinese)。

随机森林在微生物组学中的应用

随机森林在微生物组学中的应用

随机森林在微生物组学中的应用Random forest is a popular machine learning algorithm that has been widely used in various fields, including microbiomics. It has shown significant potential in analyzing complex microbiome data due to its ability to handle high-dimensional data and capture non-linear relationships between variables. 随机森林是一种流行的机器学习算法,在各个领域都被广泛应用,包括微生物组学。

由于其处理高维数据和捕捉变量之间非线性关系的能力,它在分析复杂微生物组数据方面表现出巨大潜力。

One of the key advantages of using random forest in microbiomics is its ability to handle missing data. In microbiome studies, missingdata is a common issue due to the nature of biological samples. Random forest can effectively deal with missing values by imputing them based on the available data, allowing researchers to make full use of the available information. 使用随机森林在微生物组学中的一个关键优势是其处理缺失数据的能力。

在微生物组研究中,由于生物样本的特性,缺失数据是一个常见问题。

一种基于随机森林算法的探明储量预测新方法

一种基于随机森林算法的探明储量预测新方法

一种基于随机森林算法的探明储量预测新方法摘要传统的哈伯特模型、翁氏模型等预测方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。

文章基于随机森林机器学习模型,建立了一种预测累计探明储量增长趋势的新方法。

该方法通过相关性分析找出影响探明储量增长的可量化指标,从而确定模型训练中的输入属性,以同类盆地油田年度累计探明储量为评价单元,建立随机森林机器学习样本数据集,通过调整决策树个数和单个决策树的最大特征数,对模型进行优化训练,从而建立累计探明储量预测模型,成功解决了多因素叠加下储量非线性增长预测的难题。

该方法在东部断陷盆地油田年度累计探明储量预测中应用成效显著,预测模型拟合的准确率达到88.19%,具有巨大的推广应用价值。

关键词:机器学习;随机森林算法;储量增长趋势;东部断陷盆地;油田年度累计探明储量O引言储量是勘探工作的目标和导向,采用科学的方法预测储量增长趋势和合理确定储量指标对于油公司发展规划编制和勘探工作部署制定具有至关重要的意义。

传统的油气储量增长趋势的预测方法包括基于生命旋回的哈伯特模型、翁氏模型、逻辑斯谛模型、高斯模型等,以及基于概率论与蒙特卡洛统计模拟法的油田规模序列法”51,这些方法在国外广泛应用,国内油公司在学习、引进这些方法的同时,也在实际应用过程中建立了适合本地区储量增长特征的方法,例如对储量发现历史数据进行拟合的“帚状”预测模型以及针对勘探发现中储量“多峰”增长问题建立的多旋回哈伯特模型、多旋回高斯模型等51.现有的方法技术存在的主要问题包括:目前广泛应用的哈伯特模型、翁氏模型等预测的是盆地整个油气勘探生命旋回的资源量、最终探明储量,无法有效解决中短期储量增长预测的问题;现有的预测方法主要研究对象为单一盆地或凹陷,缺少对同种类型盆地的研究;目前的方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。

基于小波核主成分分析和差分进化优化极限学习机的入侵检测

基于小波核主成分分析和差分进化优化极限学习机的入侵检测

基于小波核主成分分析和差分进化优化极限学习机的入侵检测朱永胜;董燕;慕昆【摘要】For network intrusion detection,we propose such a method which combines the wavelet kernel PCA and DE optimised extreme learning machine.First,the kernel principal component analysis (PCA)is applied to conduct the nonlinear dimensionality reduction on original data,in order to further improve nonlinear mapping ability of kernel PCA,wavelet kernel function is introduced as its kernel function. Then the extreme learning machine is used for the classification and recognition of the processed data,and the differential evolution (DE) algorithm is used to obtain the optimal initial weights for the unstable performance of the extreme learning machine caused by random selection of initialweights.Experimental results show that the algorithm proposed can effectively improve the recognition rate of intrusion detection and reduce the rates of false positives and false negatives.%针对网络入侵检测,提出一种基于小波核主成分分析和差分进化极限学习机相结合的方法。

一种基于聚类随机森林的城市创新力评价方法及系统[发明专利]

一种基于聚类随机森林的城市创新力评价方法及系统[发明专利]

专利名称:一种基于聚类随机森林的城市创新力评价方法及系统
专利类型:发明专利
发明人:徐展彧
申请号:CN201910211169.4
申请日:20190320
公开号:CN109902970A
公开日:
20190618
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于聚类随机森林的城市创新力评价方法及系统,属于大数据和机器学习领域,本发明要解决的技术问题为如何克服当前传统数据获取渠道狭窄、数据反馈不及时以及如何充分利用当前爆炸式增长的互联网数据及大数据分析技术进行城市创新力评价,采用的技术方案为:一种基于聚类随机森林的城市创新力评价方法,具体步骤如下:S1、得到创新力二级特征评价指标;S2、得到指标基础上的城市创新力多个评价维度作为一级评价指标;S3、得到去除人口影响后的创新力二级特征评价新指标;S4、得到二级指标权重;S5、求得城市创新力总得分;S6、得到各城市创新力最终得分。

本发明还公开了一种基于聚类随机森林的城市创新力评价系统。

申请人:山东浪潮云信息技术有限公司
地址:250100 山东省济南市高新区浪潮路1036号浪潮科技园S06号楼
国籍:CN
代理机构:济南信达专利事务所有限公司
代理人:孙园园
更多信息请下载全文后查看。

基于随机森林模型的陆地卫星-8遥感影像森林植被分类

基于随机森林模型的陆地卫星-8遥感影像森林植被分类

基于随机森林模型的陆地卫星-8遥感影像森林植被分类张晓羽;李凤日;甄贞;赵颖慧【期刊名称】《东北林业大学学报》【年(卷),期】2016(044)006【摘要】以黑龙江省漠河县为研究区域,采用陆地卫星-8遥感影像为数据源,结合影像的光谱信息和数字高程模型辅助数据,分别采用最大似然分类法(MLC)和随机森林模型法(RFM)对研究区森林植被进行分类,并分析和评价光谱特征变量对模型的重要性、2种分类方法对森林植被类型分类的适用性.结果表明:随机森林分类方法的总体分类精度为81.65%、卡帕(Kappa)系数为0.812.与传统的MLC方法相比,RFM法均提高了3种森林类型的生产者精度和使用者精度,其中针阔混交林精度提高最多.通过分析特征变量的重要性,发现高程、归一化植被指数、红光波段、近红外波段、短波红外波段对模型分类精度有较重要的影响.说明随机森林模型方法结合多源信息是森林植被类型遥感分类的一种有效手段.【总页数】6页(P53-57,74)【作者】张晓羽;李凤日;甄贞;赵颖慧【作者单位】东北林业大学,哈尔滨,150040;东北林业大学,哈尔滨,150040;东北林业大学,哈尔滨,150040;东北林业大学,哈尔滨,150040【正文语种】中文【中图分类】S757.2;S771.8;TP751【相关文献】1.基于样本优选改进的随机森林遥感影像分类研究 [J], 赵海强2.基于随机森林的MODIS遥感影像水体分类研究 [J], 赵书慧;段会川;高帅;万华伟3.基于随机森林分类方法和多源遥感数据的r湿地植被精细分类 [J], 崔小芳;刘正军4.基于随机森林的遥感影像云雪雾分类检测 [J], 许赟;许艾文5.基于随机森林方法的遥感影像分类方法 [J], 赵志国因版权原因,仅展示原文概要,查看原文内容请购买。

LBSN中融合类别信息的混合推荐模型

LBSN中融合类别信息的混合推荐模型

LBSN中融合类别信息的混合推荐模型张岐山;李可;林小榕【摘要】针对基于位置的社交网络(Location-Based Social Network,LBSN)中用户签到数据的高稀疏性问题及用户隐私问题,提出了一种混合推荐模型(SoGeoCat).首先,通过用户潜在兴趣点数据模型,学习用户的潜在兴趣点;其次,将用户的潜在兴趣点纳入融合类别信息的矩阵分解模型中并优化;最后,根据用户特征矩阵、兴趣点特征矩阵,提出推荐策略.基于Foursquare真实数据集,实验结果表明:(1)相比于其他几个推荐模型,该算法将用户的潜在兴趣点填充至用户-兴趣点矩阵中,可以有效地缓解数据稀疏性的影响;(2)该算法可保护用户家庭信息;(3)在推荐模型中纳入类别信息的影响能提高推荐效果.【期刊名称】《计算机系统应用》【年(卷),期】2019(028)001【总页数】7页(P200-206)【关键词】位置社交网络;地理位置信息;类别信息;矩阵分解;兴趣点推荐【作者】张岐山;李可;林小榕【作者单位】福州大学经济与管理学院,福州350108;福州大学经济与管理学院,福州350108;北京交通大学下一代互联网互联设备国家工程实验室,北京100044【正文语种】中文近年来,基于位置的社交网络服务(Location-Based Social Network, LBSN)得到迅速发展,如 Loopt、Yelp、Foursquare、Whrrl等[1]. 在这些 LBSNs中,用户访问线下的兴趣点 (Point-Of-Interest, POI),如: 餐馆、电影院、博物馆等,在线上进行“签到”活动,并分享他们访问兴趣点时丰富的建议与经历[2]. 兴趣点推荐可以减少用户的搜寻时间,为商家提供精准营销策略. 所以如何利用这些信息,为目标用户推荐正确的兴趣点集是一个很有前途、很有趣的研究问题. 目前,有很多学者运用协同过滤、矩阵分解、LDA模型等技术于兴趣点推荐之中,但是普遍存在以下几个问题:(1) 数据稀疏问题. 在LBSNs中兴趣点推荐研究遭遇到了严重的数据稀疏问题. 通常情况下,一个用户访问的兴趣点的数量仅仅是兴趣点总数当中很小的一部分. 例如, Netflix电影推荐的数据密度是1.2%,而兴趣点推荐研究实验中使用的数据密度通常在0.1%左右[3]. Ye等人[4]提出了融合地理位置、用户偏好和社会影响的统一协同过滤模型, Lian等人[5]提出了加权矩阵分解模型,均容易受到数据稀疏性的影响. 协同过滤算法利用用户之间的相似性进行有效地推荐,很容易受到数据稀疏性的影响. 而且该算法只考虑到了签到数据的显式反馈,不能有效地融合异构数据源[6]. 矩阵分解算法可缓解数据稀疏性的影响,但是其忽略了用户之间的相似性.(2) 隐私问题. 很多保护隐私意识比较强的用户,他们在LBSNs中不会透露家庭住址、公司地址等有效信息. Li等人[7]考虑了用户“家”的地理位置,认为单考虑地理位置影响则家与兴趣点之间的距离同其访问该兴趣点的概率呈幂律分布. 但在这些信息不完全甚至是没有这些信息的情况下,如何进行有效的兴趣点推荐是我们要研究的问题之一.(3) 类别信息. 每个兴趣点都会有其类别信息,如:饭店、电影院、博物馆等. 从历史签到记录来看,每个用户都会偏向于访问类别相同或者相似的兴趣点[7]. 因此,如何利用兴趣点的类别信息提高兴趣点推荐的准确率是我们研究内容的重点.本文针对上述的问题,提出了SoGeoCat(Social-Geography-Category,SoGeoCat)模型,主要贡献如下:(1) SoGeoCat模型结合了协同过滤算法和矩阵分解算法的优点,首先根据用户行为相似性发现目标用户的潜在兴趣点,然后将潜在兴趣点纳入矩阵分解模型当中,克服了单纯协同过滤和矩阵分解算法的不足,即考虑了用户相似度又很大程度上缓解了数据稀疏性的问题.(2) 本文利用贝叶斯规则,根据目标用户的历史签到轨迹来判断拟推荐兴趣点在地理位置因素上对目标用户的影响.(3) 本文将兴趣点的类别标签纳入矩阵分解模型中,提高SoGeoCat模型的推荐效率.1 相关工作协同过滤和矩阵分解是兴趣点推荐研究中主流的两种算法.(1) 基于协同过滤算法的推荐. 协同过滤的主要思想是: 分析用户之间的关系和项目之间的相互依赖关系,以识别新的用户—项目关联[8-10].Ye等人[4]提出了融合地理位置、用户偏好和社会影响的统一协同过滤方法. 采用幂律概率模型捕捉兴趣点之间的地理位置影响,通过朴素贝叶斯方法实现基于地理影响的兴趣点协同推荐. Yuan等人[11]在统一的协同过滤框架上纳入了时间信息的影响,利用时间感知进行兴趣点推荐. 但该算法很容易受到数据稀疏性的影响,也不能很好地实现对隐式反馈数据集的挖掘.(2) 基于矩阵分解算法的推荐. 矩阵分解法的核心是训练出用户和兴趣点的特征向量,并以此来预测用户对于某一特定兴趣点的偏好. 其不仅可以缓解数据稀疏性的影响还可以融合异构数据源,考虑隐式反馈数据集[5,12-14].Lian等人[5]将地理位置影响纳入加权矩阵分解框架当中,根据签到记录的空间聚集现象,提出了GeoMF模型,模拟用户活动区域与地理位置之间的影响关系.高榕等人[14]在经典的矩阵分解模型的基础上,融合异构数据,提出了GeoSoRev 模型,采用基于矩阵分解的主题模型来发现评论中的隐藏“主题”. 矩阵分解算法虽然缓解了数据的稀疏性,也融合不同的异构数据,但它没有考虑到用户之间的相似性.(3) 混合算法推荐. 为了克服两种算法的不足之处,有一些学者提出了混合算法. Li 等人[7]提出了“两步走”的框架. 第一步设计基于线性聚集和基于随机游走两种方法,为每个用户学习一组他们可能感兴趣的潜在兴趣点. 在第二步骤中,用基于平方误差的损失函数和基于排名误差的损失函数来模拟这三种签到.文献[5]中认为用户的签到概率和从家到相应位置的距离遵循幂律分布. 一方面,家的位置信息较难获得,很多用户隐私保护意识越来越强,不愿意透露家庭位置信息;另一方面,用户签到过的兴趣点可能会聚集在某两个距离比较远的区域,如家和公司附近. 因此,本文针对上述问题,在文献[5]的基础上继续研究,提出了 SoGeoCat (Social-Geography-Category)模型,用朴素贝叶斯方法计算地理位置因素对于用户决策的影响,保护用户家庭位置信息,并将签到信息、朋友信息、地理位置信息和类别信息纳入混合模型中,即考虑了用户相似性又缓解了数据稀疏问题,提高了模型的推荐效果.2 用户潜在兴趣点数据模型2.1 问题描述本文主要研究的问题与传统的基于协同过滤的推荐模型或基于矩阵分解的推荐模型不同,而是采用了“两步走”的框架模型SoGeoCat: 首先,建立用户潜在兴趣点数据模型,利用用户的签到信息、朋友信息、地理位置信息对用户的签到信息进行有效地扩充;然后,建立一个融合类别标签的矩阵分解模型,训练出用户特征矩阵和兴趣点特征矩阵;最后考虑用户特征、兴趣点特征的影响,估算出目标用户对于某一特定的兴趣点的访问概率,进而推荐有效的兴趣点集.假设ui为目标用户, lj为拟推荐兴趣点. U为用户集,即 U={u1,u2,… ,un},L 为兴趣点集,即L={l1,l2,…,lm}. 运用 SoGeoCat模型计算出 ui访问每一个未访问过的POI的概率,选取Top S作为ui的拟推荐兴趣点集.2.2 基于签到行为相似度建模用户在LBSNs中有大量的签到信息,签到信息包括用户ID,兴趣点ID和访问次数. 访问次数越多,则说明用户对该兴趣点的偏好越强. 用户i与用户u已签到过的共同的兴趣点越多,则他们的签到行为越相似,即签到行为相似度Sim(ui,uu)越高,本文采用余弦相似度来度量两用户之间的签到行为相似度,建模如下:其中, r i ,z 表示ui在兴趣点lz的签到次数, r u ,z表示uu在兴趣点lz的签到次数表示ui访问过的兴趣点的集合表示uu访问过的兴趣点的集合.注意: 这里的uu曾经在兴趣点lj处有签到行为.2.3 基于朋友相似度建模用户在LBSNs上有一些相互关注的好友,这些好友关系也反映了该用户在现实生活中的朋友圈. 现实中,你朋友的推荐会激发你对某些兴趣点的兴趣,在LBSNs中亦是如此. 所以, uf(ui的朋友)的签到记录很有可能是ui想要访问的潜在兴趣点. 但是ui有很多好友,不一定每一个好友签到过的兴趣点, ui都会感兴趣.对此,提出了朋友相似度 Sim(ui, uf),朋友相似度越高,其历史签到记录越有参考价值,建模如下:其中, r i ,z 表示ui在兴趣点lz的签到次数, r f,z表示uf在兴趣点lz的签到次数,表示ui访问过的兴趣点的集合,表示uf访问过的兴趣点的集合.注意: 这里的uf曾经在兴趣点lj处有签到行为.2.4 基于地理位置相似度建模人们往往喜欢访问地理位置离自己近的兴趣点,单考虑地理位置影响因素,用户访问兴趣点的概率同其距离遵循幂率分布,模型[5]如下:其中, d表示用户同兴趣点之间的距离, a和b均为幂律分布的参数.但是,在本文中只有用户历史签到记录信息,没有用户的实时地理位置信息,所以,不能算出用户与某一兴趣点之间的准确距离. 为了解决此问题,且又能保护用户的家庭住址或公司地址等常驻地址信息,本文采用了基于朴素贝叶斯规则的模型,计算地理位置相似度已知 ui 的全部历史签到记录 Lu,我们计算作为每个候选兴趣点 lj的排名分数,然后向用户推荐排名前S个的兴趣点,建模如下:注意: 这里假定中的兴趣点的签到概率彼此独立.2.5 相似度的线性聚集综合考虑上述三个因素的影响,对签到行为相似度、朋友相似度和地理位置相似度进行线性聚合. 但是,它们是通过不同的方法来衡量的,具有不同的价值范围. 因此,我们采用最小-最大归一化进行处理,然后再进行聚集.同时,签到次数也能侧面地反映用户的偏好. 根据公式(8)计算出ui对于拟推荐兴趣点lj的分数,选取分数高的前S个兴趣点作为ui的潜在兴趣点.其中, U表示与ui访问过相同兴趣点的用户及ui的朋友的集合且表示用户 ui对拟推荐兴趣点lj的聚集相似度. 是调整参数.3 SoGeoCat模型3.1 SoGeoCat模型用户ui对于兴趣点lj的偏好程度受用户潜在特征和兴趣点潜在特征影响. 令用户特征矩阵为U,兴趣点特征矩阵为 V,偏好矩阵为 P,则:用值来估计值. 为了缓解数据稀疏问题,我们从用户潜在兴趣点数据模型中挖掘到了用户的潜在兴趣点,并用于扩充偏好矩阵. 但是用户对于潜在兴趣点和已签到过的兴趣点的偏好是有不同的,对于这一现象,本文将二元偏好变量Pij扩充为三元值,公式为:其中,表示目标用户ui访问过的兴趣点集,表示目标用户ui的潜在兴趣点集.在LBSNs的兴趣点推荐中,其类别信息发挥着重要的作用. 从历史签到记录来看,每个用户都会偏向于访问类别相同或相似的兴趣点,如: ui之前经常访问饭店,但几乎没去过电影院,此时如果给他推荐电影院,则其访问的可能性就会大大降低. 设表示ui对于lj对应的类别c的偏好程度, Q表示类别特征矩阵. 将类别信息纳入矩阵分解模型中,模型为:其中为调整参数.损失函数为:其中,、、为正则化常数, W为权重矩阵, wij表示ui访问lj的重要度量,考虑用户的签到次数的影响,本文采用平方根的方法计算W,如下:其中,为调整参数.3.2 SoGeoCat模型优化本文采用变更最小二乘(ALS)优化损失函数,训练出特征矩阵U,V和类别特征矩阵Q. U,V,Q的更新公式如下:其中, Ik为k维单位矩阵, Nc为类别为c的兴趣点的集合.4 实验4.1 实验数据集本实验的数据来自Foursquare真实数据集[13],采集的是2009年12月至2013年6月期间在加利福尼亚的签到数据,包括用户ID、朋友信息、兴趣点ID、兴趣点经纬度及其类别信息. 数据集中一共含有2551名用户, 13 474个兴趣点及124 933条签到记录. 用户-兴趣点矩阵密度为0.002 91. 由于LBSNs中存在严重的数据稀疏性,所以LBSNs背景下的推荐模型准确率和召回率普遍较低. 数据集的相关内容详见表1.为了验证SoGeoCat模型的准确性,对Foursquare数据集做了如下的处理.表1 实验数据集数据集 Foursquare用户数 2551兴趣点数 13 474类别数 10签到记录 124 933测试集 100 033训练集 24 900矩阵密度 0.002 911) 剔除访问少于10个兴趣点的用户.2) 剔除少于10个用户访问的兴趣点.3) 采用数据集中的80%的数据作为训练集,剩余的20%作为测试集.4.2 评价指标本文采用准确率(Precision)和召回率(Recall)来评估推荐算法的性能,计算公式如下:其中表示当向目标用户推荐前k个兴趣点时的准确率表示当向目标用户推荐前k个兴趣点时的召回率, N为用户数表示在测试集中ui访问过的兴趣点表示在推荐的k个兴趣点中击中的兴趣点.实验中,我们将 k 设置为: 5, 8, 10, 12, 15, 20.4.3 推荐模型对比为了评估SoGeoCat模型的性能,本文选取三个经典模型同本模型进行对比: IRenMF[15]采用了融合地理位置信息的矩阵分解模型,根据地理特征将领域分为实例级别领域和区域级别领域这两个层次,利用领域的特征进行个性化推荐;USG[4]采用了统一的协同过滤框架,综合考虑了用户偏好、朋友信息和地理位置信息对兴趣点推荐的影响;ASMF-LA[13]采用了“两步走”框架,融合用户偏好、朋友信息、地理位置信息和类别信息对兴趣点推荐的影响.参考文献[13],实验的相关参数设置如下:特征矩阵维度l设置为12;用于调整用户偏好与地理位置影响之间的权重,设置为0.4;为潜在兴趣点的偏好常量,设置为 0.1;调整参数为 0.1;正则化常数、分别用于调整用户特征矩阵和兴趣点特征矩阵的权重,均设置为0.01;用于调整类别特征矩阵的权重,设置为 1;为 10.4.4 实验结果分析为了评估SoGeoCat模型的性能,本节从推荐模型(USG、IRenMF、ASMF-LA、SoGeoCat)之间比较、SoGeoCat模型中各要素影响和用户潜在兴趣点数据模型影响这三个方面进行分析,具体内容如下.4.4.1 推荐模型的比较与分析在 k=5, 8, 10, 12, 15, 20 的条件下准确率和召回率分别用P@k、R@k表示,各模型的准确率和召回率见表2.表2 各模型在Foursquare数据集中的性能Precision P@5 P@8 P@10P@12P@*******************.04870.04520.04180.03690.0322 USG 0.0518 0.0424 0.0396 0.0361 0.0342 0.0297 ASMF-LA 0.0621 0.0508 0.0458 0.0427 0.0401 0.0342 SoGeoCat 0.0657 0.0529 0.0484 0.0442 0.0409 0.0363RecallR@5R@8R@10R@12R@******************0.0448 0.0500 0.0545 0.0612 0.0711 USG 0.0308 0.0403 0.0475 0.05340.0601 0.0693 ASMF-LA 0.0389 0.0495 0.0533 0.0582 0.0683 0.0761 SoGeoCat 0.0391 0.0502 0.0548 0.0601 0.0698 0.0775图1 基于Foursquare数据集各模型的准确率对比图2 基于Foursquare数据集各模型的召回率对比从表2中可以看出:(1) IRenMF采用了加权矩阵分解模型,对于实例级别领域和区域级别领域分别采用兴趣点相似性和用户相似性进行个性化推荐,但由于没考虑朋友信息和类别信息,因此相对于ASMF-LA和SoGeoCat而言表现出了更差的推荐效果,如表三所示, IRenMF表现出了第3好的推荐效果;(2) USG是采用了融合用户偏好、朋友信息和地理位置信息的统一协同过滤模型,但由于其没有考虑类别信息,且各要素的影响只是进行简单的线性加权组合,忽略了要素之间的相互作用,再者,协同过滤算法很容易受到数据稀疏性的影响.所以, USG模型表现出最差的推荐效果;(3) ASMF-LA采用了“两步走”框架,考虑了直接朋友、邻居朋友、位置朋友和类别信息对兴趣点推荐的影响,表现出了不错的推荐效果. 但是在获取邻居朋友和计算地理位置因素对兴趣点推荐的影响时,都需要用到用户“家”的信息. 实际上,越来越多的用户不愿意公开自己“家”的位置等隐私信息,而且,并非用户只愿意访问离家近的兴趣点,如: 白领小A,他家和公司相离10公里,他经常访问的兴趣点就容易集中在以家和公司为圆心的两个领域当中. 所以, ASMF-LA表现出了第2好的推荐效果;(4) SoGeoCat同样采用了“两步走”框架,既考虑到了用户之间的相似性,又缓解了数据稀疏性,融合了签到信息、朋友信息、地理位置信息和类别信息对兴趣点推荐的影响. 而且,本模型中,改进了地理位置对兴趣点推荐的影响,根据用户的历史签到足迹来估计地理位置因素对目标用户的影响,保护了用户的隐私信息,表现出了最好的推荐效果.4.4.2 要素影响分析从图3、图4中我们可以看出: (1)三个要素对于兴趣点推荐都发挥着重要作用,且融合三个要素时推荐效果最好; (2)朋友信息、地理位置信息对兴趣点推荐的影响大于类别信息对于推荐的影响. 分析其原因,主要在于用户在选择兴趣点时受到了多个方面的影响,如朋友的介绍、距离的远近和自己的爱好等等,所以我们不能片面地根据某一影响因素进行建模. 在SoGeoCat模型的第二步中运用了矩阵分解算法,在矩阵分解算法中训练出的用户特征向量和矩阵特征向量中也有考虑到社会关系、地理位置等因素的影响,但是在特征矩阵中没有具体地说明.图3 基于Foursquare数据集各要素间的准确率对比图4 基于Foursquare数据集各要素间的召回率对比4.4.3 用户潜在兴趣点数据模型影响分析在这个部分中,我们比较纳入用户潜在兴趣点数据模型的推荐模型和未纳入用户潜在兴趣点数据模型的推荐模型的推荐效果,图5、图6结果表明,纳入用户潜在兴趣点数据模型的推荐效果优于未纳入用户潜在兴趣点数据模型的推荐效果. 分析其原因,主要有两点: (1)虽然矩阵分解算法中已经将朋友信息、类别信息和地理位置信息考虑在特征矩阵之中,但是不能确切地说明. 我们通过用户潜在兴趣点数据模型,单独考虑了朋友信息和地理位置信息的影响,利于发挥其对推荐效果的影响; (2)用户潜在兴趣点数据模型不仅考虑了这三个要素,它还为偏好矩阵填充了大量的潜在兴趣点的签到信息,缓解了数据稀疏性.还有一个有趣的发现,表2中只考虑类别信息的模型的推荐效果低于未纳入用户潜在兴趣点数据模型的的推荐模型的推荐效果. 因为前者在计算用户潜在兴趣点数据模型时,没有考虑朋友信息和地理位置信息,使得计算出来的潜在兴趣点与实际用户偏好有较大的出入,于是将其带入矩阵分解算法中的时候产生了噪声,影响推荐效果.5 结论与展望SoGeoCat模型采用了混合算法,融合了两种算法的优点,既考虑了用户之间的相似性又缓解了数据稀疏问题. SoGeoCat模型还融合了类别标签,保护了用户的常驻位置信息. 通过对真实的Foursquare数据集进行实验,实验结果表明,SoGeoCat模型相对于其他三个对比模型而言在Precision和Recall上都表现出较好的推荐效果.图5 基于Foursquare数据集是否纳入潜在兴趣点模型的准确率对比图6 基于Foursquare数据集是否纳入潜在兴趣点模型的召回率对比未来,希望在此模型的基础上,纳入“时间信息”和“评论信息”等上下文信息,进一步地提高推荐算法的精确度和召回率.参考文献【相关文献】1 曹玖新,董羿,杨鹏伟,等. LBSN 中基于元路径的兴趣点推荐. 计算机学报, 2016, 39(4): 675-684.2 余永红. 融合多源信息的推荐算法研究[博士学位论文]. 南京: 南京大学, 2017.3 Bell RM, Koren Y. Lessons from the Netflix prize challenge.ACM SIGKDD Explorations,2007, 9(2): 75-79. [doi:10.1145/1345448]4 Ye M, Yin PF, Lee WC, et al. Exploiting geographical influence for collaborativepoint-of-interest recommendation.Proceedings of the 34th International ACM SIGIR Conference on Research and development in Information Retrieval. Beijing, China. 2011. 325-334.5 Lian DF, Zhao C, Xie X, et al. GeoMF: Joint geographical modeling and matrix factorization for point-of-interest recommendation. Proceedings of the 20th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining. New York, NY,USA. 2014. 831-840.6 Liu YD, Pham TAN, Cong G, et al. An experimental evaluation of point-of-interest recommendation in locationbased social networks. Proceedings of the VLDB Endowment,2017, 10(10): 1010-1021. [doi: 10.14778/3115404]7 Li HY, Ge Y, Hong RC, et al. Point-of-interest recommendations: Learning potential check-ins from friends.Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, CA, USA. 2016. 975-984.8 杨志文,刘波. 基于Hadoop平台协同过滤推荐算法. 计算机系统应用, 2013, 22(7):108-112. [doi: 10.3969/j.issn.1003-3254.2013.07.024]9 冯晓敏. 基于项目综合相似度和因子分析的协同过滤算法研究[硕士学位论文]. 青岛: 中国石油大学(华东), 2013.10 范波,程久军. 用户间多相似度协同过滤推荐算法. 计算机科学, 2012, 39(1): 23-26. [doi:10.3969/j.issn.1002-137X.2012.01.005]11 Yuan Q, Cong G, Ma ZY, et al. Time-aware point-of-interest recommendation. Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. Dublin, Ireland. 2013. 363-372.12 Zheng N, Jin XM, Li LH. Cross-region collaborative filtering for new point-of-interest recommendation. Proceedings of the 22nd International Conference on World Wide Web. Rio de Janeiro, Brazil. 2013. 45-46.13 Li XT, Cong G, Li XL, et al. Rank-GeoFM: A ranking based geographical factorization method for point of interest recommendation. Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. Santiago, Chile. 2015. 433-442.14 高榕,李晶,杜博,等. 一种融合情景和评论信息的位置社交网络兴趣点推荐模型. 计算机研究与发展, 2016, 53(4):752-763.15 Liu Y, Wei W, Sun AX, et al. Exploiting geographical neighborhood characteristics for location recommendation.Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.Shanghai, China. 2014. 739-748.。

一种分段检测器集合生成算法的研究与实现

一种分段检测器集合生成算法的研究与实现

一种分段检测器集合生成算法的研究与实现张小梅【摘要】At present, most intrusion detection algorithms are used to improve the accuracy of detection and system for illegal antigen coverage, the lack of detection rate of improved algorithm. Aiming at this problem, this paper proposes a new detector generation algorithm based on negative selection. Using the segmentation method, the candidate set of detector size using the reeursion formula, and then solve the serial number of randomly generated detector. Experimental results show that, the time efficiency of the algorithm is significantly improved, and has practical application value.%目前大多数入侵检测算法的研究均用于提高系统检测的准确率和对非法抗原的覆盖率,缺乏对提高算法检测速度的研究。

针对这一问题,提出一种新的基于否定选择的检测器生成算法,利用分段的方法,先将候选检测器集合的大小利用求解递归公式计算出来,再用求解序号随机生成检测器。

实验表明,该算法的时间效率得到显著提高,并具有实际的工程应用价值。

【期刊名称】《微型机与应用》【年(卷),期】2012(031)015【总页数】3页(P73-74,81)【关键词】否定选择;检测器;递归;模式匹配【作者】张小梅【作者单位】兰州资源环境职业技术学院信息管理系,甘肃兰州730021【正文语种】中文【中图分类】TP16阴性选择算法是Forrest等人研究出来的应用于计算机安全防护的检测算法[1],其用于故障检测最大的优势是用有限数量的检测器检测无限种类的故障[2-5]。

基于粒子滤波和在线随机森林分类的目标跟踪

基于粒子滤波和在线随机森林分类的目标跟踪

基于粒子滤波和在线随机森林分类的目标跟踪陈姝;彭小宁【期刊名称】《江苏大学学报(自然科学版)》【年(卷),期】2014(035)002【摘要】针对粒子滤波跟踪过程中不精确的状态模型或观测模型会降低跟踪精度的问题,提出一种基于粒子滤波与在线随机森林分类的目标跟踪算法框架,通过在线样本学习,随机森林中的样本集可以准确地近似目标外观的概率分布;在粒子滤波跟踪中,采用随机森林分类结果及区域直方图相似度来估计粒子相似度,从而提高了观测模型的精度.当出现跟踪漂移时,通过随机森林检测目标来重新初始化粒子滤波器,可以防止由于误差积累而造成的跟踪失败.采用vc 6.0+ opencv实现了本算法,并设计两类试验分别来验证算法的跟踪精度和抗漂移能力.结果表明,该算法跟踪正确率比粒子滤波提高23%,比随机森林提高16%,因此可以防止无规则运动等因素造成的跟踪漂移,实现了长序列可靠跟踪.【总页数】7页(P207-213)【作者】陈姝;彭小宁【作者单位】湘潭大学信息工程学院,湖南湘潭411105;湘潭大学智能计算与信息处理教育部重点实验室,湖南湘潭411105;中南大学信息科学与工程学院,湖南长沙410083;怀化学院计算机科学与技术系,湖南怀化418008【正文语种】中文【中图分类】TP391.41【相关文献】1.基于Kalman和双级联随机森林的在线目标跟踪算法 [J], 李婷;赵文杰;杨帅;李成2.基于在线学习的自适应粒子滤波视频目标跟踪 [J], 席涛;张胜修;颜诗源;徐晓淼3.基于粒子滤波和在线训练支持向量机的目标跟踪新方法 [J], 郑建宾4.基于粒子滤波和在线学习的目标跟踪 [J], 刘海龙;胡福乔;赵宇明5.基于稀疏表示和粒子滤波的在线目标跟踪算法 [J], 王海罗;汪渤;高志峰;周志强;李笋因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2015 年 9 月 第 32 卷第 5 期
重庆师范大学学报(自然科学版) Journal of Chongqing Normal University(Natural Science)
Sept 2015 Vol.32 No.5
图3
随机森林运行示意图
综上所述,随机森林分类器的训练过程如算法 1 所述: 算法 1 随机森林分类器训练算法 输入:训练样本集 { X , Y } ,其中 X {x1 , x2 ,..., xN }, Y { y1 , y2 ,..., yN } 输出:随机森林分类器 For i= 1 to T do 对训练样本集进行随机采样 i BootstrapSampling ( ) 训练随机树 TreeRooti = GrowRandomizedTree( i ),见算法 2 End for Random Forest = {TreeRoot1, TreeRoot2, …, TreeRootT} 其中随机树的训练过程如算法 2 所述: 算法 2 随机树分类器训练算法 输入:训练样本集 { X , Y } ,其中 X {x1 , x2 ,..., xN }, Y { y1 , y2 ,..., yN } 输出:随机树分类器 If i 中所有训练样本的类别相同 or Return LeafNode(p(c| i )) End if For t = 1 to | i | If h( xt )=1 将 ( xt , yt ) 添加到左子节点的数据集中,即 l i {( xt , yt )} Else
检测结果
图 1 算法框架图
2 自适应特征选择
传统的特征选择主要利用了 RGB、HSV 等色彩信息 ,但存在以下两个问题。第一,不 同的色彩信息对于不同瓶体的区分能力有差异,如果使用相同的色彩信息无法获得较好的 性能。第二,色彩信息的人工选择难以最大化前景和背景的差异,且存在的冗余色彩信息 会提高算法的计算复杂度。因此,本文提出了自适应特征选择算法,能够获得显著性最高 的特征序列用于检测。 2.1 特征构建 原则上,色彩、纹理、运动以及形状信息等都可以作为特征供检测使用,且每种特征 都存在很多参数可供调整,因此存在的特征数目巨大。本文主要利用了色彩信息,通过设 置局部空间的色彩滤波器来完成特征的构建。 构建的色彩滤波器需要满足 3 个条件: 首先, 滤波器系数简单, 保证组合特征可以有效计算得到; 其次, 需要涵盖现有的常用色彩信息, 包括 RGB、YCrCb 等;最后,由于现有相机采集的都是 RGB 色彩信息,因此以该空间的一 维映射组合为宜。 本文利用的特征池主要通过 R、G、B 色彩值得线性组合得到的,如下式所示:
2015 年 9 月 第 32 卷第 5 期
重庆师范大学学报(自然科学版) Journal of Chongqing Normal University(Natural Science)
Sept 2015 Vol.32 No.5
待训练 图像集
特征选择
特征提取
分类器训练
待检测 图像
特征提取
分类器分类
(2)
其中 为无穷小量,能够避免最大似然估计产生奇异值。不难看出,最大似然估计也可以 认为是一种直方图, 反映的是前景和背景的差异性。 最终, 为了得到每个特征的鉴别能力, 本文利用方差来决定特征度量:
var( L) E ( L2 (i)) E 2 ( L(i))。
(3)
2.3 特征筛选 本文从 49 维特征中进行筛选,图 2 给出了一个例子。其中,图 2(b)给出了经过公式 3 的特征度量后得到的排序结果,最有鉴别力的特征位于左上方,而最不具有鉴别力的特 征位于右下方。图中反映的是公式 2 计算出的最大似然估计图,不难看出,鉴别力的排名 符合人们的视觉效果,能够很好的帮助后续的标签分类。
i N N0
2015 年 9 月 第 32 卷第 5 期
重庆师范大学学报(自然科学版) Journal of Chongqing Normal University(Natural Science)
Sept 2015 Vol.32 No.5
将 ( xt , yt ) 添加到右子节点的数据集中,即 r i {( xt , yt )} End if End for 新建左子节点 LeftNode = GrowRandomizedTree( l ) 新建右子节点 RightNode = GrowRandomizedTree( r ) Return ParentCode(LeftNode, RightNode) 本算法选择随机森林分类器的原因主要有 3 点。首先,待训练的样本集通常很大,随 机森林分类器的训练速度、计算效率远远高于传统的 SVM、Adaboost 等分类器,且不易产 生过拟合现象;其次,随机森林能够直接产生多类别的分类结果,而 SVM 和 Adaboost 只 能通过若干个二类分类器的组合才能完成,因此效率高、结果更加直观;最后,由于森林 中的每棵树都是独立生长的,因此可以对其进行并行化加速,完成更加高效的应用。 3.3 检测算法的加速 现有的高速生产线对于分类算法的效率的要求越来越高,为了尽可能地提高算法的拓 展性和实用性,本文设计了金字塔随机撒块算法用于分类算法的加速。利用筛选出的 5 维 特征,可以对任意大小的矩形框的像素点进行统计,利用均值作为每个矩形框的特征。在 现有算法中,都是利用经验值选择若干指定大小、位置的矩形框用于分类。该类方法主要 存在 3 个问题: 首先, 该方法对于工程人员的经验和素质要求较高, 很难适用于新手使用; 其次,人工选择难以达到全局最优;最后,对于矩形框的数目没有一个显性的指导,难以 便于后续的维护和拓展。针对上述问题,本文在归一化后的图像上随机撒一些起始点,将 其作为矩形框的中心;在此基础上,指定若干大小的尺度,通过构建金字塔确定矩形框用 于分类。图 4 给出了金字塔随机撒块算法的示意。其中,圆点表示了选择了随机撒点的结 果;而矩形框簇表示了经过金字塔拓展后的矩形框的位置
网络出版时间:2015-06-08 12:29 网络出版地址:/kcms/detail/50.1165.n.20150608.1229.012.html 2015 年 9 月 第 32 卷第 5 期 重庆师范大学学报(自然科学版) Journal of Chongqing Normal University(Natural Science) Sept 2015 Vol.32 No.5
(b) 特征鉴别力结果 图 2 特征筛选的结果 在本算法中,综合考虑精度和执行效得计算复杂度大大提高,而且冗余特征会造成分类器产 生过拟合现象,降低识别率。
(a) 原始图
3 基于随机森林的标签检测
3.1 随机森林检测算法 [9] 决策树算法 是一种传统的数据挖掘分类器,其通常构成的是一个二叉树结构。其中 每一个非叶子节点表示一个分类器; 而每一个叶子节点则表示样本的所属类别。 不难看出, 决策树的构建在于一个个阈值判断问题,包括分类器之间特征值不应当重复、阈值如何选 择能够较好的分裂样本集以及如何分配叶子节点的所属类别。从 boosting 得到借鉴,可 以通过构建多个树分类器,再根据分类器的联合综合确定森林分类器的结果,从而得到更 稳定、更鲁棒的分类性能。在此基础上,Breiman[10]提出了随机森林理论,主要在两处 有随机的意义:一个是每棵树用的点分类器是随机的,点分类器之间没有联系;另一个是 森林用的树分类器也是随机的,树分类器之间也没有联系。图 3 给出了随机森林运行的一 个示意图。
[7]
f1 {w1 r w2 g w3 b | w* {2, 1,0,1, 2}}

(1)
也就是说组合后的特征由-2~2 的加权系数组成,即组合特征为 125 维。但除去冗余 的特征(即 ( w1 ', w2 ', w3 ') k ( w1 , w2 , w3 ) )和全 0 特征,还剩余 49 维特征。当计算特征 时,需要将特征值域归一化到 0~255 之间。不难看出,本算法还可以很容易地和其他特 征相结合,从而获得更加优异的检测性能。 2.2 特征度量 在实际应用中,前景标签部分和背景的液体部分可能存在多种颜色(由于光照、角度 以及材质的影响),因此无法用单一高斯模型对其进行描述。本文利用直方图统计信息, 计算特征对于前景和背景的分离度完成度量过程。主要分成 3 个步骤:1) 根据特征分别 计算前景和背景的分布直方图;2) 计算这些分布对应的最大似然估计;3) 根据最大似然 估计的统计值来决定特征的选择。 设 H f 和 H b 分别表示前景和背景的直方图。 将直方图分成 n 个块并利用直方图归一化 技术,那么可以得到前景和背景分布直方图中第 i 个块的概率分别为 p(i ) 和 q(i ) 。因此, 可以得到最大似然估计的结果为:
2015 年 9 月 第 32 卷第 5 期
重庆师范大学学报(自然科学版) Journal of Chongqing Normal University(Natural Science)
Sept 2015 Vol.32 No.5
L(i) log
max{ p(i), } , max{q(i), }
1 算法框架
标签图像中存在的缺陷包括标签缺失、标签偏移以及标签破损等,图 1 给出了本算法 的主要框架示意图,主要包括两个部分:训练和检测。在训练部分,首先构建了自适应的 色彩空间池,用于最大化前景和背景的差异;其次,创新地以随机撒矩形框的方式作为分 类器种子,并用上述多色彩空间值作为代表特征;最后,利用随机森林分类器对待训练图 像集进行训练,得到合适的分类器。在检测部分,首先对待检测图像进行处理,构建多色 彩空间下的复合图像;再次,利用训练部分得到的分类器完成该图像的分类。
标签作为产品的主要标志之一,不仅代表了产品自身和生产厂家的形象,还承担着吸 引消费者的作用, 因此, 如何保证标签的完整性与正确性至关重要。 在传统的检测算法中, 多通过人工检测来完成,但人工检测无法满足日益增长的生产速度的要求,其对应的低检 [1] 测率、高成本的问题也限制了生产行业的进一步发展 。计算机视觉技术利用图像处理和 [8] [2] 机器学习 的成熟技术,能够显著提高标签检测的速度和精度 。 [3] 邢 从图像处理的角度出发,利用 canny 算法作为掩码图像进行缺陷检测,能够克服 [3] 图像抖动和非同步性带来了检测问题。在此基础上,陈 将色彩信息拓展到 LAB 空间,从 [6] 而获得了精度更高的检测算法。张 主要设计了基于边缘的图像处理算法,通过手动指定 [5] 矩形框并统计其中像素数目的变化来识别有缺陷的标签。针对手动指定困难的问题,覃 利用 SVM 分类器采集大量的矩形框特征,利用机器学习技术来完成合格和不合格标签的分 类。但传统算法中仍然存在一些问题,比如特征选择困难、特征数目过多以及二值分类器 [11] 无法较好地满足多类标签的分类要求等 。 针对上述问题,本文提出了基于随机森林分类的快速标签检测算法。主要包括两个创 新点。第一,为了更好地区分前景和背景,获得更加具有鉴别意义的特征,本文设计了自 适应特征选择方法,在大规模的像素点特征中进行自动选择。该方法在保证计算效率的前 提下,大大提高了分类器的检测能力。第二,针对大数据量、多类别的标签图像,本算法 引入了随机森林的分类技术,能够有效地完成标签的检测。在此基础上,提出了金字塔随 机撒块算法,大大提高了标签检测的速度。实验部分证明了本算法精度高、速度快,能够 满足高速自动化生产线的需求。 本文的安排如下。第二章给出了本算法的主要流程和框架图。在此基础上,第三章和 第四章分别对自适应特征选择模块和快速随机森林分类模块进行了讨论。在第四章和第五 章中,本文完成了实验论证和全文总结。
相关文档
最新文档