基于区间型符号数据的群组推荐算法研究
区间值群组决策专家权重微调整方法
区间值群组决策专家权重微调整方法冯源;张晓慧;曹月静【摘要】针对多属性群决策理论中专家权重如何确定的问题,提出了基于区间值群决策专家权重微调整方法,是对“群组决策专家权重微调整方法”的扩展研究.专家对方案偏好的测评信息为区间数,利用平均值、标准差对每个区间的左、右端点逐次进行微调整,得到专家权重.其中创新之处是当方案综合评价值相同,难以区分排序时,根据标准差进一步来衡量方案的优劣,最终取得理想的方案排序.通过实例表明该方法简便有效.【期刊名称】《吕梁学院学报》【年(卷),期】2019(009)002【总页数】7页(P23-29)【关键词】群决策;区间值;标准差;微调整【作者】冯源;张晓慧;曹月静【作者单位】太原师范学院数学系,山西晋中030619;太原师范学院数学系,山西晋中030619;太原师范学院数学系,山西晋中030619【正文语种】中文【中图分类】TP390 引言对于多属性群决策理论中专家偏好信息为区间型问题的研究,学术领域已取得了不少的研究成果,提出了诸多方法.如文献[1]中采用构造目标规划模型和线性规划模型集结偏好信息;徐泽水在文献[2]中和文献[3]中采用专家的测评信息分别以区间模糊与乘性偏好关系来排序;李磊将每位专家根据偏好信息构造的判断矩阵,应用了模拟植物生长算法(PGSA)[4]将其转化为相对应的二维平面点集.综合各学者所提的基于区间值偏好信息的多属性群决策问题的计算方法可以归结为如下几种:线性规划法、基于多目标线性规划方法、利用区间数乘法法则、累积综合评价值法、转化为单点值法.本文提出一种基于区间值群组决策专家权重微调整方法,该方法在文献[5]的基础上,当专家的偏好信息从经典数据集转化为区间数集时,利用平均值、标准差对专家偏好信息的左右端点逐次进行微调整,直到对所有的专家偏好信息调整完为止.该方法没有对数据进行较多的转化,保留了数据的原始信息,同时是对文献[5]的微调整方法中离差、平均离差基础上的拓展研究,并且可以用EXCEL工具进行求解,算法操作简单.最后通过算例验证该方法计算过程简单,有利于进一步提高决策效率.1 预备知识[6]1.1 区间数的定义、相关定理及性质若a=[a1,a2]={x|a1≤x≤a2},那么a被称为一个区间数,且a1与a2分别被称为该区间数a的下界与上界,特别地,若a1=a2,a退化为一个实数.设P为每一元素都是区间数的集合,有P=K∪B,其中,K表示P中可比较区间数的集合,B表示P中不可比较区间数的集合,“不优于”用符号“≼”来表示,“劣于”用符号来表示,对任意的a,b∈P,ab⟺a≼b且a≠b.定义1 若区间数a=[a1,a2],b=[b1,b2]存在a1≤b1,a2≤b2的关系,则a,b被称为可比较区间数.定义2 若区间数a=[a1,a2],b=[b1,b2]存在a1>b1,a2<b2的关系,则a,b被称为不可比较区间数[7].定理1 设带区间数的偏序集合P,若存在a,b∈P(是P中不可比较的)且有则ab;反之,如果则a≻b.若存在且a2<b2,则ba.该定理说明通过两个不可比较区间数的区间均值的大小比较,可以很明确的给出这两个区间数的优劣关系.1.1.1 区间数的性质[8]:设区间数a=[a1,a2],b=[b1,b2],对于任意的实数β,λ则性质1①a+b=[a1+b1,a2+b2]②a-b=[a1-b1,a2-b2]③④ab=[a1b1,a2b2]⑤⑥若λ≥1,则logλa=[logλa1,logλa2];若λ<1,则logλa=[logλa2,logλa1]性质2若a=[a1,a2] ,b=[b1,b2],β>0,β1>0,β2>0则①a+b=b+a②β1a+β2a=(β1+β2)a③βa+βb=β(a+b)④ab=ba⑤(ab)β=aβbβ⑥aβ1aβ2=aβ1+β21.1.2 区间数大小的比较定义3 对于任意区间数a=[a1,a2],则为a的均值.定义4 若任意给定区间数a=[a1,a2],则a的加权平均值为E°[a]=α1a1+α2a2,其中α1,α2∈[0,1],且α1+α2=1.当时,定义退化为定义1.在区间数的均值相同情况下,考虑它左右端点的数据不同,必然会对方案的影响程度改变,通过利用给定权重值之间存在差异,比较区间数的大小转化为比较加权平均值衡量.1.2 几种专家赋权法及比较研究群决策结果很大程度依赖专家权重与属性值,二者的变动都改变着决策最终趋势.已有的关于区间值属性权重问题的研究方法中,文献[8]中针对属性值为区间粗糙数利用灰色关联分析的思想方法确定属性表达式;文献[9]中把区间数变化成效益型三元联系数形式,然后对其进行决策建模;文献[10]中的新方法是先构造了一个区间数上下界偏差函数,然后利用偏差越小越利于决策的原则,将区间权重向量变换成确定性的权重向量;文献[11]中通过构造得分函数和精确函数,在此基础上构造转换函数,由此将区间值比例二元组和区间数之间的关系相互转变,最后通过有序加权几何算子来计算属性权重.这些方法都各有优点,但计算过程相对复杂,需要的信息量大,影响决策效率.研究基于区间数形式的群决策问题,已有不少前辈对最终评分值的获得方法进行了探究,在权重与属性都为区间数的决策方法已有成果如下:为了方便起见,作以下标记:Y={y1,y2,…ym}:m(≥2)个决策方案的集合;A={a1,a2,…an}:n(≥2)个属性或(指标)的集合;表示属性权重的集合以区间数给出),其中方案Si在第j个指标下的指标值(1)根据区间数乘法法则[12];该方法的核心理论是:利用区间数的乘法法则.设a=[a1,a2],b=[b1,b2],则区间数a与b的“·”运算定义如下:[a1,a2]·[b1,b2]=[min(a1·b1,a1·b2,a2·b1,a2·b2),max(a1·b1,a1·b2,a2·b1,a2·b2)]方案S(yk)的综合评价值(2)分析:此方法不仅计算量少而且简便合乎情理.但可能会出现这种情况:不同的评分方案,最终计算的得分相同.(2)通过构造多个线性目标规划模型法来获取最终得分[13];该方法的核心理论是:设上述根据多属性加权平均法计算S(yk)的与分别是属性权重向量左右端点的综合评价值,运用下列线性规划模型:(3)(4)分析:运用(2)求解综合评价值的优点在于可以得到的涵盖每个方案的取值范围,但是要解出所有方案的综合评价值时必需计算2 m个构造的线性规划模型,增加了求解负担.而且,每求解一次方案的时,会产生两组不同的导致权重向量不相等的情况.(3)累积综合评价值法[14];该方法的核心理论是:根据如下定义的二重积分公式获得方案的综合评价值.公式如下:(5)分析:将权重值构成的区间作为一重积分区域,属性值构成的区间作为二重积分区域,根据求解二重积分的方法来获取各方案的最终评价分数.此方法是把权重和属性向量都是单值拓展到二者分别都是区间数上,综合得分的获取利用无限多个单值的相乘再对其进行再相加.上述所提的基于多个线性目标规划模型的方法、基于区间数乘法法则方法、基于二重积分的方法、转化为单点值法,应用了更为广泛的数学理念,有其自身的优点,但存在不足.例如虽然转化为单点值法除去了繁琐的区间之间计算法则,但是转化的有前提条件,即转化后的实数属性值必须与转化前区间数属性值大小一致,所以,在方案和属性的个数比较多的情况下,转化为单点值法求解会麻烦.基于上述分析,本文提出通过求平均值与标准差的方法,该方法不仅使决策过程整体趋势更为直观,而且操作简便易于着手.2 区间型专家权重赋值算法2.1 问题描述假设集合E={e1,e2,...,et}(t≥3)表示为参与决策的专家集,t为参与决策评分的专家个数,集合Y={y1,y2,…,yv}表示参与决策的备选方案集,v(v≥2)表示参与决策的备选方案个数有v个,A={a1,a2,...,as}(s≥1)是方案的有限属性集合,s表示属性的个数.集合w={w1,w2,…,wt}为专家的初始权重向量,且满足表1为所有参与决策的t位专家对第k个方案的每一种属性测评信息表,其中表示为第j个专家针对方案k的第i个属性的评分信息的区间数,记为(1≤j≤t).由测评信息表构成的测评信息矩阵用A表示.表1 方案测评信息表yke1e2…eta1[ak11,bk11][ak12,bk12]…[ak1t,bk1t]a2[ak21,bk21][ak22,bk22]…[ak2t,bk2t]……………as[aks1,bks1][aks2,bks2]…[akst,bkst]2.2 数值型群组决策专家权重微调整方法[5]假设测评信息矩阵中的元素为计算步骤如下:(1)计算评分向量的均值(2)计算向量相对于均值的离差向量(3)计算离差平均值(4)计算专家权重的调整量用公式(5)对专家权值微调整,获取新的专家权重向量[w1,w2,…wt],根据如下公式计算:(6)若仍有未输入数据,则令k=k+1与i=i+1并返回步骤1,否则结束.2.3 基于区间型专家权重的微调整方法步骤假设初始专家的权重向量为[w1,w2,…wt],用如下步骤对其微调整:步骤1:确定均值.计算所有这t位专家对方案k的第i个属性的平均评分;假设评分向量其中,(1≤j≤t).则,左、右端点的平均评分分别为:(6)其中表示评分向量区间左右端点的平均评分.步骤2:计算相对于的离差向量(7)其中体现了各变量偏离平均位置的程度.步骤3:计算向量与向量的标准其中(8)这里使用标准差是为了进一步给出方案优劣排序.在文献[5]中所提的方法会出现专家综合评价值相同的情况,但作者并未提出进一步的解决方案.比如当方案最终排序为y4=y2≻y3≻y1.因此,本文通过使用标准差来衡量方案的离散趋势,即出现y4=y2时,在方案4与方案2的测评信息矩阵中分别选取左端点中最小的e与右端点中最大的e,构造区间数与应用公式(8)并根据定理1对其进行比较,若区间标准差较大,则排序靠后;反之,排序靠前.步骤4:计算每一位专家的权重调整量:(9)鉴于考虑到比值不超过1,分母改为离差中的最大数.本文的不同之处在于由于上述公式可以改写为下式:(10)考虑到可以用个体评分到集体制评分的均值距离远近作为权重调整的依据,这里将分数项右边的整体看作调整因子.以平均数作为衡量标准,若专家给出的分数靠近均值时,称这类专家的打分精确性高,应赋予一个大的权重值,于是在原来的基础上增大权重;反之亦然.关于α的取值,根据参考文献[5],取其中s是群组决策问题的属性个数,v是方案个数,t是专家个数.步骤5:经过调整获得新的专家权重向量[ω1,ω2,…ωt],其中公式计算:(11)用公式(12)确定最终的区间值专家权重向量.(12)步骤6:输出专家权重向量[ω1,ω2,…ωt],结束.此算法仍保持如下两条性质:(1)总的权重调整量之和为0.即证明:以左端点为例因为所以特别地,当评分向量中的时,即专家所给的测评信息矩阵中存在一个区间数的左右端点相同,则该元素从区间型变为数值型,根据2.1的定义可知区间数退化成实数.例如:某次多属性决策中有5位专家进行打分,测评信息表中既有区间数又有纯数字,以表中的某一行{[6,6],[7,8],[3.5,4],[7,7],[2.5,3]}为例,则由定义2.1可知[6,6]=6,[7,7]=7,即信息表中此行区间数退化等价于{6,[7,8],[3.5,4],7,[2.5,3]},则此方法仍然适用,文献[5]所提出的方法可视特例.3 实例分析研究某院校即将毕业的学生年度学业奖学金等级测评排序案例.为此邀请五位研究生导师对四个学生的学习成绩,论文质量,综合素质,在校表现四方面考核.则将其转化为五位专家e1,e2,e3,e4,e5对四种方案方案y1,y2,y3,y4的四个属性a1,a2,a3,a4进行测评.若此次参与评分的专家打分由于多方因素综合考虑后用区间数表示,即测评表中的评分为区间值,获取其中基本信息,并根据测评信息表构成评分矩阵为Ai,如下分别是由测评信息表构造的矩阵A1,A2,A3,A4,其中这Ai为五位专家对第i个方案的评分矩阵.按照算法步骤:第一次左端点经过微调整后得到的调整量为:(-0.008235,0.004952,0.008375,0.005140,-0.010230)第一次右端点经过微调整后得到的调整量为:(-0.008874,0.005488,0.006221,0.007953,-0.010789)第二次左端点经过微调整后得到的调整量为:(0.005090,-0.006814,-0.024550,0.010838,0.015436)第二次右端点经过微调整后得到的调整量为:(0.001650,-0.006275,-0.018570,0.009922,0.013272)第三次左端点经过微调整后得到的调整量为:(-0.029595,0.009660,-0.020644,0.030467,0.019675)第三次右端点经过微调整后得到的调整量为:(-0.035172,0.008054,-0.026096,0.019015,0.034203)第四次左端点经过微调整后得到的调整量为:(0.010375,0.025673,-0.027643,0.040737,-0.049142)第四次右端点经过微调整后得到的调整量为:(-0.003629,0.144627,0.015280,0.037489,-0.033043)再利用公式(11)得到:利用公式(12)求得经过第四轮微调整后左调整量与调整量的平均值得到最终专家权重为:避免冗余简便书写,上述调整量规定只保留小数后三位,由于考虑所以在第4次调整后计算时用公式获得.通过计算,专家权重的值为:[0.166,0.223,0.141,0.281,0.189].结合先验知识给定属性权重分别为30%,10%,30%,30%,根据加权平均公式(13)和(14)获得各方案的最终得分.(13)其中S(yk)表示第k个方案的最终得分.经过计算四个方案的综合得分分别是5.31,5.83,5.34,5.91.因此方案的综合排名为y4≻y2≻y3≻y1.该方法也说明在尽量保持原始数据的基础的原则下,利用平均数、标准差的方法对具有不确定性多属性决策问题进行排序,具有更简便易于理解的优点.4 结论研究专家偏好信息是区间型的多属性决策问题,提出了区间值专家权重微调整方法,该方法是对文献[5]中群组决策专家权重微调整方法的拓展研究.同时,还具有如下特点:(1) 具有处理混合型数据的能力,即当专家所给的评分矩阵中元素既有实数,又有区间数时,都可以用此方法来解决.(2)标准差的应用,是对方案排序的第二判别,即方案综合评价值相同时,可通过比较标准差的大小来取得理想的排序.(3)尽管研究的是属性值和专家偏好值都是实数的情形,但是本文所提的方法,可以推广语言型、模糊型等领域.参考文献:【相关文献】[1]徐泽水.区间值模糊信息的集成及其在决策中的应用[J].控制与决策,2007(27).XU Z S.Multiple-attibute group decision making with different formats of preference information on attributes [J].IEEE Transactions on Systems Man & Cybernetics-PartsB,2007(6).XU Z S,CHEN J.MAGDM linear-prograrmming modles with distinct uncertain prepreference structures[J].IEEE Transactions on Systems Man & Cybernetics Parts B,2008(5).[4]李磊,王玉倩.确定多属性群决策专家权重的一种新方法[J].统计与决策,2017(3).[5]冯源,宋词.群组决策的专家权重微调整方法[J].计算机工程与应用,2016(24).[6]宋晓辉.基于区间数的多属性决策方法研究[D].四川:西南交通大学数学系数学研究所,2011.[7]侯景亮,李远富,迟红娟.不确定多属性决策中区间数排序的一种新方法[J].数学的实践与认识,2017(18).[8]赵焕焕,菅利荣,刘勇.区间粗糙数的多属性决策方法[J].运筹与管理,2016(2).[9]陆广地.基于联系数几何特性的区间数多属性决策[J].数学的实践与认识,2017(18).[10]韦美雁.一种基于最小偏差的联系数多属性决策方法[J].数学理论与应用,2016(1).[11]焦志敏,张慧,李伯权.区间值比例二元组语言集成算子及其决策方法[J].计算机工程与应用,2017(5).[12]董春游,王辉鹏,胡晓峰.区间数不确定性多属性决策方法应用研究[J].应用能源技术,2009(5).[13]张全,樊治平,潘德惠.不确定性多属性决策中区间数的一种排序方法[J].系统工程理论与实践,1999(5).[14]郭秀英.区间数多指标决策的一种新方法[J].西南石油大学学报(社会科技版),2009(1).。
基于区间的时间序列分类算法的研究
基于区间的时间序列分类算法的研究
区间时间序列分类算法是一种应用于时间序列数据的数据挖掘技术。
传统的时间序列
分类算法主要是基于单个时间点上的数值来进行分类,而区间时间序列分类算法则是考虑
了时间序列中的区间信息,能够更全面地分析时间序列数据,提高分类的准确性和稳定
性。
1. 区间定义:区间时间序列是指在一段时间内的时间序列数据,而不仅仅考虑单个
时间点的数值。
区间可以是连续的,也可以是离散的。
研究中需要确定如何定义区间,以
及如何选择合适的区间宽度。
2. 区间相似性度量:区间时间序列数据之间的相似性度量是算法研究的关键。
传统
的相似性度量方法主要是基于距离度量,如欧氏距离、曼哈顿距离等。
但是这些方法对于
区间时间序列数据并不适用,因为区间时间序列数据有不同的区间宽度和长度。
需要研究
新的相似性度量方法,以适应区间时间序列的特点。
4. 实验评估:为了评估区间时间序列分类算法的效果,需要进行一系列的实验。
实
验中需要选择合适的数据集,包括真实数据和合成数据,以及合适的评估指标,如准确率、召回率等,来评估算法的分类性能。
还需要与其他传统的时间序列分类算法进行比较,验
证区间时间序列分类算法的有效性。
目前,区间时间序列分类算法还存在一些挑战和问题,例如:区间定义的问题、区间
相似性度量的问题、分类器设计的问题等。
未来的研究还需要继续深入探讨这些问题,并
提出更好的解决方案,以提高区间时间序列分类的准确性和稳定性。
数据挖掘中区间数据模糊聚类研究——基于Wasserstein测度
p tr gn eiga dA piain , 0 2 4 (2 :42 . u e ie r n p l t s2 1 , 8 1 )2 -8 En n c o
Absr c :Be a s i iai nso h n— s sa c n f z cuse i tat c u e oft l t to ft e i u e dit n e i uz y l t rng mod l o ntr a a a t sp p r he m e sf r i e v ld t , hi a e
2基于wasserstein测度的双指标自适应区问模糊聚类理论模型正如wasserstein的分解公式所描述wasserstein测度的优势体现在其考虑了区间变量的集中趋势和波动情形因此考虑赋予集中趋势部分和波动部分不同的自适应指标故w1窆窆疆
C m u r n i ei o p t gn r gd 铆 ,口 D eE e n n f f 计算机工程与应用 cf
p t o wa d t eW a s rt i i a c si t t r a a a a d g t e a a t e s g e i d x a d a a t e d u l—n u sf r r se sen d s n e n o i e v l t , n est d p i i l — e n d p i o b e i ・ h t n d h v n n v
Was s i ̄ 离测度 , 出基 于Was s i ̄ 离测度的单指标和双指标 自 s re e tn 提 s re g e tn 适应模糊聚类算法及迭代模型。通 过仿真实验和 c 指数 , 实了该类模型的优势。该算法在海量、 R 证 堆积如 山的数据挖掘 中有着重要的实践意义。 关键 词 : 模糊 聚 类 ; 间数据 ; 号数据 分析 ; 区 符 自适应 文章编 号 :0 28 3 (0 2 1 —0 40 文献 标识 码 : 中图分 类号 : P 8 1 0 3 12 1 )20 2 5 A T 11
基于区间的不确定性优化理论与算法
基于区间的不确定性优化理论与算法摘要:本文将介绍基于区间的不确定性优化理论与算法,并对其在各个领域的应用进行讨论。
针对不确定性问题的特点,我们提出了基于区间的优化方法,并介绍几种最优解的求解算法,这些算法广泛应用于不同领域的决策问题中。
我们也介绍了一些挑战和未来的研究方向,例如使用模糊数和区间矩阵进行最优化解的求解,以及对原始问题有更加准确的估计方法和数值算法的研究。
关键字:区间分析;不确定性优化;最差和最优情况一、序言不确定性问题广泛存在于各个领域,如工程、金融、军事和社会。
例如,在工程领域中,我们可能不知道一些系统变量的值,或者无法估算某些参数的精确值。
在金融领域中,未来的市场变化不确定,而在军事领域中,与敌方的互动不可预测。
有许多决策问题需要考虑到这些不确定性,而不确定性优化是寻找在不确定情况下最优决策的方法。
不确定性问题很大程度上依赖于概率分布、随机模型和贝叶斯方法。
然而,尽管这些方法在某些情况下很有帮助,但它们在处理一些实际问题时存在一些困难,这是由于这些方法要求输入的数据必须良好定义,因此可以容易地进行模型估算。
然而,在许多情况下,我们只知道一些不确定的事实或条件,这种情况下,建立数据模型和分布的相关性就很困难了。
基于区间分析的不确定性优化帮助我们更好地解决这种情况。
区间不确定域是由下限和上限之间的范围定义的。
基于区间的不确定性优化方法是通过在区间域内寻找最优解来解决决策问题。
与概率分布不同,区间方法需要定义一个上限和下限,并在这个范围内评估问题的解决方案。
由此产生的结果是一些保证该方案解决方案是不容易超越或更优解的结果。
本文将介绍基于区间的不确定性优化方法,包括一些最优解求解算法和应用领域。
此外,我们还将研究该方法的局限性和未来的研究方向。
二、区间分析区间分析是数学中的一种方法,用于量化变量不确定性。
在区间分析中,一个变量可以用两个数(上限和下限)来定义。
对于一个实数a,靠近零的范围可以写为[a-b,a+b],其中b是正实数“误差”项。
一般分布区间型符号数据的K均值聚类方法
作者简介 : 郭均鹏 ( 1 9 7 3 一) , 男, 山东昌邑人, 博士 , 教授 . E m a i l : g u o j p @t j u . e d u . c n
一
2 2一
管
理
科
学
学
报
…
2 0 1 3年 3月
更为丰富. 文献 [ 6 ] 介绍 了基 于欧式距离 的划分 聚类 方法 , 以及 各种 对聚类 结果 进行解 释 的工具 ;
郭均鹏 ,陈 颖, 李汶华
( 天津 大学 管理 与经 济学部 ,天津 3 0 0 0 7 2 )
摘要 : 对于区间型符号数据聚类分析的研 究, 现有方法大多假设个体在 区间 内服从均 匀分布 , 这往往 并 不符合 实 际情况 . 针 对 此 问题 , 研 究一般 分 布 的 区 间型符 号数 据 K均值 聚 类 方法 , 给
分必 要 . 符号 数据 的聚类 分 析是符 号数 据分 析领域中 的研 究热 点 , 近年 来 提 出 了许 多 针 对 各种 类 型 的
要知识资源¨ J . 符号数据分析 ( s y m b o l i c d a t a a n a l -
y s i s , 简称 S D A) 是研 究如 何 从 海量 数 据 中发 掘 系 统 知 识 的 理 论 和 方 法 j , 其 运 用 数 据 打 包 的 思 想, 不 仅使得 计算 量减 少 , 并 且 能从整 体上 把握样 本 的特性 . 例如 , 对 股 票进 行 评 价 , 若决 策 者 希望
中图分 类号 : O 2 1 2 . 4
文 献标识 码 : A
文章 编 号 :1 0 0 7— 9 8 0 7 ( 2 0 1 3 ) 0 3— 0 0 2 1— 0 8
基于区间值数据动态聚类算法的客户市场细分
优化初始聚类 中心基础 上 自适应地 调整聚类 数 , 用动态聚类 利 加强观测样本无指导 自学习的能力 。
1 基于 区间值数据动态聚类 的客户市场细分
1 1 数据预 处理 .
在信息社会 , 人们 日益面 临着 海量数据 难 以整理 和分析 的
问题 , 传统分析方法 已经难 以适应 。2 0世纪 8 0年 代后期 的欧
基 于 区 间值 数 据动 态 聚 类 算 法 的客 户 市 场 细分
蒋 宁 吴春旭
( 中圆科学技 术大学管理学院 安徽 合肥 20 2 ) 3o 6
摘
要
K均值算法( — en)目前较 为成功地立 嗣于客 户市场细分 , K m as 但随着 市场规模 的扩 大, 面临着对于初 始类个数 敏感 , 易
adajsten m e t l t i dpi l, h hh s enpoe eeet eb s 、 n d th u br u e n a ateyw i a be rvdt b f c v yt t u o c s rg v c o f i es
Ke wo d y rs Ma k ts g n ain D n mi : sei g Daa mi i g K— a s r e e me tt y a c(u trn o l t nn me n
陷入局部极小值 的严重 问题 , 约了聚类效果。提 出基 于区间值数据 , 自适应欧 氏距 离作 为度 量 的动态聚类方 法, 制 以 将客 户的多维
属性和基 因算法结合提高类初始 化质量 , 自适应地调 整聚娄数, 并通过实验测试表现 出较好的性能。 关键词 市场细 分 动态聚类 数据挖掘 K均值
s a e t e ag r h o me n sc nr n ig t ec a ln e o cu trn n t l a in n mb ra l a c l nmu , n u , ecu — c l , lo i m f h t K— a s o f t h l g sf m l s i gi i ai t u e swel sl a i m a d t s t l s i o n h e r e i z o o mi h h trn fe ti rsr td B o i g te mu ii n in lp o e y o l n i e ei ag r h , y a c c u tr g ag r h b s d Ol e i g efc s e ti e 、 y c mb n h h d me s a r p r fci tw t g n t " o i m A d n mi l se n lo i m a e i c o t e h c l t i t i tr a d t tk n d p ie E ci e n d s n e a a u e n sp e e td T l ag r h a mp o e t eq ai f l s r g ii aiai n ne v l aa a i g a a t u l a it c s me s r me ti r s n e . i lo i m c n i rv h u l y o u ti n t z t v d a e t t c en i 一符号 数据分析 ( y bl 提 Sm oi c D t A a s ) 简称 S A。它是近代统 计数据 分析 中最具 开创 aa nl i , ys D 性的理论方 向 , 将传统 的数据概念做 了本质性 的扩张 , 其研究 的 数据 表单 元不再是一般意义 下的定量 或定性数 值 , 它可 以是概
基于符号表示的时间序列分类综述
基于符号表示的时间序列分类综述武天鸿; 翁小清; 单中南【期刊名称】《《河北省科学院学报》》【年(卷),期】2019(036)003【总页数】10页(P11-20)【关键词】时间序列; 符号表示方法; 符号序列分类【作者】武天鸿; 翁小清; 单中南【作者单位】河北经贸大学信息技术学院河北石家庄 050061【正文语种】中文【中图分类】TP391.40 引言时间序列通常是指按时间顺序排列而成的一组数据,任何有序的实值型数据都可以当作时间序列处理[1]。
时间序列分类是数据挖掘的基本任务之一,是指根据训练集中对象所构建的分类模型判别被分类对象所属的类别[2]。
时间序列分类已经被广泛应用于模式识别、医疗诊断、工业控制、异常检测等生活的各个方面,时间序列数据维度高,分类难度大。
时间序列符号表示是指在保持和反映时间序列数据基本特征的前提下,将高维多噪声的连续实值型数据表示成低维直观的符号序列数据。
时间序列符号表示方法不仅具有简单、高效和离散化的优点,还可以有效消除噪声,使时间序列具有较强的可读性,允许研究人员利用来自文本处理、信息检索和生物信息学等领域的算法。
基于符号表示的时间序列分类方法具有更高的分类性能和效率。
本文从基于趋势、基于聚类或进化计算、基于文本、基于频率域等方面,对符号时间序列分类的研究进行了比较归类,并简要介绍了其在实际中的应用。
1 基于趋势的符号表示方法Lin等 [3~4]提出的符号聚合近似表示方法SAX (Symbolic Aggregate approXimation)是一种经典的时间序列符号表示方法。
SAX首先利用PAA方法将规范化后的时间序列(均值为0,标准差为1)分段求均值,且假设PAA值服从高斯分布,根据高斯曲线下的分段点将PAA值离散映射到相应符号空间。
SAX方法虽然简单高效,能够较好地体现时间序列的整体趋势,但是仅用分段的均值并不能很好的描述时间序列的局部特征,无法区分具有相同均值不同趋势的时间序列,完全不同的时间序列可能会得到相似的符号表示,且该方法只适于服从高斯分布的时序数据。
21广义符号检验和有关的置信区间——03
H 0 :M e M 0 H 1 :M e M 0 H 0 :M e M 0 H 1 :M e M 0
P K s , 其 中 K ~ b n ,0 .5 P K s , 其 中 K ~ b n ,0 .5
双边符号检验问题
H 0:M e M 0 H 1:M e M 0
NA 534.1377 sample estimates: mean of x - y 320
接受H0, 认为两种轮胎无显著性差异.
• 在上面的逻辑推理中,假设分布结构的正态性是否合 理,是 t-检验 运用是否得当的关键
• 显然 3:13 支持的是3700元/平米 不能作为正态分布对 称中心的观点
k 3 , p 值 2 P K k n 1 6 ,p 0 .5 2 i k 0 1 i 6 1 2 1 6 0 .0 2 1 3
在显著性水平0.05下,拒绝原假设 H0. 认为这些数据与中心位置37存在显著差异.
( 1) .在 显 著 性 水 平 为 下 的 检 验 的 拒 绝 域 为
2PKk
其 中k是 满 足 上 式 最 大 的k.
(2).也可以通过计算统计量K的p值作决策: 如果统计量K的值是k,
p值=2PKk
当p时,拒绝零假设
我们可以对例1(楼盘价数据问题)用符号检验法求解 解二: 用符号检验法
以例题1(楼盘价格问题)为例理解“符号检验的基本原理”
如果假设问题的结构是一般连续分布,将 37(百元)理解为总体 的中位数,则假设检验问题表示为:
H 0 :M e 3 7 H 1 :M e 3 7
其中 Me 是总体的中位数。
如果零假设为真,即37是总体的中位数,则数据中应该差 不多各有一半在37的两侧 计算每一个数据与37的差,用 S 表示位于37右边的点的个 数,S 表示位于37左边的点的个数,数据中没有等于37的数, S + S =16
基于区间数偏好信息的专家群体共识性研究
第2 O卷 第 1期
2 01 1年 2 月
运 筹 与
管 理
VO1 20 . O.1 . N Feb.20ll
OPERATI ONS RES EARCH AND MANAGEM ENT S ENCE CI
基 于 区 间数 偏 好 信 息 的专 家 体共 识性 群 研究
St dy on Con it c fG p Ex u ssen y o r ou per t Bas d on I t r al s e nev
Nu berPr f r nc n or a i m e e e e If m t on
CHEN a , FAN hip n Xi Z .ig
0 引 言
近 年来 , 有关 群 决策 理论 与方 的研究一 直受 到 了 国内外 许 多学 者 的重 视 . 决 策分 析 中 , 策 者 给 在 决 出的方 案关 于指 标 的决 策矩 阵 和 两两 方 案 比较 的 判 断 矩 阵 是两 种 常 见 的偏 好 信 息 形 式 , 中关 于 A P 其 H
a 1il lc le a l s gv n t l sr t h s ft e p p s d i hs p p r 1 e’ a x mp e i ie o i u ta e t e u e o h l o e l t i a e . 1l i r l o l Ke or y w ds: l u e ii n ma i go p d cso kng;nt a u b r a s s me tmatc s: o sse c i e’ ln m e ; s e s n tie c n itn y r v ’
基于RippleNet_的推荐算法研究综述
科技与创新┃Science and Technology&Innovation ·98·2023年第24期文章编号:2095-6835(2023)24-0098-03基于RippleNet的推荐算法研究综述韩耀宇(太原理工大学,山西太原030600)摘要:研究人员提出了推荐系统来降低信息过载的副作用,使得人们快速寻找高价值的有用信息。
针对RippleNet算法的改进方法进行阐述,对它们的性能进行了对比,并对如何改进这类推荐算法进行了总结。
关键词:推荐算法;偏好;RippleNet;知识图谱中图分类号:TP391.1文献标志码:A DOI:10.15913/ki.kjycx.2023.24.028传统的协同过滤算法得到了广泛的应用,其清晰直观,又具有很强的解释性,但是存在数据稀疏和冷启动的问题,模型的泛化能力也有待提高,于是与知识图谱的结合成为解决此问题的办法。
目前,涌现出许多成功的知识图谱模型,如NELL1、DBpedia、Google Knowledge Graph等,通过应用这些模型完成了许多单词处理和文本分类的工作。
在RippleNet算法出现以前,知识图谱的应用可以分为2种类型,即基于嵌入的方法和基于路径的方法。
首先是嵌入方面,人们发现项目与项目的关系不是简单的通过内积便能表示;其次是路径方面,路径需要人们亲历亲为设计,这显然并不符合当下的机器学习思想。
为了解决上述问题,RippleNet算法被提出。
它将偏好传播类比成实际中雨滴落在水面上产生的波纹,多个“波纹”同时扩散形成的波纹便是用户的喜爱实体集合。
因此,知识图谱的应用出现了第三种类型,即基于传播的方法。
本文对于现有的基于RippleNet 算法模型的改进进行了总结,并通过阅读相关文献,讨论了改进的3个方面。
1理论分析本文主要讨论了融合知识图谱的RippleNet推荐模型优化的相关知识[1]。
1.1知识图谱知识图谱是揭示实体之间关系的网络。
区间型数据的模糊C均值聚类算法
中图分类号:T31 P0・ 6
区间型 数 据 的模 糊 C均 值 聚 类 算 法
张伟斌 ,刘文江
( 安交通 大学电子与信息工程学院 ,西安 7 0 4 ) 西 10 9
摘
要 :提取 区间型数据 的特征值 ,给 出适 用于 区间型数据模糊 聚类的 F M g' C  ̄
( C 。该 算法适 用于不 同特征样 本数据 的模糊 聚类 I M) F
关键词 :模糊 聚类;区间型数据 ;距离
Fu z - e n u t rngAl o ih o n e v l t z yc M a sCl se i g rt m f rI tr a Da a
Z NG i i, I e -a g HA We- n L U W nj n b i
距离
d=l y J + i ( -- x l 2 1 +y x - )
( 4 )
在 定义 3中,点 的坐标唯一决定了点的性质 。但对于 区 间值来说 ,具有 2个特征值 :区间中点和区间宽度 。定义 3 仅使 用了区间值 的端点信息 ,而区间值 的 2个基本特征值 都
运算 , 并可对 聚类结果进行优化 。聚类效果 的仿真 比较表 明, F M 聚类 的平均失真度 比基于 欧氏距离的 F M 聚类算法低 6 1 IC C . %。由于距 8
离定义 的合理性 ,IC 可 以根据 区间型数据 的不 同特点 调整特征值 的聚类权 重 ,并推广至多维类型数据 的模糊聚类 。 FM
[ yw r s u z lse n ;ne a aads ne Ke o d ]fzycutr g it l t; ia c i v r d t
模糊 聚类 是常 用的模式分类方法 ,其 中,模糊 C均值聚 类算法(C 应用广泛 ,具 有较 深厚 的泛 函基础 。但对于 实 F M) 际工作 中常见 的区间类型数据 ,F M 无法直 接进行 处理 。针 C
结合用户共同意图及社交关系的群组推荐方法
结合用户共同意图及社交关系的群组推荐方法钱忠胜;张丁;李端明;王亚惠;姚昌森;俞情媛【期刊名称】《计算机科学与探索》【年(卷),期】2024(18)5【摘要】已有的群组推荐模型,在求解用户表示时大多比较单调且仅简单利用用户间的社交关系,使得用户表示不够准确,并且大都未考虑用户共同意图以及社交关系对群组偏好的影响,导致推荐的项目很难符合用户的需求。
基于此,提出一种结合用户共同意图及社交关系的群组推荐模型(GR-UCISI)。
首先构造用户-项目交互历史与社交关系相结合的用户意图分离模型,利用图神经网络采集每个用户的用户-项目交互以及社交关系信息,求解用户意图和项目表示;其次利用网络游走算法与K-means聚类算法将用户分组,结合用户群组、用户意图以及群组意图聚合过程获取群组共同意图表示;最后根据群组共同意图表示与项目表示得出群组推荐项目列表。
该方法充分考虑到用户的个性以及群组成员间的共性对群组偏好的影响,同时结合社交关系缓解数据稀疏性问题,提升模型性能。
实验结果表明,与9个对比模型中推荐效果最好的模型相比,在Gowalla数据集上,GR-UCISI的Precision和NDCG指标值分别提高3.01%和5.26%;在Yelp-2018数据集上,GR-UCISI的Precision和NDCG指标值分别提高2.96%和1.12%。
【总页数】15页(P1368-1382)【作者】钱忠胜;张丁;李端明;王亚惠;姚昌森;俞情媛【作者单位】江西财经大学信息管理学院【正文语种】中文【中图分类】TP399【相关文献】1.融合标签关联关系与用户社交关系的微博推荐方法2.一种社交网络群组间信息推荐的有效方法3.基于社交关系和用户偏好的多样性图推荐方法4.融合用户历史行为与社交关系的个性化社交事件推荐方法5.融合用户偏好和信任关系的混合群组餐厅推荐因版权原因,仅展示原文概要,查看原文内容请购买。
基于概率语言和区间数的多属性决策TOPSIS 方法及其应用
TOPSIS method for multi ̄attribute decision making based on probabilistic
language and interval numbers and its application
PENG Yi
( School of MathematicsꎬSouthwest Minzu UniversityꎬChengdu 610041ꎬChina)
mation has become the key of decision ̄making On the basis of constructing the order relation and distance measure of probabi ̄
listic language term set and interval numberꎬthe TOPSIS is improved to adapt to the multi ̄attribute decision ̄making process
基于概率语言和区间数的多属性决策
TOPSIS 方法及其应用
彭 怡
( 西南民族大学数学学院 ꎬ四川 成都 610041)
摘 要:多属性决策过程中为了解决候选方案的评价信息表现为概率语言术语集和区间数情形的问题ꎬ相应模糊信息
的处理过程成为决策关键. 在构建概率语言术语集和区间数的序关系和距离测度基础上ꎬ改进 TOPSIS 多属性决策方
(14)
根据各方案贴近度大小可排序选优.
.
和负理想点
各方案与正负理想点的加权距离 d i+ ꎬd i- ꎬ再计算与正
.
(11)
(12)
ꎬ5 个决策属性都是
为 效 益 型 区 属 性ꎬ 语 言 值 为
一种区间型数据的自适应模糊c均值聚类算法
2 Ce tro f r t nT c n l g , n g a o y e h i, n g a , a g o g 5 3 0 , i a . n e f n o ma i e h o o y Do g u n P lt c n c Do g u n Gu n d n 2 8 8 Ch n I o
1 . 职业 技术 学 院 计算 机工 程 系 , 东莞 广东 东 莞 53 0 2 8 8
2 . 东莞职业技术学院 信息技术 中心 , 广东 东莞 53 0 28 8
1De a t e to mpu e . p rm n fCo t rEng n e i , ng u n Po y e h c, ng ua , a g ng 5 38 8, i e rng Do g a l tc ni Do g n Gu n do 2 0 Chi na
1 引言
模糊聚类是一种常用的模式分类方法 , 而模糊 C 均 值 聚类 (C 算法 是应 用最 广泛 的 一种 。该 方法 F M) 由R si 最早提出 , 由D n 将硬 C up i n 并 un 均值聚类算法 推广到模糊情形 。随后 , edk D n 的方法进行 B ze 将 un 了一般化 , 建立了模糊 C 均值聚类理论n 。但是 , 在实 际应用中, 由于客观事物的复杂性和随机性 、 糊性 模 等不确定性影响 , 往往很难 用一个精确 的数值对聚 类对象的属性进行评价和描述 。为此 , 常用 区间数 的形式描述属性信息 。因此 , 针对 区间型数据 的聚
C m u r n i ei d p l a os 算机 工程 与应 用 o p t gn r ga A pi tn 计 eE e C 均值聚 类算法
谢 志伟 王志 明 ,
区间型数据的可能性聚类算法
p r o p o s e d a l g o i r t h m i s mu c h b e t t e r t h a n t h e I F C M a l g o r i t h m ,w h i c h c a n e f f e c t i v e l y r e d u c e t h e i n l f u e n c e o f n o i s e o n t h e c l u s t e r i n g r e s u l t . Ke y wo r d s I n t e r v a l d a t a F u z z y e me a n s c l u s t e i r n g P o s s i b i l i s i t i c c l u s t e r i n g Av e r a g e CR i n d e x
而提出的。在实际应用 中, 必 然面临与标准的 F C M 算法类似 的
声对聚 类效果 的影响。 关 键词
中 图分 类 号
区间型数据 模 糊 e 均值 聚类 可能性聚类 平 均 C R指标
T P 1 8 1 文 献 标 识码 A D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 0 — 3 8 6 x . 2 0 1 3 . 1 0 . 0 6 9
李 庆 贺一民 罗建禄 徐 磊
( 武 警 警 官 学 院 电 子 技 术 系 四 川 成 都 6 1 0 2 1 3 )
摘
要
针对 区间型数据 的模糊 e均值聚类 ( I F C M) 算 法在 实际应用 中的不足 , 将可 能性理论 引入 区间型数 据 的聚 类 问题 , 通过
放松样本隶属度 的约束条件和修正 I F C M 算法 的 目标 函数 , 提 出一种 区间型数据 的可能性聚类算法。通过 仿真模拟 实验和平 均 c R 指标分析 , 结果表 明: 在包含 噪声和孤立点等代表 性比较差的样本数据 的聚类 问题 中, 该算法 明显优 于 I F C M 算法 , 能有效地 降低 噪
区间数的排序方法研究
区间数的排序方法研究
区间数排序是一种非常重要的数据结构排序方法,它能够实现对极大或极小数值域中的数据进行排序。
它在多种领域有着广泛的应用,如特征抽取、图像处理、信号处理等,有很多排序算法能够提供有效的处理效果。
首先,要认识到区间数的特点。
区间数是指一组数,其元素值具有固定的上下边界,在这个边界内的所有值都可以被认为是有效的,超出边界的值则被认为是无效的。
这样的数据结构具有特定的保护性,能够有效防止被恶意修改和损坏。
其次,要介绍关于区间数排序算法的研究进展。
区间数排序算法基于线性时间复杂度进行数据处理,可以有效地提高排序效率。
研究发现,基于排序算法的排序方法可以有效地满足对大数据量的排序要求,更重要的是,它能够很好地解决数据安全性问题。
再次,要介绍区间数排序算法的应用场景。
区间数排序算法可以用于混合模式数据的排序,例如特征抽取、图像处理等。
此外,它还可以用于实时通信等场景,实现对实时数据流的排序,例如实时电子商务等。
最后,要介绍一些基于区间数排序算法的实现方法。
常用的排序算法有快速排序、堆排序、归并排序等,它们在不同的应用场景中表现出了不同的性能。
针对区间数排序,可以考虑使用桶排序、划分排序等。
通过以上介绍,可以看出,区间数排序算法在多种领域有着广泛
的应用,它能够实现高效且可靠的排序处理,保证数据的安全性,使用区间排序,可以大大提高数据处理的效率,满足多种应用的需求。
数学中的代数方程求根算法研究
数学中的代数方程求根算法研究在数学中,代数方程是一种常见的数学问题,求解代数方程的根是解决这类问题的关键。
代数方程求根算法的研究,旨在寻找一种高效准确的方法来解决各种类型的代数方程,从而拓展数学的应用领域。
本文将探讨几种经典的代数方程求根算法,并分析它们的优缺点。
一、牛顿法是代数方程求根中最为常用的算法之一。
它基于函数的局部线性近似,通过迭代逼近来求得方程的根。
具体的步骤是:1. 选择一个初始近似解。
2. 利用初始解求出函数在该点的导数。
3. 根据函数和导数的关系,计算出下一个近似解。
4. 不断迭代,直到近似解的变化很小或满足预设的精度要求。
牛顿法的优点是收敛速度快,但也有一些问题需要注意。
首先,初始近似解的选择对结果有较大影响,可能会导致陷入局部最小值。
其次,如果函数在某些地方的导数为零,牛顿法会失效。
因此,为了保证算法的可靠性,需要对函数进行充分的了解和分析。
二、二分法是另一种常见的代数方程求根算法。
它利用函数值的符号变化来缩小根的范围,直到满足精度要求。
具体的步骤是:1. 选择一个区间,在该区间的两个端点的函数值异号。
2. 将区间平分,得到中点,并计算中点的函数值。
3. 根据函数值的符号变化,确定新的区间。
4. 不断重复步骤2和步骤3,直到满足精度要求。
二分法的优点是简单易懂,收敛性可证明且较为稳定。
然而,它的收敛速度较慢,特别是当根的数量较多或者根的范围较大时,需要较多的迭代次数。
三、拉格朗日插值法也可以应用于代数方程求根中。
该方法基于多项式插值的思想,通过构造一个插值多项式来逼近函数,然后求取多项式的根。
具体的步骤是:1. 根据给定的数据点,构造一个插值多项式。
2. 求取插值多项式的根。
拉格朗日插值法的优点是对函数进行拟合较好,近似精度较高。
但它也存在一些问题,如插值多项式的次数过高会引发龙格现象,造成插值误差较大。
另外,构造插值多项式需要已知的数据点,如果数据点不准确或者缺失,会导致结果的不准确性。
基于lda符号表示的时间序列分类算法
1.1 相关概念
本节简要介绍正交局部保持映射及信息增益的基 本理论,并对基于 LDA的时间序列符号表示方法进行 详细介绍。
fuad等16对距离查找表进行改进提出umd该方法以落在每个分段区间内均值的最大值和最小值作为该字母表示的边界以边界距离作为字母间的距离构建查找表在下界距离紧性和分类性能方面都好于saxsharabiani等17先使用sax将时间序列转化为符号序列在符号序列上使用bayesian规则和概率链规则建立模型bcm然后用bcm对待测符号序列进行分类
收稿日期:2019-04-16。武天鸿,硕士生,主研领域:数据挖掘,信息检索。翁小清,教授。单中南,硕士生。
260
计算机应用与软件
2020年
先验知识。 本文提出一种基于线性判别分析(LinearDiscrimi
nantAnalysis,LDA)[5]符 号 表 示 的 时 间 序 列 分 类 方 法 LDA_SC(LDA SymbolicClassification),该 方 法 清 晰 地 考虑了样本类别信息对符号化分类的影响,且具有自 适应的符号区间分段点。LDA_SC使用线性判别分析 将原始高维的时间序列数据映射到低维空间,投影后 样本在低维子维后的数据上寻找字符投影区 间的最佳划分点,减小信息损失;定义一种新的距离度 量方法,根据最近邻法对低维空间符号表示的时间序 列进行分类。
第 37卷第 2期 2020年 2月
计算机应用与软件 ComputerApplicationsandSoftware
Vol37 No.2 Feb.2020
基于 LDA符号表示的时间序列分类算法
武天鸿 翁小清 单中南
(河北经贸大学信息技术学院 河北 石家庄 050061)
基于区间的时间序列分类算法的研究
基于区间的时间序列分类算法的研究时间序列分类是一种重要的数据挖掘和机器学习任务,其在许多实际应用中都得到了广泛的应用,如金融、医疗、环境监测等领域。
时间序列分类的目标是将一组时间序列分为不同的类别,这些类别可能代表不同的事件、状态或趋势。
目前时间序列分类算法的研究主要集中在基于单个时间序列的方法上,例如基于时间序列的特征提取、基于模型的分类、基于模板匹配的分类等等。
然而,在一些应用场景下,单个时间序列可能难以完整地反映出该事件的全部信息。
例如在医疗诊断中,一个人的健康状况可能需要考虑多个生理指标的变化情况。
在环境监测中,不同传感器采集到的数据可能需要叠加才能更好地反映出自然界的变化情况。
在这些场景中,需要对多个时间序列进行联合分类。
本文提出了一种基于区间的时间序列分类算法,即将每个时间序列划分为若干个区间,然后对每个区间进行特征提取和分类。
具体地,本算法主要包括以下步骤:1. 区间划分:将每个时间序列划分为若干个固定长度的区间。
2. 特征提取:对于每个区间,提取相应的特征向量。
常用的特征提取方法包括傅里叶变换、小波变换、自回归模型等。
3. 组合特征向量:将每个区间的特征向量组合成为一个整体的特征向量。
有多种方法可以进行组合,例如平均值、加权平均值、直方图匹配等。
4. 分类器训练和分类:使用已有的分类算法对特征向量进行分类。
常用的分类算法有支持向量机、K近邻、神经网络等。
该算法的优点在于:1. 能够较好地处理多个时间序列的分类问题。
2. 区间划分可以减小时间序列的长度,提高特征提取和分类的效率。
3. 不同区间的特征向量可以被组合成为一个整体的特征向量,这有助于更好地反映整个时间序列的信息。
1. 区间划分需要选择合适的区间长度,否则可能会导致信息损失或过多的特征向量。
2. 特征提取和分类算法的选择也很重要,不同的方法可能会对结果产生较大的影响。
综上所述,基于区间的时间序列分类算法是一种有效的方法,可以用于处理多个时间序列的分类问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0
引言
推荐系统是通过了解用户的喜好并向用户推荐符合其兴
进行推荐, 然后将单个的推荐结果转换为对整个群组的推荐结 果, 最大限度地提高了群组个体的满意度, 但耗时较多且效率 6]通过将群组中喜好相同的用户合为一个用户 较低。文献[ 对评分矩阵降维, 同时将个体推荐结果整合为群组推荐结果, 7]将群组中个体的合作性因素和 使推荐更精确有效。 文献[ 社会信任因素运用到群组推荐算法中, 并证明当群组中合作性 和信任度较高时推荐结果较为精确 。 上述研究均基于点数据描述群体用户模型, 进而采用传统 的协同过滤等算法产生推荐, 因而不可避免地存在着数据信息 丢失、 很难统筹考虑所有个体用户的需求等问题 。符号数据分 析( SDA ) 通过数据打包等技术, 在不丢失信息的前提下, 从全 局上把握数据特征
Group recommendation algorithm based on symbolic data analysis
GUO Junpeng,NING Jing,SHI Zhiqi
( Dept. of Manaቤተ መጻሕፍቲ ባይዱement & Economics,Tianjin University,Tianjin 300072 ,China)
[8 , 9 ]
趣爱好对象的一种信息技术 。作为一种重要的信息过滤技术, 推荐系统已经成为各大网站不可或缺的个性化信息服务形式 。 相对于个体推荐, 群组推荐的对象是一个由多个不同成员组成 他们拥有某些共同的兴趣偏好或需求, 如商业组织、 爱 的群体, 好者协会等。如何为这些群体用户提供有效的个性化信息服 务, 带来了对群体推荐系统的极大需求 。 近年来陆续有学者对群体推荐系统展开研究 。 国内学者 1] 文献[ 应用离子群算法构 对群组推荐算法方面的研究较少, 建领域项目分类模型, 在此基础上建立群组用户的兴趣模型, 然后采用最近邻方法完成推荐 。 国外研究群组推荐算法大多 然后应用个体推荐的算法对群 通过某种方法把群组视为个体, 2]的 TV4M 系统通过计算各群组与目标 组进行推荐。文献[ 群组的距离来确定相似群组, 其中群组对推荐项目的矩阵用特 3, 4]在将个体特征表整合成群组特征 征子集来表示。 文献[ 表的过程中引入遗传算法, 在考虑群组中个体间存在相互作用 5]首先对群组中的个体 的同时提高了算法的精确度 。 文献[
Abstract: The group user profile in traditional group recommendation is described by singlevalued data. This results in the this loss of data information and being difficult to meet the demands of all the memebers of the group. Aimed at this problem, paper took the method of symbolic data analysis aggregating individual ratings of the group into interval symbolic data into account. It proposed a novel distance considering the descriptive statistics of individuals within the intervals. Based on the Kit obtained the similar groups. Then it predicted the ratings of the target means clustering on the interval data of group ratings, group by using the neighbors’ratings. It conducted a simulation study to evaluate the new method. The result shows that the new method based on interval symbolic data analysis is more accurate and efficient than the traditional itembased collaborative filtering algorithms for group recommendation. Key words: group recommendation; symbolic data analysis( SDA) ; cluster analysis
“打包 ” , 求等问题。针对该问题, 对个体评分数据按照符号数据分析的思想进行 将群组成员的评分信息汇总为 区间型符号数据。在 Hausdorff 距离基础上, 采用区间内部点数据的描述统计量, 提出了一种全新的区间数距离 度量方法, 并利用这种距离对区间型符号数据描述的群组实施 K均值聚类, 由此确定相似群组, 最后通过最近 邻的评分预测目标群组的评分。将这种全新的群组推荐算法与传统方法进行推荐精度与效率的对比实验, 结果 在各种实验条件下, 基于区间型符号数据的群组推荐算法均优于传统点数据的群组推荐算法。 表明, 关键词: 群组推荐; 符号数据分析; 聚类分析 中图分类号: TP391 ; TP301. 6 文献标志码: A 文章编号: 1001-3695 ( 2013 ) 01-0067-05 doi: 10. 3969 / j. issn. 1001-3695. 2013. 01. 016
第 30 卷第 1 期 2013 年 1 月
计 算 机 应 用 研 究 Application Research of Computers
Vol. 30 No. 1 Jan. 2013
基于区间型符号数据的群组推荐算法研究
郭均鹏,宁
摘
*
静,史志奇
( 天津大学 管理与经济学部,天津 300072 ) 要: 传统群组推荐算法基于点数据描述群组用户模型, 存在着信息缺失、 很难统筹考虑所有个体用户的需