二度人脉聚类算法设计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二度人脉聚类算法设计
张保龙;黄海燕
【摘要】针对整个复杂CLASS全属性聚类的聚类算法在聚类算法中有较为复杂的实现要求，试图对社交软件中较为复杂的CLASS⁃USER进行整体聚类计算，难度
在于将其复杂属性体系整合成高维度变量进行降维处理。

通过多次连续的数据整理，特别使用了二维模糊矩阵与排序算法实现快速降维，将高达13维的高维度变量进行降维处理，最终形成一维变量，最后使用常见的K⁃means聚类算法对该一维变量进行聚类分析。

%Since the whole complex CLASS full⁃attribute clustering algorithm in clustering algorithms has complicated imple⁃mentation requirement,the overall clustering computation for the more complex CLASS⁃USER in social software is tried to carry out,which is difficult to integrate the complex attribute system into the high dimensional variables for dimension reduction pro⁃cessing. The ranking algorithm of
two⁃dimensional fuzzy matrix is particularly used to fast reduce the dimension by means of re⁃peatedly continuous data processing. The dimension reduction processing for the high dimensional variables with 13 dimensions is conducted to form the one⁃dimensional variable. And then the cluster analysis for the one⁃dimensional variable is conducted with common K⁃means clustering algorithm.
【期刊名称】《现代电子技术》
【年(卷),期】2016(039)009
【总页数】3页(P126-127,132)
【关键词】全属性聚类;社交软件;聚类算法;人脉分析
【作者】张保龙;黄海燕
【作者单位】郑州科技学院，河南郑州 450064;郑州科技学院，河南郑州450064
【正文语种】中文
【中图分类】TN911-34
现阶段，人脉分析功能已经成为当前社交软件中的必备功能［1］。

为社交软件设计更加科学的二度人脉推荐算法，已经成为当前人脉大数据分析的重要任务。

一定程度上，人脉分析智能化程度是评价社交软件智能化程度的重要指标［2］。

本文软件是用于在线社区系统的内置交互软件。

本文的设计任务是在当前社区系统USERMNG下设计二度人脉聚类算法，以分析用户非主动好友关系中与其关系更
密切的用户。

1.1 分析本文系统当前的系统模块
虽然系统目前基于手机APP运行，但其背景数据库来自1997年建立的BBS系统，所以系统与传统的交互软件不同，系统由论坛部分、留言板部分、个人博客部分三个交互板块构成交流框架。

其中论坛部分所有内容都可以被所有用户浏览且可以由所有用户回复，留言板部分仅可由留言相关的双方浏览和回复，个人博客部分仅可由发帖人指定的用户浏览和回复［3］。

1.2 分析挖掘数据来源
本文一度人脉来源分析用户的好友列表，分析该好友绑定的手机号码是否存在于用户的手机电话本中，从而对好友进行一次聚类。

本文分析好友浏览和回复其帖子的数量，同时分析用户浏览和回复好友帖子的数量。

分析每天的访问量走势。

可挖掘数据来源如图1所示。

2.1 习惯相似性排序
因为本文系统已经限定每个用户最多拥有500个好友，所以，本文算法的CPU压力并不大［4］，人脉树结构较为单一，所以，本文并不采用神经网络算法［5］，而是采用模糊矩阵算法对用户的二度好友进行归类和推荐。

设计三个变量限定每日用户使用三个功能的频率：USER.BLOG.RATE判断用户使
用博客功能的频率；USER.BBS.RATE判断用户使用论坛功能的频率；USER. MSGBD.RATE判断用户使用留言板功能的频率。

设定三个值的模糊结果，以对三个值进行评价：
以USER.BLOG.RATE为例，每日的浏览量为USER. BLOG.RATE（DATE），评
价周期为180天（半年）。

那么DATE∈［1，180］，平均浏览量判断方式为：
M=AVR（USER.BLOG.RATE（DATE∈［1，180］））
浏览量变化判断方式为：
N=Σ（USER.BLOG.RATE（DATE∈［1，180］）-USER. BLOG.RATE（DATE-
1∈［1，180］-1））
对M和N分别进行MINMAX［0，1］整理，使其形成［0，1］区间上的镜像。

评价结果USER.BLOG.RATE.CONT的模糊方阵，如表1所示。

使用多维虚数算法，使用三个数据构建解析坐标系［6］，
USER.BLOG.RATE.CONT，USER.BBS.RATE.CONT和
US⁃ER.MSGBD.RATE.CONT，给用户的使用习惯属性进行多维量化。

USER（USERID）=SUM［SQR（USER（1）.BLOG. RATE.CONT），SQR （USER（1）.BBS.RATE.CONT），SQR （USER（1）.MSGBD.RATE.CONT）］-SUM［SQR（USER（0）. BLOG.RATE.CONT），SQR（USER
（0）.BBS.RATE.CONT），SQR（USER（0）.MSGBD.RATE.CONT）］
根据用户不超过500个好友的不同习惯属性的矢量差最小原则，对不超过500个
好友进行排序，同时对不超过500个好友的好友根据矢量差最小原则进行排序［7］。

同样使用MINMAX［0，1］算法，给出每个好友的位置属性值：MINMAXUSER（USERID）
此时得到的好友亲近关系标定的是相同习惯的好友［8］，并不能作为二度人脉的最终结果。

2.2 互动修正值
针对每个用户，计算LOGIN和REPIN之和（SUM⁃IN），计算LOGOUT和REPOUT之和（SUNOUT），计算LOGIN和LOGOUT之差（DIFFLOG），计
算REPIN和RE⁃POUT之差（DIFFREP）。

互动修正值ΔUSER（USERID）为：
ΔUSER（USERID）=（SUMIN+SUNOUT）-（DIFFLOG+ DIFFREP）
对ΔUSER（USERID）进行MINMAX［0，1］计算得到MINMAXΔUSER （USERID）
设置互动系数的权重修正值为ζ，那么最终结果B为：
B=MINMAXUSER（USERID）-ζMINMAXΔUSER（USE⁃RID）
根据B值对所有二度人脉进行标定，同时根据B进行K⁃means聚类，将与用户同组的二度人脉列出。

因为B值是一维值，所以其聚类算法占用CPU和RAM较小。

如图2所示，本文算法实际由9个常见算法模块按照顺序逻辑结构组成，首先根
据频率计算算法计算三个不同功能的使用频率［9］，使用这三个频率得出用户的习惯原始矩阵M；接下来根据原始矩阵计算用户使用各个功能的变化趋势N；通
过M⁃N形成的模糊矩阵得到三个功能对应的［0，1］区间镜像，根据三个镜像值得到用户的总体三轴虚数投影［10］。

进一步根据用户之间的相互访问情况得到
修正值，将该修正值进行MINMAX整理到［0，1］镜像中，将修正值和原始值
合并得到一维标定变量B值，将用户所有行为投影到一维数轴上，对该B值基于一维重心K⁃means算法进行聚类分析，得到与用户相似的二度人脉用户。

本文算法是常用算法的顺序组合，通过该算法，可以使用较小的CPU和RAM资源实现复杂环境下的CLASS聚类［11］。

因为本文使用的CLASS⁃USER是一个13维度的高维度变量，本文使用8步计算将其降为［0，1］区间上的一维变量B 值，给最后针对该B值的K⁃means聚类提供了前置条件。

【相关文献】
［1］刘婉.K⁃means在PHP环境中的应用实践研究［J］.电脑爱好者，2014（3）：124⁃126. ［2］张庆东.探索网页脚本中实现K⁃means聚类的有效途径［J］.软件学报，2013（2）：66⁃68. ［3］胡夏玲.老旧社区网站实现手机APP端转化方法研究［J］.系统仿真学报，2015（1）：
34⁃36.
［4］胡正峰.手机APP服务器端数据挖掘方法研究［J］.模式识别与人工智能，2014（6）：
91⁃93.
［5］张启琪.二度人脉计算方法研究［J］.软件学报，2014（5）：98⁃99.
［6］李旭东.神经网络在二度人脉分析中的应用途径研究［J］.电脑爱好者，2012（1）：45⁃46. ［7］赵红霞.分析K⁃means与神经网络在二度人脉分析中的软件效率差异［J］.模式识别与人工智能，2014（6）：77⁃78.
［8］张玲.常见二度人脉分析算法的软件效率研究［J］.系统仿真学报，2014（4）：36⁃37. ［9］刘勇.二度人脉分析算法占用CPU资源的解决方案研究［J］.模式识别与人工智能，2014（3）：56⁃57.
［10］万红.较大用户群的用户数据资源挖掘方式研究［J］.电脑爱好者，2013（6）：98⁃99. ［11］张霞.分析有限CPU资源模式下的非神经网络算法在大数据挖掘中的应用［J］.软件学报，2015（3）：128⁃129.。