微博用户特征分析和核心用户挖掘

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

是关
联规则挖掘的经典算法，该算法的主要思想是采用逐层迭代的方法通过低维频繁项集得到高维频繁项集。 Apriori 算法进行关联规则挖掘的基本步骤是： ① 找到频繁 1 项集 L1 。②利用上一次的结果找到频繁 2 项集 L2 。③循环进行步骤②，直到不能找到频繁 K 项集为止。④根据找到的频繁集产生期望的规则。 1. 2. 4 社区划分微博是基于一定的社会网络而搭建起来的新兴应用平台。微博用户及其之间的关系本质上构成了一个社会网络。由于用户各自有着不同的兴趣爱好、教育背景等特点，并且用户与用户之间的关联程度也不相同，微博中便形成了许多社区网络。它的盈利点在于营销，而真正在营销中起重要作用的往往是各个社区网络中的核心用户。营销活动如果得到用户的肯定，极有可能得到迅速传递，这正是微博的强大之处，所以有必要发现社 s 算法进区网络中的核心用户。利用 Girvan and Newman ’ 行社区挖掘
［4 ］
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
1
1. 1
研究设计
样本来源利用网络爬虫通过站点开放的 API 可直接获取到站点
服务器上的数据。通过网络爬虫从网易微博上获取到微博用户的一手资料，包括用户的基本信息，如昵称、性别、地址、描述、被关注数、关注数以及微文数等属性，还有用户的关系信息，如用户的关系模式以及关系端等，并以这些数据作为用户特征分析以及核心用户挖掘的基础。 1. 2 1. 2. 1 研究方法和思路名人挖掘微博的同质化问题突出，竞争重点并
*
客户分析研究” 的成果，项目编号： 70771067 。
·情报理论与实践·
— 121 —
信息系统
技术对微博的用户特征及核心用户进行分析，以揭示微博用户的特征及进行个性化营销的可行性。
ITA
1 ）当 | r | ≥0. 8 时，表示两个变量高度相关。 2 ）当 0. 5 ≤ | r | ＜ 0. 8 时，表示两个变量中度相关。 3 ）当 0. 3 ≤ | r | ＜ 0. 5 时，表示两个变量低度相关。 4 ）当 | r | ＜ 0. 3 时，表示两个变量微弱相关。 1. 2. 3 行为关联分析互联网是一个充满风险的场所，微博当然也不例外，微博用户的行动也往往受其影响，分析用户在微博中的行为规则，有利于微博企业帮助用户建立信心，以提高用户的忠诚度。利用 Apriori 算法，以发现普通用户潜在的行为规则，可推算出用户采取某项行动后会在置信度水平下做出何种反应。 Apr的 API 成功从站点上
爬取了 3 793 条用户信息数据，20 498 条关系数据，然后利用这些数据进行用户特征分析以及核心用户挖掘。
— 122 —
·第 34 卷 2011 年第 11 期·
ITA
2. 1 名人特征微博由于内容简单、交互性强，吸引了大量名人入住，他们依靠自身的影响力无需采取任何行动便能吸引大量粉丝关注，并通过了身份认证。在爬取到的 3 793 个用户中，有 84 个用户通过名人认证。利用 Clementine 软件的 C5. 0 决策树模型分析发现名人存在一个特征，即关注数小于 500 ，被关注数大于 10 000 ，而微文数却不及被关注数的千分之一。这说明微博中的名人通过自身的影响力便能吸引大量粉丝关注，而无需关注他人或发布微博，这。值得一提的是，微博中的名人种现象即为 “名人效应 ” 效应会大大影响一般用户特征的定量分析，所以在后续研究之前需要剔除名人样本。 2. 2 普通用户特征微文数和关注数是衡量用户在微博中活跃程度的重要因素，而被关注数是衡量用户在微博中影响力的重要因素，通常是用户最关心的因素。了解被关注数、微文数和关注数之间的关系，有助于微博企业了解用户的行为趋势，以确保用户的活跃程度。为了消除名人效应的影响，首先去除具有名人效应的用户以及被关注数、关注数和微文数其中任何一个为 0 的用户，然后利用 SPSS 软件进行以微文数和关注数作为控制变量的偏相关分析，具体结果如表 1 和表 2 所示。表1 以微文数为控制变量的被关注数与关注数相关系数
n
，将微博网络进行细分，再利用点度中心度
来衡量用户在社区中的重要程度，发现各个社区的核心用户，以揭示在微博中进行个性化营销的可行性。 Girvan and Newman’ s 算法［6］是社区挖掘的代表性算法之一，并得到成功应用。它是一个典型的分劣算法，基本思想是通过不断移出网络中介数最大的边而将整个社会网络划分为若干个社区
［7 ］
。而边的介数定义为网络中所有
节点对之间的最短路径中经过该边的数目。边的介数越大，说明经过它的最短路径数目越多，也就越可能连接着不同的社区，所以通常用介数来区别社区的内部各边和社 s 算法划分社区的区之间的连接边。 Girvan and Newman ’ 基本步骤是： ①计算网络中所有边的边介数。 ② 找到边介
特征，并对微博网络进行核心用户发掘。结果表明：微博中的名人具有关注数小，被关注数大的特征；用户趋向于通过关注他人和积极发布微博文章两种方法来提高被关注度；愿意公布性别或自我描述的用户，通常愿意公布地址和发布博文，而不愿意公布地址、性别或自我描述的用户，通常不愿意公布其他两项；对微博网络进行核心用户挖掘并进行个性化营销是可行的。关键词：微博客；用户分析；核心用户 Abstract： Based on the decisiontree analysis and correlation analysis of the microbloggers ’information and bloggers and relationship data as well as their association rules，this paper mines the characteristics of the microfinds the core microbloggers of the microblogging network. The results show that the celebrity microbloggers have the characteristics of less attention on others but more attention from others. The microbloggers tend to increase their degree of receiving attention by giving attention to others and being active in publishing microblogs. The microbloggers who are willing to publicize their gender or describe themselves are usually willing to publicize their address and publish their microblogs. The users who are unwilling to publicize their address，gender or describe themselves are generally unwilling to publicize the other two items. It’ s feasible to mine the core microbloggers of the microblogging network and engage in personalized marketing. Keywords： microblog； user analysis； core user 微博
［3 ］
，研究表明： Twitter 能即时提供信息内容，易被用户
12］均采用主观性随机抽样的办法来获所重视。文献［取数据，在数据获取方面具有局限性，而且仅对微博结构或其网络中心性进行了研究分析，而未进行诸如发掘内部规则等方面的研究，不能为微博企业的改进提供实质性的 3］采用数据收集系统，从 Twitter 上获取数帮助。文献［据，在数据获取方面具有合理性，但是仅进行了频数分析，而未进行更深入的研究，未能提供更多实质性的研究成果。所以利用微博用户的基本信息数据和关注数据，通过决策树分析、相关分析、关联规则、社区挖掘等数据挖掘
［1 ］
是一个基于用户关系的信息分享、传播以及
亮、宗利永的基于社会网络理论，结合微博用户之间的 “关注” 与 “被关注” 信息传播的网络拓扑关系，从点度中心性、中间中心性和接近中心性 3 个方面对微博社会网络的中心性进行分析
［1 ］
获取平台，用户可以通过网页， WAP 以及各种客户端组件登录到个人社区，以 140 字左右的文字更新信息，并实现即时分享。微博具有技术门槛低、内容简单、交互性强等特点，虽然这是一个全新的平台，但在我国却呈现出井喷式发展的特点，特别是新浪、腾讯、网易等大型互联网公司的门户型微博，它们的用户数在短时间内就破亿。由于技术门槛低，微博的同质化问题非常严重，所以在微博领域的竞争，最重要的是发掘信息的主动发布者，即核心用户以及发现用户行为规则，这不仅有利于微博企业了解用户的行为，而且能够为核心用户提供个性化服务，进行新产品推销、广告投递等商业活动。所以，对微博的用户信息及用户与用户之间的关系信息进行数据挖掘来了解用户的特征，发现核心用户是非常必要和有意义的。微博作为互联网领域新兴的应用形式，吸引了广泛的关注，但国内外对它的研究才刚刚起步，大多停留在定性研究上，而定量研究却非常少。国内的定量研究主要有平
本文为国家自然科学基金项目 “基于自组织数据挖掘的 CRM
。王晓光以 “新浪微博 ” 为研究
样本，研究微博的基本结构、信息传播一般模式，考察微博用户的基本行为特征和关系特征，分析微博影响力的相关变量，最终建立出影响力回归方程
［2 ］
。国外的定量研究
主要有 G. Eysenbach 等人的应用爬虫系统，从 Twitter 上收集数据，并对微博用户进行情绪、转发等方面的分析
6 ∑（ Rj － Qj ） rs = 1 －
j =1
2
n （ n2 － 1 ）
（ 1）
数最大的边并把它从网络中移出。③重复步骤 ②，直到网络中所有节点就是一个社区为止，即所有边移出。
其中，R j 和 Q j 分别是两个变量的第 j 个值的秩次。一般认为， | r | 越接近于 1 ，线性相关程度越高； | r | 越接近于 0 ，线性相关程度越低。 r ＞ 0 ，表示两个变量呈正相关； r ＜ 0 ，表示两个变量呈负相关； r = 0 ，表示两个变量不相关。根据 r 的大小，一般可划分为四级：
ITA
信息系统
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟黎，何跃，霍叶青（四川大学工商管理学院，四川成都 610064 ）
●何
微博用户特征分析和核心用户挖掘
摘
*
要：文章通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户
［5 ］
不在产品的功能上，而在于拥有名人的数量，所以有必要对微博中的名人进行分析，发现微博中名人的特征，以便微博企业对他们进行个性化服务。利用 C5. 0 算法，根据用户的名人标识以及其他用户信息，分析名人的用户特征。C5. 0 算法是决策树模型的经典算法之一，它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则，其目的是使系统的熵最小，以提高算法的运算速度和精确度。主要包括两个阶段： ① 拆分阶段。根据能够带来最大信息增益的字段对样本进行拆分，再根据另一个字段进行拆分，直到样本子集不能拆分为止。②修剪阶段重新检验最低层次的拆分，对模型值没有显著贡献的样本子集进行修剪。 1. 2. 2 普通用户挖掘微博中的普通用户是微博的主流用户，更是商家进行微博营销的最终目标，有必要了解他们在期望提高被关注度时的行为趋势，有利于微博企业提高用户的活跃度。利用相关性理论，对用户的关注数、微文数和被关注数 3 项信息进行分析，根据分析结果，可推算用户以提高关注数为目标的行为趋势。相关系数 r 用来表示两个变量之间线性关系的程度，主要有 Pearson 相关系数、Spearman 相关系数和 Kendall 相关系数 3 种。当研究数据总体分布未知、总体呈现非正态分布以及数据为顺序级变量时，可应用基于秩次的 Spearman 相关系数。 Spearman 相关系数的一般计算公式为：