微博用户特征分析和核心用户挖掘
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
是关
联规则挖掘的经典算法 ,该算法的主要思想是采用逐层迭 代的方法通过低维频繁项集得到高维频繁项集 。 Apriori 算 法进行关联规则挖掘的基本步骤是 : ① 找到频繁 1 项集 L1 。②利用上一次的结果找到频繁 2 项集 L2 。③循环进行 步骤②,直到不能找到频繁 K 项集为止。④根据找到的频 繁集产生期望的规则。 1. 2. 4 社区划分 微博是基于一定的社会网络而搭建起 来的新兴应用平台。微博用户及其之间的关系本质上构成 了一个社会网络。由于用户各自有着不同的兴趣爱好 、 教 育背景等特点, 并且用户与用户之间的关联程度也不相 同,微博中便形成了许多社区网络 。 它的盈利点在于营 销,而真正在营销中起重要作用的往往是各个社区网络中 的核心用户。营销活动如果得到用户的肯定 , 极有可能得 到迅速传递,这正是微博的强大之处 ,所以有必要发现社 s 算法进 区网络中的核心用户。 利用 Girvan and Newman ’ 行社区挖掘
[4 ]
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
1
1. 1
研究设计
样本来源 利用网络爬虫通过站点开放的 API 可直接获取到站点
服务器上的数据。通过网络爬虫从网易微博上获取到微博 用户的一手资料, 包括用户的基本信息, 如昵称、 性别、 地址、描述、被关注数、关注数以及微文数等属性 , 还有 用户的关系信息,如用户的关系模式以及关系端等 , 并以 这些数据作为用户特征分析以及核心用户挖掘的基础 。 1. 2 1. 2. 1 研究方法和思路 名人挖掘 微博的同质化问题突出 , 竞争重点并
*
客户分析研究” 的成果,项目编号: 70771067 。
·情报理论与实践·
— 121 —
信息系统
技术对微博的用户特征及核心用户进行分析 ,以揭示微博 用户的特征及进行个性化营销的可行性 。
ITA
1 ) 当 | r | ≥0. 8 时,表示两个变量高度相关 。 2 ) 当 0. 5 ≤ | r | < 0. 8 时,表示两个变量中度相关 。 3 ) 当 0. 3 ≤ | r | < 0. 5 时,表示两个变量低度相关 。 4 ) 当 | r | < 0. 3 时,表示两个变量微弱相关 。 1. 2. 3 行为关联分析 互联网是一个充满风险的场所 , 微博当然也不例外,微博用户的行动也往往受其影响 , 分 析用户在微博中的行为规则 ,有利于微博企业帮助用户建 立信心,以提高用户的忠诚度。 利用 Apriori 算法, 以发 现普通用户潜在的行为规则 ,可推算出用户采取某项行动 后会在置信度水平下做出何种反应 。 Apr的 API 成功从站点上
爬取了 3 793 条用户信息数据,20 498 条关系数据, 然后 利用这些数据进行用户特征分析以及核心用户挖掘 。
— 122 —
·第 34 卷 2011 年第 11 期·
ITA
2. 1 名人特征 微博由于内容简单、 交互性强, 吸引了大量名人入 住,他们依靠自身的影响力无需采取任何行动便能吸引大 量粉丝关注,并通过了身份认证。 在爬取到的 3 793 个用 户中,有 84 个用户通过名人认证。 利用 Clementine 软件 的 C5. 0 决策树模型分析发现名人存在一个特征 , 即关注 数小于 500 ,被关注数大于 10 000 , 而微文数却不及被关 注数的千分之一。这说明微博中的名人通过自身的影响力 便能吸引大量粉丝关注 ,而无需关注他人或发布微博 , 这 。 值得一提的是, 微博中的名人 种现象即为 “名人效应 ” 效应会大大影响一般用户特征的定量分析 ,所以在后续研 究之前需要剔除名人样本 。 2. 2 普通用户特征 微文数和关注数是衡量用户在微博中活跃程度的重要 因素,而被关注数是衡量用户在微博中影响力的重要因 素,通常是用户最关心的因素 。了解被关注数、 微文数和 关注数之间的关系, 有助于微博企业了解用户的行为趋 势,以确保用户的活跃程度 。 为了消除名人效应的影响 , 首先去除具有名人效应的用户以及被关注数 、关注数和微 文数其中任何一个为 0 的用户, 然后利用 SPSS 软件进行 以微文数和关注数作为控制变量的偏相关分析 , 具体结果 如表 1 和表 2 所示。 表1 以微文数为控制变量的被关注数与关注数相关系数
n
,将微博网络进行细分,再利用点度中心度
来衡量用户在社区中的重要程度 ,发现各个社区的核心用 户,以揭示在微博中进行个性化营销的可行性 。 Girvan and Newman’ s 算法[6] 是社区挖掘的代表性算 法之一,并得到成功应用。它是一个典型的分劣算法 , 基 本思想是通过不断移出网络中介数最大的边而将整个社会 网络划分为若干个社区
[7 ]
。而边的介数定义为网络中所有
节点对之间的最短路径中经过该边的数目 。 边的介数越 大,说明经过它的最短路径数目越多 ,也就越可能连接着 不同的社区,所以通常用介数来区别社区的内部各边和社 s 算法划分社区的 区之间的连接边。 Girvan and Newman ’ 基本步骤是: ①计算网络中所有边的边介数 。 ② 找到边介
特征,并对微博网络进行核心用户发掘 。结果表明: 微博中的名人具有关注数小 ,被关注数大的特征; 用 户趋向于通过关注他人和积极发布微博文章两种方法来提高被关注度 ; 愿意公布性别或自我描述的用户 , 通常愿意公布地址和发布博文 ,而不愿意公布地址、性别或自我描述的用户 ,通常不愿意公布其他两项 ; 对微博网络进行核心用户挖掘并进行个性化营销是可行的 。 关键词: 微博客; 用户分析; 核心用户 Abstract: Based on the decisiontree analysis and correlation analysis of the microbloggers ’information and bloggers and relationship data as well as their association rules,this paper mines the characteristics of the microfinds the core microbloggers of the microblogging network. The results show that the celebrity microbloggers have the characteristics of less attention on others but more attention from others. The microbloggers tend to increase their degree of receiving attention by giving attention to others and being active in publishing microblogs. The microbloggers who are willing to publicize their gender or describe themselves are usually willing to publicize their address and publish their microblogs. The users who are unwilling to publicize their address,gender or describe themselves are generally unwilling to publicize the other two items. It’ s feasible to mine the core microbloggers of the microblogging network and engage in personalized marketing. Keywords: microblog; user analysis; core user 微博
[3 ]
,研究表明: Twitter 能即时提供信息内容,易被用户
12] 均采用主观性随机抽样的办法来获 所重视。文献 [ 取数据,在数据获取方面具有局限性 ,而且仅对微博结构 或其网络中心性进行了研究分析 ,而未进行诸如发掘内部 规则等方面的研究,不能为微博企业的改进提供实质性的 3] 采用数据收集系统,从 Twitter 上获取数 帮助。文献 [ 据,在数据获取方面具有合理性 , 但是仅进行了频数分 析,而未进行更深入的研究 ,未能提供更多实质性的研究 成果。 所以利用微博用户的基本信息数据和关注数据 , 通过 决策树分析、相关分析、关联规则、社区挖掘等数据挖掘
[1 ]
是一个基于用户关系的信息分享 、 传播以及
亮、宗利永的基于社会网络理论 , 结合微博用户之间的 “关注” 与 “被关注” 信息传播的网络拓扑关系 , 从点度 中心性、中间中心性和接近中心性 3 个方面对微博社会网 络的中心性进行分析
[1 ]
获取平台,用户可以通过网页, WAP 以及各种客户端组 件登录到个人社区,以 140 字左右的文字更新信息 , 并实 现即时分享。微博具有技术门槛低、内容简单、 交互性强 等特点,虽然这是一个全新的平台 ,但在我国却呈现出井 喷式发展的特点,特别是新浪、腾讯、网易等大型互联网 公司的门户型微博,它们的用户数在短时间内就破亿 。 由于技术门槛低,微博的同质化问题非常严重 , 所以 在微博领域的竞争, 最重要的是发掘信息的主动发布者 , 即核心用户以及发现用户行为规则 ,这不仅有利于微博企 业了解用户的行为, 而且能够为核心用户提供个性化服 务,进行新产品推销、广告投递等商业活动。 所以, 对微 博的用户信息及用户与用户之间的关系信息进行数据挖掘 来了解用户的特征, 发现核心用户是非常必要和有意义 的。微博作为互联网领域新兴的应用形式 ,吸引了广泛的 关注,但国内外对它的研究才刚刚起步 ,大多停留在定性 研究上,而定量研究却非常少。国内的定量研究主要有平
本文为国家自然科学基金项目 “基于自组织数据挖掘的 CRM
。 王晓光以 “新浪微博 ” 为研究
样本,研究微博的基本结构、信息传播一般模式, 考察微 博用户的基本行为特征和关系特征 ,分析微博影响力的相 关变量,最终建立出影响力回归方程
[2 ]
。国外的定量研究
主要有 G. Eysenbach 等人的应用爬虫系统, 从 Twitter 上 收集数据, 并 对 微 博 用 户 进 行 情 绪、 转 发 等 方 面 的 分 析
6 ∑( Rj - Qj ) rs = 1 -
j =1
2
n ( n2 - 1 )
( 1)
数最大的边并把它从网络中移出 。③重复步骤 ②, 直到网 络中所有节点就是一个社区为止 ,即所有边移出。
其中,R j 和 Q j 分别是两个变量的第 j 个值的秩次。 一般认为, | r | 越 接 近 于 1 , 线 性 相 关 程 度 越 高; | r | 越接近于 0 ,线性相关程度越低。 r > 0 , 表示两个变 量呈正相关; r < 0 ,表示两个变量呈负相关 ; r = 0 , 表示 两个变量不相关。根据 r 的大小,一般可划分为四级:
ITA
信息系统
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟 黎,何 跃,霍叶青 ( 四川大学 工商管理学院,四川 成都 610064 )
●何
微博用户特征分析和核心用户挖掘
摘
*
要: 文章通过对微博用户的信息和关系数据进行决策树分析 、相关性分析和关联规则来挖掘用户
[5 ]
不在产品的功能上,而在于拥有名人的数量 ,所以有必要 对微博中的名人进行分析 ,发现微博中名人的特征 , 以便 微博企业对他们进行个性化服务 。 利用 C5. 0 算法, 根据 用户的名人标识以及其他用户信息 , 分析名人的用户特 征。C5. 0 算法是决策树模型的经典算法之一 , 它的基本 思想是利用信息论原理对大量样本的属性进行分析和归纳 而产生树的结构或规则 ,其目的是使系统的熵最小 , 以提 高算法的运算速度和精确度 。主要包括两个阶段: ① 拆分 阶段。根据能够带来最大信息增益的字段对样本进行拆 分,再根据另一个字段进行拆分 ,直到样本子集不能拆分 为止。②修剪阶段重新检验最低层次的拆分 ,对模型值没 有显著贡献的样本子集进行修剪 。 1. 2. 2 普通用户挖掘 微博中的普通用户是微博的主流 用户,更是商家进行微博营销的最终目标 ,有必要了解他 们在期望提高被关注度时的行为趋势 ,有利于微博企业提 高用户的活跃度。利用相关性理论,对用户的关注数、 微 文数和被关注数 3 项信息进行分析,根据分析结果, 可推 算用户以提高关注数为目标的行为趋势 。 相关系数 r 用来 表示两个变量之间线性关系的程度 , 主要有 Pearson 相关 系数、Spearman 相关系数和 Kendall 相关系数 3 种。 当研 究数据总体分布未知、总体呈现非正态分布以及数据为顺 序级 变 量 时, 可 应 用 基 于 秩 次 的 Spearman 相 关 系 数。 Spearman 相关系数的一般计算公式为 :