微博用户关系挖掘研究综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[15-16 ]
用户的动态变化是微博群体的主要特点, 所以对 微博用户 进 行 动 态 分 析 可 以 挖 掘 出 一 些 潜 在 规 律 。 Kivran - Swaine F. 等认为对群体结构的动态分析可以 帮助判断微博用户之间关系的持续性
[26 ]
。 Meeder B.
[27 ]
等利用时间戳信息分析微博用户的动态变化规律
[11 ]
wenku.baidu.com
及政 务 互 动 等 方 面 也 发 挥 着 不 可 替 代 的 积 极 作 。由此可见, 微博的兴起赋予了社会经济活动 前所未有的大众化及网络化内涵, 极大地提升了社交 媒体的社会服务效能 。 但是, 急剧增长的微博用户数 量、 错综复杂的用户关系及海量用户关系下的交互行 为增加了社会 、 经济与生产的复杂性, 使一些社会事件 变得更加不可预测 、 难以控制, 从而为分析社会化效应 带来了新的困难和挑战 。 因此, 如何正确理解微博用 户之间的关系及用户在关系交互中所产生的行为, 成 为了学者们迫切研究的新方向 。微博用户关系挖掘研 究正是在这一需求背景下应运而生的 。 目前, 对于微博的研究已出现了多重主体齐头并 多元方法共生共存 、 多维视角全方位透视的新局 进、 面
图2 微博用户之间的行为模式示意图
综上分析得出, 微博用户关系挖掘就是指分析用 户在使用微博的过程中由于社会交际而形成的社群 ( 或称社区) 和在不同的社群中所扮演的角色 。 由定 义可知, 用户社群分析及关键用户识别正是微博用户 关系挖掘的主要内容 。
2
微博用户关系挖掘研究
从微博的主要特点看, 用户之间的主要行为就是
微博主要是一种在线用户交流平台, 用户可以根
。此外, 微博在凝聚民心 、 降低事件危害以
据自己的喜好表达自己的信息 、 寻找志同道合或感兴 趣的用户 。微博用户之间主要表现为主动关注 、 相互 关注或被关注等行为 式( 如图 2 所示) 。 在微博网络中, 互相关注的用户数量可能会比较 多, 但是不同的用户之间所交互的内容也会存在差异 。 如图 2 所示, 相同颜色点( 表示用户) 基本上汇聚在同 一区域且具有相同的关系, 而同一用户也可能同时处 于多个不同的关系之中 。 所以, 微博用户所产生的活 动主要是在微博网络中形成关系或群体 。
· 92·
情
报
杂
志
第 31 卷
中复杂的用户关系不仅可以激发 、 助推和引导社会事 件的发展趋势, 还可以准确 、 高效地为具有共同兴趣爱 好的微博用户群体进行个性化推荐, 甚至可以大大降 低企业和消费者的交易成本, 推动企业营销模式的不 断创新 用
[7-8 ] [5-6 ]
势进行展望 。
1
微博用户关系概述
第 31 卷 第 12 期 2012 年 12 月
情
报
杂
志
JOURNAL OF INTELLIGENCE
Vol. 31 No. 12 Dec. 2012
微博用户关系挖掘研究综述
王连喜
1
*
蒋盛益
2
庞观松
3
吴美玲
3
( 1. 广东外语外贸大学图书馆
广州 510420 ; 2. 广东外语外贸大学信息学院 广州 510006 )
。 有效分析和挖掘微博
“微博虚假信息及早检测与有效控制关键技术研究 ” ( 编号: 61202271 ) ; 国家自然科学基金项目 “不平衡数 基金项目: 国家自然科学基金项目 ( 编 号: 61070061 ) ; 教 育 部 人 文 社 会 科 学 研 究 青 年 项 目“突 发 事 件 的 网 络 舆 情 监 测 及 其 应 用 研 究 ” ( 编 号: 据的学习算法及应用 研 究 ” 11YJCZH086 ) 及广东外语外贸大学校级青年项目 “基于数据挖掘的图书馆电子资源个性化推荐研究” ( 编号: 11Q01 ) 的研究成果。 作者简介: 王连喜( 1985- ) , 男, 硕士, 助理馆员, 研究方向: 数据挖掘应用; 蒋盛益( 1963- ) , 男, 博士, 教授, 硕士生导师, 研究方向: 数据挖掘与 自然语言处理; 庞观松( 1988- ) , 男, 硕士研究生, 研究方向: 数据挖掘与自然语言处理; 吴美玲 ( 1988 - ) , 女, 硕士研究生, 研究方向: 数据挖掘 与社会网络分析。
构建关系网络 。微博中用户所结成的关系是一种新的 关系, 它 可 以 将 互 联 网 上 早 期 以 IM ( Instant Messengers) 构 建 的 双 向 关 系 切 割 成 单 向 不 对 称 关 系[12]。
图1 微博用户关系挖掘研究框架
Golder 等认为微博用户不仅会存在直接的单向不对称 或双向对称关系, 还会存在间接的三元闭合关系
。
事实上, 微博用户之间的庞杂关系本质上形成了一个 巨大的在线社会网络, 反映了实际社会中人与人之间 的交际关系, 并表现为强关系与弱关系共存和呈现出 幂律等级分布特性
[14 ]
。 微博用户形成的社会网络具
有两个特点: 一是用户的局部聚集形成群体; 二是用户 具有结构差异性 。近年来, 这两个特点越来越受到学 者们的关注 。
第 12 期
王连喜, 等: 微博用户关系挖掘研究综述
· 93·
[25 ]
2. 1
微博用户社群分析
在微博使用实践中, 用户
博群体用户呈显出明显的动态变化特点
。
积极选择并参与构建个性化关系, 与一些具有相似特 征的用户自发地聚集到一起形成群体 。群体可以体现 关系的局部聚集特性, 通过对微博群体进行分析可以 帮助研究用户的行为 、 透视群体的结构 、 理解用户之间 关系模式 。 用户社群分析作为用户关系挖掘的主要技术手 段, 它在常规复杂系统中的研究已经比较成熟, 出现了 许多成果
[13 ]
鉴于微博用户关系研究的重要研究意义和实用价 值, 本文对目前的微博研究成果进行连续跟踪学习和 并深入分析和预测其发展趋势, 期望能够更好地 总结, 指导未来的研究工作 。本文首先对微博用户关系挖掘 进行阐释和概述; 然后依据微博用户关系挖掘的两条 包括微博用户社群分 主线的研究进展进行重点总结, 析、 关键用户识别和基于用户关系的个性化推荐应用; 最后, 对微博用户关系挖掘技术进行总结, 并对发展趋
。
袁毅等通过跟踪微博用户在时间周期内关于某一话题 的交流数据, 发现用户在信息交流过程中形成关注 、 评 论、 转发和引用四种社会关系网络, 指出四种关系网络 有其不同的结构形态, 但同时又具有某些共性特征及 联系
[28 ]
。 但是, 微博是一种新兴的 、 特殊的复
杂系统, 所以关于微博用户社群分析多是基础性和探 索性的研究 。用户社群分析的目标是将社会网络划分 为群组, 即按照节点( 用户) 间的连边( 关系) 把节点划 分成若干节点组, 使得节点组内部的连边相对稠密, 不 同节点组之间的连边相对稀疏 。社群分析研究假定一 yj ) | vi ∈ yj , 0 ≤ j ≤ C} , C 表示 个社会网络 G = { ( v i , 期望的群体数目, 主要实现为每个节点用户 v i 找到一 个群体 y i , 满足 y i ∈ G , 并使得社会网络的结构能够 人 最大化程度地保持 。 这一目标体现着“物以类聚 、 以群分” 的朴素思想, 与图论和聚类有着非常紧密的 联系
广州 510006 ;
3. 广东外语外贸大学国际工商管理学院 摘 要
Web2. 0 的广泛应用和新型社会化网络媒体的盛行, 促使网络服务从以数据为主导开始 转变 为 以 用 户 或 用
户关系为核心。微博作为当下最流行的社会化网络服务媒 体, 其 用 户 关系 挖掘 研究正 是 在 这 一 背景下迅 速 兴 起 的 一个新兴研究课题, 并且逐渐受到人们越来越多的重视。首 先 依 据 微博 用 户 的 特点 对 微博 用 户 关系 挖掘 的 概 念 进 行了阐释; 然后, 以微博用户关系挖掘的两个重要研究内容 为主 线, 分 别 对 微博 用 户 社 群 分析和 关键 用 户识别 做细 并对未来的研究方向进行了展望。 致的介绍和分析; 最后总结了对微博用户关系挖掘的研究内容, 关键词 微博 用户社群分析 TP391 用户关系 关键用户识别 A 个性化推荐 文章编号 1002-1965 ( 2012 ) 12-0091-07 中图分类号 文献标识码
Abstract With the widely spreading application of Web 2. 0 and the ongoing popularity of the new social network medias,data based net-
work service has been transformed as the core of the network services with users or user relationships. As one of the most prevalent social network services media,research of user relationship mining on microblog has become a novel topic and has drawn more and more attention. This paper first discussed the definition of user relationship mining for microblog in terms of the characters of microblog users. Then,user group analysis and key users identifying,as the main clue of microblog user relationship mining,were separately summarized and analyzed in detail. At last,this paper summarized the technologies of microblog user relationship mining and pointed out the directions of future research. Key words microblog user group analysis user relationships key users identifying personalized recommendation
[4]
微博是近年刚刚兴起的一种信息交流媒体, 相比 于传统社会媒体, 其发展态势相当之强劲, 已表现出后 是一个基于 来居上之势 。微博作为一种新型媒体的, 草根用户的关系构建及个性化用户信息的即时传播 、 共享和获取的平台, 具有信息实时性 、 内容简洁性 、 用
收稿日期: 2012-07-10 修回日期: 2012-08-29
A Literature Review of User Relationship Mining on Microblog
Wang Lianxi1 Jiang Shengyi2 Pang Guansong3 Wu Meiling3
( 1. Library,Guangdong University of Foreign Studies, Guangzhou 510420 ; 2. School of Informatics,Guangdong University of Foreign Studies, Guangzhou 510006 ; 3. School of Management,Guangdong University of Foreign Studies, Guangzhou 510006 )
[1 -3]
0
引
言
户交互性等特点
。
微博之所以能够成为当今国内外的主流社交媒 体, 主要是因为它具有强大的用户实时交互性 。 用户 在使用微博的过程中, 往往在微博网络空间中结成了 比如, 用户之间的关注关系 、 社区中的好友 种种关系, 或亲情关系 、 实时交互过程中因共同购买或评论产品 而结成的共同兴趣关系等
[9-10 ]
, 且三种行为对信息的处理方
式分别表现为信息获取 、 信息共享和信息传播三种模
。本文以微博用户为线索, 对微博用户关系挖
掘进行归纳和总结 。通过对近年来的相关文献进行分 得出微博用户关系挖掘研究框架( 如图 1 所 析和研究, 示) 。从图 1 中可以看出, 微博用户关系挖掘研究主要 存在两条主线: 一是研究微博用户社群分析; 二是研究 微博用户关 微博关键用户识别 。 从另一个角度来看, 系挖掘研究主要是对结构和用户行为两个方面的因素 进行分析 。结构分析主要是对用户的关系结构进行分 析; 用户行为研究主要是对用户影响力进行测度 。
用户的动态变化是微博群体的主要特点, 所以对 微博用户 进 行 动 态 分 析 可 以 挖 掘 出 一 些 潜 在 规 律 。 Kivran - Swaine F. 等认为对群体结构的动态分析可以 帮助判断微博用户之间关系的持续性
[26 ]
。 Meeder B.
[27 ]
等利用时间戳信息分析微博用户的动态变化规律
[11 ]
wenku.baidu.com
及政 务 互 动 等 方 面 也 发 挥 着 不 可 替 代 的 积 极 作 。由此可见, 微博的兴起赋予了社会经济活动 前所未有的大众化及网络化内涵, 极大地提升了社交 媒体的社会服务效能 。 但是, 急剧增长的微博用户数 量、 错综复杂的用户关系及海量用户关系下的交互行 为增加了社会 、 经济与生产的复杂性, 使一些社会事件 变得更加不可预测 、 难以控制, 从而为分析社会化效应 带来了新的困难和挑战 。 因此, 如何正确理解微博用 户之间的关系及用户在关系交互中所产生的行为, 成 为了学者们迫切研究的新方向 。微博用户关系挖掘研 究正是在这一需求背景下应运而生的 。 目前, 对于微博的研究已出现了多重主体齐头并 多元方法共生共存 、 多维视角全方位透视的新局 进、 面
图2 微博用户之间的行为模式示意图
综上分析得出, 微博用户关系挖掘就是指分析用 户在使用微博的过程中由于社会交际而形成的社群 ( 或称社区) 和在不同的社群中所扮演的角色 。 由定 义可知, 用户社群分析及关键用户识别正是微博用户 关系挖掘的主要内容 。
2
微博用户关系挖掘研究
从微博的主要特点看, 用户之间的主要行为就是
微博主要是一种在线用户交流平台, 用户可以根
。此外, 微博在凝聚民心 、 降低事件危害以
据自己的喜好表达自己的信息 、 寻找志同道合或感兴 趣的用户 。微博用户之间主要表现为主动关注 、 相互 关注或被关注等行为 式( 如图 2 所示) 。 在微博网络中, 互相关注的用户数量可能会比较 多, 但是不同的用户之间所交互的内容也会存在差异 。 如图 2 所示, 相同颜色点( 表示用户) 基本上汇聚在同 一区域且具有相同的关系, 而同一用户也可能同时处 于多个不同的关系之中 。 所以, 微博用户所产生的活 动主要是在微博网络中形成关系或群体 。
· 92·
情
报
杂
志
第 31 卷
中复杂的用户关系不仅可以激发 、 助推和引导社会事 件的发展趋势, 还可以准确 、 高效地为具有共同兴趣爱 好的微博用户群体进行个性化推荐, 甚至可以大大降 低企业和消费者的交易成本, 推动企业营销模式的不 断创新 用
[7-8 ] [5-6 ]
势进行展望 。
1
微博用户关系概述
第 31 卷 第 12 期 2012 年 12 月
情
报
杂
志
JOURNAL OF INTELLIGENCE
Vol. 31 No. 12 Dec. 2012
微博用户关系挖掘研究综述
王连喜
1
*
蒋盛益
2
庞观松
3
吴美玲
3
( 1. 广东外语外贸大学图书馆
广州 510420 ; 2. 广东外语外贸大学信息学院 广州 510006 )
。 有效分析和挖掘微博
“微博虚假信息及早检测与有效控制关键技术研究 ” ( 编号: 61202271 ) ; 国家自然科学基金项目 “不平衡数 基金项目: 国家自然科学基金项目 ( 编 号: 61070061 ) ; 教 育 部 人 文 社 会 科 学 研 究 青 年 项 目“突 发 事 件 的 网 络 舆 情 监 测 及 其 应 用 研 究 ” ( 编 号: 据的学习算法及应用 研 究 ” 11YJCZH086 ) 及广东外语外贸大学校级青年项目 “基于数据挖掘的图书馆电子资源个性化推荐研究” ( 编号: 11Q01 ) 的研究成果。 作者简介: 王连喜( 1985- ) , 男, 硕士, 助理馆员, 研究方向: 数据挖掘应用; 蒋盛益( 1963- ) , 男, 博士, 教授, 硕士生导师, 研究方向: 数据挖掘与 自然语言处理; 庞观松( 1988- ) , 男, 硕士研究生, 研究方向: 数据挖掘与自然语言处理; 吴美玲 ( 1988 - ) , 女, 硕士研究生, 研究方向: 数据挖掘 与社会网络分析。
构建关系网络 。微博中用户所结成的关系是一种新的 关系, 它 可 以 将 互 联 网 上 早 期 以 IM ( Instant Messengers) 构 建 的 双 向 关 系 切 割 成 单 向 不 对 称 关 系[12]。
图1 微博用户关系挖掘研究框架
Golder 等认为微博用户不仅会存在直接的单向不对称 或双向对称关系, 还会存在间接的三元闭合关系
。
事实上, 微博用户之间的庞杂关系本质上形成了一个 巨大的在线社会网络, 反映了实际社会中人与人之间 的交际关系, 并表现为强关系与弱关系共存和呈现出 幂律等级分布特性
[14 ]
。 微博用户形成的社会网络具
有两个特点: 一是用户的局部聚集形成群体; 二是用户 具有结构差异性 。近年来, 这两个特点越来越受到学 者们的关注 。
第 12 期
王连喜, 等: 微博用户关系挖掘研究综述
· 93·
[25 ]
2. 1
微博用户社群分析
在微博使用实践中, 用户
博群体用户呈显出明显的动态变化特点
。
积极选择并参与构建个性化关系, 与一些具有相似特 征的用户自发地聚集到一起形成群体 。群体可以体现 关系的局部聚集特性, 通过对微博群体进行分析可以 帮助研究用户的行为 、 透视群体的结构 、 理解用户之间 关系模式 。 用户社群分析作为用户关系挖掘的主要技术手 段, 它在常规复杂系统中的研究已经比较成熟, 出现了 许多成果
[13 ]
鉴于微博用户关系研究的重要研究意义和实用价 值, 本文对目前的微博研究成果进行连续跟踪学习和 并深入分析和预测其发展趋势, 期望能够更好地 总结, 指导未来的研究工作 。本文首先对微博用户关系挖掘 进行阐释和概述; 然后依据微博用户关系挖掘的两条 包括微博用户社群分 主线的研究进展进行重点总结, 析、 关键用户识别和基于用户关系的个性化推荐应用; 最后, 对微博用户关系挖掘技术进行总结, 并对发展趋
。
袁毅等通过跟踪微博用户在时间周期内关于某一话题 的交流数据, 发现用户在信息交流过程中形成关注 、 评 论、 转发和引用四种社会关系网络, 指出四种关系网络 有其不同的结构形态, 但同时又具有某些共性特征及 联系
[28 ]
。 但是, 微博是一种新兴的 、 特殊的复
杂系统, 所以关于微博用户社群分析多是基础性和探 索性的研究 。用户社群分析的目标是将社会网络划分 为群组, 即按照节点( 用户) 间的连边( 关系) 把节点划 分成若干节点组, 使得节点组内部的连边相对稠密, 不 同节点组之间的连边相对稀疏 。社群分析研究假定一 yj ) | vi ∈ yj , 0 ≤ j ≤ C} , C 表示 个社会网络 G = { ( v i , 期望的群体数目, 主要实现为每个节点用户 v i 找到一 个群体 y i , 满足 y i ∈ G , 并使得社会网络的结构能够 人 最大化程度地保持 。 这一目标体现着“物以类聚 、 以群分” 的朴素思想, 与图论和聚类有着非常紧密的 联系
广州 510006 ;
3. 广东外语外贸大学国际工商管理学院 摘 要
Web2. 0 的广泛应用和新型社会化网络媒体的盛行, 促使网络服务从以数据为主导开始 转变 为 以 用 户 或 用
户关系为核心。微博作为当下最流行的社会化网络服务媒 体, 其 用 户 关系 挖掘 研究正 是 在 这 一 背景下迅 速 兴 起 的 一个新兴研究课题, 并且逐渐受到人们越来越多的重视。首 先 依 据 微博 用 户 的 特点 对 微博 用 户 关系 挖掘 的 概 念 进 行了阐释; 然后, 以微博用户关系挖掘的两个重要研究内容 为主 线, 分 别 对 微博 用 户 社 群 分析和 关键 用 户识别 做细 并对未来的研究方向进行了展望。 致的介绍和分析; 最后总结了对微博用户关系挖掘的研究内容, 关键词 微博 用户社群分析 TP391 用户关系 关键用户识别 A 个性化推荐 文章编号 1002-1965 ( 2012 ) 12-0091-07 中图分类号 文献标识码
Abstract With the widely spreading application of Web 2. 0 and the ongoing popularity of the new social network medias,data based net-
work service has been transformed as the core of the network services with users or user relationships. As one of the most prevalent social network services media,research of user relationship mining on microblog has become a novel topic and has drawn more and more attention. This paper first discussed the definition of user relationship mining for microblog in terms of the characters of microblog users. Then,user group analysis and key users identifying,as the main clue of microblog user relationship mining,were separately summarized and analyzed in detail. At last,this paper summarized the technologies of microblog user relationship mining and pointed out the directions of future research. Key words microblog user group analysis user relationships key users identifying personalized recommendation
[4]
微博是近年刚刚兴起的一种信息交流媒体, 相比 于传统社会媒体, 其发展态势相当之强劲, 已表现出后 是一个基于 来居上之势 。微博作为一种新型媒体的, 草根用户的关系构建及个性化用户信息的即时传播 、 共享和获取的平台, 具有信息实时性 、 内容简洁性 、 用
收稿日期: 2012-07-10 修回日期: 2012-08-29
A Literature Review of User Relationship Mining on Microblog
Wang Lianxi1 Jiang Shengyi2 Pang Guansong3 Wu Meiling3
( 1. Library,Guangdong University of Foreign Studies, Guangzhou 510420 ; 2. School of Informatics,Guangdong University of Foreign Studies, Guangzhou 510006 ; 3. School of Management,Guangdong University of Foreign Studies, Guangzhou 510006 )
[1 -3]
0
引
言
户交互性等特点
。
微博之所以能够成为当今国内外的主流社交媒 体, 主要是因为它具有强大的用户实时交互性 。 用户 在使用微博的过程中, 往往在微博网络空间中结成了 比如, 用户之间的关注关系 、 社区中的好友 种种关系, 或亲情关系 、 实时交互过程中因共同购买或评论产品 而结成的共同兴趣关系等
[9-10 ]
, 且三种行为对信息的处理方
式分别表现为信息获取 、 信息共享和信息传播三种模
。本文以微博用户为线索, 对微博用户关系挖
掘进行归纳和总结 。通过对近年来的相关文献进行分 得出微博用户关系挖掘研究框架( 如图 1 所 析和研究, 示) 。从图 1 中可以看出, 微博用户关系挖掘研究主要 存在两条主线: 一是研究微博用户社群分析; 二是研究 微博用户关 微博关键用户识别 。 从另一个角度来看, 系挖掘研究主要是对结构和用户行为两个方面的因素 进行分析 。结构分析主要是对用户的关系结构进行分 析; 用户行为研究主要是对用户影响力进行测度 。