微博用户的相似性度量及其应用_徐志明

合集下载

一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法

一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法
t e e s a mi r bo s a d smi rmir b o sa e l st u f co l g aab c met e p o l mst eu g n l e o v d n t i p p r h s p m c o lg n i l c o lg sw l a op r y mir b o sd t e o h r b e b r e t r s l e .I s a e , a i o y h t e c a a trsis o p m c o lg n i l rmir b o sa e a ay e a e n t e s t t a aa n l r g a p o c rs a d s h h r ce t fs a mi rb o sa d smi co l g r n ls d b s d o t i i l t .a d af ti p r a h f p m i— i c a h a sc d i en o
王 琳 冯 时 徐伟丽 杨 卓 王大玲 张一飞 , ,
辽 宁 沈 阳 10 1 ) 1 89 ( 东北大学信息科 学与工程学 院
( 医学影像 计算 教育部 重点实验室( 东北大学 ) 辽宁 ቤተ መጻሕፍቲ ባይዱ阳 10 1 ) 18 9


微博客 作为一种新 的用 户信 息传播 载体 , 网络 舆情发起 和传 播 中起着重要作用。 由于用户有意 ( 在 上传广告 ) 无意( 、 转
W a g Li n n Fe g S i, n h。 Xu W el ii Ya g Zh n uo Wa ng D ̄i g ' n Zh ng Yi i・ a f e
( colfI omai c neadE gnen ,N r es r nvrt, hna g1 0 1 , io i C ia Sh o o fr tnSi c n n i r g ot at nU i sy S ey n 1 8 9 La nn n o e ei h e ei g, hn ) 。 KyL brtr ( e a。aoyo d a a eC m uig ( otesr nvrt) Miir dct n hna g10 1 Lann ,C ia fMe& l m g o p t I n N r at nU i sy , nsyo uai ,Sey n 18 9, ioig hn ) h e ei t fE o

微博用户分类与情感分析技术的研究与应用方法

微博用户分类与情感分析技术的研究与应用方法

微博用户分类与情感分析技术的研究与应用方法随着社交媒体日益普及,微博成为了人们表达想法、分享生活的重要平台。

随之而来的是大量的用户生成的内容,这些内容对于企业、政府以及个人都具有重要的价值。

因此,对微博用户进行分类和情感分析变得尤为重要。

本文将介绍微博用户分类与情感分析技术的研究与应用方法。

一、微博用户分类方法微博用户分类旨在将大量的微博用户划分为不同的类别,以便更好地了解用户的行为模式和兴趣。

常用的微博用户分类方法有以下几种:1.基于社交网络分析的用户分类:这种方法利用社交网络中用户之间的关系和连接进行用户分类。

通过分析用户之间的互动关系、转发、评论等行为,可以发现用户之间的社交圈子,从而将用户划分为不同的类别。

这种方法可以帮助企业更好地了解用户的社交行为,进而进行有针对性的营销和推广。

2.基于文本内容分析的用户分类:这种方法通过对用户发布的微博内容进行语义分析,挖掘出用户的兴趣和关注点,从而将用户划分为不同的类别。

通过分析用户发布的关键词、话题和情感词汇等,可以了解用户的主要兴趣和情感倾向。

这种方法可以帮助企业更好地了解用户的需求和偏好,进而进行个性化的产品和服务推荐。

3.基于机器学习方法的用户分类:这种方法利用机器学习算法对用户行为数据和文本内容进行特征提取和分类,从而将用户划分为不同的类别。

常用的机器学习算法包括支持向量机、朴素贝叶斯分类器、决策树等。

这种方法通过训练模型,可以自动学习用户的特征和行为模式,从而实现对用户的分类。

二、微博情感分析技术微博情感分析旨在根据用户发布的微博内容,分析出用户的情感倾向,包括积极、消极和中性。

常用的微博情感分析技术有以下几种:1.基于词典的情感分析:这种方法利用情感词典,将用户发布的微博内容中的词语与情感词典进行匹配,统计积极词语和消极词语的数量,从而判断用户的情感倾向。

虽然这种方法简单直观,但由于没有考虑到语义的复杂性,所以精度有限。

2.基于机器学习方法的情感分析:这种方法利用机器学习算法对用户发布的微博文本进行特征提取和情感分类。

一种基于主题相似性和网络拓扑的微博社区发现方法

一种基于主题相似性和网络拓扑的微博社区发现方法
节点 . v 的最短路径.
② 更新各子簇的 中心点; ③ 如果所 有 的子 簇 中心 均不发 生变 化,则结束,
并获得社 区结构, 否 则转 至步骤①继续执行. 其 中,步骤①在 指派 节点 到相应子簇 时,根据公 式( 8 ) 计算剩余节 点与各个簇 中心 的相似度,将其指派
算法步骤: ① 根据 与 中心 点的相似 度,将 剩余 节点指 派到
相应 的簇 中:
, ( v , v , ) : m a x ,兀 ( v , )
( , V n ) ∈ 时
( 9 )
其中, s i m ( v , , v , J ) 为节点v f , v j 的主题相似度, l i n k  ̄ 为
了将与 已有 中心很相似 而与其 它中心不相似 的节 点作
① 根据公式( 1 0 ) 计算社区 C , C, 的重叠度;
②当 D , c , ) > 时 , 将C , , c , 并 为 一 个社 区 ;
S o t f wa r eT e c h n i q u e ・ Al g o r i t h m 软 件技 术 ・ 算法 1 1 1
法【 。 】 求得.
获取初始聚类 中心集合后,对 剩余节点进行基 于
用户相似性的聚类.具体方法如下:
设网络中非相邻节点 v . 和v . 节 点之间的最短路径
l i n k ( v  ̄ , ’ , , ) 为 , ) , , ) ’ … , , , v / ) } , 定 义 它 们 之 间
值.
为候选对象 的可 能. 事 实上,社交 网络 中的社区往往 是由大量普通节 点围绕着少量“ 中心节 点” 建立起来的.
这些“ 中心节点” 通常与其它 节点联系很多, 度 比较大. 因此把集合 V中度较 小的节点过滤掉,避免它们成 为

基于微博的用户兴趣分析与个性化信息

基于微博的用户兴趣分析与个性化信息

基于微博的用户兴趣分析与个性化信息一、综述随着互联网技术的快速发展,社交媒体平台如微博已经成为人们获取信息、交流观点和娱乐的重要途径。

微博中的用户生成内容丰富多样,涵盖了各个领域。

本文将对微博用户兴趣进行分析,并探讨如何利用这些信息进行个性化信息服务。

在微博平台上,用户产生的数据量庞大且实时更新,为研究和分析用户兴趣提供了丰富的资源。

通过对用户兴趣的分析,我们可以更好地了解用户需求,为他们提供更加精准的信息推送和服务。

用户兴趣分析还可以为企业和政府机构提供决策支持,提高市场营销效果,以及促进社会舆论的引导和调控。

为了对微博用户兴趣进行分析,我们可以采用多种方法和技术,包括文本挖掘、社交网络分析、情感分析等。

通过文本挖掘技术对用户发布的微博进行主题建模和关键词提取,从而了解用户关注的焦点和话题。

运用社交网络分析方法研究用户之间的互动关系和信息传播路径,以揭示用户兴趣的传播和影响机制。

通过情感分析技术对用户评论和转发的情感进行分类和识别,以深入了解用户对某一话题的态度和看法。

通过对用户兴趣的分析,我们可以为用户提供更加个性化的信息服务。

根据用户的兴趣偏好推送相关领域的资讯、推荐感兴趣的活动和话题、以及定制个性化的搜索结果等。

个性化信息服务还可以帮助用户发现新的兴趣点和关注领域,从而拓宽他们的知识视野和社交圈子。

在商业领域,企业可以通过用户兴趣分析来定位目标客户群体,制定更加精准的营销策略和产品推广方案。

1. 微博平台的发展与普及随着互联网技术的迅速发展,微博作为一款社交媒体平台,已经深入人们的日常生活。

微博提供了一个快速、便捷的信息传播渠道,使得用户可以实时获取和分享各种信息。

在这个背景下,研究微博平台上的用户兴趣以及进行个性化信息服务显得尤为重要。

微博平台从2009年开始进入中国市场,短短几年时间,用户数量迅速增长,影响力逐渐扩大。

截止到2012年,微博在中国市场的用户数量已经超过3亿,占全球微博用户的近半数。

微博环境下基于用户行为与主题相似度的改进PageRank算法

微博环境下基于用户行为与主题相似度的改进PageRank算法

微博环境下基于用户行为与主题相似度的改进PageRank算法朱颢东;丁温雪;杨立志;冯嘉美【期刊名称】《计算机工程》【年(卷),期】2017(043)005【摘要】针对传统PageRank算法存在主题漂移、网页权值均分等问题,提出一种改进的PageRank算法.为提高用户查询效率和搜索质量,结合时间反馈因子对用户转发、用户评论和微博提及行为进行综合分析,采用统计分析方法对用户行为在微博用户影响力排序中的贡献进行度量,并利用改进的TF-IDF算法计算主题相似度权值使用户能够选择相关度较高的网页,从而获得相对应的PageRank权值.实验结果表明,与微博常用排序算法相比,改进PageRank算法具有更好的用户影响力排序效果.%Aiming at the theme drifting and the page weight splitting of traditional PageRank algorithm,an improved PageRank algorithm is proposed.In order to improve the user query efficiency and search quality,combined with the time feedback factor,it makes a comprehensive analysis on user forwarding,user comments and micro-blog mentions.Statistical analysis is used to measure the contribution of user behavior in the ranking of micro-blog user influence.By using the improved TF-IDF algorithm to calculate the similarity weight of the topic,the user can select the Web page with high relevance to obtain the corresponding PageRank weight.Experimental results show that comparedwith common microblog ranking algorithms,the improved PageRank algorithm has better user influence ranking effect.【总页数】6页(P179-184)【作者】朱颢东;丁温雪;杨立志;冯嘉美【作者单位】郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002【正文语种】中文【中图分类】TP301【相关文献】1.改进PageRank算法对微博用户交互行为的影响 [J], 席运江;吴柯;廖晓2.基于用户行为与页面分析的改进PageRank算法 [J], 王旭阳;任国盛3.基于用户兴趣与主题相关的PageRank算法改进研究 [J], 王冲;纪仙慧4.基于改进 PageRank算法的微博用户影响力排序研究 [J], 丁温雪;徐家兴;朱颢东5.基于主题相似度改进的PageRank算法研究 [J], 刘齐;黄树成因版权原因,仅展示原文概要,查看原文内容请购买。

相似性度量

相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。

采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。

对常用的相似性度量作一个总结。

1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6.马氏距离7.夹角余弦8.汉明距离9.杰卡德距离& 杰卡德相似系数10.相关系数& 相关距离11.信息熵12.兰氏距离13.斜交空间距离14.最大-最小相似度15.指数相似度16.KL距离1. 欧氏距离(EuclideanDistance)欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。

(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离:也可以用表示成向量运算的形式:(4)Matlab计算欧氏距离Matlab计算距离主要使用pdist函数。

若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。

例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离X= [0 0 ; 1 0 ; 0 2]D= pdist(X,'euclidean')结果:D=1.00002.0000 2.23612. 曼哈顿距离(ManhattanDistance)又称绝对值距离从名字就可以猜出这种距离的计算方法了。

想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。

实际驾驶距离就是这个“曼哈顿距离”。

而这也是曼哈顿距离名称的来源,曼哈顿距离也称为城市街区距离(CityBlock distance)。

微博用户行为分析技术的研究与应用

微博用户行为分析技术的研究与应用

微博用户行为分析技术的研究与应用随着社交媒体的广泛应用和发展,微博已成为了人们交流和传播信息的重要平台。

作为中国最大的微博平台,微博用户数量已经超过了4亿,其中不同类型、不同性质的用户群体具有不同的特征和行为模式。

因此,对微博用户行为进行分析,有助于深入研究用户需求和传播规律,为微博相关企业和机构提供决策支持和优化策略。

一、微博用户行为分析技术的实现方法微博用户行为分析技术主要包括数据采集、数据处理和数据分析三个部分。

数据采集的方式有多种,包括抓取API数据、爬虫爬取、利用开源框架等。

数据处理主要是数据清洗,去除噪声和重复数据,节省存储空间。

而数据分析主要是通过机器学习算法和数据挖掘方法,对微博用户的行为数据进行有效的挖掘和分析。

二、微博用户行为分析的应用场景微博用户行为分析技术可以在多个应用场景下发挥重要作用,下面介绍其中几个常见的应用场景。

1. 媒体发布和营销:微博作为一个广泛传播的媒体平台,越来越多的媒体和品牌机构开始在微博上发布信息和推广产品。

通过微博用户行为分析技术,可以深入分析用户的需求和偏好,为媒体机构和品牌提供精准的营销方案。

2. 热点事件监测:微博上不断涌现的热点事件,对于政府和相关机构来说,了解公众的态度和反应十分重要。

通过微博用户行为分析技术,可以对热点事件的传播路径和情感分布进行分析,为政府和相关机构提供决策支持。

3. 用户行为预测:微博用户的行为和回应具有不确定性,但是通过微博用户行为分析技术,可以对用户的行为进行预测。

通过对历史数据的分析,可以得出用户的行为规律和预测结果,为媒体和品牌机构提供决策支持。

三、微博用户行为分析技术的进一步研究方向1. 用户个性化推荐:对于平台和用户来说,用户个性化推荐是一个重要的问题。

通过微博用户行为分析技术,可以分析用户的兴趣和需求,为用户提供更加精准的推荐服务。

2. 多源数据挖掘:微博用户行为分析技术主要是对微博平台上的数据进行分析,但也有很多其他的数据来源。

基于聚类算法的微博用户画像及社交网络分析

基于聚类算法的微博用户画像及社交网络分析

基于聚类算法的微博用户画像及社交网络分析随着移动互联网的发展和社交媒体的兴起,微博以其独特的信息快速传播和互动性质,成为了人们关注和获取信息的重要渠道之一。

而在这些微博中,每一个用户的发言都代表着他们的思想倾向、兴趣爱好和社交圈层等信息。

针对这些数据,聚类算法可以将相似的用户划分到同一类别中,从而实现对微博用户的画像和社交网络分析,为企业和政府等不同领域提供更多的决策参考和服务。

一、聚类算法的原理与应用聚类算法是一种常用的无监督学习方法,它基于数据的相似度,将数据点划分到若干个相似的组中。

其中,最为常用的聚类算法有K-Means聚类算法、层次聚类算法和DBSCAN算法。

通过算法的处理,我们可以获得用户间的社交网络关系以及他们在不同领域中的特征信息,例如:年龄、性别、职业、兴趣爱好、政治倾向等。

聚类算法在企业营销和舆情预警等领域中具有广泛的应用。

以企业营销为例,聚类算法可以通过用户画像的进行精准营销,提高广告的点击率和购买转化率;而在舆情预警方面,聚类算法技术可以对海量的媒体信息进行筛选,及时了解公众的态度和舆情走向,提供决策支持和应对措施。

二、微博用户画像的分析在微博用户画像的分析过程中,我们需要采取一系列的特征提取、数据清洗和聚类分析等技术手段。

下面我们分别介绍这些过程和方法:1、特征提取:特征提取是指从微博数据中提取出能够表征用户特点的特征指标。

其中,可以采用倒排索引法获取用户的关键词信息;可以基于时间戳的分析,获取用户的活跃程度和兴趣爱好等信息;可以使用NLP技术,获取用户的情感倾向和文本主题等信息等。

2、数据清洗:数据清洗是指对微博数据进行去噪、去重、归一化等预处理操作,从而实现数据的有效筛选和精细化分类。

在此过程中,可以采用数据挖掘技术,发现数据中的异常或异常模式,对数据进行清洗和修正。

3、聚类分析:聚类分析是指以特征指标作为输入,通过聚类算法进行模型训练,实现用户的分群划分。

在这个过程中,我们可以选用SSE(Sum of Squared Error)和SILHOUETTE程序对聚类效果进行评估,从而找到最优的聚类数和精度,实现对用户画像的精细化分析。

基于短文本理解和改进聚类的微博热点发现

基于短文本理解和改进聚类的微博热点发现

徐 凤平 : 基 于短文本理解和改进聚类的微博热点发现
・ 3 3・
2 相 关 技 术
2 . 1 向量空 间模型
2 ) D i c e系数 S i m( i , . , ) = 生L—一

2 ∑W 啪w 卅

, 3 ) C o s i n e系数
文本数据 是一种 非结构化数据 ,计算机无法 对其
降维 的方式进 行短文本理解 以及根 据时间窗 口的算 法 改进机 制提升实验 的效率 , 给出实 验过程 , 分析实验结
果并得 出结论 , 提 需要进一步做 的工作 。
1 研 究现状
“ 话题发 现与追踪” 最初是为 了从新 闻报道 中发现 话题并进行后续 的追踪报道 ,研究 的 目标 是进行话题
徐 凤 平
( 南通 师范高等专科 学校 信 息技 术 系, 江 苏 南通 2 2 6 5 0 0 )
摘 要: 微博 短 文 本 具有 内容短 、 特征 稀 疏 、 数 据 量 大等 特 点 , 利 用传 统 方 法对 博 文进 行 热 点话 题发 现 的 效 果都 不理 想 ,
因此提 出 了一种 在 大规 模微 博 数据 集上进 行 热 点发 现 的方 法 。引入 外部知 识 库 来扩展 微 博信 息 , 利 用词 语 的语 义知 识进 行 短 文本 理 解 , 解 决 了由 于微博 文本 内容 短 、 特 征稀 疏产 生 的短 文 本 相似 度 较 难度 量 问题 引入 时问 窗 口机 制 对聚 类 算 法进 行 改进 , 满足 了热 点发 现 的 时效性 . 解决 了微 博 数据 量 大 导致 效 率低 的 问题 。 实验证 明 了方法 的有 效性 关键词 : 关键 词 : 微博 ; 短 文本理 解 ; 聚 类 改进 : 热 点发 现 中图 分 类号 : T P 3 9 1 文 献 标识 码 : A 文章 编 号 : 2 0 9 5 — 7 7 2 6 ( 2 0 1 7 ) 0 6 — 0 0 3 2 — 0 6

基于相关反馈的微博相似主题时序查询

基于相关反馈的微博相似主题时序查询
第 4 0卷 第 4 期 2 0 1 3

Vo 1 . 4 0 No . 4
Ap r 2 01 3
Co mp ut e r Sc i e nc e
基 于相 关 反馈 的微 博 相似 主题 时 序 查询
包红 云 李 秋丹 宋双永 高 珩 ( 中国科 学 院 自动化研 究所 复杂 系统 管理 与控制 国家 重 点实验 室 北 京 1 0 0 1 9 0 )
c r o - b l o g g i n g . B y c o n s i d e r i n g wh e t h e r t h e u s e r i s s a t i s f i e d w i t h t h e r e t u me d t me i s e r i e s , we e s t a b l i s h e d a n o b j e c t i v e
摘 要 提 出了一种基 于相关反馈的微博相似主题 时序查询方 法。该方法通过考虑 用户对不 同查询结果是 否满意的
反馈 情况 , 建立修 改度 量 系数 的 目标 函数 , 从 而实现微博 中体现 用户兴趣 的主题 时序相 似性计算 , 为用 户提供 更 满意 的相似主题时序查询结果 。基于该方法设计 了一个可视化的微博相似 主题 时序查询 系统 , 在微博代 表性 网站一 Twi t t e r 数据集上进行 的实验 , 表 明 了该方法在微博 背景下的相似主题 时序查询 中的有效性 。 关键词 微博客 , 主题 时序 , 相似查询 , 相 关反馈
C h i n e s e Ac a d e my o f S c i e n c e s , B e i j i n g 1 0 0 1 9 0 , C h i n a )

微博用户的相似性度量及其应用

微博用户的相似性度量及其应用

mi c r o b l o g’ S s o c i a l n e t wo r k a s a we i g h t e d u n d i r e c t e d g r a p h, wh e r e u s e r s a r e t r e a t e d a s n o d e s
TP 3 9 3 D OI 号 1 0 . 3 7 2 4 / S P . J . 1 0 1 6 . 2 0 1 4 . 0 0 2 0 7
中图 法 分 类 号
Me a s u r i n g S i mi l a r i t y b e t we e n Mi c r o b l o g Us e r s a nd I t s App l i c a t i o n
r e l a t i on s h i p a na l y s i s.whi c h i s t h e f u nd a me nt a l wo r k f or s oc i a l n e t wo r k f or ma t i on a nd a n a l ys i s . Thi s pa pe r m a i nl y di s c u s s e s a pp r o a c he s o f mi c r o bl o g’S u s e r r e l a t i on s h i p a na l y s i s . We v i e w
比了 上 述 方 法 的优 劣 . 实验结果显示 : 基 于社 交 信 息 的 用 户 相 似 度 在 用 户 关 系 分 析 方 面 取 得 了最 好 的 效 果 . 为 了进

步 验 证 上 述 用 户 相 似 度 的 实 际性 能 , 该文将它们应用 于用户 推荐 的相关实验 , 基 于 社 交 信 息 的用 户 相 似 度 又 取

融合用户标签和关系的微博用户相似性度量

融合用户标签和关系的微博用户相似性度量

融合用户标签和关系的微博用户相似性度量
吴树芳;徐建民;武晓波
【期刊名称】《情报杂志》
【年(卷),期】2014(000)012
【摘要】已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法分别计算用户的链入标签相似度和链出标签相似度,并将其进行线性调和。

实验从新浪微博采集实验数据,实验结果表明新方法对微博用户分类的准确率明显高于仅考虑用户关系的微博用户相似性计算方法。

【总页数】5页(P170-173,126)
【作者】吴树芳;徐建民;武晓波
【作者单位】河北大学管理学院保定 071002; 河北软件职业技术学院信息工程系保定 071002;河北大学数学与计算机学院保定 071002;河北大学数学与计算机学
院保定 071002
【正文语种】中文
【中图分类】G353
【相关文献】
1.结合用户关系网和标签共现网的微博用户标签推荐研究1$ [J], 吴小兰;章成志
2.融合标签关联关系与用户社交关系的微博推荐方法 [J], 马慧芳;贾美惠子;张迪;
蔺想红
3.融合标签平均划分距离和结构关系的微博用户可重叠社区发现 [J], 马慧芳;陈海波;赵卫中;邴睿;黄乐乐
4.基于多标签语义关联关系的微博用户兴趣建模方法 [J], 王艳茹;马慧芳;刘海姣;魏家辉
5.基于用户关系和文本的微博用户相似性度量 [J], 黄建军;方勇;何祥
因版权原因,仅展示原文概要,查看原文内容请购买。

基于改进卡方统计的微博特征提取方法_徐明

基于改进卡方统计的微博特征提取方法_徐明
相关链接 变异字, 拼写错误
大部分都限定 140 字内, 超出 了就会被分成两篇 部分有标题并在 【 】 内表示 可显示评论数量、 内容, 评论 者信息 可追踪转发情况, 被转发状况 可查看发布者的信息 (认证情 况、 粉丝数、 已发微博数等) 部分有链接 较少
在信息预处理方面, 滕少华将短文本分类为题转化 为序列标注问题, 将 CRFs 用于短文本分类中, 提高了分 类的精度 。黄永光等提出一种把变异短文本转化成字 符串形式的处理方法, 主要解决了由于拼音输入法输入 错误的问题 [5]。 在改进特征选择的研究中 , Zelikovitz 等提出了将 LSI 应 用 于 短 文 本 分 类 的 特 征 选 择 的 方 法 。 Bharath Sriram 等 提 出 了 包 含 作 者 的 身 份 信 息 、 词和俚语的缩 写、 时间事件信息、 看法主张等 8 类特征, 以此特征, 并 结合词袋法来提高 twitter 的信息分类 。 此外也有研究人员对微博信息自身的性质进行了 研究。彭泽映等对微博的特点进行了分析, 并提出了微 博信息具有长尾分布的性质 。 总之, 微博短信息的分类主要以传统文本分类为基 础, 根据微博信息自身的特点, 给出一些改进方法, 以提 高分类的准确率。 目前微博分类的研究仍然面临着一些问题。 (1) 向量空间的高维性和稀疏性 对微博短文本进行分类之前通常要进行分词或分字 处理。由于每条微博的字数都不超过 140 个字, 每一条微 博信息只包含极小的单词, 使得短文本向量空间异常稀 疏。高维性和稀疏性给文本分类器性能造成很大的影响。 (2) 如何选择合适的特征值 为了简化文本的表示和处理形式, 必须进行合适的 特征选择。微博短文本分类时, 由于微博信息过于短 小, 需要尽量抓住短文本中出现的信息。传统的特征选 择方法 (如信息增益, 卡方统计量等) 直接使用的效果并 不好。由于微博短文本信息分布不均, 常见的文本分类 中选择的特征数量也不一定适用于微博。 (3) 大量存在不规则短文本。 网络用语的不规范, 使得流行语及奇异短语日异增多, 如新流行语: “ 神马” 、 “ 给力” 等; 奇异短语: “ 偶稀饭” 等。 虽然这些不规则用语对于了解时代特征、 热点话题识别 等具有重要意义, 但它对文本分类性能也有一定影响。 本文通过对微博文本特征信息的分析与研究, 提出

基于文本属性的微博用户相似度研究

基于文本属性的微博用户相似度研究

基于文本属性的微博用户相似度研究李梦洁;邵曦【期刊名称】《计算机技术与发展》【年(卷),期】2018(028)005【摘要】传统的相似度计算方法忽略了用户主观输出的微博文本信息,而这正是体现用户兴趣点的重要元素,只有结合了用户自身信息及其在社交平台上的互动内容,才能相对全面描述一个用户,由此提出基于文本属性的相似用户计算方法.把相似度主要划分为背景相似、兴趣相似两个角度,其中兴趣相似度主要由文本相似度决定,分词并采用TF-IDF变换后进行余弦相似度计算;再结合用户所在地、使用设备、发微博的时间、转发关系以及好友关系来描述用户相似度;并利用层次分析法分配各个属性的权重,构建相似度计算模型.通过实验系统性对比了基于文本属性的计算方法与改进前的算法:改进算法得出的用户相似度的F1度量值提高了34.3%,证明了该算法的优越性.%Traditional similarity calculation method ignores the subjective information of the users,which is an important element that re-flects user's interest point.In order to fully describe the user's information,the user's background information and their interactive con-tent on the social platform should be considered.Therefore,we present a calculating method of Micro-blog user similarity,which is bound up with text similarity.The user similarity is mainly divided by the background similarity and interest similarity which is mainly deter-mined by the text similarity.The cosine similarity should be calculated after the word segmentation and er similarity is also described by user'slocation,the device they use,the time they send Weibo,the text they re-post and the relationship between them.Fi-nally,the method uses AHP to determine the weight of each attribute and build an integrated similarity calculation model.Through the ex-periment,systematically compared with the calculating method of user similarity combined with text similarity and the one before impro-ving,the results show that the former increase the F1metric by 34.3%,which shows its superiority.【总页数】6页(P17-22)【作者】李梦洁;邵曦【作者单位】南京邮电大学通信与信息工程学院,江苏南京210003;南京邮电大学通信与信息工程学院,江苏南京210003【正文语种】中文【中图分类】TP301【相关文献】1.基于用户多属性加权和兴趣相似度的协同过滤算法研究 [J], 罗海媛;章牧2.基于共同粉丝的微博用户相似度计算方法研究 [J], 崔婷婷3.基于微博的用户相似度计算研究 [J], 郑志蕴;贾春园;王振飞;李钝4.微博用户对剩男剩女的社会态度研究——基于微博文本情感倾向分析 [J], 张雪;王鹏;;5.基于用户属性的微博舆情演化仿真研究 [J], 姚翠友;崔亚群因版权原因,仅展示原文概要,查看原文内容请购买。

一种融合用户关系的自适应微博话题跟踪方法

一种融合用户关系的自适应微博话题跟踪方法

一种融合用户关系的自适应微博话题跟踪方法柏文言;张闯;徐克付;张志明【期刊名称】《电子学报》【年(卷),期】2017(045)006【摘要】针对微博口语化、文本短小等特点以及现有研究的不足,本文提出了一种融合用户关系的自适应微博话题跟踪方法.首先,在当前跟踪的时间窗内,推文被映射到特征空间,并作为候选推文集合.然后,针对推文的分布特点以及话题跟踪的目的,变换推文特征空间.在此基础上,利用改进的K-means聚类算法对候选推文集合进行二元聚类,从而划分出相关推文集合,即当前话题目标模型.本文通过Twitter平台获取数据进行实验,实验结果表明,该方法能够实时地跟踪话题热度的变化以及焦点的演变,并提高了微博中话题跟踪的稳定性.该方法为用户推荐、舆情分析等领域提供了有效的支撑.%Considering the colloquial,short text and other characteristics of microblog and deficiencies in research of it,this article proposes a self-adaptive topic tracking method of microblog by user relationship.First of all,during the tracking time window,the candidate tweet set is mapped into feature space.Secondly,aiming at the characteristic of tweet distribution and the purpose of topic tracking,the paper converts the tweets'' feature space.Based on this operation,a binary clustering on tweets set can be constructed by improved K-means clustering algorithm.The yielded relative collection is the target model of the current topic.The experiments with the data extracted from Twitter,show that this method can track down the trend of hot topics andthe evolution of focuses in real time,and improve the stability of topic tracking in microblog.This method serves well for user recommendation and public opinion analysis.【总页数】7页(P1375-1381)【作者】柏文言;张闯;徐克付;张志明【作者单位】中国科学院信息工程研究所,北京100093;北京邮电大学计算机学院,北京100876;中国科学院信息工程研究所,北京100093;中国科学院信息工程研究所,北京100093;北京英孚泰克信息技术股份有限公司,北京100089【正文语种】中文【中图分类】TP391【相关文献】1.融合用户标签和关系的微博用户相似性度量 [J], 吴树芳;徐建民;武晓波2.一种基于话题传播的微博用户影响力分析方法 [J], 马俊;周刚;许斌;黄永忠3.融合词语关联关系的自适应微博热点话题追踪算法 [J], 孙曰昕;马慧芳;师亚凯;崔彤4.面向用户兴趣与社区关系的微博话题检测方法 [J], 刘志雄;贾彩燕5.一种基于用户互动话题的微博推荐算法 [J], 鲁骁;李鹏;王斌;李应博;房婧因版权原因,仅展示原文概要,查看原文内容请购买。

基于相似度的微博社交网络的社区发现方法

基于相似度的微博社交网络的社区发现方法

基于相似度的微博社交网络的社区发现方法
孙怡帆;李赛
【期刊名称】《计算机研究与发展》
【年(卷),期】2014(51)12
【摘要】作为一种新兴的社交媒体,微博由于其信息的简短性、实时性和公开性,在短短4年内已积累数以亿计的用户并且数量还在迅速增长,由此带来的社会影响日益广泛.对微博用户关系网络进行社区发现具有重要的理论和实际意义.根据微博网络的有向性及建立关注关系的随意性等特点,提出一种基于共同关注和共同粉丝的微博用户相似度,定义此相似度的模块化函数,依据贪心算法思想设计出基于此模块化函数最大化的社区发现方法,并在此基础上将该方法推广到具有标签信息的微博网络中.应用该方法处理了3个真实的微博用户关系网络数据,结果表明该方法可以有效地发掘微博用户关系网络中的社区结构.
【总页数】11页(P2797-2807)
【作者】孙怡帆;李赛
【作者单位】中国人民大学应用统计科学研究中心北京100872;中国人民大学统计学院北京 100872
【正文语种】中文
【中图分类】TP393;TP301.6
【相关文献】
1.一种基于用户交互行为和相似度的社交网络社区发现方法研究 [J], 许为;林柏钢;林思娟;杨旸
2.基于行为相似度的微博社区发现研究 [J], 蔡波斯;陈翔
3.基于共邻节点相似度的加权网络社区发现方法 [J], 刘苗苗;郭景峰;马晓阳;陈晶
4.微博社交网络社区发现方法研究 [J], 范超然;黄曙光;李永成
5.内容相似度微博社区发现方法研究 [J], 王高飞;张月琴;陈健
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第37卷 第1期2014年1月计 算 机 学 报CHINESE JOURNAL OF COMPUTERSVol.37No.1Jan.2014收稿日期:2011-07-25;最终修改稿收到日期:2013-10-25.本课题得到国家自然科学基金(61173074,60736044)资助.徐志明,男,1967年生,博士,教授,主要研究领域为社会计算、自然语言处理.E-mail:xuzm@hit.edu.cn.李 栋,男,1987年生,博士研究生,主要研究方向为社会计算、信息扩散.刘 挺,男,1972年生,博士,教授,中国计算机学会(CCF)高级会员,主要研究领域为自然语言处理、社会计算.李 生,男,1943年生,博士,教授,主要研究领域为自然语言处理、信息检索.王 刚,男,1988年生,硕士研究生,主要研究方向为社会计算.袁树仑,男,1987年生,硕士研究生,主要研究方向为社会计算.微博用户的相似性度量及其应用徐志明 李栋 刘挺 李生 王刚 袁树仑(哈尔滨工业大学计算机科学与技术学院 哈尔滨 150006)摘 要 微博用户的兴趣分析和模型表示是用户关系分析的基础,而用户关系分析又构成了微博社会网络的生成和分析的基础.该文主要讨论微博的用户关系分析技术.作者将微博社会网络视为一个加权无向图,节点表示用户,边表示用户之间的关系,边的权值表示用户之间的关系强度.该文将用户关系强度定义为用户之间的相似度,分别给出了基于各种用户属性信息(背景信息、微博文本、社交信息)的用户相似度计算方法,并通过实验系统性对比了上述方法的优劣.实验结果显示:基于社交信息的用户相似度在用户关系分析方面取得了最好的效果.为了进一步验证上述用户相似度的实际性能,该文将它们应用于用户推荐的相关实验,基于社交信息的用户相似度又取得了最好的推荐效果.最后,该文应用基于社交信息的用户相似度生成了微博的社会网络(称作用户相似性网络),在该社会网络上进行了团体挖掘的实验,实验结果显示了该相似度在团体挖掘上的有效性.关键词 微博;社会网络;用户相似度;团体挖掘;用户推荐中图法分类号TP393 DOI号10.3724/SP.J.1016.2014.00207Measuring Similarity between Microblog Users and Its ApplicationXU Zhi-Ming LI Dong LIU Ting LI Sheng WANG Gang YUAN Shu-Lun(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150006)Abstract Analyzing user interest and building user profile is very important for microblog’s userrelationship analysis,which is the fundamental work for social network formation and analysis.This paper mainly discusses approaches of microblog’s user relationship analysis.We viewmicroblog’s social network as a weighted undirected graph,where users are treated as nodeslinked by edges,and the weights of edges mean the relationship strengths between users.Thispaper defines user relationship strength as user similarity,and proposes several user similarityestimation approaches by the use of various attribute information of users such as backgroundinformation,tweets and social information respectively and systematically investigated them byexperiments,the experimental results showed that social information-based user similarityachieved the best performance.In addition,we tested them in user recommending experiments,and social information-based user similarity also got the best recommending results.Finally weapplied social information-based user similarity to generate microblog’s social network,called asuser similarity network,on which we conducted community mining experiments,the experimentalresults showed our approach is of remarkable performance.Keywords microblog;social network;user similarity;community mining;user recommendation1 引 言作为一种在线交互媒体,社会媒体(Social Media)的大量用户组成了虚拟网络社区,允许用户在线交流、发布自身的信息,并支持群体用户协作编辑、分享、传播信息.近年来社会媒体呈现多样化的发展趋势,从早期的论坛、博客、播客、维基到风头正劲的社交网站、微博,各种社会媒体的内在结构呈现了社会网络的特性,社会网络的分析技术(Social NetworkAnalysis)正在成为网络技术研究的热点和趋势[1-2].作为一种社会媒体,微博媒体完美地仿造了人类的社会结构,将大量的用户组织成社会网络,满足了用户的信息个性化发布、社会性传播和社交的需求.另外,微博媒体具有超强的信息传播特性[3],微博信息可在社会网络上呈网状交叉扩散,随着转发次数的增多,传播速度呈指数性增长,相当于病毒式信息扩散的速度.对于传统的Web1.0的网络媒体,网站编辑人员发布的信息是用户获取信息的主要来源,搜索引擎成为人们查询网络信息的主要工具.而微博媒体正在改变着这一切,搜索引擎不再是人们获取信息的唯一工具,微博媒体正在成为人们发布信息、获取信息的主要工具.在微博媒体上,每个用户节点相当于一个信息频道,他可以自由发布自身信息,也可根据自身兴趣关注一些感兴趣的相关人物,建立起自己的社会关系,据此来接收他所关注的人物频道发布的信息.但是由于微博媒体往往拥有数以亿计的用户节点,当用户在建立自己的社会关系时,会面临着数据过载问题,因此帮助用户在大量的人群节点中发现其感兴趣的人群是非常重要的,而在线社区用户推荐就是一个有效的工具.在线社区用户推荐就是根据社会网络及其网络用户发布的信息,为目标用户推荐其感兴趣的潜在相关用户.在线社区用户推荐具有广阔的应用前景.站在用户的角度看,它可以帮助用户构建起社会关系,使用户获得更多感兴趣的信息;站在社会媒体的角度看,它扩大、增强了用户之间的交互性.社会网络的分析技术是在线社区用户推荐问题的基础,也是本文的研究重点.本文将微博媒体的社会网络分析技术分成以下3层:(1)节点分析.在微博社会网络中,每个节点代表一个用户.节点分析相当于对用户的兴趣分析和模型表示.具体分为几个步骤:①获取每个用户节点的相关信息;②从用户的相关信息中,提取用户的兴趣特征;③选择合适的模型表示用户,建立用户模型(User Profile)[4-6].(2)关系分析.微博社会网络可被视为一个加权无向图,每个边表示两个用户之间的关系,边的权值表示它们之间的关系强度.微博用户关系分析的目的是:根据两个用户之间的相关信息,计算它们之间的关系强度[7].(3)网络分析.微博社会网络的分析对象是网络的拓扑结构,相关的研究集中在:团体挖掘(发现用户的社交圈)[8-9]、人物影响力计算[10-12]、信息传播[12-14]等问题.针对社会网络的用户关系分析问题[15-16],学者们开展了大量的相关研究.其中,一些学者利用用户相似度、网络拓扑结构的分析技术来计算用户关系强度[17-18],并应用于链接预测问题[16](LinkPrediction);Kahanda等人[19]利用用户之间的交互性来度量用户关系强度;Xiang等人[7]融合了用户相似度和用户之间的交互性,来计算用户关系强度;另外,用户关系分析经常也被用于好友推荐[20-22].本文主要研究了微博社会网络中的用户关系分析技术.针对用户信息的模型表示问题,分别给出了用户的几种属性信息(背景信息、微博文本、社交信息、交互信息)的模型表示方法,在此基础上,完成了用户的整体表示;本文将用户关系分析问题视为用户之间的相似度计算问题,并提出了基于各种用户属性信息的用户相似度计算方法,然后通过系统性的实验,考察了它们的性能.为了更深入地验证本文提出的用户相似度计算方法,本文首先将基于各种用户属性信息的用户相似度进行了用户推荐的实验,系统性地考察了它们在用户推荐问题上的表现;然后,本文应用基于社交信息的用户相似度生成微博的用户相似性网络,在该网络上进行了团体挖掘的实验,实验结果显示了基于社交信息的用户相似度方法的有效性.本文第2节阐述微博用户关系分析的总体研究思路;首先详细描述微博用户信息的采集、兴趣分析与模型表示方法;然后给出基于各种用户属性信息的用户相似度计算方法;第3节详细描述各种微博用户相似度算法的实验结果与分析;最后给出本文的结论以及未来的工作.2 微博用户关系分析该部分主要阐述微博用户关系分析的技术,包802计 算 机 学 报2014年括可分为几个部分:数据获取、节点分析、关系分析、网络分析、信息推荐.将它们组合起来,形成一个微博用户关系分析的技术平台(如图1所示),本文下面分别详细介绍各个部分的工作原理.图1 微博用户关系分析的技术平台2.1 微博数据获取该部分根据新浪微博开放平台的API接口,设计了一个微博爬虫算法.它选择一组微博用户作为种子节点,利用雪球采样策略采集一组微博用户的个人数据,作为本文的实验数据.主要思想如下.(1)选择一组微博用户{ID1,ID2,…,IDm}作为种子节点,加入待爬行节点队列Q.(2)如果Q=NULL或超过阈值(预设的爬行时间或扩展层数),则退出;否则从Q中取出一个用户IDk.(3)利用新浪微博API访问函数,抓取该用户节点IDk的个人信息,将用户的背景信息(位置信息、标签信息、个人描述)、社交信息(关注信息、粉丝信息)、微博文本、交互信息(转发信息、评论信息),分别存入微博用户信息数据库.(4)扩展该节点IDk,将其邻居节点(IDk的关注列表中的全部用户ID)加入Q,转到(2).2.2 微博节点分析该部分讨论微博用户信息的模型表示方法.对于给定的一个用户u,其用户信息包含4种属性信息(背景信息、微博文本、社交信息、交互信息),因此u的模型表示问题可分解为4种属性信息表示问题.即Profile(u)={Background(u),Tweet(u),Relation(u),Interaction(u)},具体说明如下:(1)Background(u):表示u的背景信息,包含u的3种属性信息(位置信息、标签信息、个人描述),均是短文本,可表示为字符串.Background(u)={Place(u),Tag(u),Introduction(u)}.(2)Tweet(u):表示u发布的全部微博所拼接成的长文本.本文将其表示为一个文本向量.过程如下:文本预处理.对Tweet(u)进行分词、停用词过滤、词性标注等处理;特征提取.采用信息增益的特征选择算法提取Tweet(u)的特征词,对文本进行降维处理;权重计算.Tweet(u)中的每个特征词i的权重wi,本文采用tf*idf方法来计算,即wi=tfi(Tweet(u))×logN/ni,其中tfi(Tweet(u))表示特征词i在Tweet(u)中的频率,logN/ni为特征词i的逆文档频率.向量表示.Tweet(u)=(w1,w2,…,wn),其中wi为微博文本的某个特征词i的权重.(3)Relation(u):表示u的社交信息,包括两种属性信息(关注信息、粉丝信息),本文将它们分别表示为两个向量:关注向量Followee(u)、粉丝向量Follower(u),则Relation(u)={Followee(u),Follower(u)}.具体方法是:将所有用户编号{0,1,2,…,n},若用户u关注了编号为i的用户,则Followee(u)的第i个分量为1,否则为0;同理,如果编号为i的用户关注了用户u,则Follower(u)的第i个分量为1,否则为0.(4)Interaction(u):表示u的交互信息,包括两种属性信息(转发信息、评论信息).本文将它们分别表示为两个向量:转发向量Retweet(u)、评论向量Comment(u).Interaction(u)={Retweet(u),Comment(u)}.具体方法是:将所有用户编号{0,1,9021期徐志明等:微博用户的相似性度量及其应用2,…,n},Retweet(u)的第i个分量表示用户u转发用户i的微博次数;Comment(u)的第i个分量表示用户u评论用户i的微博次数.2.3 微博用户关系分析这部分分析微博用户之间的关系强度.对于两个微博用户(u,v),他们的关系强度strength(u,v),可以根据他们的相似度sim(u,v)或他们的交互性Interaction(u,v)度量.其中,sim(u,v)更能揭示(u,v)之间潜在的兴趣相似性,而Interaction(u,v)一般只能反映已经建立起关注关系的用户之间的交互程度.因此从挖掘用户潜在的兴趣相关性的角度看,对于信息推荐来说,sim(u,v)更有应用价值.因此,本文将用户关系强度视为用户之间的相似度,strength(u,v)=sim(u,v),利用sim(u,v)来分析用户关系.对于(u,v),Profile(u)=Background(u),Tweet(u),Relation(u),Interaction(u)},Profile(v)={Background(v),Tweet(v),Relation(v),Interac-tion(v)}.本文根据(u,v)之间的前3种属性相似度来计算(u,v)之间的相似度sim(u,v).具体方法是:先求解(u,v)的各个属性相似度,然后对它们进行加权融合,来计算sim(u,v).即sim(u,v)=ω1sim(Background(u),Background(v))+ω2sim(Tweet(u),Tweet(v))+ω3sim(Relation(u),Relation(v))(1)其中,ωi为各个属性相似度的权重,ω1+ω2+ω3=1.各个属性相似度的计算描述如下.2.3.1 微博用户的背景信息相似度计算对于两个用户(u,v),他们的背景信息包含3种属性信息(位置信息、标签信息、个人描述),分别表示为Background(u)={Place(u),Tag(u),Introduction(u)},Background(v)={Place(v),Tag(v),Introduction(v)}.其背景信息相似度sim(Background(u),Background(v)),可以根据(u,v)之间的各个属性相似度而计算: sim(Background(u),Background(v))= ω1sim(Place(u),Place(v))+ ω2sim(Tag(u),Tag(v))+ ω3sim(Introduction(u),Introduction(v))(2)其中ωi为各个属性相似度的权重,ω1+ω2+ω3=1.式(2)中右边各个属性相似度计算方式如下.(1)sim(Place(u),Place(v)):表示(u,v)之间的位置信息相似度.因为新浪微博的位置信息是“省/市”结构,所以本文采用分层比较的方法来计算sim(Place(u),Place(v)).若Place(u)和Place(v)的省、市信息均相同,则sim(Place(u),Place(v))=1;若省信息相同,市信息不同,则sim(Place(u),Place(v))=2/3;若省、市信息均不同,则为0.(2)sim(Tag(u),Tag(v)):表示(u,v)之间的标签相似度,本文采用编辑距离方法计算[23].因为,编辑距离常用于评价两个字符串间的相似度,也可用于计算两个自然语言语句的相似度.编辑距离反映了两个字符串的绝对差异,而相似度以一个[0,1]之间的数值反映两个字符串的相似程度,数值越大表示相似程度越高.令Tag(u)、Tag(v)的编辑距离为Distance(Tag(u),Tag(v)),length(x)表示x的长度,则Tag(u)、Tag(v)之间的标签相似度的计算公式如下: sim(Tag(u),Tag(v))= 1-Distance(Tag(u),Tag(v))/ max(Length(Tag(u)),Length(Tag(v)))(3)(3)sim(Introduction(u),Introduction(v)):表示(u,v)之间的个人描述相似度.其计算方法与标签相似度相同.具体的公式为sim(Introduction(u),Introduction(v))= 1-Distance(Introduction(u),Introduction(v))/max(Length(Introduction(u)),Length(Introduction(v)))(4)2.3.2 微博用户的文本相似度计算对于两个用户(u,v),它们的微博文本可分别表示为两个文本特征向量,Tweet(u)=(wu1,wu2,…,wun),Tweet(v)=(wv1,wv2,…,wvn).(u,v)之间的微博文本相似度sim(Tweet(u),Tweet(v))的计算公式如下:sim(Tweet(u),Tweet(v))=∑ni=1(wui*wvi)∑ni=1w2槡ui∑ni=1w2槡vi(5)2.3.3 微博用户的社交信息相似度计算对于两个用户(u,v),他们的社交信息分别表示为Relation(u)={Followee(u),Follower(u)},Relation(v)={Followee(v),Follower(v)}.因此(u,v)之间的社交信息相似度的计算问题可以分解为两种属性信息(关注信息、粉丝信息)的相似度计算问题.本文先采用了余弦相似度方法来计算(u,v)之间的两种属性信息相似度[24],(u,v)的关注信息相似度、粉丝信息相似度的计算公式分别为 sim(Followee(u),Followee(v))= (Followee(u)·Followee(v))/012计 算 机 学 报2014年 (‖Followee(u)‖*‖Followee(v)‖)(6) sim(Follower(u),Follower(v))= (Follower(u)·Follower(v))/ (‖Follower(u)‖*‖Follower(v)‖)(7) 另外,本文给出了另外一组(u,v)之间的关注信息相似度、粉丝信息相似度的计算公式,分别为sim(Followee(u),Followee(v))= (Followee(u)·Followee(v))/ (log‖Followee(u)‖2*log‖Followee(v)‖2)(8)sim(Follower(u),Follower(v))= (Follower(u)·Follower(v))/ (log‖Follower(u)‖2*log‖Follower(v)‖2)(9) 为了保证式(8)和(9)的计算结果处在[0,1]区间,本文对它们进行了正规化处理.sim(A,B)′=(sim(A,B)-MIN)/(MAX-MIN)(10)其中,MAX是所有用户之间社交信息相似度的最大值,MIN是最小值.上述的微博用户的关系信息相似度、粉丝信息相似度,即可以单独作为社交信息相似度使用,也可以将它们加权融合,来计算用户之间的社交信息相似度: sim(Relation(u),Relation(v))= ω1*sim(Followee(u),Followee(v))+ ω2*sim(Follower(u),Follower(v))(11)其中,ωi是关注信息相似度、粉丝信息相似度的权值,ω1+ω2=1.2.3.4 微博用户的交互性计算对于两个用户(u,v),他们之间的交互信息分别表示为Interactive(u)={Retweet(u),Comment(u)},Interactive(v)={Retweet(v),Comment(v)}.将所有用户编号{0,1,2,…,n},设(u,v)的编号分别为(i,j).Retweet(u)的第j个分量表示用户u对用户v的微博转发次数,记为Retreet_num(u->v);Comment(u)的第j个分量表示用户u对用户v的微博评论次数,记为Comment_num(u->v).同理,Retweet(v)的第i个分量表示用户v对用户u的微博转发次数,记为Retreet_num(v->u);Comment(v)的第i个分量表示v对u的微博评论次数Comment_num(v->u).本文给出了(u,v)之间的交互性计算公式:Interactive(u,v)=ω1*Retreet_num(u->v)+Retreet_num(v->u)2+ω2*Comment_num(u->v)+Comment_num(v->u)2(12)其中,ωi是转发行为、评论行为的权值,ω1+ω2=1.3 实验及分析为了测试本文提出的几种微博用户的相似度计算方法,本文开展了相关的实验.实验包括3个方面:(1)系统地对比几种用户属性信息的相似度计算方法的优劣;(2)应用基于各种用户属性信息的用户相似度开展了用户推荐的相关实验,以便考察它们在用户推荐方面的性能;(3)应用基于社交信息的用户相似度,生成微博的用户相似性网络,在该网络上进行了团体挖掘的实验;下面给出了详细的实验介绍.实验数据:对于微博用户关系分析问题来说,尚缺少公开的中文标准数据集.本文的实验数据来自于自行开发的微博爬虫所搜集到的一组新浪微博的用户数据(采集时间是2011年10月20日),主要是由国内互联网高管领域相关用户的社交圈组成.采集方法是:首先从新浪微博名人堂互联网高管领域中挑选50个用户作为种子节点,利用雪球采样的爬行策略,顺着种子节点的关系链向外爬行扩展一层,得到本文实验1、2研究的用户集合U(共157 812人)以及它们的个人信息(157 812人)以及它们的个人背景信息(157 812条)、社交信息(11 684 003条)、微博文本(5 712 552条)、转发与评论信息(5 415 110条).3.1 实验1:微博用户的属性相似度的对比实验评价策略:在实验数据的用户集合U上,本文对微博用户之间的各种属性信息(背景信息、微博文本、社交信息)的相似度计算方法进行实验测试.对于每个待测的用户相似度计算方法的测试方法,具体如下:(1)对于每个用户u∈U,利用用户的交互性计算公式(12),计算u与Followee(u)中每个元素v之间的交互性,然后按着交互性对Followee(u)中的元素进行降序排列,得到u的最关注的用户有序集,称作u的关注序列F(u).(2)对于每个用户u∈U,利用待测的用户相似度算法,计算u与U-{u}中的每个元素v之间的相似度,然后按照相似度对U-{u}中的所有元素进行降序排列,得到一个与u最相似的用户有序集,称作u的相似序列S(u).1121期徐志明等:微博用户的相似性度量及其应用本文将u的相似序列S(u)视为待测结果,将u的关注序列F(u)视为标准答案.通过对比F(u)、S(u)的差异,来评价所使用的用户相似度算法的性能.将S(u)、F(u)的前N个元素组成的子集分别记为SN1(u)、FN1(u).本文借用信息检索领域的两个评价指标:P@N和排序准确率(Accuracy)比较两个序列S(u)、F(u)之间的差异,从而实现对用户相似度算法进行评价,其中P@N的计算公式如下:P@N=1|U|∑u∈USN1(u)∩FN1(u)N(13) 在实验中,N分别取3、5、10、15、20、25、30、35、40、45、50.在P@N的计算公式中,没考虑SN1(u)、FN1(u)之间的元素的排列次序的因素,本文采用排序准确率(Accuracy)指标对用户相似度算法继续评价,其计算公式如下:Accuracy=1|U|∑u∈U1|F(u)|∑|F(u)|i=111+|S(u)_ranki-F(u)_ranki|(14)式(14)中,对于关注序列F(u)中的每个用户i,它在F(u)、S(u)中出现的次序位置分别记为F(u)_ranki、S(u)_ranki.实验设置:本实验利用用户之间的交互性所产生的关注序列,比对各种用户之间的相似度所产生的相似序列,来评价相应的用户相似度计算方法的优劣.其中,用户(u,v)之间的属性相似度、交互性计算公式中的权重采用层次判别矩阵计算得出,权重设置如表1所示.表1中的权值计算所使用的层次判别矩阵如表2所示.表1 实验中的权重设置公式/注释权重分配Interactive(u,v)交互性的计算公式(12)转发信息ω1=0.25评价信息ω2=0.75sim(Relation(u),Relation(v))社交信息相似度的计算公式(11)关注信息ω1=0.167粉丝信息ω2=0.833sim(Background(u),Background(v))背景信息相似度的计算公式(2)位置信息ω1=0.297标签信息ω2=0.539个人描述ω3=0.164sim(Profile(u),Profile(v))用户相似度的计算公式(1)背景信息ω1=0.139社交信息ω2=0.794微博文本ω3=0.067表2 实验中计算权重的判别矩阵(a)交互信息的判别矩阵(b)社交信息的判别矩阵交互信息转发信息评价信息转发信息1 1/3评论信息3 1社交信息关注信息粉丝信息关注信息1 1/5粉丝信息5 1(c)背景信息的判别矩阵(d)用户信息的判别矩阵背景信息位置信息标签信息个人描述地理位置1 1/2 2个人标签2 1 3个人描述1/2 1/3 1用户信息背景信息社交信息微博文本资料信息1 1/9 3社交信息9 1 9微博文本1/3 1/9 1(1)微博用户的背景信息相似度的实验结果.该实验的动机是考察微博用户的背景信息及其3种属性信息(位置信息、标签信息、个人描述)对用户相似度的影响.实验内容:首先分别计算用户的位置信息相似度、标签信息相似度、个人描述相似度,然后将它们加权融合,得到用户的背景信息相似度.图2(a)和(b)分别给出了上述各种相似度在P@N和排序准确率上的实验结果.实验结果显示:用户的背景信息的3种属性信息相比,位置信息相似度的实验结果最好;综合地看,3种属性信息相似度加权融合而成的用户的背景信息相似度的实验结果最好.(2)微博用户的社交信息相似度的实验结果.该实验的动机是考察微博用户的社交信息及其两种属性信息(关注信息、粉丝信息)在计算用户相似度上的性能.实验内容:M1表示一组面向社交信息的对数相似度(式(8)、(9)),而M2表示一组面向社交信息的余弦相似度(式(6)、(7)).首先分别利用M1和M2计算用户的关注信息相似度、粉丝信息相似度,得到M1的关注信息相似度、M1的粉丝信息相似度、M2的关注信息相似度、M2的粉丝信息相似度;采用式(11)分别将M1(或M2)计算的关注信息212计 算 机 学 报2014年图2 用户背景信息相似度的实验结果相似度、粉丝信息相似度加权融合,得到用户的M1-社交信息相似度(或M2-社交信息相似度).图3(a)和(b)分别给出了上述各种相似度在P@N和排序准确率指标上的实验结果.实验结果显示:对于用户相似度来说,M1的粉丝信息相似度的P@N最好,而M2的粉丝信息相似度的排序准确率最高.(3)微博用户相似度的实验结果.该实验的动机是考察用户信息及其3种属性信息(背景信息、微博文本、社交信息)在计算用户相似度上的性能.实验内容:首先计算微博文本相似度、社交信息相似度、背景信息相似度,然后对它们加权融合,得到用户的整体相似度.图4(a)和(b)给出了上述各种相似度在P@N和排序准确率上的实验结果.实验结果显示:对于用户相似度来说,用户信息的3种属性信息相比,社交信息相似度的P@N和排序准确率实验结果均最好,而用户的整体相似度均次之.通过上述实验结果的观察,可见当计算两个用户之间的相似度时,用户的结构性信息(社交信息)所起的作用较大,而用户的文本性信息(背景信息、微博文本)所起的作用较小.可能的原因是对于一个微博人物来说,他的个人信息(背景信息、社交信息、微博文本、交互信息)可分为两类:结构性信息(社交信息)与文本性信息(背景信息、微博文本、交互信息)①.(1)用户的文本性信息的特点.①用户的背景信息的不完整性.因为用户的背3121期徐志明等:微博用户的相似性度量及其应用①用户的背景信息、微博文本、交互信息内部,也带有一定的结构性,但它们最主要的特征还是短文本.其中:对于交互性信息不在讨论之中,因为本文将其用于计算用户之间的交互性,没有用来计算用户之间的相似度.景信息涉及用户隐私,很多用户没填写完整的背景信息,这影响了它们刻画用户特征的能力.②用户发布的微博常常带有很大的随意性,含有大量的噪音信息,不能完全精确地反映用户的兴趣意图.③上述的背景信息、微博文本均为短文本信息,抽取用户兴趣特征有一定难度.(2)用户的结构性信息的特点.①与用户的文本性信息相反,用户的结构性社交信息反映了用户的社会关系,决定着用户们愿意接收的人物频道信息,因此被用户精心地维护、选择,因此社交信息几乎没有噪音信息,可以更准确地反映用户的兴趣.②其中,对于用户的社交信息来说,粉丝信息与关注信息相比,前者对度量用户之间的相似度所起的作用更大的原因在于:(i)用户的关注信息反映了他的兴趣多样性,而不能反映他最本质的兴趣特征,而用户的粉丝信息则更能反映用户最本质的兴趣;(ii)关注信息往往比粉丝信息少得多,粉丝信息往往比关注信息带有更多的信息量.基于上述两种原因,两者相比,粉丝信息更能反映人物之间的相似性.3.2 实验2:微博用户相似度的用户推荐实验评价策略:在实验数据的用户集合U上,本文利用上述微博用户相似度计算方法进行了用户推荐的实验,测试这些算法对用户推荐的能力.对于每个待测的用户相似度计算方法的测试方法如下:(1)对于每个用户u∈U,从Followee(u)中随机删除50%的元素,被删除的元素组成一个集合T(u).(2)利用用户的交互性计算公式(12),计算u与T(u)中每个元素v之间的交互性,然后按交互性对T(u)中的元素进行降序排列,得到u的按交互性排序的、被删除的用户有序集,称作u的删除序列D(u).(3)对于每个用户u∈U,利用待测的用户相似度算法,计算u与U-{u}-Followee(u)中的每个元素v之间的相似度,然后对U-{u}-Followee(u)中的所有元素按该用户相似度进行降序排列,得到与u最相似的用户有序集,称作u的相似序列S(u).本文将u的相似序列S(u)视为待测结果,将u的删除序列D(u)视为标准答案.通过对比S(u)、D(u)的差异,来评价所使用的用户相似度算法在用户推荐上的性能.将S(u)、D(u)的前N个元素组成的子集分别记为SN1(u)、DN1(u).本文采用两个评价指标:P@N和MAP比较两个序列S(u)、D(u)之间的差异,从而实现对用户相似度算法进行评价,其中P@N的计算公式如下:P@N=1|U|∑u∈USN1(u)∩DN1(u)N(15) 在实验中,N分别取3、5、10、15、20、25、30、35、40、45、50.MAP的计算公式如下:MAP=1|U|∑u∈U1|D(u)|∑|D(u)|i=1iS(u)_rank[]i(16) 式(16)中,对于删除序列D(u)中的每个用户i,它在S(u)中出现的次序位置记为S(u)_ranki.(1)基于背景信息相似度的用户推荐实验结果该实验的动机是考察用户的背景信息及其3种属性信息(位置信息、标签信息、个人描述)的相似度在用户推荐上的性能.实验内容:分别应用上述各种相似度,进行用户推荐.图5(a)和(b)给出了上述各种相似度在P@N和MAP上的实验结果.实验结果显示:对于用户信息推荐来说,用户背景信息的3种属性信息相比,位置信息相似度的用户推荐效果最好;综合地看,3种属性信息加权融合而成的用户背景信息相似度的用户推荐效果最好.图5 基于背景信息相似度的用户推荐结果(2)基于社交信息相似度的用户推荐实验结果该实验的动机是考察用户的社交信息及其两种412计 算 机 学 报2014年。

相关文档
最新文档