中文微博用户标签的调查分析_以新浪微博为例_黄红霞
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表 1 微博用户特征分析
极小值
关注数 2 粉丝数 109 微博数 133
极大值 1 999
16 736 095 38 435
均值 537. 73 867 950. 24 4 799. 90
标准差 527. 852 2 247 765. 8055 7 692. 347
从表 1 中 可 以 看 出,平 均 每 个 用 户 的 关 注 数 是 537. 73,而且关注数呈现正态分布,标准差为 527. 825, 表明在这 100 个用户中绝大多数的用户关注数在 537 左右,已远远超过微博达人的申请标准,即关注数不低 于 100。这 100 个用户中,用户发布微博的平均 值为 4 799. 90。
本文通过以下两种途径获取调研数据: ( 1) 从自然语言处理与信息检索共享平台①下载 NLPIR 微博内容语料库,此微博内容语料库共有 275 823 条微博数据。本文从 NLPIR 微博内容语料库提取 发布微博数大于 100 条的用户所对应的微博数据,共 计 125 个用户。然后再对这些用户进行二次数据筛选 处理,利用用户 ID 进入用户微博主页,查看用户标签, 若该用户标签数小于 4,则删除此用户。通过该方法, 最终从 NLPIR 微博内容语料库获得 59 个用户数据,共 计 64 400 条微博数据。 ( 2) 在新浪微博网络平台上,手动抓取用户的微 博数据。本文制 定 了 一 些 标 准 来 人 工 选 取 用 户 ,如 用 户的影响力、活跃程度、兴趣爱好等。这些标准可以由 用户的粉丝数、关注数、微博数和微博认证等活动信息 间接体现。 通过上述两种途径共采集 100 个微博用户,共计 68 650条微博信息。人均微博数约为 686 条。 3. 3 实验数据准备 ( 1) 用户标签的实验数据准备 获取 100 个微博用户,每个微博用户对应一个 ID, 利用 ID 进入微博主页,采集微博用户的标签。在此数 据准备中,采集用户标签共 825 个,人均标签约 8 个。 ( 2) 机器标签的实验数据准备 对每个 微 博 用 户 发 布 的 微 博 信 息 进 行 关 键 词 提 取。在微博信息的数据准备中,共有 68 650 条微博文 本,对这些微博文本按照用户 ID( UID) 进行汇总,得到 每个用户的微博集合,然后从中提取关键词。 本文利用机器学习的方法从微博集合中提取关键 词,即采用 TextRank 算 法[8],从 博 文 中 提 取 具 有 代 表 性的词语作为博文关键词。TextRank 算法的基本原理 为: 将文本中的词语作为图上的点,根据词语之间的关 系( 如在给定窗口内共现) 作为边,构造词语之间的关 系图,以 PageRank 为基础进行迭代计算,得到每个词 语的 TextRank 值,将得分排在前面的词语作为候选关 键词,还可以依据候选关键词的相邻关系,得到复合关 键词。本文利用开 源 工 具 FudanNLP② 来 提 取 科 学 网
Investigation and Analysis of Chinese Microblog User Tags ———Using Sina Weibo as Example
Huang Hongxia Zhang Chengzhi ( Department of Information Management,Nanjing University of Science and Technology,Nanjing 210094,China)
【Abstract】Based on the microblog user tags and microblog content data from Sina Weibo,this paper analyses the features of user tags including user characteristics,the semantic relationship of the user tags,the degree of correlation between user tags and microblog content,and the distribution of emotion tags. On the results of investigation and analysis, the paper gives some advice for improvements of tag suggestion. 【Keywords】Social tag User tag of microblog Semantic tags Tag suggestion
① http: / / www. nlpir. org / ② http: / / code. google. com / p / fudannlp /
50 现代图书情报技术
总第 225 期 2012 年 第 10 期
博客的关键词。 为了提高实验结果的可信度,对每个用户提取三
组不同数量的关键词,分别为 10 个、20 个、30 个,从而 得到三组机器标签。
在 100 个用户中,平均粉丝数为 867 949,粉丝数 的分布情况如表 2 所示:
表 2 微博用户粉丝数分布情况
粉丝数
102 - 103 103 - 104 104 - 105
用户数 25 24 9
百度文库
粉丝数
105 - 106 106 - 107 107 + +
本文选择国内最具代表性的微博平台之一———新浪微博作为研究对象,对微博用户标签进行调研。本文采 集 微博用户的用户标签和微博内容数据,利用这些数据进行用 户 特 征 、用 户 标 签 的 语 义 关 系 、用 户 标 签 与 微 博 内
收稿日期: 2012 - 08 - 24 收修改稿日期: 2012 - 10 - 15 * 本文系国家自然科学基金项目“基于可比语料的多语言文本聚类研究”( 项目编号: 70903032) 和中央高校基本科研业务费专项基金项 目“Web 2. 0 环境下多语言标签自动聚类研究”( 项目编号: NUST2011ZDJH15) 的研究成果之一。
3 调研数据获取
3. 1 调研流程概述 本文以新浪微博为例,进行微博用户标签的调研,
主要步骤为 数 据 获 取、调 研 数 据 分 析。 其 中 数 据 获 取 包括采集微博用户的个人信息及微博内容数据。
调研数据分析主要包括用户信息的统计分析、标 签的语义关系统计分析、用户标签和微博内容的关联
度统计分析、情感标签的统计分析等方面。 3. 2 调研数据获取
4 调研数据分析
4. 1 用户特征分析 本文对微博用户的用户信息进行统计,用户信息
包括用 户 ID ( UID) 、关 注 数 ( friends _ count) 、粉 丝 数 ( followers_count) 、微博数 ( statuses _count) 。100 个 用 户的关注数、粉丝数、微博数的统计结果如表 1 所示:
( 3) 情感标签的实验数据准备 为了进一步区分标签和了解用户标签与用户发布 的微博内容的关联度,本文对用户标签及微博内容生 成的机器标签分别进行情感标签的统计。其中情感标 签的数据 来 源 为《知 网 》① 情 感 分 析 用 词 词 集,含 正 面 情感词语、负面 情 感 词 语、正 面 评 价 词 语、负 面 评 价 词 语、主张词语和程度级别词语共9 313组中文词语。 通过人工剔除非情感标签的词汇,最终得到与情 感标签匹配的用户标签数为 182,与情感标签匹配的 机器标签数为 289。 3. 4 调研数据格式说明 本文主要采集微博用户描述数据与微博内容数据。 ( 1) 微博用户描述数据 微博用户描述信息主要包括唯一标识信息和基本 描述信息。 唯一标识信息,即用户 ID( UID) ,用户 UID 用于后 台数据管理,在新浪微博中是一个随机生成的 10 位数 字。微博昵称用于用户交流,可以是用户真实姓名,也 可以是个性化的称呼。粉丝数、关注数、微博数、创建时 间和微博认证是用户的活动信息,间接表现了用户的各 种特征,如影响力、活跃程度、兴趣爱好、发言习惯等。 基本描述信息包括: 用户地址、用户标签和性别等 信息,显式地表现了用户的特征,其中用户标签和个人 描述对用户特征的刻画最直接。用户标签是用户自定 义描述自己 职 业、兴 趣 爱 好 等 的 关 键 词。 微 博 用 户 可 以自由选择 词 汇 作 为 其 用 户 标 签。 目 前,在 新 浪 微 博 平台上,每个微博账号最多可以添加 10 个标签。 ( 2) 微博内容数据 微博内容数据从创作上讲,分为原创与非原创; 从 表现形式上讲,分为文字、图片、视频、音乐。微博信息 的组织方式 是 嵌 套 式,方 式 比 较 复 杂。 与 用 户 信 息 一 样,微博信息也有唯一标识符,即微博 ID。微博的内 容限定为 140 字以内,内容简短。
总第 225 期 2012 年 第 10 期
情报分析与研究
中文微博用户标签的调查分析*
———以新浪微博为例
黄红霞 章成志 ( 南京理工大学信息管理系 南京 210094)
【摘要】以新浪微博为例,采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语 义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在以上调研基础上,针对标 签推荐服务提出改进建议。 【关键词】社会化标签 微博用户标签 语义标签 标签推荐 【分类号】G353. 1
XIANDAI TUSHU QINGBAO JISHU 49
情报分析与研究
容的关联度、情感标签等不同方面的统计分析,并针对 标签推荐服务提出改进建议,从而为用户提供更好的 好友与信息推荐服务。
2 相关研究工作概述
本节主要对标签语义关系、标签的情感分析等相 关研究工作分别进行概述。
( 1) 标签语义关系研究 在社会化标签系统中,标签之间存在一定的隐性 关系。挖掘标签 之 间 的 联 系,有 助 于 更 好 地 理 解 标 签 的语义和用 户 行 为。 一 般 而 言,共 同 标 注 某 一 资 源 的 所有标签都互为共现标签,标签被用户使用标注同一 资源的次数越 多,其 共 现 频 率 越 高,相 关 度 也 就 越 高。 标签的共现关系可以在一定程度上反映出标签之间的 语义关系,如同义关系、层次关系等[1]。 深入到标注过程中,Sinha 认为标注是用户在头脑 中产生各种可以描述某项资源的语义概念,并将这些 语义概念转化为标签赋予该资源的一种分析过程[2,3], Sen 等[4]进一步发现个人意向、社群影响和标签推荐 算法是影响用户标注过程的重要因素。 ( 2) 标签的情感分析研究 用户用 Tag 标记自己感兴趣的东西更加贴近用户 自身的理解和兴趣的表达方式。社会标签也包括很多 主观情感的表达,如果将网络情绪分为“喜悦、愤怒、悲 哀、恐惧、惊慌”等,则 称 为“情 感 分 析 ”,合 称 为“情 感 倾向性 分 析”[5]。Parikh 等[5]、Barbosa 等[6] 和 Davidiv 等[7]均使用机器学习 方 法 训 练 针 对 微 博 的 情 感 分 类 器。其中,Davidiv 等[7] 根 据 微 博 文 本 的 特 点,提 出 微 博的情感符号,将微博文本分为多个情感类,而不仅是 正向情感、负 向 情 感 和 无 情 感。 其 中 情 感 性 标 签 在 词 性上一般为形容词,而与时间和任务相关的标签应选 择名词或名词短语。
1引言
在微博服务中,微博用户通常根据其职业、兴趣爱好等因素定义一些关键词,这种类型的关键词通常被称为 用户标签( User Tag) 。用户可以自由选择词汇作为其用户标签。用户标签可用于微博好友推荐或微博信息推荐。 目前微博仍处于快速发展阶段,影响力在不断扩大,因此如何更好地利用微博来进行信息推荐服务,具有一定的 研究意义和应用价值。然而,目前关于微博用户标签的研究尚未引起关注,尚缺乏关于微博用户标签与微博内容 关联程度、用户标签语义关系等方面的调查研究。
极小值
关注数 2 粉丝数 109 微博数 133
极大值 1 999
16 736 095 38 435
均值 537. 73 867 950. 24 4 799. 90
标准差 527. 852 2 247 765. 8055 7 692. 347
从表 1 中 可 以 看 出,平 均 每 个 用 户 的 关 注 数 是 537. 73,而且关注数呈现正态分布,标准差为 527. 825, 表明在这 100 个用户中绝大多数的用户关注数在 537 左右,已远远超过微博达人的申请标准,即关注数不低 于 100。这 100 个用户中,用户发布微博的平均 值为 4 799. 90。
本文通过以下两种途径获取调研数据: ( 1) 从自然语言处理与信息检索共享平台①下载 NLPIR 微博内容语料库,此微博内容语料库共有 275 823 条微博数据。本文从 NLPIR 微博内容语料库提取 发布微博数大于 100 条的用户所对应的微博数据,共 计 125 个用户。然后再对这些用户进行二次数据筛选 处理,利用用户 ID 进入用户微博主页,查看用户标签, 若该用户标签数小于 4,则删除此用户。通过该方法, 最终从 NLPIR 微博内容语料库获得 59 个用户数据,共 计 64 400 条微博数据。 ( 2) 在新浪微博网络平台上,手动抓取用户的微 博数据。本文制 定 了 一 些 标 准 来 人 工 选 取 用 户 ,如 用 户的影响力、活跃程度、兴趣爱好等。这些标准可以由 用户的粉丝数、关注数、微博数和微博认证等活动信息 间接体现。 通过上述两种途径共采集 100 个微博用户,共计 68 650条微博信息。人均微博数约为 686 条。 3. 3 实验数据准备 ( 1) 用户标签的实验数据准备 获取 100 个微博用户,每个微博用户对应一个 ID, 利用 ID 进入微博主页,采集微博用户的标签。在此数 据准备中,采集用户标签共 825 个,人均标签约 8 个。 ( 2) 机器标签的实验数据准备 对每个 微 博 用 户 发 布 的 微 博 信 息 进 行 关 键 词 提 取。在微博信息的数据准备中,共有 68 650 条微博文 本,对这些微博文本按照用户 ID( UID) 进行汇总,得到 每个用户的微博集合,然后从中提取关键词。 本文利用机器学习的方法从微博集合中提取关键 词,即采用 TextRank 算 法[8],从 博 文 中 提 取 具 有 代 表 性的词语作为博文关键词。TextRank 算法的基本原理 为: 将文本中的词语作为图上的点,根据词语之间的关 系( 如在给定窗口内共现) 作为边,构造词语之间的关 系图,以 PageRank 为基础进行迭代计算,得到每个词 语的 TextRank 值,将得分排在前面的词语作为候选关 键词,还可以依据候选关键词的相邻关系,得到复合关 键词。本文利用开 源 工 具 FudanNLP② 来 提 取 科 学 网
Investigation and Analysis of Chinese Microblog User Tags ———Using Sina Weibo as Example
Huang Hongxia Zhang Chengzhi ( Department of Information Management,Nanjing University of Science and Technology,Nanjing 210094,China)
【Abstract】Based on the microblog user tags and microblog content data from Sina Weibo,this paper analyses the features of user tags including user characteristics,the semantic relationship of the user tags,the degree of correlation between user tags and microblog content,and the distribution of emotion tags. On the results of investigation and analysis, the paper gives some advice for improvements of tag suggestion. 【Keywords】Social tag User tag of microblog Semantic tags Tag suggestion
① http: / / www. nlpir. org / ② http: / / code. google. com / p / fudannlp /
50 现代图书情报技术
总第 225 期 2012 年 第 10 期
博客的关键词。 为了提高实验结果的可信度,对每个用户提取三
组不同数量的关键词,分别为 10 个、20 个、30 个,从而 得到三组机器标签。
在 100 个用户中,平均粉丝数为 867 949,粉丝数 的分布情况如表 2 所示:
表 2 微博用户粉丝数分布情况
粉丝数
102 - 103 103 - 104 104 - 105
用户数 25 24 9
百度文库
粉丝数
105 - 106 106 - 107 107 + +
本文选择国内最具代表性的微博平台之一———新浪微博作为研究对象,对微博用户标签进行调研。本文采 集 微博用户的用户标签和微博内容数据,利用这些数据进行用 户 特 征 、用 户 标 签 的 语 义 关 系 、用 户 标 签 与 微 博 内
收稿日期: 2012 - 08 - 24 收修改稿日期: 2012 - 10 - 15 * 本文系国家自然科学基金项目“基于可比语料的多语言文本聚类研究”( 项目编号: 70903032) 和中央高校基本科研业务费专项基金项 目“Web 2. 0 环境下多语言标签自动聚类研究”( 项目编号: NUST2011ZDJH15) 的研究成果之一。
3 调研数据获取
3. 1 调研流程概述 本文以新浪微博为例,进行微博用户标签的调研,
主要步骤为 数 据 获 取、调 研 数 据 分 析。 其 中 数 据 获 取 包括采集微博用户的个人信息及微博内容数据。
调研数据分析主要包括用户信息的统计分析、标 签的语义关系统计分析、用户标签和微博内容的关联
度统计分析、情感标签的统计分析等方面。 3. 2 调研数据获取
4 调研数据分析
4. 1 用户特征分析 本文对微博用户的用户信息进行统计,用户信息
包括用 户 ID ( UID) 、关 注 数 ( friends _ count) 、粉 丝 数 ( followers_count) 、微博数 ( statuses _count) 。100 个 用 户的关注数、粉丝数、微博数的统计结果如表 1 所示:
( 3) 情感标签的实验数据准备 为了进一步区分标签和了解用户标签与用户发布 的微博内容的关联度,本文对用户标签及微博内容生 成的机器标签分别进行情感标签的统计。其中情感标 签的数据 来 源 为《知 网 》① 情 感 分 析 用 词 词 集,含 正 面 情感词语、负面 情 感 词 语、正 面 评 价 词 语、负 面 评 价 词 语、主张词语和程度级别词语共9 313组中文词语。 通过人工剔除非情感标签的词汇,最终得到与情 感标签匹配的用户标签数为 182,与情感标签匹配的 机器标签数为 289。 3. 4 调研数据格式说明 本文主要采集微博用户描述数据与微博内容数据。 ( 1) 微博用户描述数据 微博用户描述信息主要包括唯一标识信息和基本 描述信息。 唯一标识信息,即用户 ID( UID) ,用户 UID 用于后 台数据管理,在新浪微博中是一个随机生成的 10 位数 字。微博昵称用于用户交流,可以是用户真实姓名,也 可以是个性化的称呼。粉丝数、关注数、微博数、创建时 间和微博认证是用户的活动信息,间接表现了用户的各 种特征,如影响力、活跃程度、兴趣爱好、发言习惯等。 基本描述信息包括: 用户地址、用户标签和性别等 信息,显式地表现了用户的特征,其中用户标签和个人 描述对用户特征的刻画最直接。用户标签是用户自定 义描述自己 职 业、兴 趣 爱 好 等 的 关 键 词。 微 博 用 户 可 以自由选择 词 汇 作 为 其 用 户 标 签。 目 前,在 新 浪 微 博 平台上,每个微博账号最多可以添加 10 个标签。 ( 2) 微博内容数据 微博内容数据从创作上讲,分为原创与非原创; 从 表现形式上讲,分为文字、图片、视频、音乐。微博信息 的组织方式 是 嵌 套 式,方 式 比 较 复 杂。 与 用 户 信 息 一 样,微博信息也有唯一标识符,即微博 ID。微博的内 容限定为 140 字以内,内容简短。
总第 225 期 2012 年 第 10 期
情报分析与研究
中文微博用户标签的调查分析*
———以新浪微博为例
黄红霞 章成志 ( 南京理工大学信息管理系 南京 210094)
【摘要】以新浪微博为例,采集微博用户的用户标签和微博内容数据,利用这些数据进行用户特征、用户标签的语 义关系、用户标签与微博内容的关联度、情感标签分布等不同方面的调查统计分析。在以上调研基础上,针对标 签推荐服务提出改进建议。 【关键词】社会化标签 微博用户标签 语义标签 标签推荐 【分类号】G353. 1
XIANDAI TUSHU QINGBAO JISHU 49
情报分析与研究
容的关联度、情感标签等不同方面的统计分析,并针对 标签推荐服务提出改进建议,从而为用户提供更好的 好友与信息推荐服务。
2 相关研究工作概述
本节主要对标签语义关系、标签的情感分析等相 关研究工作分别进行概述。
( 1) 标签语义关系研究 在社会化标签系统中,标签之间存在一定的隐性 关系。挖掘标签 之 间 的 联 系,有 助 于 更 好 地 理 解 标 签 的语义和用 户 行 为。 一 般 而 言,共 同 标 注 某 一 资 源 的 所有标签都互为共现标签,标签被用户使用标注同一 资源的次数越 多,其 共 现 频 率 越 高,相 关 度 也 就 越 高。 标签的共现关系可以在一定程度上反映出标签之间的 语义关系,如同义关系、层次关系等[1]。 深入到标注过程中,Sinha 认为标注是用户在头脑 中产生各种可以描述某项资源的语义概念,并将这些 语义概念转化为标签赋予该资源的一种分析过程[2,3], Sen 等[4]进一步发现个人意向、社群影响和标签推荐 算法是影响用户标注过程的重要因素。 ( 2) 标签的情感分析研究 用户用 Tag 标记自己感兴趣的东西更加贴近用户 自身的理解和兴趣的表达方式。社会标签也包括很多 主观情感的表达,如果将网络情绪分为“喜悦、愤怒、悲 哀、恐惧、惊慌”等,则 称 为“情 感 分 析 ”,合 称 为“情 感 倾向性 分 析”[5]。Parikh 等[5]、Barbosa 等[6] 和 Davidiv 等[7]均使用机器学习 方 法 训 练 针 对 微 博 的 情 感 分 类 器。其中,Davidiv 等[7] 根 据 微 博 文 本 的 特 点,提 出 微 博的情感符号,将微博文本分为多个情感类,而不仅是 正向情感、负 向 情 感 和 无 情 感。 其 中 情 感 性 标 签 在 词 性上一般为形容词,而与时间和任务相关的标签应选 择名词或名词短语。
1引言
在微博服务中,微博用户通常根据其职业、兴趣爱好等因素定义一些关键词,这种类型的关键词通常被称为 用户标签( User Tag) 。用户可以自由选择词汇作为其用户标签。用户标签可用于微博好友推荐或微博信息推荐。 目前微博仍处于快速发展阶段,影响力在不断扩大,因此如何更好地利用微博来进行信息推荐服务,具有一定的 研究意义和应用价值。然而,目前关于微博用户标签的研究尚未引起关注,尚缺乏关于微博用户标签与微博内容 关联程度、用户标签语义关系等方面的调查研究。