2013 - 微博产品评论挖掘模型研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
b. 宣传性微博。 这类微博一部分是官方为宣传产 品打造的,一部分是把产品作为奖品的活动宣传微博。 这两种类型的宣传性微博对于产品评论的挖掘都没有 意义,应在预处理时进行删除。
为方便分析,在进行微博产品评论挖掘时要保证 语言的统一性,因此,需要将微博中的英文词汇转换成 中文[4] ,并将产品名进行统一化表述,比如将 “ good” 替换为“ 好” ,将“ Iphone” 、“ 爱疯” 都替换成“ 苹果” 。 1. 2 情感分析与极性确定
Abstract Product review on the microblogging platform is an important channel for users to express their product demands and emotional tendencies. According the social characteristics of microblogging, the paper builds a microblogging product review mining model. On the basis of sentiment polarity analysis of product reviews, the model makes the reviews as two classes to study by different polarity, and mine the users concerned advantages and disadvantages of product features with the corresponding view by statistical analysis methods. On the other hand, according to the characteristics of the microblogging product reviews, the model could identify and analyze the product competitors through co-word network analysis method. Finally, the paper verifies the feasibility of the model by empirical analysis Key words microblogging short text sentiment analysis statistical analysis co-word network product reviews mining
第
32 卷 2013 年
第2 2月
期
Байду номын сангаас
情 报 杂 志
JOURNAL OF INTELLIGENCE
Vol. 32 No. 2 Feb. 2013
微博产品评论挖掘模型研究*
唐晓波 王洪艳
( 武汉大学信息资源研究中心 武汉 430072)
1. 2. 2 产品特征抽取。 为了进行产品特征词的 抽取,我们将名词词性的特征词进行词频统计,选取词 频较高的名词及名词词组,经人工筛选后,将其标注为 产品特征词。 通过这种方式选取的特征词有一定的针 对性,并且准确率较高。
1. 2. 3 情感词抽取及极性确定。 提取微博中表 示情感信息的评价词语是挖掘用户观点的关键步骤, 主要有基于语料库和基于词典两种方法[7] 。 本文采用 基于词典的方法,使用 HowNet 作为情感词典。 为了 能够准确地提取情感信息,需要对情感词典进行人工 扩展,将一些“ 网络流行语” 加入情感词典,比如“ 给 力”“坑爹”“弱爆”等。 针对具体的产品还应有与之对 应的表示用户观点的专业词汇,需要专业人士来参与 设定,比如手机领域特有的“ 死机、掉漆” 等词汇就属 于这种情况。
1. 2. 1 分词。 微博信息通过以上的预处理以后, 接下来就要对文本进行分句与分词。 分词是文本处理 的基础,目前,中文分词有多种不同的算 法 和 工 具。 ICTCLAS[5] 分词系 统 可 以 进 行 中 文 分 词、词 性 标 注、 命名实体识别和未登录词识别,分词正确率高达 97. 58% ,可以保证较好的分析效果,因此本文使用 ICTCLAS 进行分词。 对一条微博进行分词后,得到一个 词向量,其中每个词都带有词性标记,如名词、动词、形 容词、方位词等类型。 中文评论中主要有四类词对判 断用户情感色彩有重要作用分别是名词、形容词、动词 和副词[6] 。 因此,我们在特征词的选取时,主要考虑这 四类词语。
收稿日期:2012-09-07 修回日期:2012-11-28 基金项目:国家自然科学基金资助项目“ 社会化媒体集成检索与语义分析方法研究” ( 编号:71273194) 的研究成果之一。 作者简介:唐晓波(1962-) ,男,教授,博士生导师,研究方向:商务智能、知识组织与情报分析;王洪艳(1980 -) ,女,博士研究生,研究方向:商 务智能。
0 引 言
随着社交网络的迅速发展,微博越来越受到人们 的青睐。 根据《 第 30 次中国互联网络发展状况统计报 告》 显示,截至 2012 年 6 月底,我国微博用户数达到 2. 74 亿;法国调研公司 Semiocast 在 2012 年 7 月的数 据分析中也显示,Twitter 用户数已突破 5 亿大关。 由 于微博允许用户随时随地发表自己的看法和分享所见 到的新鲜事儿,已成为一种重要的社会传播媒介。 网 络产品评论是以网络为平台进行的产品信息交流。 由 于大部分评论是用户实际体验后的有感而发,所以,其 有效程度较高,已成为用户选择产品前进行决策的重 要依据,也为生产商改进产品和提升服务质量提供了 重要信息[1] 。 微博产品评论是网络产品评论在社交网
中存储。 1. 1. 2 数据预处理。 为了确保获取的数据有意
义,需要把一些无意义和质量较低的微博过滤掉,从而 降低数据噪音。 通过对微博内容分析,我们发现需要 过滤的微博主要有以下两类:
a. 广告性微博。 广告微博主要为销售产品或转 手产品做 广 告 而 发 的 帖 子, 一 般 含 有 电 话 号 码 或 者 QQ 号码,有的带有网站链接。
图 1 微博产品评论挖掘模型图
网络产品评论中,用户的正向评论反应了产品特 征的优点,负向评论反应了产品特征的不足。 因此,该 模型在考虑微博社会性特点的基础上,首先对产品评 论内容进行情感极性分析,再根据不同极性的产品评 论进行分类研究,挖掘产品特征优缺点;然后通过统计 分析方法对产品特征优缺点以及对应观点的进行抽取 和量化研究,并将对应的用户观点进行可视化表示,从 而更好地把握评论该平台用户对产品的主要态度和观 点。 另外,在微博用户评论中,有相当多一部分微博的 内容是关于产品比较和选择的,虽然这部分微博的情 感极性不是 非 常 明 显, 却 同 样 具 有 重 要 的 研 究 价 值。 本文通过共词网络分析的方法,对这部分微博进行分 析,可发现当前产品的竞争对象,这对企业进行市场分 析和决策制定都非常有意义。 1. 1 数据获取与预处理
Research on Microblogging Product Reviews Mining Model
Tang Xiaobo Wang Hongyan
( Center for the Studies of Information Resources of Wuhan University,Wuhan 430072)
b. 分析单句中的情感信息。 将每个单句分词后的 结果与扩展后的 HowNet 词典进行逐一匹配,如果不 包含情感词,则说明该句不是情感句,没有反应作者观 点,不需进行情感分析;如果包含情感词,则进行依存 句法分析。
c. 依存句法分析[9] 。 为了进行依存句法分析,本 文采用的句法分析工具是 Stanford Parser。 首先,使用 Stanford Parser 对符合 b 的单句进行依存句法分析,若 情感词与产品特征词表中的特征词存在依存关系,则 存储该特征-情感词对,并记录其情感极性值( 这时的 极性只包括正向和负向两种,1 代表正向情感,-1 代 表负向情感)。 对于单句,如果它不包含任何名词性 短语,则认为它表达的情感是针对该条微博上一单句 的产品特征。
1. 1. 1 数据获取。 本文数据来源于微博平台,使 用爬虫软件获取。 为了获取微博产品评论,我们首先 利用微博搜索工具,确定产品关键字后,进行微博产品 评论的搜索,然后使用网络爬虫软件 datascraper 爬取 这些数据。 通过该爬虫软件爬取的数据以 XML 形式 存储,为了更方便地进行预处理,我们将其导入数据库
络环境下的一种新的存在模式,该平台上的产品评论 多以微博主发表微博的形式出现,其信息可主动推送 给微博主的粉丝,粉丝通过“ 转发” 和“ 评论” 的方式发 表意见与观点。 相对于传统网络评论,由于微博主与 粉丝的关系具有一定的现实性,所以评论的意见比较 中肯、有效程度更高。
产品评论挖掘是近年来非结构化信息挖掘的一个 研究热点,其主要做法是以 Web 上发表的用户产品评 论作为挖掘对象,从大量文本数据中发现用于对该产 品各方面性能的评价[2] 。 由于知名电商网站和专业产 品评论论坛中的产品评论相对集中,因此,在以往的研 究中,学者们多以这些网站和论坛中的产品评论作为 研究对象。 但是,随着微博在人们生活中的日益渗透 和微博产品评论有效程度较高的特点,对微博产品评
本文提取微博中情感信息的步骤如下所述: a. 对微博进行分句。 通过观察中文微博,我们发
第 2 期 唐晓波,等:微博产品评论挖掘模型研究
·109·
现中文微博文本长度一般被限制在 140 个中文字符以 内。 与英文微博的 140 个英文字母相比较,其语义更 丰富,可以包含多个句子,句与句之间的情感极性也可 能不尽相同[8] 。 因此在对微博信息进行情感信息提取 时,我们将每条微博按照语法规则进行了分句,每条微 博分句后将分句结果存储在数据库中,每个分句存储 的内容至少包括原始微博编号、分句内容以及产品 特征词对(该项初始值为空)、评论量以及转发量( 同 一条原始微博各单句的转发量和评论量均为原始微博 的评论量和 转 发 量 的 值) , 另 外 设 置 一 个 自 动 编 号 字 段作为数据的关键字。
摘 要 微博平台上的产品评论是用户表达其产品需求和情感倾向的重要渠道。 结合微博的社会性特点构建了一 个微博产品评论挖掘模型,该模型在对产品评论进行情感极性分析的基础上,把不同极性的评论进行分类研究,通 过统计分析的方法,挖掘用户关注的产品特征优缺点,并将对应观点的用户感知程度进行可视化;再根据微博产品 评论的特点,通过共词网络分析方法实现了对产品竞争对象的识别与分析。 最后,通过实证分析,验证了该模型的 可行性。 关键词 微博 短文本 情感分析 统计分析 共词网络 产品评论挖掘 中图分类号 G203 文献标识码 A 文章编号 1002-1965(2013)02-0107-05
·1 08 · 情 报 杂 志 第 32 卷
论进行分析和挖掘,将会更准确地反应用户对产品的 观点和态度。 1 微博产品评论挖掘模型
在产品评论挖掘研究中,一般认为,产品评论挖掘 主要包含 4 个子任务:a. 产品特征抽取;b. 评论观点 抽取;c. 评论观点的极性和强度判断;d. 评论挖掘结果 的汇总和按用户观点排序[3] 。 本文以此为指导思想, 构建了微博产品评论挖掘模型。 根据信息的处理流 程,该模型可分为四个部分, 分别是信息获取与预处 理、情感分析与极性确定、产品评论观点挖掘以及产品 竞争对象识别。 该模型结构如图 1 所示。
为方便分析,在进行微博产品评论挖掘时要保证 语言的统一性,因此,需要将微博中的英文词汇转换成 中文[4] ,并将产品名进行统一化表述,比如将 “ good” 替换为“ 好” ,将“ Iphone” 、“ 爱疯” 都替换成“ 苹果” 。 1. 2 情感分析与极性确定
Abstract Product review on the microblogging platform is an important channel for users to express their product demands and emotional tendencies. According the social characteristics of microblogging, the paper builds a microblogging product review mining model. On the basis of sentiment polarity analysis of product reviews, the model makes the reviews as two classes to study by different polarity, and mine the users concerned advantages and disadvantages of product features with the corresponding view by statistical analysis methods. On the other hand, according to the characteristics of the microblogging product reviews, the model could identify and analyze the product competitors through co-word network analysis method. Finally, the paper verifies the feasibility of the model by empirical analysis Key words microblogging short text sentiment analysis statistical analysis co-word network product reviews mining
第
32 卷 2013 年
第2 2月
期
Байду номын сангаас
情 报 杂 志
JOURNAL OF INTELLIGENCE
Vol. 32 No. 2 Feb. 2013
微博产品评论挖掘模型研究*
唐晓波 王洪艳
( 武汉大学信息资源研究中心 武汉 430072)
1. 2. 2 产品特征抽取。 为了进行产品特征词的 抽取,我们将名词词性的特征词进行词频统计,选取词 频较高的名词及名词词组,经人工筛选后,将其标注为 产品特征词。 通过这种方式选取的特征词有一定的针 对性,并且准确率较高。
1. 2. 3 情感词抽取及极性确定。 提取微博中表 示情感信息的评价词语是挖掘用户观点的关键步骤, 主要有基于语料库和基于词典两种方法[7] 。 本文采用 基于词典的方法,使用 HowNet 作为情感词典。 为了 能够准确地提取情感信息,需要对情感词典进行人工 扩展,将一些“ 网络流行语” 加入情感词典,比如“ 给 力”“坑爹”“弱爆”等。 针对具体的产品还应有与之对 应的表示用户观点的专业词汇,需要专业人士来参与 设定,比如手机领域特有的“ 死机、掉漆” 等词汇就属 于这种情况。
1. 2. 1 分词。 微博信息通过以上的预处理以后, 接下来就要对文本进行分句与分词。 分词是文本处理 的基础,目前,中文分词有多种不同的算 法 和 工 具。 ICTCLAS[5] 分词系 统 可 以 进 行 中 文 分 词、词 性 标 注、 命名实体识别和未登录词识别,分词正确率高达 97. 58% ,可以保证较好的分析效果,因此本文使用 ICTCLAS 进行分词。 对一条微博进行分词后,得到一个 词向量,其中每个词都带有词性标记,如名词、动词、形 容词、方位词等类型。 中文评论中主要有四类词对判 断用户情感色彩有重要作用分别是名词、形容词、动词 和副词[6] 。 因此,我们在特征词的选取时,主要考虑这 四类词语。
收稿日期:2012-09-07 修回日期:2012-11-28 基金项目:国家自然科学基金资助项目“ 社会化媒体集成检索与语义分析方法研究” ( 编号:71273194) 的研究成果之一。 作者简介:唐晓波(1962-) ,男,教授,博士生导师,研究方向:商务智能、知识组织与情报分析;王洪艳(1980 -) ,女,博士研究生,研究方向:商 务智能。
0 引 言
随着社交网络的迅速发展,微博越来越受到人们 的青睐。 根据《 第 30 次中国互联网络发展状况统计报 告》 显示,截至 2012 年 6 月底,我国微博用户数达到 2. 74 亿;法国调研公司 Semiocast 在 2012 年 7 月的数 据分析中也显示,Twitter 用户数已突破 5 亿大关。 由 于微博允许用户随时随地发表自己的看法和分享所见 到的新鲜事儿,已成为一种重要的社会传播媒介。 网 络产品评论是以网络为平台进行的产品信息交流。 由 于大部分评论是用户实际体验后的有感而发,所以,其 有效程度较高,已成为用户选择产品前进行决策的重 要依据,也为生产商改进产品和提升服务质量提供了 重要信息[1] 。 微博产品评论是网络产品评论在社交网
中存储。 1. 1. 2 数据预处理。 为了确保获取的数据有意
义,需要把一些无意义和质量较低的微博过滤掉,从而 降低数据噪音。 通过对微博内容分析,我们发现需要 过滤的微博主要有以下两类:
a. 广告性微博。 广告微博主要为销售产品或转 手产品做 广 告 而 发 的 帖 子, 一 般 含 有 电 话 号 码 或 者 QQ 号码,有的带有网站链接。
图 1 微博产品评论挖掘模型图
网络产品评论中,用户的正向评论反应了产品特 征的优点,负向评论反应了产品特征的不足。 因此,该 模型在考虑微博社会性特点的基础上,首先对产品评 论内容进行情感极性分析,再根据不同极性的产品评 论进行分类研究,挖掘产品特征优缺点;然后通过统计 分析方法对产品特征优缺点以及对应观点的进行抽取 和量化研究,并将对应的用户观点进行可视化表示,从 而更好地把握评论该平台用户对产品的主要态度和观 点。 另外,在微博用户评论中,有相当多一部分微博的 内容是关于产品比较和选择的,虽然这部分微博的情 感极性不是 非 常 明 显, 却 同 样 具 有 重 要 的 研 究 价 值。 本文通过共词网络分析的方法,对这部分微博进行分 析,可发现当前产品的竞争对象,这对企业进行市场分 析和决策制定都非常有意义。 1. 1 数据获取与预处理
Research on Microblogging Product Reviews Mining Model
Tang Xiaobo Wang Hongyan
( Center for the Studies of Information Resources of Wuhan University,Wuhan 430072)
b. 分析单句中的情感信息。 将每个单句分词后的 结果与扩展后的 HowNet 词典进行逐一匹配,如果不 包含情感词,则说明该句不是情感句,没有反应作者观 点,不需进行情感分析;如果包含情感词,则进行依存 句法分析。
c. 依存句法分析[9] 。 为了进行依存句法分析,本 文采用的句法分析工具是 Stanford Parser。 首先,使用 Stanford Parser 对符合 b 的单句进行依存句法分析,若 情感词与产品特征词表中的特征词存在依存关系,则 存储该特征-情感词对,并记录其情感极性值( 这时的 极性只包括正向和负向两种,1 代表正向情感,-1 代 表负向情感)。 对于单句,如果它不包含任何名词性 短语,则认为它表达的情感是针对该条微博上一单句 的产品特征。
1. 1. 1 数据获取。 本文数据来源于微博平台,使 用爬虫软件获取。 为了获取微博产品评论,我们首先 利用微博搜索工具,确定产品关键字后,进行微博产品 评论的搜索,然后使用网络爬虫软件 datascraper 爬取 这些数据。 通过该爬虫软件爬取的数据以 XML 形式 存储,为了更方便地进行预处理,我们将其导入数据库
络环境下的一种新的存在模式,该平台上的产品评论 多以微博主发表微博的形式出现,其信息可主动推送 给微博主的粉丝,粉丝通过“ 转发” 和“ 评论” 的方式发 表意见与观点。 相对于传统网络评论,由于微博主与 粉丝的关系具有一定的现实性,所以评论的意见比较 中肯、有效程度更高。
产品评论挖掘是近年来非结构化信息挖掘的一个 研究热点,其主要做法是以 Web 上发表的用户产品评 论作为挖掘对象,从大量文本数据中发现用于对该产 品各方面性能的评价[2] 。 由于知名电商网站和专业产 品评论论坛中的产品评论相对集中,因此,在以往的研 究中,学者们多以这些网站和论坛中的产品评论作为 研究对象。 但是,随着微博在人们生活中的日益渗透 和微博产品评论有效程度较高的特点,对微博产品评
本文提取微博中情感信息的步骤如下所述: a. 对微博进行分句。 通过观察中文微博,我们发
第 2 期 唐晓波,等:微博产品评论挖掘模型研究
·109·
现中文微博文本长度一般被限制在 140 个中文字符以 内。 与英文微博的 140 个英文字母相比较,其语义更 丰富,可以包含多个句子,句与句之间的情感极性也可 能不尽相同[8] 。 因此在对微博信息进行情感信息提取 时,我们将每条微博按照语法规则进行了分句,每条微 博分句后将分句结果存储在数据库中,每个分句存储 的内容至少包括原始微博编号、分句内容以及产品 特征词对(该项初始值为空)、评论量以及转发量( 同 一条原始微博各单句的转发量和评论量均为原始微博 的评论量和 转 发 量 的 值) , 另 外 设 置 一 个 自 动 编 号 字 段作为数据的关键字。
摘 要 微博平台上的产品评论是用户表达其产品需求和情感倾向的重要渠道。 结合微博的社会性特点构建了一 个微博产品评论挖掘模型,该模型在对产品评论进行情感极性分析的基础上,把不同极性的评论进行分类研究,通 过统计分析的方法,挖掘用户关注的产品特征优缺点,并将对应观点的用户感知程度进行可视化;再根据微博产品 评论的特点,通过共词网络分析方法实现了对产品竞争对象的识别与分析。 最后,通过实证分析,验证了该模型的 可行性。 关键词 微博 短文本 情感分析 统计分析 共词网络 产品评论挖掘 中图分类号 G203 文献标识码 A 文章编号 1002-1965(2013)02-0107-05
·1 08 · 情 报 杂 志 第 32 卷
论进行分析和挖掘,将会更准确地反应用户对产品的 观点和态度。 1 微博产品评论挖掘模型
在产品评论挖掘研究中,一般认为,产品评论挖掘 主要包含 4 个子任务:a. 产品特征抽取;b. 评论观点 抽取;c. 评论观点的极性和强度判断;d. 评论挖掘结果 的汇总和按用户观点排序[3] 。 本文以此为指导思想, 构建了微博产品评论挖掘模型。 根据信息的处理流 程,该模型可分为四个部分, 分别是信息获取与预处 理、情感分析与极性确定、产品评论观点挖掘以及产品 竞争对象识别。 该模型结构如图 1 所示。