文本情感分析在网购评论中的应用前景
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
于评价 词语 的极性 判别方 法来识别 出评 价词语 的极
性 。同时 , 通过 基 于 N—G r a m统计 语 言模 型来 识 别 未 登录词 和一些 常用 的复合 词 ( 如“ 很喜 欢 ” 、 “ 不 怎
么样 ” ) , 最后 , 再 识别 出这 些 评价 词语 的情感 极 性 。
在于 可利用 的评论 语 料 库 有 限 , 同时 评价 词 语在 大
l 网购评论情感信 息抽取
1 . 1 网购 评论 文本特 点
当前购物网站上的评论文本基本上都是通过星 级标记来判别文本的情感倾 向, 并没有依据评论文 本的实际情感倾向来进行分类 , 而且也没有对评价 主体 及其属 性进 行 检 索 和归 纳 。 因此 , 对 网购 评 论
匹 配 的词 。最 后 , 网购 评论 文 本 一 般都 是 短 文本 且
语料库 中的分布等现象也不容易归纳。 基 于 网购评论 文本 的非正式 化语 言较普遍 及评 论文本语料库充足的特点可以结合这两种方法来抽 取情感 评价 词语 。首 先 , 通过 基 于 词典 的方 法可 以
将 大部 分 的常规评 价 词语 提 取 出来 , 然 后 再利 用 基
心 情排 行板块 将新 闻分成感 动 、 震惊、 新奇、 愤怒 、 搞
当前对情感评价词语的抽取和判别主要通过基 于词典和基于统计语言模型两种方法。基于词典的 方 法 主要 通过 词典 中词语 之间 的词义联 系来挖 掘评
价词 语 , 常用 的词 典 有 同义 词 词林 、 Wo r d N e t或 H o w N e t 等 。如一 些 学 者通 过 手 工 采 集 的种 子 评 价 词语 进行 扩展来 获取 大量 的评 价词 语 。这 种方 法的
2 网购评论文本情感分 类
网购 评论 文本情 感分类 主要 是对 消费者 的 主观 信息 进行情 感 分类 , 最 常见 的是 褒 贬 二 元分 类 。纵 观 目前 的研 究 , 主要 采用 基 于情 感知 识 的方 法 和基
除基于词典方法的多义性缺点, 而且也可以避免语 料库 不 足 以及 未登 录词 的识别 问题 , 情 感评 价 词 语 抽取 及判别 流程 如 图 2所示 。
持有者 ( 如 X X机构、 Fra Baidu bibliotek X政府 ) 等。除 了以上几种
图 2 情感评价词语抽取及判别流程结构
一
7 2 一
1 . 3 评 价对 象及 组合评 价单 元的 抽取
常见的情感信息单元外 , 某些情感信息单元的组合 搭配对于情感分析的上层任务有更直接的帮助 , 如
评价 对象 和 情 感 评 价 词 语 的 搭 配 ( 相 机 一性 价 比
高) 、 程度副词和情感评价词语的搭配 ( 如: 很喜欢 、 非常好 ) 等 。基 于 网 购 评论 的这 种 特 点 , 本 文将 从
文本情感信息抽取的主要任务是抽取评论文本 中最有价值的情感信息单元 , 并将这种无结构化的 评论文本转化特定 的向量文本模型 , 以便计算机能 够识别和处理。因此 , 文本情感信息抽取是文本情 感分析上层服务 的基础。如情感句“ X X手 机性价
比高 , 通话 质 量 很 好 ” 转化 为 如 图 1所 示 的 结 构化
进行 文本 情 感 分 析是 一项 很 有 实 际应 用 价 值 的研 究, 同时也 具有很 大挑 战性 , 这 主要是 由于 网购评论 文本 的特点 引起 的 。首 先 , 网 购评 论 文本 口语 化普 遍, 很 多评 论文本 是 一种 非正 式 的语 言 表 达 , 如“ 宝 贝很 给力 , 很满意 , 老 板 的态 度 也 很 好 ” 。其 次 , 评 论 文本 包含 的未 登 录词 ( 词 典 中没 有 匹 配 的词 ) 较 多, 如“ 给力 ” 、 “ 神马” 、 “ 雷人 ” “ 超赞 ” 等 词 典无 法
文本 情感 分析 在网购评 论领 域 的应 用前 景 。
确能够提高情感评价词语的提取率 , 但是较依赖于 手工 提取种 子评 价词 语 的 个数 和 质量 , 而且 也 很 难 解决 一些 词语 的多 义性 , 对 于 网 购评 论 文本 中 的一
些未 登录 词 也 很 难 识 别 。基 于统 计 语 言 模 型 ( 如 N—G r a m 统 计语 言模 型) 方法 , 则 是利用 大 语料 库 的 统计特 性来 挖掘情 感 评 价 词语 , 这 种 方法 是 基 于数 学 的统 计方 法 , 是 一 种 独立 于 语 言 的方 法 。这种 方 法简单 易行 , 而且 能够识 别一些 未登 录词 , 不 足之 处
情 感评 价词语 、 评 价对 象 以及 组合 评 价 单元 三 个方 面来 阐述 网购评论 文本 的情感信 息抽 取 。 1 . 2 情 感评 价词语 的抽取 和判别
文本形式。情感信息分类则是利用低层情感信息抽 取的结果将情感信息分为若干类别 , 如分为正面 、 负 面评论或者其他更细的情感类别 , 如新浪社会新 闻
笑、 难过等几个类别。最高层 的情感信息的检索与 归 纳可 以看作 是与 用 户直 接 交互 的接 口 , 着 重 强调
检 索 和归纳两 项应 用 , 该层 次 的 研究 主要 是 在前 两
项任务的基础上进一步加工处理完成的, 这一层次 也是最具有实际应用价值的部分。本文将结合网购 评论 文本 的特 点从文本 情感 分析 的三个层 次来 阐 明
情 感倾 向较 明显 的文本 。 网购评论 情感 信息抽 取 旨在 抽取情 感评 论文本
将 这两 种方法 有机 的组 合 在 一起 使 用 , 不 仅 可 以消
中有价值的情感信息 , 它是文本情感分析的基础任 务 。有 价值 的情 感 信 息 单 元 主 要 有 情 感 评 价 词 语
( 如 喜欢 、 讨厌 ) 、 评价 对象 ( 如手机 、 相机 ) 以及 观点
性 。同时 , 通过 基 于 N—G r a m统计 语 言模 型来 识 别 未 登录词 和一些 常用 的复合 词 ( 如“ 很喜 欢 ” 、 “ 不 怎
么样 ” ) , 最后 , 再 识别 出这 些 评价 词语 的情感 极 性 。
在于 可利用 的评论 语 料 库 有 限 , 同时 评价 词 语在 大
l 网购评论情感信 息抽取
1 . 1 网购 评论 文本特 点
当前购物网站上的评论文本基本上都是通过星 级标记来判别文本的情感倾 向, 并没有依据评论文 本的实际情感倾向来进行分类 , 而且也没有对评价 主体 及其属 性进 行 检 索 和归 纳 。 因此 , 对 网购 评 论
匹 配 的词 。最 后 , 网购 评论 文 本 一 般都 是 短 文本 且
语料库 中的分布等现象也不容易归纳。 基 于 网购评论 文本 的非正式 化语 言较普遍 及评 论文本语料库充足的特点可以结合这两种方法来抽 取情感 评价 词语 。首 先 , 通过 基 于 词典 的方 法可 以
将 大部 分 的常规评 价 词语 提 取 出来 , 然 后 再利 用 基
心 情排 行板块 将新 闻分成感 动 、 震惊、 新奇、 愤怒 、 搞
当前对情感评价词语的抽取和判别主要通过基 于词典和基于统计语言模型两种方法。基于词典的 方 法 主要 通过 词典 中词语 之间 的词义联 系来挖 掘评
价词 语 , 常用 的词 典 有 同义 词 词林 、 Wo r d N e t或 H o w N e t 等 。如一 些 学 者通 过 手 工 采 集 的种 子 评 价 词语 进行 扩展来 获取 大量 的评 价词 语 。这 种方 法的
2 网购评论文本情感分 类
网购 评论 文本情 感分类 主要 是对 消费者 的 主观 信息 进行情 感 分类 , 最 常见 的是 褒 贬 二 元分 类 。纵 观 目前 的研 究 , 主要 采用 基 于情 感知 识 的方 法 和基
除基于词典方法的多义性缺点, 而且也可以避免语 料库 不 足 以及 未登 录词 的识别 问题 , 情 感评 价 词 语 抽取 及判别 流程 如 图 2所示 。
持有者 ( 如 X X机构、 Fra Baidu bibliotek X政府 ) 等。除 了以上几种
图 2 情感评价词语抽取及判别流程结构
一
7 2 一
1 . 3 评 价对 象及 组合评 价单 元的 抽取
常见的情感信息单元外 , 某些情感信息单元的组合 搭配对于情感分析的上层任务有更直接的帮助 , 如
评价 对象 和 情 感 评 价 词 语 的 搭 配 ( 相 机 一性 价 比
高) 、 程度副词和情感评价词语的搭配 ( 如: 很喜欢 、 非常好 ) 等 。基 于 网 购 评论 的这 种 特 点 , 本 文将 从
文本情感信息抽取的主要任务是抽取评论文本 中最有价值的情感信息单元 , 并将这种无结构化的 评论文本转化特定 的向量文本模型 , 以便计算机能 够识别和处理。因此 , 文本情感信息抽取是文本情 感分析上层服务 的基础。如情感句“ X X手 机性价
比高 , 通话 质 量 很 好 ” 转化 为 如 图 1所 示 的 结 构化
进行 文本 情 感 分 析是 一项 很 有 实 际应 用 价 值 的研 究, 同时也 具有很 大挑 战性 , 这 主要是 由于 网购评论 文本 的特点 引起 的 。首 先 , 网 购评 论 文本 口语 化普 遍, 很 多评 论文本 是 一种 非正 式 的语 言 表 达 , 如“ 宝 贝很 给力 , 很满意 , 老 板 的态 度 也 很 好 ” 。其 次 , 评 论 文本 包含 的未 登 录词 ( 词 典 中没 有 匹 配 的词 ) 较 多, 如“ 给力 ” 、 “ 神马” 、 “ 雷人 ” “ 超赞 ” 等 词 典无 法
文本 情感 分析 在网购评 论领 域 的应 用前 景 。
确能够提高情感评价词语的提取率 , 但是较依赖于 手工 提取种 子评 价词 语 的 个数 和 质量 , 而且 也 很 难 解决 一些 词语 的多 义性 , 对 于 网 购评 论 文本 中 的一
些未 登录 词 也 很 难 识 别 。基 于统 计 语 言 模 型 ( 如 N—G r a m 统 计语 言模 型) 方法 , 则 是利用 大 语料 库 的 统计特 性来 挖掘情 感 评 价 词语 , 这 种 方法 是 基 于数 学 的统 计方 法 , 是 一 种 独立 于 语 言 的方 法 。这种 方 法简单 易行 , 而且 能够识 别一些 未登 录词 , 不 足之 处
情 感评 价词语 、 评 价对 象 以及 组合 评 价 单元 三 个方 面来 阐述 网购评论 文本 的情感信 息抽 取 。 1 . 2 情 感评 价词语 的抽取 和判别
文本形式。情感信息分类则是利用低层情感信息抽 取的结果将情感信息分为若干类别 , 如分为正面 、 负 面评论或者其他更细的情感类别 , 如新浪社会新 闻
笑、 难过等几个类别。最高层 的情感信息的检索与 归 纳可 以看作 是与 用 户直 接 交互 的接 口 , 着 重 强调
检 索 和归纳两 项应 用 , 该层 次 的 研究 主要 是 在前 两
项任务的基础上进一步加工处理完成的, 这一层次 也是最具有实际应用价值的部分。本文将结合网购 评论 文本 的特 点从文本 情感 分析 的三个层 次来 阐 明
情 感倾 向较 明显 的文本 。 网购评论 情感 信息抽 取 旨在 抽取情 感评 论文本
将 这两 种方法 有机 的组 合 在 一起 使 用 , 不 仅 可 以消
中有价值的情感信息 , 它是文本情感分析的基础任 务 。有 价值 的情 感 信 息 单 元 主 要 有 情 感 评 价 词 语
( 如 喜欢 、 讨厌 ) 、 评价 对象 ( 如手机 、 相机 ) 以及 观点