文本情感分类方法的分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.基于情感分析 的文本分类方法
3.1 文档 级情 感分 类 (1)基于 有监 督学 习 的文档 情感 分类 方法
这 类 方 法 中 ,文 档 情感 分类 被 归 纳 为 一个 有监 督 学 习 问题 , 需要 先将 文档 表示 为相 应 的特 征 向量 ,然后 在标 注样 本 上训 练分 类 器 ,再用 分类 器来 对新 文 档进 行分 类 。Pang等 人首 先把 这种 方法 运 用 在 文档 情感 分类 问题 中,通 过与 最大 熵 、支 持 向量 机等 方法 在 影 视 评 论数 据集 上 的褒贬 分 类效 果对 比,得 出文本 情感 分类 与传 统 文 本 分 类相 比 ,挑 战性 更 高 。
尽管 网络信 息所涉 及的语 言种类非 常广泛 ,具有 明显多语 言化特 征,但是对于不 同语 言而 言,情 感资源的不平衡性非常明显 。比如 ,英 语情感分析 问题很早就被 许多学者所关注与研究,因此起步较早 ,发展
速度也相对较快 ,在这个过程 中也积 累了非常丰富 的情感资源 。与此 同 时 ,中文情感分析 问题早期受关注程度较小 ,起步较晚 ,研 究也相对滞 后 ,从而也 导致其所拥有 的情感 资源远远不如英语情感资源 。
2.文本 情感分类面临的 问题
2.1 数 据稀 疏性 问题 随着 科 技 的发展 ,手机 也越 来越 普 及 与智 能化 , 与此 同时 平板
电脑 、掌 上 电子 书库 等 移动 设备 也逐 渐 进入 人们 的生活 。伴 随着 移 动 设 备 的普 及微 博 、在 线社 区等 互 动 网络交 流平 台快速 发展 ,人 们 表 达 情感 的方式 也越 来越 多, 实现 的途 径 也更加 多样 化 , 同时 可 以 随时 随刻 发 表 自己的观 点 ,不再 受 时 间与 空间 的 限制 。同 时在这 个 过程 中 ,人 们在 发表 观 点或 者进 行评 论 时更 多 的时 应用 简 约化 的短 文本 ,一 般 情况 下这 些 观 点或者 评 论 只有 几个 非常 简洁 的 短句 子甚 至孤 立 的词 语组 成 ,这 种表 达 上 日益简 约化 的 句子 ,所 包含 的信 息 非常 有 限 ,所带 来 的结 果就 是这 类 简约 化 的评 论所 呈现 出来 的 数据 特 征 相 当稀 疏 。另 一方 面 ,人们 在 进行 评 论时 ,也 趋 向于将 网 址链 接 、特殊 符 号 、奇特 表 情 融入 到评 论 中等 ,这 也导 致评 论 文本 中所 包含 的词 句 屈指 可数 ,使 得数 据稀 疏性 问题 更加 突 出 。 2.2 标 注样 本获 取 困难 的 问题
ELECTRONlCS W ORLD ·攘 索 与霉曰察
文 本情 感 分 类 方法 的分 析
河北 师范 大学 李长镜 赵 书 良 池云仙 罗 燕
【摘要 】在处理文本信息的过程中,情感分析是重要的手段和方法 ,其 目的是解决评论情感极性的 自动判断问题。伴随着大数据环境 下海 量 的 文本信 息 ,传 统 方法 不能 够很好 地 处理 情感 分 类 问题 。得 益 于深度 学 习技 术 ,研 究人 员能够 越发 清 晰地理 解 大规模 文本 数据 ,这使 得 利 用深度 学 .-- j技 术解 决 文本 问题成 为 当前研 究的热 点 。 【关键词 】文本分类;情感分析 ;分类方法
这种分类方 法研 究深度相对 较高 ,同时也在一 些实际应 用中得到 了比较理 想的分类 结果。同时,因为任 何一个分类器 都具有 自己的优劣 势 ,针对 不同领域 ,分类器 效果也存在 差别 ,每一种分类器都有其最优 的应 用领域 ,因此 要有 效选择 分类器 ,进而发挥其最佳分类效果 。
1源自文库引 言
文 本 情 感 分 类 可 以被 看 成 为 一 类 特 殊 的 文本 分类 问题 , 目前 的绝 大 多数 研 究 将 文 本 的情 感倾 向性 按 褒 义 (正 向 ) 、贬 义 (负 向 )这两 种 类别 来进 行极 性 分类 ,少 数研 究也涉 及 到三 类 (褒义 、 贬 义 和 中立 ) 。还有 些研 究 把情 感倾 向性类 别划 分 为更 细 的粒度 。 例 如 ,按 情 绪 (喜 、怒 、哀 、惧 、惊 )进 行 分类 、按情 感极 性 强度
(2)基于 无监 督学 习 的文档 情感 分类 方法 由于 无监 督学 习 方法 不需 要利 用标 注样 本对 分 类器 进行 训练 , 所 以在 进 行文档 情感 分类 中也备 受关 注 。 从情 感种 子词 到情 感 词典 ,各 种无 监 督情 感分 类方 法都 不 同程 度 地 利用 了情 感词 汇 来作 为先 验知 识 。这类 方 法具有 领 域独 立性 强 特 点 ,可 以非 常方 便 的应 用在 不 同领域 的语 料 中 。其缺 点是 :词 汇 覆 盖 面相 对较 窄 、情 感词 具有 领域 相 关性 与上 下文 相关 性 ,一些 情 况 下 ,导 致这 种分 类法 的分类 性 能不 能达 到预 期效 果 。
(强 烈褒 扬 、一 般褒 扬 、 中性 、一般 贬抑 和 强烈 贬抑 )进 行 分类 、 将 用 户观 点 的强度 量化 为 多个 等级 。
按 照 处 理对 象 文本 粒 度 的差 别 ,在 对 文 本情 感分 类 进 行 研 究 时 ,一般 从 文档 级 、段 落级 、词 语 级等 多个 不 同 的层 次 展开 。按 照 处理 领域 的差别 ,通 过 可 以将文 本情 感 分类 研 究具 体划 分成 单领 域 与跨 领域 两 种不 同的情 感分 类 。另 外按 照处 理语 言 的差 别 ,可 以分 为单 语 言与跨 语 言两 种情 感类 别 。
如果 想 要有 监 督学 习方 法 具有 用户 满 意 的分类 特 征 ,就需 要在 进行 模 型 的前 期训 练 时,有 针对 性 的标 注 大量 典 型样本 。而人 工标 注样 本过 程 主要 存在 两 方面 的 问题 ,其 一 ,许 多情 况 下 ,人工 标注 样 本 需要 耗 费大 量 的人 力物 力 ,进 而增 加 了 巨大 的成 本 。其二 ,样 本标 注经 常 会 受到 个人 因 素的 影 响,这 是 因为 每个 个 体之 间所 处 的 角度 与 理解 能力 存 在很 大 差别 ,这 就 导致 样本 标注 要 想形 成统 一 的 标准 是 比较 困难 的 ,最终 影 响研 究结 果之 间 的准确 对 比 。 2.3 情 感 资源 的不 平衡 性 问题
3.1 文档 级情 感分 类 (1)基于 有监 督学 习 的文档 情感 分类 方法
这 类 方 法 中 ,文 档 情感 分类 被 归 纳 为 一个 有监 督 学 习 问题 , 需要 先将 文档 表示 为相 应 的特 征 向量 ,然后 在标 注样 本 上训 练分 类 器 ,再用 分类 器来 对新 文 档进 行分 类 。Pang等 人首 先把 这种 方法 运 用 在 文档 情感 分类 问题 中,通 过与 最大 熵 、支 持 向量 机等 方法 在 影 视 评 论数 据集 上 的褒贬 分 类效 果对 比,得 出文本 情感 分类 与传 统 文 本 分 类相 比 ,挑 战性 更 高 。
尽管 网络信 息所涉 及的语 言种类非 常广泛 ,具有 明显多语 言化特 征,但是对于不 同语 言而 言,情 感资源的不平衡性非常明显 。比如 ,英 语情感分析 问题很早就被 许多学者所关注与研究,因此起步较早 ,发展
速度也相对较快 ,在这个过程 中也积 累了非常丰富 的情感资源 。与此 同 时 ,中文情感分析 问题早期受关注程度较小 ,起步较晚 ,研 究也相对滞 后 ,从而也 导致其所拥有 的情感 资源远远不如英语情感资源 。
2.文本 情感分类面临的 问题
2.1 数 据稀 疏性 问题 随着 科 技 的发展 ,手机 也越 来越 普 及 与智 能化 , 与此 同时 平板
电脑 、掌 上 电子 书库 等 移动 设备 也逐 渐 进入 人们 的生活 。伴 随着 移 动 设 备 的普 及微 博 、在 线社 区等 互 动 网络交 流平 台快速 发展 ,人 们 表 达 情感 的方式 也越 来越 多, 实现 的途 径 也更加 多样 化 , 同时 可 以 随时 随刻 发 表 自己的观 点 ,不再 受 时 间与 空间 的 限制 。同 时在这 个 过程 中 ,人 们在 发表 观 点或 者进 行评 论 时更 多 的时 应用 简 约化 的短 文本 ,一 般 情况 下这 些 观 点或者 评 论 只有 几个 非常 简洁 的 短句 子甚 至孤 立 的词 语组 成 ,这 种表 达 上 日益简 约化 的 句子 ,所 包含 的信 息 非常 有 限 ,所带 来 的结 果就 是这 类 简约 化 的评 论所 呈现 出来 的 数据 特 征 相 当稀 疏 。另 一方 面 ,人们 在 进行 评 论时 ,也 趋 向于将 网 址链 接 、特殊 符 号 、奇特 表 情 融入 到评 论 中等 ,这 也导 致评 论 文本 中所 包含 的词 句 屈指 可数 ,使 得数 据稀 疏性 问题 更加 突 出 。 2.2 标 注样 本获 取 困难 的 问题
ELECTRONlCS W ORLD ·攘 索 与霉曰察
文 本情 感 分 类 方法 的分 析
河北 师范 大学 李长镜 赵 书 良 池云仙 罗 燕
【摘要 】在处理文本信息的过程中,情感分析是重要的手段和方法 ,其 目的是解决评论情感极性的 自动判断问题。伴随着大数据环境 下海 量 的 文本信 息 ,传 统 方法 不能 够很好 地 处理 情感 分 类 问题 。得 益 于深度 学 习技 术 ,研 究人 员能够 越发 清 晰地理 解 大规模 文本 数据 ,这使 得 利 用深度 学 .-- j技 术解 决 文本 问题成 为 当前研 究的热 点 。 【关键词 】文本分类;情感分析 ;分类方法
这种分类方 法研 究深度相对 较高 ,同时也在一 些实际应 用中得到 了比较理 想的分类 结果。同时,因为任 何一个分类器 都具有 自己的优劣 势 ,针对 不同领域 ,分类器 效果也存在 差别 ,每一种分类器都有其最优 的应 用领域 ,因此 要有 效选择 分类器 ,进而发挥其最佳分类效果 。
1源自文库引 言
文 本 情 感 分 类 可 以被 看 成 为 一 类 特 殊 的 文本 分类 问题 , 目前 的绝 大 多数 研 究 将 文 本 的情 感倾 向性 按 褒 义 (正 向 ) 、贬 义 (负 向 )这两 种 类别 来进 行极 性 分类 ,少 数研 究也涉 及 到三 类 (褒义 、 贬 义 和 中立 ) 。还有 些研 究 把情 感倾 向性类 别划 分 为更 细 的粒度 。 例 如 ,按 情 绪 (喜 、怒 、哀 、惧 、惊 )进 行 分类 、按情 感极 性 强度
(2)基于 无监 督学 习 的文档 情感 分类 方法 由于 无监 督学 习 方法 不需 要利 用标 注样 本对 分 类器 进行 训练 , 所 以在 进 行文档 情感 分类 中也备 受关 注 。 从情 感种 子词 到情 感 词典 ,各 种无 监 督情 感分 类方 法都 不 同程 度 地 利用 了情 感词 汇 来作 为先 验知 识 。这类 方 法具有 领 域独 立性 强 特 点 ,可 以非 常方 便 的应 用在 不 同领域 的语 料 中 。其缺 点是 :词 汇 覆 盖 面相 对较 窄 、情 感词 具有 领域 相 关性 与上 下文 相关 性 ,一些 情 况 下 ,导 致这 种分 类法 的分类 性 能不 能达 到预 期效 果 。
(强 烈褒 扬 、一 般褒 扬 、 中性 、一般 贬抑 和 强烈 贬抑 )进 行 分类 、 将 用 户观 点 的强度 量化 为 多个 等级 。
按 照 处 理对 象 文本 粒 度 的差 别 ,在 对 文 本情 感分 类 进 行 研 究 时 ,一般 从 文档 级 、段 落级 、词 语 级等 多个 不 同 的层 次 展开 。按 照 处理 领域 的差别 ,通 过 可 以将文 本情 感 分类 研 究具 体划 分成 单领 域 与跨 领域 两 种不 同的情 感分 类 。另 外按 照处 理语 言 的差 别 ,可 以分 为单 语 言与跨 语 言两 种情 感类 别 。
如果 想 要有 监 督学 习方 法 具有 用户 满 意 的分类 特 征 ,就需 要在 进行 模 型 的前 期训 练 时,有 针对 性 的标 注 大量 典 型样本 。而人 工标 注样 本过 程 主要 存在 两 方面 的 问题 ,其 一 ,许 多情 况 下 ,人工 标注 样 本 需要 耗 费大 量 的人 力物 力 ,进 而增 加 了 巨大 的成 本 。其二 ,样 本标 注经 常 会 受到 个人 因 素的 影 响,这 是 因为 每个 个 体之 间所 处 的 角度 与 理解 能力 存 在很 大 差别 ,这 就 导致 样本 标注 要 想形 成统 一 的 标准 是 比较 困难 的 ,最终 影 响研 究结 果之 间 的准确 对 比 。 2.3 情 感 资源 的不 平衡 性 问题