基于情感分析的商品推荐系统的设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

索时 , 启 动推 荐 系统 , 分析使 用者 当前提 交 的检索关 键
词, 依 据推荐 引擎 的分 析 , 提 供 给用户最 合适 的商 品列 表 。本 系统 不需 要使 用 者 提供 商 品 的购买 评 价 , 便 能 够 分 析使用 者 当前 的购 买 需求 , 从 而提 供 最合 适 的商
系 统存 在的共 同问题 是 : 大 量 的推 荐 系 统要 求 用 户对
网站 中的各个 商 品进 行 “ 购 买评 价 ” , 或 者对 推 荐 系统 给 出 的结 果 进行评 价 ; 用户在 使用 网站 时 , 如果 兴趣有 变化 , 推 荐 系统不 能 自适 应地 进行 相应 的调整 。 本研 究 建立 了用 户 评 价模 型 , 在 用 户进 行 商 品检
经 习惯 于通 过 网络 获 取 信 息 。然 而 , 海 量 的信 息 一 方
面使 用 户很 难从 中发现 自己感 兴 趣 的 内 容 , 另 一 方 面
也 使得 一些 少人 问津 的信 息 成 为 网 络 中 的 “ 暗信息” ,
推 荐服务 的研 究仍 处 于探索 阶段 。 目前 电子商 务推荐
随 着计算 机 的普 及 和 互 联 网的 迅 猛 发展 , 人们 已
3 5 的商 品销 售额 。与此 同时 , 我 国也 广泛 开 展 了个 性 化推荐 系统 的研 究 , 阿里 巴巴 、 豆瓣 、 当当 、 淘 宝成 为
国内业界 的翘 楚 。但 总 的来 说 , 关 于 国内个 性 化 商 品
第 2 5 卷第 3 期 2 0 1 4年 6月
中原 工 学 院学 报
J 0URNAL oF ZH0NGYUAN U NI VERS I TY 0F TECH N0L0GY
V0 1 . 2 5 No . 3
J u n . 。 2 o 1 4
文章编号 : 1 6 7 1 —6 9 0 6 ( 2 0 1 4 ) 0 3 —0 0 7 1 —0 4
属 性 的 态 度 。 只要 用 户 提供 所需 商 品 的 品 牌 型 号 信 息 以及 感 兴 趣 的 属 性 , 系 统 就 可 以 推 荐 出最 受 关 注 和 好 评 的所 需 商
品。
关 键 词 : 情感分析 ; 向量 空 间模 型 ; 商 品; 属 性
中图 分 类 号 : T P 3 9 1 . 1 文献 标 志 码 : A D OI : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 1 —6 9 0 6 . 2 0 1 4 . 0 3 . 0 1 7
基金项 目: 河南省科技厅基础 与技术前沿项 目 ( 1 2 2 3 0 0 4 1 0 0 4 8 )
作者简 介 : 郭
丽( 1 9 8 4 一) , 女, 河南郑州人 , 硕士 。
中 原工 学 院 学报
2 0 1 4年
第2 5卷
为, 如: 问答 、 评分、 购买、 下载、 浏 览等 。问答 和 打分 的 信 息相对 好收集 , 然 而有 的用 户 不愿 意 向系 统 提供 这 类信 息 , 因此就 需要 通 过其 他 方 式对 用 户 的 信 息进 行 分析, 如 购买 、 下载 、 浏 览 等行 为 。通过 用 户 的行 为 记
无 法被 一般 用 户获取 , 使 得信 息 的利用 率反 而 降低 ( 信
息超 载 ) [ 。近 年来 , 随着 电子 商 务 应 用 的逐 步深 入 , 以淘宝 为首 的 电子 商务 企业 让 中国亿 万消 费者 领略 了 网络购 物所 带来 的前所 未 有 的方 便 , 顾 客可 以不 受 时 间、 地 域 的限制 , 随时 随 地 买 到他 们 想 要 的任 何 商 品 。 但是, 不断 增多 的商 品类 目和 数 量让 用 户找 到 自己真 正 需要 的商 品变得 越来 越 困难 , 如: Ama z o n上有 数 百 万图书, 淘 宝上 有 过 亿 的 商 品 。对 于 电 子商 务 网站 来 说, 如 果不 能 准确地 为 客户 展示 他们 喜欢 的商 品 , 而让
1 推 荐 算 法

随 着 We b 2 . 0技术 的成 熟 , 个 性 化 推荐 系统 已不 仅仅 是 一种 商业 营 销手 段 , 更 重要 的是 其 可 以增进 用 户黏 着性 , 给 电子商 务 领 域 带 来 巨 大 的商 业 利 益 。据 个 完整 的推荐 系统 由 3部 分 组成 : 收集 用 户信
据进 行分 词及 词性 标 注 , 并 利用 淘 宝 类 目属 性 值 挖 掘 出评 价 中的 商 品 属 性 , 组 成属性信息模 板 k e y : { v a l —
u e s ) 格式 , 其中 k e y代 表 商 品评 论 中获 取 的商 品 属 性 信息, 例 如“ 屏幕” 、 “ 操 作 系 统” 等, v a l u e s代 表 商 品 评 价 中抽取 的属 性值集 合 , 属性值 包括 形容 词 、 名词。 ( 3 ) 情 感 分析模块 。为 了推 荐给 用户最 需要 、 评 价
的产 品 系列和属 性后 , 提 供 给 用 户在 该 属 性下 广 得 用 户好 评 的商 品列 表 。 本 系 统流程 归纳 为 4个 阶段 : 数 据采 集 、 语 料预处 理、 情感 分 析及检 索 。首 先 利 用数 据 采集 模 块 从 淘 宝 和百 度有 啊 中抓 取手机 标准 类 目下 的商 品及评 价信息
基 于 情 感 分 析 的 商 品 推 荐 系统 的 设 计 与 实 现
郭 丽 ,刘 磊
( 1 . 中 原 工 学 院 ,郑 州 4 5 0 0 0 7 ; 2 . 郑州航空工业管理学院 , 郑州 4 5 0 0 0 5 )

要: 提 出 了 一 种 基 于 情 感 分 析 的商 品推 荐 系统 , 该系统能 够分析购买 者对商 品的评价 , 从 而 获 取 用 户 对 商 品 某 些
图 1 推 荐 系统 模 块 图
( 2 ) 语料 预处 理模 块 。该 模 块 首 先 对抓 取 到 的数
者 利用 部分用 户对 当前项 目或者 其他 项 目的 已知偏 好
数 据来 预测其 他用 户对 当前项 目的潜 在偏好 。 ( 2 ) 基 于 内容 ( c o n t e n t —b a s e d ) 的推荐 系统 , 最 初 的基 于内容 的推荐 是协 同过滤技 术 的延续 和发展 。依 据 用户 已经选 择 的产 品 内容计 算 用 户 之 间 的相 似 度 , 进 而进行 相应 的推 荐 。 ( 3 ) 混合算法 ( h y b r i d f i l t e r i n g ) 推荐系统 。这是将不 同推荐类 型或推荐算法进行组 合产生的新 的推荐算法 。 结合 当前 推荐 系统 的发展 趋 势 , 本 文 采用 混 合 推 荐 算法 。
∑S i m ( w o r d , D w o r d )
f 一1
其中, w o r d为 当前需要 计算 情感倾 向性 的形 容词 ; S i m( w o r d , C wo r d ) 为形 容词 wo r d与褒 义 基 准词 i 之 间 的相似度 ; S i m( wo r d , Dwo r d ) 为形 容 词 wo r d与 贬
提 取
以将推 荐系 统分为 3类 ;
( 1 ) 协 同过滤 ( c o l l a b o r a t i v e f i l t e r i n g ) 系统 。这 种 系统是 利用 当前用 户或者 其他用 户对 部分项 目的已知 偏 好数 据来 预测 当前用 户 对 其 他项 目的潜 在 偏 好 , 或
息 的行 为记 录模块 、 分 析 用 户喜 好 的 模 型分 析 模 块 和
Ve n t u r e B e a t 统计 , Ama z o n的 推 荐 系 统 为 其 提 供 了
推荐 算法 模块 。行 为记 录模块 负责 记 录用户 的喜好行
收 稿 日期 : 2 0 1 3 —0 9 —1 5
顾 客 将 时间浪 费在 浏 览 自己 不感 兴 趣 的商 品上 , 那 么
最 终 为顾 客糟 糕 的浏览 体 验埋单 的 还是 网站 自己 。而
品信 息 。本 系统 旨在 帮助 消费者 检索 到有用 的产 品评
价信 息 , 利 用语 义情感 倾 向根 据 用 户实 际需求 推荐 最 适 合 的产 品 , 在 节省 用 户 时 间和 精 力 的 同时 提 高 了用
户购 买产 品 的满 意度 。
通 过 个性 化推 荐技 术 , 能 够 改 善 顾 客 在 网 络上 的浏 览 体验 , 不仅 让 他们 能够 买 到称心 如 意 的商 品 , 而且 买得 轻松 满 意 , 因此个 性 化推 荐 被 认 为 是 解 决 信 息超 载 最
有效 的工 具之 一 _ 2 J 。
的权 值 。处 理 流程如 图 2所 示 。
评价语 句 中的形 容词 与情感基 准词 之 间的语 义相 似度计 算公 式为
P l a r i t y ( w o r d ) 一∑S i m ( w o r d , C w o r d )
i = 1

5 0 0 0 条, 并对这 些 数 据 进行 处 理 , 挑 选 出合 适 的 商 品
最好 的商 品 , 需 要对 属性值 进行 情感分 析 , 提取好 评 商
品。本文 基 于 Ho w Ne t的情 感 词 表 判 断 评 论 中形 容 词 的情感倾 向性 。Ho wNe t 提 供 的情 感 词库 中含 有 褒 义词 3 8 6 6个 , 贬义 词 3 2 6 1 个 。本 文从 情 感词 库 中挑 选 出成对 出现 , 并适用 于手 机评 论 的情 感 基 准词 共 4 0
义基 准 词 i 之 间 的相似度 ; P l a r i t y ( w o r d ) 为 形 容 词
w o r d的情 感倾 向权值 。
( 4 ) 检索 模块 。本 系 统 采用 基 于 向量 空 间模 型 的
个性化 差异 , 使用 正则 表达 式融 合 v i p s 算 法 实现 个性
对, 如: { 高, 低) 、 { 差, 好) 、 { 正 品、 假货) 、 { 漂亮、 丑) 、
2 系统 设 计 与 实现
本文 研究 的商 品推 荐 系统 , 能够 在 用 户输 入 需要
{ 好, 坏) 、 { 完美 、 瑕疵 ) 等, 通 过计 算预处 理 阶段提 取 出 来 的形容词 特征 项与 基 准 词集 合 间 的语 义距 离 , 确 定 形容 词特征 项 的情感 倾 向性 , 并作 为该 形 容词 特征 项
Fra Baidu bibliotek
录分析用 户潜 在 的喜 好商 品和喜 好程 度 。模 型分 析模
块 能够对 用户 的行 为记 录进行 分析 , 并 建 立 模 型来 描 述 用户 的喜好 。推 荐算法模 块是 利用 推荐算 法从 产 品 集 合 中筛 选 出用户 感 兴 趣 的产 品 进行 推 荐 。其 中 , 推 荐 算法模 块是 推荐 系统 中最核 心的部 分 。根 据算 法可
信息 ( 评价 数超过 5 0 0 条 的商 品) , 共2 3 8 9件商 品 , 将 这些 商 品信 息进行 分 词 等 预处 理 , 抽 取 出情 感 词 以及 其他 特征项 , 并 给这些 特征项 加权 , 其 中情 感词 在情感 分析之 后 给予其情 感 值 作 为该 情 感 特征 项 的权值 , 最 后给用 户提 供最适 合 的商 品列表 , 如 图 1所示 。 ( 1 ) 数 据 采 集 模 块 。本 系 统 利 用 开 源 网 络 爬 虫 n u t c h从 百度 有啊 、 淘宝 中抓 取 评价 数 据 , 针对 网站 的
相关文档
最新文档