微博产品评论挖掘模型研究
微博用户影响力模型研究
PageRank的基础上,我们考虑引进用户内在影响力建立偏随机游走的PageRank算法;基于偏随机游走的PageRank对用户
的影响力具有更好的分析性。本文没考虑到地域性的差异,怎么结合地域的特点来建立模型也是下一步研究的重点。如
果能较好地结合时间性与地域性的特点,那么我们能更好地预测重点舆论爆发的时间,并且有效地进行控制。
舆论控制或者信息传播是十分重要的。 目前有许多人应 用了Pa geR a n k 算法对 微 博用户影响
力进行排名。因此本文以新浪微博作为社交网络的出发点, 类似于偏随机游走PageRank算法从一个新的角度构建微 博用户的影响力模型。
1 研究现状 用户影响力在微博领域的延伸始于链接分析,2010年
微博吸引了越来越多来自各个行业、拥有各种背景的 人。人们可以自定义标签,五花八门的内容体现出用户的 兴趣需求点又广又细。然而,除了一些大众的需求,很多相 对冷门的兴趣点并没有聚合起用户。一方面,在当前嘈杂 的微博环境中,信息一出现就很有可能被迅速淹没,据数 据显示[1],只有很少量的微博才得以广泛传播;但是只要 有一部分影响力大的用户点赞或者转发相应的微博就会 使信息得到广泛的关注。因此找到微博影响力大的用户对
Forum 学术论坛
微博用户影响力模型研究①
昆明理工大学 毕秋敏 云南财经大学 倪明明 曾志勇
摘 要:本文建立的算法可用于在微博中寻找影响力大的用户,并为控制虚假新闻的传播提供有效的途径。笔者在分析微
博用户的影响力中,发现本文提出的算PageRank与改进的
①基金项目:云南省哲学社会科学规划基金项目“微博用户 影响力模型研究”研究成果 (QN2014071)。
作者简介:毕秋敏 (1981-),女,硕士研究生,副教授,主要 从事新媒体传播方面的研究; 倪明明 (1990-),男,硕士研究生,主要从事统计 学理学方面的研究;
面向产品评论的意见挖掘研究综述
/ பைடு நூலகம்
文章 编 号 : 1 0 0 7 — 1 4 2 3 ( 2 0 1 3 ) 0 7 — 0 0 1 1 - 0 6
D OI : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 7 — 1 4 2 3 . 2 0 1 3 . 0 7 . 0 0 3
面 向产 品 评 论 的意 见 挖 掘研 究 综 述
针 对 产 品 评 论 的 意 见 挖 掘 一 直 是 意 见 挖 掘 领 域 的 热
近年来 . 随 着 以用 户 为 中 心 的 We b 2 . 0技 术 的快 速
发展 和应用 的不断扩 展 , 人 们可 以通过微 博 、 博客 、 论 坛 、电子商务 网站等多种途径发 表 自己 的对 于某件产 品或服务 的意见 或观点 .这些评论 信息 中包含 了用户
点。 文献『 2 1 认为, 意 见 是 意 见 持 有 者 针 对 某 个 实 体 或 实 体某个方 面的正面或者 负面的观点 、 态度 、 情 感 或 者 评 价. 其 中意 见 的表 达 对 象 可 以是 任 何 事 物 , 例如 产 品 、 服务 、 事件 、 主题等 , 意 见 的 持 有 者 可 以是 个 人 或 组 织 。 在 本 章 中 .我 们 将 利 用 来 自 A m a z o n . c n的一 段 关 于 笔 记 本 电脑 的评 论 来 进 一 步 阐述 意 见 挖 掘 这 个 问题 “ ( 1 ) 十一 月 底 打 特价 买 的 这 个 本 。 ( 2 ) 开 箱 封 条 是 完 整的 , 货运保护措施 也很到位 。( 3 ) 可 是 本 本 后 面 几 颗 螺 丝 有 非 常 明 显 的划 痕 . 还 有 屏 幕 上 有 几 条 划 痕 。
基于数据挖掘的微博人气用户特征分析与研究
基于数据挖掘的微博人气用户特征分析与研究摘要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用clementine软件的c5.0决策树模型对这些数据进行分析。
结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。
名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。
关键词:微博;决策树;用户分析;名人效应中国分类号:tp39 文献标识码:a文章编号10053824(2013)010017020 引言微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角色,它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。
针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户群展开分析研究。
目前,新浪微博用户数已超过1亿。
仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的“金蛋”。
那么新浪微博的用户群包括哪些人?他们当中的人气用户都是来自哪些行业?他们的空间分布又有什么特征?这些人群通过微博主要是为了了解信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示?本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层特征等,找出这些问题的答案。
了解微博在社会中的作用,了解“微博人”的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]。
1 研究设计1.1 样本来源研究所需的样本数据利用爬虫工具通过微博站点开放的api获取。
获取的微博人气用户数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。
1.2 研究方法和思路利用c5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。
c5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。
电子商务专业毕业论文题目参考
电子商务论文参考选题第一部分1我国网络购物的制约因素及发展对策——电子商务题目2电子商务诚信问题研究——电子商务题目3网络经济下的电子商务成本分析——电子商务题目4电子商务在保险业中的应用与发展前景——电子商务题目5虚拟货币的相关问题研究——电子商务题目6复杂系统可靠性增长管理与评价方法研究——电子商务题目7中国银行电子银行业务管理研究——电子商务题目8微博热点话题检测与趋势预测研究——电子商务题目9物联网技术在医疗质量管理中的应用分析——电子商务题目10移动互联时代二手房平台淘套房商业模式构建与研究——电子商务题目11网络消费者网络隐私问题的实证研究——电子商务题目12微博媒体电商创业模式研究—以XXX 为例——电子商务题目13 XXX 网络销售的商业模式分析与研究——电子商务题目14农村品牌化电子商务创业模式及路径研究——电子商务题目15母婴产品电子商务现状分析与未来发展研究—以XXX 为例——电子商务题目16基于本体的知识个性化协同推荐系统研究——电子商务题目17电子行业绿色供应链实施及其绩效评价研究——电子商务题目18基于SAS数据挖掘的C2C信用评价研究——电子商务题目19 C2C电子商务模式的信任修复机制与在线冲突解决的研究——电子商务题目20基于银行的移动支付情景规划实证研究——电子商务题目第二部分1基于SaaS模式的产业集群协同商务平台研究——电子商务题目2基于物联网的猪肉溯源及价格预警模型研究——电子商务题目3电信运营商个性化信息服务体系构建研究——电子商务题目4基于OFBiz与Android平台的进销存系统设计与实现——电子商务题目5网络信息服务系统自组织演化发展研究——电子商务题目6基于感知价值的网络沟通工具用户使用意愿研究——电子商务题目7邻近交叉路口信号灯的实时控制研究——电子商务题目8四大国有商业银行网点服务优劣势分析——电子商务题目9虚拟化技术在现代远程教育中的运用实践——电子商务题目10面向决策的北京市道路货运交通动态协调信息系统研究——电子商务题目11基于社区平台电子商务模式研究—以XXX 为例——电子商务题目12阿米巴小组制的电商商业模式分析- 以茶叶销售为例——电子商务题目13基于ofo 共享单车商业模式分析——电子商务题目14共享经济下电子商务发展策略与前景分析——电子商务题目15农产品电商营销模式分析——以小龙虾为例——电子商务题目16电子商务网上交易系统研究与开发——电子商务题目17关于xx电子支付平台的初步研究YeaPay、支付宝、PalPay ——电子商务题目18xx网上银行的现状分析与发展研究——电子商务题目19企业电子商务中交易模式及结算方式的分析——电子商务题目20电子商务支付系统的研究——电子商务题目第三部分1社交网络商业模式研究——电子商务题目2顾客时间窗变化的物流配送干扰管理模型及其算法——电子商务题目3山东联通数据业务营销策略研究——电子商务题目4高铁客运需求市场细分及差异化产品设计——电子商务题目5感知风险对网上银行影响的实证研究——电子商务题目6基于多种生产和订购模式的Newsvendor型产品供应链协调问题研究——电子商务题目7、基于灰色评价的C2C电子商务顾客忠诚度的量化测度及其培育——电子商务题目8我国客运专线客票定价的合理性研究——电子商务题目9 CTC公司网络营销策略研究——电子商务题目10基于社会力模型的高铁综合客运枢纽行人交通仿真研究与实现——电子商务题目11大学生网上开店的优劣分析——电子商务题目12网上商店经营的心理效应探析——电子商务题目13基于电子商务的营销绩效评价指标体系设计——电子商务题目14电子商务内容提供商运行机制与增值过程分析——电子商务题目15论电子商务市场中的“价格歧视”——电子商务题目16 电子商务在手机软件中的应用分析——电子商务题目17 门户网站定价影响因素与模型分析——电子商务题目18 基于因子分析的某类淘宝网店评价分析——电子商务题目19 探讨用户体验对商品购买的影响——电子商务题目20 基于淘宝与新浪微博合作下的网络外部性研究——电子商务题目第四部分1基于本体的IT企业知识共享系统的构建与实施管理研究——电子商务题目2基于支付系统数据的我国货币流通速度研究——电子商务题目3基于博弈论的第三方支付监管问题研究——电子商务题目4隐私保护的位置统计数据发布研究——电子商务题目5蚁群算法的参数调整研究——电子商务题目6基于计算智能技术的聚类分析研究与应用——电子商务题目7母婴产品企业的网络营销策略研究——电子商务题目8 O2O电子商务支付机制研究——电子商务题目9央行视角下互联网支付监管研究——电子商务题目10港口陆路集疏运能力及配置问题的研究——电子商务题目11探析明星产品电商风靡网络的原因研究——以XXX 为例——电子商务题目12“互联网+”背景下特色农产品营销策略研究——以湖北XXX 为例——电子商务题目13基于XXX 的网络约车发展模式分析——电子商务题目14京东网络金融的商业模式分析研究——电子商务题目15XXX 农产品电商发展模式分析——以XXX 为例——电子商务题目16网络直播平台的电商化盈利模式研究——以XXXX 为例——电子商务题目17基于速卖通的b2c 跨境电子商务商业模式分析- 以XXX 为例——电子商务题目18基于电商网站运动鞋网络营销模式研究——以XXX 为例——电子商务题目19基于地标农产品电子商务模式前景分析- 以XXX 为例——电子商务题目20 团购网站的盈利模式分析——以XXX 为例——电子商务题目第五部分1基于本体构建的虚拟社区知识组织模型研究——电子商务题目2基于客户满意度的物流配送中心选址研究——电子商务题目3关联旅游资源数据集的构建及其应用研究——电子商务题目4移动医疗的盈利模式及前景分析-- 以春雨医生为例——电子商务题目5微信微店的盈利模式及未来发展方向——电子商务题目6基于自媒体营销模式的分析研究-- 以罗辑思维为例——电子商务题目7基于网红网路直播平台的电子商务产品模式研究——电子商务题目8基于饿了么的O2O 电子商务商业模式研究——电子商务题目9双向供求关系企业联盟的合作策略及利益分配研究——电子商务题目10面向区域一体化的科技服务业生态系统发展模式研究——电子商务题目11基于粒子群的网络社区动态角色挖掘研究——电子商务题目12 Web环境下商品的个性化展示方法研究——电子商务题目13移动支付消费者使用意愿模型及其实证研究——电子商务题目14基于数据挖据的商品推荐系统研究和实现——电子商务题目15网络虚拟货币的电子商务分析——电子商务题目16基于电子商务环境下的国际贸易创新——电子商务题目17电子商务中的信用模型研究——电子商务题目18电子商务交易过程中信用的演化博弈分析——电子商务题目19电子商务信用风险及规避机制研究——电子商务题目20虚拟社区用户网络金融购买和使用影响因素的实证研究——电子商务题目第六部分1基于特征的产品评论挖掘关键问题研究——电子商务题目2基于短信平台的创新服务体系构建研究——电子商务题目3基于演化博弈论的科技服务业发展技术路线图研究——电子商务题目4基于社会资本视角的网络口碑与购买意愿关系研究——电子商务题目5基于交易成本理论的农产品电子商务应用研究——电子商务题目6政府在电子商务诚信体系建设中的作用——电子商务题目7农业电子商务模式探析——电子商务题目8电子商务人才的需求研究——电子商务题目9论电子商务中消费者权益保护的法律问题——电子商务题目10 B2B电子商务对企业运营成本的影响——电子商务题目11拉萨市旅游电子商务发展研究——电子商务题目12基于向量空间模型的网页信息过滤方法研究——电子商务题目13证券行业商业智能系统研究——电子商务题目14基于供应链管理的电子采购系统若干问题研究——电子商务题目15中国大额支付系统对我国货币需求和供给的影响研究——电子商务题目16基于亚马逊跨境电子商务在XXX 行业的应用研究——电子商务题目17移动电子商务模式下外卖平台的发展战略探究——以XXX 为例——电子商务题目18大学生移动学习现状调查研究—以XXX 为例——电子商务题目19基于信任营销的云集电子商务发展模式研究——电子商务题目20基于地理位置的移动电商研究—以XXX 为例——电子商务题目第七部分1电子货币的风险研究——电子商务题目2第三方支付平台的问题分析——电子商务题目3网上银行的发展策略及其在中国的运用分析——电子商务题目4网上银行对比研究选取两、三家网上银行——电子商务题目5电子商务网上支付及其法律问题——电子商务题目6我国电子商务支付现状调查及解决方案——电子商务题目7论电子商务中的移动支付——电子商务题目8虚拟货币与现实货币的对接问题研究——电子商务题目9商业银行实现网上支付的瓶颈问题研究——电子商务题目10证券电子商务及其发展——电子商务题目11政府引导产学研合作对策研究——电子商务题目12网络第三方支付风险评价与控制研究——电子商务题目13基于DNA计算的聚类算法研究——电子商务题目14需求依赖库存的库存控制和供应链协调模型研究——电子商务题目15基于TAM和IDT模型的消费者微博营销采纳意向影响因素研究——电子商务题目16供应链超网络均衡模型研究——电子商务题目17人工神经树网络模型的优化研究与应用——电子商务题目18第三方支付与商业银行竞合关系研究——电子商务题目19物流配送干扰管理问题的知识表示与建模方法——电子商务题目20 P2P网络借贷市场的融资成本与融资可获得性研究——电子商务题目第八部分1企业在电子商务环境中的价值链战略研究——电子商务题目2论我国国际贸易的电子商务服务模式——电子商务题目3人民币跨境结算对外汇占款的影响分析——电子商务题目4广东省产业技术创新平台有效性评价研究——电子商务题目5 nXen虚拟机迁移机制和负载均衡策略研究——电子商务题目6我国第三方互联网支付市场定价机制研究——电子商务题目7消费者手机支付行为实证研究——电子商务题目8中国预付卡市场研究与风险分析——电子商务题目9集装箱班轮航运网络可靠性建模与仿真研究——电子商务题目10基于动态模型的神经网络稳定性研究——电子商务题目11银行卡支付与居民消费行为关系研究——电子商务题目12基于内容分析法的评论挖掘及其在网络营销中的应用研究——电子商务题目13基于收益管理的旅客列车票额分配及动态调整方法研究14基于观点挖掘的用户情感倾向性分析——电子商务题目15国内网络公司的盈利模式及其构建研究——电子商务题目16基于第四方电子商务的统一电子现金及其税收功能研究——电子商务题目17业务流程可视化建模方法的研究与设计——电子商务题目18基于消费者感知的网络视频广告效果实证分析——电子商务题目19物流配送客户时间窗变动干扰管理研究——电子商务题目20基于ITIL的电信企业IT运营服务管理模型及应用研究——电子商务题目第九部分1 湖北XXX 等农产品电子商务现状分析与未来发展研究——电子商务题目2信任驱动的电子商务交易在企业中的应用——电子商务题目3网络拍卖的法律问题分析——电子商务题目4虚拟货币的相关问题研究——电子商务题目5电子商务交易风险研究评述——电子商务题目6 C2C电子商务中的诚信问题研究——电子商务题目7电子商务网络安全支付协议探究——电子商务题目8知识产权的电子商务交易机制——电子商务题目9电子商务与电子化采购——电子商务题目10网络交易安全风险源分析及解决对策——电子商务题目11第三方支付发展与网上银行关系的分析研究——电子商务题目12多属性反向拍卖机制与模型研究——电子商务题目13基于案例推理的在线顾客消费行为研究——电子商务题目14外贸企业BPR及ERP系统分析设计——电子商务题目15基于粗糙集与前馈网络的案例智能系统的研究——电子商务题目16物流配送地址变化的干扰管理模型及其求解方法——电子商务题目17有轨电车系统中断事件的协作救援决策方法研究——电子商务题目18离散群体智能算法的研究与应用——电子商务题目19基于生态位理论的B2C电子商务企业竞争能力评价模型研究——电子商务题目20基于可信第三方银行卡网上支付系统研究——电子商务题目第十部分1在电子商务形势下看国际贸易的变化——电子商务题目2管理软件与电子商务的趋势发展——电子商务题目3电子商务企业的组织创新——电子商务题目4电子商务环境下的人力资源管理创新——电子商务题目5社区服务业的电子商务分析——电子商务题目6电子商务对企业组织规模的影响——电子商务题目7浅析电子商务下企业的竞争优势——电子商务题目8浅析基于电子商务的物资采购管理——电子商务题目9电子商务对企业财务管理创新的影响——电子商务题目10电子商务模式给企业带来的收益与风险分析——电子商务题目11我国金融机构发展网上银行业务初探——电子商务题目12电子商务环境下ERP、SCM与CRM的整合——电子商务题目13校园电子商务运作分析——电子商务题目14网络经济的发展趋势及其对策——电子商务题目15基于复杂网络理论的银行系统性风险传染研究——电子商务题目16建设行业网——打造属于您的行业电子商务平台——电子商务题目17连锁超市的电子商务系统应用模式分析与设计——电子商务题目18网络广告案例分析结合实际案例——电子商务题目19 C2C模式下的xx网店推广方案——电子商务题目20 xx网络营销的现状及对策——电子商务题目第十一部分1当前高校农村电商人才的培养模式研究——电子商务题目2 XXX 地区农产品电子商务发展对策研究——电子商务题目3旅游信息与电子商务系统中的空间数据管理技术研究——电子商务题目4电子商务解决方案的核心问题探讨——电子商务题目5基于电子商务的组织结构设计——电子商务题目6电子商务环境下的旅游产业竞争力研究——电子商务题目7基于供应链的中小企业B2B电子商务模式的构建——电子商务题目8浅析电子商务对企业管理的促进作用——电子商务题目9基于电子商务的汽车业供应链物流能力研究——电子商务题目10电子商务与会计数据无纸化——电子商务题目11电子商务审计探析——电子商务题目12电子商务与ERP关系及其整合之初探——电子商务题目13电子商务下的会计信任探析——电子商务题目14电子商务与国际贸易发展——电子商务题目15中小企业第三方电子商务模式研究——电子商务题目16国际贸易创新与电子商务——电子商务题目17如何利用电子商务提升零售商家的竞争力——电子商务题目18面向电子商务的企业信息化经营管理模式分析——电子商务题目19中小外贸企业发展电子商务的研究——电子商务题目20浅析电子商务对企业国际竞争力的影响及对策——电子商务题目第十二部分1电子商务安全与数据加密技术浅析——电子商务题目2电子商务中的信息隐藏技术初探——电子商务题目3电子商务犯罪的原因及防范——电子商务题目4保险业电子商务中的法律问题分析——电子商务题目5电子商务时代完善合同法的思考——电子商务题目6争议电子商务中的税法问题——电子商务题目7电子商务中的隐私权问题探析——电子商务题目8搜索引擎营销中的法律问题研究——电子商务题目9电子商务中消费者隐私问题研究——电子商务题目10网上购物;安全吗从消费者视角谈电子商务的安全问题及对策——电子商务题目11个人信用体系建设与电子商务发展——电子商务题目12电子商务中可视数字签名的有关研究——电子商务题目13基于SET的电子商务的安全协议的分析——电子商务题目14移动电子商务安全支付解决方案——电子商务题目15电子商务系统中数据库加密技术的探讨——电子商务题目16信息加密及电子签名在电子商务中的应用——电子商务题目17浅析基于电子商务网络安全PKI技术的角色访问控制模型——电子商务题目18从管理学角度探讨电子商务的信息安全——电子商务题目19电子商务中关于合同订立问题的探讨——电子商务题目20电子商务安全认证技术的研究与应用——电子商务题目第十三部分1“互联网+”背景下的县域经济大发展研究——电子商务题目2跨境电商服务的众包模式研究——电子商务题目3在线评论对商品销售影响的实证研究——电子商务题目4浅析电子商务在经济型酒店中的应用研究——以XXX 为例——电子商务题目5互联网公司O2O 转型发展模式探讨——以XXX 为例——电子商务题目6电子商务背景下农产品流通效率提升探讨——电子商务题目7电子商务环境下售后服务中的问题与对策研究——电子商务题目8 XXX 第三方支付机构与商业银行的竞合关系研究——电子商务题目9 LBS 在精准营销中的应用研究——电子商务题目10共享经济下专车服务存在的问题及规制研究——电子商务题目11共享经济视野的网约车监管方式研究——电子商务题目12论电子商务企业信息竞争力的提高——电子商务题目13浅谈电子商务对财务会计的影响——电子商务题目14电子商务市场中“信息不对称”问题的模型分析及解决——电子商务题目15制造企业B2B电子商务与ERP的整合应用研究与实现——电子商务题目16企业中电子商务与ERP的关系及发展——电子商务题目17浅谈电子商务环境下的客户关系管理——电子商务题目18我国汽车行业信息化与电子商务的发展——电子商务题目19电子商务环境下客户关系管理应用分析——电子商务题目20网络经济条件下电子商务对企业的影响——电子商务题目第十四部分1 xx地区网络营销现状分析——电子商务题目2浅析电子商务在中国酒店业的应用——电子商务题目3食品企业开展电子商务的方案分析——电子商务题目4如何利用网络发展旅游业务——电子商务题目5 xx企业网站的诊断分析——电子商务题目6电子商务在汽车行业的应用分析——电子商务题目7阿里巴巴网站经营模式的启示——电子商务题目8电子商务在餐饮业的应用分析——电子商务题目9电子商务在酒店管理中的应用分析——电子商务题目10 xx省中小企业电子商务应用现状及对策分析——电子商务题目11 xx企业实施B2C电子商务的问题与对策——电子商务题目12国内xx行业网站现状与发展对策——电子商务题目13 xx行业电子商务市场调研分析——电子商务题目14家电企业的电子商务策略研究——电子商务题目15电子商务在房地产行业的应用分析——电子商务题目16电子商务在保险业的应用分析——电子商务题目17电子商务在手机行业的应用分析——电子商务题目18戴尔网络销售模式分析——电子商务题目19携程电子商务模式组成要素分析——电子商务题目20在线音乐产业发展中存在问题及应对策略——电子商务题目第十五部分1大学生网上开店的优劣分析——电子商务题目2浅论网络游戏与电子商务B2C模式的结合——电子商务题目3网络虚拟社区的利弊分析——电子商务题目4 xx省旅游电子商务的发展现状、问题及对策——电子商务题目5校园电子商务运作分析——电子商务题目6 xx网站的成功模式分析——电子商务题目7石化行业电子商务的现状与发展建议——电子商务题目8中国铁路实现电子商务的问题分析——电子商务题目9门户网站的现状分析和发展研究——电子商务题目10我国零售业发展电子商务研究分析——电子商务题目11关于淘宝网C2C模式认证系统分析——电子商务题目12中国旅游电子商务市场需求分析及其网络营销解决方案——电子商务题目13电子商务网站盈利方式的理性分析——电子商务题目14电子商务模式的网络营销渠道——电子商务题目15网络广告的未来发展趋势探讨——电子商务题目16网络营销与传统直销的整合策略分析——电子商务题目17网络营销条件下的顾客忠诚度分析——电子商务题目18传统企业网上销售策略研究——电子商务题目19 B2C模式的网上商店在网络营销中的应用研究——电子商务题目20 C2C模式的网上商店在网络营销中的应用研究——电子商务题目第十六部分1企业网络营销的效果评价方法研究——电子商务题目2电子商务市场中的“柠檬”市场问题研究——电子商务题目3电子商务交易风险对潜在消费者行为影响研究——电子商务题目4搜索引擎营销中的用户行为研究——电子商务题目5搜索引擎在网络营销中的地位和作用——电子商务题目6中小企业电子商务网站推广研究——电子商务题目7浅谈电子商务网站的建构——电子商务题目8旅行社如何在电子商务环境下开展关系营销——电子商务题目9浅析电子商务影响下的工业品营销——电子商务题目10个人网店可信形象构建——电子商务题目11社区型电子商务中应用客户关系管理的研究——电子商务题目12移动电子商务的发展与支持技术研究——电子商务题目13电子商务对商品价格的影响——电子商务题目14基于价值链的移动电子商务模式浅析——电子商务题目15运用层次分析法分析电子商务软件易用性的评价值——电子商务题目16博客网站的现状与盈利模式分析——电子商务题目17移动电子商务在餐饮业的应用——电子商务题目18强化电子商务监管的思考与建议——电子商务题目19电子商务的成本效益分析及商品定价——电子商务题目。
论辩挖掘研究
论辩挖掘研究宋巍1,魏忠钰21首都师范大学,2复旦大学个人简介:宋巍,首都师范大学信息工程学院,讲师,中国中文信息学会青工委委员,在哈尔滨工业大学计算机系获得学士、硕士和博士学位。
研究方向为信息检索与自然语言处理,主要研究兴趣包括用户分析、文本篇章分析与质量评估以及面向教育领域的自然语言处理等,在SIGIR,WWW,COLING,EMNLP等一流与重要国际会议及相关期刊发表论文10余篇。
魏忠钰,复旦大学大数据学院,青年副研究员,中国中文信息学会青工委委员,美国德州大学达拉斯分校博士后,博士毕业于香港中文大学,在哈尔滨工业大学取得学士和硕士学位。
从事自然语言处理,社会媒体分析,论辩挖掘等方面的研究,在SIGIR,ACL,COLING 等国际一流与重要会议发表论文10余篇。
在刚刚结束的国际计算语言学会议COLING 2016上,剑桥大学的Simone Teufel教授以计算论辩(Computational Argumentation)为主题进行了大会报告,获得强烈反响。
近年来,自然语言处理顶级会议ACL以及人工智能顶级会议IJCAI均曾开设关于论辩挖掘(Argumentation Mining)的讲习班或Workshop。
不经意间,论辩一词开始频繁地出现在我们的视野里。
本文将简要介绍论辩挖掘及相关工作。
1引言论辩(Argumentation)研究辩论和推理的过程,是一个涉及到逻辑、哲学、语言、修辞、法律和计算机科学等多学科的研究领域。
在人工智能领域研究论辩激发产生了一个新的研究方向——计算论辩(Computational Argumentation)[1]。
计算论辩试图将人类关于逻辑论证的认知模型与计算模型结合起来提高人工智能自动推理的能力。
论辩挖掘(Argumentation Mining)是计算论辩中一个重要的任务,它的主要目标是自动地从文本中提取论点(Argument),以便为论辩和推理引擎的计算模型提供结构化数据。
构建微博用户兴趣模型的主题模型的分析
f e r e n t i a t i o n . a n d t h a t Us e r UD A a d n Au t h o r LDA c a n b e t t e r r e l f e c t t h e u s e r s ’r e l a t i o n s h i p s i n r e a 1 s o c i a 1 n e t wo r k . Th e wo r k i n t h i s p a p e r 1 a y s t h e f o u n d a t i o n f o r f u r t h e r s t u d y i n g h o w t h e t o p i c mo d e l i s a p p l i e d t o t h e t e x t mi n i n g a p p l i c a t i o n s
析 和 话 题 检 测 与跟 踪 等 文本 挖 掘 应 用 奠定 了基 础 。
关键词 主题 模 型 , 用户兴趣 , 个性化服务
中 图 法分 类 号
TP 3 9 1
文献 标 识 码
A
Ana l ys i s o f To p i c Mo de l s o n Mo de li ng Mi c r o Bl o g Us e r l n t e r e s t i n g ne s s
摘 要 分析 了不同的主题模型 , 通过 实验 比较 了 3种主题模 型构 建的微博 用 户兴趣模 型 的性 能。 实验 结果表 明:
T wi t t e r L DA适用于新文档或新用 户的预测 , Au t h o r L D A 产生的主题 具有较 高的区分度 , 而 Us e r L DA和 Au t h o r L D A 能更好地反 映 出用户的社 交网络 关 系。上述 工作 为进一 步研 究主题模 型如何应用 于微 博的个性化信 息推 荐 、 情 感分
基于大数据分析的微博用户情感分析模型研究
基于大数据分析的微博用户情感分析模型研究随着社交媒体的普及和发展,微博作为中国最具影响力的社交媒体平台之一,每天都吸引着大量用户在上面发布和分享信息。
这些信息包含了各种用户情感和观点,对于企业、政府和个人来说,了解和分析微博用户情感是制定决策和改进产品的重要依据。
因此,基于大数据分析的微博用户情感分析模型的研究变得尤为重要。
微博用户情感分析模型的研究旨在通过分析微博用户在发表内容中所表达的情感、观点和态度,以此推测和理解用户的情绪状态和对特定事件的态度。
这一模型可以帮助用户识别和管理情感,并为企业和政府提供情感数据支持,以帮助其做出更明智的决策。
基于大数据分析的微博用户情感分析模型主要包括以下几个关键步骤:数据收集、情感分类、情感特征提取和情感分析。
首先,数据收集是构建微博用户情感分析模型的第一步。
通过API接口或者网络爬虫,可以获取到大量微博用户发布的内容和相关信息。
这些数据是模型研究的基础,因此数据的质量和多样性对于模型的准确性和可靠性非常重要。
其次,情感分类是微博用户情感分析模型的核心环节之一。
通过机器学习算法,可以将用户的微博内容分类成积极、消极或中性等不同情感倾向。
常用的分类算法包括支持向量机(Support Vector Machine,SVM)、朴素贝叶斯分类器(Naive Bayes Classifier)、决策树等。
这些算法可以通过训练样本学习用户情感的特征和规律,并预测未知样本的情感分类。
接下来,情感特征提取是微博用户情感分析模型的重要环节之一。
通过文本挖掘技术和自然语言处理技术,可以从文本中提取出表达情感的特征词汇、词频、词序等信息。
这些特征信息可以帮助模型更好地理解用户情感表达的方式和模式,并提高模型的准确性和稳定性。
最后,情感分析是微博用户情感分析模型的最终目标。
通过对用户情感特征的分析和整合,可以得出用户在特定事件或话题上的整体情感倾向。
这种情感分析可以帮助企业和政府了解用户舆论和态度,以及产品在市场上的表现和声誉。
社交媒体数据挖掘与分析——以微博为例
社交媒体数据挖掘与分析——以微博为例一、前言社交媒体的兴起已经改变了人们的生活方式,也影响了企业的市场营销策略。
微博是中国最大的社交媒体平台之一,拥有数亿活跃用户。
通过微博上的数据挖掘和分析,企业可以深入了解消费者需求和行为,优化他们的市场营销策略,提高销售量,这也是本篇文章主要讨论的话题。
二、什么是社交媒体数据挖掘?社交媒体数据挖掘是从社交媒体平台上抽取有用信息的过程,既包括文本,也包括图像和视频,以推断用户的需求,偏好和态度。
使用数据挖掘算法可以提取一个或多个指定领域的模式。
社交媒体平台上的个人和企业用户活跃性极高,它们的行为有可能成为更广泛市场的信号。
社交媒体数据可用于企业分析,反馈消费者对产品和服务的看法,并作为市场推广的参考。
三、微博上的数据挖掘与分析方法1.人工处理人工处理是一种昂贵且费时的方法,但可以提供更全面,准确,高质量的数据。
一些微博数据可能难以用自动工具分析,例如含多个意思,打错的单词和机器翻译的内容,因此要仔细检查和审核。
已经有很多人在微博上定期发布关于他们的工作,生活和休闲的更新。
这使得研究员可以通过手动对这些信息进行编码,为接下来的数据分析做准备。
2.机器学习机器学习是指计算机程序可以自动通过数据学习一定的过程,并提高效率和准确性。
这些算法分析已知的语言特征和模式,以查找并跟踪这些模式。
通常使用传统的思维数据挖掘算法,即文档分类和聚类以及情感分析。
3.文档分类与聚类文档分类的目的是将文档按照主题特征分组,例如:体现文化艺术活动的文本,社交媒体发布和销售讨论,等等。
聚类是将具有相似主题特征的文本分组。
例如,是有关个人或商业工作的话题,或是关于产品评论的话题。
4.情感分析情感分析是对微博上的信息进行分类和理解的一门技术,它能够将制图技术作为有关文档情感的坐标轴,将信息和主题分类至情感的轴线上,以建立对于不同情感的对比分析。
这种技术可以非常好地应用于消费者满意度、品牌忠诚度的研究中。
基于情感分析的产品评论挖掘与评价模型研究
基于情感分析的产品评论挖掘与评价模型研究情感分析是自然语言处理领域的一个重要研究方向,广泛应用于情感识别、舆情分析以及产品评论挖掘等领域。
本文将围绕基于情感分析的产品评论挖掘与评价模型展开研究,并探讨其应用前景和挑战。
一、引言随着互联网的快速发展和社交媒体的普及,越来越多的消费者在购买产品前会通过网络搜索和查阅他人的评价来获取更多信息。
产品评论作为消费者对产品性能、质量、价格以及服务等方面的评估和反馈,对于企业改进产品和提供更好的消费体验具有重要的参考价值。
然而,面对海量的评论数据,人工挖掘和分析已经无法满足需求。
情感分析技术的引入,可以帮助企业高效地获取评论数据中的有用信息,发现产品的优势和不足,改进产品,提升用户满意度。
二、基于情感分析的产品评论挖掘方法1. 数据预处理在进行情感分析之前,需要对原始评论数据进行清洗和预处理。
常见的数据预处理步骤包括去除特殊字符、统一大小写、去除停用词等。
此外,还需要考虑对评论进行标注,以便进行情感极性分类。
2. 特征提取特征提取是情感分析的关键步骤。
常用的特征提取方法包括词袋模型(Bag of Words)、词嵌入(Word Embedding)和主题模型等。
词袋模型通过统计文本中词语的出现频率来表示文本特征,而词嵌入通过将词语映射到一个低维向量空间中来表示文本特征。
主题模型则通过发现文本数据中隐藏的主题结构来表示文本特征,常用的方法包括Latent Dirichlet Allocation(LDA)和Latent Semantic Analysis (LSA)等。
3. 情感分类情感分类是基于情感分析的核心任务之一,其目标是将评论分类为正向、负向或中性。
常见的算法包括朴素贝叶斯分类器、支持向量机(SVM)和深度学习模型等。
其中,深度学习模型如卷积神经网络(CNN)和循环神经网络(RNN)已经在情感分析领域取得了很好的效果。
4. 情感评价除了情感分类,还可以对评论进行更细粒度的情感评价,如判断评论中的情感强度、评估对不同方面的评价等。
基于微博的用户兴趣分析与个性化信息
基于微博的用户兴趣分析与个性化信息一、综述随着互联网技术的快速发展,社交媒体平台如微博已经成为人们获取信息、交流观点和娱乐的重要途径。
微博中的用户生成内容丰富多样,涵盖了各个领域。
本文将对微博用户兴趣进行分析,并探讨如何利用这些信息进行个性化信息服务。
在微博平台上,用户产生的数据量庞大且实时更新,为研究和分析用户兴趣提供了丰富的资源。
通过对用户兴趣的分析,我们可以更好地了解用户需求,为他们提供更加精准的信息推送和服务。
用户兴趣分析还可以为企业和政府机构提供决策支持,提高市场营销效果,以及促进社会舆论的引导和调控。
为了对微博用户兴趣进行分析,我们可以采用多种方法和技术,包括文本挖掘、社交网络分析、情感分析等。
通过文本挖掘技术对用户发布的微博进行主题建模和关键词提取,从而了解用户关注的焦点和话题。
运用社交网络分析方法研究用户之间的互动关系和信息传播路径,以揭示用户兴趣的传播和影响机制。
通过情感分析技术对用户评论和转发的情感进行分类和识别,以深入了解用户对某一话题的态度和看法。
通过对用户兴趣的分析,我们可以为用户提供更加个性化的信息服务。
根据用户的兴趣偏好推送相关领域的资讯、推荐感兴趣的活动和话题、以及定制个性化的搜索结果等。
个性化信息服务还可以帮助用户发现新的兴趣点和关注领域,从而拓宽他们的知识视野和社交圈子。
在商业领域,企业可以通过用户兴趣分析来定位目标客户群体,制定更加精准的营销策略和产品推广方案。
1. 微博平台的发展与普及随着互联网技术的迅速发展,微博作为一款社交媒体平台,已经深入人们的日常生活。
微博提供了一个快速、便捷的信息传播渠道,使得用户可以实时获取和分享各种信息。
在这个背景下,研究微博平台上的用户兴趣以及进行个性化信息服务显得尤为重要。
微博平台从2009年开始进入中国市场,短短几年时间,用户数量迅速增长,影响力逐渐扩大。
截止到2012年,微博在中国市场的用户数量已经超过3亿,占全球微博用户的近半数。
微博用户倾向性分析与用户画像构建
微博用户倾向性分析与用户画像构建随着社交媒体的快速发展,微博作为中国最大的社交媒体平台之一,吸引了大量的用户。
这使得微博成为了了解用户喜好、倾向性和行为的宝贵资源。
微博用户倾向性分析和用户画像构建的目的就在于帮助企业、广告主等利用这些信息,更好地了解和满足用户需求。
微博用户倾向性分析可以通过挖掘微博用户的言论、关注和转发行为等数据,来揭示用户的兴趣爱好、价值观和态度倾向。
以微博文本为例,可以利用自然语言处理技术,如分词、情感分析和主题模型等,来获取用户发布内容的关键词、情感倾向和主题分布等信息。
通过分析微博用户的发布内容,我们可以了解用户对某个特定话题的态度、情感倾向以及对相关产品或事件的喜好与否。
此外,微博用户的关注和转发行为也提供了宝贵的信息。
通过分析用户的关注列表,我们可以发现用户关注的人物、品牌或机构,从中推测用户的兴趣领域和偏好。
通过分析用户的转发行为,可以了解用户对不同内容的认同、传播倾向和影响力等。
这些信息对于企业和广告主来说,可以帮助他们找到合适的用户群体,并精准投放广告、定制营销策略。
在进行微博用户倾向性分析的基础上,用户画像构建则是将用户的倾向性和行为模式整合,形成一个全面而准确的用户画像。
用户画像是对用户特征、兴趣爱好、行为习惯等方面进行综合分析和描述的结果。
通过用户画像,企业和广告主可以更好地理解用户需求,为其量身定制产品和服务,提供更好的用户体验。
用户画像的构建可以采用多种技术方法,如聚类分析、关联分析、分类器模型等。
聚类分析可以将相似的用户归类在一起,从而找到用户群体的共同特征。
关联分析可以揭示用户之间的关联规则,以及用户对某些内容或产品的偏好。
分类器模型可以根据用户的特征和行为,对用户进行分类,从而预测用户的兴趣和行为。
微博用户倾向性分析与用户画像构建不仅可以为企业和广告主提供更具针对性的营销策略,还可以为政府和社会组织等提供有益的信息。
例如,政府可以利用微博用户倾向性分析和用户画像构建来了解民意、预测舆情发展趋势,从而更好地制定政策和管理社会。
基于文本挖掘的评论情感分析方法研究
基于文本挖掘的评论情感分析方法研究一、文本挖掘文本挖掘是对文本中的信息进行自动抽取、分类、聚类、分析和总结的一种技术。
它主要涉及到自然语言处理、统计学、机器学习等领域的知识。
文本挖掘的主要应用包括舆情分析、情感分析、信息提取、文本分类等。
它可以帮助企业了解用户需求、产品优化和品牌形象塑造等方面进行决策。
二、评论情感分析评论情感分析是将自然语言处理技术与情感计算相结合的一种应用。
它可以帮助企业了解用户对产品或服务的评价,对用户体验进行分析和优化。
评论情感分析主要通过对文本进行自动分析,确定文本的情感属性(如积极、消极、中性等),从而对文本进行分类。
评论情感分析可以分为两种类型:情感分类和情感挖掘。
情感分类主要是将文本分为积极、消极和中性文本,而情感挖掘则更深入地分析文本情感表达的原因和目的。
三、基于文本挖掘的评论情感分析方法1、语义分析法语义分析法主要利用自然语言处理和文本挖掘技术,将文本处理成结构化的数据。
通过分析词汇、句法结构、语义关系等因素来确定情感类别,从而进行情感分类和情感挖掘。
2、情感词典法情感词典法主要基于一系列预设的情感词汇表,将文本中的情感单词与词汇表进行匹配,从而确定情感类别。
其中积极词汇和消极词汇的权值不一样,可以通过权值进行情感倾向的计算。
3、机器学习法机器学习法主要通过对大量训练数据进行学习和建模,从而确定文本的情感类别。
它包括决策树、支持向量机、朴素贝叶斯等多种算法。
机器学习法可以通过人工标注的训练数据和自动化的特征提取来进行训练,得到高准确率的情感分类模型。
四、评论情感分析的应用评论情感分析可以应用于电商、社交网络、网络游戏、在线客服等多个领域。
例如,电商企业可以通过评论情感分析技术了解用户对商品的评价和需求,及时调整产品策略,提高销售额度和用户体验。
在社交网络领域中,企业可以通过评论情感分析技术了解用户对话题或事件的看法和态度,为信息传播和用户引导提供参考。
五、结论评论情感分析技术应用广泛,可以帮助企业深入了解用户需求和行为,从而优化产品和服务,提高企业竞争力。
微博用户关系挖掘研究综述
用户的动态变化是微博群体的主要特点, 所以对 微博用户 进 行 动 态 分 析 可 以 挖 掘 出 一 些 潜 在 规 律 。 Kivran - Swaine F. 等认为对群体结构的动态分析可以 帮助判断微博用户之间关系的持续性
[26 ]
。 Meeder B.
[27 ]
等利用时间戳信息分析微博用户的动态变化规律
微博主要是一种在线用户交流平台, 用户可以根
。此外, 微博在凝聚民心 、 降低事件危害以
据自己的喜好表达自己的信息 、 寻找志同道合或感兴 趣的用户 。微博用户之间主要表现为主动关注 、 相互 关注或被关注等行为 式( 如图 2 所示) 。 在微博网络中, 互相关注的用户数量可能会比较 多, 但是不同的用户之间所交互的内容也会存在差异 。 如图 2 所示, 相同颜色点( 表示用户) 基本上汇聚在同 一区域且具有相同的关系, 而同一用户也可能同时处 于多个不同的关系之中 。 所以, 微博用户所产生的活 动主要是在微博网络中形成关系或群体 。
[1 -3]
0
引
言
户交互性等特点
。
微博之所以能够成为当今国内外的主流社交媒 体, 主要是因为它具有强大的用户实时交互性 。 用户 在使用微博的过程中, 往往在微博网络空间中结成了 比如, 用户之间的关注关系 、 社区中的好友 种种关系, 或亲情关系 、 实时交互过程中因共同购买或评论产品 而结成的共同兴趣关系等
。
袁毅等通过跟踪微博用户在时间周期内关于某一话题 的交流数据, 发现用户在信息交流过程中形成关注 、 评 论、 转发和引用四种社会关系网络, 指出四种关系网络 有其不同的结构形态, 但同时又具有某些共性特征及 联系
[28 ]
。 但是, 微博是一种新兴的 、 特殊的复
基于手机商品评论文本的情感分析与挖掘
qiyekejiyufazhan【摘要】目的:随着互联网技术的发展和智能设备的普及,电商平台出现了大量商品评论信息,分析和挖掘商品评论文本的情感,对于研究用户需求、商品口碑具有极其重要的价值。
方法:文章利用编程语言python 获取电商平台的商品评论信息,采用算法与人工相结合的方式,从数据预处理、特征词表的构建、修饰词表和情感词表的扩充等方面分析商品的评论信息和用户对相应属性的评价观点。
结果:实现了商品属性和评价情感词的抽取和分类,实现了商品评论的情感倾向性分析,深入了解用户需求和产品口碑。
局限:依赖情感词典进行情感分析,为取得更加精确的结果,情感词典需要不断完善。
【关键词】情感分析;产品评论;文本挖掘【中图分类号】TP391.1【文献标识码】A 【文章编号】1674-0688(2019)05-0130-03基于手机商品评论文本的情感分析与挖掘王洋(上海迪生通讯电脑有限公司,上海200433)1背景介绍和研究目的智能手机作为最主要的智能移动终端,深刻地影响着人们生活的方方面面。
有报告显示,2017年上半年,中国手机市场出货量达2.81亿部,智能手机用户规模达到6.55亿人[1]。
消费者面对日益同质化的手机难以选择,同时手机厂商也难以捕捉用户需求,从而进行针对性的产品更新和升级。
情感分析又称为情感挖掘、意见抽取、倾向性分析,是指通过用户对某一事件或商品的评论文本进行分析、归纳,进而发现其观点和倾向性情感[2]。
基于手机评论文本的情感分析,能有效地解决上述问题,对研究消费者需求和推动产品更新换代具有积极的指导意义。
2情感分析方法(1)数据的获取与预处理。
本文利用编程语言python ,从电商平台“京东商城”抓取了手机产品的评论文本,包括会员姓名、评价内容、追评内容、评价时间等字段,考虑到抓取数据存在冗余和无效数据,必须对抓取到的数据进行预处理,包括对获取的数据进行冗余的删除、字符的过滤、词形的转换等,然后借助中文分词工具Jieba 去除停用词和分词。
基于产品评论的消费者偏好模型构建研究
第29卷㊀第12期长㊀春㊀大㊀学㊀学㊀报Vol.29㊀No.12㊀2019年12月JOURNALOFCHANGCHUNUNIVERSITYDec.2019㊀收稿日期:2019-10-29基金项目:安徽省教育厅项目(KJ2017A858)作者简介:胡龙茂(1973-)ꎬ男ꎬ安徽太湖人ꎬ副教授ꎬ硕士ꎬ主要从事人工智能㊁自然语言处理研究ꎮ胡戴新(1966-)ꎬ男ꎬ安徽安庆人ꎬ教授ꎬ硕士ꎬ主要从事管理学研究ꎮ基于产品评论的消费者偏好模型构建研究胡龙茂1ꎬ2ꎬ胡戴新2(1.合肥工业大学计算机与信息学院ꎬ合肥230601ꎻ2.安徽财贸职业学院ꎬ合肥230601)摘㊀要:用户发表的购后评论ꎬ隐含着消费者对产品特征的某种偏好ꎮ有效挖掘消费者的偏好信息ꎬ有利于企业制定差异化的营销策略ꎮ首先ꎬ采用最大熵模型识别消费者性别ꎮ然后ꎬ利用CRF模型㊁频繁特征和评价词搭配从评论文本中抽取 产品特征─评价短语 对ꎬ使用情感词典为评价短语赋值ꎮ最后ꎬ以产品特征评价值为自变量㊁用户评分为因变量ꎬ利用二元Logistics回归分析构建消费者偏好模型ꎮ以亚马逊中国网站的两款热销手机的评论为实验ꎬ建立了消费者的总体偏好模型和不同性别消费者的偏好模型ꎮ模型显示男性消费者和女性消费者的偏好存在差异ꎬ给出了相应的营销建议ꎮ关键词:产品特征ꎻ消费者偏好ꎻ产品特征评价值ꎻ用户评分ꎻLogistics回归中图分类号:TP311㊀㊀文献标志码:A㊀㊀文章编号:1009-3907(2019)12-0056-07随着网购市场交易规模不断增长ꎬ消费者发表的购后评论也越来越多ꎮ海量的评论信息无论对消费者还是企业来说都是可以开发和利用的宝贵资源ꎮ对于企业来说ꎬ消费者对产品以及产品具体特征的评价ꎬ往往隐含消费者对产品特征的某种偏好ꎮ在竞争日趋激烈的环境下ꎬ只有掌握消费者具体偏好哪些特征ꎬ企业才能制定相应的差异化营销策略ꎬ从而提升产品的辨识度及竞争力ꎮ目前ꎬ很多学者采用自然语言处理技术对产品评论进行细粒度挖掘ꎬ利用各种方法从评论中抽取 产品特征─评价短语 对(也称评价单元)ꎮHu等人[1]首次提出应用关联规则方法提取英文评论中的产品特征ꎬ并将产品特征附近的形容词作为评价词ꎮ后续研究者结合词性㊁语法及句法提炼抽取规则ꎬ识别评论中的评价单元[2-4]ꎮ由于受制于评论的口语化及随意性ꎬ上述基于规则的方法的抽取精度很难得到进一步提升ꎬ不少学者尝试使用监督方法进行抽取ꎮ学者们大多从词㊁词性㊁语法及语义等角度提取特征ꎬ利用条件随机场(CRF)抽取评价单元[5-7]ꎮ胡新明[8]在利用模板抽取评价单元的基础上ꎬ进一步利用情感词典计算偏好程度ꎬ构建了用户偏好矩阵ꎬ实验结果表明ꎬ由偏好矩阵计算出的偏好值和用户评分之间没有显著差异ꎮ现有研究主要集中于评价单元的抽取ꎬ针对消费者偏好的研究极少ꎬ且文献[8]用产品特征的评价均值来度量消费者偏好的方法和我们的观察不符ꎮ如有以下用户评论:例1电池中度使用也可以用一天半左右ꎬ就是有点发热!值得购买!4.0分例2机子是个裸机ꎬ是低端版的ꎬ价钱稍贵ꎮ电池不怎么耐用ꎬ一天要充两回电ꎮ好在机子速度不错ꎬ也是正品ꎬ赞!5.0分在例1中可以抽取的产品特征㊁评价短语及评价值(量化为1~5分)为<电池ꎬ一天半左右ꎬ4><发热ꎬ有点ꎬ2>ꎬ按照文献[8]的方法ꎬ用户评论的评分应为3分ꎬ而实际上用户给出的评分为4分ꎮ在例2中ꎬ可抽取<价钱ꎬ稍贵2><电池ꎬ不怎么耐用ꎬ2><速度ꎬ不错4>ꎬ按照文献[8]的方法ꎬ用户评论的评分应为3分ꎬ但用户评分为5分ꎮ分析以上两个例子ꎬ我们发现ꎬ用户并不会同等看待所有产品特征ꎬ而是对某些特征有所偏好ꎬ从而对产品进行总体评分时会将偏好的特征赋予较大的权重ꎮ如例1的用户偏好 电池 ꎻ例2的用户明显偏好 速度 ꎮ因此ꎬ提出一种新的方法从产品评论中挖掘消费者偏好ꎮ首先ꎬ从产品评论中挖掘产品特征㊁特征评价值及消费者信息ꎮ然后ꎬ利用Logistic回归构建消费者偏好模型ꎬ并实证考察不同消费人群的偏好信息ꎮ1㊀模型构建框架及关键技术通过网络爬虫从B2C电子商务网站中抓取某种产品的所有评论信息ꎬ从评论中挖掘出产品特征㊁产品特征评价值(通过将特征对应的观点及强度转化为具体的数值得到)以及消费者的信息ꎬ最后利用二元Lo ̄gistics回归分析确定不同类别消费者关于产品特征的偏好ꎮ系统的总体框架如图1所示ꎮ图1㊀产品评论中消费者偏好模型构建框架1.1㊀评论文本抓取主流的电商网站有京东㊁天猫㊁苏宁和亚马逊等ꎬ前三家均存在好评返现等情况ꎬ评论的可信度不高ꎬ而亚马逊更注重评论的真实性和质量ꎬ因而编写网络爬虫从亚马逊中国网站爬取某热门手机的评论信息ꎬ包括用户链接㊁评论文本和评分ꎮ为识别消费者信息ꎬ抽取评论中的用户链接ꎬ根据用户链接爬取此用户发表的所有商品评论信息(包括用户名以及每条商品评论的商品名㊁评论标题㊁评论文本)ꎮ由于在后续消费者偏好的挖掘处理中ꎬ消费者的性别及产品特征的评价值均通过机器学习得到ꎬ故分别抓取同一厂商热销的两款手机评论数据(分别称为A款和B款)ꎬ其中A款评论数据用于模型训练ꎬB款评论数据用于预测ꎮ以A款评论数据为例ꎬ包括A款手机评论文本㊁评分及A款手机用户发表的所有评论信息ꎮ1.2㊀消费者性别识别消费者的昵称㊁购买的商品名称㊁评论标题或文本中指示身份的词语㊁评论文本的用词习惯等都会隐含指示消费者的信息[9]ꎮ人工对用户发表的所有评论进行阅读ꎬ标注性别信息ꎬ以文献[9]中的方法抽取特征ꎬ采用最大熵方法建模ꎬ然后用模型预测未标注的用户性别ꎮ75第12期胡龙茂ꎬ等:基于产品评论的消费者偏好模型构建研究1.3 评价单元抽取及评价赋值1.3.1㊀评价单元抽取评价单元的抽取主要包括两种方法:一是基于规则模板的方法ꎬ这种方法无须人工标注数据ꎬ但抽取精度不太高ꎻ另一种是基于条件随机场的方法ꎬ该方法需要人工标注语料ꎬ如果能够构造好的特征ꎬ往往能取得不错的抽取精度ꎮ由于抽取精度是关系到后续偏好识别的关键步骤ꎬ本文采用CRF方法ꎮ对评论文本进行分词和词性标注ꎬ在特征选取中除采用传统的词及词性特征外ꎬ提取相关词㊁句首距离㊁后指转折词及前指副词4种语义特征ꎬ并在CRF抽取评价单元的基础上ꎬ对孤立的产品特征采用StanfordNLP依存句法分析ꎬ抽取其对应的评价短语ꎮ4种语义特征如下所示ꎮ(1)如果中的相关词一个词是产品特征词ꎬ则与其相关度高的词很有可能也是产品特征词ꎮ利用扩展同义词林计算两个词语的相似度[10]ꎬ再计算词语的语素相似度[11]ꎬ将二者结合ꎬ形成词语的相似度ꎬ公式如下:NSw1ꎬw2()=CSw(1ꎬw2)2CSw(1ꎬw2)+MSw(1ꎬw2)+MSw(1ꎬw2)2CSw(1ꎬw2)+MSw(1ꎬw2)ꎬ(1)式中NSw1ꎬw2()表示两个词的相似度ꎬCSw(1ꎬw2)为词林相似度ꎬMSw(1ꎬw2)为语素相似度ꎮ产品特征主要由名词和名词词组组成ꎬ利用相似度计算名词相关词的公式如下:RWlistw1()=w2{NSw1ꎬw2()ȡλꎬ(2)式中λ代表阈值(通过实验调整优化ꎬ最终设置为0.5)ꎮ统计每个名词在评论中出现的频次ꎬ取相关词列表中频次最高的词为当前词的相关词ꎮ(2)句首距离ꎮ用户往往采用开门见山的方式对某个产品特征进行评价[12]ꎬ这使得在分句句首或离分句句首很近的词成为产品特征的可能性增大ꎮ如分词后的用户评论 手机反应还一般吧ꎬ外形不错 中存在 反应 外形 两个产品特征ꎬ其中 反应 的句首距离为2ꎬ 外形 的句首距离为1ꎮ(3)后指转折词ꎮ转折词表明用户会对某个产品特征持有负面评价ꎮ常见的转折词有 就是 只是 等ꎮ(4)前指副词ꎮ 也 都 不 确实 和 真的 等副词后面往往是评价语ꎬ其前面往往是所评价的产品特征ꎮ采用上述特征对CRF模型进行训练ꎬ然后用训练后的模型对评论进行标注ꎬ标注结果中包含产品特征和评价短语ꎮ如果产品特征附近有评价短语ꎬ则配对成评价单元ꎻ否则ꎬ产品特征成为孤立产品特征ꎮ采用文献[7]中提出的nsubj关系抽取孤立产品特征对应的评价词ꎬ然后将与评价词依存关系为advmod和neg的词抽取作为评价词的修饰词ꎬ最后将评价词和修饰词组成评价短语ꎮ由于用户评论存在随意性(如没有断句)和口语化现象ꎬ一些产品特征未能被CRF模型识别ꎮ将CRF模型识别超过一定次数的产品特征作为频繁特征ꎬ在评论文本中进行查找ꎬ如果未被CRF模型标注ꎬ则进行标注ꎬ并按依存关系抽取其后的评价短语ꎬ构成遗漏的频繁评价单元ꎮ经上述抽取过程ꎬ我们能够抽取到显式的评价单元ꎮ然而ꎬ用户评论中还存在一些隐式评价单元ꎬ如在评论 便宜ꎬ配置不低ꎬ细节之处还有提升的空间 中ꎬ便宜指的是价格ꎬ评论中存在隐式评价单元<价格ꎬ便宜>ꎮ中文词语之间存在固定的搭配关系ꎬ特定的形容词往往只会修饰固定的几个名词[13]ꎬ如在手机评论语料中ꎬ与形容词 好 经常搭配的名词有 手感 信号 和 质量 ꎮ抽取评价短语中的形容词(即评价词)ꎬ将相同评价词修饰的产品特征归集到一起ꎬ统计出现频率最高的产品特征ꎬ如果频率超过某个阈值ꎬ将此产品特征作为此评价词默认评价的产品特征ꎮ在标注后的评论句中查找评价词ꎬ如果评价词前面没有产品特征ꎬ则将评价词前面最近的名词作为产品特征ꎬ然后将评价词前面的副词作为评价词修饰词ꎬ从而形成隐式评价单元ꎮ1.3.2㊀合并同类产品特征由于用户表述习惯不同ꎬ相同的产品特征会用不同的词语表示ꎬ如 价格 还会说成 价钱 和 价位 ꎮ另外ꎬ用户还会对同类特征的不同方面进行评价ꎬ如对于 外观 ꎬ可能的评价有 正面 背面 或 侧面 ꎮ85长㊀春㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第29卷为减少特征的稀疏性ꎬ需对同类产品特征进行合并ꎮ为保证后续偏好分析的精度ꎬ采用人工方式对同类产品特征进行合并ꎮ1.3.3㊀特征评价值用户对产品特征的评价不但有极性ꎬ还有强度上的差异ꎮ极性词通常为形容词(如 好 )ꎬ也包括少数动词(如 喜欢 )ꎮ强度词通常为程度副词ꎬ如 非常 等ꎮ用知网情感词典和评价词典标注评价短语中的评价词ꎬ正面评价词标注为1ꎬ负面评价词标注为-1ꎻ对于未出现在知网情感词典中的评价词ꎬ人工标注其情感倾向ꎮ在文献[14]的基础上ꎬ将情感强度词设置如表1所示ꎮ表1㊀情感强度词程度级别词汇0.5稍微些许略略微多少有点有些有点儿0.75较较为比较不大不太不很还尚1.25很更更加格外太忒挺非常超特别相当十分甚颇蛮够真尤其好1.5最极分外㊀㊀评价短语的情感分计算公式如下所示:特征评价值=程度级别ˑ极性(3)根据式(3)计算得出评价值后ꎬ仿照用户评分ꎬ将评价值离散化为5个等级如公式(4)所示ꎮscore_dfea=1ꎬ-1.5ɤscorefea<-12ꎬ-1.0ɤscorefeaɤ-0.53ꎬ-0.5<scorefea<0.54ꎬ0.5ɤscorefeaɤ15ꎬ1.0<scorefeaɤ1.5ìîíïïïïïïï㊀ꎬ(4)式中ꎬscore_dfea表示离散化的评价值ꎬscorefea表示未离散化的评价值ꎮ1.4㊀Logistics回归Logistics回归模型是一种对二分类因变量(因变量取值有1或0两种可能)进行回归分析时经常采用的非线性分类统计方法[15]ꎮ借助该模型能够分析多个自变量(连续变量或分类变量)与一个二分类因变量变化的依存关系[16]ꎮ公式如下所示:logitP()=lnP1-P=β0+β1x1+β2x2+ +βkxk(5)式中:P为事件(用户的评分为好评)发生的概率ꎻx1ꎬx2ꎬ ꎬxk为自变量ꎬ表示特征评价值(1~5分)ꎻβ0为截距ꎻβ1ꎬβ2ꎬ ꎬβk为回归系数ꎮ由于自变量都是同量纲的ꎬ回归系数越大ꎬ其对应的自变量对因变量的贡献越大ꎬ故回归系数可以看成是消费者对产品特征的偏好系数ꎮ2㊀实验结果与分析2.1㊀数据环境及数据集为验证模型的有效性ꎬ编写网络爬虫从亚马逊中国网站爬取某国产手机厂商两款(分别称为A款和B款)畅销产品的用户评论ꎬ并且对于每条用户评论ꎬ爬取此用户对所购其他产品的评论ꎮ评论数据中共包含A款手机评论1169条(对应爬取此1169个用户对于其他产品的评论)ꎮB款手机评论1033条(对应爬取此1033个用户对于其他产品的评论)ꎬA款手机评论用于评价单元识别模型的构建ꎻA款手机用户对其他产品的评论用于性别识别模型的构建ꎬB款手机评论及B款手机用户对其他产品的评论用于从构建好的模型抽取评价单元及识别用户性别ꎮ实验所用编程语言采用pythonꎬ自然语言处理工具采用StanfordNLPꎬ条件随机场采用CRF++0.58ꎬLo ̄gistics回归分析采用SPSS20ꎮ95第12期胡龙茂ꎬ等:基于产品评论的消费者偏好模型构建研究2.2㊀用户性别识别采用A款手机评论数据ꎬ按文献[9]构建最大熵模型ꎬ利用此模型识别B款手机评论中1033个用户的性别ꎬ其中女性用0表示ꎬ男性用1表示ꎮ2.3㊀评价单元抽取采用A款手机评论数据ꎬ构建2.3.1节提出的CRF评价单元识别模型ꎬ在B款手机评论中ꎬ共识别出评价单元586个ꎮ将出现次数超过3次的产品特征作为频繁特征ꎬ再次在评论文本中进行标注和识别ꎬ共识别遗漏的评价单元354个ꎮ将上两步抽取的评价单元中的评价短语分类ꎬ统计评价词对应的产品特征的频次ꎬ表2显示了出现10个常见评价词对应的频率最高的三个产品特征ꎮ表2㊀评价词对应的频率最高的三个产品特征评价词(出现次数)对应频率最高的产品特征(频次)不错(50)质量(12)㊁外观(5)㊁性能(5)好(49)信号(9)㊁性能(5)㊁性价比(4)高(48)性价比(39)㊁配置(3)㊁像素(2)快(45)运行速度(14)㊁速度(7)㊁反应(8)流畅(35)运行(20)㊁系统(8)㊁操作(3)耐用(23)电池(23)漂亮(16)外观(12)㊁外形(3)㊁界面(1)清晰(16)屏幕(7)㊁摄像头(2)㊁照相(2)大(14)屏幕(5)㊁内存(4)㊁电池容量(2)长(10)待机时间(5)㊁待机(1)㊁开机时间(1)㊀㊀设置出现频率超过30%的产品特征为评价词对应的默认产品特征ꎬ如表2中粗体所示ꎮ按照默认产品特征ꎬ从评论文本中抽取了评价单元137对ꎮ经过上述三个步骤ꎬ从评论文本中共获得评价单元1077个ꎬ其中共评价了102个产品特征ꎮ人工识别同类产品特征ꎬ共识别为16类ꎬ分别为:运行㊁外观㊁电池㊁屏幕㊁质量㊁拍照㊁性价比㊁发热㊁价格㊁信号㊁系统㊁手感㊁配置㊁音质㊁功能㊁通话ꎮ在人工识别时发现ꎬ 系统 存在两种含义ꎬ一种是 操作系统 (评价词为 人性化 好用 或其反义词等)ꎬ仍将其标识为 系统 ꎻ另一种是 运行 (评价词为 快 流畅 或其反义词等)ꎬ将其重新标识为 运行 ꎮ表3显示了部分同类产品特征ꎮ表3㊀部分同类产品特征产品特征类别产品特征运行运行速度运行速度反应反应速度操作性能流畅度外观外观外形外形设计外壳机身界面UI画面侧面背面后盖样子做工设计样式颜色电池电池电池容量待机待机时间续航耗电耗电量电池续航能力电池消耗续航能力电池待机续航方面掉电屏幕屏幕屏幕分辨率屏幕像素分辨率触屏清晰度拍照拍照照相相机照片照相功能相机像素拍照性能照相质量相片质量拍照效果摄像头摄像头清晰度像素㊀㊀按照公式(3)计算出产品特征的评价值ꎮ统计产品特征出现的次数及评价均值ꎬ如图2所示ꎮ从图2中可以看出ꎬ用户评价次数最多的产品特征依次为 运行 外观 和 电池 ꎬ评价次数最少的产品特征依次为 通话 功能 和 音质 ꎮ评价均值较高的产品特征依次为 性价比 运行 和 手感 ꎬ评价06长㊀春㊀大㊀学㊀学㊀报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第29卷图2㊀产品特征出现次数及评价均值均值较低的产品特征依次为 质量 发热 和 音质 ꎮ用户的评价值和手机厂商的产品宣传还是比较一致的ꎬ此款手机为华为的千元级智能手机ꎬ主打性价比和运行的流畅性ꎬ对音质没有过多的诉求ꎮ由于主打性价比ꎬ限制了设计和软硬件成本ꎬ质量较难管控ꎬ导致用户对质量评价较低ꎬ用户反映最多的为 黑屏 死机 和 按键失灵 ꎮ2.4㊀模型构建和分析从评价单元的抽取结果中可以看出ꎬ不少用户只是对产品给出总体评价而没有针对具体的产品特征展开评价ꎬ还有少数用户使用混合评价ꎬ既对产品特征评价ꎬ也对服务(如快递㊁电商平台)展开评价ꎮ在这两种评价中ꎬ用户给出的评分不是(或不纯粹是)产品特征评价的综合ꎬ在构建偏好模型时需要丢弃ꎮ通过丢弃上述两种评价ꎬ共获得用于构建偏好模型的有效评论521条ꎬ评价单元1027个ꎮ用户通常只会评价比较关注的特征ꎬ如果某类特征出现次数较少ꎬ说明用户关注度较低ꎬ不宜放到偏好模型中ꎮ取出现次数超过10%的特征作为常见特征ꎬ包含运行㊁外观㊁电池㊁屏幕㊁质量㊁拍照㊁性价比和发热共8个特征ꎮ观察发现ꎬ即使是用户关注度较高的8个常见特征ꎬ也存在很多缺失值ꎮ因此ꎬ用户如果对某个常见特征没有作出显式评价ꎬ表明其态度为不置可否ꎬ由于本文中正面评价取值为1ꎬ负面评价值为-1ꎬ故可将用户没有评价的产品特征的评价值设置为0ꎮ补充缺失值后ꎬ按照公式(4)将评价值离散化为1~5分ꎮ为便于Logistics回归分析ꎬ将用户评分二值化ꎬ参照亚马逊中国网站的设置ꎬ将评分小于等于3分作为差评(用0表示)ꎬ4分及5分作为好评(用1表示)ꎮ用户性别及评分的统计数据如表4所示ꎮ表4㊀用户性别及评分分布好评差评总计男298104402女8831119总计386135521㊀㊀将八个常见产品特征的评价值(分别用x1~x8表示)和用户性别(x9)作为自变量ꎬ将二值化的用户评分作为因变量ꎬ利用SPSS20进行二元Logistics回归分析ꎬ自变量的加入方式采用向前步进ꎬ获得全体用户的Logistics模型如式(5)所示:logit(P)=-25.103+1.136x1+0.839x2+1.264x3+1.197x4+2.959x5+1.321x8ꎬ(5)从式(5)中可以看出ꎬ拍照(x6)㊁性价比(x7)和性别(x9)在模型中不显著ꎬ而质量(x5)㊁发热(x8)和电池(x3)的系数最大ꎮ总体而言ꎬ用户最为偏好质量ꎬ其次为发热情况ꎬ再次为电池ꎬ而拍照㊁性价比和性别对评分的影响不大ꎮ提取女性用户的数据ꎬ尝试建立女性用户的偏好模型ꎮ由于女性用户的差评数据为31条(见表4)ꎬ而在Logistics回归模型中ꎬ为保证统计意义ꎬ每个水平的数据应至少为自变量个数的10倍[17]ꎬ故选取最常见16第12期胡龙茂ꎬ等:基于产品评论的消费者偏好模型构建研究特征中的3个作为自变量构建模型ꎬ结果如式(6)所示:logit(P)=-14.498+1.789x1+1.120x3+2.281x5ꎬ(6)类似地ꎬ提取男性用户的数据ꎬ将前5个最常见的产品特征作为自变量ꎬ构建男性用户偏好模型如公式(7)所示:logit(P)=-16.103+1.124x1+1.485x3+3.111x5ꎬ(7)从式(6)和式(7)可以看出ꎬ女性用户和男性用户的共同点是最为偏好质量(x5)ꎮ其差异为女性用户除质量外ꎬ更为偏好运行(x1)ꎬ其次才是电池(x3)ꎻ而男性用户除质量外ꎬ更为偏好电池(x3)ꎬ其次为运行(x1)ꎮ模型的差异反映出女性用户偏感性ꎬ偏好手机运行更加流畅ꎬ这也可能是苹果手机吸引女性用户的一个主要原因ꎬ而男性用户更看重电池是否耐用ꎬ这也可能是与男性用户出门携带物品力求精简有关ꎮ2.5㊀建议B款手机的厂家应严把质量关ꎬ提升品控能力ꎬ让用户用得放心ꎻ另外ꎬ厂家还应改进设计ꎬ提高手机的散热效果ꎮ分用户群体来说ꎬ此款手机的主要用户为男性ꎬ为提升用户体验ꎬ应适当提高电池容量或减少系统的耗电量ꎬ使得用户不再为充电而焦虑ꎬ将电池性能作为主要卖点着力宣传ꎻ虽然女性群体用户只占约五分之一ꎬ但女性的消费能力强ꎬ如果希望获得女性用户的青睐ꎬ应优化系统设计ꎬ使得运行更加流畅ꎬ有效宣传给女性用户ꎮ3㊀结语本文首先采用CRF模型抽取评价单元㊁频繁特征抽取遗漏评价单元㊁评价词抽取隐式评价单元3种方法ꎬ从评论中抽取评价单元ꎬ利用情感词典计算评价短语的情感分ꎬ然后在获得用户的所有评论的基础上构建最大熵模型识别用户性别ꎬ最后以常见产品特征为自变量㊁用户评分为因变量ꎬ利用Logistics模型分别构建了总体偏好模型及不同性别用户偏好模型ꎬ分析了群体用户和不同性别用户的偏好并给出了相应建议ꎮ本文也存在一些不足ꎬ主要是评论样本不够多ꎬ筛选不出足够的评价多个产品特征的评论文本ꎬ使得产品特征评价值矩阵中缺失值过多ꎬ虽然采用中性评价值代替缺失值的方法比较合理ꎬ但离用户的真实评价仍会有偏差ꎬ势必会影响后续偏好模型的解释效果ꎮ下一步研究中应选择评论数量更多的产品进行偏好挖掘ꎬ并提高评价单元的抽取精度ꎮ参考文献:[1]㊀HuMinqingꎬLiuBing.Miningandsummarizingcustomerreviews[C]//Procofthe10thACMSIGKDDInter-nationalConferen ̄ceonKnowledgeDiscovery&DataMining.NewYork:ACMPressꎬ2004:168-177.[2]㊀陈炯ꎬ张虎ꎬ曹付元.面向中文客户评论的评价搭配识别研究[J].计算机工程与设计ꎬ2013ꎬ34(3):1073-1077. [3]㊀王娟ꎬ曹树金ꎬ谢建国.基于短语句法结构和依存句法分析的情感评价单元抽取[J].情报理论与实践ꎬ2017ꎬ40(3):107-113.[4]㊀唐晓波ꎬ刘一平.基于依存句法的跨语言细粒度情感分析[J].情报理论与实践ꎬ2018ꎬ41(6):124-129.[5]㊀JakobN.ꎬGurevychI.ExtractingOpinionTargetsinaSingleandCross-DomainSettingwithConditional[C]//ProceedingsofEMNLP-2010CambridgeꎬMA:ACMꎬ.2010:1035-1045.[6]㊀马晓君ꎬ金爽ꎬ杨淑田.中国电子商务平台产品评论意见挖掘 基于条件随机场模型的实证研究[J].系统科学与数学ꎬ2015ꎬ35(11):1327-1346.[7]㊀李志义ꎬ王冕ꎬ赵鹏武.基于条件随机场模型的 评价特征-评价词 对抽取研究[J].情报学报ꎬ2017ꎬ36(4):411-421. [8]㊀胡新明ꎬ夏火松.在线评论中用户商品属性偏好识别方法研究[J].情报杂志ꎬ2012ꎬ31(9):197-201.[9]㊀胡龙茂.中文在线评论的用户性别判定研究[J].通化师范学院学报ꎬ2016ꎬ37(12):69-72.[10]㊀陈宏朝ꎬ李飞ꎬ朱新华ꎬ马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报ꎬ2016ꎬ30(5):80-88. [11]㊀刘丽珍ꎬ赵新蕾ꎬ王函石ꎬ等.基于产品特征的领域情感本体构建[J].北京理工大学学报ꎬ2015ꎬ35(5):538-544. [12]㊀周红照ꎬ等.语义特征在评价对象抽取与极性判定中的作用[J].北京大学学报(自然科学版)ꎬ2014ꎬ50(1):93-99. [13]㊀王宁ꎬ苑春法ꎬ黄昌宁.汉语名词和形容词的聚类算法研究[C]//自然语言理解与机器翻译 全国第六届计算语言学联合学术会议论文集.北京:清华大学出版社ꎬ2001:147-152.[14]㊀史伟ꎬ王洪伟ꎬ何绍义.基于语义的中文在线评论情感分析[J].情报学报ꎬ2013ꎬ32(8):860-867.(下转第70页)常的日间功能ꎮ总之ꎬ医学生的心理健康值得我们去关注㊁关怀并采取适当的措施去改善ꎮ参考文献:[1]㊀杨廷忠.健康行为理论与研究[M].北京:人民卫生出版社ꎬ2007:171-176.[2]㊀贾雪媛ꎬ刁兴隆ꎬ王兰英ꎬ何福根.蒙医护士工作压力源调查分析[J].内蒙古民族大学学报(自然科学版)ꎬ2012ꎬ27(1):103-106.[3]㊀赵风云ꎬ张桂珍.护士压力与职业疲溃感的研究[J].内蒙古民族大学学报(自然科学版)ꎬ2008(5):595-597. [4]㊀常丽萍.大学生睡眠质量与焦虑抑郁状况及其相关性分析[J].医学信息ꎬ2018ꎬ31(18):106-108.[5]㊀阎俊.大学生睡眠质量㊁抑郁㊁焦虑现状调查研究[J].甘肃医药ꎬ2017ꎬ36(7):556-558.责任编辑:程艳艳MediatingandModeratingEffectsofSleepingonPsychologicalStressesandEmotionalDisordersofMedicalStudentsXUQianꎬSHIDandan(DepartmentofBasicMedicineꎬGuangzhouUniversityofChineseMedicineꎬGuangzhou510006ꎬChina)Abstract:Thispaperexploresthemediatingandmoderatingeffectsofsleepingbetweenpsychologicalstressesandemotionaldisordersofmedicalstudents.520medicalstudentsareinvestigatedbyusingself-madequestionnairesꎬChinesePerceivedStressScale(CPSS)ꎬPittsburghSleepQualityIndex(PSQI)ꎬSelf-ratingDepressionScale(SDS)andSelf-ratingAnxietyScale(SAS).Theresultsshowthatthemediatingeffectsofsleepingonanxietyanddepressionaccountedfortheproportionoftotaleffectsarerespectively43.33%and43.40%.Therearenosignifi ̄cantdifferencesinSASstandardscoreandSDSstandardscoreofinteractionbetweensleepindexandstresscentral ̄izationꎬwhichmeansthatsleepqualityofmedicalstudentscandirectlypredictwhethertheywillhaveemotionaldisorderssuchasanxietyanddepressionꎬandstresseshavecertainmediatingeffectsonanxietyanddepressionbuthavenomoderatingeffects.Keywords:sleepingꎻpsychologicalstressꎻemotionaldisorderꎻmediatingeffectꎻmoderatingeffect(上接第62页)[15]㊀姜广辉ꎬ等.基于Logistic回归模型的北京山区农村居民点变化的驱动力分析[J].农业工程学报ꎬ2007(5):81-87. [16]㊀徐嘉兴ꎬ李钢ꎬ陈国良.基于logistic回归模型的矿区土地利用演变驱动力分析[J].农业工程学报ꎬ2012ꎬ28(20):247-255.[17]㊀张文彤ꎬ董伟.SPSS统计分析高级教程(第2版)[M].北京:高等教育出版社ꎬ2013:162-164.责任编辑:程艳艳ResearchonEstablishmentofConsumerPreferenceModelBasedonProductCommentsHULongmao1ꎬ2ꎬHUDaixin2(1.SchoolofComputerandInformationꎬHefeiUniversityofTechnologyꎬHefei230601ꎬChinaꎻ2.AnhuiFinanceandTradeVocationalCollegeꎬHefei230601ꎬChina)Abstract:Commentspublishedbyusersimplyconsumers preferencetoproductfeatures.Itishelpfulforcompa ̄niestodevelopdifferentiatedmarketingstrategiesbyeffectivelyminingconsumers preferenceinformation.Firstlyꎬthemaximumentropymodelisusedtoidentifythegenderoftheconsumer.SecondlyꎬCRFmodelꎬfrequentfeaturesandevaluationwordsareusedtoextract productfeature ̄appraisalphrase fromthecommenttextsꎬandtheemo ̄tionaldictionaryisusedtoassignavaluetotheappraisalphrase.FinallyꎬbinaryLogisticregressionanalysisisusedtoestablishtheconsumerpreferencemodelbytakingtheevaluationvalueofproductfeaturesastheindependentvariableandtheuserratingasthedependentvariable.ThispaperꎬtakingthecommentsontwokindsofpopularmobilephonesfromAmazonwebsiteasexperimentalcorpusꎬestablishestheconsumers overallpreferencemodelandthepreferencemodelofdifferentgenderconsumers.Themodelshowsthatpreferencesaredifferentbetweenmaleconsumersandfemaleconsumers.Thecorrespondingmarketingrecommendationsaregiven.Keywords:productcommentꎻconsumer spreferenceꎻevaluationvalueofproductfeatureꎻuserratingꎻLogisticsregression。
面向微博平台的产品市场分析模型研究
Micr ocomputer Applica tions V ol.27,No.4,2011研究与设计微型电脑应用2011年第27卷第4期文章编号:1007-757X(2011)04-0004-03面向微博平台的产品市场分析模型研究侯少龙,赵政文摘要:通过对面向微博平台的产品市场分析过程进行抽象,提出了3层分析模型。
第一层实现了数据准备模块,为兴趣分析提供规范化的数据。
第二层通过情感分析提取微博平台上与产品相关的用户兴趣。
第三层利用用户兴趣信息计算产品的满意度和关注度来表现产品市场形势。
整个模型提供了面向微博平台搭建产品市场分析系统的快速解决方案。
关键词:微博平台;用户兴趣;情感分析;产品市场分析中图分类号:TP39文献标志码:A0引言随着社区网络[1]的飞速发展,作为一种新兴的社区网络,微博平台也越来越受到人们的喜爱。
美国著名微博平台Twitter和中国的新浪微博,都拥有大量用户,它们允许用户随时随地的发表自己的看法和分享所见到的新鲜事儿。
当前,微博平台已经成为了一种重要的社会传播媒介,蕴含的信息具有很强的社会性。
针对这些信息进行兴趣分析就可以挖掘出某个事物在社会中的满意度和关注度,应用到商业领域,将有助于商家更加准确的把握产品的市场形势,具有广泛的应用价值。
此问题的相关研究[2]已经开始,但所涉及到领域比较具体,难以进行广泛的应用。
本文正是在此背景下提出了一种面向微博平台产品市场分析的通用模型,旨在帮助商家快速部署自己面向微博平台的产品市场分析系统,提取商家所关心的产品市场形势,从而更好的改善市场策略。
该模型总体上可以分为3层:①数据准备层;②兴趣分析层;③市场形势表现层。
本文的第1,2,3节分别介绍了该模型各层的主要作用和解决方案,第4节针对该模型设计了原型系统进行实验分析。
最后,本文总结了模型在应对面向微博平台产品市场分析方面的作用。
1数据准备层1.1主要作用该层实现了兴趣分析所需数据的收集和规格化处理,整个过程分为数据收集和预处理两个步骤。
《基于文本与用户行为挖掘的虚假评论识别研究》范文
《基于文本与用户行为挖掘的虚假评论识别研究》篇一一、引言随着互联网技术的不断发展,在线评论平台已经成为消费者决策的重要依据。
然而,由于商业利益的驱动,虚假评论的存在却对评论的真实性和可信度产生了严重的负面影响。
为了有效应对这一问题,本研究提出了基于文本与用户行为挖掘的虚假评论识别方法。
本文将详细介绍该方法的理论基础、研究方法及实验结果,以期为虚假评论的识别与防范提供参考。
二、研究背景及意义在线评论已经成为消费者获取商品信息、评价及选择的重要依据。
然而,随着电子商务的迅猛发展,虚假评论问题日益严重,严重影响了消费者的购物体验和决策。
虚假评论不仅误导了消费者,还损害了商家的信誉。
因此,研究虚假评论的识别方法,对于提高在线评论的真实性和可信度,维护消费者权益,促进电子商务的健康发展具有重要意义。
三、研究方法本研究采用基于文本与用户行为挖掘的虚假评论识别方法,主要包括以下几个方面:1. 文本挖掘:通过对评论内容的语义、情感、语言风格等特征进行提取和分析,识别出虚假评论的文本特征。
2. 用户行为挖掘:通过对用户的行为数据进行分析,包括评论频率、评论时间、评论内容相似度等,挖掘出虚假评论的用户行为特征。
3. 特征融合:将文本挖掘和用户行为挖掘得到的特征进行融合,构建虚假评论的识别模型。
4. 模型训练与优化:利用大量真实数据对模型进行训练和优化,提高识别准确率。
四、实验结果与分析1. 实验数据集:本研究采用了公开的在线评论数据集进行实验,包括商品评论、用户行为数据等。
2. 实验方法与步骤:首先对评论内容进行文本挖掘,提取出语义、情感、语言风格等特征;然后对用户行为数据进行挖掘,提取出评论频率、评论时间、评论内容相似度等特征;最后将两者特征进行融合,构建虚假评论的识别模型。
3. 实验结果:通过大量实验,我们发现该方法能够有效识别虚假评论。
在准确率、召回率、F1值等指标上均取得了较好的效果。
五、讨论与展望本研究提出的基于文本与用户行为挖掘的虚假评论识别方法具有一定的实用性和可行性。
基于大数据挖掘的电子商务评论情感分析研究
基于大数据挖掘的电子商务评论情感分析研究电子商务评论情感分析是一项基于大数据挖掘的研究,它旨在对电子商务网站上的用户评论进行情感分析,以了解用户对产品或服务的态度和感受。
通过分析评论中的情感,电子商务公司可以了解用户的意见和需求,改进产品和服务,提升用户体验,并从中获取商业价值。
大数据挖掘技术是实现电子商务评论情感分析的关键。
随着互联网的普及和电子商务的快速发展,用户评论数量庞大,传统的手工分析已经无法满足需求。
因此,利用大数据挖掘技术可以高效地处理和分析大量的评论数据,并从中提取出有意义的信息。
电子商务评论情感分析的第一步是数据的收集。
我们可以利用网络爬虫技术自动从电子商务网站上抓取用户评论数据,并将其存储到数据库中。
然后,通过对数据的清洗和预处理,如去除重复评论和非相关评论,构建用于情感分析的数据集。
接下来,我们需要对评论数据进行情感分析。
情感分析是一种文本挖掘技术,旨在识别文本中包含的情绪和观点。
常用的情感分析方法有基于词典的方法和基于机器学习的方法。
基于词典的情感分析方法是通过构建情感词典,并将评论中的词语与情感词典进行匹配,以确定评论的情感倾向。
情感词典中的词语带有情感极性,如正面、负面或中性,通过对评论中出现的情感词进行计数和加权,可以得出评论的情感分数。
基于机器学习的情感分析方法则是通过训练一个情感分类器,自动从评论中学习情感表达方式。
首先,需要构建一个标注好情感极性的评论数据集作为训练集,然后利用特征提取和分类算法构建情感分类模型。
常用的特征提取方法有词袋模型、TF-IDF和词向量等。
在应用情感分析方法之前,还需要进行情感词典的构建和情感分数的计算。
构建情感词典需要借助领域知识和专业人士的经验,将常见的情感词和词语进行分类和打分。
对于情感分数的计算,可以根据词语的权重和情感极性进行加权求和,得出评论的情感得分。
电子商务评论情感分析的最后一步是结果的可视化和应用。
通过可视化工具,如词云、情感分布图和散点图等,可以直观地展示评论的情感分析结果,帮助电子商务公司了解用户的需求和意见。
基于LDA的大V与草根用户微博主题模型构建
基于LDA的大V与草根用户微博主题模型构建张钰莎;罗莉霞【摘要】The two groups of grassroots users and large V users are divided into microblogs. Through the LDA theme model, trains the user's Weibo corpus, obtains the two types of topics concerned by the user's Weibo, and analyzes the differences and intersections. As well as using the results of the training theme model, uses the classification algorithm to determine the theme distribution of new input documents.%针对微博划分的草根用户与大V用户两个群体.通过LDA主题模型对用户的微博语料进行训练,分别得出两类用户微博关注的主题分布,从而分析其中的差异和交集.利用训练的主题模型结果,使用分类算法进行新输入文档的主题分布判断.【期刊名称】《现代计算机(专业版)》【年(卷),期】2019(000)002【总页数】5页(P3-6,11)【关键词】LDA模型;网络爬虫;文档特征提取;文本生成模型【作者】张钰莎;罗莉霞【作者单位】湖南信息学院,长沙 410151;湖南信息学院,长沙 410151【正文语种】中文0 引言2016年中国网民微博用户规模为4亿多,网民使用率达到38.4%;手机微博用户规模则为1.7083亿,网民使用率达到30.7%[1]。
微博,作为Web2.0时代大众化的信息获取、分享、传播的网络平台,由于其门槛低、内容简单、交互性强等特点,如今已经成为人们日常生活、表达诉求、传递信息的重要社交载体。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abs t r a c t P r o d u c t r e v i e w o n t h e mi c r o b l o g g i n g p l a t f o r m i s a l l i mp o r t a n t c h a n n e l f o r us e r s t o e x p r e s s t h e i r p r o d u c t d e ma nd s nd a e mo i t o n a l t e n d e n c i e s . Ac c o r d i n g he t s o c i a l c h a r a c t e is r t i c s o f mi c r o b l o g g i n g。t he p a p e r b u i l d s a mi c r o b l o g g i n g p r o d u c t ev r i e w mi n i n g mo d e 1 .On he t
可行 性 。
关键词
微博
短文本 G 2 0 3
情感分析
统计 分析
共词 网络 A
产品评论挖掘 文章编号 1 0 0 2 — 1 9 6 5 ( 2 0 1 3 ) 0 2 — 0 1 0 7 — 0 5
中图分 类号
文献标 识码
Re s e a r c h o n Mi c r o bl o g g i ng Pr o du c t Re v i e ws Mi n i n g Mo de l
Ta ng Xi a ob o Wa n g Ho n g y a n
( C e n t e r f o r t h e S t u d i e s o f I n f o r ma t i o n R e s o u r c e s o f Wu h a n U n i v e r s i t y , Wu h a n 4 3 0 0 7 2 )
第3 2卷 第 2期 2 0 1 3年 2月
情 报
杂
志
J OURNAL OF I NT EL L I GENCE
V0 1 . 3 2 No . 2 F e b . 2 0 1 3
微 博 产 品评论 挖 掘模 型研 究 术
唐 晓波 王洪艳
武汉 4 3 0 0 7 2 ) ( 武 汉大学信息资源研究 中心 摘
o t h e r h n d,a a c c o r d i n g t o t he c h ra a c t e r i s t i c s o f he t mi c r o b l o g g i n g p r du o c t r e v i e ws ,t he mo d e l c o u l d i d e n i t f y nd a na a ly z e he t p r o d u c t c o m— p e t i or t s hr t o u g h C O— wo r d n e t wo r k na a ly s i s me ho t d.F i n a l l y,t he p a p e r v e if r ie s he t f e a s i b i l i t y o f he t mo d e l b y e mp i r i c a l na a l y s i s Ke y wo r d s mi c r o b l o g g i n g s h o r t t e x t s e n t i me n t na a l y s i s s t a t i s t i c l a na a ly s i s C O —wo r d n e t wo r k p r o d u c t ev r i e ws mi n i n g
因此在对微博信息进行情感信息提取研究标注褒贬情感词的强烈程度将不同程度分时我们将每条微博按照语法规则进行了分句每条微为4个等级如非常很特别一类的词定义为2级博分句后将分句结果存储在数据库中每个分句存储比较略微之类的词稍弱一些定义为15级还的内容至少包括原始微博编号分句内容以及产品勉强一类的词定义为05级没有程度词修饰的情感特征词对该项初始值为空评论量以及转发量同词默认程度词级别1
要 微 博平 台上的产品评论是 用户表 达其产品 需求和情 感倾 向的重要 渠道 。结合微 博的社会性特 点构建 了一
个微博 产品评论挖掘模型 , 该模 型在对产品评论进行 情感极性 分析 的基础 上 , 把 不 同极 性 的评 论进行 分类研 究, 通
过 统计 分析 的方法 , 挖掘 用户关注的产品特征优缺 点, 并将对 应观点 的用户感知 程度进 行可视 化 ; 再根 据微博 产品 评论 的特点 , 通过 共分析。最后 , 通过 实证 分析 , 验证 了该模 型的