(叶强和李一军对文本分析这一块应该研究的较多)互联网商品评论情感分析研究综述_张紫琼
现代文阅读分析综合能力
要警惕教学中妨碍创造性思维发展的因素
人们越来越要求把潜能解放出来
训练3:用“第一点错误认识是……因而……”的句式,概括说明“第一点错误认识”是什么。—必考·论述类文章阅读
过去语文教学中存在两点错误的认识。 语言文字本来只是一种工具,日常生活中少不了它,学习以及交流各科知识也少不了它。这样一个简单事实,为什么很多教语文的人和学语文的人会认识不清呢?是因为有传统的看法作梗。“学校里的一些科目,都是旧式教育所没有的,惟有国文一科,所做的工作包括阅读和写作两项,正是旧式教育的全部。一般人就以为国文教学只需继承从前传统好了,无须乎另起炉灶。这种认识极不正确,从此出发,就一切都错。旧式教育是守着古典主义的:读古人的书籍,意在把书中内容装进头脑里去,不问它对于现实生活适合不适合,有用处没有用处;学古人的文章,意在把那一套程式和腔调模仿到家,不问它对于抒发心情相配不相配,有效果没有效果。旧式教育又是守着利禄主义的:读书作文的目标在取得功名,起码要能得‘食廪’,飞黄腾达起来做官做府,当然更好;至于发展个人生活上必要的知能,使个人终身受用不尽,同时使社会间接蒙受有利的影响,这一套,旧式教育根本就不管。”
过渡句
中心句
“如”字提示,以下是以三星堆的出土文物来印证本段中心句。
以“传世文献”来印证本段中心句的观点。注意:不是三星堆发掘的学术贡献。
学术贡献之二是,三星堆考古发现为我们提供了“蜀地与中原及周邻地区间文化因素相互流动”的见证。
A
证明了古蜀国是一个相对独立的文化区域(或:证明古蜀国文化是独立发展的);
提取公因式
筛选
整合
①宋代涌现竹画家,画竹气魄极大。
②元代画竹盛行,具有独特风格。
2024年高考 信息类文本阅读(新教材新高考)第03讲 文本论证特点的分析与鉴赏(讲义)(解析版)
第03讲文本论证特点的分析与鉴赏(客观题或主观题)目录新高考全国卷信息性阅读的文本选择主要以论述类文本为主,对其文本特征的考查理所当然地成为重点。
从考点上看,论点、论据和论证是考查重点,考点较多;从题型上看,既有选择题,又有主观题,考法灵活。
本题型选择题往往在第3题位置设题,主观题往往在第4题位置设题。
出题的方式有以下几种:一、客观选择题:1、表面上提问的是“下列说法”,但是“说法”在这里界定的就是关于论证方面的问题。
根据材料内容,下列说法不正确的一项是(C)(3分)A.材料一论述公共阐释的理论,文学只是其中一个例证;而材料二论述的主要对象是文学阐释。
B.材料一大量运用道理论证,作者说理充分,行文逻辑严密,具体地阐明了公共阐释的合法性问题。
C.材料二中引用海德格尔的话语,证明个体阐释与公共阐释之间存在着很强的具体性与交互性。
D.材料二运用辩证思维,清晰界定了“个体阐释”与“公共阐释”、“文学之内”与“文学之外”的关系。
解析:C.“证明个体阐释与公共阐释之间存在着很强的具体性与交互性”错,对论证目的解说错误。
引用海德格尔的话语是为了指出进入“阐释循环”的方式,“阐释的具体性与交互性”是以个体为基础的阐释的特点。
2、考查论据、论点与论证三者之间的关系:例如.下列选项中,最适合作为论据来支撑材料二观点的一项是(B)(3分)A.董仲舒:“诗无达诂,文无达诠。
”B.陶渊明:“奇文共欣赏,疑义相与析。
”C.白居易:“文章合为时而著,歌诗合为事而作。
”D.曹雪芹:“满纸荒唐言,一把辛酸泪。
都云作者痴,谁解其中味?”解析:材料二的中心观点是“公共阐释是文学阐释的根本属性”。
A.“诗无达诂,文无达诠”强调诗歌和文章没有通顺明白的注解和诠释。
因为语言文字的时效性,当代的人在读古代的典籍和作品或者方言的时候,需要对其进行翻译和解释,但注解因人的理解和水平差异,往往很难达到与原著丝毫无差。
此句强调的是“个体阐释”。
B.“共欣赏”“相与析”包含了“公共阐释”的意义。
基于商品评论文本的情感分析研究
基于商品评论文本的情感分析研究作者:陶莉娜李超萍李健高荣来源:《现代信息科技》2018年第04期摘要:随着互联网络科技的迅速发展,越来越多的用户开始网上购物,网络中的商品评论数据也随之增加。
如何在大量的评论数据中提取有用的信息,使数据价值最大化是值得重视的问题。
本文针对京东网站商品的评论数据进行了情感分析,从中提取有用的信息,帮助商家了解消费者的需求,发现商品的不足之处,并制定改进方案,以提高商品的竞争力。
关键词:数据挖掘;商品评论;情感分析中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2018)04-0019-03Abstract:With the rapid development of internet technology,more and more users have begun to shop online,and the product review data on the internet has also increased. However,how to extract useful information from a large amount of review data and maximize the value of data is a problem worthy of attention. This article analyzes the sentiment data of website products,provides useful information to help businesses understand the needs of consumers,discovers the inadequacies of products,and formulates improvement programs to improve the competitiveness of products.Keywords:data mining;commodity reviews;sentiment analysis1 主要技术实现1.1 网络爬虫网络的迅速发展使互联网成为大量信息的载体,有效地提取并利用这些信息对我们来说是一个很大的挑战。
互联网商品评论情感倾向性分析系统
第六届浙江省大学生电子商务竞赛互联网商品评论情感倾向作品名称:性分析系统技术类作品类别:日15月3年2011第六届浙江省大学生电子商务竞赛参赛作品目录第1章项目概要 (5)1.1项目背景 (5)1.2项目意义 (7)1.3研究目的 (8)1.4项目主要内容 (8)第2章现状分析 (10)2.1国内外研究现状 (10)2.2未来发展趋势 (12)2.3竞争影响力分析 (13)2.4SWOT分析 (14)2.5市场需求分析 (15)2.5.1针对大型评价网站的市场需求 (15)2.5.2针对商品生产商的市场需求 (15)2.6市场定位及特点 (16)2.7市场优势 (16)第3章平台模块与整体架构 (18)3.1爬虫模块 (19)3.2分析模块 (19)3.3展示模块 (20)第4章关键技术介绍 (22)4.1网页评论自动获取与预处理 (22)4.2利用自然语言处理技术抽取文本的语义信息 (23)4.3基于情感词典的情感词极性分类与情感强度定量计算方法研究24 4.4基于特征的情感量化分类计算方法的研究 (25)4.5基于半监督机器学习方法的特征与情感信息的识别 (25)4.6文本倾向性分析的服务化封装 (29)第5章平台的详细功能展示 (30)1第六届浙江省大学生电子商务竞赛参赛作品5.1搜索 (30)5.2对比 (31)5.3查看评论 (32)5.4可定制的特征分类方法 (33)5.5查看分析后评论 (34)5.6提交评论 (35)第6章创新和特点分析 (36)6.1全自动的评论情感倾向性分析 (36)6.2基于多种自然语言处理和机器学习技术 (36)6.3细粒度情感倾向性分析方法 (36)6.4人性化的评论浏览方式 (37)6.5多种发展模式并行 (37)6.6独特的营销方法 (38)第7章营销策略 (39)7.1市场定位 (39)7.2市场推广 (39)7.3市场策略 (40)7.3.1渠道策略 (40)7.3.2定价策略 (40)7.3.3广告策略 (41)第8章财务分析 (42)8.1融资情况 (42)8.2股本结构 (42)8.3资金运用 (43)8.3.1预计财务报表 (43)8.3.2项目销售预测表 (44)8.3.3预计损益表 (45)8.3.4预计资产负债表 (46)2第六届浙江省大学生电子商务竞赛参赛作品8.3.5项目投资效益分析 (48)8.3.6回收期 (49)8.3.7净现值(NPV) (49)8.3.8内含报酬率(IRR) (50)第9章风险分析与对策 (51)9.1经营风险与对策 (51)9.1.1经营业绩的风险与对策 (51)9.1.2客户的风险与对策 (51)9.1.3产品技术方面的风险与对策 (52)9.1.4融资的风险与对策 (52)9.2行业风险与对策 (53)9.2.1产业政策的风险与对策 (53)9.2.2行业内部竞争的风险与对策 (53)9.3其他风险与对策 (54)第10章总结与展望 (55)10.1项目成果 (55)10.2未来工作 (55)参考文献 (56)3第六届浙江省大学生电子商务竞赛参赛作品表索引表2-1项目SWOT分析 (14)表4-1标注集及相关说明 (27)表4-2标注扩展集及相关说明 (27)表8-1公司股本结构表(单位:万元) (42)表8-2期初资金用途表 (43)表8-3人民币贷款利率表 (44)表8-4项目销售预测表(单位:万元) (44)图索引图1-1 中国网民与普及率 (5)图3-1 整体框架示意图 (18)图3-2 爬虫模块 (19)图3-3 分析模块 (19)图3-4 展示模块 (20)图4-1 文本倾向性分析框架图 (25)图4-2 特征情感词对提取过程 (26)图5-1 搜索功能 (30)图5-2 高级搜索功能 (31)图5-3 两家酒店对比图示 (31)图5-4 评论列表 (32)图5-5 详细评论内容 (32)图5-6 数值化、图形化分析结果 (33)图5-7 特征分类 (33)图5-8 分析后评论 (34)图5-9 评论提交 (35)图7-1 互联网情感分析系统推广流程图 (39)图8-1 公司股本结构与规模 (42)4第六届浙江省大学生电子商务竞赛参赛作品第1章项目概要1.1项目背景随着互联网在全球范围内的快速发展和普及,网络媒体已经成为了继报纸、广播和电视之后的“第四媒体”。
在线商品评论的效用分析研究
子 商务 网站 的运 营商调 整 营销 沟通 策略提供 决策 支持 . 关 键词 :电子 商务 ;在 线 商品评 论 ;信 息过 载 ;效 用评 价 中 图分 类 号 : 2 2 F 7 .5 文 献标 识码 : A 文 章编 号 : 0 7— 87(0 2 0 0 6 10 9 0 2 1 ) 5— 0 5一l l
杨 铭 , 祁 巍 ,闫相斌 ,李一 军
( 哈尔滨 工业 大学 管理 学 院 ,哈尔 滨 100 ) 50 1
摘要 : 大多数 电子商务 网站为消费者提供相互交流的平台来发表其针对某件商品的评论.但 是 ,随着在线商品评论的数量不断增加 ,潜在消费者越来越难从 中 发现有助于制定购买决策 的信息. 因此 ,如何从众多的评论 中识别有用的评论 ,分析在线评论 的效用成为关注 的热
第 1 5卷第 5期 21 0 2年 5月
管
理
科
学
学
报
Vo _ 5 No 5 l1 .
M a 01 v2 2
J 0UR NAL OF MANAG EME CI NT S ENC S I HI E N C NA
在 线 商 品评 论 的效 用 分 析 研 究①
末西倒是喜靛, 不过客服讯难让人满意。 回废( )
■ ■■■■■ ■■ ■■■■ ■ ■■_
56^ 为评 宿 l羹 沦 您 蕉 61 论嗣 这 评 对I氢 / E
基金项 目:国家 自然科学基金资助项 目 (0 0 09;7 8 0 8 ) 7 6 10 0 90 2 . 作者简 介 : 杨 铭 (9 2 ) 18 一 ,男 ,内蒙古丰镇人 ,博士生.E a : a g i . i m i cr m i y m n h @g a .o l n g t l n
网络购物中商品质量问题发生机理及监管研究述评
网络购物中商品质量问题发生机理及监管研究述评李波温德成山东大学管理学院,山东济南250100 摘要:网络购物中商品质量问题发生机理源于信息不对称和市场的不确定性。
为了解决该问题,网络购物网站、政府、第三方中介机构等相关方采取在线信誉机制、信息传递手段、社会信用体系促进、质量检验和质量保证等展开了对网络购物中商品质量的监管。
目前,学术界对该课题的研究仍不够专门和深入,针对中国式背景下的网络购物商品质量,未来的研究可集中在网络购物中的商品质量影响因素、质量评价和质量监管上。
网络购物;在线商品质量;在线信誉;质量中介;信息不对称F724.6A1001 - 6260 (2013 ) 02 - 0020 - 092012-05-31李波(1976-),女,山东莱芜人,山东大学管理学院博士生。
温德成(1966-),男,山东招远人,山东大学管理学院教授,博士生导师。
教育部人文社会科学研究规划基金项目“网络购物中的商品质量监管研究”(11YJA630143)。
万方数据飘711 7I’厂口关车的质量_LL,^¨r_万方数据买方逆向趔i用体系。
』万方数据特性、累积:影响等问题万方数据畴,个人征f等。
交易者万方数据i AUCNET统AIS,全万方数据万方数据@@[1]艾瑞咨询集团.2012. 2011-2012年中国网络购物行业年度监测报告简版[R/OL]. http://report. iresearch. cn/1694. html.@@[2]邓斌.2010.B2C在线评论中的客户知识管理研究[D].成都:电子科技大学博士学位论文.@@[3]郝媛媛,叶强,李一军.2010.基于影评数据的在线评论有用性影响因素研究[J].管理科学学报(8):78 -96.@@[4]纪淑娴.2009.C2C电子商务中在线信誉反馈系统有效性研究[D].成都:西南交通大学博士学位论文.@@[5]纪淑娴,胡培.2010.基于柠檬理论的在线信誉反馈系统有效性研究[J].中国管理科学(5):145-151.@@[6]李莉,杨文胜,谢阳群.2004.市场质量信息不对称问题研究[J].管理评论(3): 26-30.@@[7]李伦,郭建国.2002.网络信任危机与电子商务的伦理文化环境[J].湘潭大学社会科学学报(7):7-9.@@[8]李维安,吴德胜,徐皓.2007.网上交易中的声誉机制:来自淘宝网的证据[J].南开管理评论,10(5):36 -46.@@[9]潘勇.2003.论电子商务市场中的“柠檬”问题:理论模型与实践意义[J].科研管理(9):103 -108.@@[10]潘勇.2009.网络“柠檬”环境下消费者行为与抵消机制:基于信息经济学的视角[J].管理评论(10):41 -51.@@[11]潘勇.2010.电子商务市场质量中介运行模式分析[J].商业研究(12):187 -191.@@[12]日本、韩国网络商品交易监管考察团.2009.日本、韩国网络商品交易监管概况[J].中国工商管理研究(13):71 -74.@@[13]温德成.2008. B2B平台:质量成就商机[M].北京:中国计量出版社.@@[14]温德成.2009.从百度竞价排名事件谈B2B平台的顾客风险[J].标准科学(1):66 -71.@@[15]吴德胜.2007.网上交易中的私人秩序:社区、声誉与第三方中介[J].经济学(季刊)(3):859-883.@@[16]于珊,郭敏敏,李向华,等.2011.我国信用信息共享现状及征信模式研究[J].标准科学(11):41 -43.@@[17]于兆吉,吕亮升,胡祥培,等.2011.行为系统下在线信誉评价影响因素及对策研究[J].东北大学学报:社会科学版(6):506 -510.@@[18]张巍,刘鲁,朱艳春.2005.在线信誉系统研究现状与展望[J].控制与决策(11):1201 -1207.@@[19]张维迎.1996.博弈论与信息经济学[M].上海:上海人民出版社.@@[20]赵宏霞,王新海,杨皎平.2010. B2C电子商务中介与卖方商盟在交易信任中的作用机制:基于团队生产激励的视角[J].中国管理 信息化(4):98 -101.@@[21]赵泉午,潘华,陈扬文.2006.国内B2C电子商务网站退货管理研究[J].物流技术(10): 69 -71.@@[22]中国互联网络信息中心.2011. 2010年中国网络购物市场研究报告[R/OL]. http://www. cnnic. net. cn/research/bgxz/dzswbg/ 201106/t20110602_21245. html.@@[23]AKERLOF G. 1970. The market for "lemons" : quality uncertainty and the market mechanism [ J ]. Quarterly Journal of Economics, 84 (3) : 488 - 500.@@[24]BA S, PAVLOU P. 2002. Evidence of the effect of trust building technology in electronic markets: price premiums and buyer behavior [ J ]. MIS Quarterly, 26(3) : 243 -268.@@[25]BENEDICKTUS R, BRADY M, DARKE P, et al. 2010. Conveying trustworthiness to online consumers: reactions to consensus, physical store presence, brand familiarity, and generalized suspicion [ J ]. Journal of Retailing, 86 (4) : 322 - 335.@@[26]BENEDICKTUS R. 2011. The effects of 3rd party consensus information on service expectations and online trust [ J]. Journal of Business Re search, 64(8) : 846 -853.@@[27]BRYNJOLFSSON E, SMITH M. 2000. Frictionless commerce? A comparison of intemet and conventional retailers [ J ]. Management Sci ence, 46(4) : 563 -585.@@[28]DELLAROCAS C. 2003. The digitization of word of mouth : promise and challenges of online feedback mechanisms [ J ]. Management Sci ence, 49(10) : 1407 -1424.@@[29]DEWAN S, HSU V. 2004. Adverse selection in electronic markets: evidence from online stamp auctions [J]. The Journal of Industrial Eco万方数据 nomics, 52(4) : 497 -516.@@[30]HUSTON J, SPENCER R. 2002. Quality, uncertainty and the internet: the market for cyber lemons [J]. American Economist, 46(1) : 50 -60.@@[31]JIN G, KATO A. 2006. Price, quality and reputation: evidence from an online field experiment [J]. The RAND Journal of Economics, 37 (4): 983 -1005.@@[32]KAPLAN S, N1ESCHWIETZ R. 2003. An examination of the effects of web trust and company type on consumers' purchase intentions [ J ]. International Journal of Auditing, 7(2) :155 - 168.@@[33]LIAO Z, CHEUNG M. 2001. Internet-based e-shopping and consumer attitudes: an empirical study [ J]. Information & Management, 38 (5) : 299 -306.@@[34]MAEYER P, ESTELAMI H. 2011. Consumer perceptions of third party product quality ratings [ J ]. Journal of Business Research, 64 (10) : 1067 - 1073.@@[35]MCKNIGHT D, CHOUDHURY V, KACMAR C. 2002. Developing and validating trust measures for e- commerce: an integrative typology [J]. Information Systems Research, 13(3) : 334 -359.@@[36]NOTEBERG A, CHRISTIAANSE E, WALLAGE P. 2003. Consumer trust in electronic channels : the impact of electronic commerce assur ance on consumers' purchasing likelihood and risk perceptions [J]. E -Service Journal, 2(2) : 46 -67.@@[37]PAVLOU P, LIANG H, XUE Y. 2007. Understanding and mitigating uncertainty in online exchange relationships: a principal -agent per spective [J]. MIS Quarterly, 31(1): 105 -136.@@[38]RESNICK P, ZECKHAUSER R, FRIEDMAN E, et al. 2000. Reputation systems [ J]. Communications of the ACM, 43 (12) :45 - 58.@@[39]SCHLOSSER A. 2003. Experiencing products in a virtual world : the role of goals and imagery in influencing attitudes versus intentions [ J]. Journal of Consumer Research, 30(2) : 184- 198.@@[40]WEATHERS D,SHARMA S, WOOD S. 2007. Effects of online communication practices on consumer perceptions of performance uncertainty for search and experience goods [J]. Journal of Retailing, 83(4) : 393 -401.@@[41]WHEATLEY J, CHIU J, GOLDMAN A. 1981. Physical quality, price, and perceptions of product quality: implications for retailers [ J ]. Journal of Retailing, 57 (2) : 100 - 116.@@[42]WU F, LI H, KUO Y. 2011. Reputation evaluation for choosing a trustworthy counterparty in C2C e -commerce [J]. Electronic Commerce Research and Applications, 10(4) : 428 -436.@@[43]YOU W, LIU L, XIA M, et al. 2011. Reputation inflation detection in a Chinese C2C market [J]. Electronic Commerce Research and Ap plication, 10(5) : 510 -519.@@[44]ZHANG J. 2006. The roles of players and reputation: evidence from eBay online auctions [J]. Decision Support Systems, 42(3) : 1800 - 1818. Literature Review of Problem Occurrence Mechanism and Supervising Measures of Products' Quality in E-shoppingLI BoWEN DeCheng万方数据网络购物中商品质量问题发生机理及监管研究述评作者:李波, 温德成, LI Bo, WEN DeCheng作者单位:山东大学管理学院,山东济南,250100刊名:财贸研究英文刊名:Finance and Trade Research年,卷(期):2013,24(2)本文链接:/Periodical_cmyj201302003.aspx。
非连续性文本阅读题及答案
非连续性文本阅读题及答案一、阅读下面的非连续性文本,回答问题。
【材料一】据中国互联网络信息中心发布的《中国互联网发展统计报告》显示,截至2021年12月,我国互联网用户规模达到10.13亿,互联网普及率达到71.5%。
其中,手机网民规模为10.06亿,占比达到99.7%。
移动互联网已经成为人们获取信息、社交、娱乐等不可或缺的渠道。
【材料二】近年来,随着移动互联网的快速发展,网络谣言、虚假信息等问题日益严重。
一项针对全国范围内10个城市居民的问卷调查显示,超过70%的受访者表示曾在网络上遇到过虚假信息,近50%的受访者表示曾受到谣言的影响。
【材料三】为了打击网络谣言、虚假信息,我国政府采取了一系列措施。
2021年3月,国家互联网信息办公室发布了《网络信息内容生态治理规定》,明确了网络信息内容生态治理的目标、原则和要求,强化了对网络谣言、虚假信息的惩戒力度。
同年9月,最高人民法院、最高人民检察院联合发布《关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》,为打击网络谣言、虚假信息提供了法律依据。
【材料四】以下为部分受访者对网络谣言、虚假信息的看法:受访者A:“我觉得网络谣言、虚假信息对我们的生活影响很大,尤其是对老人和小孩。
他们缺乏辨别能力,很容易被误导。
”受访者B:“网络谣言、虚假信息的传播速度很快,一旦被传播出去,后果不堪设想。
我们应该加强网络安全意识,自觉抵制谣言。
”受访者C:“我觉得政府应该加大对网络谣言、虚假信息的打击力度,同时,网络平台也应该承担起责任,加强对信息的审核和管理。
”二、问题及答案1. 根据材料一,我国互联网普及率达到了多少?答案:根据材料一,我国互联网普及率达到了71.5%。
2. 根据材料二,网络谣言、虚假信息对受访者的影响有哪些?答案:根据材料二,网络谣言、虚假信息对受访者的影响主要有以下几点:(1)超过70%的受访者表示曾在网络上遇到过虚假信息;(2)近50%的受访者表示曾受到谣言的影响。
互联网商品评论情感分析研究综述_张紫琼
第13卷第6期2010年6月管理科学学报J OURNA L O F M ANAGE M ENT SCIENCES I N CH I NAV o.l13N o.6Jun.2010互联网商品评论情感分析研究综述¹张紫琼,叶强,李一军(哈尔滨工业大学管理学院,哈尔滨150001)摘要:互联网评论情感分析是W eb信息挖掘的一个新兴领域,近年来受到计算机科学、经济学、管理学等相关学科的广泛关注.目前,情感分析领域的研究主要集中在主观性内容识别、褒贬情感分类以及在线评论的经济价值挖掘等几个方面,大部分研究借鉴文本挖掘、信息检索、机器学习、自然语言处理、统计学等方面的技术和方法,也提出了一些针对评论情感分析的特定方法.对在线评论情感分析领域的研究现状与进展动态进行归纳和分析,重点论述现有研究采用的主要方法和关键技术,以及研究中存在的问题,最后提出了未来的研究方向.关键词:情感分析;在线评论;主观性识别;褒贬分类;在线口碑效应中图分类号:TP18;C931文献标识码:A文章编号:1007-9807(2010)06-0084-130引言情感分析(senti m ent analysis),又称评论挖掘或意见挖掘(op i n i o n m i n i n g),是指通过自动分析某种商品评论的文本内容,发现消费者对该商品的褒贬态度和意见[1-2].利用对互联网上商品评论信息的挖掘与分析结果,消费者可以了解人们对某种商品的态度倾向分布,优化购买决策;生产商和销售商可以了解消费者对其商品和服务的反馈信息,以及消费者对自己和对竞争对手的评价,从而改进产品改善服务,赢得竞争优势.随着信息技术及其应用在过去十几年中的快速发展,互联网不仅对企业的业务流程带来了巨大的变革,也对消费者的行为模式产生了深刻的影响.DoubleC lick I nc.[3]进行了一项针对美国服装业、计算机硬件设备业、运动与健身产品行业及旅游业网络客户的研究,发现这些行业中都有近一半以上的消费者在做出购买决定前会在互联网上搜索相关商品的介绍及其他消费者对商品的评论信息,互联网商品评论对于消费者的购买决策有着重要的影响.据统计,截至2009年9月,全球上网人数已达17.34亿人[4],充分挖掘消费者的喜好偏爱对商家具有重要的意义.作为W eb信息挖掘的一个新兴领域,在线评论情感分析涉及的研究内容十分广泛,如自动识别互联网中传播的商品评论信息、识别被评论的商品属性、判断客户意见的褒贬态度以及挖掘在线评论与商品销售情况的关系等.姚天昉等[5]对情感分析的研究现状进行了总结,主要内容包括:¹介绍情感分析的定义和研究的目的;º从主题的识别、意见持有者的识别、情感描述的选择和情感的分析四个方面进行评述,并介绍了一些成型的系统;»讨论中文情感分析的研究现状.而本文分别从篇章、语句和词语等不同粒度上,围绕情感分析技术的基础性工作,主观性内容识别和褒贬情感分类两方面展开评述,并对在线评论将如何影响消费者的购买行为以及如何影响商品销售情况的工作进行整理和分析.针对在线评论挖掘开展的研究越来越多,然而相关研究仍然处在探索阶段,在方案设计和技术运用方面都比较分散,缺乏统一的实验平台和¹收稿日期:2009-02-16;修订日期:2010-03-18.基金项目:国家自然科学基金资助项目(70971033;70890082);新世纪优秀人才支持计划资助项目(NCET-08-0172).作者简介:张紫琼(1982)),女,黑龙江大庆人,博士生.Em ai:l ziqiong@h 资源.由于各种方法预期的目的、使用的数据集和评价方法均不完全相同,很难进行研究结论之间的比较和评价.1主观性内容识别情感分析处理的文本类型是主观性文本,若要在评论情感分析系统中做到自动处理,首先需要区别主、客观文本信息,这是一个十分重要的预处理环节.一般而言,主观语言是指人们用来表达自己的立场、态度和感情的语言[6],主观语言存在褒义与贬义之分,称为语言的情感倾向或极性.本节主要介绍主观内容识别的相关工作,在第二节介绍关于褒贬情感分类的研究.下面从三个层次介绍主观性文本识别的研究现状:词语,句子,篇章.在词语水平上,主观性识别研究的任务是确定主观词语.现有研究[7-12]主要是针对英文主观性形容词、名词、动词和短语的自动识别.叶强等[13]也提出了用于识别汉语主观短语的双词词类搭配.然而,现有方法的评价指标大多采用整个词表对主观句的识别正确率和召回率[7,10-11,13],对于主观词语本身的判定仍未提出普遍认可的评价标准.研究表明,无论是手工方式,还是机器自动的方式,判断词语的主客观性都难于判断词语的褒贬倾向[14-16].在句子水平上,主观性识别研究主要涉及自动识别表达情感的主观性语句[12,17-20],以及语句中的意见和意见来源等组成成分[21-22],机器学习方法是相关研究主要采用的方法.Yu等[17]发现Bayes分类器对主观句能够达到较高的识别准确率和召回率,而对客观句的识别准确率和召回率均较低.可以看出:主观语言中包含比较明显的表达情感的词汇,某些词语的出现可以有效地识别主观句;客观语言相对缺乏典型的词汇.客观语言可能由于主观性词语的加入改变其客观性,反之,主观语言则不会因为客观词语的加入改变其主观性.词语位置信息的引入使客观句的识别效果有所提高[18].文献[12,19]进一步提出了语句主观性程度的计算方法.到目前为止,相关研究在主、客观句的划分标准上仍存在分歧,使用的语料集存在差异,因而获得指标的数值不能完全作为分类效果比较的依据.关于语句意见和意见源等成分识别的研究[21-22]还处在探索中,准确地判别语言成分及其功能,需要借鉴相关的语言学知识,许多问题尚未得到很深入的研究.在篇章水平上,由于评论与非评论使用的词汇差别较大,以词作为项,NaÇve Bayes和SVM能达到相当高的分类精度[17,23],所以从篇章层次对主、客观文档进行分类的研究相对较少,不是研究的重点.此外,文献[24]提出了一种自动计算/词义0主观性程度的方法.文献[25]尝试利用现有英文主观词典及分析工具生成目标语言的主观词典与研究工具,但是生成的资源在实际应用中的效果还有待验证.2褒贬情感倾向分类褒贬情感分类(sen ti m ent c lassification)是通过分析在线商品评论的文本内容,自动将其判断为正面评价或负面评价,从而挖掘消费者情感倾向分布的过程.2.1评论篇章情感分类早期的褒贬情感分类研究始于篇章水平,目标是挖掘评论文章对某种商品或服务所持的总体褒贬态度.根据采用的技术,相关工作可主要分为基于传统文本分类技术的方法、基于褒贬词汇统计的方法和基于回归模型与序列标注的方法.将文本简化为B OW(bag ofw ords),在特征处理和统计学习算法的基础上获得对文本内容的表示和类别的预测已经成为传统主题分类的标准模式.评论情感分类与主题分类的一个较大区别是情感更多地体现为词语之间的语义关系,许多词语在共现时才能表达一定的情感倾向.因而,基于传统文本分类技术的情感分类工作主要使用向量空间模型表示文本和机器学习算法预测类别,选择什么语义单元作为特征是相关研究的焦点,主要考虑的问题包括:1)权值的计算.在文本分类和信息检索领域,通常采用基于词语频率的方法计算项的权重,而Pang等[1]发现对于评论情感分类,以词语是否出现作为特征在分类效果上优于词频特征,因为)85)第6期张紫琼等:互联网商品评论情感分析研究综述语言的褒贬倾向主要取决于正面或负面词语在语言中的出现,而不是出现的次数.2)n-g ra m项.一些研究希望通过n-gra m项表示被BO W忽略的词语之间的语义联系,但对于n-gra m项的效果还存在争议.Ng等[23]发现将b-i gra m和tr-i gra m加入unigra m项后能够提高SVM 的分类性能,但如果分别单独使用unigra m、b-i gra m或tr-i gra m作为特征项,分类精度随着阶数的增加反而下降,Ng等认为原因可能是高阶n-gra m产生的数据稀疏问题导致了分类精度的下降.而Cu i等[26]得到的结论与文献[1,23]相反,高阶n-gra m项能够提高情感分类精度,并认为原因可能是采用的大规模语料消除了数据稀疏问题,使高阶n-gra m项更有效地表达了语义信息.3)词性.词性是能够标识语义信息的重要语法特征.H a tzi v assilog lou等[8]指出一些形容词的出现可以有效地识别主观性语言.在许多情感识别和抽取工作中,特别是无监督方法,往往抽取文本中的形容词、名词、动词或副词作为潜在的情感表达单元[27-32].Tur ney[2]提出五个包含形容词或副词的词性组合识别语言情感.在评论篇章情感分类方面,文献[1,23]把词性相关信息加入文本表示的特征项,使用机器学习算法判断评论篇章的褒贬倾向,但分类效果并不十分理想,词性信息的有效利用有待进一步研究.4)句法结构特征.句法分析常常被应用于句子水平的情感分析,以识别句子主题、意见描述项和意见持有者等成分[31-35].有些研究[23,36]也将句法结构特征作为特征项,对评论篇章进行情感分类.Ga m on[36]在un i g ra m+bigra m+trigra m项的基础上加入句法结构相关特征后,SVM的分类精度有所提高.N g等[23]发现将根据依存关系抽取的特征加入b i g ra m+trigra m项不能明显改善分类效果,但如果仅有unigra m项,使用依存关系特征有助于提高分类精度,并认为原因是依存关系特征与bigra m/tri g ra m可以获得相近的信息.5)否定结构.否定的识别和表示对于情感分析问题非常重要.对于显式的否定结构,相关研究主要采取两种处理方式,一是首先忽略否定词语表示文本,如果否定词语存在,则取相反的情感计算结果[31,37].另一种方法是把否定结构编码到文本特征中,Das等[38]提出将符号/--n0编码到靠近否定词语的项,从而形成一个新的项,例如/favo r-able--n0.基于传统文本分类的方法是当前篇章级情感分类的主流方法,虽然评论情感分类的精度通常低于已知的主题分类,但以模式识别为出发点的机器学习算法也能取得较好的效果[1,39].评论情感分类的效果不甚理想,是因为主观评论表达的语义信息往往需要复杂的语言知识才能处理.然而主观性语言大量存在,其统计规律依然可以为特征提取和情感分类提供支持.对语义信息的挖掘和利用将有助于机器学习技术在相关任务中的应用,如何恰当地表示这些语义信息以及自动地学习它们的统计模式,仍然是一个开放的问题.基于极性词汇统计的方法一般首先计算词语的褒贬倾向性,通过对篇章中极性词语计数、或对其褒贬程度值求和或均值,获得文章的总体情感倾向[2,37,40].极性词语的选择可以借鉴基于传统文本分类方法中的特征选择.Turney[2]提出一种利用搜索引擎估计短语褒贬倾向的方法,进而使用篇章中短语极性的平均值代表整体的情感倾向,但分类精度低于有监督学习方法[41].D ave 等[40]使用了信息检索中的多种技术进行特征抽取、特征加权,然后利用特征权重的累加计算产品评论的褒贬倾向,但分类效果没有明显优于传统的机器学习方法.顺序回归模型适用于评分推测(rati n g-i n fer-ence)[42]以及与程度有关的排序问题[19].序列标注考虑到相邻语句之间[43]、语句和文档之间[44]的褒贬倾向具有相关性.M ao等[43]将句子的情感倾向分类转化为一个情感流问题,利用条件随机场模型标注句子的倾向性,进而推测文档的情感倾向.M c Donald等[44]在一个全局模型中利用V iter b i算法对文档和句子同时进行情感序列标注.至今,情感序列标注在理论上的合理性,以及面对实际应用的可扩展性还需要深入验证,尚未得到广泛的应用.文献[45]利用W ordN et等辅助工具建立了文档的语义图结构,但这种文本表示方法在情感分类上未见明显优势,而且需要比较复杂的语言预处理.2.2词语的褒贬情感分类随着互联网情感分析研究的迅速发展,作为)86)管理科学学报2010年6月一项基础性工作,词语的褒贬倾向分类研究也得到了广泛关注和快速发展.相关工作涉及自动识别主观词语,判断其褒贬倾向性,进而建立褒贬词典或为语句的情感分析工作提供支持.采用的方法主要包括基于语料挖掘的方法[46-51]和基于词典等资源扩展的方法[14,52-56](见表1).H atzivassiloglou 等[46]认为文本中的连词可以指示所连接词语之间的语义关系,通过生成形容词之间同义或反义的连接图,应用聚类的方法将形容词划分为褒义和贬义两类,虽然该方法的分类精度达到90%以上,但是只能处理有限的由连词关联的形容词.W ilson 等[47]选取了包括褒贬词语、句法结构特征,以及上下文信息等大量特征,利用监督学习的方法判断短语在上下文中的主客观性和褒贬倾向.Turney [48]提出了一种借助搜索引擎数据库判断词语的极性及强度的无监督方法,其假设是词语与标准褒义(贬义)词语在数据库中的共现率越高,则该词语越倾向于褒义(贬义).文献[49]认为语言的情感倾向具有连贯性,提出一个无监督方法,利用词语之间和分句之间的连接指示情感的变化,对词语的初始褒贬倾向进行修正.文献[50]利用特定的网页格式和手工建立的语言规则从大量网页中识别抽取褒、贬语句,进而根据短语在两类语句中出现的概率估计该短语的褒贬倾向.除了从语料中挖掘词语的情感,W ord N et 等词典资源在相关任务中也起到重要作用.W ord N et 中词语之间的距离、词语的注解,以及同义词和反义词集揭示的语义联系,被用于测量词语的褒贬倾向[14,52-54],其思想是利用W ordNe t 提供的语义信息对种子词语进行扩展.这类方法的主要问题在于,W o r dN et 按照同义词集合(synony my se t)组织信息,而同义词语不一定具有相同的褒贬倾向,这将导致对词语情感倾向的估计出现偏差.表1 词语褒贬情感分类的方法Tab le 1Ana l ysis ofm et hods for w ord and ph ras e s enti m ent cl assificati on文献对象¹方法º资源»测试/比较集¼效果½CR ¾HD ¿H atzivassiloglou 等[46]ad jecti ves up erv i sed l og -li near regress i on,cl us t eri ng1987W all S treet J ournal corpu s 1336m anuall y l abeledad j ecti ves(HM )90%KW ilson 等[47]phrase s up erv i sed AdaBoostMHM P QAHM,G eneralInqu irer lexicon(G I)65.7%KTurney[48]ad jecti veadverb noun verb search eng i ne -bas ed Poi nt w i seM utual In for m ation ,un s upervisedW eb pagesi ndexed byA lta V ist a HM,G I 90%KKa naya ma 等[49]phrase unsupervi sed ,patt ern m atch i ng ,con text coherencyW eb pages 200m anuall y l abeled phrases )K Kaji 等[50]ad jecti ve phrase unsupervi sed ,patt ern m atch i ng ,V 2and P M I st ati sti calm eas ure W eb pages 405m anuall y l abeled phrases 85%KGhose 等[51]phrase e m pirical ana l ysis ,regres s i on Am az on revie w s ))K Andreevs kaia 等[14]ad jecti ve gl oss and lexical rel ati on -based w ord overl ap m eas u re W ordNet GI )K Ka m ps 等[52]ad jecti ve se m anti c d istance m eas u re W ordNet GI68.19%K E s u li 等[53]all POSgl oss -base d w ord represe n t ation ,s up erv i sed l earn i ngW ordNetHM,同文献[48],同文献[52]88.05%KTaka m ura 等[54]ad jecti veadverb nounverb auxiliary gl oss and lexical rel ati on -basedw ord net w ork ,sp i n m od elW ordNet GI 91%K E s u li 等[55]synset gl oss -based s ynset representation ,co mm ittee of class i fi ers W ordNet))KE s u li 等[56]synsetgl oss -based s ynset net w ork ,Page Rank a l gorit hmW ordNet))K注:表1中的数字角标表示的是:¹研究对象;º模型方法;»使用的语料或词典资源;¼主要采用测试或比较集;½报道的分类效果(精度或F1值,测试条件不同,结果仅供参考);¾cl ass rank i ng 方法(输出词语极性关于类的相对相似性或排序);¿hard decision 方法(输出词语极性的类别标记).由于测试集合和测试条件的差异,指标的数值仅作为方法效果的参考,不能完全作为方法效果间比较的依据.)87)第6期张紫琼等:互联网商品评论情感分析研究综述早期词语水平的研究是对词语本身褒贬倾向的判断,文献[46,48]将词语判断为具有褒义或贬义倾向,并给出了相应的强度,而文献[27]认为一个词语同时具备褒义和贬义倾向,分别给出了褒义和贬义程度值.E su li等[55-56]则指出褒贬性是词义的属性,因为词语的不同含义可能具有不同的褒贬态度,提出一种针对W ordNet同义词集synset褒贬程度的测量方法.此外,考虑到在线客户评论会影响商家要价, Ghose等[51]基于Am azon.co m交易数据,提出了一种新颖的根据商家价格推测客户评论所用词语褒贬性的方法.该方法针对某种商品,根据商家获得的价格溢价,计算客户评论所用词语的/经济价值0,从而判断客户评论词语的褒贬倾向和强度.2.3语句的情感分析对句子水平的情感分析,一些研究[17,37,40,43-44,57]讨论了句子总体情感倾向的计算,从而实现对在线评论信息的搜索和分类.但是在实际应用中,一篇评论经常涉及商品的多个属性,并对这些属性分别进行评价.因而,还有研究将句子作为意见表达和分析单元,主要讨论了商品属性与消费者意见对应关系的识别,以及意见的褒贬倾向分类,下面着重对这方面工作进行介绍.K i m等[27]认为情感(op i n i o n)可以由主题、意见持有者、情感描述项和褒贬倾向性四个部分来描述,即意见持有者针对主题表达了具有某种褒贬倾向的情感描述.语句的情感分析是指在语句文本中自动确定这些元素以及它们之间关系的过程.语句中主题的形式有两种,一种是显式主题,它可以直接从文本中获得.另一种是隐式主题,需要依靠对当前语句的上下文进行指代关系分析才能获得.现有的主题识别方法主要指显式主题的识别.对于在线商品评论,主题通常是指商品的属性.Y i等[28]认为商品的属性包括:¹商品名称;º商品的组成部分;»商品的特点和功能;¼商品属性的特点和功能.到目前为止,关于语句水平的情感分析还没有形成十分有效的解决方案.很多研究借助褒贬词典确定句子的情感描述项及褒贬程度.在各成分的对应关系识别方面,一些研究[27,29-30,59-60]使用了词性标注、实体识别等文本分析工具,进而根据词语共现性和统计方法判断商品属性与情感描述项的对应关系,还有一些研究[31-35]在句法和语义分析的基础上通过手工定义或机器学习获取一定的语言规则,进行各成分之间对应关系的识别.根据商品属性是否已经确定,相关工作主要划分为三类:1)已知商品的属性列表,自动抽取相应的情感描述部分并判断它的褒贬倾向.该技术可应用于面向特定产品领域的情感挖掘.因为商品的属性已经确定,相关研究大多使用自动获取或者手工定义的语言规则判断属性和情感描述项之间的对应关系.Zhuang等[33]首先归纳出电影领域的相关属性和极性词语,然后从训练句子中得到属性和极性词语之间的最短依存路径,作为属性及其情感描述项的依存关系规则,用于挖掘二者之间的对应关系.姚天昉等[35]针对汉语汽车评论提出了利用领域本体识别句子的属性、利用主谓结构和定中结构识别属性及其情感描述项的对应关系,以及计算褒贬程度的方法.2)已知初始商品属性(一般是商品名称或品牌),识别全部被评论的属性及对应的情感描述项.在应用中,如果以产品的名称作为查询条件,那么结合情感分析技术,搜索引擎就能够实现网络情感搜索,并把归纳好的搜索结果提供给消费者.文献[58]是早期分析比较不同品牌在线口碑的研究.M o ri n aga等[58]预先建立了一个褒贬词典,根据商品名称到褒贬词语的距离确定褒、贬评价语句,然后利用字串的随机复杂度从褒、贬评价语句中抽取描述各品牌的典型词语作为该品牌的口碑.K i m等[27]使用实体识别工具提取距离主题最近的人名和机构名称作为意见持有者,并提出一种利用W ord N et计算词语褒、贬情感程度的方法,通过累计意见持有者附近的情感推测句子的褒贬倾向.N asuka w a等[31]建立了以谓词为中心的情感传递模式库,在句子属性附近,经过句法分析和模式匹配能够比较精确地描述情感在论元之间的传递关系.Popescu等[34]根据名词短语与商品名称的共现性确定商品的属性,在依存分析的基础上,根据手工定义的规则迭代标记元组3word43wor d, topic4和3w or d,topic,sentence4的褒贬倾向.Y i等[28]基于主题相关文档和无关文档,采用特征提取的方法从主题相关文档中识别商品的属性.)88)管理科学学报2010年6月3)不限定商品的属性.针对电子商务网站的消费者反馈或b log中的自由评论,相关技术能够自动识别文本中出现的商品属性及消费者意见.L i u等[29]、H u等[30,59]提出在线评论按形式可分为三类:¹评论分别列出产品的优点和缺点;º评论列出优点和缺点,同时进行自由评论;»无固定格式的自由评论.针对形式一和形式二中优、缺点比较简短的特点,文献[29]在词性标注的基础上手工对商品属性进行标记,然后使用关联规则挖掘的方法得到关于属性与词类(或词语)的关联规则.对于形式二和形式三中的自由评论.文献[30,59]使用频繁项集挖掘的方法从名词和名词短语中挖掘频繁属性,然后提取频繁属性附近的形容词作为其情感描述项,再利用这些情感描述项识别不频繁的属性,而李实等[60]基于该方法对汉语评论的产品特征进行了挖掘.K i m等[32]借助极性词语所在的Fra m e NetÒ语义框架,采用ME机器学习方法从框架元素(fra m e ele m ent)中识别句子的主题和意见持有者.文献[61]提出将机器翻译技术用于语句情感单元3情感倾向,谓词,论元4的抽取.句子粒度的情感分析研究是在线商品评论挖掘的一个研究重点.至今在商品属性与消费者意见的对应关系识别方面还没有提出十分有效的解决办法.方法中有些假设来自研究者的主观直觉[27].一些研究[27,29-30,59]仅使用了词性标注等文本分析手段,这些方法的精度不高;利用语言规则的方法[31-35]可能产生比较高的精度,但它需要大量手工工作并且语言现象的覆盖面有限,领域的可移植性较差.且仅有为数不多的研究考虑到词语的上下文极性[34,61]和对隐式属性的识别[29].3互联网商品评论的经济价值挖掘前两部分介绍的研究均为关于情感分析技术的讨论,虽然相关技术可以实现和改进对在线评论的自动处理能力,却无法回答在线商品评论对企业和消费者将产生怎样的影响,以及如何有效管理和利用这些在线评论等问题.最近,这些问题引起了包括自然语言处理和经济管理领域学者的极大兴趣,相关研究主要从实证分析角度,对在线评论的褒贬情感将如何影响消费者的购买行为以及如何进一步影响相关产品销售情况的机制进行探索并建立理论模型.按照获取网络口碑方式的不同,现有工作可分为两类:一是利用某些电子商务网站上的客户评分作为该商品的口碑,例如,Am azon和Yahoo!鼓励消费者在给出文字评论的同时,用星号数目表示对该商品的评价.相关研究大多基于实证数据建立回归模型或结构方程模型,考察客户评分对于商品销售相关指标的影响(见表2).还有研究从情感分析技术出发,直接从评论文本中挖掘消费者的情感倾向,进而讨论了消费者情感倾向与商品销售情况的关系,研究对象不再限于少数电子商务网站提供的客户评分,互联网上的任何文本信息都可能成为消费者意见的来源(见表3).表2在线消费者评分、评论数量和销售情况的关系Tab le2Rel ationsh i ps b et w een t he a moun t/ori en t ati on of custo m er rati ngs and p roduct s a l es文献商品类型正面评论负面评论评论数量较多评论数量较少Godes等[62]电视节目))无影响无影响Chen等[63]书籍无影响无影响{销售|销售L i u[64]电影无影响无影响{销售|销售Duan等[65]电影无影响无影响{销售|销售Duan等[66]电影(通过影响评论数量){销售(通过影响评论数量)|销售{销售|销售Chevalier等[67]书籍{销售|销售{销售|销售Dellarocas等[68]电影{销售|销售{销售|销售Zhang等[69]餐馆{销售|销售{销售|销售Ye等[70-71]酒店{销售|销售))C le mons等[72]啤酒{销售|销售无影响无影响)89)第6期张紫琼等:互联网商品评论情感分析研究综述。
文本情感分析在网购评论中的应用前景_奚金金
文章编号:1009-2552(2013)12-0071-04中图分类号:TP391.1文献标识码:A文本情感分析在网购评论中的应用前景奚金金,霍欢,徐亚(上海理工大学光电信息与计算机工程学院,上海200093)摘要:结合网购评论文本的特点,分别从网购评论文本情感信息的抽取、分类以及情感信息的检索与归纳三个方面来阐述文本情感分析在网购评论领域的实际应用前景。
其中,网购评论文本情感信息的抽取和分类是进行网购评论文本情感信息检索与归纳的基础,而网购评论文本情感信息检索与归纳是与用户直接交互的接口,也是最具有实用价值和商业价值的部分。
关键词:文本情感分析;网购评论;统计语言模型;情感词典;情感文摘Text sentiment analysis application prospects in theonline shopping reviewsXI Jin-jin,HUO Huan,XU Ya(School of Optical Electrical and Computer Engineering,University of Shanghai for Scienceand Technology,Shanghai200093,China)Abstract:This article combined with the features of online shopping review text,illustrated the practical application of the text sentiment analysis in the field of online shopping reviews from the extraction,classification and retrieval and summarization of the review text.Among them,the extraction and classification are the basis for the retrieval and summarization of review sentiment information which is directly interact with user interface and the most part of the practical and commercial value.Key words:text sentiment analysis;online shopping review;statistical language model;sentiment lexicon;sentiment digest随着互联网的普及,网上购物在人们的生活中越发重要,消费者在C2C(以淘宝、拍拍为代表)和B2C(京东、当当为代表)商城写下的商品评论对于其他消费者了解商品的质量和服务、以及引导消费者正确做出购买决策发挥了一定的作用。
2024年高频考点解密01 信息类文本阅读之论证分析(讲义)(解析版)
信息类文本阅读论述类文本和实用类文本合二为一,合称为信息类文本阅读。
新课标全国卷分值为3X3+4+6,3道选择题(3+3+3)+ 2道主观题(4+6),共19分。
全国甲乙卷分为论述类文本阅读和实用类文本阅读,分值为3X5+6,5道选择题(3X5)+ 1道主观题(6),共21分。
总体看来,新课标全国卷中信息类文本阅读的考核难度比较大,全国甲乙卷相对较小。
新课标全国卷信息类阅读一般选取多则非连续性论述类文本阅读材料,极少选取一则文本。
全国甲乙卷基本选取一则文本。
选文涉及政论文、学术论文、时评、书评等论述类文本以及新闻、传记等实用类文本,论点鲜明,论述结构层次清晰。
一般会在文章出处了解到文段的大致内容,在文本的首段亮出文章的论点,部分文本每段设有分论点。
解密01 信息类文本阅读之论证分析(解析版)高频考点一选择题解读涉及阅读理解的基本能力,分析文本的论点和分论点、分析文本所用的论证方法、分析文本所用论据的作用等。
主要考查考生对材料的主要观点内容的理解,对文章观点的全面准确表述,或为文章观点筛选合适论据(选项中有时涉及课外知识的积累,考察学生课外知识的储备)。
下列对原文论证的相关分析,不正确的一项是(3分)下列对材料一和材料二论证的相关分析,不正确的一项是(3分)下列选项,最适合作为论据来支撑第X段观点的一项是(3分)(1)议论文三要素论点:正确、鲜明、新颖。
文章所要议论、阐述的观点,是作者要表达的看法和主张。
议论文一般只有一个中心论点,有的议论文还围绕中心论点提出几个分论点。
论点可以在文章的标题、开头、结尾、中间,有的需要概括。
论据:可靠、典型、新鲜。
一般包括事实论据和道理论据。
论证:有条有理,条理清晰,论证透彻。
论证是运用论据来证明论点的过程和方法,是论点和论据之间的逻辑关系纽带。
论点是解决“需要证明什么”的问题,论据是解决“用什么来证明”的问题,论证是解决“怎样证明”的问题。
(2)答题三步骤典例01(2023年高考全国甲卷语文真题)随着中国考古学的飞速发展,考古资料得以大量积累,考古学文化时空框架体系基本建立,多学科合作日益深入,各种专题研究广泛展开。
重难点01 现代文阅读I之文本信息的筛选与整合(原卷版)
重难点01现代文阅读I之文本信息的筛选与整合(原卷版)一、考情一览年份卷别提问方式设题角度2023年新高考I卷1. 下列对原文相关内容的理解和分析,不正确的一项是()2. 根据原文内容,下列说法不正确的一项是()4.请简要说明文本中的西方媒体在报道时使用了哪些“竞争性真相”。
概括内容要点2023年新高考II卷1. 下列对材料相关内容的理解和分析,正确的一项是()2. 根据材料二的内容,下列说法不正确的一项是()5. 材料一和材料二都谈到调查研究中的“客观”,二者的侧重点有什么不同?请结合材料谈谈你的认识。
筛选并辨析信息和概括内容要点2022年新高考I卷1.下列对材料相关内容的理解和分析,不正确的一项是()2.根据材料内容,下列说法不正确的一项是()筛选并辨析信息2022年新高考Ⅱ卷1.下列对材料相关内容的梳理,正确的一项是()4.请根据材料二,简要说明杨宪益与霍克思对译文艺术性的理解有何不同。
(4分)5.评价一部中国典籍译本是否优秀,可以有哪些标准?请结合材料进行概括。
(6分)概括内容要点2021年新高考Ⅰ卷1. 下列材料相关内容的理解和分析,不正确的一项是()2. 根据材料内容,下列说法正确的一项是()筛选并辨析信息2021年新高考Ⅱ卷4.请结合材料内容,给历史地理学下一个简要定义。
(4分)下定义二、命题趋势概括是阅读的基础。
概括内容要点是新高考卷最重要的考点,未来还是会频繁出现的。
概括内容要点命题较灵活,可以采用选择题形式,也可以采用简答题形式。
概括的区间不只限于某一则材料,因此,要特别注意材料间的关联。
新高考卷的信息类文本由全国卷的论述类文本和实用类文本整合整合而来,主要呈现以下命题特征:一是形式上多文本与单文本的交替出现,增加了“文字材料+图表材料”的组合;二是选材上重视学术论文和著作;三是内容上兼顾人文社科和自然科学;四是突出真实情境的设置,重视文本信息的迁移运用。
一、设问形式(一)选择题1.关于原文内容的理解和分析,选择(不)正确的一项2.在下列表述中,选择与原文意思(不)相符的一项3.对文中······的相关理解,选择(不)正确的一项(二)简答题1.结合材料概括或简述······的原因、结果等2.根据材料文本,说明文中两种观点、经验、事件等的异同点。
综合分析题
综合分析题标题:中文互联网的发展与影响摘要:本文通过综合分析中文互联网的发展与影响,探讨了互联网对信息获取、社交交流、经济发展、文化传播等方面的重要影响,并提出了互联网发展的挑战与未来展望。
引言:互联网的兴起给人们的生活带来了巨大的变化,其中中文互联网的发展更是对中文社会产生了深远的影响。
中文互联网的快速发展,对人们的信息获取、社会交流、经济发展、文化传播等各个方面产生了巨大的影响。
一、信息获取的便利:中文互联网打破了信息传播的地域和时间限制,人们可以通过搜索引擎、新闻网站、博客等各种途径方便地获取所需的信息。
同时,人们也可以在网上发布自己的观点和知识,实现信息的双向传播。
这样的便利使得人们的视野更加开阔,也提升了整个社会的信息素养。
二、社交交流的便捷:中文互联网为人们提供了丰富的社交网络和即时通讯工具,如微信、微博、QQ等。
人们可以通过这些平台与朋友、家人保持联系,也可以与陌生人交流,分享自己的生活和经验。
同时,这些平台也成为了社会舆论的重要渠道,人们可以通过互联网表达自己的观点,参与社会议题的讨论。
三、经济发展的推动:中文互联网的发展促进了电子商务的兴起,人们可以通过网络购物、支付等方式方便地进行商业交易。
同时,互联网也为中小企业提供了发展的机会,通过网络可以更广泛地推广产品或服务,开辟新的市场渠道。
这样的推动对于整个经济的发展和就业的增加有着积极的影响。
四、文化传播的拓展:中文互联网为文化的传播提供了全新的平台,人们可以通过网络观看电影、听音乐、阅读文学作品等。
同时,互联网也使得文化交流更加方便,促进了不同地区之间文化的互动与融合。
此外,许多中文网站和论坛都成为了文学、艺术、时尚等领域的重要宣传渠道,推动了中文文化的输出。
挑战与未来展望:随着中文互联网的发展,也面临着一些挑战。
例如信息的真实性和准确性问题、网络安全和隐私保护问题等。
针对这些问题,应加强相关法律法规的制定与执行,加强网络监管和安全建设。
21版:考点详解 核心突破
(取材于曹建文、余志琴的相关文章)
18
考点一
考点二
考点三
考点四
@《创新设计》
不过,太阳进入“主序恒星”阶段之后,其整体亮度上升了20%左右,这 一变化对地球上的生命演化产生了深重的影响。当然,对于存续时间仅仅百万 年、千万年的某一物种而言,太阳的变化并不会产生什么显著的影响。但是, 依照太阳的发展趋势,未来的10亿年里,它输出的能量会再上升10%左右,这 一变化可能导致地球上的温室效应完全失控,那时,地球就只能另外寻找生存 空间了。
(取材于应海燕的相关文章)
6
考点一
考点二
考点三
考点四
@《创新设计》
材料二 景德镇制瓷史上具有特色的产品主要有三个:第一是宋代的青白瓷,第二是
元明清的青花瓷,第三是清代的粉彩瓷。 青白瓷是北宋初景德镇窑工在五代青瓷和白瓷的基础上,根据本地原料特点
和广大民众审美需求的变化,模仿青白玉质和玉色的效果而创造出来的。这种 风格独特的单色釉瓷器使景德镇在宋代进入了中国名窑的行列。景德镇这个响 亮的名称,就是因为宋真宗赵恒偏爱青白瓷,而于公元1004年的景德元年用自 己的年号来命名的。一个皇帝将自己的年号赐予一个城镇,这在中国历史上是 罕见的,这自然促进了景德镇青白瓷的发展。
(取材于公众号“品读百卷”)
19
考点一
考点二
考点三
考点四
@《创新设计》
探讨基于神经网络的商品评论情感分类
Sun Qingyang, Liu Lei Anhui University of Technology, Anhui Maanshang 243000 Abstract With the rapid development of computer technology,natural language processing has been widely used in daily life. At the same time,due to the fast development and application of neutral network,natural language processing technology has been playing an important role in e-commerce platform. This paper is exactly based on an e-commerce platform to obtain a book review data,so as to work on the sentimental classification of it. In this paper,firstly,it used the two-way LSTM algorithm to extract the text information in depth. Then,the output information of the algorithm was integrated by making use of Attention mechanism. Finally,classifing it through the full link layer,this paper constructed a classification model with higher accuracy. Experimental results showed that the classification which is based on Attention mechanism achieved high accuracy up to 96.27%. Keywords Natural language processing; Text classification; LSTM; Attention mechanism
全国近年高考语文大一轮复习对点精练一文本论证分析(2021年整理)
(全国版)2019版高考语文大一轮复习对点精练一文本论证分析编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((全国版)2019版高考语文大一轮复习对点精练一文本论证分析)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(全国版)2019版高考语文大一轮复习对点精练一文本论证分析的全部内容。
论述类文本阅读对点精练一文本论证分析一、阅读下面的文字,完成文后题目.社会治理智能化,就是在网络化和网络空间基础上,通过大数据、云计算、物联网等信息技术,重构社会生产与社会组织彼此关联的形态,使社会治理层次和水平得到提升,使治理过程更加优化,更加科学,更加智慧。
要在促进大数据与社会治理深入融合中提升社会治理智能化水平,我们就必须准确把握“互联网+”时代社会治理创新面临的新形势、新要求,并充分应用好大数据资源。
社会治理内嵌于社会结构之中,随着社会结构的变化,社会治理的对象、主体也必然发生相应的变化。
一方面,当前社会治理所服务的对象结构发生了显著变化.具体表现为:社会阶层结构出现新老演化,人口的年龄结构、素质结构和空间分布结构发生了很大变动,老龄化社会加速到来,受过高等教育或拥有专业技能的群体日益扩大,家庭结构呈现规模小型化、类型多样化特征,社会流动性不断增强,跨地区流动已成为常态,越来越多的人口向大城市或中心城镇集聚。
特别是思想活跃、利益诉求多样的新兴社会阶层对创新社会治理提出了很多新课题。
另一方面,参与社会治理的主体,也从政府单一主体过渡到一个由政府、非政府组织、公众个体等构成的行动者系统。
这些变化迫切需要提升社会治理智能化水平,也为社会治理智能化创造了良好条件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第13卷第6期2010年6月管理科学学报J OURNA L O F M ANAGE M ENT SCIENCES I N CH I NAV o.l13N o.6Jun.2010互联网商品评论情感分析研究综述¹张紫琼,叶强,李一军(哈尔滨工业大学管理学院,哈尔滨150001)摘要:互联网评论情感分析是W eb信息挖掘的一个新兴领域,近年来受到计算机科学、经济学、管理学等相关学科的广泛关注.目前,情感分析领域的研究主要集中在主观性内容识别、褒贬情感分类以及在线评论的经济价值挖掘等几个方面,大部分研究借鉴文本挖掘、信息检索、机器学习、自然语言处理、统计学等方面的技术和方法,也提出了一些针对评论情感分析的特定方法.对在线评论情感分析领域的研究现状与进展动态进行归纳和分析,重点论述现有研究采用的主要方法和关键技术,以及研究中存在的问题,最后提出了未来的研究方向.关键词:情感分析;在线评论;主观性识别;褒贬分类;在线口碑效应中图分类号:TP18;C931文献标识码:A文章编号:1007-9807(2010)06-0084-130引言情感分析(senti m ent analysis),又称评论挖掘或意见挖掘(op i n i o n m i n i n g),是指通过自动分析某种商品评论的文本内容,发现消费者对该商品的褒贬态度和意见[1-2].利用对互联网上商品评论信息的挖掘与分析结果,消费者可以了解人们对某种商品的态度倾向分布,优化购买决策;生产商和销售商可以了解消费者对其商品和服务的反馈信息,以及消费者对自己和对竞争对手的评价,从而改进产品改善服务,赢得竞争优势.随着信息技术及其应用在过去十几年中的快速发展,互联网不仅对企业的业务流程带来了巨大的变革,也对消费者的行为模式产生了深刻的影响.DoubleC lick I nc.[3]进行了一项针对美国服装业、计算机硬件设备业、运动与健身产品行业及旅游业网络客户的研究,发现这些行业中都有近一半以上的消费者在做出购买决定前会在互联网上搜索相关商品的介绍及其他消费者对商品的评论信息,互联网商品评论对于消费者的购买决策有着重要的影响.据统计,截至2009年9月,全球上网人数已达17.34亿人[4],充分挖掘消费者的喜好偏爱对商家具有重要的意义.作为W eb信息挖掘的一个新兴领域,在线评论情感分析涉及的研究内容十分广泛,如自动识别互联网中传播的商品评论信息、识别被评论的商品属性、判断客户意见的褒贬态度以及挖掘在线评论与商品销售情况的关系等.姚天昉等[5]对情感分析的研究现状进行了总结,主要内容包括:¹介绍情感分析的定义和研究的目的;º从主题的识别、意见持有者的识别、情感描述的选择和情感的分析四个方面进行评述,并介绍了一些成型的系统;»讨论中文情感分析的研究现状.而本文分别从篇章、语句和词语等不同粒度上,围绕情感分析技术的基础性工作,主观性内容识别和褒贬情感分类两方面展开评述,并对在线评论将如何影响消费者的购买行为以及如何影响商品销售情况的工作进行整理和分析.针对在线评论挖掘开展的研究越来越多,然而相关研究仍然处在探索阶段,在方案设计和技术运用方面都比较分散,缺乏统一的实验平台和¹收稿日期:2009-02-16;修订日期:2010-03-18.基金项目:国家自然科学基金资助项目(70971033;70890082);新世纪优秀人才支持计划资助项目(NCET-08-0172).作者简介:张紫琼(1982)),女,黑龙江大庆人,博士生.Em ai:l ziqiong@h 资源.由于各种方法预期的目的、使用的数据集和评价方法均不完全相同,很难进行研究结论之间的比较和评价.1主观性内容识别情感分析处理的文本类型是主观性文本,若要在评论情感分析系统中做到自动处理,首先需要区别主、客观文本信息,这是一个十分重要的预处理环节.一般而言,主观语言是指人们用来表达自己的立场、态度和感情的语言[6],主观语言存在褒义与贬义之分,称为语言的情感倾向或极性.本节主要介绍主观内容识别的相关工作,在第二节介绍关于褒贬情感分类的研究.下面从三个层次介绍主观性文本识别的研究现状:词语,句子,篇章.在词语水平上,主观性识别研究的任务是确定主观词语.现有研究[7-12]主要是针对英文主观性形容词、名词、动词和短语的自动识别.叶强等[13]也提出了用于识别汉语主观短语的双词词类搭配.然而,现有方法的评价指标大多采用整个词表对主观句的识别正确率和召回率[7,10-11,13],对于主观词语本身的判定仍未提出普遍认可的评价标准.研究表明,无论是手工方式,还是机器自动的方式,判断词语的主客观性都难于判断词语的褒贬倾向[14-16].在句子水平上,主观性识别研究主要涉及自动识别表达情感的主观性语句[12,17-20],以及语句中的意见和意见来源等组成成分[21-22],机器学习方法是相关研究主要采用的方法.Yu等[17]发现Bayes分类器对主观句能够达到较高的识别准确率和召回率,而对客观句的识别准确率和召回率均较低.可以看出:主观语言中包含比较明显的表达情感的词汇,某些词语的出现可以有效地识别主观句;客观语言相对缺乏典型的词汇.客观语言可能由于主观性词语的加入改变其客观性,反之,主观语言则不会因为客观词语的加入改变其主观性.词语位置信息的引入使客观句的识别效果有所提高[18].文献[12,19]进一步提出了语句主观性程度的计算方法.到目前为止,相关研究在主、客观句的划分标准上仍存在分歧,使用的语料集存在差异,因而获得指标的数值不能完全作为分类效果比较的依据.关于语句意见和意见源等成分识别的研究[21-22]还处在探索中,准确地判别语言成分及其功能,需要借鉴相关的语言学知识,许多问题尚未得到很深入的研究.在篇章水平上,由于评论与非评论使用的词汇差别较大,以词作为项,NaÇve Bayes和SVM能达到相当高的分类精度[17,23],所以从篇章层次对主、客观文档进行分类的研究相对较少,不是研究的重点.此外,文献[24]提出了一种自动计算/词义0主观性程度的方法.文献[25]尝试利用现有英文主观词典及分析工具生成目标语言的主观词典与研究工具,但是生成的资源在实际应用中的效果还有待验证.2褒贬情感倾向分类褒贬情感分类(sen ti m ent c lassification)是通过分析在线商品评论的文本内容,自动将其判断为正面评价或负面评价,从而挖掘消费者情感倾向分布的过程.2.1评论篇章情感分类早期的褒贬情感分类研究始于篇章水平,目标是挖掘评论文章对某种商品或服务所持的总体褒贬态度.根据采用的技术,相关工作可主要分为基于传统文本分类技术的方法、基于褒贬词汇统计的方法和基于回归模型与序列标注的方法.将文本简化为B OW(bag ofw ords),在特征处理和统计学习算法的基础上获得对文本内容的表示和类别的预测已经成为传统主题分类的标准模式.评论情感分类与主题分类的一个较大区别是情感更多地体现为词语之间的语义关系,许多词语在共现时才能表达一定的情感倾向.因而,基于传统文本分类技术的情感分类工作主要使用向量空间模型表示文本和机器学习算法预测类别,选择什么语义单元作为特征是相关研究的焦点,主要考虑的问题包括:1)权值的计算.在文本分类和信息检索领域,通常采用基于词语频率的方法计算项的权重,而Pang等[1]发现对于评论情感分类,以词语是否出现作为特征在分类效果上优于词频特征,因为)85)第6期张紫琼等:互联网商品评论情感分析研究综述语言的褒贬倾向主要取决于正面或负面词语在语言中的出现,而不是出现的次数.2)n-g ra m项.一些研究希望通过n-gra m项表示被BO W忽略的词语之间的语义联系,但对于n-gra m项的效果还存在争议.Ng等[23]发现将b-i gra m和tr-i gra m加入unigra m项后能够提高SVM 的分类性能,但如果分别单独使用unigra m、b-i gra m或tr-i gra m作为特征项,分类精度随着阶数的增加反而下降,Ng等认为原因可能是高阶n-gra m产生的数据稀疏问题导致了分类精度的下降.而Cu i等[26]得到的结论与文献[1,23]相反,高阶n-gra m项能够提高情感分类精度,并认为原因可能是采用的大规模语料消除了数据稀疏问题,使高阶n-gra m项更有效地表达了语义信息.3)词性.词性是能够标识语义信息的重要语法特征.H a tzi v assilog lou等[8]指出一些形容词的出现可以有效地识别主观性语言.在许多情感识别和抽取工作中,特别是无监督方法,往往抽取文本中的形容词、名词、动词或副词作为潜在的情感表达单元[27-32].Tur ney[2]提出五个包含形容词或副词的词性组合识别语言情感.在评论篇章情感分类方面,文献[1,23]把词性相关信息加入文本表示的特征项,使用机器学习算法判断评论篇章的褒贬倾向,但分类效果并不十分理想,词性信息的有效利用有待进一步研究.4)句法结构特征.句法分析常常被应用于句子水平的情感分析,以识别句子主题、意见描述项和意见持有者等成分[31-35].有些研究[23,36]也将句法结构特征作为特征项,对评论篇章进行情感分类.Ga m on[36]在un i g ra m+bigra m+trigra m项的基础上加入句法结构相关特征后,SVM的分类精度有所提高.N g等[23]发现将根据依存关系抽取的特征加入b i g ra m+trigra m项不能明显改善分类效果,但如果仅有unigra m项,使用依存关系特征有助于提高分类精度,并认为原因是依存关系特征与bigra m/tri g ra m可以获得相近的信息.5)否定结构.否定的识别和表示对于情感分析问题非常重要.对于显式的否定结构,相关研究主要采取两种处理方式,一是首先忽略否定词语表示文本,如果否定词语存在,则取相反的情感计算结果[31,37].另一种方法是把否定结构编码到文本特征中,Das等[38]提出将符号/--n0编码到靠近否定词语的项,从而形成一个新的项,例如/favo r-able--n0.基于传统文本分类的方法是当前篇章级情感分类的主流方法,虽然评论情感分类的精度通常低于已知的主题分类,但以模式识别为出发点的机器学习算法也能取得较好的效果[1,39].评论情感分类的效果不甚理想,是因为主观评论表达的语义信息往往需要复杂的语言知识才能处理.然而主观性语言大量存在,其统计规律依然可以为特征提取和情感分类提供支持.对语义信息的挖掘和利用将有助于机器学习技术在相关任务中的应用,如何恰当地表示这些语义信息以及自动地学习它们的统计模式,仍然是一个开放的问题.基于极性词汇统计的方法一般首先计算词语的褒贬倾向性,通过对篇章中极性词语计数、或对其褒贬程度值求和或均值,获得文章的总体情感倾向[2,37,40].极性词语的选择可以借鉴基于传统文本分类方法中的特征选择.Turney[2]提出一种利用搜索引擎估计短语褒贬倾向的方法,进而使用篇章中短语极性的平均值代表整体的情感倾向,但分类精度低于有监督学习方法[41].D ave 等[40]使用了信息检索中的多种技术进行特征抽取、特征加权,然后利用特征权重的累加计算产品评论的褒贬倾向,但分类效果没有明显优于传统的机器学习方法.顺序回归模型适用于评分推测(rati n g-i n fer-ence)[42]以及与程度有关的排序问题[19].序列标注考虑到相邻语句之间[43]、语句和文档之间[44]的褒贬倾向具有相关性.M ao等[43]将句子的情感倾向分类转化为一个情感流问题,利用条件随机场模型标注句子的倾向性,进而推测文档的情感倾向.M c Donald等[44]在一个全局模型中利用V iter b i算法对文档和句子同时进行情感序列标注.至今,情感序列标注在理论上的合理性,以及面对实际应用的可扩展性还需要深入验证,尚未得到广泛的应用.文献[45]利用W ordN et等辅助工具建立了文档的语义图结构,但这种文本表示方法在情感分类上未见明显优势,而且需要比较复杂的语言预处理.2.2词语的褒贬情感分类随着互联网情感分析研究的迅速发展,作为)86)管理科学学报2010年6月一项基础性工作,词语的褒贬倾向分类研究也得到了广泛关注和快速发展.相关工作涉及自动识别主观词语,判断其褒贬倾向性,进而建立褒贬词典或为语句的情感分析工作提供支持.采用的方法主要包括基于语料挖掘的方法[46-51]和基于词典等资源扩展的方法[14,52-56](见表1).H atzivassiloglou 等[46]认为文本中的连词可以指示所连接词语之间的语义关系,通过生成形容词之间同义或反义的连接图,应用聚类的方法将形容词划分为褒义和贬义两类,虽然该方法的分类精度达到90%以上,但是只能处理有限的由连词关联的形容词.W ilson 等[47]选取了包括褒贬词语、句法结构特征,以及上下文信息等大量特征,利用监督学习的方法判断短语在上下文中的主客观性和褒贬倾向.Turney [48]提出了一种借助搜索引擎数据库判断词语的极性及强度的无监督方法,其假设是词语与标准褒义(贬义)词语在数据库中的共现率越高,则该词语越倾向于褒义(贬义).文献[49]认为语言的情感倾向具有连贯性,提出一个无监督方法,利用词语之间和分句之间的连接指示情感的变化,对词语的初始褒贬倾向进行修正.文献[50]利用特定的网页格式和手工建立的语言规则从大量网页中识别抽取褒、贬语句,进而根据短语在两类语句中出现的概率估计该短语的褒贬倾向.除了从语料中挖掘词语的情感,W ord N et 等词典资源在相关任务中也起到重要作用.W ord N et 中词语之间的距离、词语的注解,以及同义词和反义词集揭示的语义联系,被用于测量词语的褒贬倾向[14,52-54],其思想是利用W ordNe t 提供的语义信息对种子词语进行扩展.这类方法的主要问题在于,W o r dN et 按照同义词集合(synony my se t)组织信息,而同义词语不一定具有相同的褒贬倾向,这将导致对词语情感倾向的估计出现偏差.表1 词语褒贬情感分类的方法Tab le 1Ana l ysis ofm et hods for w ord and ph ras e s enti m ent cl assificati on文献对象¹方法º资源»测试/比较集¼效果½CR ¾HD ¿H atzivassiloglou 等[46]ad jecti ves up erv i sed l og -li near regress i on,cl us t eri ng1987W all S treet J ournal corpu s 1336m anuall y l abeledad j ecti ves(HM )90%KW ilson 等[47]phrase s up erv i sed AdaBoostMHM P QAHM,G eneralInqu irer lexicon(G I)65.7%KTurney[48]ad jecti veadverb noun verb search eng i ne -bas ed Poi nt w i seM utual In for m ation ,un s upervisedW eb pagesi ndexed byA lta V ist a HM,G I 90%KKa naya ma 等[49]phrase unsupervi sed ,patt ern m atch i ng ,con text coherencyW eb pages 200m anuall y l abeled phrases )K Kaji 等[50]ad jecti ve phrase unsupervi sed ,patt ern m atch i ng ,V 2and P M I st ati sti calm eas ure W eb pages 405m anuall y l abeled phrases 85%KGhose 等[51]phrase e m pirical ana l ysis ,regres s i on Am az on revie w s ))K Andreevs kaia 等[14]ad jecti ve gl oss and lexical rel ati on -based w ord overl ap m eas u re W ordNet GI )K Ka m ps 等[52]ad jecti ve se m anti c d istance m eas u re W ordNet GI68.19%K E s u li 等[53]all POSgl oss -base d w ord represe n t ation ,s up erv i sed l earn i ngW ordNetHM,同文献[48],同文献[52]88.05%KTaka m ura 等[54]ad jecti veadverb nounverb auxiliary gl oss and lexical rel ati on -basedw ord net w ork ,sp i n m od elW ordNet GI 91%K E s u li 等[55]synset gl oss -based s ynset representation ,co mm ittee of class i fi ers W ordNet))KE s u li 等[56]synsetgl oss -based s ynset net w ork ,Page Rank a l gorit hmW ordNet))K注:表1中的数字角标表示的是:¹研究对象;º模型方法;»使用的语料或词典资源;¼主要采用测试或比较集;½报道的分类效果(精度或F1值,测试条件不同,结果仅供参考);¾cl ass rank i ng 方法(输出词语极性关于类的相对相似性或排序);¿hard decision 方法(输出词语极性的类别标记).由于测试集合和测试条件的差异,指标的数值仅作为方法效果的参考,不能完全作为方法效果间比较的依据.)87)第6期张紫琼等:互联网商品评论情感分析研究综述早期词语水平的研究是对词语本身褒贬倾向的判断,文献[46,48]将词语判断为具有褒义或贬义倾向,并给出了相应的强度,而文献[27]认为一个词语同时具备褒义和贬义倾向,分别给出了褒义和贬义程度值.E su li等[55-56]则指出褒贬性是词义的属性,因为词语的不同含义可能具有不同的褒贬态度,提出一种针对W ordNet同义词集synset褒贬程度的测量方法.此外,考虑到在线客户评论会影响商家要价, Ghose等[51]基于Am azon.co m交易数据,提出了一种新颖的根据商家价格推测客户评论所用词语褒贬性的方法.该方法针对某种商品,根据商家获得的价格溢价,计算客户评论所用词语的/经济价值0,从而判断客户评论词语的褒贬倾向和强度.2.3语句的情感分析对句子水平的情感分析,一些研究[17,37,40,43-44,57]讨论了句子总体情感倾向的计算,从而实现对在线评论信息的搜索和分类.但是在实际应用中,一篇评论经常涉及商品的多个属性,并对这些属性分别进行评价.因而,还有研究将句子作为意见表达和分析单元,主要讨论了商品属性与消费者意见对应关系的识别,以及意见的褒贬倾向分类,下面着重对这方面工作进行介绍.K i m等[27]认为情感(op i n i o n)可以由主题、意见持有者、情感描述项和褒贬倾向性四个部分来描述,即意见持有者针对主题表达了具有某种褒贬倾向的情感描述.语句的情感分析是指在语句文本中自动确定这些元素以及它们之间关系的过程.语句中主题的形式有两种,一种是显式主题,它可以直接从文本中获得.另一种是隐式主题,需要依靠对当前语句的上下文进行指代关系分析才能获得.现有的主题识别方法主要指显式主题的识别.对于在线商品评论,主题通常是指商品的属性.Y i等[28]认为商品的属性包括:¹商品名称;º商品的组成部分;»商品的特点和功能;¼商品属性的特点和功能.到目前为止,关于语句水平的情感分析还没有形成十分有效的解决方案.很多研究借助褒贬词典确定句子的情感描述项及褒贬程度.在各成分的对应关系识别方面,一些研究[27,29-30,59-60]使用了词性标注、实体识别等文本分析工具,进而根据词语共现性和统计方法判断商品属性与情感描述项的对应关系,还有一些研究[31-35]在句法和语义分析的基础上通过手工定义或机器学习获取一定的语言规则,进行各成分之间对应关系的识别.根据商品属性是否已经确定,相关工作主要划分为三类:1)已知商品的属性列表,自动抽取相应的情感描述部分并判断它的褒贬倾向.该技术可应用于面向特定产品领域的情感挖掘.因为商品的属性已经确定,相关研究大多使用自动获取或者手工定义的语言规则判断属性和情感描述项之间的对应关系.Zhuang等[33]首先归纳出电影领域的相关属性和极性词语,然后从训练句子中得到属性和极性词语之间的最短依存路径,作为属性及其情感描述项的依存关系规则,用于挖掘二者之间的对应关系.姚天昉等[35]针对汉语汽车评论提出了利用领域本体识别句子的属性、利用主谓结构和定中结构识别属性及其情感描述项的对应关系,以及计算褒贬程度的方法.2)已知初始商品属性(一般是商品名称或品牌),识别全部被评论的属性及对应的情感描述项.在应用中,如果以产品的名称作为查询条件,那么结合情感分析技术,搜索引擎就能够实现网络情感搜索,并把归纳好的搜索结果提供给消费者.文献[58]是早期分析比较不同品牌在线口碑的研究.M o ri n aga等[58]预先建立了一个褒贬词典,根据商品名称到褒贬词语的距离确定褒、贬评价语句,然后利用字串的随机复杂度从褒、贬评价语句中抽取描述各品牌的典型词语作为该品牌的口碑.K i m等[27]使用实体识别工具提取距离主题最近的人名和机构名称作为意见持有者,并提出一种利用W ord N et计算词语褒、贬情感程度的方法,通过累计意见持有者附近的情感推测句子的褒贬倾向.N asuka w a等[31]建立了以谓词为中心的情感传递模式库,在句子属性附近,经过句法分析和模式匹配能够比较精确地描述情感在论元之间的传递关系.Popescu等[34]根据名词短语与商品名称的共现性确定商品的属性,在依存分析的基础上,根据手工定义的规则迭代标记元组3word43wor d, topic4和3w or d,topic,sentence4的褒贬倾向.Y i等[28]基于主题相关文档和无关文档,采用特征提取的方法从主题相关文档中识别商品的属性.)88)管理科学学报2010年6月3)不限定商品的属性.针对电子商务网站的消费者反馈或b log中的自由评论,相关技术能够自动识别文本中出现的商品属性及消费者意见.L i u等[29]、H u等[30,59]提出在线评论按形式可分为三类:¹评论分别列出产品的优点和缺点;º评论列出优点和缺点,同时进行自由评论;»无固定格式的自由评论.针对形式一和形式二中优、缺点比较简短的特点,文献[29]在词性标注的基础上手工对商品属性进行标记,然后使用关联规则挖掘的方法得到关于属性与词类(或词语)的关联规则.对于形式二和形式三中的自由评论.文献[30,59]使用频繁项集挖掘的方法从名词和名词短语中挖掘频繁属性,然后提取频繁属性附近的形容词作为其情感描述项,再利用这些情感描述项识别不频繁的属性,而李实等[60]基于该方法对汉语评论的产品特征进行了挖掘.K i m等[32]借助极性词语所在的Fra m e NetÒ语义框架,采用ME机器学习方法从框架元素(fra m e ele m ent)中识别句子的主题和意见持有者.文献[61]提出将机器翻译技术用于语句情感单元3情感倾向,谓词,论元4的抽取.句子粒度的情感分析研究是在线商品评论挖掘的一个研究重点.至今在商品属性与消费者意见的对应关系识别方面还没有提出十分有效的解决办法.方法中有些假设来自研究者的主观直觉[27].一些研究[27,29-30,59]仅使用了词性标注等文本分析手段,这些方法的精度不高;利用语言规则的方法[31-35]可能产生比较高的精度,但它需要大量手工工作并且语言现象的覆盖面有限,领域的可移植性较差.且仅有为数不多的研究考虑到词语的上下文极性[34,61]和对隐式属性的识别[29].3互联网商品评论的经济价值挖掘前两部分介绍的研究均为关于情感分析技术的讨论,虽然相关技术可以实现和改进对在线评论的自动处理能力,却无法回答在线商品评论对企业和消费者将产生怎样的影响,以及如何有效管理和利用这些在线评论等问题.最近,这些问题引起了包括自然语言处理和经济管理领域学者的极大兴趣,相关研究主要从实证分析角度,对在线评论的褒贬情感将如何影响消费者的购买行为以及如何进一步影响相关产品销售情况的机制进行探索并建立理论模型.按照获取网络口碑方式的不同,现有工作可分为两类:一是利用某些电子商务网站上的客户评分作为该商品的口碑,例如,Am azon和Yahoo!鼓励消费者在给出文字评论的同时,用星号数目表示对该商品的评价.相关研究大多基于实证数据建立回归模型或结构方程模型,考察客户评分对于商品销售相关指标的影响(见表2).还有研究从情感分析技术出发,直接从评论文本中挖掘消费者的情感倾向,进而讨论了消费者情感倾向与商品销售情况的关系,研究对象不再限于少数电子商务网站提供的客户评分,互联网上的任何文本信息都可能成为消费者意见的来源(见表3).表2在线消费者评分、评论数量和销售情况的关系Tab le2Rel ationsh i ps b et w een t he a moun t/ori en t ati on of custo m er rati ngs and p roduct s a l es文献商品类型正面评论负面评论评论数量较多评论数量较少Godes等[62]电视节目))无影响无影响Chen等[63]书籍无影响无影响{销售|销售L i u[64]电影无影响无影响{销售|销售Duan等[65]电影无影响无影响{销售|销售Duan等[66]电影(通过影响评论数量){销售(通过影响评论数量)|销售{销售|销售Chevalier等[67]书籍{销售|销售{销售|销售Dellarocas等[68]电影{销售|销售{销售|销售Zhang等[69]餐馆{销售|销售{销售|销售Ye等[70-71]酒店{销售|销售))C le mons等[72]啤酒{销售|销售无影响无影响)89)第6期张紫琼等:互联网商品评论情感分析研究综述。