基于文本分析的在线图书评论质量研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于文本分析的在线图书评论质量研究
随着大数据时代的到来,越来越多的人通过互联网分享自己的观点和想法,用户在线评论数量呈指数型爆发,评论的控制和利用成为
当前网络平台面临的重要考验。
一个有效的网络评论管理系统应当具备以下两方面的功能:帮助用户快速的从海量数据中得到有用信息和帮助平台合理有效的管理和利用用户评论。
评论质量评估作为自然语言处理的一个分支,成为网络评论管理系统的重要组成部分。
评论质量评估即寻找可衡量评论质量的指标,根据相应指标对评论质量进行量化,进而可以根据质量高低将评论进行过滤、排序等更多处理,识别出质量较高的评论,使得阅读评论的人能够在海量评论中快速获取有价值的信息。
对非商业化图书交流平台进行评论质量评估,一方面,
有助于识别出高质量评论,使读者更加快速高效地发现有价值的评论,协助其选择适合自己的、更优质的书籍。
另一方面,能够改进图书门户网站的现有评论展示功能,改善网站的服务质量,提高用户体验度。
本文面向非商业化图书平台的用户评论进行了质量评估研究。
首先分析了非商业化图书平台的特点,结合中文表达方式的特殊性,构建了
一套适用于该类型平台的WDC在线评论质量评价指标体系,然后以该指标为基础分析了使用支持向量机方法、逻辑回归方法进行分类的可行性。
最终,以“豆瓣读书”网站上三种图书类型的评论数据进行了实证分析,分别利用支持向量机方法和逻辑回归方法建立了在线评论质量评价模型,从查准率、召回率、F值、准确率四个方面对模型的分类效果进行了分析,发现在这套评价体系下,支持向量机方法的分
类效果比逻辑回归方法更显著。
同时采用随机森林方法对各指标进行排序后得出结论:对于非商业化图书平台上的用户评论,评论的修饰
词数对评论质量影响最大,其次是平均句长和字符数,而评分差异对
评论质量的影响最小。
本研究的创新之处在于:一、针对目前研究较
少的非商业化平台构建了评论质量评价指标体系;二、在标注训练集
评论质量时,采用了有用性投票和人工标注相结合的方式,且在标注
时与以往文本长度越长,有用性越强的理论不同,适中数据才会被判
别有用,这一改进丰富了有用性的定义。
本文的研究成果丰富了非商
业化平台在线评论质量评估的研究内容,为后续研究做出了一定铺垫。