手把手教你分析携程网评论数据

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

手把手教你分析携程网评论数据

中文文本挖掘包tm、tmcn、Rwordseg、Rweibo的安装/andy_henry/article/details/25929019

文本分析的应用越来越广泛，这不，我的工作也开始涉及了文本分析，今天就讲讲关于评论数据的那点事。

首先评论数据如何获取？

一般通过网络爬虫的方式抓取各大网站的评论数据，本次分析数据就来源于携程网某酒店的评论，在同事的协助下，成功爬取该酒店的评论数据，于是我开始使用这些数据做相关的分析。

本次文本分析中需要使用如下3个包：

1）Rwordseg包用于分词

2）tmcn用于词频统计

3）wordcloud用于绘制文字云

library(Rwordseg)

library(tmcn)

library(wordcloud)

#读取数据

Evaluation <- read.csv(file = file.choose(), encoding = 'UFT-8')

#剔除评论数据中含有的英文和数字

text <- gsub('[a-zA-Z0-9]','',Evaluation$Evaluation)

#分词

segword <- segmentCN(strwords = text)

#查看第一条评论的分词效果

segword[1]

从上图的结果中发现，经分割后的词中有许多无意义的停止词，如“是”，“只”，“了”，“也”等，这些词是需要剔除的。关于停止词，可以到网上搜索获取。

#读取停止词

mystopwords <- read.table(file = file.choose(), stringsAsFactors = FALSE)

head(mystopwords)

class(mystopwords)

由于读入的数据为数据框格式，需要将其转换为向量格式，即：

mystopwords <- as.vector(mystopwords[,1])

head(mystopwords)

现在有了停止词词库，接下来需要将分割后的词与停止词词库进行比对，将含有停止词的词进行剔除。下面是自定义删除停止词的函数：

removewords <- function(target_words,stop_words){

target_words = target_words[target_words%in%stop_words==FALSE]

return(target_words)

}

#将该函数应用到已分割的词中

segword2 <- sapply(X = segword, FUN = removewords, mystopwords)

#查看已删除后的分词结果

segword2[[1]]

从上图中显示，一些无意义的停止词已经被剔除，下面就使用比较干净的词绘制文字云，以大致查看分词效果。

word_freq <- getWordFreq(string = unlist(segword2))

opar <- par(no.readonly = TRUE)

par(bg = 'black')

#绘制出现频率最高的前50个词

wordcloud(words = word_freq$Word, freq = word_freq$Freq, max.words = 50, random.color = TRUE, colors = rainbow(n = 7))

par(opar)

发现“不错”这个词非常明显，但到底是什么不错呢？下面来看一看都是哪些评论包含不错这样的字眼。

#根据频繁出现词汇，还原初始评价

index <- NULL

for(i in 1:length(segword)){

if (any(segword[[i]] %in% '不错') == TRUE)

index = unique(c(index, i))

}

text[index]

含有“不错”字眼的评论有658条，这就需要人为干涉，将这些“不错”进行简化并组成词典。

这是一个非常繁工的过程，需要耐心的查看这些评论中都是怎么表达的情感的。经过约3个小时的人为选词（不断反复查看），将这些词组成词典，并导入为自定义词汇。（可能该方法比较笨拙，如有更好的方法，还请看官指导）。

#自定义词汇

words <- c('房间干净','服务不错','酒店不错','不错的酒店','不错的地方','卫生不错','设施不错','设备不错','硬件不错','位置不错','地段不错','景色不错','景观不错','环境不错','风景不错','视野不错','夜景不错','口味不错','味道不错','感觉不错','态度不错','态度冷漠','态度冷淡','服务差劲','热情','热心','不热情','态度好','态度差','态度不好','素质差','质量不错','房间不错','浴缸不错','早餐不错','早餐质量差','自助餐不错','下午茶不错','强烈推荐','推荐入住','值得推荐','性价比不错','隔音不错','体验不错','不错的体验','设施陈旧','五星级酒店','性价比不错','交通便利','交通方便','出行方便','房间小','价格不错','前台效率太低','携程','地理位置','陆家嘴')

#插入自定义词汇

insertWords(strwords = words)

由于上面的词汇都是经过简化而成的，而原始评论可能是：“房间很干净”，“服务还是蛮不错的”，“酒店真心不错”等，所以就需要剔除这些干扰分词的词（“还是”，“蛮”，“真心”，“的”等）。

#根据业务情况、需要在原始评论中删除的字和词