【原创附代码】R语言用之进行文本挖掘与分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
论文题目:R语言用之进行文本挖掘与分析
摘要:要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。本文利用R语言对2016年政府工作报告进行文本挖掘与分析并使用词云是该报告可视化,统计词频,用图片方式短时间看透文章的重点。
关键词:文本挖掘;R语言;2016政府工作报告;词云;可视化
Abstract:To analyze text content, the most common method of analysis is to extract the words in the text and to count the frequency. After extraction, can also be made word cloud, so that the frequency of the word attribute visualization, more intuitive and clear. This paper uses the R language to carry on the text mining and analysis to the government work report in 2016 and use the word cloud to visualize the report, to count word frequency, and to see the focus of the article in a short time.
Key words:Text mining; R language; 2016 government work report; word cloud; visualization
引言
我们从新华网上可以找到2016年的政府工作报告(附录1),将其整理下来,并转换为TXT格式,去掉空格与分段,最后变为TXT格式的文件,可见附件1(2016政府工作报告)。
1描述数据
我们得到的是文字数据,可如图一所示。
图一:2016政府工作报告
2R软件准备
R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava 需要计算机中有安装Java,Rwordseg项目目前发布在R-forge上,所以不能直接在R或者Rstudio中用安装软件包功能。在R-forge(附录2)下载后可以从本地程序包加载到R语言中,本文使用R版本为3.3.2。
在做分词处理时,可能会遇到一些比较精而专的文章,专业词汇在词库里面并没有,这时候就需要去找相关的词典,安装到R中。例如,在做新闻分析中,一些娱乐新闻里会有很多明星歌手的名字出现,这些名字在做分词时,不会被识别为一个个词。此时可能需要添加一个名字的词典,词典可以是自己建也可以从网上找,本文从搜搜狗输入法的词库(附录3)下载了三个词库(附件2)。
由于找的词库不完整还可以在R中添加词汇,如:“共赢”,“攻坚克难”,“自贸试验区”,“亚太”等等。
安装好词典和添加好词汇后如图二所示。
图二:安装词典与添加词汇
3文字挖掘
1.将文件读取到R中,再利用readLines读取,并进行分词,添加加词库和加入新词后明显发现分词效果好了很多,不会把专有名词分错了,再把文中的特殊符号去掉就变成图三所示。
图三
运行后的结果如图四所示。