基于R语言的文本数据可视化分析教学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于R语言的文本数据可视化分析教学
作者:杨杰
来源:《商情》2020年第29期
【摘要】数据的可视化作为一种最新的统计数据分析方法已经广泛运用在各个领域中,大数据时代背景下作为非统计专业本科学生,掌握一门统计分析软件是必要的。而利用统计软件进行可视化分析又是一项极为重要的必备技能。文章以R语言为基础,对近2020年国家政府工作报告进行可视化分析,以期激发学生对于统计数据分析的兴趣。
【关键词】R语言;可视化;政府工作报告;统计教学
1软件介绍
R软件本质上是一种语言,即R语言,它是在S语言的一个分支,早在上世纪80年代左右被人们所开发并使用,如今是统计领域使用极为广泛的一种数据分析工具。它在数据探索、统计分析和统计作图上面具有独特的优势,属于一种解释型语言。R整体上是一套集数据处理、运算、制图为一体的软件系统。其对于数组的运算功能尤其强大,所以R又可以视为一种数学计算的环境。R不仅有完整连贯的分析工具包和丰富即时的制图包,它的编程语言还十分简便且强大,用户可以对数据进行输入输出的双向操纵、分支、循环以及自定义功能。R语言的主题思想就是给用户提供集成化的统计工具,海量的数学计算、统计计算函数,用户可以灵活机动进行数据分析,更甚者可以根据需求创造新的统计计算方法并与所有使用者共享。
R能够被广泛使用还得益于其使用上的免费和8个基础模块之外的CRAN板块,CRAN已经收录了超4000个各类包,可用于经济计量、财经分析、人文科学研究以及人工智能等诸多领域。
2文本数据可视化分析工具——词云
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。“词云”就是通过形成“关键词云层”或“关键词渲染”,对文本文件中出现频率较高的“关键词”的视觉上的突出。使用的R制作词云主要包含:文本数据获取、数据分词处理、制图三个部分。
3教学案例展示
第1步:文本数据获取
将文本数据保存为txt格式存储,采用scan()函数进行文本数据的获取,代码如下:
f<-scan(‘C:\\\\Users\\\\Administrator.PC-20190315DIEF\\\\Desktop\\\\2020政府工作報告全文.t xt’,sep=‘\\n’,what=‘’,encoding=“GBK”)#读取存储于桌面的文件
第2步:数据分词与统计词频
seg <- qseg[f] #使用qseg类型分词,并把结果保存到对象seg中
seg <- seg[nchar(seg)>1]#去除字符长度小于2的词语
seg <- table(seg)#统计词频
seg <- seg[!grepl(‘[0-9]+’,names(seg))]#去除数字
seg <- seg[!grepl(‘a-zA-Z’,names(seg))]#去除字母
length(seg)#查看处理完后剩余的词数
seg <- sort(seg,decreasing=TRUE)[1∶200]#降序排序,并提取出现次数最多的前200个词语
seg #查看200个词频最高的
第3步:制图
通过data.frame()函数将进行分词和统计词频后的文本数据保存为新的系统文件,然后利用wordcloud2函数进行词云制作,代码如下:
data=data.frame(seg)
library(wordcloud2)
wordcloud2(data,size=1,minSize=0,gridSize=0,fontFamily=‘Segoe UI’,fontWeight=‘bold’,color=‘random-dark’,backgroundColor=“white”,minRotation=-pi/4,maxRotation=pi/4,shuffle=TRUE,rotateRatio=0.4,shape=‘circle’,ellipticity=0.65,widgetsize=NULL,figPath=NULL,hoverFunction=NULL)
主要参数讲解:
data:需要绘制的文本数据;size:字体大小,默认为1;fontFamily:字体;color:字体颜色;backgroundColor:背景的颜色;;shape:绘制“云”的形状。最终得到“词云”如图1。
4总结
统计学的理论基础是数学,分析基础是“数据”。如今“大数据”时代飞速发展,每秒钟都在产生海量的数据,利用好这些数据是尤为重要的,通过一个简单的文本数据可视化例子带领学生脱离“死记硬背”统计学中的概念、公式的漩涡,提高学生的动手欲望,养成大胆尝试,用于探索数据,让数据“说话”的统计学学习理念。与此同时,熟练掌握一门统计分析软件尤为重要。作为一名非统计专业的学生学习统计学最重要的一个目标就是:能够将数据分析结果呈现出来,并且结合相关专业领域进行结果的解释。
参考文献:
[1]中国政府网.2020年政府工作报告全文[A/OL].http:///fagui/p-
1/39934.html.
[2]张杰.R语言数据可视化之美[M].北京:电子工业出版社,2019.
作者简介:
杨杰(1991-),男,四川眉山人,硕士研究生,初级统计师,研究方向:应用统计分析。