大数据探索性分析考试题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 / 9

以附件1中上海市药械化稽查办案数据,利用抽样的方法(抽取容量为200的样本),对其某一方面的特性进行分析、研究。

这里在R 里采用简单随机抽样抽取容量为200的样本数据,程序如下:

#####简单随机抽样

data=read.csv("G:/d.csv")

head(data)#将数据集读入R 中,并查看前六行数据

library(sampling)#加载抽样包

N=length(data[,3])#总体个数

n=200#需要抽取样本个数

set.seed(1)

yangben=srswor(n,N)#在总样本量N 中抽取n 个样本,返回其位置

yangben=getdata(data,yangben)#取出抽到样本的数据

write.csv(srs,file="药械化稽查办案信息抽取样本1.csv")#将抽到的数据读入本地文件

class(yangben)#查看抽到的数据类型

抽到的样本前几个部分展示如下:

接下来,我们对其中某些特性进行统计分析,首先,我关注的是所在区县,程序展示如下: a=table(yangben$所属区县)#统计17个区县出现的频数

barplot(a,main = "区县出现频数分布图")#绘出所在区县分布图,x 轴所对应的区县分别为(NA 宝山 长宁 崇明 奉贤 虹口 黄浦 嘉定 金山 静安 闵行 浦东 普陀 青浦 松江 徐汇 杨浦 闸北 )

a1=sort(a)#按升序排列

a2=sort(a,decreasing =T)#按降序排列

barplot(a1,main = "区县出现频数升序分布图")#绘出所在区县按升序排列的分布图,x

轴所对应的区县分别

为(NA 闵行黄浦嘉定宝山松江普陀徐汇长宁闸北静安虹口青浦杨浦浦东金山崇明奉贤) barplot(a2,main = "区县出现频数降序分布图")

a3=prop.table(table(yangben$所属区县))

barplot(a3,main = "所在区县比例分布图")#使用比例的形式来呈现相同的观察并绘制分布图

par(mfcol=c(2,2))#准备画四个图的地方

barplot(a,main = "区县出现频数分布图"); barplot(a1,main = "区县出现频数升序分布图")

barplot(a3,main = "所在区县比例分布图"); barplot(a2,main = "区县出现频数降序分布图")

par(mfcol=c(1,1))#取消par(mfcol=c(2,2))

a4=a1[14:18];barplot(a4,col=c(2:6))#查看分布最多的五个区县,并将这五个区县的分布用不同的颜色表示a5=sort(a3);sum(a5[14:18])

barplot(a5) ;par(mfcol=c(1,2));barplot(a4,col="light blue",sub = "比例最高的五个区县比例分布图");

barplot(a5[14:18],col="light green");par(mfcol=c(1,1))

通过程序结果可知,各区县被处罚的频数和分布图如下:

NA 宝山长宁崇明奉贤虹口黄浦嘉定金山静安闵行浦东普陀青浦松江徐汇杨浦闸北

1 10 6 17 27 11 7 15 2

2 8

3 8 7 18 13 8 9 10 NA 闵行长宁黄浦普陀静安浦东徐汇杨浦宝山闸北虹口松江嘉定崇明青浦金山奉贤

1 3 6 7 7 8 8 8 9 10 10 11 13 15 17 18 2

2 27

2/ 9

通过频数分布图和比例分布图可以观察到这17各区县违法行为出现的频率并不相同,并且差异比较大。计算所占稽查违法行为所占比例最高的五个区县分别为嘉定、崇明、青浦、金山、奉贤,并且这五个区县所占比例和为0.495,基本占了样本数据的一半,所以在后期检测中要着重对这五个区县进行稽查,或者对这五个区县有关部门提出整改意见,以便对这些区县的企业有一定监督作用。

下面对处罚决定时间分析程序代码及分析结果如下:

datetime=yangben$处罚决定时间#将抽取样本的处罚决定时间提取出来赋给datetime

b=format(as.POSIXct(datetime),"%Y")#先使用as.POSIXct()函数将datetime转换成日期时间的变量格式,使用format()函数从日期时间变量中单独取出年部分

c=table(b,yangben$所属区县)#使用table()这个命令构造出一个列联表

rownames(c)=c("2014","2015","2016")

barplot(c,legend.text=rownames(c),sub = "每一年各区县违规企业分布")

barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = "每一年各区县违规企业分布")#同上,只是柱状的颜色发生变化

barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),sub = "每一年各区县违规企业分布")#每一年各区县违规企业分布

par(mfcol=c(1,2))

barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = "每一年各区县违规企业分布(1)")

barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),sub = "每一年各区县违规企业分布(2)")

par(mfcol=c(1,1))#取消par(mfcol=c(2,2))结果展示:

对一级分类进行统计后得到的列联表结果如下:

> c

b na 宝山长宁崇明奉贤虹口黄浦嘉定金山静安闵行浦东普陀青浦松江徐汇杨浦闸北

2014 1 0 0 1 3 0 0 0 1 0 0 1 0 0 0 0 0 1

2015 0 1 0 11 6 5 4 6 8 3 2 2 4 13 3 7 5 8

2016 0 9 6 5 18 6 3 9 13 5 1 5 3 5 10 1 4 1

进而对每一年各区县的违法行为进行绘图分析结果如下

3/ 9

相关文档
最新文档