数学系13级学生高考数学成绩的统计分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:新学期开始,为了了解新生的数学文化底蕴,以及数学文化素养,因为素质的高低直接影响着学院对新生的教学目标的规划以及管理方案的实施。
为此我们特地对2013级数学科学学院2013级新生高考数学成绩进行了调查,并对其数据进行了详细的整理,充分利用图像的形象性绘制出直观明了的频数频率分布表、频数直方图,茎叶图等,并认真的对样本进行均值、方差、偏度、峰度的计算,用精确的数据来说明这次调查的科学性。
关键词:偏度 峰度 方差 平均值 正态分布 引言:大量的实践经验和理论分析表明,自然界服从正态分布的随机变量是最常见的,诸如人的身高、体重、学生考试分数,都可以看作是服从或近似服从正态分布。
那么,2013级数学成绩的分析也很有可能就是正态分布。
下面就是整个调查的全过程以及相关数据的分析。
一.采集样本
针对数学科学学院的2013级所有学生高考成绩的调查,我小组采用了抽样调查的方法,随机的抽取了数学教育班、数学与应用数学、统计学汉本班的高考成绩作为一个样本,通过对这个样本的整理、计算、分析来估测整体的信息。
下面是数学科学学院2013级学生高考数学成绩数据如下:
105 86 77 71 43 99 98.5 95 94 90 90 92 86 109 86 86 87 82 82 81 80 80 80 78 83 113 78 79 80 78 94 80 86.5 82 66 89 80 73 69 107 57 66 72 67 80 90.5 75 97.5 77 98 90 91 106 61.5 48 65 41.5 55 54 80 79 26 46 45 48 100 75 30 30 30 46 51 48.5 48 34 95 89 55 38 40 二.数据的整理
样本采集完毕后比较凌乱,为了形象的看出样本中新生高考成绩的走向,首先对数据进行了简单的整理,即通过频数频率分布表、频数分布直方图、茎叶图以及五数概括的箱线图直观的展示出样本的相关信息。
(一)频数频率分布表
频数频率分布表是数据整理的最常用方法之一,它的操作步骤如下: 1.对样本进行分组:该样本共有80个数据,分为9组;
2.确定每组组距:根据公式组距d=(样本最大值观测值—样本最小观测值)/组数 所以()7.9925113=÷-=d
,方便起见,取组距10=d ;
3.确定每组的组限:每组的区间的端点为
0a ,10a d a =+,202a d a =+,…,k a kd a =+0
形成如下的分组区间为],(10a a ,],(21a a , ,],(1k k a a - 于是本样本的分组区间为
]
115,105(],105,95(],95,85(],85,75(],75,65(],65,55(],55,45(],45,35(],35,25(4.统计样本需要根据落入每个区间的个数——频数,列出其频数频率分布表。
如表1-1
组序 分组区间 组中值 频数 频率 累计频率/% 1 (25,35] 30 5 0.0625 0.0625 2 (35,45] 41.5 5 0.0625 0.125 3 (45,55] 50.5 10 0.125 0.25 4 (55,65] 61 3 0.0375 0.2675 5 (65,75] 69.5 7 0.0875 0.375 6 (75,85] 79 22 0.275 0.65 7 (85,95] 90.5 18 0.225 0.875 8 (95,105] 101.5 6 0.075 0.95 9 (105,115] 109.5 4 0.05 1 合计 80 1 表1-1 附:组中值=
2
i i b a +()组的组上限和组下限表示第、这里i b a i i
总数频数频率=
累计频率=总数
1
-+i i a a ()组的频数表示第i a i
(二)频数分布直方图
频数分布直方图是在组距相等的场合常用宽度相等的长条矩形表示,在图形上,横坐标表示所关心的变量的取值区间,纵坐标表示频数,根据表1-1,很容易得到图1-1
(三)茎叶图 除直方图外,另一种常用的统计数据方法称之为茎叶图,茎叶图是将每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。
如图 1-2
(四)五数概括的箱线图
五数与箱线图是次序统计量的应用之一,五数是:最小观测值x x )1(min =;最大观测值x x n )(max =;中位数m 5.0;第一4分位数m Q 25.01
=和第三4分位数
m
Q 75
.03
=,箱线图由箱子和线段组成。
样本的五数值为26min =x ,113max =x ,
805
.0=m
,561=Q ,5.893=Q 。
故样本的箱线图如图1-3
三.数据的计算
为了进一步研究样本的相关性质,仅仅有图像的处理是不够的,为了使调查研究更具有科学性,还需要对样本的均值、方差、偏度和峰度进行准确的求解。
(一)对样本的均值、方差、偏度和峰度的定义及意义的说明。
名称符
号
定义计算公式意义
样
本均值-
x
设n
x
x
x,
,
,2
1
为取自
某总体的样本,其算术
平均值就是样本的均值。
n
x
x
x
x n
+
+
+
=
-
2
1
= ∑
=
n
i
i
x
n1
1
均值反映的是一个
样本的平均水平,
但其受极端值的影
响较大
样本方差
2
S
设为取自某总体的样本,样本的
样本的
随机变量与样本均值
-
x差
的平方和。
∑-
=
-
-
=
n
i x
x
s
i
n1
2
2
)
(
1
1
反映样本取值的
“波动”程度大小
的变量
样本偏度β
s
∧
设是样本统计量βs∧=
b
b
2
3
2
3为
β
s
∧
=
b
b
2
3
2
3为
样本的偏度。
β
s
∧
=
b
b
2
3
2
3
反映了总体分布密
度曲线的对称性信
息若0
=
∧
β
s
对称;
>
∧
β
s
,右偏;
<
∧
β
s
,左偏
样
本峰度β
k
∧
设是样本统计量βk∧=3
2
2
4-
b
b
β
k
∧
=3
2
2
4-
b
b
为样本的峰度。
β
k
∧
=3
2
2
4-
b
b
反映了总体分布密
度曲线在其峰值附
近的陡峭程度;若
=
∧
β
k
,与正态分
布接近;0
>
∧
β
k
,
比正态分布陡峭,
称为“尖顶型”;
<
∧
β
k
,比正态分
布平坦,称为“平
顶型”
(二)具体数值的计算
借助excel表格,通过以上公式的计算,得出问题中的均值、方差、偏度和峰度,如表1-2
-
x2sβs∧βk∧
74.00625 454.7562896 -0.51810521 -0.542467483
表1-2
四.数据的分析
通过以上表格,图像以及数据的求解我们对这次调查的分数的分析总结如下:
(一)我们通过频数分布直方图可以看到:在75到85之间,人数最多;在105到115之间与25到35之间,人数相对少,我们把频数分布直方图中各组的组中值连接起来,可以看到大体上它是与正态分布的图像一样的,因为满足正态分布曲线的“中间高、两边低”的特点,那我们就说我们统计的13级的数学成绩近似地服从正态分布。
则通常认为这次的考试成绩分布是正常的。
(二)调查中发现2013级数学系学生高考数学总成绩为5920.5,而通过上面的表格可知这三个班的平均分是74.00625,若按实际我们高考数学总分150,达到90分才算及格,从整体来看是在及格分以下的,说明整体成绩不高,说明可能试卷有一定的难度。
我们从箱线图来看最高分为113,最低分为26,成绩的分布很分散,高的不算太高,但是低的却是很低,通过统计可知20、30多分的都是来自13级的教育班,教育班拉低了整体的平均分。
我们从箱线图还可以看到中位数是80,由于26与80的距离要比113与80的距离要大,则分布呈现左偏;这也恰恰和偏度的取值相对应,我们知道偏度是反映总体分布密度曲线与对称性的偏离方向和程度的,根据表格,得出样本偏度小于零,这同时也与分布呈现左偏相对应,即样本中有几个特小的数,看我们所收集的样本可知,26到56值偏小的数目多,不及格的人数要比及格的人数多,这也是拉低平均分的一个根据。
(三)样本方差为454.7562896,标准差约为21.3,这是一个较大的标准差,我们知道:标准差反映的是一个数据的离散程度。
说明我们统计的这80名学生的数学高考成绩离散程度大,即与平均分的分散程度大,不集中;这恰恰与样本峰度相吻合,样本峰度是反映总体分布密度曲线在其峰值附近的陡峭程度和尾部粗细的量。
根据表格:样本峰度小于零,说明成绩的分布密度曲线在其峰值附近比正态分布来的平坦,尾部更粗,也就是据峰值处的概率没有正态分布的高,而两侧要比正态总体的概率要大,说明数据比较分散。
(四)因为高考是一个选拔性的考试,难度肯定要比我们在高考前做的测验难,所以我们统计的13级的高考成绩的为负偏态的正态分布也是合理的。
参考文献:[1]概率论与数理统计学习指导[M] 罗俊明等编郑州大学出版社
[2]概率论与数理统计基础[M] 翁方愚,李晓军编著中国铁道出版社
[3]概率论与数理统计[M] 刘卫江主编清华大学出版社
[4]概率论与数理统计(基础篇)[M] 姚孟臣编著北京大学出版社
[5]概率论与数理统计及其应用[M] 盛骤谢式千编高等教育出版社。