关于课程关系量化分析的数学模型

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。

我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。

如有违反竞赛规则的行为，我们将受到严肃处理。

我们参赛选择的题号是（从A/B/C/D中选择一项填写）：
我们的参赛报名号为（如果赛区设置报名号的话）：05
所属学校（请填写完整的全名）：延安大学
参赛队员(打印并签名) ：1. 彭瑞
2. 呼建雪
3. 朱培育
指导教师或指导教师组负责人(打印并签名)：
日期： 2012 年 8 月 27 日赛区评阅编号（由赛区组委会评阅前进行编号）：
编号专用页
赛区评阅编号（由赛区组委会评阅前进行编号）：
全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：
关于课程关系量化分析的数学模型
摘要
本文探讨研究了关于某高校两个专业四门课程分数、学生学习水平的差异显著性以及课程间相互影响的情况。

首先我们对两个专业的各科成绩分别统计了平均值、标准差、及格率以及优秀率这些统计量值，又根据这些数据作出了特性指标矩阵；然后采用模糊聚类分析中的最优划分法得到了聚类分类结果，得到结论为：两专业的高级程序设计语言分数差异性显著，其他三门科目均没有显著差异。

接着我们根据课程间的联系，采用层次分析法得到各个科目在总成绩中所占的权重，即得到关于衡量学生学习水平的总成绩模型：
4j 3j 2j
1j
0.2323x 0.3619x 0.6090x
0.6664x
+++=y
然后利用单因素方差分析法得到专业对学生学习水平影响的显著性05.0132.0>，即两个专业学生的学习水平无明显差异。

对于问题（3），我们直接利用SPSS 软件中的回归分析法得到高级程序语言设计、离散数学两门课程学习的优劣会影响到数据结构和数据库原理的学习。

最后，综合以上分析得到对于专业主干课的学习，我们应该认真学好专业基础课，以便为后续课程的学习打好基础。

关键词：
模糊聚类分析层次分析单因素方差分析回归分析
一．问题重述
附件一、二分别给出了某高校两个专业的高级语言程序设计、离散数学、数据结构、数据库原理这四门课程的期末考试成绩数据，请根据数据分析并解决以下几个问题：（1）分析每门课程两个专业学生的分数是否有明显差异？
（2）分析两个专业学生的学习水平有无明显差异？
（3）分析说明高级语言程序设计和离散数学两门课程学习的优劣是否影响数据结构和数据库原理两门课程的学习？
（4）根据1~3问所作出的分析，面向全校本科生同学，撰写一篇1000字左右的论文，阐述你们对于专业主干课程学习方面的看法。

二．问题分析
2.1针对于问题（1）：
该题要求我们针对两个专业的每门课程的分数分析其差异性，所以对于四门课程，我们利用Excel计算出每科成绩相应的统计量，然后利用模糊最优划分法比较对应的统计量值得到差异显著性的相关结论。

2.2针对于问题（2）：
由于要用成绩来衡量学生的学习水平，所以首先我们采用层次分析法得到各科成绩在总成绩中所占的权重，然后再利用单因素方差分析法作出总成绩受专业因素的影响情况，即可得到两个专业学生学习水平的差异性。

2.3针对于问题（3）：
按实际学习情况来看，高级语言程序设计和离散数学两门课程作为基础课，对后续课程的学习会有一定的影响。

为了进一步说明高级语言程序设计和离散数学两门课程的优劣是否对数据结构和数据库原理两门课程有影响，我们不考虑专业的影响，仅从这四门课程成绩的相关性进行考虑，即高级语言、离散数学与数据结构成绩的相关性，高级语言、离散数学与数据库原理成绩的相关性。

利用SPSS软件中的回归分析进行求解。

2.4针对于问题（4）：
综合分析问题（1）—（3）的结论，得到一些关于专业主干课程的学习建议。

并按要求撰写1000字左右的建议信。

三．模型假设
1.对0分成绩视为缺考处理，即该项数据为无效数据；
2.学生与学生之间、班级与班级之间的成绩无相互影响，即为独立的；
3.学生的学习水平仅有成绩来衡量，该论文不考虑其他因素。

五．模型建立与求解
5.1问题（1）：
将附件所给数据利用Excel统计出两个专业每门课程的平均分、标准差、及格率、优秀率等统计量，为了对这些统计量进行分析比较，我们采用模糊逐步聚类分析给出分类标准，由此即可得到两个专业每门课程学生分数的差异性。

首先作出相应的统计量值：
表1：两专业高级语言程序设计分数统计量表
表2：两专业离散数学分数统计量表
表3：两专业数据结构分数统计量表
表4：两专业数据库原理分数统计量表
然后根据上表中的平均值、标准差、及格率以及优秀率构造特性指标矩阵如下：
⎥⎥⎥⎥
⎥⎥⎥⎥
⎥⎥⎦
⎤⎢⎢⎢
⎢⎢⎢⎢
⎢⎢
⎢⎣
⎡1.2812
.9404.1409.7006.232.9717.1215.7538.1442.9561.1468.7015.1226.9631.1185.7015.973.9622.1012.7054.665.9033.1404.6622.2212.9487.3232.7169.1826.9689.1399.69
其中，行依次为专业一、专业二高级程序语言设计、离散数学、数据结构和数据库原理相应的统计量值。

数据规格化：采用最大值规格化后得到：
⎥⎥⎥⎥⎥
⎥⎥⎥
⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
⎡197
.043
.093.083.0137.0151.098.044.094.043.099.034.094.033.0995.031.093.023.093.044.088.079.097.0195.067.099.042.093.0
最后再利用最大最小法构造模糊相似矩阵为：
⎥⎥⎥⎥
⎥⎥⎥⎥
⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
⎡19
.085
.079
.09.0186.084.085.086.0193.079.084.093.0176
.074
.08
.089.089.074.08.06.088.086.077.093.095.088.072.089.076.089.088.095.074.074.086.088.08.08.077.072.089.06.093.089.0187.068.085.087.0167.081.068.067.018.085.081.08.01
为了给出聚类划分标准，我们采用最优模糊划分法。

利用其相关公式可得拉格朗日方程为：
)1-u (-),(8
1
i 2
8
1
2∑∑==+=i i ij i i i u x u u L λλ 【1式】
对上式分别关于变量i u ,λ求偏导得：
⎪⎩⎪⎨
⎧
=+=∑=0-20
1-2
8
1λi
ij i i i u x u u 【2式】
利用MATLAB 对上式求解，最后可得评价标准集为：
[]89.088.087.086.086.087.088.089.0=i u
再结合上述的相似矩阵可得聚类分析的布尔矩阵为：
⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣
⎡11
00110000110011000110001101110101110011000010111100110000100001
分析该矩阵可得模糊聚类分类为：
{}{}28765431,,,,,,x x x x x x x x 和
即这两个专业的学生的各科分数中，只有高级程序语言差异性较明显，其他三门科目均没有明显差异。

5.2问题（2）：
该题要分析两个专业学生的学习水平有无明显差异，由于学习水平要用成绩来衡量，所以要求出四门课程的总成绩。

首先构建一个层次分析模型来求出各科在总成绩中的权重，然后再利用单因素方差分析模型来判断总成绩是否显著相关，将专业看做对成绩的影响因素进行分析。

5.2.1层次分析模型：
图1 总成绩的层次分析图
取⎥⎥⎥⎥⎥
⎥⎦
⎢⎢⎢⎢
⎢⎢⎣⎡=12
12
13
121212122111A ，利用MATLAB 求得A 的最大特征根和它对应的特征根向量（运行程序及结果见附件），分析结果可得：
0458.4=λ，它所对应的特征根向量为：
9,0.2323)6090,0.361(0.6664,0.=α。

由于对于成对比较矩阵A ，一致性指标为：
)
1--(
n n
CI λ=
（λ为A 的最大特征根，n 为矩阵A 的阶数）随机一致性指标为RI ，所以一致性比率为)(RI
CI
CR =。

验证：0153.01
44
=--=
λCI ,此时有：
09.0=RI
1.0017.0)(
<==RI
CI
CR 所以该矩阵合适，α可以作为各门成绩在总成绩中占的比重。

所以求得总成绩为：
4j 3j 2j
1j
0.2323x 0.3619x 0.6090x
0.6664x
+++=y 【3式】
5.2.2单因素方差分析模型：
先用Excel 在表格中根据上述模型计算出各专业的总成绩，然后在SPSS 中打开数据管理窗口，定义变量名专业和总成绩，然后按顺序输入相应总成绩，专业依次定为数值1，2。

然后运行 “分析 -> 比较均值 -> 单因素ANOVA ”进行单因素方差分析,得到如下结果：
由上表分析可得：显著性为05.0132.0 ，即由方差分析得这两个专业学生的学习水平无明显差异。

5.3问题（3）：
为了分析高级语言程序设计和离散数学两门课程的优劣是否对数据结构和数据库原理两门课程有影响，我们不考虑专业的影响，仅从这四门课程成绩的相关性进行考虑，即高级语言、离散数学与数据结构成绩的相关性，高级语言、离散数学与数据库原理成绩的相关性。

直接利用SPSS 软件中的回归分析进行求解。

5.3.1高级语言、离散数学与数据结构分数的相关性：
选择“分析—回归—线性”，将因变量“高级语言、离散数学”、“数据结构”分别移至对应的框中，在“方法”中选择“进入”把所有自变量放入回归模型，选择统计量中的“估计、模型拟合度、R 方变化、描述性”四项，点击“选项”选择“使用F 的概率“及“在等式中包含常量”，保存后运行，输出如下结果：
ANOVA 总成绩
平方和 df 均方 F 显著性组间 746.573 1 746.573 2.283 .132 组内 84384.073 258 327.070
总数 85130.646
259
对表中的数据分析可得：R表示复相关系数，反应的是自变量与因变量之间的密切程度，R方表示复相关系数的平方，称为决定系数，这里R=0.512，说明数据结构的成绩与高级语言、离散数学的成绩有一定的关系。

上表中p值小于0.05，因此该回归模型有显著的统计意义，即线性回归方程高度显著。

相关性
数据结构高级语言离散数学
数据结构 1.000 .348 .481
Pearson 相关
性
高级语言.348 1.000 .329
离散数学.481 .329 1.000
Sig. （单侧）数据结构. .000 .000
高级语言.000 . .000
离散数学.000 .000 .
N 数据结构260 260 260
高级语言260 260 260
离散数学260 260 260
上表的pearson相关性说明高级语言、离散数学、数据结构三者之间存在一定的关系。

回归分析结果如下：
由上表可知，拟合的线性回归方程为：12y=0.473+0.202+24.042
x x ，其中1x , 2x 分别表示自变量“高级语言成绩、离散数学成绩”，y 表示因变量“数据结构成绩”
由此可知对于某位学生的成绩，高级语言、离散数学成绩越好，数据结构的成绩就越好。

相对而言，高级语言对数据结构的影响比离散数学大。

5.3.2 高级语言、离散数学与数据库原理成绩的相关性
处理方法同上，分析所得结果：
由于R=0.439，说明数据库原理的成绩与高级语言、离散数学的成绩有一定的关系。

上表中p值小于0.05，因此该回归模型有显著的统计意义，即线性回归方程高度显著。

上表的pearson相关性说明高级语言、离散数学、数据库原理三者之间存在一定的关
系。

由上表可知，拟合的线性回归方程为：12y=0.268+0.293+36.132
x x ，其中1x , 2x 分别表示自变量“高级语言成绩、离散数学成绩”，y 表示因变量“数据库原理成绩”
由此可知对于某位学生的成绩，高级语言、离散数学成绩越好，数据库原理的成绩就越好。

5.4问题（4）：
由该论文上述模型分析结果可知：
不同专业的同学学习水平并无明显差异。

影响学生学习成绩差异的因素主要有：第一，学生对于本专业的专业基础课程的掌握情况，专业基础课程的学习会影响后续主干课程的学习；
第二，同学们学习目标的制定，我们对学生学习成绩的统计分析可得，较多同学的学习成绩基本上集中在及格线附近，这说明同学们给自己定的目标较低。

鉴于上述分析，我们觉得：大学生在校学习期间，不但要注意专业课的学习，更要注意拓宽自己的知识面，尽可能多的接触课外知识。

因为大学学习，我们的目标是将自己培养成为全能型人才，不能仅仅局限于专业知识的学习，但是另一方面也应努力学习掌握好专业知识。

首先，我们应该学好专业基础课程，这些课程是后续主干课程的基础，只有这样才能掌握好专业主干课程的相关知识。

对于本科低年级学生，要夯实专业基础知识，培养好自己的推理能力。

要学好专业主干课程，并不能单靠课本的基础知识，我们应该广泛的学习各个领域的知识，以更好的理解自己的专业知识。

专业主干课程的学习要比其他课程的学习更加重要，但是专业基础课程的学习又是主干课程的基础，如果专业基础课程学不好，对专业主干课程的学习会有很大的影响，首先会影响主干课程相关知识的掌握，再有就是会影响学生对专业课程学习的热情，近而影响学生对专业的喜爱程度，从而影响学生的学习水平。

所以更应该重视专业基础课程的学习。

其次，在学习中，我们应尽可能多的与老师和学习好的同学进行交流，以便得到更多
准确信息；还要注意课程间的相关性，在学习不同课程的时候，应注意课程间的联系，要活学活用，并灵活地进行知识迁移。

最后，由于不同专业学生学习水平之间的差异只能用相同的课程去做比较，但不同专业对于同一门课程学习时的侧重点是不同的，因此，虽然学生学习的是相同的课程，但是根据不同专业学生培养方向的不同，对课程学习的要求不同，学生对该门课程的掌握情况肯定不同。

所以不能单就学生的学习成绩来衡量同学的学习水平。

应该制定更合理的衡量标准。

比如对于理工科学生来说，重要的应该是同学们对该门课程所学理论知识的综合应用，应根据专业培养侧重点的不同检测其实际动手应用能力。

六．模型评价与模型推广
模型一：该模型首先针对两个专业各门课程的成绩统计出平均分、标准差、及格率、优秀率，然后利用模糊最优划分分析出对这四个统计量的分类标准，此模型可以推广到其他问题的差异性比较。

模型二：该论文建立了单因素方差分析模型，该模型适用范围较广，能有效地对于受单因素影响的问题进行合理的分析。

模型三：采用SPSS软件建立线性回归模型并进行求解，此方法适用于分析两个或多个变量之间的的相互影响，用软件求解方便快捷。

参考文献：
[1]谢崇宝、袁宏源、郭元裕，《最优分类的模糊划分聚类改进方法》，系统工程；
[2]刘新平，《概率论与数理统计》，陕西师范大学出版总社有限公司；
[3]姜启源、谢金星、叶俊，《数学模型第四版》，高等教育出版社；
[4]沈恒范，《概率论与数理统计教程第五版》，高等教育出版社。

附件：
MATLAB程序代码一：
clear
A=[1 1 1 1 1 1 1 1 0;2.5754 0 0 0 0 0 0 0 1;0 2.9252 0 0 0 0 0 0 1;0 0 2.6622 0 0 0 0 0 1;0 0 0 2.4568 0 0 0 0 1;0 0 0 0 2.364 0 0 0 1;0 0 0 0 0 2.2776 0 0 1;0 0 0 0 0 0 2.6698 0 1;0 0 0 0 0 0 0 2.9128 1];
a=[1 0 0 0 0 0 0 0 0]';
B=[A a];
n=9;
RA=rank(A)
RB=rank(B)
if RA==RB&RA==n
X=A\a
D=null(A,'r')
else
fprintf('方程无解')
end
运行结果:
RA =
9
RB =
9
X =
0.1055
0.1205
0.1315
0.1376
0.1368
0.1320
0.1211
0.1110
-0.3233
D =
Empty matrix: 9-by-0
>>
MATLAB程序代码二：
A=[
1 1
2 3
1 1
2 2
1/2 1/2 1 2
1/3 1/2 1/2 1];
[x,lumda]=eig(A);
r=abs(sum(lumda));
n=find(r==max(r));
max_lumda_A=lumda(n,n) %最大特征根
max_x_A=x(:,n); %最大特征根所对应的特征向量max_x_A
运行结果：
max_lumda_A =
4.0458
max_x_A =
0.6664
0.6090
0.3619
0.2323。